歡迎來到裝配圖網(wǎng)! | 幫助中心 裝配圖網(wǎng)zhuangpeitu.com!
裝配圖網(wǎng)
ImageVerifierCode 換一換
首頁 裝配圖網(wǎng) > 資源分類 > DOC文檔下載  

數(shù)據(jù)倉庫建設(shè)方案.doc

  • 資源ID:6596417       資源大?。?span id="8hy7fk7" class="font-tahoma">1.67MB        全文頁數(shù):32頁
  • 資源格式: DOC        下載積分:9.9積分
快捷下載 游客一鍵下載
會員登錄下載
微信登錄下載
三方登錄下載: 微信開放平臺登錄 支付寶登錄   QQ登錄   微博登錄  
二維碼
微信掃一掃登錄
下載資源需要9.9積分
郵箱/手機(jī):
溫馨提示:
用戶名和密碼都是您填寫的郵箱或者手機(jī)號,方便查詢和重復(fù)下載(系統(tǒng)自動生成)
支付方式: 支付寶    微信支付   
驗(yàn)證碼:   換一換

 
賬號:
密碼:
驗(yàn)證碼:   換一換
  忘記密碼?
    
友情提示
2、PDF文件下載后,可能會被瀏覽器默認(rèn)打開,此種情況可以點(diǎn)擊瀏覽器菜單,保存網(wǎng)頁到桌面,就可以正常下載了。
3、本站不支持迅雷下載,請使用電腦自帶的IE瀏覽器,或者360瀏覽器、谷歌瀏覽器下載即可。
4、本站資源下載后的文檔和圖紙-無水印,預(yù)覽文檔經(jīng)過壓縮,下載后原文更清晰。
5、試題試卷類文檔,如果標(biāo)題沒有明確說明有答案則都視為沒有答案,請知曉。

數(shù)據(jù)倉庫建設(shè)方案.doc

第 16/2016/DAF/SA 號公開招標(biāo)方案建議書第1章 數(shù)據(jù)倉庫建設(shè)1.1 數(shù)據(jù)倉庫總體架構(gòu)專家系統(tǒng)接收增購項(xiàng)目車輛TCMS或其他子系統(tǒng)通過車地通信傳輸?shù)膶?shí)時或離線數(shù)據(jù),經(jīng)過一系列綜合診斷分析,以各種報表圖形或信息推送的形式向用戶展示分析結(jié)果。針對診斷出的車輛故障將給出專家建議處理措施,為車輛的故障根因修復(fù)提供必要的支持。根據(jù)專家系統(tǒng)數(shù)據(jù)倉庫建設(shè)目標(biāo),結(jié)合系統(tǒng)數(shù)據(jù)業(yè)務(wù)規(guī)范,包括數(shù)據(jù)采集頻率、數(shù)據(jù)采集量等相關(guān)因素,設(shè)計專家系統(tǒng)數(shù)據(jù)倉庫架構(gòu)如下:數(shù)據(jù)倉庫架構(gòu)從層次結(jié)構(gòu)上分為數(shù)據(jù)采集、數(shù)據(jù)存、數(shù)據(jù)分析、數(shù)據(jù)服務(wù)等幾個方面的內(nèi)容:數(shù)據(jù)采集:負(fù)責(zé)從各業(yè)務(wù)自系統(tǒng)中匯集信息數(shù)據(jù),系統(tǒng)支撐Kafka、Storm、Flume及傳統(tǒng)的ETL采集工具。數(shù)據(jù)存儲:本系統(tǒng)提供Hdfs、Hbase及RDBMS相結(jié)合的存儲模式,支持海量數(shù)據(jù)的分布式存儲。數(shù)據(jù)分析:數(shù)據(jù)倉庫體系支持傳統(tǒng)的OLAP分析及基于Spark常規(guī)機(jī)器學(xué)習(xí)算法。數(shù)據(jù)服務(wù)總線:數(shù)據(jù)系統(tǒng)提供數(shù)據(jù)服務(wù)總線服務(wù),實(shí)現(xiàn)對數(shù)據(jù)資源的統(tǒng)一管理和調(diào)度,并對外提供數(shù)據(jù)服務(wù)。1.2 數(shù)據(jù)采集專家系統(tǒng)數(shù)據(jù)倉庫數(shù)據(jù)采集包括兩個部分內(nèi)容:外部數(shù)據(jù)匯集、內(nèi)部各層數(shù)據(jù)的提取與加載。外部數(shù)據(jù)匯集是指從TCMS、車載子系統(tǒng)等外部信息系統(tǒng)匯集數(shù)據(jù)到專家數(shù)據(jù)倉庫的操作型存儲層(ODS);內(nèi)部各層數(shù)據(jù)的提取與加載是指數(shù)據(jù)倉庫各存儲層間的數(shù)據(jù)提取、轉(zhuǎn)換與加載。1.2.1 外部數(shù)據(jù)匯集專家數(shù)據(jù)倉庫數(shù)據(jù)源包括列車監(jiān)控與檢測系統(tǒng)(TCMS)、車載子系統(tǒng)等相關(guān)子系統(tǒng),數(shù)據(jù)采集的內(nèi)容分為實(shí)時數(shù)據(jù)采集和定時數(shù)據(jù)采集兩大類,實(shí)時數(shù)據(jù)采集主要對于各項(xiàng)檢測指標(biāo)數(shù)據(jù);非實(shí)時采集包括日檢修數(shù)據(jù)等。根據(jù)項(xiàng)目信息匯集要求,列車指標(biāo)信息采集具有采集數(shù)據(jù)量大,采集頻率高的特點(diǎn),考慮到系統(tǒng)后期的擴(kuò)展,因此在數(shù)據(jù)數(shù)據(jù)采集方面,要求采集體系支持高吞吐量、高頻率、海量數(shù)據(jù)采集,同時系統(tǒng)應(yīng)該靈活可配置,可根據(jù)業(yè)務(wù)的需要進(jìn)行靈活配置橫向擴(kuò)展。本方案在數(shù)據(jù)采集架構(gòu)采用Flume+Kafka+Storm的組合架構(gòu),采用Flume和ETL工具作為Kafka的Producer,采用Storm作為Kafka的Consumer,Storm可實(shí)現(xiàn)對海量數(shù)據(jù)的實(shí)時處理,及時對問題指標(biāo)進(jìn)行預(yù)警。具體采集系統(tǒng)技術(shù)結(jié)構(gòu)圖如下:1.2.1.1 數(shù)據(jù)匯集架構(gòu)功能Flume提供了從console(控制臺)、RPC(Thrift-RPC)、text(文件)、tail(UNIX tail)、syslog(syslog日志系統(tǒng),支持TCP和UDP等2種模式),exec(命令執(zhí)行)等數(shù)據(jù)源上收集數(shù)據(jù)的能力。Flume的數(shù)據(jù)接受方,可以是console(控制臺)、text(文件)、dfs(HDFS文件)、RPC(Thrift-RPC)和syslogTCP(TCP syslog日志系統(tǒng))等。在我們系統(tǒng)中由kafka來接收。Kafka分布式消息隊(duì)列,支撐系統(tǒng)性能橫向擴(kuò)展,通過增加broker來提高系統(tǒng)的性能。Storm流處理技術(shù),支撐Supervisor橫向擴(kuò)展以提高系統(tǒng)的擴(kuò)展性和數(shù)據(jù)處理的實(shí)時性。1.2.1.2 采集架構(gòu)優(yōu)勢(一) 解耦在項(xiàng)目中要平衡數(shù)據(jù)的匯集與數(shù)據(jù)的處理性能平衡,是極其困難的。消息隊(duì)列在處理過程中間插入了一個隱含的、基于數(shù)據(jù)的接口層,兩邊的處理過程都要實(shí)現(xiàn)這一接口。這允許你獨(dú)立的擴(kuò)展或修改兩邊的處理過程,只要確保它們遵守同樣的接口約束。 冗余有些情況下,處理數(shù)據(jù)的過程會失敗。除非數(shù)據(jù)被持久化,否則將造成丟失。消息隊(duì)列把數(shù)據(jù)進(jìn)行持久化直到它們已經(jīng)被完全處理,通過這一方式規(guī)避了數(shù)據(jù)丟失風(fēng)險。在被許多消息隊(duì)列所采用的“插入-獲取-刪除”范式中,在把一個消息從隊(duì)列中刪除之前,需要你的處理過程明確的指出該消息已經(jīng)被處理完畢,確保你的數(shù)據(jù)被安全的保存直到你使用完畢。 擴(kuò)展性因?yàn)橄㈥?duì)列解耦了你的處理過程,所以增大消息入隊(duì)和處理的頻率是很容易的;只要另外增加處理過程即可。不需要改變代碼、不需要調(diào)節(jié)參數(shù)。擴(kuò)展就像調(diào)大電力按鈕一樣簡單。 靈活性 & 峰值處理能力在訪問量劇增的情況下,應(yīng)用仍然需要繼續(xù)發(fā)揮作用,但是這樣的突發(fā)流量并不常見;如果為以能處理這類峰值訪問為標(biāo)準(zhǔn)來投入資源隨時待命無疑是巨大的浪費(fèi)。使用消息隊(duì)列能夠使關(guān)鍵組件頂住突發(fā)的訪問壓力,而不會因?yàn)橥话l(fā)的超負(fù)荷的請求而完全崩潰。 可恢復(fù)性當(dāng)體系的一部分組件失效,不會影響到整個系統(tǒng)。消息隊(duì)列降低了進(jìn)程間的耦合度,所以即使一個處理消息的進(jìn)程掛掉,加入隊(duì)列中的消息仍然可以在系統(tǒng)恢復(fù)后被處理。而這種允許重試或者延后處理請求的能力通常是造就一個略感不便的用戶和一個沮喪透頂?shù)挠脩糁g的區(qū)別。 送達(dá)保證消息隊(duì)列提供的冗余機(jī)制保證了消息能被實(shí)際的處理,只要一個進(jìn)程讀取了該隊(duì)列即可。在此基礎(chǔ)上,IronMQ提供了一個”只送達(dá)一次”保證。無論有多少進(jìn)程在從隊(duì)列中領(lǐng)取數(shù)據(jù),每一個消息只能被處理一次。這之所以成為可能,是因?yàn)楂@取一個消息只是”預(yù)定”了這個消息,暫時把它移出了隊(duì)列。除非客戶端明確的表示已經(jīng)處理完了這個消息,否則這個消息會被放回隊(duì)列中去,在一段可配置的時間之后可再次被處理。 緩沖在任何重要的系統(tǒng)中,都會有需要不同的處理時間的元素。例如,加載一張圖片比應(yīng)用過濾器花費(fèi)更少的時間。消息隊(duì)列通過一個緩沖層來幫助任務(wù)最高效率的執(zhí)行寫入隊(duì)列的處理會盡可能的快速,而不受從隊(duì)列讀的預(yù)備處理的約束。該緩沖有助于控制和優(yōu)化數(shù)據(jù)流經(jīng)過系統(tǒng)的速度。 異步通信很多時候,你不想也不需要立即處理消息。消息隊(duì)列提供了異步處理機(jī)制,允許你把一個消息放入隊(duì)列,但并不立即處理它。你想向隊(duì)列中放入多少消息就放多少,然后在你樂意的時候再去處理它們。1.2.2 內(nèi)部各層數(shù)據(jù)提取與加載數(shù)據(jù)匯集將數(shù)據(jù)儲存于操作型數(shù)據(jù)存儲層(ODS),在數(shù)據(jù)倉庫各層次間數(shù)據(jù)轉(zhuǎn)換提取加載,采用傳統(tǒng)的ETL工具進(jìn)行采集,數(shù)據(jù)倉庫間的各層次的數(shù)據(jù)采集的實(shí)效性根據(jù)具體的數(shù)據(jù)需求而定,具體ETL建模界面如圖:1.3 數(shù)據(jù)加工與處理對于數(shù)據(jù)倉庫平臺,應(yīng)該建立一套標(biāo)準(zhǔn)化、規(guī)范化的數(shù)據(jù)處理流程,例如:如何采集內(nèi)部和外部數(shù)據(jù)、結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù);如何清洗采集來的臟數(shù)據(jù)和無效數(shù)據(jù);如何對不同來源的數(shù)據(jù)進(jìn)行打通;如何對非結(jié)構(gòu)化的數(shù)據(jù)進(jìn)行結(jié)構(gòu)化加工;如何在結(jié)構(gòu)化數(shù)據(jù)的基礎(chǔ)上進(jìn)行商業(yè)建模和數(shù)據(jù)挖掘等等。大數(shù)據(jù)管理層在一條數(shù)據(jù)總線上構(gòu)建了一條完整的大數(shù)據(jù)處理流水線。這條流水線從數(shù)據(jù)的采集、清洗到加工處理,把原始雜亂無章的數(shù)據(jù)加工成結(jié)構(gòu)化的數(shù)據(jù)組件,供上層的大數(shù)據(jù)應(yīng)用來拼裝調(diào)用,讓企業(yè)擁有創(chuàng)造數(shù)據(jù)資產(chǎn)的能力。1.4 存儲設(shè)計1.4.1 數(shù)據(jù)量估算按每列列車平均500毫秒通過車地通信采集監(jiān)測數(shù)據(jù)100條,每天運(yùn)營時間18小時,按每條記錄160字節(jié)計算(監(jiān)測數(shù)據(jù)的數(shù)據(jù)項(xiàng)相對簡單),初步按照67列列車計算。單列列車日監(jiān)測數(shù)據(jù)=3600*2*160*100*18/1024/1024/10242G67列列車年數(shù)據(jù)量=2*67*365/1024 48T10年總數(shù)據(jù)量(乘上增長系數(shù)10%)530T (含操作系統(tǒng))數(shù)據(jù)規(guī)劃10年,加上系統(tǒng)用戶信息、系統(tǒng)日志信息、專家信息、業(yè)務(wù)數(shù)據(jù)及其它不可預(yù)測類數(shù)據(jù),數(shù)據(jù)總量預(yù)估530T。1.4.2 數(shù)據(jù)存儲專家系統(tǒng)數(shù)據(jù)采用混合存儲模式進(jìn)行存儲,RDBMS存儲專家系統(tǒng)業(yè)務(wù)基本數(shù)據(jù)及最近1年的監(jiān)測數(shù)據(jù),10年內(nèi)歷史監(jiān)測數(shù)據(jù)采用NoSQL HBase數(shù)據(jù)庫進(jìn)行存儲,以方便查詢,HBase基于Hdfs分布式文件系統(tǒng)搭建,具體存儲模式如下圖。1. RDBMS數(shù)據(jù)庫,支持專家?guī)斓暮诵臉I(yè)務(wù),存儲列車最近1年的監(jiān)測數(shù)據(jù)為保證專家系統(tǒng)安全、穩(wěn)定運(yùn)行,在數(shù)據(jù)庫系統(tǒng)上支撐各種統(tǒng)計分析及傳統(tǒng)的BI業(yè)務(wù)。考慮到操作系統(tǒng)存儲、緩存存儲、數(shù)據(jù)庫系統(tǒng)存儲、日志存儲等因素, RDBMS數(shù)據(jù)庫服務(wù)器預(yù)計每臺60T存儲,考慮數(shù)據(jù)安全及系統(tǒng)穩(wěn)定因素RDBMS采用雙機(jī)熱備技術(shù)互備。2. 大數(shù)據(jù)平臺規(guī)劃存儲最近10年監(jiān)測數(shù)據(jù),日志文件備份及歷史數(shù)據(jù)采用大數(shù)據(jù)Hadoop和HBase存儲,大數(shù)據(jù)平臺數(shù)據(jù)采用節(jié)點(diǎn)間冗余備份,預(yù)設(shè)數(shù)據(jù)2倍冗余存儲,(考慮平臺提供的壓縮技術(shù),壓縮存儲可以節(jié)省30-55%的空間)。10年數(shù)據(jù)量=530T*1.5 800T (2倍冗余存儲)1.4.3 分層存儲專家數(shù)據(jù)分三個層次進(jìn)行匯集與存儲,分別為ODS層、數(shù)據(jù)倉庫層、主題數(shù)據(jù)層,各層次數(shù)據(jù)存儲內(nèi)容如下 ODS層:數(shù)據(jù)來源于各生產(chǎn)系統(tǒng),通過ETL工具對接口文件數(shù)據(jù)進(jìn)行編碼替換和數(shù)據(jù)清洗轉(zhuǎn)換,不做關(guān)聯(lián)操作。未來也可用于準(zhǔn)實(shí)時數(shù)據(jù)查詢。 數(shù)據(jù)倉庫層:數(shù)據(jù)深度匯集層,根據(jù)業(yè)務(wù)有選擇的對ODS層的數(shù)據(jù)進(jìn)行提取,通過對數(shù)據(jù)的加工處理,將單一的數(shù)據(jù)信息轉(zhuǎn)換成體系信息,將點(diǎn)信息數(shù)據(jù)變成面信息數(shù)據(jù)。 主題數(shù)據(jù)層:將數(shù)據(jù)信息體系根據(jù)各主題進(jìn)行提取與轉(zhuǎn)換,主題域內(nèi)部進(jìn)行拆分、關(guān)聯(lián)。是對ODS操作型數(shù)據(jù)按照主題域劃分規(guī)則進(jìn)行的拆分及合并。1.5 數(shù)據(jù)分析建模伴隨著大數(shù)據(jù)時代的悄然來臨,數(shù)據(jù)的價值得到人們的廣泛認(rèn)同,對數(shù)據(jù)的重視提到了前所未有的高度。數(shù)據(jù)已經(jīng)作為企業(yè)、事業(yè)單位的重要資產(chǎn)被廣泛應(yīng)用于盈利分析與預(yù)測、客戶關(guān)系管理、合規(guī)性監(jiān)管、運(yùn)營風(fēng)險管理等業(yè)務(wù)當(dāng)中。如何建立大數(shù)據(jù)分析模型,以提供決策依據(jù)是很多用戶所迫切解決的問題。專家數(shù)據(jù)倉庫建立在Hadoop分布式系統(tǒng)之上,提供了多種豐富的算法模型,不同的應(yīng)用通過借助不同的接口實(shí)現(xiàn)數(shù)據(jù)的多維呈現(xiàn)和結(jié)果展示,為用戶提供科學(xué)的決策支持。圖 10-7 hadoop算法模型圖大數(shù)據(jù)平臺提供數(shù)據(jù)挖掘模型、分布式計算引擎、高性能機(jī)器學(xué)習(xí)算法庫(包含分類 、聚類 、預(yù)測、推薦等機(jī)器學(xué)習(xí)算法)、即席查詢功能,可以幫助決策者快速建立數(shù)據(jù)分析模型立方體,便于決策者進(jìn)行OLAP分析。常用算法模型: 分類算法:分類是找出數(shù)據(jù)庫中的一組數(shù)據(jù)對象的共同特點(diǎn)并按照分類模式將其劃分為不同的類,其目的是通過分類模型,將數(shù)據(jù)庫中的數(shù)據(jù)項(xiàng)映射到某個給定的類別中。如政務(wù)網(wǎng)中將用戶在一段時間內(nèi)的網(wǎng)上辦理所遇到的問題劃分成不同的類,根據(jù)情況向用戶推薦關(guān)聯(lián)類的問題解決方案,從而方便用戶快速解決網(wǎng)上辦事審批中遇到的各類問題。 回歸算法回歸分析反映了數(shù)據(jù)庫中數(shù)據(jù)的屬性值的特性,通過函數(shù)表達(dá)數(shù)據(jù)映射的關(guān)系來發(fā)現(xiàn)屬性值之間的依賴關(guān)系。在回歸算法中通常將數(shù)值結(jié)果轉(zhuǎn)化為了0到1之間的概率,數(shù)值越大,函數(shù)越逼近1,數(shù)值越小,函數(shù)越逼近0,它可以應(yīng)用到對數(shù)據(jù)序列的預(yù)測及相關(guān)關(guān)系的研究中去。如我們根據(jù)這個概率可以做垃圾郵件預(yù)測,例如概率大于0.5,則這封郵件就是垃圾郵件。 聚類算法聚類類似于分類,但與分類的目的不同,是針對數(shù)據(jù)的相似性和差異性將一組數(shù)據(jù)分為幾個類別。屬于同一類別的數(shù)據(jù)間的相似性很大,但不同類別之間數(shù)據(jù)的相似性很小,跨類的數(shù)據(jù)關(guān)聯(lián)性很低。分類算法中的一個顯著特征就是訓(xùn)練數(shù)據(jù)中包含了標(biāo)簽,訓(xùn)練出的模型可以對其他未知數(shù)據(jù)預(yù)測標(biāo)簽。在聚類的算法中,訓(xùn)練數(shù)據(jù)都是不含標(biāo)簽的,而算法的目的則是通過訓(xùn)練,推測出這些數(shù)據(jù)的標(biāo)簽。以二維的數(shù)據(jù)來說,一個數(shù)據(jù)就包含兩個特征,可通過聚類算法,給他們中不同的種類打上標(biāo)簽,通過聚類算法計算出種群中的距離,根據(jù)距離的遠(yuǎn)近將數(shù)據(jù)劃分為多個族群。 關(guān)聯(lián)算法關(guān)聯(lián)規(guī)則是隱藏在數(shù)據(jù)項(xiàng)之間的關(guān)聯(lián)或相互關(guān)系,即可以根據(jù)一個數(shù)據(jù)項(xiàng)的出現(xiàn)推導(dǎo)出其他數(shù)據(jù)項(xiàng)的出現(xiàn)。關(guān)聯(lián)規(guī)則的挖掘過程主要包括兩個階段:第一階段為從海量原始數(shù)據(jù)中找出所有的高頻項(xiàng)目組;第二極端為從這些高頻項(xiàng)目組產(chǎn)生關(guān)聯(lián)規(guī)則。 推薦算法推薦算法是目前業(yè)界非常火的一種算法,在電商界,如亞馬遜,天貓,京東等得到了廣泛的運(yùn)用。推薦算法的主要特征就是可以自動向用戶推薦他們最感興趣的東西,從而增加購買率,提升效益。 神經(jīng)網(wǎng)絡(luò)模型神經(jīng)網(wǎng)絡(luò)模型,因其自身自行處理、分布存儲和高度容錯等特性非常適合處理非線性的以及那些以模糊、不完整、不嚴(yán)密的知識或數(shù)據(jù)為特征的處理問題,它的這一特點(diǎn)十分適合解決數(shù)據(jù)挖掘的問題。典型的神經(jīng)網(wǎng)絡(luò)模型主要分為三大類:第一類是以用于分類預(yù)測和模式識別的前饋式神經(jīng)網(wǎng)絡(luò)模型;第二類是用于聯(lián)想記憶和優(yōu)化算法的反饋式神經(jīng)網(wǎng)絡(luò)模型。第三類是用于聚類的自組織映射方法。 Adaboost算法其核心思想是針對同一個訓(xùn)練集,訓(xùn)練不同的分類器(弱分類器),然后把這些弱分類器集合起來,構(gòu)成一個更強(qiáng)的最終分類器 (強(qiáng)分類器)。其算法本身是通過改變數(shù)據(jù)分布來實(shí)現(xiàn)的,它根據(jù)每次訓(xùn)練集之中每個樣本的分類是否正確,以及上次的總體分類的準(zhǔn)確率,來確定每個樣本的權(quán)值。將修改過權(quán)值的新數(shù)據(jù)集送給下層分類器進(jìn)行訓(xùn)練,最后將每次訓(xùn)練得到的分類器最后融合起來,作為最后的決策分類器。 深度學(xué)習(xí)深度學(xué)習(xí)算法是對人工神經(jīng)網(wǎng)絡(luò)的發(fā)展。在計算能力變得日益廉價的今天,深度學(xué)習(xí)試圖建立大得多也復(fù)雜得多的神經(jīng)網(wǎng)絡(luò),用來處理存在少量未標(biāo)識數(shù)據(jù)的大數(shù)據(jù)集。1.6 數(shù)據(jù)資源管理專家系統(tǒng)數(shù)據(jù)具有數(shù)據(jù)量大、數(shù)據(jù)類別多、數(shù)據(jù)關(guān)聯(lián)關(guān)系緊密等特點(diǎn),隨著數(shù)據(jù)的積累,數(shù)據(jù)資源的利用價值逐步體現(xiàn),提高數(shù)據(jù)的管理,是對數(shù)據(jù)資源充分利用的前提條件。數(shù)據(jù)資源管了包括如下幾部分內(nèi)容:數(shù)據(jù)標(biāo)準(zhǔn)化管理、數(shù)據(jù)監(jiān)測管理及元數(shù)據(jù)管理等。1.6.1 數(shù)據(jù)標(biāo)準(zhǔn)管理匯集整理數(shù)據(jù)資源管理所需的標(biāo)準(zhǔn)規(guī)范信息,建立數(shù)據(jù)標(biāo)準(zhǔn)數(shù)據(jù)庫。利用專家系統(tǒng)數(shù)據(jù)標(biāo)準(zhǔn)管理系統(tǒng)的接口同步更新標(biāo)準(zhǔn)信息。包括數(shù)據(jù)元標(biāo)準(zhǔn)以及信息代碼標(biāo)準(zhǔn)。1. 建設(shè)數(shù)據(jù)資源庫,實(shí)現(xiàn)專家系統(tǒng)發(fā)布標(biāo)準(zhǔn)數(shù)據(jù)元與本地擴(kuò)展數(shù)據(jù)元標(biāo)準(zhǔn)的匯集。實(shí)現(xiàn)與車輛檢修等數(shù)據(jù)源管理系統(tǒng)接口對接。2. 建設(shè)信息代碼資源庫,梳理國標(biāo)、部標(biāo)和本省定義的標(biāo)準(zhǔn)代碼以及各業(yè)務(wù)信息系統(tǒng)需要使用的其它代碼,建立字典代碼實(shí)體數(shù)據(jù)庫。應(yīng)具備字典代碼定期同步功能。并建設(shè)信息代碼在線映射維護(hù)功能,以便對數(shù)據(jù)標(biāo)準(zhǔn)化轉(zhuǎn)換提供支持。1.6.2 數(shù)據(jù)監(jiān)控管理大數(shù)據(jù)運(yùn)行監(jiān)控通過對大數(shù)據(jù)資源庫相關(guān)服務(wù)器、Oracle數(shù)據(jù)庫、分布式存儲系統(tǒng)、Hadoop平臺等的運(yùn)行狀態(tài)、性能指標(biāo)以及數(shù)據(jù)更新情況進(jìn)行持續(xù)監(jiān)控,及時發(fā)現(xiàn)存在的問題及隱患,輔助系統(tǒng)管理員及時采取措施,提高大數(shù)據(jù)資源庫的運(yùn)行可靠性,保障大數(shù)據(jù)資源庫穩(wěn)定高效運(yùn)行。發(fā)現(xiàn)異常問題時通過短信、郵件等方式通知系統(tǒng)管理員及時處理,實(shí)現(xiàn)通過自動、智能、持續(xù)的自動監(jiān)控預(yù)警代替人工巡檢,降低運(yùn)維工作量,提高運(yùn)維效率。通過可視化圖表對監(jiān)控結(jié)果進(jìn)行統(tǒng)計分析直觀展現(xiàn)平臺運(yùn)行各類運(yùn)行指標(biāo),輔助管理員從宏觀角度掌握平臺運(yùn)行情況。 性能指標(biāo)監(jiān)控可以對服務(wù)器CPU負(fù)載、Oracle數(shù)據(jù)庫連接數(shù)、分布式存儲IO負(fù)載、Hadoop負(fù)載等各類性能相關(guān)指標(biāo)進(jìn)行監(jiān)控,以便掌握平臺負(fù)載情況,及時發(fā)現(xiàn)性能問題,輔助平臺優(yōu)化。 大數(shù)據(jù)庫日志監(jiān)控自動采集大數(shù)據(jù)相關(guān)組件運(yùn)行日志,并根據(jù)既定規(guī)則進(jìn)行分析,發(fā)現(xiàn)異常及時告警。提供日志查詢檢索功能,可以按組件類型、時間、關(guān)鍵字等進(jìn)行過濾。 數(shù)據(jù)量監(jiān)控數(shù)據(jù)量監(jiān)控通過對數(shù)據(jù)總量以及增量進(jìn)行定期監(jiān)控,可以掌握數(shù)據(jù)量變化情況,也可以從數(shù)據(jù)增量角度發(fā)現(xiàn)數(shù)據(jù)入庫異常。數(shù)據(jù)量監(jiān)測結(jié)果可同步到數(shù)據(jù)臺帳,以便數(shù)據(jù)臺帳統(tǒng)計數(shù)據(jù)總量情況。1.6.3 元數(shù)據(jù)管理元數(shù)據(jù)是數(shù)據(jù)倉庫中存儲的基本單元,實(shí)現(xiàn)對元數(shù)據(jù)的管理,數(shù)據(jù)倉庫的最基本功能之一。元數(shù)據(jù)管理包括元數(shù)據(jù)注冊登記、元數(shù)據(jù)存儲、元數(shù)據(jù)建模等多方面功能。1.7 數(shù)據(jù)服務(wù)大數(shù)據(jù)平臺開放存儲訪問接口,提供基于 Hadoop 技術(shù)體系的 HDFS、HBase訪問接口,以 OpenAPI 的方式,為應(yīng)用提供大數(shù)據(jù)存儲服務(wù)。數(shù)據(jù)服務(wù)層主要由數(shù)據(jù)服務(wù)總線來建設(shè),主要負(fù)責(zé)將大數(shù)據(jù)平臺的能力接口注冊進(jìn)去,再以標(biāo)準(zhǔn)化接口開放給應(yīng)用系統(tǒng)使用,支持多種協(xié)議轉(zhuǎn)換、服務(wù)質(zhì)量 控制、訪問控制、規(guī)則引擎等。數(shù)據(jù)服務(wù)層將大數(shù)據(jù)平臺的數(shù)據(jù)服務(wù)能力開放出去,供第三方平臺使用。如上圖:應(yīng)用服務(wù)系統(tǒng)使用服務(wù)接口,來接入數(shù)據(jù)服務(wù)總線,經(jīng)過數(shù)據(jù)服務(wù) 總線的接入端點(diǎn),進(jìn)行過濾。同時根據(jù)訪問控制、服務(wù)質(zhì)量、協(xié)議轉(zhuǎn)換、策略調(diào) 度、規(guī)則引擎的處理,接出到大數(shù)據(jù)平臺的能力接口。第2章 大數(shù)據(jù)平臺2.1 大數(shù)據(jù)平臺基礎(chǔ)架構(gòu)大數(shù)據(jù)基礎(chǔ)平臺基于烽火自主知識產(chǎn)權(quán)FitData產(chǎn)品,F(xiàn)itData主要集成了基礎(chǔ)計算資源、網(wǎng)絡(luò)資源、存儲資源,在統(tǒng)一的安全體管理體系下,將這些資源再進(jìn)行深度加工、處理、關(guān)聯(lián),形成多種類型的基礎(chǔ)服務(wù)能力,構(gòu)建基礎(chǔ)資源層,向應(yīng)用提供基礎(chǔ)資源的服務(wù)能力。數(shù)據(jù)服務(wù)總線通過服務(wù)治理來維護(hù)基礎(chǔ)資源服務(wù)能力,并通過訪 問控制、服務(wù)質(zhì)量、協(xié)議轉(zhuǎn)換等,對應(yīng)用提供多協(xié)議支持。平臺支撐體系的運(yùn)維體系提供整體運(yùn)維能力,保障平臺的正常運(yùn)行;安全體系提供整體安全能力,保障平臺的數(shù)據(jù)安全和使用安全;平臺采用分布式架構(gòu),支持巨量數(shù)據(jù)存儲與分析, 保障專家管理系統(tǒng)的高性能、高可用性和易擴(kuò)展性。FitData大數(shù)據(jù)基礎(chǔ)平臺結(jié)構(gòu)如下圖紅線標(biāo)出部分。n 數(shù)據(jù)計算與存儲:是FitData 大數(shù)據(jù)平臺的核心內(nèi)容,提供分布式存儲能力和分布式計算能力。提供的存儲框架能力,包括基于結(jié)構(gòu)化數(shù)據(jù)存儲、非結(jié)構(gòu)化數(shù)據(jù)存儲和半結(jié)構(gòu)化數(shù)據(jù)存儲,其計算框架與存儲框架均是分布式集群方式部署,可以平滑的進(jìn)行彈性擴(kuò)容。n 數(shù)據(jù)服務(wù)層:數(shù)據(jù)服務(wù)層主要由數(shù)據(jù)服務(wù)接口來實(shí)現(xiàn),對應(yīng)用提供數(shù)據(jù)支撐。通過數(shù)據(jù)服務(wù)接口將平臺的數(shù)據(jù)資源以標(biāo)準(zhǔn) API 接口的方式開放出來,供不同的應(yīng)用系統(tǒng)使用。數(shù)據(jù)應(yīng)用層主要提供基于該平臺來構(gòu)建的專家系統(tǒng)應(yīng)用。采用平臺的標(biāo)準(zhǔn)API,數(shù)據(jù)資源層獲取數(shù)據(jù)服務(wù),目前API 接口包括資源目錄瀏覽、數(shù)據(jù)查詢搜索等。n 數(shù)據(jù)匯聚層:提供各層之間數(shù)據(jù)交換能力,由ETL數(shù)據(jù)集成工具來實(shí)現(xiàn)。平臺支持多中異構(gòu)數(shù)據(jù)源,針對不同數(shù)據(jù)源的不同數(shù)據(jù),也提供多種數(shù)據(jù)抽取方式,例如數(shù)據(jù)庫直 連抽取、Sqoop 抽取等。提供計算框架能力,主要集成了批處理計算框 架、流式計算框架、內(nèi)存計算框架等能力,還提供了像 Hive、Mahout、 Spark 等二次計算能力框架。平臺可將這些計算能力開放,供數(shù)據(jù)模型、數(shù)據(jù)挖掘、應(yīng)用系統(tǒng)來使用。n 運(yùn)維體系:運(yùn)維體系提供面向?qū)<蚁到y(tǒng)完整運(yùn)維方案, 涵蓋了運(yùn)行監(jiān)控到使用操作。安全體系提供面向?qū)<蚁到y(tǒng)大數(shù)據(jù)平臺的用戶權(quán)限管理、終 端訪問控制、日志安全審計等能力。數(shù)據(jù)存與計算是 FitData 大數(shù)據(jù)平臺核心能力,將目前專家系統(tǒng)內(nèi)部業(yè)務(wù)數(shù)據(jù)源進(jìn)行有效整合,集成以數(shù)據(jù)為核心的查詢、 分析和管理能力。采用分層整合,靈活配置,橫向擴(kuò)展,縱向貫穿的大數(shù)據(jù)平臺服務(wù)能力,其計算框架、存儲框架都以容器的方式,可輕松靈活的在線進(jìn)行裝卸,以平滑擴(kuò)充大數(shù)據(jù)平臺的集成能力。除此還集成了二級計算框架、通用的數(shù)據(jù)處理算法庫和數(shù)據(jù)倉庫,將大數(shù)據(jù)平臺的數(shù)據(jù)進(jìn)行清洗、加工和分析挖掘,處理后的數(shù)據(jù)可訂閱,充分體現(xiàn)數(shù)據(jù)即服務(wù)的大數(shù)據(jù)思想。 分布式存儲框架:主要負(fù)責(zé)針對巨量數(shù)據(jù)的存儲,以分布式存儲技術(shù), 支持快速、巨量、多種類型的數(shù)據(jù)存取。支持從數(shù)據(jù)源抽取數(shù)據(jù)到大數(shù) 據(jù)平臺存儲,集成多種存儲方式,有針對結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)和 半結(jié)構(gòu)化數(shù)據(jù)的存儲。 計算框架:主要提供批處理計算、內(nèi)存計算、流式計算框架,由數(shù)據(jù)處 理管理驅(qū)動來分配和調(diào)度計算框架,加載數(shù)據(jù)處理算法,完成數(shù)據(jù)處理。 數(shù)據(jù)倉庫:主要對計算框架完成后的結(jié)果進(jìn)行存儲,支持 Hbase、MS SQL Server 等存儲,同時將數(shù)據(jù)以接口的形式開放出去。 數(shù)據(jù)處理算法庫:集成通用的數(shù)據(jù)分析算法、能夠插入用戶自定義的數(shù) 據(jù)模型算法,配合以資源管理系統(tǒng)為主的計算存儲框架,進(jìn)行數(shù)據(jù)處理。 資源管理系統(tǒng),以容器的方式,來為計算框架和存儲框架分配資源,并 支持資源調(diào)度,彈性伸縮。 數(shù)據(jù)服務(wù)總線:主要將基礎(chǔ)平臺的能力和數(shù)據(jù)服務(wù)接口,以 API 的方式開放出去,形成一個共享的、供應(yīng)用使用的服務(wù)總線。2.2 FitData特點(diǎn)l 廣泛適應(yīng)性:支持結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù);支持實(shí)時數(shù)據(jù)。l 巨量數(shù)據(jù):數(shù)據(jù)處理能力在PB級以上。l 線性擴(kuò)展:存儲、計算均可增加節(jié)點(diǎn)進(jìn)行線性擴(kuò)展。l 統(tǒng)一運(yùn)維管理:降低安裝部署、運(yùn)營、維護(hù)成本。l 經(jīng)濟(jì)性:可運(yùn)行在普通X86服務(wù)器上,硬件成本低。l 高可靠性:支持容災(zāi)容錯、備份恢復(fù)機(jī)制,支持自動告警。支持節(jié)點(diǎn)可靠性、數(shù)據(jù)可靠性。l 高性能:高效數(shù)據(jù)處理性能,支持Spark、Storm、R。l 認(rèn)證安全:支持Kerberos安全認(rèn)證、LDAP賬戶管理控制。l 數(shù)據(jù)安全:支持?jǐn)?shù)據(jù)加密。l 負(fù)載均衡:支持節(jié)點(diǎn)間存儲、技術(shù)負(fù)載均衡。l 開放性:支持符合Hadoop規(guī)范的第三方組件或工具。2.3 FitData主要功能FitData是基于開源Hadoop開發(fā)的企業(yè)級大數(shù)據(jù)產(chǎn)品,提供PB級數(shù)據(jù)的采集、存儲和處理能力,支持?jǐn)?shù)據(jù)加載、查詢、分析、挖掘等功能。2.3.1 節(jié)點(diǎn)批量自動部署通過以Web管理,以圖形界面的方式實(shí)現(xiàn)大數(shù)據(jù)平臺節(jié)點(diǎn)批量自動部署,只需添加主機(jī)名(或者IP地址)即可實(shí)現(xiàn)將節(jié)點(diǎn)服務(wù)器添加到集群中,截圖如下:圖 向集群中添加節(jié)點(diǎn)2.3.2 節(jié)點(diǎn)動態(tài)管理通過web管理實(shí)現(xiàn)節(jié)點(diǎn)的動態(tài)添加、刪除,當(dāng)存儲空間或者計算資源不足時,支持向集群中添加同等配置的服務(wù)器,實(shí)現(xiàn)大數(shù)據(jù)平臺在線動態(tài)擴(kuò)容,而不需要停機(jī)處理,不影響平臺正常運(yùn)行。大數(shù)據(jù)平臺以Web圖形界面實(shí)現(xiàn)Hadoop集群監(jiān)控,包括大數(shù)據(jù)平臺的硬件資源、軟件資源、數(shù)據(jù)資源的監(jiān)控,以及整個Hadoop集群的工作負(fù)載。主要包括以下幾個方面:2.3.3 服務(wù)組件狀態(tài)監(jiān)控通過管理平臺可以看到所有目前已安裝的服務(wù)組件的健康狀況。圖 服務(wù)組件運(yùn)行狀況2.3.4 計算資源負(fù)載監(jiān)控通過管理平臺可以實(shí)時看到整個平臺的資源負(fù)載情況,包括集群的CPU、集群磁盤IO、集群網(wǎng)絡(luò)IO、HDFS IO,如下圖所示:圖 計算資源監(jiān)控2.3.5 多任務(wù)實(shí)時監(jiān)控通過對集群運(yùn)行任務(wù)的實(shí)時監(jiān)測,并根據(jù)任務(wù)優(yōu)先級和耗時不同對任務(wù)進(jìn)行動態(tài)調(diào)度,減少出現(xiàn)大量任務(wù)等待和重要任務(wù)無法及時完成的可能,可以使Hadoop集群的運(yùn)行變得更加高效合理。(1)、系統(tǒng)根據(jù)各隊(duì)列資源的最小值分配集群資源,這樣可以按照需求對各任務(wù)隊(duì)列獲取的集群資源進(jìn)行分配,而且不會出現(xiàn)集群資源的閑置浪費(fèi)。(2)、可以實(shí)現(xiàn)對各任務(wù)隊(duì)列獲取的集群資源大小實(shí)時動態(tài)調(diào)整,及時保證高優(yōu)先級任務(wù)所在隊(duì)列獲得更多的集群資源。(3)、可以實(shí)現(xiàn)在某個任務(wù)隊(duì)列出現(xiàn)空閑時,將該任務(wù)隊(duì)列獲取的集群資源自動分配給其他繁忙的任務(wù)隊(duì)列,以使得集群資源利用最大化。2.3.6 磁盤性能監(jiān)控對集群機(jī)器的硬盤進(jìn)行監(jiān)控,如下圖所示,詳細(xì)的展示出磁盤IO的利用率,讀寫速度,磁盤的等待時間。圖:磁盤性能監(jiān)控2.3.7 故障快速定位大數(shù)據(jù)平臺具備完整的告警監(jiān)控和故障快速定位能力。能夠?qū)⒂嬎憧蚣艿拿總€作業(yè)進(jìn)度、狀態(tài)、資源利用情況進(jìn)行監(jiān)控,并通過可視化圖形界面進(jìn)行展示。當(dāng)大數(shù)據(jù)平臺出現(xiàn)異常情況時,平臺能夠通過監(jiān)控系統(tǒng),對服務(wù)器節(jié)點(diǎn)宕機(jī)、集群異常、安全異常等異常事件進(jìn)行預(yù)警、報警,并通過郵件、短信報警手段進(jìn)行告警通知。提供預(yù)制的恢復(fù)規(guī)則和安全規(guī)則,對集群異常進(jìn)行自動修復(fù)、自動限制非安全行為的操作。大數(shù)據(jù)平臺能夠通過對告警信息的分析,快速定位平臺內(nèi)部出現(xiàn)故障的節(jié)點(diǎn),對于因故障無法繼續(xù)提供服務(wù)器的節(jié)點(diǎn)進(jìn)行標(biāo)記,將平臺的作業(yè)任務(wù)自動分配到其他的節(jié)點(diǎn)上運(yùn)行,同時,大數(shù)據(jù)平臺采用分布式體系結(jié)構(gòu)及無單點(diǎn)故障設(shè)計,平臺內(nèi)任何節(jié)點(diǎn)的宕機(jī)都不會影響平臺的穩(wěn)定運(yùn)行和業(yè)務(wù)的正常使用。待故障節(jié)點(diǎn)恢復(fù)正常后,再將該節(jié)點(diǎn)納入平臺的資源中,將作業(yè)任務(wù)分配到恢復(fù)后的節(jié)點(diǎn)上運(yùn)行。2.3.8 日常運(yùn)維監(jiān)控大數(shù)據(jù)綜合平臺提供完整的日常運(yùn)維監(jiān)控的服務(wù)能力,針對從上層應(yīng)用平臺到底層基礎(chǔ)平臺的各個功能模塊和組件均提供有監(jiān)控能力,能夠分析系統(tǒng)的運(yùn)行日志和用戶日志,并且能夠?qū)⒈O(jiān)控數(shù)據(jù)通過文件接口或webservice接口的方式匯總到平臺管理運(yùn)維模塊的監(jiān)控管理界面中進(jìn)行統(tǒng)一呈現(xiàn)和管理使用。系統(tǒng)能夠根據(jù)監(jiān)控到的數(shù)據(jù)進(jìn)行分析判斷,對異常的數(shù)據(jù)觸發(fā)告警,在前臺界面提醒,直至出發(fā)通知和處理等進(jìn)一步動作。平臺的監(jiān)控范圍涵蓋有:l 平臺管理資源的使用與分配o 服務(wù)器視圖:提供針對各服務(wù)器和存儲等設(shè)備的資源使用情況的實(shí)時查看,包括當(dāng)前設(shè)備的CPU負(fù)荷,內(nèi)存占用情況,存儲空間使用情況,網(wǎng)絡(luò)帶寬占用情況、設(shè)備運(yùn)行狀態(tài)等。管理員能夠根據(jù)監(jiān)控信息在管理平臺上有效調(diào)度分配系統(tǒng)資源。其中集群的監(jiān)控如下圖所示:針對服務(wù)器的監(jiān)控如下圖所示:o 服務(wù)視圖:提供系統(tǒng)中各服務(wù)資源使用情況的實(shí)時查看,包括連接數(shù)、當(dāng)前作業(yè)數(shù),I/O情況,運(yùn)行狀態(tài)等。l 監(jiān)控系統(tǒng)的運(yùn)行情況o 接口服務(wù)運(yùn)行監(jiān)控:提供針對數(shù)據(jù)源和應(yīng)用層的監(jiān)控服務(wù),包括運(yùn)行狀態(tài)和流量等信息;o 數(shù)據(jù)存取過程監(jiān)控:提供針對數(shù)據(jù)存儲過程的監(jiān)控服務(wù),包括系統(tǒng)平臺的I/O情況(整體I/O和具體各節(jié)點(diǎn)I/O以及具體的各作業(yè)的I/O情況)和數(shù)據(jù)存取過程的任務(wù)列表;o 數(shù)據(jù)匯聚過程監(jiān)控:監(jiān)控系統(tǒng)的數(shù)據(jù)匯聚過程,包括使用資源信息,使用的數(shù)據(jù)源信息,作業(yè)進(jìn)程運(yùn)行狀況信息,使用時間/計劃完成時間等信息;o 數(shù)據(jù)處理過程監(jiān)控(作業(yè)監(jiān)控):監(jiān)控系統(tǒng)的數(shù)據(jù)處理(作業(yè))過程,包括使用資源信息,使用的數(shù)據(jù)源信息,作業(yè)進(jìn)程運(yùn)行狀況信息,使用時間/計劃完成時間等信息;o 應(yīng)用監(jiān)控:針對運(yùn)行在平臺上的應(yīng)用進(jìn)行監(jiān)控,包括各應(yīng)用當(dāng)前的運(yùn)行狀態(tài)、應(yīng)用對數(shù)據(jù)的使用狀況,應(yīng)用為用戶提供的查詢數(shù)量等;l 系統(tǒng)異常告警與處理o 用戶告警:對用戶操作使用過程中的異常行為進(jìn)行告警,例如某用戶訪問了超過其正常權(quán)限的數(shù)據(jù)等。o 系統(tǒng)告警:對系統(tǒng)中存在的服務(wù)節(jié)點(diǎn)宕機(jī),系統(tǒng)接口異常,數(shù)據(jù)存儲報錯,系統(tǒng)資源緊張等系統(tǒng)運(yùn)行異常情況進(jìn)行告警觸發(fā),并提醒用戶進(jìn)行操作處理。2.4 FitData優(yōu)勢烽火大數(shù)據(jù)平臺FitData借助先進(jìn)開源的大數(shù)據(jù)存儲及處理技術(shù),成功實(shí)施了公安大數(shù)據(jù)平臺、楚天云政務(wù)大數(shù)據(jù)平臺,通過大數(shù)據(jù)項(xiàng)目的實(shí)施,逐步沉淀了大量的算法模型及分析與展示工具,在平臺性能及穩(wěn)定性上經(jīng)歷了實(shí)戰(zhàn)的考驗(yàn),逐步總結(jié)出一套FitData自己的系統(tǒng)優(yōu)化策略及系統(tǒng)運(yùn)維策略,平臺經(jīng)受住了單節(jié)點(diǎn)超過1000臺集群的實(shí)戰(zhàn)考驗(yàn),并支持HA高可用性運(yùn)行策略,經(jīng)過四年時間及高強(qiáng)度項(xiàng)目的錘煉,F(xiàn)itData大數(shù)據(jù)平臺已經(jīng)走出了自己的路。在數(shù)據(jù)處理上支持PB及超大量數(shù)據(jù)的秒級查詢及匯集。SmartAS是企業(yè)級基礎(chǔ)開發(fā)平臺,它基于FitData平臺之上,采用微服務(wù)架構(gòu),支持分布式部署,是成熟可靠的多終端應(yīng)用開發(fā)框架。它集成業(yè)界流行和成熟的技術(shù)框架,通過應(yīng)用系統(tǒng)使用,反饋的情況不斷完善應(yīng)用框架的通用功能,滿足業(yè)務(wù)系統(tǒng)快熟構(gòu)建的目標(biāo),具備良好用戶體驗(yàn)第3章 硬件部署按照專家系統(tǒng)安裝接口規(guī)范要求,結(jié)合專家管理系統(tǒng)數(shù)據(jù)量估算值和數(shù)據(jù)存儲特點(diǎn),本著數(shù)據(jù)安全、系統(tǒng)穩(wěn)定可靠的核心設(shè)計思路,設(shè)計專家系統(tǒng)大數(shù)據(jù)平臺數(shù)據(jù)節(jié)點(diǎn)服務(wù)器22臺,其中管理節(jié)點(diǎn)服務(wù)器2臺,數(shù)據(jù)節(jié)點(diǎn)服務(wù)器19臺,監(jiān)控節(jié)點(diǎn)一臺,系統(tǒng)RDBMS數(shù)據(jù)庫服務(wù)器臺,應(yīng)用服務(wù)器6臺,繪制專家系統(tǒng)部署邏輯結(jié)構(gòu)圖如下:第4章 硬件清單根據(jù)系統(tǒng)規(guī)劃及安裝接口規(guī)范要求,初步規(guī)劃服務(wù)器如下:系統(tǒng)應(yīng)用服務(wù)器需求6臺;大數(shù)據(jù)平臺設(shè)計節(jié)點(diǎn)22個,其中管理節(jié)點(diǎn)2個,數(shù)據(jù)節(jié)點(diǎn)19個,監(jiān)控節(jié)點(diǎn)服務(wù)器1臺,RDBMS數(shù)據(jù)庫服務(wù)器兩臺雙機(jī)熱備。具體各服務(wù)器硬件需求如下表:編號服務(wù)器名配置數(shù)量說明1RDBMS數(shù)據(jù)庫服務(wù)器4*Intel Xeon E7-4800/8800 v3最大可擴(kuò)展至4 CPU,72 核支持8GB/16GB/32GB/64GB DDR4 高速內(nèi)存配置128GB DDR4 內(nèi)存配置9 塊900GB 15K SAS,14*4T NL SAS 硬盤。2雙機(jī)備份2大數(shù)據(jù)平臺管理節(jié)點(diǎn)2*Intel Xeon E7-4800/8800 v3最大可擴(kuò)展至4 CPU,72 核支持8GB/16GB/32GB/64GB DDR4 高速內(nèi)存配置128GB DDR4 內(nèi)存配置6 塊600GB 15K SAS,3*4T NL SAS 硬盤。1Active3大數(shù)據(jù)平臺管理節(jié)點(diǎn)2*Intel Xeon E7-4800/8800 v3最大可擴(kuò)展至4 CPU,72 核支持8GB/16GB/32GB/64GB DDR4 高速內(nèi)存配置128GB DDR4 內(nèi)存配置6 塊600GB 15K SAS,3*4T NL SAS 硬盤。1Standby4大數(shù)據(jù)平臺數(shù)據(jù)節(jié)點(diǎn)2*Intel Xeon E7-4800/8800 v3最大可擴(kuò)展至4 CPU,72 核支持8GB/16GB/32GB/64GB DDR4 高速內(nèi)存配置128GB DDR4 內(nèi)存配置6 塊600GB 15K SAS,12*4T NL SAS 硬盤。19數(shù)據(jù)節(jié)點(diǎn)5大數(shù)據(jù)集群性能檢測服務(wù)器2*Intel Xeon E7-4800/8800 v3最大可擴(kuò)展至4 CPU,72 核支持8GB/16GB/32GB/64GB DDR4 高速內(nèi)存配置128GB DDR4 內(nèi)存配置6 塊600GB 15K SAS,3*4T NL SAS 硬盤。1監(jiān)控節(jié)點(diǎn)6應(yīng)用服務(wù)器CPU:2 顆E5-2630 v3 24 個內(nèi)存插槽,最大支持1.5TB 內(nèi)存,支持2133 MHz 內(nèi)存。當(dāng)前配置64GB 內(nèi)存。支持SAS、SSD 和PCIe SSD 硬盤,支持2.5寸和3.5 寸硬盤混插。支持24+2 個2.5 寸 SAS/SATA 或者 14 個3.5寸 SAS/SATA + 2 個2.5 寸SAS/SATA +16 個1.8" SSD。硬盤:配置6 塊600GB 15K SAS 硬盤2應(yīng)用服務(wù)器7交換機(jī)48 10/100/1000Base-TX,4 100/1000Base-X SFP2網(wǎng)絡(luò)設(shè)備8防火墻多功能防火墻,4口以上2安防設(shè)備9工作站Intel(R)Xeon CPU E5,配置1T SATA 硬盤。內(nèi)存:8GB 2說明:硬件部分交換機(jī)、防火強(qiáng)及工作站,請根據(jù)標(biāo)書確認(rèn)!大數(shù)據(jù)服務(wù)器、RDBMS數(shù)據(jù)庫服務(wù)器及應(yīng)用服務(wù)器的具體配置參數(shù)請硬件朋友和標(biāo)書上進(jìn)行重新確認(rèn),這邊只對內(nèi)存量、CPU顆數(shù)及存儲空間大小做了要求。第5章 個人介紹吳宏勛:“烽火集成”高級大數(shù)據(jù)架構(gòu)師,曾擔(dān)任醫(yī)療大數(shù)據(jù)、公安大數(shù)據(jù)、財稅大數(shù)據(jù)項(xiàng)目大數(shù)據(jù)架構(gòu)師,具有豐富的大數(shù)據(jù)項(xiàng)目實(shí)施經(jīng)驗(yàn),對高吞吐、高并發(fā)、海量數(shù)據(jù)實(shí)時匯集,TB、PB級海量數(shù)據(jù)即席查詢與實(shí)時處理具有針對性方案和經(jīng)驗(yàn),研讀過部分Hadoop、HBase、Spark源碼,對Hadoop、HBase、Spark的原理有很深的理解,曾從事多個項(xiàng)目大數(shù)據(jù)平臺的調(diào)優(yōu)工作!第6章 專家系統(tǒng)架構(gòu)設(shè)計本系統(tǒng)總共分為四個層次,從下到上依次為數(shù)據(jù)采集層、基礎(chǔ)平臺層、應(yīng)用支撐層、應(yīng)用及展示層,各層在專家系統(tǒng)統(tǒng)一業(yè)務(wù)規(guī)范、技術(shù)規(guī)范、安全規(guī)范下進(jìn)行數(shù)據(jù)通信及集成。1. 數(shù)據(jù)采集層:負(fù)責(zé)專家系統(tǒng)信息數(shù)據(jù)的匯集、轉(zhuǎn)換與加載,數(shù)據(jù)采集層提供多種數(shù)據(jù)采集方法:ETL、Flume、Kafka等,系統(tǒng)支持Flume+Kafka+Storm混合架構(gòu)的數(shù)據(jù)采集模式,以提高數(shù)據(jù)采集系統(tǒng)的吞吐量和并發(fā)量。2. 基礎(chǔ)平臺層:基礎(chǔ)平臺層為專家數(shù)據(jù)倉庫提供大數(shù)據(jù)基礎(chǔ)平臺支撐,包括分布式存儲系統(tǒng)、Hbase數(shù)據(jù)庫系統(tǒng)、Yarn并行計算資源管理與監(jiān)控等,同時支持Spark 機(jī)器學(xué)習(xí)算法庫,支持R等行業(yè)分析庫。3. 應(yīng)用支撐層:應(yīng)用支撐層為系統(tǒng)各類應(yīng)用提供支撐,是系統(tǒng)數(shù)據(jù)層和應(yīng)用層的連接紐帶。應(yīng)用支撐層包括基礎(chǔ)平臺和常規(guī)算法兩個部分,基礎(chǔ)平臺負(fù)責(zé)數(shù)據(jù)的存儲與并行計算,數(shù)據(jù)存儲支持分布式存儲、RDBMS存儲等存儲方式,常規(guī)算法負(fù)責(zé)數(shù)據(jù)分析與業(yè)務(wù)建模。4. 應(yīng)用及展示層:應(yīng)用層是系統(tǒng)各項(xiàng)業(yè)務(wù)功能的集合,主要包括資車輛故障診斷、車輛健康評估、車輛部件檢修、車輛故障處理及車輛對比分析等。展示層是用戶同系統(tǒng)交互的窗口,是應(yīng)用層對外提供服務(wù)的主要手段。支持多種圖表展示如餅圖、柱狀圖、曲線圖、熱力圖、氣泡圖和散點(diǎn)圖等可視化展示。第7章 平臺運(yùn)維管理7.1 Hadoop集群監(jiān)控大數(shù)據(jù)平臺以Web圖形界面實(shí)現(xiàn)Hadoop集群監(jiān)控,包括大數(shù)據(jù)平臺的硬件資源、軟件資源、數(shù)據(jù)資源的監(jiān)控,以及整個Hadoop集群的工作負(fù)載。主要包括以下幾個方面:7.1.1 服務(wù)組件狀態(tài)監(jiān)控通過管理平臺可以看到所有目前已安裝的服務(wù)組件的健康狀況,綠色圈表示運(yùn)行狀態(tài)健康。圖:服務(wù)組件運(yùn)行狀況7.1.2 存儲與內(nèi)存資源監(jiān)控包括獲取存儲量、剩余存儲量以及存儲系統(tǒng)整體情況信息。如果集群中的某臺機(jī)器的磁盤或者內(nèi)存的使用率達(dá)到指定的閥值,系統(tǒng)可以通過郵件或者短信的方式進(jìn)行預(yù)警。圖:存儲和內(nèi)存資源監(jiān)控7.2 系統(tǒng)負(fù)載管理I通過管理平臺可以實(shí)時看到整個平臺的資源負(fù)載情況,包括集群的CPU、集群磁盤IO、集群網(wǎng)絡(luò)IO、HDFS IO,如下圖所示:通過對集群運(yùn)行任務(wù)的實(shí)時監(jiān)測,并根據(jù)任務(wù)優(yōu)先級和耗時不同對任務(wù)進(jìn)行動態(tài)調(diào)度,減少出現(xiàn)大量任務(wù)等待和重要任務(wù)無法及時完成的可能,可以使Hadoop集群的運(yùn)行變得更加高效合理。(1)、系統(tǒng)根據(jù)各隊(duì)列資源的最小值分配集群資源,這樣可以按照需求對各任務(wù)隊(duì)列獲取的集群資源進(jìn)行分配,而且不會出現(xiàn)集群資源的閑置浪費(fèi)。(2)、可以實(shí)現(xiàn)對各任務(wù)隊(duì)列獲取的集群資源大小實(shí)時動態(tài)調(diào)整,及時保證高優(yōu)先級任務(wù)所在隊(duì)列獲得更多的集群資源。(3)、可以實(shí)現(xiàn)在某個任務(wù)隊(duì)列出現(xiàn)空閑時,將該任務(wù)隊(duì)列獲取的集群資源自動分配給其他繁忙的任務(wù)隊(duì)列,以使得集群資源利用最大化。7.3 操作系統(tǒng)管理7.3.1 磁盤性能監(jiān)控對集群機(jī)器的硬盤進(jìn)行監(jiān)控,如下圖所示,詳細(xì)的展示出磁盤IO的利用率,讀寫速度,磁盤的等待時間。圖:磁盤性能監(jiān)控7.3.2 故障快速定位大數(shù)據(jù)平臺具備完整的告警監(jiān)控和故障快速定位能力。能夠?qū)⒂嬎憧蚣艿拿總€作業(yè)進(jìn)度、狀態(tài)、資源利用情況進(jìn)行監(jiān)控,并通過可視化圖形界面進(jìn)行展示。當(dāng)大數(shù)據(jù)平臺出現(xiàn)異常情況時,平臺能夠通過監(jiān)控系統(tǒng),對服務(wù)器節(jié)點(diǎn)宕機(jī)等集群異常、安全異常等異常事件進(jìn)行預(yù)警、報警,并通過郵件、短信等報警手段進(jìn)行告警通知。提供預(yù)制的恢復(fù)規(guī)則和安全規(guī)則,對集群異常進(jìn)行自動修復(fù)、自動限制非安全行為的操作。大數(shù)據(jù)平臺能夠通過對告警信息的分析,快速定位平臺內(nèi)部出現(xiàn)故障的節(jié)點(diǎn),對于因故障無法繼續(xù)提供服務(wù)器的節(jié)點(diǎn)進(jìn)行標(biāo)記,將平臺的作業(yè)任務(wù)自動分配到其他的節(jié)點(diǎn)上運(yùn)行,同時,大數(shù)據(jù)平臺采用分布式體系結(jié)構(gòu)及無單點(diǎn)故障設(shè)計,平臺內(nèi)任何節(jié)點(diǎn)的宕機(jī)都不會影響平臺的穩(wěn)定運(yùn)行和業(yè)務(wù)的正常使用。待故障節(jié)點(diǎn)恢復(fù)正常后,再將該節(jié)點(diǎn)納入平臺的資源中,將作業(yè)任務(wù)分配到恢復(fù)后的節(jié)點(diǎn)上運(yùn)行。7.3.3 運(yùn)行日志監(jiān)控針對每個服務(wù)組件運(yùn)行的實(shí)時日志信息可以從平臺中查看,便于在服務(wù)組件運(yùn)行中斷時查找和追蹤原因。例如,我們想要查看HBase服務(wù)組件中Mater角色的日志信息,如下圖所示:7.4 平臺安全管理在Hadoop 2.x中加入了Kerberos認(rèn)證機(jī)制。Kerberos可以將認(rèn)證的密鑰在集群部署時事先放到可靠的節(jié)點(diǎn)上。集群運(yùn)行時,集群內(nèi)的節(jié)點(diǎn)使用密鑰得到認(rèn)證。只有被認(rèn)證過節(jié)點(diǎn)才能正常使用,防止惡意的使用或篡改Hadoop集群的問題,確保Hadoop集群的可靠安全。7.5 數(shù)據(jù)質(zhì)量管理7.5.1 數(shù)據(jù)標(biāo)準(zhǔn)化數(shù)據(jù)標(biāo)準(zhǔn)化包括數(shù)據(jù)標(biāo)準(zhǔn)制定及數(shù)據(jù)標(biāo)準(zhǔn)化處理兩個部分,數(shù)據(jù)標(biāo)準(zhǔn)制定是在專家系統(tǒng)業(yè)務(wù)統(tǒng)一規(guī)范前提下,指導(dǎo)專家系統(tǒng)大數(shù)據(jù)標(biāo)準(zhǔn),包括數(shù)據(jù)格式標(biāo)準(zhǔn)、數(shù)據(jù)交換標(biāo)準(zhǔn)、數(shù)據(jù)共享標(biāo)準(zhǔn)等;數(shù)據(jù)標(biāo)準(zhǔn)規(guī)范化是指按照統(tǒng)一專家系統(tǒng)數(shù)據(jù)標(biāo)準(zhǔn)格式。將專家信息數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,生成符合專家系統(tǒng)數(shù)據(jù)標(biāo)準(zhǔn)要求的信息數(shù)據(jù)。7.5.2 數(shù)據(jù)質(zhì)量檢測根據(jù)數(shù)據(jù)質(zhì)量監(jiān)測規(guī)則,通過數(shù)據(jù)質(zhì)量檢測引擎,對數(shù)據(jù)表中的增量數(shù)據(jù)進(jìn)行掃描,調(diào)用規(guī)則算法或擴(kuò)展程序進(jìn)行數(shù)據(jù)質(zhì)量檢測,并提供問題數(shù)據(jù)庫的建立、數(shù)據(jù)質(zhì)量報告的生成、問題數(shù)據(jù)的處理、以及對問題數(shù)據(jù)的通報和反饋來保證數(shù)據(jù)的質(zhì)量和實(shí)效性等功能。7.5.3 數(shù)據(jù)關(guān)聯(lián)對采集的數(shù)據(jù)庫根據(jù)數(shù)據(jù)間的業(yè)務(wù)關(guān)聯(lián)關(guān)系實(shí)現(xiàn)數(shù)據(jù)的關(guān)聯(lián),通過數(shù)據(jù)的關(guān)聯(lián),增加實(shí)體數(shù)據(jù)的維度,將單個的數(shù)據(jù)擴(kuò)展成行業(yè)信息資源,提高數(shù)據(jù)的價值。

注意事項(xiàng)

本文(數(shù)據(jù)倉庫建設(shè)方案.doc)為本站會員(xin****828)主動上傳,裝配圖網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對上載內(nèi)容本身不做任何修改或編輯。 若此文所含內(nèi)容侵犯了您的版權(quán)或隱私,請立即通知裝配圖網(wǎng)(點(diǎn)擊聯(lián)系客服),我們立即給予刪除!

溫馨提示:如果因?yàn)榫W(wǎng)速或其他原因下載失敗請重新下載,重復(fù)下載不扣分。




關(guān)于我們 - 網(wǎng)站聲明 - 網(wǎng)站地圖 - 資源地圖 - 友情鏈接 - 網(wǎng)站客服 - 聯(lián)系我們

copyright@ 2023-2025  zhuangpeitu.com 裝配圖網(wǎng)版權(quán)所有   聯(lián)系電話:18123376007

備案號:ICP2024067431-1 川公網(wǎng)安備51140202000466號


本站為文檔C2C交易模式,即用戶上傳的文檔直接被用戶下載,本站只是中間服務(wù)平臺,本站所有文檔下載所得的收益歸上傳人(含作者)所有。裝配圖網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對上載內(nèi)容本身不做任何修改或編輯。若文檔所含內(nèi)容侵犯了您的版權(quán)或隱私,請立即通知裝配圖網(wǎng),我們立即給予刪除!