




版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
大數(shù)據(jù)采集與預處理主講教師:龍霄漢《大數(shù)據(jù)導論》課程Introductiontobigdata數(shù)據(jù)采集技術大數(shù)據(jù)采集平臺011大數(shù)據(jù)采集平臺大數(shù)據(jù)采集平臺一個完整的大數(shù)據(jù)平臺應包括如下幾個功能:數(shù)據(jù)采集數(shù)據(jù)存儲數(shù)據(jù)處理數(shù)據(jù)展現(xiàn)(可視化,報表和監(jiān)控)大數(shù)據(jù)平臺功能數(shù)據(jù)采集數(shù)據(jù)存儲數(shù)據(jù)處理數(shù)據(jù)展現(xiàn)大數(shù)據(jù)采集平臺數(shù)據(jù)采集是所有數(shù)據(jù)系統(tǒng)必不可少的,隨著大數(shù)據(jù)越來越被重視,數(shù)據(jù)采集的挑戰(zhàn)也變的尤為突出,例如:數(shù)據(jù)源多種多樣數(shù)據(jù)量大,變化快如何保證數(shù)據(jù)采集的可靠性的性能如何避免重復數(shù)據(jù)如何保證數(shù)據(jù)的質量數(shù)據(jù)采集的挑戰(zhàn)多數(shù)據(jù)源大數(shù)據(jù)量數(shù)據(jù)多變數(shù)據(jù)質量大數(shù)據(jù)采集平臺常見的大數(shù)據(jù)采集平臺有:ApacheFlume、Fluentd、Logstash、Chukwa、Scribe、SplunkForwarder。大數(shù)據(jù)采集平臺ApacheFlumeFluentdLogstashChukwaScribeSplunkForwarderApacheFlumeFlume是Apache旗下的一款開源、高可靠、高擴展、容易管理、支持客戶擴展的數(shù)據(jù)采集系統(tǒng)。Flume使用JRuby來構建,所以依賴Java運行環(huán)境。Flume最初是由Cloudera的工程師設計用于合并日志數(shù)據(jù)的系統(tǒng),后來逐漸發(fā)展用于處理流數(shù)據(jù)事件。圖片來自互聯(lián)網(wǎng)ApacheFlumeFlume設計成一個分布式的管道架構,可以看作在數(shù)據(jù)源和目的地之間有一個Agent的網(wǎng)絡,支持數(shù)據(jù)路由。每一個agent都由Source,Channel和Sink組成。圖片來自互聯(lián)網(wǎng)ApacheFlumeSource負責接收輸入數(shù)據(jù),并將數(shù)據(jù)寫入管道。Flume的Source支持HTTP,JMS,RPC,NetCat,Exec,SpoolingDirectory。其中Spooling支持監(jiān)視一個目錄或者文件,解析其中新生成的事件。Channel存儲,緩存從source到Sink的中間數(shù)據(jù)。可使用不同的配置來做Channel,例如內(nèi)存,文件,JDBC等。使用內(nèi)存性能高但不持久,有可能丟數(shù)據(jù)。使用文件更可靠,但性能不如內(nèi)存。Sink負責從管道中讀出數(shù)據(jù)并發(fā)給下一個Agent或者最終的目的地。Sink支持的不同目的地種類包括:HDFS,HBASE,Solr,ElasticSearch,F(xiàn)ile,Logger或者其它的FlumeAgent。FluentdFluentd是另一個開源的數(shù)據(jù)收集框架。Fluentd使用C/Ruby開發(fā),使用JSON文件來統(tǒng)一日志數(shù)據(jù)。它的可插拔架構,支持各種不同種類和格式的數(shù)據(jù)源和數(shù)據(jù)輸出。最后它也同時提供了高可靠和很好的擴展性。TreasureData,Inc對該產(chǎn)品提供支持和維護。圖片來自互聯(lián)網(wǎng)FluentdFluentd的Input/Buffer/Output非常類似于Flume的Source/Channel/Sink。Input負責接收數(shù)據(jù)或者主動抓取數(shù)據(jù)。支持syslog,http,filetail等。Buffer負責數(shù)據(jù)獲取的性能和可靠性,也有文件或內(nèi)存等不同類型的Buffer可以配置。Output負責輸出數(shù)據(jù)到目的地例如文件,AWSS3或者其它的Fluentd。圖片來自互聯(lián)網(wǎng)LogstashLogstash是著名的開源數(shù)據(jù)棧ELK(ElasticSearch,Logstash,Kibana)中的那個L。Logstash用JRuby開發(fā),所有運行時依賴JVM。幾乎在大部分的情況下ELK作為一個棧是被同時使用的。所有當你的數(shù)據(jù)系統(tǒng)使用ElasticSearch的情況下,logstash是首選。圖片來自互聯(lián)網(wǎng)ChukwaApacheChukwa是apache旗下另一個開源的數(shù)據(jù)收集平臺,它遠沒有其他幾個有名。Chukwa基于Hadoop的HDFS和MapReduce來構建(顯而易見,它用Java來實現(xiàn)),提供擴展性和可靠性。Chukwa同時提供對數(shù)據(jù)的展示,分析和監(jiān)視。圖片來自互聯(lián)網(wǎng)ScribeScribe是Facebook開源的日志收集系統(tǒng),在Facebook內(nèi)部已經(jīng)得到的應用。它能夠從各種日志源上收集日志,存儲到一個中央存儲系統(tǒng)(可以是NFS,分布式文件系統(tǒng)等)上,以便于進行集中統(tǒng)計分析處理。圖片來自互聯(lián)網(wǎng)SplunkForwarder在商業(yè)化的大數(shù)據(jù)平臺產(chǎn)品中,Splunk提供完整的數(shù)據(jù)采集,數(shù)據(jù)存儲,數(shù)據(jù)分析和處理,以及數(shù)據(jù)展現(xiàn)的能力。Splunk是一個分布式的機器數(shù)據(jù)平臺,主要有三個角色:
SearchHead負責數(shù)據(jù)的搜索和處理,提供搜索時的信息抽取;
Indexer負責數(shù)據(jù)的存儲和索引;
Forwarder,負責數(shù)據(jù)的收集,清洗,變形,并發(fā)送給Indexer。圖片來自互聯(lián)網(wǎng)SplunkForwarderSplunk內(nèi)置了對Syslog,TCP/UDP,Spooling的支持,同時,用戶可以通過開發(fā)ScriptInput和ModularInput的方式來獲取特定的數(shù)據(jù)。在Splunk提供的軟件倉庫里有很多成熟的數(shù)據(jù)采集應用,例如AWS,數(shù)據(jù)庫(DBConnect)等等,可以方便的從云或者是數(shù)據(jù)庫中獲取數(shù)據(jù)進入Splunk的數(shù)據(jù)平臺做分析。圖片來自互聯(lián)網(wǎng)總結本節(jié)簡單討論了幾種流行的數(shù)據(jù)收集平臺,它們大都提供高可靠和高擴展的數(shù)據(jù)收集。大多平臺都抽象出了輸入,輸出和中間的緩沖的架構。利用分布式的網(wǎng)絡連接,大多數(shù)平臺都能實現(xiàn)一定程度的擴展性和高可靠性。其中Flume,F(xiàn)luentd是兩個被使用較多的產(chǎn)品。Splunk作為一個優(yōu)秀的商業(yè)產(chǎn)品,它的數(shù)據(jù)采集還存在
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 零售企業(yè)數(shù)字化供應鏈協(xié)同中的供應鏈可視化技術應用報告
- 2025年元宇宙社交平臺虛擬社交平臺社交焦慮緩解與用戶體驗研究
- 鄉(xiāng)村振興中的職業(yè)技能培訓:鄉(xiāng)村旅游人才培養(yǎng)報告
- 2025年醫(yī)院信息化建設與醫(yī)患溝通平臺初步設計評估報告
- 2025年餐飲業(yè)食品安全監(jiān)管信息化技術應用與餐飲企業(yè)食品安全風險預警體系建設報告
- 2025年醫(yī)藥企業(yè)研發(fā)外包(CRO)在臨床試驗數(shù)據(jù)隱私保護中的法律法規(guī)報告001
- 周籃嫂的課件
- 2025年CCS項目在能源領域應用的經(jīng)濟效益與投資決策支持研究報告
- 5G+AI融合的2025年科技互聯(lián)網(wǎng)產(chǎn)業(yè)創(chuàng)新生態(tài)構建報告
- 環(huán)保產(chǎn)業(yè)園2025年循環(huán)經(jīng)濟發(fā)展模式中的綠色供應鏈管理與創(chuàng)新研究報告
- 2023-2024學年四川省成都市青羊區(qū)八年級英語第二學期期末復習檢測試題含答案
- 2021年江西省中考生物真題(含解析)
- 新部編版語文1-6年級2460個生字表(帶拼音)
- 中國成人ICU鎮(zhèn)痛和鎮(zhèn)靜治療指南
- 人體解剖學章節(jié)練習題及復習資料(同步)
- 糖尿病老年人飲食護理
- 解憂雜貨鋪ppt讀書分享
- 銀行對公業(yè)務培訓課件
- 玻璃粉生產(chǎn)工藝
- 金川公司社會招聘考試題
- 高中地理100個答題模板
評論
0/150
提交評論