




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
第5章數(shù)據(jù)采集數(shù)據(jù)采集簡介大數(shù)據(jù)運(yùn)維基本內(nèi)容——定義數(shù)據(jù)采集,又稱為數(shù)據(jù)獲取(DataAcQuisition,DAQ),是調(diào)度控制系統(tǒng)地重要組成部分,用于從數(shù)據(jù)源收集,識別與選取數(shù)據(jù),并實(shí)時向系統(tǒng)提供原始數(shù)據(jù)。數(shù)據(jù)采集有基于物聯(lián)網(wǎng)傳感器地采集,也有基于網(wǎng)絡(luò)信息地?cái)?shù)據(jù)采集。基于GPS地定位信息采集基于交通攝像機(jī)地視頻采集基于交通交叉路口地圖像采集基本內(nèi)容——定義傳統(tǒng)數(shù)據(jù)采集傳統(tǒng)地?cái)?shù)據(jù)采集是指從傳感器,其它待測設(shè)備模塊與數(shù)字被測單元中自動采集信息地過程,由傳感器,測量硬件與帶有可編程軟件地計(jì)算機(jī)組成數(shù)據(jù)采集系統(tǒng)。基本內(nèi)容——定義現(xiàn)代地大數(shù)據(jù)采集現(xiàn)代地大數(shù)據(jù)采集是指對傳感器數(shù)據(jù),互聯(lián)網(wǎng)數(shù)據(jù),RFID數(shù)據(jù),社交網(wǎng)絡(luò)數(shù)據(jù)等海量數(shù)據(jù)進(jìn)行數(shù)據(jù)獲取地過程。相比于傳統(tǒng)地?cái)?shù)據(jù)采集,現(xiàn)代地大數(shù)據(jù)采集可以更好地應(yīng)對數(shù)據(jù)量大,數(shù)據(jù)源種類多與數(shù)據(jù)類型繁雜地?cái)?shù)據(jù)問題。基本內(nèi)容——作用海量數(shù)據(jù)是企業(yè)大數(shù)據(jù)戰(zhàn)略建設(shè)地基礎(chǔ),在分析數(shù)據(jù)之前,需求采集到高質(zhì)量數(shù)據(jù)。數(shù)據(jù)采集是大數(shù)據(jù)技術(shù)地一個重要環(huán)節(jié),是數(shù)據(jù)處理分析與展示地一個數(shù)據(jù)來源,其后地?cái)?shù)據(jù)分析都是建立在采集地基礎(chǔ)上。大數(shù)據(jù)采集大數(shù)據(jù)預(yù)處理大數(shù)據(jù)存儲大數(shù)據(jù)分析基本內(nèi)容——數(shù)據(jù)來源傳統(tǒng)采集地?cái)?shù)據(jù)來源業(yè)務(wù)數(shù)據(jù)行業(yè)數(shù)據(jù)大數(shù)據(jù)采集地?cái)?shù)據(jù)來源商業(yè)數(shù)據(jù)互聯(lián)網(wǎng)數(shù)據(jù)物聯(lián)網(wǎng)數(shù)據(jù)基本內(nèi)容——數(shù)據(jù)來源傳統(tǒng)數(shù)據(jù)采集地?cái)?shù)據(jù)來源來源單一,數(shù)據(jù)量較小;數(shù)據(jù)結(jié)構(gòu)單一,大部分都是結(jié)構(gòu)化數(shù)據(jù);傳統(tǒng)地?cái)?shù)據(jù)分為業(yè)務(wù)數(shù)據(jù)與行業(yè)數(shù)據(jù)。基本內(nèi)容——數(shù)據(jù)來源傳統(tǒng)數(shù)據(jù)從傳統(tǒng)企業(yè)地客戶關(guān)系管理系統(tǒng),企業(yè)資源計(jì)劃系統(tǒng)與相關(guān)業(yè)務(wù)系統(tǒng)中獲取,數(shù)據(jù)結(jié)構(gòu)單一,大部分都是結(jié)構(gòu)化數(shù)據(jù),這些數(shù)據(jù)量小,數(shù)據(jù)地存儲管理難度也會相對較低。對于傳統(tǒng)地源數(shù)據(jù),大部分企業(yè)采用關(guān)系型數(shù)據(jù)庫(如SQLServer,MySQL等)與并行數(shù)據(jù)倉庫(如SQLServer并行數(shù)據(jù)倉庫)進(jìn)行存儲管理。基本內(nèi)容——數(shù)據(jù)來源大數(shù)據(jù)采集地?cái)?shù)據(jù)來源具有多樣性與復(fù)雜性;來源廣泛,數(shù)據(jù)量巨大;可以是線上行為數(shù)據(jù)或內(nèi)容數(shù)據(jù),這些數(shù)據(jù)類型豐富多樣,包含了結(jié)構(gòu)化數(shù)據(jù),半結(jié)構(gòu)化數(shù)據(jù)與非結(jié)構(gòu)化數(shù)據(jù)。基本內(nèi)容——數(shù)據(jù)來源源數(shù)據(jù)用途商業(yè)數(shù)據(jù)主要用于經(jīng)營與管理,為用戶指定精準(zhǔn)地營銷策略。互聯(lián)網(wǎng)數(shù)據(jù)主要是用于構(gòu)造虛擬地信息空間,為廣大用戶提高信息服務(wù)與社交服務(wù)。物聯(lián)網(wǎng)數(shù)據(jù)主要用于過程控制,生產(chǎn)調(diào)度,環(huán)境保護(hù),現(xiàn)場指揮等方面。雖然商業(yè)數(shù)據(jù)與互聯(lián)網(wǎng)數(shù)據(jù)地主要用途不一樣,但是互聯(lián)網(wǎng)數(shù)據(jù)中也包含了部分商業(yè)數(shù)據(jù),所以有時也將商業(yè)數(shù)據(jù),互聯(lián)網(wǎng)數(shù)據(jù)統(tǒng)稱為網(wǎng)絡(luò)數(shù)據(jù)。為了便于大數(shù)據(jù)價(jià)值分析,通常將數(shù)據(jù)采集地源數(shù)據(jù)根據(jù)用途劃分為3個模塊:商業(yè)數(shù)據(jù),互聯(lián)網(wǎng)數(shù)據(jù)與物聯(lián)網(wǎng)數(shù)據(jù)。基本內(nèi)容——數(shù)據(jù)來源商業(yè)數(shù)據(jù)是指來自企業(yè)資源計(jì)劃系統(tǒng)(ERP),銷售時點(diǎn)情報(bào)系統(tǒng)(POS),終端機(jī)網(wǎng)上支付系統(tǒng)地?cái)?shù)據(jù)數(shù)據(jù)來源主要渠道是電子商務(wù)。電商業(yè)務(wù)地發(fā)展較為快速,業(yè)務(wù)邏輯日益復(fù)雜,業(yè)務(wù)數(shù)據(jù)源也越來越多樣化,數(shù)據(jù)量大,每天有TB級地增量數(shù)據(jù),近百億條地用戶數(shù)據(jù),上百萬條地產(chǎn)品數(shù)據(jù)。基本內(nèi)容——數(shù)據(jù)來源互聯(lián)網(wǎng)數(shù)據(jù)是網(wǎng)絡(luò)空間交互過程中產(chǎn)生地大量數(shù)據(jù),是大數(shù)據(jù)采集地重要對象,它地產(chǎn)生者主要是在線用戶,數(shù)據(jù)大部分是半結(jié)構(gòu)化數(shù)據(jù)與無結(jié)構(gòu)數(shù)據(jù)。互聯(lián)網(wǎng)數(shù)據(jù)也被稱為線上數(shù)據(jù),可分為線上行為數(shù)據(jù)與內(nèi)容數(shù)據(jù)。--主要記錄用戶地上網(wǎng)行為--網(wǎng)上實(shí)際呈現(xiàn)地?cái)?shù)據(jù)用戶地IP地址用戶瀏覽單擊過哪些網(wǎng)頁……通信記錄各種視頻文件圖形圖像電子文檔線上行為數(shù)據(jù)內(nèi)容數(shù)據(jù)-網(wǎng)上實(shí)際呈現(xiàn)地?cái)?shù)據(jù)-主要記錄用戶地上網(wǎng)行為基本內(nèi)容——數(shù)據(jù)來源物聯(lián)網(wǎng)是指在計(jì)算機(jī)互聯(lián)網(wǎng)地基礎(chǔ)上,利用傳感器,射頻識別,無線數(shù)據(jù)通信,紅外線感應(yīng)等技術(shù),實(shí)現(xiàn)物與物相連地互聯(lián)網(wǎng)絡(luò)。物聯(lián)網(wǎng)數(shù)據(jù)主要來源于物理信息系統(tǒng)。數(shù)據(jù)可以是關(guān)于物理,化學(xué),生物等性質(zhì)與狀態(tài)地測量值關(guān)于行為與狀態(tài)地語言,視頻等多媒體數(shù)據(jù)用于研究學(xué)術(shù)地科學(xué)實(shí)驗(yàn)系統(tǒng)中人工模擬生成地仿真數(shù)據(jù)物聯(lián)網(wǎng)數(shù)據(jù)基本內(nèi)容——采集技術(shù)與方法網(wǎng)絡(luò)數(shù)據(jù)實(shí)時采集系統(tǒng)日志實(shí)時采集離線數(shù)據(jù)批量采集基本內(nèi)容——采集技術(shù)與方法網(wǎng)絡(luò)數(shù)據(jù)實(shí)時采集網(wǎng)絡(luò)數(shù)據(jù)主要是非結(jié)構(gòu)化數(shù)據(jù),采用地?cái)?shù)據(jù)采集方法主要是通過網(wǎng)絡(luò)爬蟲,APIWeb等方式獲取互聯(lián)網(wǎng)中地相關(guān)數(shù)據(jù)。基本內(nèi)容——采集技術(shù)與方法網(wǎng)絡(luò)爬蟲也被稱為蜘蛛,是一個可以自動提取網(wǎng)頁地程序,它已經(jīng)成為許多商業(yè)應(yīng)用,大數(shù)據(jù)研究人員采集大規(guī)模數(shù)據(jù)地重要工具。可用于搜索引擎,為搜索引擎從Web上下載網(wǎng)頁,是搜索引擎地重要組成部分。除了用于搜索引擎之外,也被廣泛用于互聯(lián)網(wǎng)上網(wǎng)頁數(shù)據(jù)地收集。基本內(nèi)容——采集技術(shù)與方法網(wǎng)絡(luò)爬蟲在網(wǎng)站地服務(wù)器上獲取到網(wǎng)頁數(shù)據(jù)內(nèi)容,再把非結(jié)構(gòu)化數(shù)據(jù)抽取出來,并以結(jié)構(gòu)化地方式將數(shù)據(jù)存儲為統(tǒng)一地本地?cái)?shù)據(jù)文件。在實(shí)際應(yīng)用中,網(wǎng)絡(luò)爬蟲支持文本,圖片,音頻與視頻等數(shù)據(jù)采集。獲取網(wǎng)頁數(shù)據(jù)內(nèi)容將非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù)將數(shù)據(jù)存儲為統(tǒng)一地本地?cái)?shù)據(jù)文件網(wǎng)絡(luò)爬蟲基本內(nèi)容——采集技術(shù)與方法系統(tǒng)日志實(shí)時采集數(shù)據(jù)中心地服務(wù)器軟件每天會產(chǎn)生大量日志文件,日志文件記錄地信息對各種服務(wù)器軟件地有效操作與維護(hù)具有極大地作用。基于網(wǎng)絡(luò)日志地重要性,許多有實(shí)力地互聯(lián)網(wǎng)大企業(yè)常常根據(jù)自身需求開發(fā)相應(yīng)地系統(tǒng)日志采集軟件。采用分布式架構(gòu)地采集工具,可以滿足每秒數(shù)百M(fèi)B地日志數(shù)據(jù)采集與傳輸需求。基本內(nèi)容——采集技術(shù)與方法Scribe是Facebook地一款開源地日志收集系統(tǒng),可以從各種日志源上收集日志記錄,并將日志存儲到一個中央存儲系統(tǒng)上(如HDFS文件系統(tǒng)),以便于Scribe對日志信息進(jìn)行集中地統(tǒng)計(jì)處理。Scribe為日志地分布式收集,統(tǒng)一處理提供了一個可擴(kuò)展地,高容錯地方案。基本內(nèi)容——采集技術(shù)與方法離線數(shù)據(jù)批量采集在互聯(lián)網(wǎng)應(yīng)用中,無論使用什么處理方式,其基本地?cái)?shù)據(jù)來源都是日志數(shù)據(jù),如果只是希望得到數(shù)據(jù)地分析結(jié)果,對處理地時間要求不嚴(yán)格,那么可以采用離線批量采集地方式。離線批量采集地工具主要是Sqoop,Sqoop是在關(guān)系型數(shù)據(jù)庫與非關(guān)系型數(shù)據(jù)庫之間進(jìn)行數(shù)據(jù)轉(zhuǎn)換地工具。基本內(nèi)容——采集技術(shù)與方法處理時間要求不高數(shù)據(jù)量巨大數(shù)據(jù)格式多樣占用計(jì)算存儲資源多離線批量采集地方法主要適用地?cái)?shù)據(jù)開發(fā)場景基本內(nèi)容——數(shù)據(jù)采集系統(tǒng)地結(jié)構(gòu)數(shù)據(jù)采集系統(tǒng)按結(jié)構(gòu)可分為集中式數(shù)據(jù)采集與分布式數(shù)據(jù)采集兩種。數(shù)據(jù)采集系統(tǒng)地結(jié)構(gòu)描述特點(diǎn)集中式數(shù)據(jù)采集主要考慮網(wǎng)絡(luò)地帶寬資源與主機(jī)地效率。需求地組態(tài)軟件數(shù)量較多。可以掌控所有地?cái)?shù)據(jù)。但在擴(kuò)展與后期維護(hù)上成本較大。分布式數(shù)據(jù)采集以集中式數(shù)據(jù)采集為基礎(chǔ),融合分布式計(jì)算,分布式文件管理等新技術(shù)發(fā)展而成。采集更加靈活。數(shù)據(jù)采集效率更高。不僅僅可以收集公司內(nèi)部數(shù)據(jù),而且可以收集公司之間地信息數(shù)據(jù)。常用工具根據(jù)不同地業(yè)務(wù)需求可以選擇不同地?cái)?shù)據(jù)采集工具,在實(shí)際開發(fā)應(yīng)用中,常用地?cái)?shù)據(jù)采集工具有Sqoop,Flume,Scribe,Chukwa,Logstash等。常用工具——Sqoop地概述Sqoop(SQLtoHadoop)是一種可以在Hadoop與關(guān)系數(shù)據(jù)庫之間傳輸數(shù)據(jù)地工具。Sqoop地核心設(shè)計(jì)思想是利用MapReduce加快數(shù)據(jù)傳輸速度,即Sqoop地導(dǎo)入與導(dǎo)出功能是通過MapReduce完成地,因此Sqoop工具是一種采用批處理方式進(jìn)行數(shù)據(jù)采集地工具,難以實(shí)現(xiàn)實(shí)時數(shù)據(jù)地導(dǎo)入與導(dǎo)出。常用工具——Sqoop地架構(gòu)Sqoop工具目前有兩個版本。版本號1.4x,簡稱為Sqoop1。版本號1.99x,簡稱為Sqoop2。Sqoop2相對比Sqoop1,在基本架構(gòu)與設(shè)計(jì)思路上都做了較大地改進(jìn),因此這兩個版本是完全不兼容地。Sqoop1客戶端工具不需求啟動任何服務(wù)即可使用,較為簡便。Sqoop1實(shí)際上是一個只有Map地MapReduce作業(yè),它利用了MapReduce高容錯性等優(yōu)點(diǎn),將數(shù)據(jù)批量采集傳輸?shù)厝蝿?wù)轉(zhuǎn)化為MapReduce作業(yè)。常用工具——Sqoop地架構(gòu)Sqoop1地基本架構(gòu)圖用戶通過shell命令提交數(shù)據(jù)傳輸任務(wù)后,Sqoop1會在數(shù)據(jù)庫中讀取數(shù)據(jù),并根據(jù)數(shù)據(jù)并發(fā)度與數(shù)據(jù)表大小將數(shù)據(jù)劃分為若干分片每一片交給一個Map任務(wù)處理,多個Map任務(wù)同時讀取數(shù)據(jù)庫中地?cái)?shù)據(jù),并行地將數(shù)據(jù)寫入目標(biāo)存儲系統(tǒng)里,如HDFS,Hive,HBase。常用工具——Sqoop地架構(gòu)當(dāng)數(shù)據(jù)采集傳輸?shù)厝蝿?wù)較大地時候,Sqoop1會暴露以下缺點(diǎn)。Sqoop1客戶端不易部署,客戶端要安裝地軟件繁多。Sqoop1依賴地軟件必須安裝在客戶端上,包含MySQL客戶端,Hadoop客戶端,JDBC驅(qū)動,數(shù)據(jù)庫廠商提供地Connectors等。安全性較差。Sqoop1需求用戶明文提供數(shù)據(jù)庫地用戶名與密碼,不能為數(shù)據(jù)地采集提供一個可靠安全地工作環(huán)境。為了解決Sqoop1客戶端地一些弊端,Sqoop2在Sqoop1原有地基本架構(gòu)上進(jìn)行了改進(jìn)。Sqoop2在Sqoop1原有基本架構(gòu)做地改進(jìn)作用SqoopServer集中化管理Connectors,Hadoop相關(guān)地客戶端等。基于角色地安全機(jī)制支持多種訪問方式:客戶端命令行(CLI),瀏覽器(WebUI)。常用工具——Sqoop地架構(gòu)Sqoop2地基本架構(gòu)圖SqoopClientSqoopServerMapReduce作業(yè)Hadoop集群常用工具——Sqoop地架構(gòu)SqoopClient組件定義了用戶使用Sqoop地方式:客戶命令行與瀏覽器。SqoopServer會根據(jù)用戶創(chuàng)建地SqoopJob生成一個MapReduce作業(yè),包含:Map任務(wù):讀取數(shù)據(jù)庫中地?cái)?shù)據(jù)。Reduce任務(wù):處理數(shù)據(jù)。SqoopServer端會響應(yīng)客戶端發(fā)出地RESTful與HTTP請求。SqoopServer端包含:Connectors:負(fù)責(zé)數(shù)據(jù)地解析與加載。元信息(Metadata):包含可用地Connectors列表,用戶創(chuàng)建地作業(yè)等,元信息被存儲在元數(shù)據(jù)倉庫中。“云端”MapReduce作業(yè)會提交到Hadoop集群中執(zhí)行,將數(shù)據(jù)寫入目標(biāo)存儲系統(tǒng)中。常用工具——Sqoop地特點(diǎn)Sqoop工具在關(guān)系型數(shù)據(jù)庫與Hadoop之間搭建了一個橋梁,讓數(shù)據(jù)地批量采集變得更加簡單,Sqoop工具主要具備以下3個特點(diǎn)。高效可控地利用資源,通過調(diào)整任務(wù)數(shù)來控制任務(wù)地并發(fā)度。可讀取數(shù)據(jù)源地元信息自動地完成數(shù)據(jù)映射與轉(zhuǎn)換,用戶也可以自定義類型映射關(guān)系。支持多種數(shù)據(jù)庫,如MySQL,Oracle等數(shù)據(jù)庫。常用工具——Sqoop地應(yīng)用場景目前大部分可視化工具與關(guān)系型數(shù)據(jù)庫對接得比較好,可使用Sqoop工具將Hadoop產(chǎn)生地分析結(jié)果導(dǎo)入到關(guān)系型數(shù)據(jù)庫中,以便進(jìn)行可視化展示。Sqoop應(yīng)用場景數(shù)據(jù)遷移可視化分析結(jié)果數(shù)據(jù)增量導(dǎo)入將公司內(nèi)部商用關(guān)系型數(shù)據(jù)倉庫中地?cái)?shù)據(jù)遷移到Hadoop大數(shù)據(jù)平臺上,以便使用Hadoop提供地工具進(jìn)行數(shù)據(jù)分析。Sqoop在Hadoop與關(guān)系型數(shù)據(jù)庫之間地?cái)?shù)據(jù)采集上較有優(yōu)勢。對于事務(wù)相關(guān)地?cái)?shù)據(jù),如支付平臺地?cái)?shù)據(jù),通常不會直接讓Hadoop訪問數(shù)據(jù),而是根據(jù)需求導(dǎo)入部分或全部數(shù)據(jù)到Hadoop存儲系統(tǒng)中Sqoop在關(guān)系型數(shù)據(jù)庫與Hadoop之間搭建了一個橋梁,是一個高性能,易用靈活地?cái)?shù)據(jù)導(dǎo)入導(dǎo)出工具。常用工具——Sqoop地環(huán)境要求需搭建Java環(huán)境與Hadoop環(huán)境。安裝MySQL數(shù)據(jù)庫。需求連接MySQL地可執(zhí)行JAR包,用于Sqoop連接MySQL數(shù)據(jù)庫。Sqoop安裝配置需求滿足地要求:常用工具——Flume地概述Flume是一種分布式,可靠且可用地日志采集系統(tǒng),用于有效地收集,聚合與傳輸大量地日志數(shù)據(jù)到指定地?cái)?shù)據(jù)存儲系統(tǒng)中。基于流式數(shù)據(jù)流地體系結(jié)構(gòu)簡單靈活;具有可調(diào)整地可靠性機(jī)制與許多故障轉(zhuǎn)移與恢復(fù)機(jī)制;支持?jǐn)?shù)據(jù)發(fā)送方,數(shù)據(jù)接收方地?cái)?shù)據(jù)定制;具備對數(shù)據(jù)進(jìn)行簡單預(yù)處理地能力。常用工具——Flume地發(fā)展史Flume是Cloudera開發(fā)地實(shí)時日志采集系統(tǒng),目前Flume有兩個版本:Flume-OGFlume-NGFlume-OGFlume-OG暴露缺點(diǎn):代碼工程臃腫核心組件設(shè)計(jì)不合理核心配置不標(biāo)準(zhǔn)對Flume地核心組件,核心配置,代碼架構(gòu)進(jìn)行重構(gòu)Flume-NG經(jīng)重構(gòu)后所形成地更具有適應(yīng)性地版本稱為FlumeNG,FlumeNG使用更加方便簡單,適應(yīng)各種日志收集。常用工具——Flume地架構(gòu)Flume采用了Source→Channel→Sink地分層架構(gòu),以Agent為最小地獨(dú)立運(yùn)行單位,Agent是Flume中產(chǎn)生數(shù)據(jù)流地地方,一個Agent由Source,Channel與Sink這3個組件構(gòu)成,不同類型組件之間可以自由組合構(gòu)建符合采集需求地系統(tǒng)。常用工具——Flume地體系架構(gòu)Client生產(chǎn)數(shù)據(jù),運(yùn)行在一個獨(dú)立地線程上。Source完成對日志數(shù)據(jù)地收集,從Client收集數(shù)據(jù),傳遞給Channel。可接收外部源地?cái)?shù)據(jù),不同類型地Source可以接受不同地?cái)?shù)據(jù)格式。Channel緩存Source提供地?cái)?shù)據(jù)。Channel中地?cái)?shù)據(jù)需求進(jìn)入下一個Channel中或者進(jìn)入終端才會被刪除,因此Sink寫入數(shù)據(jù)失敗時會自動重啟,不會造成數(shù)據(jù)丟失。Sink收集Channel中地?cái)?shù)據(jù),寫入到文件存儲系統(tǒng),數(shù)據(jù)庫或提交到遠(yuǎn)程服務(wù)器。常用工具——Flume地特點(diǎn)高可靠性Flume內(nèi)置了事務(wù)支持,保證每一條數(shù)據(jù)都能被下一條接受到而不會丟失。高擴(kuò)展性Flume地架構(gòu)是分布式地架構(gòu),沒有任何中心化地組件。高度定制化Flume采集工具中地所有組件都是可插拔地,用戶可以根據(jù)自己地需求定制每個組件。常用工具——Flume地應(yīng)用場景Flume可將分布式節(jié)點(diǎn)上地大量數(shù)據(jù)進(jìn)行實(shí)時采集,匯總與轉(zhuǎn)移,主要應(yīng)用于電子商務(wù)網(wǎng)站內(nèi)容推送地場景,如廣告定點(diǎn)投放等。Flume采集用戶地訪問頁面數(shù)據(jù)與用戶單擊地產(chǎn)品數(shù)據(jù);將這些日志信息采集后轉(zhuǎn)移到Hadoop平臺進(jìn)行分析;準(zhǔn)確快速地將用戶所想要地內(nèi)容推送到界面上。常用工具——Flume地環(huán)境要求Flume地運(yùn)行環(huán)境較為簡單,對操作系統(tǒng)地要求不高確保運(yùn)行環(huán)境安裝了JDK版本,JDK地版本需在1.7以上。需足夠地內(nèi)存與磁盤空間用于配置使用地Source,Channel,Sink。Flume地安裝環(huán)境要求:常用工具——Scribe地概述Scribe是Facebook開源地分布式日志采集系統(tǒng)。Scribe用于匯總流日志數(shù)據(jù),它可以從各種數(shù)據(jù)源或機(jī)器上收集日志存儲到一個存儲系統(tǒng),如分布式文件系統(tǒng)HDFS等。Scribe為日志數(shù)據(jù)地分布式收集提供了一個高容錯且可擴(kuò)展地方案。Scribe采用ShfitRPC消息傳遞地方式,在收集源數(shù)據(jù)時不能進(jìn)行數(shù)據(jù)處理,比如數(shù)據(jù)地備份,一旦源數(shù)據(jù)傳輸?shù)絊cribeServer端,若ScribeServer端出現(xiàn)故障,則會造成數(shù)據(jù)丟失。常用工具——Scribe地架構(gòu)Scribe架構(gòu)簡單,主要包含Scribeagent,Scribe與存儲系統(tǒng)3個部分常用工具——Scribe地架構(gòu)Scribeagent實(shí)際上是一個Thriftclient,可以向Scribe發(fā)送數(shù)據(jù)。Scribe將接收到地Thriftclient發(fā)送過來地?cái)?shù)據(jù),放到一個共享隊(duì)列上,根據(jù)配置文件,將不同主題地?cái)?shù)據(jù)發(fā)送給不同地對象,加載到存儲系統(tǒng)中。Scribe提供了各種各樣地存儲系統(tǒng),如file,HDFS,buffer(雙層存儲,一個主儲存,一個副存儲),work(另一個Scribe服務(wù)器)等。常用工具——Scribe地特點(diǎn)Scribe具有靈活地?cái)?shù)據(jù)交互模型Scribe地架構(gòu)簡單,數(shù)據(jù)交互模型采用地是鍵值對,優(yōu)點(diǎn)是更為靈活。Scribe具有良好地容錯能力當(dāng)后端存儲系統(tǒng)地網(wǎng)絡(luò)或機(jī)器出現(xiàn)故障時,Scribe會將日志數(shù)據(jù)寫到本地磁盤上,當(dāng)存儲系統(tǒng)恢復(fù)性能后,Scribe再將日志數(shù)據(jù)重新傳輸給中央存儲系統(tǒng)。常用工具——Scribe地環(huán)境要求Scribe地安裝非常復(fù)雜,主要是因?yàn)槠湟蕾嚨匕枨笤O(shè)置地環(huán)境變量非常多,而且不能很好地與Hadoop兼容,安裝非常需求技巧。安裝Scribe需安裝Thrift依賴軟件,Thrift與Hadoop。Thrift依賴軟件有g(shù)++,boost,Apacheant,autoconf,libevent,JDK,PHP與Python等。Scribe地安裝環(huán)境要求:常用工具——Chukwa地概述ApacheChukwa是一個用于監(jiān)視大型分布式系統(tǒng)地開源數(shù)據(jù)收集系統(tǒng)。特點(diǎn)Mapreduce最初主要用于日志處理;優(yōu)勢:處理大文件;因?yàn)榧涵h(huán)境中設(shè)備地?cái)?shù)據(jù)量會不斷遞增,會生成大量地小文件,因此使用Mapreduce會變成一件煩瑣地事情。Chukwa彌補(bǔ)了Mapreduce處理大量小文件地缺陷;Chukwa建立在Hadoop分布式文件系統(tǒng)(HDFS)與Map/Reduce框架之上,并繼承了Hadoop地可擴(kuò)展性與魯棒性;可以將各種各樣類型地?cái)?shù)據(jù)收集成適合Hadoop處理地文件,并保存在HDFS中供Hadoop進(jìn)行各種Mapreduce操作;Chukwa本身包含一個靈活且功能強(qiáng)大地工具包,用于顯示,監(jiān)控與分析收集到地?cái)?shù)據(jù)。常用工具——Chukwa地架構(gòu)Chukwa提供了很多內(nèi)置地功能,對從數(shù)據(jù)地產(chǎn)生,收集,存儲,分析到展示這一整個生命周期都提供了全面地支持,在進(jìn)行數(shù)據(jù)地收集與整理時更加簡便。常用工具——Chukwa地架構(gòu)Adaptor:直接采集數(shù)據(jù)地接口每一類數(shù)據(jù)通過一個Adaptor來實(shí)現(xiàn)。Chukwa對命令行輸出,日志文件與httpsender等常見地?cái)?shù)據(jù)來源已經(jīng)提供了相應(yīng)地Adaptor。一個Agent可以管理多個Adaptor地?cái)?shù)據(jù)采集。Agent:負(fù)責(zé)采集源數(shù)據(jù)運(yùn)行在每一個被監(jiān)控地機(jī)器上,Agent采集到地?cái)?shù)據(jù)會發(fā)送給Collector。常用工具——Chukwa地架構(gòu)Collector:合并小文件數(shù)據(jù)寫入Hadoop集群數(shù)據(jù)需求存儲至Hadoop集群,Hadoop集群更擅長于處理TB與PB級地大文件數(shù)據(jù),對于大量小文件地處理則不是它地強(qiáng)項(xiàng),為此Chukwa設(shè)計(jì)了Collector這個角色。Collector會把數(shù)據(jù)先進(jìn)行部分合并,再定時寫入Hadoop集群中。Mapreduce作業(yè):實(shí)現(xiàn)數(shù)據(jù)分析在Mapreduce階段,Chukwa提供兩種內(nèi)置地作業(yè)類型:Demux與Archive。Demux:把非結(jié)構(gòu)化地?cái)?shù)據(jù)進(jìn)行結(jié)構(gòu)化處理,抽取其中地?cái)?shù)據(jù)屬性,可根據(jù)需求來制定Demux。Archive:把同類型地?cái)?shù)據(jù)文件合并,便于進(jìn)一步分析,同時也可減少文件數(shù)量,減輕Hadoop集群地存儲壓力。常用工具——Chukwa地架構(gòu)Hicc:數(shù)據(jù)展示端Chukwa使用MDL語言,把集群上地?cái)?shù)據(jù)抽取到MySQL數(shù)據(jù)庫中,用MySQL數(shù)據(jù)庫地?cái)?shù)據(jù)作為展示地?cái)?shù)據(jù)源,通過Hicc數(shù)據(jù)展示端來展示數(shù)據(jù)結(jié)果。Hicc是用Jetty實(shí)現(xiàn)地一個Web服務(wù)端,內(nèi)部用地是SP技術(shù)與JavaScript技術(shù),用戶可以使用列表,曲線圖,多曲線圖,柱狀圖,面積圖等圖表展示數(shù)據(jù)。Hicc對不斷生成地新數(shù)據(jù)與歷史數(shù)據(jù),會在時間軸上進(jìn)行稀釋,防止數(shù)據(jù)不斷增長并增大服務(wù)器壓力,也可提供長時間段地?cái)?shù)據(jù)展示。常用工具——Chukwa地特點(diǎn)架構(gòu)清晰,部署快速對于集群各節(jié)點(diǎn)地CPU使用率,內(nèi)存使用率,集群文件數(shù)變化,作業(yè)數(shù)變化等Hadoop相關(guān)數(shù)據(jù),從采集到展示地一整套流程,Chukwa都提供了內(nèi)建地支持,只需求簡單地配置即可使用。具有高擴(kuò)展性Chukwa收集地?cái)?shù)據(jù)類型很廣泛,具有高擴(kuò)展性。具備良好地可靠性節(jié)點(diǎn)崩潰時,Chukwa地Agent會自動重啟終止地?cái)?shù)據(jù)采集進(jìn)程,防止原始數(shù)據(jù)地丟失。常用工具——Chukwa地環(huán)境要求搭建,運(yùn)行Chukwa需求在Linux環(huán)境下。需安裝配置Hadoop。需求依賴JDK環(huán)境。系統(tǒng)中需求支持SSH安全協(xié)議。Chukwa地安裝環(huán)境要求:常用工具——Logstash地概述Logstash是一個具有實(shí)時流水線功能地開源數(shù)據(jù)收集引擎。具有實(shí)時地?cái)?shù)據(jù)傳輸能力。能同時從多個來源采集數(shù)據(jù),轉(zhuǎn)換數(shù)據(jù)與傳輸數(shù)據(jù)。不受數(shù)據(jù)格式或復(fù)雜度地影響。安裝部署較為簡便。通過Logstash可以采集不同系統(tǒng)上地日志數(shù)據(jù),并對數(shù)據(jù)進(jìn)行自定義地處理,將處理后地?cái)?shù)據(jù)集中輸出到指定存儲位置。常用工具——Logstash地架構(gòu)Logstash由3個核心組成部分:數(shù)據(jù)收集,數(shù)據(jù)解析與數(shù)據(jù)轉(zhuǎn)存,這3個核心組成部分組成了一個類似管道地?cái)?shù)據(jù)流,即Logstash事件處理管道地3個階段:輸入,過濾器與輸出。常用工具——Logstash地架構(gòu)輸入支持各種輸入選擇;可以采集各種形式,大小與來源地?cái)?shù)據(jù);可在同一時間從眾多常用數(shù)據(jù)來源中捕捉事件;支持連續(xù)地流式傳輸方式,可從日志,Web應(yīng)用,數(shù)據(jù)存儲系統(tǒng)以和各種AWS服務(wù)采集數(shù)據(jù)。過濾器起到一個實(shí)時解析與轉(zhuǎn)換數(shù)據(jù)地作用;解析各個事件,識別已命名地字段以構(gòu)建結(jié)構(gòu),并轉(zhuǎn)換成通用格式;簡化整體處理,不受數(shù)據(jù)源,格式與架構(gòu)地影響。輸出提供眾多輸出選擇;Elasticsearch:一個開源搜索與數(shù)據(jù)分析引擎,也具有分布式地實(shí)時文件存儲功能;file:將事件數(shù)據(jù)寫入磁盤上地文件;石墨:一種流行地開源工具,用于存儲與繪制指標(biāo)圖形。常用工具——Logstash地特點(diǎn)易于擴(kuò)展定制Logstash采用可插拔框架,擁有200多個插件。每個階段都可以多個插件配合工作,插件之間具有多種組合方式,可以根據(jù)不同地?cái)?shù)據(jù)采集需求來創(chuàng)建與配置管道。高可靠性Logstash構(gòu)建了可信地交付管道,假如Logstash節(jié)點(diǎn)發(fā)生故障,Logstash會通過持久化隊(duì)列來保證至少將運(yùn)行中地事件送達(dá)一次,那些未被正常處理地消息會被送往死信隊(duì)列(deadletterqueue),以便做進(jìn)一步地處理。高安全性Logstash管道常服務(wù)于多種用途,因此Logstash管道地使用會變得非常復(fù)雜,充分了解與監(jiān)控管道性能與可用性非常重要。Logstash具有監(jiān)測與管道查看地功能,可以輕松觀察與研究處于活動狀態(tài)地Logstash節(jié)點(diǎn)或整個部署。常用工具——Logstash地環(huán)境要求Logstash部署簡單,運(yùn)行簡便,僅依賴Java運(yùn)行環(huán)境。Logstash需求地Java版本為Java8或Java11。采集流程數(shù)據(jù)采集是來自各種不同數(shù)據(jù)源地?cái)?shù)據(jù)進(jìn)入大數(shù)據(jù)系統(tǒng)地第一步,采集地性能將會影響一個時間段內(nèi)大數(shù)據(jù)系統(tǒng)可以處理地?cái)?shù)據(jù)量地能力。數(shù)據(jù)采集地通用流程是:解析傳入地?cái)?shù)據(jù),做必要地驗(yàn)證,數(shù)據(jù)清洗并去重,對數(shù)據(jù)進(jìn)行轉(zhuǎn)換,最后將數(shù)據(jù)存儲到某種持久層。采集流程——Flume實(shí)時數(shù)據(jù)采集流程Flume數(shù)據(jù)采集地核心過程是把數(shù)據(jù)從數(shù)據(jù)源收集過來,再送到目地地。為了保證傳輸成功,在送到目地地之前,Flume會先緩存數(shù)據(jù),等數(shù)據(jù)真正存儲完成后,則刪除緩存地?cái)?shù)據(jù)。Flume采用流式方式采集與傳輸數(shù)據(jù),程序配置好后,不需求外部條件觸發(fā),實(shí)時監(jiān)控?cái)?shù)據(jù)源,源源不斷地采集,傳送數(shù)據(jù)到目地地。采集流程——Flume實(shí)時數(shù)據(jù)采集流程Flume地?cái)?shù)據(jù)采集通用流程圖采集流程——Flume實(shí)時數(shù)據(jù)采集流程確定數(shù)據(jù)地流向(基礎(chǔ)步驟)明確數(shù)據(jù)開始地位置與最終要寫入地目標(biāo)端;確定數(shù)據(jù)源是在集群內(nèi)還是集群外,若在集群內(nèi)則通過Flume服務(wù)端采集;若在集群外,則通過Flume客戶端采集數(shù)據(jù),再通過級聯(lián)地方式將數(shù)據(jù)發(fā)給Flume服務(wù)端;確定數(shù)據(jù)最終去向,如HDFS,Hbase,Kafka,Solr等。采集流程——Flume實(shí)時數(shù)據(jù)采集流程確定Agent組件地選取一個Agent由Source,Channel與Sink這3個組件構(gòu)成,不同類型地Source,Channel與Sink可以自由組合;根據(jù)采集地需求,確定Agent組件地選取。采集流程——Flume實(shí)時數(shù)據(jù)采集流程修改配置文件參數(shù)(重要步驟)修改配置文件參數(shù)包含自定義Source,Channel與Sink名稱,設(shè)置Source,Channel與Sink類型等。采集流程——Flume實(shí)時數(shù)據(jù)采集流程Source類型Kafka;spooldir:從某個目錄下采集數(shù)據(jù);http:接受http請求地?cái)?shù)據(jù);taildir:實(shí)時采集目錄下地文件;Avro:接受avro協(xié)議地?cái)?shù)據(jù)。Channel類型FileChannel:可持久化所有地事件(event),將事件存儲到磁盤文件中;MemoryChannel:將事件存儲在內(nèi)存中,實(shí)現(xiàn)高速地吞吐;JDBCChannel:將事件存儲在持久化存儲庫中,JDBCChannel當(dāng)前支持它本身嵌入地Derby數(shù)據(jù)庫。Sink類型HDFS;HBase;
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 播州區(qū)2024-2025學(xué)年第二學(xué)期七年級語文(二卷試題)
- 生物電子接口-洞察及研究
- 社會期望與角色內(nèi)化研究-洞察及研究
- 金屬凝固行為研究-洞察及研究
- 教學(xué)場景中的視覺傳達(dá)設(shè)計(jì)
- 南師大固體廢棄物處理教案07固體廢物焚燒技術(shù)
- 廣西旅游業(yè)發(fā)展的比較研究以桂林為例
- 車輛質(zhì)押貸款合同車輛保養(yǎng)責(zé)任規(guī)定
- 財(cái)務(wù)顧問收費(fèi)標(biāo)準(zhǔn)及企業(yè)財(cái)務(wù)分析合作協(xié)議
- 2025年檢驗(yàn)醫(yī)師試題
- GB/T 531.1-2008硫化橡膠或熱塑性橡膠壓入硬度試驗(yàn)方法第1部分:邵氏硬度計(jì)法(邵爾硬度)
- GB 31604.10-2016食品安全國家標(biāo)準(zhǔn)食品接觸材料及制品2,2-二(4-羥基苯基)丙烷(雙酚A)遷移量的測定
- 激光產(chǎn)生的基本原理課件
- 黑布林閱讀TheHoundoftheBaskervilles巴斯克維爾的獵犬習(xí)題含答案
- 2022年臨夏回族自治州中醫(yī)院醫(yī)護(hù)人員招聘筆試試題及答案解析
- T-CIATCM 011-2019 中醫(yī)脈象診斷信息分類與代碼
- 山東師范大學(xué)附屬小學(xué)教師公開招聘32名模擬試卷【共500題附答案解析】
- 輸電線路巡視工作課件
- 思想政治教育畢業(yè)論文開題報(bào)告一覽
- 毒蛇咬傷應(yīng)急演練方案
- 渣土倒運(yùn)土票
評論
0/150
提交評論