




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
.6.15基于Hadoop大數(shù)據(jù)處理關(guān)鍵技術(shù)綜述基于Hadoop的大數(shù)據(jù)處理關(guān)鍵技術(shù)綜述第1頁大數(shù)據(jù)背景介紹ContentHadoop定義、特點(diǎn)大數(shù)據(jù)對(duì)系統(tǒng)需求、大數(shù)據(jù)和云計(jì)算關(guān)系大數(shù)據(jù)市場分析大數(shù)據(jù)處理技術(shù)關(guān)鍵12Hadoop原理、優(yōu)點(diǎn)Hadoop體系架構(gòu)Hadoop關(guān)鍵設(shè)計(jì):MapReduce、HDFS基于Hadoop的大數(shù)據(jù)處理關(guān)鍵技術(shù)綜述第2頁大數(shù)據(jù)背景介紹1定義
為了更為經(jīng)濟(jì)從高頻率獲取、大容量、不一樣結(jié)構(gòu)和類型數(shù)據(jù)中獲取價(jià)值,而設(shè)計(jì)新一代架構(gòu)和技術(shù)特點(diǎn)基于Hadoop的大數(shù)據(jù)處理關(guān)鍵技術(shù)綜述第3頁大數(shù)據(jù)對(duì)系統(tǒng)需求大數(shù)據(jù)和云計(jì)算關(guān)系Highperformance–高并發(fā)讀寫需求 高并發(fā)、實(shí)時(shí)動(dòng)態(tài)獲取和更新數(shù)據(jù)HugeStorage–海量數(shù)據(jù)高效率存放和訪問需求 類似SNS網(wǎng)站,海量用戶信息高效率實(shí)時(shí)存放和查詢HighScalability&&HighAvailability–高可擴(kuò)展性和高可用性需求 需要擁有快速橫向擴(kuò)展能力、提供7*二十四小時(shí)不間斷服務(wù)云計(jì)算改變了IT,而大數(shù)據(jù)則改變了業(yè)務(wù)云計(jì)算是大數(shù)據(jù)IT基礎(chǔ),大數(shù)據(jù)須有云計(jì)算作為基礎(chǔ)架構(gòu),才能高效運(yùn)行經(jīng)過大數(shù)據(jù)業(yè)務(wù)需求,為云計(jì)算落地找到了實(shí)際應(yīng)用基于Hadoop的大數(shù)據(jù)處理關(guān)鍵技術(shù)綜述第4頁大數(shù)據(jù)市場分析是中國大數(shù)據(jù)市場元年,一些大數(shù)據(jù)產(chǎn)品已經(jīng)推出,部分行業(yè)也有大數(shù)據(jù)應(yīng)用案例產(chǎn)生。年-20,將迎來大數(shù)據(jù)市場飛速發(fā)展。年中國大數(shù)據(jù)市場規(guī)模到達(dá)4.7億元,20大數(shù)據(jù)市場將迎來增速為138.3%飛躍,到20,整個(gè)市場規(guī)模迫近百億。政府、互聯(lián)網(wǎng)、電信、金融大數(shù)據(jù)市場規(guī)模較大,四個(gè)行業(yè)將占據(jù)二分之一市場份額。因?yàn)楦鱾€(gè)行業(yè)都存在大數(shù)據(jù)應(yīng)用需求,潛在市場空間非常可觀。基于Hadoop的大數(shù)據(jù)處理關(guān)鍵技術(shù)綜述第5頁大數(shù)據(jù)處理技術(shù)關(guān)鍵分析技術(shù):數(shù)據(jù)處理:自然語言處理技術(shù);統(tǒng)計(jì)和分析:地域占比,文本情感分析,A/Btest,topN排行榜;數(shù)據(jù)挖掘:建模,聚類,分類,排名;模型預(yù)測:預(yù)測模型,機(jī)器學(xué)習(xí),建模仿真。存放技術(shù):結(jié)構(gòu)化數(shù)據(jù):海量數(shù)據(jù)查詢、統(tǒng)計(jì)、更新等操作效率低非結(jié)構(gòu)化數(shù)據(jù):圖片、視頻、word、pdf、ppt等文件存放,不利于檢索,存放和查詢半結(jié)構(gòu)化數(shù)據(jù):轉(zhuǎn)換為結(jié)構(gòu)化數(shù)據(jù)或者按照非結(jié)構(gòu)化存放。大數(shù)據(jù)技術(shù):數(shù)據(jù)采集:ETL工具;數(shù)據(jù)存取:關(guān)系數(shù)據(jù)庫,NoSQL,NewSQL,等基礎(chǔ)架構(gòu)支持:云存放,分布式文件系統(tǒng)等;計(jì)算結(jié)果展現(xiàn):云計(jì)算,標(biāo)簽云,關(guān)系圖等。處理方案:Hadoop(MapReduce技術(shù))、MongoDB、流計(jì)算(twitterstrom和yahoo!S4)基于Hadoop的大數(shù)據(jù)處理關(guān)鍵技術(shù)綜述第6頁Hadoop大數(shù)據(jù)主要應(yīng)用技術(shù)——Hadoop2Hadoop最先是由Apache企業(yè)在引入,起源于谷歌開發(fā)MapReduce和GoogleFileSystem(GFS)項(xiàng)目。Hadoop作為新一代架構(gòu)和技術(shù),因?yàn)橛欣诓⑿蟹植继幚怼按髷?shù)據(jù)”而備受重視。ApacheHadoop是一個(gè)用java語言實(shí)現(xiàn)軟件框架,在由大量計(jì)算機(jī)組成集群中運(yùn)行海量數(shù)據(jù)分布式計(jì)算,它能夠讓應(yīng)用程序支持上千個(gè)節(jié)點(diǎn)和PB級(jí)別數(shù)據(jù)。Hadoop是項(xiàng)目標(biāo)總稱,主要是由分布式存放(HDFS)、分布式計(jì)算(MapReduce)等組成。基于Hadoop的大數(shù)據(jù)處理關(guān)鍵技術(shù)綜述第7頁Hadoop原理基于Hadoop的大數(shù)據(jù)處理關(guān)鍵技術(shù)綜述第8頁Hadoop原理假設(shè)系統(tǒng)每秒處理4000個(gè)文件處理4千萬個(gè)文件=10000秒約為2.7小時(shí)處理4千萬個(gè)文件處理400萬個(gè)文件處理400萬個(gè)文件處理400萬個(gè)文件……切分成十臺(tái)機(jī)器處理約為17分鐘=約為17分鐘=約為17分鐘=結(jié)果合并輸出基于Hadoop的大數(shù)據(jù)處理關(guān)鍵技術(shù)綜述第9頁優(yōu)點(diǎn)可擴(kuò)展:不論是存放可擴(kuò)展還是計(jì)算可擴(kuò)展都是Hadoop設(shè)計(jì)根本。經(jīng)濟(jì):框架能夠運(yùn)行在任何普通PC上。可靠:分布式文件系統(tǒng)備份恢復(fù)機(jī)制以及MapReduce任務(wù)監(jiān)控確保了分布式處理可靠性。高效:分布式文件系統(tǒng)高效數(shù)據(jù)交互實(shí)現(xiàn)以及MapReduce結(jié)合LocalData處理模式,為高效處理海量信息作了基礎(chǔ)準(zhǔn)備。不適合存放小文件(不提議)大量隨機(jī)讀(不提議)對(duì)文件修改(不支持)應(yīng)用模式為:write-once-read-many存取模式基于Hadoop的大數(shù)據(jù)處理關(guān)鍵技術(shù)綜述第10頁Hadoop體系架構(gòu)MapReduceHBasePigChuKwaHivePig是一個(gè)基于Hadoop大規(guī)模數(shù)據(jù)分析平臺(tái),Pig為復(fù)雜海量數(shù)據(jù)并行計(jì)算提供了一個(gè)簡易操作和編程接口hive是基于Hadoop一個(gè)工具,提供完整sql查詢功效,能夠?qū)ql語句轉(zhuǎn)換為MapReduce任務(wù)進(jìn)行運(yùn)行Chukwa是基于Hadoop集群監(jiān)控系統(tǒng),由yahoo貢獻(xiàn)ZooKeeper:高效,可擴(kuò)展協(xié)調(diào)系統(tǒng),存放和協(xié)調(diào)關(guān)鍵共享狀態(tài)HBase是一個(gè)開源,基于列存放模型分布式數(shù)據(jù)庫MapReduce是一個(gè)編程模型,用于大規(guī)模數(shù)據(jù)集(大于1TB)并行運(yùn)算HDFS是一個(gè)分布式文件系統(tǒng)。有著高容錯(cuò)性特點(diǎn),而且設(shè)計(jì)用來布署在低廉硬件上,適合那些有著超大數(shù)據(jù)集應(yīng)用程序ZooKeeper基于Hadoop的大數(shù)據(jù)處理關(guān)鍵技術(shù)綜述第11頁MapReduceMap:任務(wù)分解Reduce:結(jié)果匯總兩大關(guān)鍵設(shè)計(jì)HDFSNameNode:文件管理DataNode:文件存放Client:文件獲取Hadoop關(guān)鍵設(shè)計(jì)基于Hadoop的大數(shù)據(jù)處理關(guān)鍵技術(shù)綜述第12頁MapReduce——映射、化簡編程模型(分而治之)1.依據(jù)輸入數(shù)據(jù)大小和參數(shù)設(shè)置把數(shù)據(jù)分成splits,每個(gè)split對(duì)于一個(gè)map線程。2.Split中數(shù)據(jù)作為Map輸入,Map輸出一定在Map端。3.Map輸出到Reduce輸入過程(shuffle過程): 第一階段:在map端完成內(nèi)存->排序->寫入磁盤->復(fù)制第二階段:在reduce端完成映射到reduce端分區(qū)->合并->排序4.Reduce輸入到Reduce輸出最終排好序key/value作為Reduce輸入MapReduce是一個(gè)編程模型,用于大規(guī)模數(shù)據(jù)集并行運(yùn)算。Map(映射)和Reduce(化簡),采取分而治之思想,先把任務(wù)分發(fā)到集群多個(gè)節(jié)點(diǎn)上,并行計(jì)算,然后再把計(jì)算結(jié)果合并,從而得到最終計(jì)算結(jié)果。多節(jié)點(diǎn)計(jì)算,所包括任務(wù)調(diào)度、負(fù)載均衡、容錯(cuò)處理等,都由MapReduce框架完成,不需要編程人員關(guān)心這些內(nèi)容。基于Hadoop的大數(shù)據(jù)處理關(guān)鍵技術(shù)綜述第13頁HDFS——分布式文件系統(tǒng)什么是分布式文件系統(tǒng)?分布式文件系統(tǒng)是指文件系統(tǒng)管理物理存放資源不一定直接在當(dāng)?shù)毓?jié)點(diǎn)上,而是經(jīng)過計(jì)算機(jī)網(wǎng)絡(luò)與節(jié)點(diǎn)相連。分布式文件系統(tǒng)設(shè)計(jì)基于客戶機(jī)/服務(wù)器模式,一個(gè)經(jīng)典網(wǎng)絡(luò)可能包含多個(gè)供用戶訪問服務(wù)器。用戶能夠在任意一臺(tái)客戶機(jī)上訪問其它機(jī)器文件系統(tǒng)。為何需要分布式文件系統(tǒng)?高擴(kuò)展能力:HDFS采取元數(shù)據(jù)中心化管理,然后經(jīng)過客戶端暫存數(shù)據(jù)分布減小元數(shù)據(jù)訪問壓力;高可用性:一是整個(gè)文件系統(tǒng)可用性,二是數(shù)據(jù)完整和一致性。數(shù)據(jù)完整性經(jīng)過文件鏡像和文件自動(dòng)修復(fù)來處理;彈性存放:能夠依據(jù)業(yè)務(wù)需要靈活地增加或縮減數(shù)據(jù)存放以及增刪存放池中資源,而不需要中止系統(tǒng)運(yùn)行;基于Hadoop的大數(shù)據(jù)處理關(guān)鍵技術(shù)綜述第14頁HDFS——分布式文件系統(tǒng)NameNode
能夠看作是分布式文件系統(tǒng)中管理者,存放文件系統(tǒng)meta-data,主要負(fù)責(zé)管理文件系統(tǒng)命名空間,集群配置信息,存放塊復(fù)制。DataNode
是文件存放基本單元。它存放文件塊在當(dāng)?shù)匚募到y(tǒng)中,保留了文件塊meta-data,同時(shí)周期性發(fā)送全部存在文件塊匯報(bào)給NameNode。Client
就是需要獲取分布式文件系統(tǒng)文件應(yīng)用程序。
HDFS是一個(gè)高度容錯(cuò)性分布式文件系統(tǒng),能提供高吞吐量數(shù)據(jù)訪問,非常適合大規(guī)模數(shù)據(jù)集上應(yīng)用。基于Hadoop的大數(shù)據(jù)處理關(guān)鍵技術(shù)綜述第15頁HDFS高可用性NameNode掛了怎么辦?系統(tǒng)采取雙NameNode節(jié)點(diǎn)分布管理設(shè)計(jì)方案,支持分布式元數(shù)據(jù)服務(wù)器,支持元數(shù)據(jù)自動(dòng)日志功效,實(shí)現(xiàn)用戶數(shù)據(jù)和元數(shù)據(jù)備份和自動(dòng)恢復(fù),當(dāng)一臺(tái)服務(wù)器發(fā)生宕機(jī)時(shí),其管理功效能夠有另外服務(wù)器接管,系統(tǒng)能夠正常運(yùn)行,對(duì)外提供服務(wù)。NameNodeNameNode是用來管理文件系統(tǒng)命名空間組件
一個(gè)HDFS集群只有一臺(tái)activeNameNode一個(gè)HDFS集群只有一個(gè)命名空間,一個(gè)根目錄NameNode上存放了HDFS元數(shù)據(jù)元數(shù)據(jù)保留在NameNode內(nèi)存當(dāng)中,方便快速查詢1G內(nèi)存大致能夠存放1,000,000個(gè)塊對(duì)應(yīng)元數(shù)據(jù)信息按缺省每塊64M計(jì)算,大致對(duì)應(yīng)64T實(shí)際數(shù)據(jù)基于Hadoop的大數(shù)據(jù)處理關(guān)鍵技術(shù)綜述第16頁Datanode?一個(gè)數(shù)據(jù)塊在DataNode以文件存放在磁盤上,包含兩個(gè)文件,一個(gè)是數(shù)據(jù)本身,一個(gè)是元數(shù)據(jù)包含數(shù)據(jù)塊長度,塊數(shù)據(jù)校驗(yàn)和,以及時(shí)間戳。?DataNode開啟后向NameNode注冊(cè),經(jīng)過后,周期性(1小時(shí))向NameNode上報(bào)全部塊信息。?心跳是每3秒一次,心跳返回結(jié)果帶有NameNode給該DataNode命令如復(fù)制塊數(shù)據(jù)到另一臺(tái)機(jī)器,或刪除某個(gè)數(shù)據(jù)塊。假如超出10分鐘沒有收到某個(gè)DataNode心跳,則認(rèn)為該節(jié)點(diǎn)不可用。增加DataNode節(jié)點(diǎn)后?系統(tǒng)平臺(tái)增加新節(jié)點(diǎn)之后,系統(tǒng)自動(dòng)在全部節(jié)點(diǎn)之間均衡數(shù)據(jù)。系統(tǒng)后臺(tái)依據(jù)忙閑程度,自動(dòng)發(fā)起,占用極少系統(tǒng)資源,無需人工干預(yù),實(shí)現(xiàn)數(shù)據(jù)均衡分布。基于Hadoop的大數(shù)據(jù)處理關(guān)鍵技術(shù)綜述第17頁HDFS詳細(xì)操作文件寫入:1.Client向NameNode發(fā)起文件寫入請(qǐng)求2.NameNode依據(jù)文件大小和文件塊配置情況,返回給Client它所管理部分DataNode信息。3.Client將文件劃分為多個(gè)文件塊,依據(jù)DataNode地址信息,按次序?qū)懭氲矫恳粋€(gè)DataNode塊中。
文件讀取:1.
Client向NameNode發(fā)起文件讀取請(qǐng)求2.
NameNode返回文件存放DataNode信息。3.Client讀取文件信息。基于Hadoop的大數(shù)據(jù)處理關(guān)鍵技術(shù)綜述第18頁Client1Client2DataNode節(jié)點(diǎn)NameNode1NameNode2NFS服務(wù)器正常運(yùn)行狀態(tài)單點(diǎn)失效狀態(tài)基于Hadoop的大數(shù)據(jù)處理關(guān)鍵技術(shù)綜述第19頁HBASE——分布式數(shù)據(jù)存放HBase–HadoopDatabase,是一個(gè)高可靠性、高性能、面向列、可伸縮分布式存放系統(tǒng);HBas
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 安全護(hù)理試題及答案
- 地?zé)崮芄┡诒狈睫r(nóng)村地區(qū)的應(yīng)用現(xiàn)狀與2025年發(fā)展前景報(bào)告001
- 民間艾灸達(dá)人培訓(xùn)課件
- 乙型腦炎的培訓(xùn)課件
- 員工職業(yè)道德提升課件
- 中國利率市場化課件
- 制取氧氣說課課件
- 江蘇省蘇州市吳中學(xué)、吳江、相城區(qū)2025屆英語七年級(jí)第二學(xué)期期末檢測試題含答案
- 年度員工活動(dòng)計(jì)劃方案
- 山東省德州市德城區(qū)2025年八下英語期末經(jīng)典試題含答案
- 精神科火災(zāi)演練腳本
- 汽輪發(fā)電機(jī)組設(shè)備運(yùn)行記錄日?qǐng)?bào)表(正面) A2
- 15J403-1-樓梯欄桿欄板(一)
- 2024年婦幼健康“三基”培訓(xùn)考試復(fù)習(xí)題庫-下(多選、判斷題)
- 子癇的搶救和護(hù)理
- 2025年高考政治一輪復(fù)習(xí):統(tǒng)編版必修3《政治與法治》必背考點(diǎn)知識(shí)講義
- 民政統(tǒng)計(jì)信息管理系統(tǒng)培訓(xùn)手冊(cè)街鄉(xiāng)鎮(zhèn)
- 中職英語新課標(biāo)詞匯表
- 2024秋期國家開放大學(xué)《國際法》一平臺(tái)在線形考(形考任務(wù)1至5)試題及答案
- 天翼云從業(yè)者認(rèn)證考試題庫及答案
- T-CEC 153-2018并網(wǎng)型微電網(wǎng)的負(fù)荷管理技術(shù)導(dǎo)則
評(píng)論
0/150
提交評(píng)論