二期線上班課程二課件3、mapreduce工作原理剖析_第1頁
二期線上班課程二課件3、mapreduce工作原理剖析_第2頁
二期線上班課程二課件3、mapreduce工作原理剖析_第3頁
二期線上班課程二課件3、mapreduce工作原理剖析_第4頁
已閱讀5頁,還剩7頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、Hadoop基礎篇講師:Cloudy(北風網 )3、Mapreduce工作原理剖析什么是Mapreduce?MapReduce, MR 是一種編程模型,用于大規模數據集(大于1TB)的并行運算(批處理)。提供一套簡單的API,開發人員可以基于API開發應用程序,進而利用分布式平臺進行數據處理。Mapreduce架構圖Master/Slave 架構主節點JobTracker,管理Job,不一定必須運行在Namenode上,可以運行在任何節點上。通常不和NN放在一臺機器上。子節點TaskTracker,執行task增加TaskTracker節點數,達到水平擴容(HDFS是增加Datanode節點數

2、進行擴容),通常運行在Datanode上。架構圖老師學生不是平均分配調度算法:1、先進先出 FIFO2、公平調度,最大Map數和最大Reduce數3、容量調度,資源隔離 需要3選1工作流程JobTracker 進程單點。隨時作業量增大,負載增大。而NN的負載通常比較低。相當于那個懶老師,負責接收客戶端作業,分配作業給學生(TaskTracker)。JobTracker是整個MapReduce計算框架中的主服務(進程),相當于集群的“管理者”,負責整個集群的作業控制和資源管理。JobTracker后臺程序用來連接應用程序與HDFS。用戶代碼提交到集群以后,由JobTracker決定哪個文件將被處

3、理,并且為 不同的task分配節點。同時,它還監控所有的task,一旦某個task失敗了,JobTracker就會自動重新開啟這個task,在大多數情況下這 個task會被放在不用的節點上。每個Hadoop集群只有一個JobTracker,可以運行在集群的任意節點上(不僅僅是Master節點)。通常部署JobTracker的節點,不開啟TaskTracker進程。就像NN節點上不開啟Datanode進程一樣。TaskTracker 進程相當于場景中的學生,負責實際干活。TaskTracker位于子節點(即Datanode上),獨立管理各自的task。每個TaskTracker負責獨立執行具體的

4、task,而 JobTracker負責分配task。每個TaskTracker可并行處理多個map以及reduce任務。TaskTracker的一個重要職責就是與JobTracker交互。如果 JobTracker無法準時地獲取TaskTracker提交的信息,JobTracker就判定TaskTracker已經崩潰,并將任務分配給其他節點處理。Map-Reduce處理過程基于硬盤的計算,少量數據在內存里(對內存無壓力),hive里的mapjoin可以把數據放在內存里處理;1、指定input目錄,作為數據源2、中間結果落地到HDFS,作為下一步數據源map key-valuereduce ke

5、y-values ,相同key的value組合在一塊 map數是有輸入目錄的文件數和文件大小決定。4個小文件和1個80M的文件(block是64M),產生map數6.shuffle:混淆節點間數據combine:相同的key進行組合合并Reduce:key-valuesMR執行過程Map:加載input數據,通常一個文件(不足一個 Block大)起一個map線程。超過Block大的文件,會Split多個文件,起多個map線程。如Block大小是64M,一個80M的文件會起2個map。 key-value 鍵值對。Shuffle:分別在不同節點上的相同的key,需要合并,所以先混淆(全部數據節點上的input數據)一下。Combine:由于相同的key需要發送到同一個reduce上,所以必須把相同的key合并。Reduce:相同的key會有同一個reduce接收和匯總,結果為key-values更詳細,見 Mapreduce 數據傾斜不怕數據量大,就怕數據傾斜。MR里同一個key,只能發由同一個reduce處理。必須這樣,否則無法全局匯總。普通key的value數是100個,個別超過10萬個。數據傾斜的根本原因(面試常問):1、key分布不均衡,有的過于集中。傾斜在Reduce階段。

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論