暨南大學并行計算實驗室MapReduce研究現狀_第1頁
暨南大學并行計算實驗室MapReduce研究現狀_第2頁
暨南大學并行計算實驗室MapReduce研究現狀_第3頁
暨南大學并行計算實驗室MapReduce研究現狀_第4頁
暨南大學并行計算實驗室MapReduce研究現狀_第5頁
已閱讀5頁,還剩13頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

暨南大學并行計算實驗室MapReduce研究現狀

摘要MapReduce研究調試、監控等優化、擴展等常用APIHadoop改造數據挖掘項目RedpollCanopy,k-meansNaivebayes,SVM調試標準輸出,標準出錯Web顯示(50030,50060,50070)NameNode,JobTracker,DataNode,TaskTracker日志本地重現:LocalRunnerDistributedCache中放入調試代碼Profiling

目的:查性能瓶頸,內存泄漏,線程死鎖等工具:jmap,jstat,hprof,jconsole,jprofilermat,jstack對JobTracker的Profile對各slave節點TaskTracker的Profile對各slave節點某Child進程的Profile(可能存在單點執行速度過慢)監控目的:監控集群或單個節點I/O,內存及CPU工具:Ganglia調優點(1)I/OShuffle…調優點(2)數據壓縮推測性執行(同時執行同一Task,殺死運行慢的)同一節點的Child重用jvm重寫Partitioner,使分布到各Reducer的數據均勻設置堆空間大小常用APIMapper,ReducerWritable,ComparableWritableInputFormat,OutputFormatPartitionerComparatorDistributedCacheStreaming(bash/python)Hadoop改造JobTracker與作業調度耦合性太強JobHistory應獨立為一個jvm進程,邏輯不應與JobTracker耦合太強在HDFS之上整合MPI,統一作業調度Shuffle過程只需一次I/O單塊磁盤失效導致整個節點失效問題(改DFSClient)Hadoop改造文件系統兼容posix使Map的key輸出不排序,只分區NameNode單點故障問題RPC支持大數據(如文件)傳輸集群資源分配權限管理大規模數據挖掘:Redpoll文本數據挖掘分布式分詞分布式向量空間模型距離度量語料搜狗新聞20newsgroupwikipedia前提:假定一個屬性值對分類的影響獨立于其他屬性的值。(類條件獨立)樸素貝葉斯分類工作過程每個數據樣本用一個n維特征向量表示,分別描述對n個屬性樣本的n個度量假設有m個類。給定一個未知的數據樣本X,分類法將預測具有最高后驗概率(條件X下)的類。即是找最大化的。根據貝葉斯定理有樸素貝葉斯分類P(X)對所有類為常數,最大化,對的考慮分析:等概率,或類條件獨立的樸素假定:, (k=1,2,n)可以由訓練樣本估值是分類屬性,則根據樣本估值是連續值屬性,則通常假定其服從高斯分布,因而樸素貝葉斯分類(續)Canopy大容量,高維數據集聚類使用兩步聚類不同的距離度量節省計算時間適用范圍較廣K-meansEMGAC大規模支持向量機解的稀疏性及問題的凸性將大規模的原問題分解成小規模的子問題,迭代求解子問題,直到收斂至原問題的解.選塊算法分解算法序列最小最優化法(sequentialminimaloptimization,SMO)并行實現ThinkinginMapReduce

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論