




下載本文檔
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、技術創新,變革未來Hadoop與數據分析概述OutlineHadoop基本概念Hadoop的應用范圍Hadoop底層實現原理Hive與數據分析Hadoop集群管理典型的Hadoop離線分析系統架構常見問題及解決方案關于打撲克的哲學打撲克與MapReduceInput split shuffle output 分牌各自齊牌交換再次理牌搞定統計單詞數The weather is goodThis guyis a good manToday is goodGood manis goodthe 1weather 1is 1good 1today 1is 1good 1this 1guy 1is 1a
2、1good 1man 1good 1man 1is 1good 1a 1 good 1good 1good 1good 1good 1man 1man 1the 1weather 1today 1guy 1is 1is 1is 1is 1this 1a 1good 5guy 1is 4man 2the 1this 1today 1weather 1流量計算6趨勢分析7/截圖用戶推薦8分布式索引910Hadoop 核心Hadoop Common分布式文件系統HDFSMapReduce框架并行數據分析語言Pig 列存儲NoSQL數據庫 Hbase分布式協調器Zookeeper數據倉庫Hive(使用
3、SQL)Hadoop日志分析工具ChukwaHadoop生態系統11DataData data data data dataData data data data dataData data data data dataData data data data dataData data data data dataData data data data dataData data data data dataData data data data dataData data data data dataData data data data dataData data data data da
4、taData data data data dataResultsData data data dataData data data dataData data data dataData data data dataData data data dataData data data dataData data data dataData data data dataData data data dataHadoop ClusterDFS Block 1DFS Block 1DFS Block 2DFS Block 2DFS Block 2DFS Block 1DFS Block 3DFS B
5、lock 3DFS Block 3MAPMAPMAPReduceHadoop實現作業執行流程/ MapClass1中的map方法 public void map(LongWritable Key, Text value, OutputCollector output, Reporter reporter) throws IOException String strLine = value.toString(); String strList = strLine.split(); String mid = strList3; String sid = strList4;String timest
6、r = strList0;try timestr = timestr.substring(0,10);catch(Exception e)return;timestr += 0000; / 省略數十行 output.collect(new Text(mid + “” + “sid” + timestr , .);Hadoop案例(1) public static class Reducer1 extends MapReduceBase implements Reducer private Text word = new Text(); private Text str = new Text()
7、; public void reduce(Text key, Iterator values, OutputCollector output, Reporter reporter) throws IOException String t = key.toString().split(); word.set(t0);/ str.set(t1); output.collect(word,str);/uid kind /reduce /Reduce0b Hadoop案例(2) public static class MapClass2 extends MapReduceBase implements
8、 Mapper private Text word = new Text(); private Text str = new Text(); public void map(LongWritable Key, Text value, OutputCollector output, Reporter reporter) throws IOException String strLine = value.toString(); String strList = strLine.split(s+);word.set(strList0);str.set(strList1);output.collect
9、(word,str); Hadoop案例(3) public static class Reducer2 extends MapReduceBase implements Reducer private Text word = new Text(); private Text str = new Text(); public void reduce(Text key, Iterator values, OutputCollector output, Reporter reporter) throws IOException while(values.hasNext() String t = v
10、alues.next().toString(); / 省略數十行代碼 / 省略數十行代碼 output.collect(new Text(mid + “” + sid + “”) + ., .) Hadoop案例(4)BADAACBCBCDGroupCo-groupFunctionAggregate FilterFilterThinking in MapReduce(1)Thinking in MapReduce(2)Magics of Hive:SELECT COUNT(DISTINCT mid) FROM log_tableHive的魔力為什么淘寶采用Hadoop?webalizeraws
11、tat般若Atpanel時代日志最高達250GB/天最高達約50道作業每天運行20小時以上Hadoop時代當前日志470GB/天當前366道作業平均67小時完成還有誰在用Hadoop?雅虎北京全球軟件研發中心中國移動研究院英特爾研究院金山軟件百度騰訊新浪搜狐IBMFacebookAmazonYahoo!Web ServersLog Collection ServersFilersData Warehousing on a ClusterOracle RACFederated MySQLWeb站點的典型Hadoop架構HadoopRich ClientMetaStore ServerMysqlSchedulerThrift ServerWebJobClientCLI/GUIClientProgramWeb Server淘寶Hadoop與Hive的使用標準輸出,標準出錯Web顯示(50030, 50060, 50070)NameNode,JobTracker, DataNode, TaskTracker日志本地重現: Local RunnerDistributedCache中放入調試代碼調試目的:查性能瓶頸,內存泄漏,線程死鎖等工具: jmap, jstat, hpr
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 學生欺凌和暴力行為分析工作流程
- 【真題】人教版三年級下冊期末自測評價數學試卷(含解析)2024-2025學年北京市東城區第一六六中學
- 部編版九年級歷史班級復習督促計劃
- 特殊教育中數學核心素養培育心得體會
- 2025年初中物理實驗室工作總結范文
- 鋼結構施工樣板計劃
- 二年級培優輔差科技輔導計劃
- 特殊教育班主任教學心得體會范文
- 以實踐為翼:高中物理教學中STS教育的深度融合與拓展
- 以威利斯模式賦能職高英語閱讀教學:理論、實踐與創新
- 2024版國開電大法律事務??啤缎谭▽W(2)》期末考試總題庫
- 2024年中煤平朔發展集團有限公司招聘筆試參考題庫含答案解析
- 自由基溶液聚合生產工藝腈綸
- 財務用發票分割單原始憑證 發票分割單范本
- 《機械設計基礎》考試復習題庫(含答案)
- 鼻窒(慢性鼻炎)中醫診療方案
- 2023年法考鐘秀勇講民法講義電子版
- 試卷模擬丨北師大版數學三年級下冊期末測試卷(二)(含答案)
- 城市消防站建設標準建標152-2021doc
- 汽車起重機吊裝作業知識-2
- 四川省地圖矢量經典模板(可編輯)
評論
0/150
提交評論