




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
大數據應用技術介紹2014年2月現在是1頁\一共有37頁\編輯于星期五Hadoop生態系統現在是2頁\一共有37頁\編輯于星期五Hadoop生態系統SubProject描述common分布式文件系統和通用I/O的組件與接口(序列化,JavaRPC和持久化數據結構)Avro支持高效的跨語言RPC和持久數據存儲的序列化系統MapReduce分布式數據處理模型和執行環境,運行在大型商用機集群HDFS分布式文件系統,用于大型商用機集群PIGPig是SQL-like語言,是在MapReduce上構建的一種高級查詢語言,把一些運算編譯進MapReduce模型的Map和Reduce中,并且用戶可以定義自己的功能。Hive分布式、按列存儲的數據倉庫。Hive管理HDFS中存儲的數據,并提供基于SQL的查詢語言(由運行時引擎翻譯成MapReduce作業)Hbase分布式、按列存儲的數據庫。HBase使用HDFS作為底層存儲,同時支持MapReduce的批量式計算和點查詢(隨機讀取)ZooKeeper分布式、可用性高的協調服務。提供類似分布式鎖的基礎服務。Sqoop在數據庫和HDFS之間高效傳輸數據的工具Flume分布式、可靠、和高可用的海量日志聚合的系統。ChukwaChukwa是基于Hadoop的大集群監控系統,由yahoo貢獻。現在是3頁\一共有37頁\編輯于星期五Hadoop介紹HDFSMapReduce現在是4頁\一共有37頁\編輯于星期五HDFS特點存儲大文件百兆以上級別文件百萬級文件由于億級別文件流式處理數據一次寫多次多模式支持追加操作廉價的硬件環境普通pcserver組成集群環境現在是5頁\一共有37頁\編輯于星期五HDFS缺點低延時讀操作高吞吐量而非低延時Hbase解決了這個問題大量小數據文件最好每個文件大于100M多次寫只支持一次寫只支持在文件尾部添加,不支持隨機寫現在是6頁\一共有37頁\編輯于星期五HDFS部署結構現在是7頁\一共有37頁\編輯于星期五HDFS讀寫過程現在是8頁\一共有37頁\編輯于星期五MapReduce部署結構JobTracker管理集群資源和Job調度TaskTracker管理Task運行現在是9頁\一共有37頁\編輯于星期五MapReduce計算模型Inputk1,v1Mapk2,v2Reducek3,v3Output現在是10頁\一共有37頁\編輯于星期五MapReduce擴展接口InputFormatMapperPartitionerReducerOutputFormat現在是11頁\一共有37頁\編輯于星期五Map現在是12頁\一共有37頁\編輯于星期五Reduce現在是13頁\一共有37頁\編輯于星期五MapReduce實例現在是14頁\一共有37頁\編輯于星期五MapReduce內部結構現在是15頁\一共有37頁\編輯于星期五Hadoop2.0引入一個新的資源管理系統YARNHDFS單點故障得以解決HDFSFederationHDFS快照通過NFS訪問HDFS支持Window系統現在是16頁\一共有37頁\編輯于星期五Hadoop1VSHadoop2現在是17頁\一共有37頁\編輯于星期五集群資源管理Hadoop介紹現在是18頁\一共有37頁\編輯于星期五Yarn運行原理圖現在是19頁\一共有37頁\編輯于星期五Hbase介紹1高可靠性2高效性3面向列4可伸縮5可在廉價PCServer搭建大規模結構化存儲集群現在是20頁\一共有37頁\編輯于星期五Hbase體系結構現在是21頁\一共有37頁\編輯于星期五HBase系統架構圖現在是22頁\一共有37頁\編輯于星期五HBase部件說明Client:
使用HBaseRPC機制與HMaster和HRegionServer進行通信
Client與HMaster進行通信進行管理類操作
Client與HRegionServer進行數據讀寫類操作
Zookeeper:
ZookeeperQuorum存儲-ROOT-表地址、HMaster地址
HRegionServer把自己以Ephedral方式注冊到Zookeeper中,HMaster隨時感知各個HRegionServer的健康狀況
Zookeeper避免HMaster單點問題
HMaster:
HMaster沒有單點問題,HBase中可以啟動多個HMaster,通過Zookeeper的MasterElection機制保證總有一個Master在運行
主要負責Table和Region的管理工作:
1管理用戶對表的增刪改查操作
2管理HRegionServer的負載均衡,調整Region分布
3RegionSplit后,負責新Region的分布
4在HRegionServer停機后,負責失效HRegionServer上Region遷移
現在是23頁\一共有37頁\編輯于星期五Table&RegionTable隨著記錄增多不斷變大,會自動分裂成多份Splits,成為Regions一個region由[startkey,endkey)表示不同region會被Master分配給相應的RegionServer進行管理現在是24頁\一共有37頁\編輯于星期五HregionServer現在是25頁\一共有37頁\編輯于星期五-ROOT-&.META..META.記錄用戶表的Region信息,同時,.META.也可以有多region-ROOT-記錄.META.表的Region信息,但是,-ROOT-只有一個regionZookeeper中記錄了-ROOT-表的location客戶端訪問數據的流程:
Client->Zookeeper->-ROOT-->.META.->用戶數據表多次網絡操作,不過client端有cache緩存現在是26頁\一共有37頁\編輯于星期五HBase數據模型RowKey:Table主鍵,Table中記錄按照RowKey排序
Timestamp:
每次對數據操作對應的時間戳,也即數據的versionnumber
ColumnFamily:列簇,一個table在水平方向有一個或者多個列簇,列簇可由任
意多個Column組成,列簇支持動態擴展,無須預定義數量及
類型,二進制存儲,用戶需自行進行類型轉換現在是27頁\一共有37頁\編輯于星期五HbaseShell現在是28頁\一共有37頁\編輯于星期五Hbaseshell現在是29頁\一共有37頁\編輯于星期五Hbase與RDBMS數據類型:Hbase只有簡單的字符串類型。數據操作:Hbase只有很簡單的插入、查詢、刪除、清空操作,沒有復雜的表和表之間的關系。存儲模式:Hbase是基于列式存儲,每個列族由幾個文件保存,不同列族的文件是分離的。數據維護:更新操作是替換版本,刪除只是邏輯標記可伸縮性:現在是30頁\一共有37頁\編輯于星期五參考資料現在是31頁\一共有37頁\編輯于星期五Lucene搜索結構現在是32頁\一共有37頁\編輯于星期五基于文檔的搜索Tika是一個內容抽取的工具集合。支持work,ppt,execl,PDF等現在是33頁\一共有37頁\編輯于星期五大數據統計Elasticsearch:開源的分布式實時搜索系統,結合Hbase實現海量數據存儲和檢索,同時提供索引數據統計功能,滿足海量數據的實時統計要求。ya主要功能特點realtimedistributedhighavailabilitydocumentorientedschemafreerestfulapi索引數據統計min、max、sum、avg。s
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 攝影器材品牌區域代理權合同
- 材料疲勞損傷累積分析模型合同
- 邊疆地區古代神話與服飾關系考古合同
- 保險業務流程重組合同
- 主題餐廳廚房承包及特色氛圍營造合同
- 拆遷工程后期維護承包合同
- 測量工作總結200字
- 光伏電站安全工作總結及計劃
- 美術6分鐘技能展示課件
- 防火安全重于泰山
- 游戲策劃師招聘筆試題與參考答案2025年
- 安全、環境、職業健康安全目標、指標及管理方案
- 課件:《中華民族共同體概論》第一講 中華民族共同體基礎理論
- 2024年檔案知識競賽考試題庫300題(含答案)
- 中國人民抗日戰爭勝利紀念日紀念暨世界反法西斯戰爭勝利課件
- 殯葬禮儀策劃方案
- 行政效能提升路徑研究
- 2021部編版語文必修下冊理解性默寫匯編 (打印)
- (完整版)無菌醫療器械耗材生產企業體系文件-質量手冊模板
- JBT 3300-2024 平衡重式叉車 整機試驗方法(正式版)
- 鉆井及井下作業井噴事故典型案例
評論
0/150
提交評論