




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
云端漫步云計算的基本概念世界為我們保存了多少數據?照片:5M*100張=500M視頻:50M*10部=500M微博記錄:10M*50條=500MQQ聊天記錄:1KB/文字*5000條+100KB/圖片*200張=25M各種賬號信息、各種成績信息、各種游戲信息、各種坑爹信息…數據!數據!2020年35.2ZB2001年1.8ZB增長20倍!!數據太多,搞不定怎么辦?抬頭看天!!云?云——商業上的模型!IaaS(Infrastructure-as-a-Service)基礎設施即服務PaaS(Platform-as-a-Service)平臺即服務SaaS(Software-as-a-Service)軟件即服務云——“舊”的技術?下面的詞是不是很熟悉?網格計算高性能計算分布式計算虛擬化負載均衡…分布式計算神經網絡網格技術廣播網絡Web2.0虛擬化各種開源框架新的瀏覽器技術……基礎技術支持按需服務無處不在的網絡快速計算反應獨立的資源池標準服務基礎特征IaaSPaaSSaaS交互模式私有的、公共的、社區的、混合的部署模式云的實質——
資源的共享將互聯網看作一個大的資源池,我們本地除了具有基本的終端設備(不限種類,可能是PC、手機、電視、甚至電冰箱洗衣機等)而這些終端只具備基本的功能(可視、可輸入、發聲、電力)之外,其余的能力,直接從互聯網上獲取,記住!我們獲取的僅僅是我們需要的部分,并且我們也只為這部分付費(運氣好可能還免費)
IBM的創立者托馬斯·沃森: 全世界只需要5臺電腦就足夠了BillGates: 個人用戶的內存只需640K足矣李開復先生的一個比喻: 銀行!!分布式計算的難點怎樣將資源有效而透明的整合起來怎樣存儲大數據怎樣建立編程模型Google三大論文GFSBigTableMap/Reduce其實現分別對應于hadoop:HDFSHBaseMapReduceGFS(GoogleFileSystem)本質:一個面向大規模數據密集型應用的、可伸縮的分布式文件系統效果:客戶云端主機主機主機..…存儲空間無限大?基本特征高容錯性性能上的高穩定性對大文件的處理進行了優化數據的更新不會刪除原數據靈活性高(應用程序API)BigTable本質:數據庫不同點:非關系型(NoSQL)分布式可擴展服務可配置…架構Map/Reduce本質:編程模型Or框架應用場景:分布式大文件的并行計算貢獻:通過簡單的接口來實現自動的并行化和大規模的并行計算MapReduce過程Map:映射簡單說來,一個map函數就是對一些獨立元素組成的概念上的列表的每一個元素進行指定的操作。Reduce:化簡reduce操作指的是對一個列表的元素進行適當的合并一個簡單的例子:
統計:ababccbaabacbacacaba的字符頻率ababccbaab------------------acbacacabaMap1:a:4b:4c:2Map2:a:5b:2c:3格式化輸出1:<a,4><b,4><c,2>格式化輸出2:<a,5><b,2><c,3>最終輸出:<4,9><b,6><c,5>Map過程Map/Reduce
框架Reduce過程云計算和Hadoop有幾毛錢關系? 云計算只是商業概念。它提出的是一種新的商業模式,是網格計算的進化版。 Hadoop是云計算的產品。它是云計算在發展過程中應運而生的一個框架。Hadoop是什么?Hadoop,是一個分布式系統基礎架構,簡單說,就是一個可以簡單快速運行和處理大規模數據的軟件平臺。Hadoop的特點:1.擴容能力:可靠存儲和處理PB級數據;2.成本低:普通機器即可搭建;3.高效率:并行計算;4.可靠性:自動維護備份,失敗后自動重新部署任務。Hadoop主要子項目HDFS:Hadoop分布式文件系統MapReduce:并行計算框架HBase:類似BigTable的分布式NoSQL列數據庫Hive:數據倉庫工具Zookeeper:分布式鎖設施Avro:新的數據序列化格式與傳輸工具,將逐步取代Hadoop原有的IPC機制分而治之!Hadoop的做法就是:大事化小,小事化了。將一個大任務分割成很多的小任務,然后分別進行處理。類似于分布式系統。對于大量任務,我們一般的處理方法就是并行和串行兩種。但是串行處理過于緩慢!因此一般是并行處理。Hadoop的設計思想Hadoop結構組成
Master:NameNode和JobTrackerSlave:DataNode和TaskTrackerMaster負責接收和調度任務,并對下面的Slave進行監控,一般還有一個SecondaryNameNode。Slave主要負責對Client的任務進行處理(計算或者存儲)。結構示意Hadoop平臺一般由一個Master和多個Slave組成。Master節點Slave節點心跳機制Master和Slave之間怎么進行聯系的呢?它們是通過一種叫做HeartBeat的方式進行通信的。Slave每隔一定的時間(可調,默認為3秒)向Master發送一個消息,報告自己當前的狀態,然后Master也通過這個心跳的返回值,向Slave傳達指令。HeartBeat是單向的,只能是Slave發送給Master。Hadoop的當前應用公司名稱集群機器數主要用途淘寶網1100臺9.3PB大作業處理阿里巴巴15臺數據排序,搜索引擎百度10-500個節點數據分析,數據挖掘Facebook兩個(1100/300)數據挖掘,日志統計HULU13臺日志存儲和分析TWITTER未知存儲數據雅虎25000臺支持廣告系統和搜索百度:Baidu對Hadoop中關鍵組件使用C++進行了重寫(包括map,shuffler和reducer等),經他們內部測試(5nodes,40GBdata),效率提升了約20%。淘寶:淘寶針對自己集群特點(作業小,slot多,作業之間有依賴,集群共享,有些作業有時效性),對jobtracker和namenode進行了優化,據其官方博客稱,其jobtracker有較大性能提升,且namenode吞吐量提升了8+倍。但其具體優化方法,未公開。一些公司對Hadoop的優化Hadoop存在的不足1.采用Java實現:對于CPU密集型任務來說,IO操作是致命缺點;2.開源項目:開源是把雙刃劍,大家都可以修改,但是一些企業改進后為了公司的技術利益,不予公布;3.性能還不穩定:尚不成熟;4.HDFS小文件問題:HDFS存儲文件的默認大小是64MB;5.JobTracker同時監控和調度,負載過大。
未來,我來!深入理解HDFS為什么需要HDFS?在哪里存儲數據?什么是HDFS?為什么需要HDFS?HDFS的結構-Namenode(名字節點):負責文件系統名稱,管理文件存儲和控制客戶端的訪問。一般在一個單獨機器上運行。-Datanode(數據節點):負責文件的操作(讀,寫,刪除)。他也一般在一個單獨機器上運行。-SecondaryNamenode:當名字節點出問題,負責管理整個系統像名字節點。HDFS結構Namenod
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- T/GIEHA 025-2021冷鏈食品全流程消毒方法指南
- 企業內部資本市場效率研究-以遼寧成大為例
- 大班幼兒戶外自主游戲中教師指導行為研究-以西寧市S幼兒園為例
- 2025團考試試題及答案
- 2025食品安全考試題庫及答案大全
- 2025三星java的面試題及答案
- 山東省濰坊市2023-2024學年高一下學期期末考試語文試題(解析版)
- 內蒙古自治區赤峰市紅山區2024-2025學年高一上學期期末考試語文試題(解析版)
- 基于多傳感器融合的自動泊車技術研究
- 數字化協同視角下的2025年制造業供應鏈管理變革與創新路徑研究報告
- 2022旅游景區醫療救助應急處置要求
- 兒童輸血指南課件
- 門診預約號管理
- 2025-2030中國充電機器人行業市場現狀分析及競爭格局與投資發展研究報告
- 胸腺瘤切除術后的護理
- dl∕t 5491-2014 電力工程交流不間斷電源系統設計技術規程
- 2025年共青團入團考試測試題庫及答案
- 《讀讀童謠和兒歌》(一-四測)閱讀練習題
- 公安指揮中心業務培訓
- 2025年租房合同房東模板
- 大學生創業計劃書:燒烤店
評論
0/150
提交評論