2hadoop開發環境搭建1-大數據概述_第1頁
2hadoop開發環境搭建1-大數據概述_第2頁
2hadoop開發環境搭建1-大數據概述_第3頁
2hadoop開發環境搭建1-大數據概述_第4頁
已閱讀5頁,還剩7頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

第二部分Hadoop開發環境搭建:1-Hadoop大數據概述吳章勇

Hadoop初學者QQ答疑群(可獲取相關資源):243363382GBTBPBEBZB想駕馭這龐大的數據,我們必須了解大數據的特征。地球上至今總共的數據量:在2006年,個人用戶才剛剛邁進TB時代,全球一共新產生了約180EB的數據;在2011年,這個數字達到了1.8ZB。而有市場研究機構預測:到2020年,整個世界的數據總量將會增長44倍,達到35.2ZB(1ZB=10億TB)!1PB

=2^50字節1EB

=2^60字節1ZB=2^70字節大數據時代的爆炸增長“大量化(Volume)、多樣化(Variety)、快速化(Velocity)、價值密度低(Value)”就是“大數據”的顯著特征,或者說,只有具備這些特點的數據,才是大數據。VolumeVelocityValueVariety大數據的4V特征密不可分的大數據與云計算商業模式驅動應用需求驅動云計算本身也是大數據的一種業務模式大數據是落地的云云計算的模式是業務模式,本質是數據處理技術。數據是資產,云為數據資產提供存儲、訪問和計算。當前云計算更偏重海量存儲和計算,以及提供的云服務,運行云應用,但是缺乏盤活數據資產的能力,挖掘價值性信息和預測性分析,為國家、企業、個人提供決策和服務,是大數據核心議題,也是云計算的最終方向。大數據不僅僅是“大”多大?至少PB級比大更重要的是數據的復雜性,有時甚至大數據中的小數據如一條微博就具有顛覆性的價值軟件是大數據的引擎和數據中心(DataCenter)

一樣,軟件是大數據的驅動力,軟件改變世界大數據的應用不僅僅是精準營銷通過用戶行為分析實現精準營銷是大數據的典型應用,但是大數據在各行各業特別是公共服務領域具有廣闊的應用前景消費行業金融服務食品安全醫療衛生軍事交通環保電子商務氣象管理大數據“易”理解大數據“難”雖然大數據是一個重大問題,真正的問題是讓大數據更有意義目前大數據管理多從架構和并行等方面考慮,解決高并發數據存取的性能要求及數據存儲的橫向擴展,但對非結構化數據的內容理解仍缺乏實質性的突破和進展,這是實現大數據資源化、知識化、普適化的核心非結構化海量信息的智能化處理:自然語言理解、多媒體內容理解、機器學習等據IDC的預測,全球大數據市場2015年將達170億美元規模,市場發展前景很大。而Hadoop作為新一代的架構和技術,因為有利于并行分布處理“大數據”而備受重視。ApacheHadoop是一個用java語言實現的軟件框架,在由大量計算機組成的集群中運行海量數據的分布式計算,它可以讓應用程序支持上千個節點和PB級別的數據。Hadoop是項目的總稱,主要是由分布式存儲(HDFS)、分布式計算(MapReduce)等組成。優點:可擴展:不論是存儲的可擴展還是計算的可擴展都是Hadoop的設計根本。經濟:框架可以運行在任何普通的PC上。可靠:分布式文件系統的備份恢復機制以及MapReduce的任務監控保證了分布式處理的可靠性。高效:分布式文件系統的高效數據交互實現以及MapReduce結合LocalData處理的模式,為高效處理海量的信息作了基礎準備。大數據主要應用技術-HadoopMapReduceMap:任務的分解R

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論