




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
云計算與大數據技術
人民郵電出版社王鵬黃焱安俊秀張逸琴編著
目錄CONTENTS第1章云計算與大數據根底第2章云計算與大數據的相關技術第3章虛擬化技術第4章集群系統根底第5章MPI—面向計算第6章Hadoop—分布式大數據系統第7章HPCC—面向數據的高性能計算集群系統第8章Storm—基于拓撲的流數據實時計算系統第9章效勞器與數據中心第10章云計算大數據仿真技術第1章云計算與大數據根底《云計算與大數據技術》
第1章云計算與大數據根底1.1云計算技術概述 云計算簡介 云計算的特點 云計算技術分類 1.2大數據技術概述大數據簡介 主要的大數據處理系統 大數據處理的根本流程 1.3云計算與大數據的開展云計算簡介云計算技術是硬件技術和網絡技術開展到一定階段而出現的一種新的技術模型云計算并不是對某一項獨立技術的稱呼,而是對實現云計算模式所需要的所有技術的總稱。云計算技術的內容很多包括分布式計算技術、虛擬化技術、網絡技術、效勞器技術、數據中心技術、云計算平臺技術、存儲技術等。從廣義上說,云計算技術幾乎包括了當前信息技術中的絕大局部。
云計算簡介維基百科中對云計算的定義為:云計算是一種基于互聯網的計算方式,通過這種方式,共享的軟硬件資源和信息可以按需求提供給計算機和其他設備。2023年的國務院政府工作報告將云計算作為國家戰略性新興產業給出了定義:云計算是基于互聯網的效勞的增加、使用和交付模式,通常涉及通過互聯網來提供動態、易擴展且經常是虛擬化的資源。云計算是傳統計算機和網絡技術開展融合的產物,它意味著計算能力也可作為一種商品通過互聯網進行流通。
云計算簡介云計算技術的出現改變了信息產業傳統的格局。傳統的信息產業企業既是資源的整合者又是資源的使用者;這這種格局并不符合現代產業分工高度專業化的需求,同時也不符合企業需要靈敏地適應客戶的需要。云計算簡介傳統的計算資源和存儲資源大小通常是相對固定的,面對客戶高波動性的需求時會非常的不敏捷,企業的計算和存儲資源要么是被浪費,要么是面對客戶峰值需求時力不從心。云計算技術使資源與用戶需求之間是一種彈性化的關系,資源的使用者和資源的整合者并不是一個企業,資源的使用者只需要對資源按需付費,從而敏捷地響應客戶不斷變化的資源需求,這一方法降低了資源使用者的本錢,提高了資源的利用效率。
云計算簡介云計算時代根本的3種角色:資源的整合運營者、資源的使用者、終端客戶。資源的整合運營者就像是發電廠負責資源的整合輸出;資源的使用者負責將資源轉變為滿足客戶需求的各種應用;終端客戶為資源的最終消費者。云計算簡介云計算這種新的模式的出現被認為是信息產業的一大變革,吸引了大量企業重新布局:IBM、微軟、谷歌、DELL等企業國內企業:華為、中興、騰訊、阿里、聯想、浪潮、五舟等企業云計算簡介云計算技術作為一項涵蓋面廣且對產業影響深遠的技術,未來將逐步滲透到信息產業和其他產業的方方面面,并將深刻改變產業的結構模式、技術模式和產品銷售模式,進而深刻影響人們的生活;云計算會逐步成為人們生活中必不可少的技術;云計算簡介移動互聯網的出現使云計算應用走向了人們的指間,推動了云計算技術的應用開展,今后云計算將是一項隨時、隨地、隨身為我們提供效勞的技術;云計算的出現也將如電的出現一般,為信息產業的開展提供無限的想象空間,使應用的創新能力得到完全釋放。
云計算簡介云計算的特點1.資源池彈性可擴張2.按需提供資源效勞3.虛擬化4.網絡化的資源接入5.高可靠性和平安性云計算的特點與傳統的資源提供方向相比,云計算具有以下特點:
〔1〕資源池彈性可擴張云計算系統的一個重要特征就是資源的集中管理和輸出,這就是所謂的資源池。從資源低效率的分散使用到資源高效的集約化使用正是云計算的根本特征之一。分散的資源使用方法造成了資源的極大浪費,現在每個人都可能有一到兩臺自己的計算機,但對這種資源的利用率卻非常的低,計算機在大量時間都是在等待狀態或是在處理文字數據等低負荷的任務。資源集中起來后資源的利用效率會大大地提高,隨著資源需求的不斷提高,資源池的彈性化擴張能力成為云計算系統的一個根本要求,云計算系統只有具備了資源的彈性化擴張能力才能有效地應對不斷增長的資源需求。大多數云計算系統都能較為方便地實現新資源的參加。
云計算的特點〔2〕按需提供資源效勞云計算系統帶給客戶最重要的好處就是敏捷地適應用戶對資源不斷變化的需求;云計算系統實現按需向用戶提供資源能大大節省用戶的硬件資源開支,用戶不用自己購置并維護大量固定的硬件資源,只需向自己實際消費的資源量來付費;按需提供資源效勞使應用開發者在邏輯上可以認為資源池的大小是不受限制的,應用開發者的主要精力只需要集中在自己的應用上。
云計算的特點〔3〕虛擬化
現有的云計算平臺的重要特點是利用軟件來實現硬件資源的虛擬化管理、調度及應用。在云計算中利用虛擬化技術可大大降低維護本錢和提高資源的利用率。
云計算的特點〔4〕網絡化的資源接入。
從最終用戶的角度看,基于云計算系統的應用效勞通常都是通過網絡來提供的,應用開發者將云計算中心的計算、存儲等資源封裝為不同的應用后往往會通過網絡提供給最終的用戶。云計算技術必須實現資源的網絡化接入才能有效地向應用開發者和最終用戶提供資源效勞。以網絡技術的開展是推動云計算技術出現的首要動力。云計算的特點〔5〕高可靠性和平安性。
用戶數據存儲在效勞器端,而應用程序在效勞器端運行,計算由效勞器端來處理。所有的效勞分布在不同的效勞器上,如果什么地方〔節點〕出問題就在什么地方終止它,另外再啟動一個程序或節點,即自動處理失敗節點,從而保證了應用和計算的正常進行。數據被復制到多個效勞器節點上有多個副本〔備份〕,存儲在云里的數據即使遇到意外刪除或硬件崩潰也不會受到影響。云計算的特點云計算技術分類云計算技術分類1.按技術路線分類2.按效勞對象分類3.按資源封裝的層次分類目前已出現的云計算技術種類非常多,對于云計算的分類可以有多種角度:從技術路線角度可以分為資源整合型云計算和資源切分型云計算;從效勞對像角度可以被分為公有云和私有云;按資源封裝的層次來分可以分為:根底設施即效勞〔InfrastructureasaService,IaaS〕平臺即效勞〔PlatformasaService,PaaS〕軟件即效勞〔SoftwareasaService,SaaS〕。云計算技術分類
1.按技術路線分類
資源整合型云計算:這種類型的云計算系統在技術實現方面大多表達為集群架構,通過將大量節點的計算資源和存儲資源整合后輸出。這類系統通常能實現跨節點彈性化的資源池構建,核心技術為分布式計算和存儲技術。MPI、Hadoop、HPCC、Storm等都可以被分類為資源整合型云計算系統。云計算技術分類資源切分型云計算:這種類型最為典型的就是虛擬化系統,這類云計算系統通過系統虛擬化實現對單個效勞器資源的彈性化切分,從而有效地利用效勞器資源,其核心技術為虛擬化技術。這種技術的優點是用戶的系統可以不做任何改變接入采用虛擬化技術的云系統,是目前應用較為廣泛的技術,特別是在桌面云計算技術上應用得較為成功;缺點是跨節點的資源整合代價較大;KVM、VMware都是這類技術的代表。云計算技術分類2.按效勞對象分類公有云:指效勞對象是面向公眾的云計算效勞,公有云對云計算系統的穩定性、平安性和并發效勞能力有更高的要求。私有云:指主要效勞于某一組織內部的云計算效勞,其效勞并不向公眾開放,如企業、政府內部的云效勞。公有云與私有云的界限并不是特別清晰,有時效勞于一個地區和團體的云也被稱為公有云。所以這種云計算分類方法并不是一種準確的分類方法,主要是在商業領域的一種稱呼。云計算技術分類3.按資源封裝的層次分類根底設施即效勞〔InfrastructureasaService,IaaS〕:把單純的計算和存儲資源不經封裝地直接通過網絡以效勞的形式提供的用戶使用。這類云計算效勞用戶的自主性較大,就像是發電廠將發的電直接送出去一樣。這類云效勞的對象往往是具有專業知識能力的資源使用者,傳統數據中心的主機租用等可能作為IaaS的典型代表。云計算技術分類平臺即效勞〔PlatformasaService,PaaS〕:計算和存儲資源經封裝后,以某種接口和協議的形式提供給用戶調用,資源的使用者不再直接面對底層資源。平臺即效勞需要平臺軟件的支撐,可以認為是從資源到應用軟件的一個中間件,通過這類中間件可以大大減小應用軟件開發時的技術難度。這類云效勞的對象往往是云計算應用軟件的開發者,平臺軟件的開發需要使用者具有一定的技術能力。云計算技術分類軟件即效勞〔SoftwareasaService,SaaS〕:將計算和存儲資源封裝為用戶可以直接使用的應用并通過網絡提供給用戶;SaaS面向的效勞對象為最終用戶,用戶只是對軟件功能進行使用,無需了解任何云計算系統的內部結構,也不需要用戶具有專業的技術開發能力。
云計算技術分類圖1.1云計算效勞體系結構如下圖,云計算系統按資源封裝的層次分為IaaS、PaaS、SaaS,分為對底層硬件資源不同級別的封裝,從而實現將資源轉變為效勞的目的。傳統的信息系統資源的使用者通常是以直接占有物理硬件資源的形式來使用資源的,而云計算系統通過IaaS、PaaS、SaaS等不同層次的封裝將物理硬件資源封裝后,以效勞的形式利用網絡提供給資源的使用者。在這里資源的使用者可能是資源的二次加工者,也可能是最終應用軟件的使用者,通常IaaS、PaaS層面向的資源使用者往往是資源的二次加工者,這類資源的使用者并不是資源的最終消費者,他們將資源轉變為應用效勞程序后以SaaS的形式提供給資源的最終消費者。實現對物理資源封裝的技術并不是惟一的,目前不少的軟件都能實現,甚至有的系統只有SaaS層,并沒有進行逐層的封裝。
云計算技術分類云計算的效勞層次是根據效勞類型即效勞集合來劃分,與大家熟悉的計算機網絡體系結構中層次的劃分不同。在計算機網絡中每個層次都實現一定的功能,層與層之間有一定關聯。而云計算體系結構中的層次是可以分割的,即某一層次可以單獨完成一項用戶的請求而不需要其他層次為其提供必要的效勞和支持。
云計算技術分類在云計算效勞體系結構中各層次與相關云產品對應。應用層對應SaaS軟件即效勞,如:GoogleAPPS、SoftWare+Services。平臺層對應PaaS平臺即效勞,如:IBMITFactory、GoogleAPPEngine、Force。根底設施層對應IaaS根底設施即效勞,如:AmazoEC2、IBMBlueCloud、SunGrid。虛擬化層對應硬件即效勞,結合PaaS提供硬件效勞,包括效勞器集群及硬件檢測等效勞。云計算技術分類1.2大數據技術概述1.2大數據技術概述大數據簡介1.什么是大數據2.數據的來源3.生產數據的三個階段4.大數據的特點5.大數據的應用領域1.2大數據技術概述大數據簡介計算和數據是信息產業不變的主題,在信息和網絡技術迅速開展的推動下,人們的感知、計算、仿真、模擬、傳播等活動產生了大量的數據,數據的產生不受時間、地點的限制,大數據的概念逐漸形成,大數據涵蓋了計算和數據兩大主題,是產業界和學術界的研究熱點,被譽為未來十年的革命性技術。大數據簡介2023年,《Nature》雜志推出了“大數據〞專輯,引發了學術界和產業界的關注;2023年,大數據應用進入我國并快速開展,目前大數據的應用和研究已經是學術界和產業界的熱點;2023年3月,美國政府發布《大數據研究和開展建議》,投資2億美元開展大數據,用以強化國土平安、轉變教育學習模式、加速科學和工程領域的創新速度和水平;2023年7月,日本提出以電子政府、電子醫療、防災等為中心制定新ICT〔信息通信技術〕戰略,發布“新ICT方案〞,重點關注大數據研究和應用;2023年1月,英國政府宣布將在對地觀測、醫療衛生等大數據和節能計算技術方面投資1.89億英鎊;2023年我國上海、重慶等地相繼發布大數據行動方案。
1.什么是大數據維基百科將大數據描述為:大數據是現有數據庫管理工具和傳統數據處理應用很難處理的大型、復雜的數據集,大數據的挑戰包括采集、存儲、搜索、共享、傳輸、分析和可視化等。大數據的“大〞是一個動態的概念以前10GB的數據是個天文數字;而現在,在地球、物理、基因、空間科學等領域,TB級的數據集已經很普遍。大數據系統需要滿足以下三個特性。
〔1〕規模性〔Volume〕:需要采集、處理、傳輸的數據容量大;〔2〕多樣性〔Variety〕:數據的種類多、復雜性高;
〔3〕高速性〔Velocity〕:數據需要頻繁地采集、處理并輸出。
大數據簡介2.數據的來源大數據的數據來源很多,主要有信息管理系統、網絡信息系統、物聯網系統、科學實驗系統等;其數據類型包括結構化數據、半結構化數據和非結構化數據。〔1〕管理信息系統:企業內部使用的信息系統,包括辦公自動化系統、業務管理系統等,是常見的數據產生方式。管理信息系統主要通過用戶輸入和系統的二次加工的方式生成數據,其產生的數據大多為結構化數據,存儲在數據庫中。大數據簡介
〔2〕網絡信息系統:基于網絡運行的信息系統是大數據產生的重要方式,電子商務系統、社交網絡、社會媒體、搜索引擎等都是常見的網絡信息系統,網絡信息系統產生的大數據多為半結構化或無結構化的數據,網絡信息系統與管理信息系統的區別在于管理信息系統是內部使用的,不接入外部的公共網絡。〔3〕物聯網系統:通過傳感器獲取外界的物理、化學、生物等數據信息。〔4〕科學實驗系統:主要用于學術科學研究,其環境是預先設定的,數據既可以是由真實實驗產生也可以是通過模擬方式獲取仿真的。
大數據簡介3.生產數據的三個階段〔1〕被動式生成數據:數據庫技術使得數據的保存和管理變得簡單,業務系統在運行時產生的數據直接保存數據庫中,這個時候數據的產生是被動的,數據是隨著業務系統的運行產生的。大數據簡介〔2〕主動式生成數據:互聯網的誕生尤其是Web2.0、移動互聯網的開展大大加速了數據的產生,人們可以隨時隨地通過等移動終端隨時隨地地生成數據,人們開始主動地生成數據。〔3〕感知式生成數據:感知技術尤其是物聯網的開展促進了數據生成方式發生了根本性的變化,遍布在城市各個角落的攝像頭等數據采集設備源源不斷地自動采集、生成數據。大數據簡介
4.大數據的特點〔1〕數據產生方式:在大數據時代,數據的產生方式發生了巨大的變化,數據的采集方式由以往的被動采集數據轉變為主動生成數據。
〔2〕數據采集密度:以往我們進行數據采集時的采樣密度較低,獲得的采樣數據有限;在大數據時代,有了大數據處理平臺的支撐,我們可以對需要分析的事件的數據進行更加密集地采樣,從而精確地獲取事件的全局數據。
〔3〕數據源:以往我們多從各個單一的數據源獲取數據,獲取的數據較為孤立,不同數據源之間的數據整合難度較大;在大數據時代,我們可以通過分布式計算、分布式文件系統、分布式數據庫等技術對多個數據源獲取的數據進行整合處理。
大數據簡介〔4〕數據處理方式:
以往我們對數據的處理大多采用離線處理的方式,對已經生成的數據集中進行分析處理,不對實時產生的數據進行分析;在大數據時代,我們可以根據應用的實際需求對數據采取靈活的處理方式,對于較大的數據源、響應時間要求低的應用可以采取批處理的方式進行集中計算,而對于響應時間要求高的實時數據處理那么采用流處理的方式進行實時計算,并且可以通過對歷史數據的分析進行預測分析;大數據簡介大數據需要處理的數據大小通常到達PB〔1024TB〕或EB〔1024PB〕級;數據的類型多種多樣,包括結構化數據、半結構化數據和非結構化數據;巨大的數據量和種類繁多的數據類型給大數據系統的存儲和計算帶來很大挑戰,單節點的存儲容量和計算能力成為瓶頸;分布式系統是對大數據進行處理的根本方法,分布式系統將數據切分后存儲到多個節點上,并在多個節點上發起計算,解決單節點的存儲和計算瓶頸。常見的數據切分的方法有隨機方法、哈希方法和區間方法:隨機方法將數據隨機分布到不同的節點;哈希方法根據數據的某一行或者某一列的哈希值將數據分布到不同的節點;區間方法將不同的數據按照不同區間分布到不同節點。大數據簡介5.大數據的應用領域大數據在社會生活的各個領域得到廣泛的應用,不同領域的大數據應用具有不同的特點,其對響應時間、系統穩定性、計算精確性的要求各不相同,其比照方表1.1所示。
表1.1典型的大數據應用特征比照
應用領域示例用戶數量響應時延數據量級穩定性精確度科學計算基因計算小長TB一般非常高金融股票交易大實時GB非常高非常高社交網絡Facebook非常大快速PB高高移動數據移動終端非常大快速TB高高物聯網傳感網大快速TB高高網頁數據新聞網站非常大快速GB高高多媒體視頻網站非常大快速GB高一般大數據簡介主要的大數據處理系統大數據處理的數據源類型多種多樣,如結構化數據、半結構化數據、非結構化數據,數據處理的需求各不相同:對海量已有數據進行批量處理,對大量的實時生成的數據進行實時處理,在進行數據分析時進行反復迭代計算,對圖數據進行分析計算。
主要的大數據處理系統目前主要的大數據處理系統有:數據查詢分析計算系統、批處理系統、流式計算系統、迭代計算系統、圖計算系統和內存計算系統。
1.數據查詢分析計算系統大數據時代,數據查詢分析計算系統需要具備對大規模數據進行實時或準實時查詢的能力,數據規模的增長已經超出了傳統關系型數據庫的承載和處理能力。目前主要的數據查詢分析計算系統包括HBase、Hive、Cassandra、Dremel、Shark、Hana等。主要的大數據處理系統
HBase:開源、分布式、面向列的非關系型數據庫模型,是Apache的Hadoop工程的子工程;源于Google論文《Bigtable:一個結構化數據的分布式存儲系統》,實現了其中的壓縮算法、內存操作和布隆過濾器HBase的編程語言為Java。HBase的表能夠作為MapReduce任務的輸入和輸出,可以通過JavaAPI來存取數據。
主要的大數據處理系統Hive:基于Hadoop的數據倉庫工具,用于查詢、管理分布式存儲中的大數據集,提供完整的SQL查詢功能,可以將結構化的數據文件映射為一張數據表。Hive提供了一種類SQL語言〔HiveQL〕可以將SQL語句轉換為MapReduce任務運行。
主要的大數據處理系統Cassandra:開源NoSQL數據庫系統,最早由Facebook開發,并于2023年開源;由于其良好的可擴展性,Cassandra被Facebook、Twitter、Backspace、Cisco等公司使用;其數據模型借鑒了Amazon的Dynamo和GoogleBigTable,是一種流行的分布式結構化數據存儲方案。
主要的大數據處理系統Impala:由Cloudera公司主導開發,是運行在Hadoop平臺上的開源的大規模并行SQL查詢引擎。用戶可以使用標準的SQL接口的工具查詢存儲在Hadoop的HDFS和HBase中的PB級大數據。
主要的大數據處理系統
Shark:Spark上的數據倉庫實現,即SQLonSpark;與Hive相兼容,但處理HiveQL的性能比Hive快100倍。Hana:由SAP公司開發的與數據源無關、軟硬件結合、基于內存計算的平臺。主要的大數據處理系統2.批處理系統
MapReduce是被廣泛使用的批處理計算模式。MapReduce對具有簡單數據關系、易于劃分的大數據采用“分而治之〞的并行處理思想,將數據記錄的處理分為Map和Reduce兩個簡單的抽象操作,提供了一個統一的并行計算框架。批處理系統將復雜的并行計算的實現進行封裝,大大降低開發人員的并行程序設計難度。Hadoop和Spark是典型的批處理系統。MapReduce的批處理模式不支持迭代計算。
主要的大數據處理系統
Hadoop:目前大數據處理最主流的平臺,是Apache基金會的開源軟件工程,使用Java語言開發實現。Hadoop平臺使開發人員無需了解底層的分布式細節,即可開發出分布式程序,在集群中對大數據進行存儲、分析。主要的大數據處理系統Spark:由加州伯克利大學AMP實驗室開發,適合用于機器學習、數據挖掘等迭代運算較多的計算任務。Spark引入了內存計算的概念,運行Spark時效勞器可以將中間數據存儲在RAM內存中,大大加速數據分析結果的返回速度,可用于需要互動分析的場景。
主要的大數據處理系統3.流式計算系統流式計算具有很強的實時性,需要對應用源源不斷產生的數據實時進行處理,使數據不積壓、不喪失,常用于處理電信、電力等行業應用以及互聯網行業的訪問日志等。Facebook的Scribe、Apache的Flume、Twitter的Storm、Yahoo的S4、UCBerkeley的SparkStreaming是常用的流式計算系統。
主要的大數據處理系統Scribe:Scribe由Facebook開發開源系統,用于從海量效勞器實時收集日志信息,對日志信息進行實時的統計分析處理,應用在Facebook內部。Flume:Flume由Cloudera公司開發,其功能與Scribe相似,主要用于實時收集在海量節點上產生的日志信息,存儲到類似于HDFS的網絡文件系統中,并根據用戶的需求進行相應的數據分析。主要的大數據處理系統
Storm:基于拓撲的分布式流數據實時計算系統,由BackType公司〔后被Twitter收購〕開發,現已經開放源代碼,并應用于淘寶、百度、支付寶、Groupon、Facebook等平臺,是主要的流數據計算平臺之一。主要的大數據處理系統S4:S4的全稱是SimpleScalableStreamingSystem,是由Yahoo開發的通用、分布式、可擴展、局部容錯、具備可插拔功能的平臺;其設計目的是根據用戶的搜索內容計算得到相應的推薦廣告,現已經開源,是重要的大數據計算平臺。主要的大數據處理系統SparkStreaming:構建在Spark上的流數據處理框架,將流式計算分解成一系列短小的批處理任務進行處理。網站流量統計是SparkStreaming的一種典型的使用場景,這種應用既需要具有實時性,還需要進行聚合、去重、連接等統計計算操作;如果使用HadoopMapReduce框架,那么可以很容易地實現統計需求,但無法保證實時性;如果使用Storm這種流式框架那么可以保證實時性,但實現難度較大;SparkStreaming可以以準實時的方式方便地實現復雜的統計需求。主要的大數據處理系統4.迭代計算系統針對MapReduce不支持迭代計算的缺陷,人們對Hadoop的MapReduce進行了大量改進,Haloop、iMapReduce、Twister、Spark是典型的迭代計算系統。HaLoop:Haloop是HadoopMapReduce框架的修改版本,用于支持迭代、遞歸類型的數據分析任務,如PageRank、K-means等。iMapReduce:一種基于MapReduce的迭代模型,實現了MapReduce的異步迭代。Twister:基于Java的迭代MapReduce模型,上一輪Reduce的結果會直接傳送到下一輪的Map。Spark:基于內存計算的開源集群計算框架。
主要的大數據處理系統5.圖計算系統社交網絡、網頁鏈接等包含具有復雜關系的圖數據,這些圖數據的規模巨大,可包含數十億頂點和上百億條邊,圖數據需要由專門的系統進行存儲和計算。常用的圖計算系統有Google公司的Pregel、Pregel的開源版本Giraph、微軟的Trinity、BerkeleyAMPLab的GraphX以及高速圖數據處理系統PowerGraph。
主要的大數據處理系統Pregel:Google公司開發的一種面向圖數據計算的分布式編程框架,采用迭代的計算模型。Google的數據計算任務中,大約80%的任務處理采用MapReduce模式,如網頁內容索引;圖數據的計算任務約占20%,采用Pregel進行處理。Giraph:一個迭代的圖計算系統,最早由雅虎公司借鑒Pregel系統開發,后捐贈給Apache軟件基金會,成為開源的圖計算系統。Giraph是基于Hadoop建立的,Facebook在其臉譜搜索效勞中大量使用了Giraph。主要的大數據處理系統Trinity:微軟公司開發的圖數據庫系統,該系統是基于內存的數據存儲與運算系統,源代碼不公開。GraphX:由AMPLab開發的運行在數據并行的Spark平臺上的圖數據計算系統。PowerGraph:高速圖處理系統,常用于廣告推薦計算和自然語言處理。
主要的大數據處理系統6.內存計算系統隨著內存價格的不斷下降、效勞器可配置內存容量的不斷增長,使用內存計算完成高速的大數據處理已成為大數據處理的重要開展方向。目前常用的內存計算系統有分布式內存計算系統Spark、全內存式分布式數據庫系統HANA、Google的可擴展交互式查詢系統Dremel。
主要的大數據處理系統Dremel:Google的交互式數據分析系統,可以在數以千計的效勞器組成的集群上發起計算,處理PB級的數據。Dremel是GoogleMapReduce的補充,大大縮短了數據的處理時間,成功地應用在Google的bigquery中。HANA:SAP公司開發的基于內存技術、面向企業分析性的產品。Spark:基于內存計算的開源集群計算系統。
主要的大數據處理系統大數據處理的根本流程大數據處理的根本流程大數據的處理流程可以定義為在適合工具的輔助下,對廣泛異構的數據源進行抽取和集成,結果按照一定的標準統一存儲,利用適宜的數據分析技術對存儲的數據進行分析,從中提取有益的知識并利用恰當的方式將結果展示給終端用戶。大數據處理的根本流程如圖1.2所示。
圖1.2大數據處理的根本流程
1.數據抽取與集成由于大數據處理的數據來源類型豐富,大數據處理的第一步是對數據進行抽取和集成,從中提取出關系和實體,經過關聯和聚合等操作,按照統一定義的格式對數據進行存儲。現有的數據抽取和集成方法有三種:基于物化或ETL方法的引擎〔MaterializationorETLEngine〕、基于聯邦數據庫或中間件方法的引擎〔FederationEngineorMediator〕、基于數據流方法的引擎〔StreamEngine〕。大數據處理的根本流程2.數據分析數據分析是大數據處理流程的核心步驟,通過數據抽取和集成環節,我們已經從異構的數據源中獲得了用于大數據處理的原始數據,用戶可以根據自己的需求對這些數據進行分析處理,比方數據挖掘、機器學習、數據統計等,數據分析可以用于決策支持、商業智能、推薦系統、預測系統等。
大數據處理的根本流程3.數據解釋大數據處理流程中用戶最關心的是數據處理的結果,正確的數據處理結果只有通過適宜的展示方式才能被終端用戶正確理解,因此數據處理結果的展示非常重要,可視化和人機交互是數據解釋的主要技術。
大數據處理的根本流程我們在開發調試程序的時候經常通過打印語句的方式來呈現結果,這種方式非常靈活、方便,但只有熟悉程序的人才能很好地理解打印結果。使用可視化技術,可以將處理的結果通過圖形的方式直觀地呈現給用戶,標簽云〔TagCloud〕、歷史流〔HistoryFlow〕、空間信息流〔SpatialInformationFlow〕等是常用的可視化技術,用戶可以根據自己的需求靈活地使用這些可視化技術;人機交互技術可以引導用戶對數據進行逐步的分析,使用戶參與到數據分析的過程中,使用戶可以深刻地理解數據分析結果。
大數據處理的根本流程1.3云計算與大數據的開展1.3云計算與大數據的開展
1.云計算與大數據開展歷程早在1958年,人工智能之父JohnMcCarthy創造了函數式語言LISP,LISP語言后來成為MapReduce的思想來源。1960年JohnMcCarthy預言了:“今后計算機將會作為公共設施提供給公眾〞,這一概念與我們現在所定義的云計算已非常相似,但當時的技術條件決定了這一設想只是一種對未來技術開展的預言。云計算是網絡技術開展到一定階段后必然出現的新的技術體系和產業模式。1984年SUN公司提出“網絡就是計算機〞這一具有云計算特征的論點,2006年Google公司CEOEricSchmidt提出云計算概念,2023年云計算概念全面進入中國,2023年中國首屆云計算大會召開,此后云計算技術和產品迅速地開展起來。
隨著社交網絡、物聯網等技術的開展,數據正在以前所未有的速度增長和積累,IDC的研究數據說明,全球的數據量每年增長50%,兩年翻一番,這意味著全球近兩年產生的數據量將超過之前全部數據的總和。2023年全球數據總量已達1.8ZB,到2023年,全球數據總量將到達35ZB。2023年《Nature》雜志推出了大數據專刊,2023年《Science》雜志推出大數據專刊,討論科學研究的中大數據問題。2023年大數據的關注度和影響力快速增長,成為當年達沃斯世界經濟論壇的主題,美國政府啟動大數據開展方案。中國計算機學會于2023年成立了大數據專家委員會,并發布了大數據技術白皮書。1.3云計算與大數據的開展
圖1.3近年來云計算、大數據的關注度
如圖1.3所示為云計算、大數據兩個關鍵詞近年來的網絡關注度,可以看出2023年至今大數據的關注度越來越高,云計算和大數據是信息技術未來的開展方向。
1.3云計算與大數據的開展網絡技術在云計算和大數據的開展歷程中發揮了重要的推動作用。可以認為信息技術的開展經歷了硬件開展推動和網絡技術推動兩個階段。早期主要以硬件開展為主要動力,在這個階段硬件的技術水平決定著整個信息技術的開展水平,硬件的每一次進步都有力地推動著信息技術的開展,從電子管技術到晶體管技術再到大規模集成電路,這種技術變革成為產業開展的核心動力。但網絡技術的出現逐步地打破了單純的硬件能力決定技術開展的格局,通信帶寬的開展為信息技術的開展提供了新的動力,在這一階段通信帶寬成為了信息技術開展的決定性力量之一,云計算、大數據技術的出現正是這一階段的產物,其廣泛應用并不是單純靠某一個人創造而是由于技術開展到現在的必然產物,生產力決定生產關系的規律在這里依然是成立的。
1.3云計算與大數據的開展當前移動互聯網的出現并迅速普及更是對云計算、大數據的開展起到了推動作用。移動瘦客戶終端與云計算資源池的結合大大拓展了移動應用的思路,云計算資源得以在移動終端上實現隨時、隨地、隨身資源效勞。移動互聯網再次拓展了以網絡化資源交付為特點的云計算技術的應用能力,同時也改變了數據的產生方式,推動了全球數據的快速增長,推動了大數據的技術和應用的開展。
1.3云計算與大數據的開展云計算是一種全新的領先信息技術,結合IT技術和互聯網實現超級計算和存儲的能力,而推動云計算興起的動力是高速互聯網和虛擬化技術的開展、更加廉價且功能強勁的芯片及硬盤、數據中心的開展。云計算作為下一代企業數據中心,其根本形式為大量鏈接在一起的共享IT根底設施,不受本地和遠程計算機資源的限制,可以很方便地訪問云中的“虛擬〞資源,使用戶和云效勞提供商之間可以像訪問網絡一樣進行交互操作。1.3云計算與大數據的開展云計算的興起有以下因素:〔1〕高速互聯網技術開展。云計算能夠利用現有的IT根底設施在極短的時間內處理大量的信息以滿足動態網絡的高性能的需求。
〔2〕資源利用率需求。
引入云計算模式后可以通過整合資源或采用租用存儲空間、租用計算能力等效勞來降低企業運行本錢和節省能源。
同時,利用云計算將資源集中,統一提供可靠效勞,能減少企業本錢,提升企業靈活性,企業可以把更多的時間用于效勞客戶和進一步研發新的產品上。
1.3云計算與大數據的開展
〔3〕簡單與創新需求。
在實際的業務需求中,越來越多的個人用戶和企業用戶都在期待著使用計算機操作能簡單化,能夠直接通過購置軟件或硬件效勞而不是軟件或硬件實體,為自己的學習、生活和工作帶來更多的便利,能在學習場所、工作場所、住所之間建立便利的文件或資料共享的紐帶。而對資源的利用可以簡化到通過接入網絡就可以實現自己想要實現的一切,就需要在技術上有所創新,利用云計算來提供這一切,將我們需要的資料、數據、文檔、程序等全部放在云端實現同步。1.3云計算與大數據的開展〔4〕其他需求連接設備、實時數據流、SOA的采用以及搜索、開放協作、社會網絡和移動商務等的移動互聯網應用急劇增長,數字元器件性能的提升也使IT環境的規模大幅度提高,從而進一步加強了對一個由統一的云進行管理的需求。個人或企業希望按需計算或效勞,能在不同的地方實時實現工程、文檔的協作處理,能在繁雜的信息中方便地找到自己需要的信息等需求也是云計算興起的原因之一。人類歷史不斷地證明生產力決定生產關系,技術的開展歷史也證明了技術能力決定技術的形態,1.3云計算與大數據的開展縱觀整個信息技術的開展歷史
圖1.4信息產業開展演進路線圖
1.3云計算與大數據的開展硬件驅動的時代誕生了IBM、微軟、Intel等企業。20世紀50年代最早的網絡開始出現,信息產業的開展驅動力中開始出現網絡的力量,但當時網絡性能很弱,網絡并不是推動信息產業開展的主要動力,處理器等硬件的影響還占絕對主導因素。隨著網絡的開展,網絡通信帶寬逐步加大,從20世紀80年代的局域網到20世紀90年代的互聯網,網絡逐漸成為了推動信息產業開展的主導力量,這個時期誕生了百度、谷歌、亞馬遜等企業。直到云計算的出現才標志著網絡已成為信息產業開展的主要驅動力,此時技術的變革即將出現。
1.3云計算與大數據的開展2.為云計算與大數據開展做出奉獻的科學家超級計算機之父—西摩·克雷〔SeymourCray〕
在人類解決計算和存儲問題的歷程中,西摩·克雷成為了一座豐碑,被稱為超級計算機之父。西摩·克雷,生于1925年9月28日,美國人,1958年設計建造了世界上第一臺基于晶體管的超級計算機,成為計算機開展史上的重要里程碑。同時也對精簡指令〔RISC〕高端微處理器的產生有重大的奉獻。1972年,他創辦了克雷研究公司,公司的宗旨是只生產超級計算機。此后的十余年中,克雷先后創造了Cray-1、Cray-2等機型。作為高性能計算機領域中最重要的人物之一,他親手設計了Cray全部的硬件與操作系統。Cray機成為了從事高性能計算學者中永遠的記憶,到1986年1月為止,世界上有130臺超級計算機投入使用,其中大約90臺是由克雷的上市公司—克雷研究所研制的。美國的《商業周刊》在1990年的一篇文章中曾這樣寫道:“西摩·克雷的天賦和非凡的干勁已經給本世紀的技術留下了不可磨滅的印記〞。2023年11月高性能計算Top500排行中第2名和第6名均為Cray機。
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 航空航天復合材料 課件知識點5 納米復合材料
- 書香家庭評比
- 新疆專科考試試題及答案
- 機械考試題型及答案
- 2025年糖尿病護理查房
- 外科護理常規
- 中華文本庫護理應急預案培訓
- 肺炎病例分析護理
- 2025年中國牛奶咖啡起泡器行業市場全景分析及前景機遇研判報告
- 微球囊壓迫術護理查房
- 2025年中小學暑假安全教育主題家長會 課件
- 顱內血腫護理查房
- 門診急救室管理制度
- 2025年沈陽水務集團有限公司-企業報告(代理機構版)
- 近視管理白皮書(2025)專家共識-
- 2024年深圳市深汕特別合作區農村工作者招聘真題
- 數字化藝術-終結性考核-國開(SC)-參考資料
- 2024年貴州省糧食儲備集團有限公司招聘考試真題
- 2025山西晉城市國有資本投資運營有限公司部分子公司招聘11人筆試參考題庫附帶答案詳解
- 2025盤錦市興隆臺區輔警考試試卷真題
- 壓縮空氣儲能系統透平膨脹機流動特性與損失優化研究
評論
0/150
提交評論