大數據處理與分析相關簡介_第1頁
大數據處理與分析相關簡介_第2頁
大數據處理與分析相關簡介_第3頁
大數據處理與分析相關簡介_第4頁
大數據處理與分析相關簡介_第5頁
已閱讀5頁,還剩44頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

大數據處置與分析相關平臺簡介中國人民大學信息學院董兆安內容來自CSDN等互聯網資源大數據及其主要特征2規模〔Volume〕、種類〔Variety〕、速度〔Velocity〕2001年,道格.萊尼〔DougLaney〕VolumeVolumeVarietyVolume模態多樣VelocityVolume速度極快體量宏大文本視頻圖片音頻到2020年,數據總量達40ZB,人均5.2TB分享的內容條目超越25億個/天,添加數據超越500TB/天關于大數據定義的誤解blogs.gartner/doug-laney/Other“V〞slikeveracity,validity,value,etc.areaspirationalqualitiesofalldata,notdefinitionalqualitiesofbigdata.3硬件、技術、數據不斷進化4傳統的數據處置ExternalDataSourcesExtractTransformLoadDataWarehouseIntegratedstorageDataprocessingUsersSQL5數據分析的需求也逐漸提高從海量數據中快速獲取有價值信息低延遲、高性能、分布式、可擴展、容錯。6RTAPOLAPOLTP需求變化7Real-TimeNon-InteractiveBatchInteractiveOnlinesystemsRealtimeAnalyticsComplexeventprocessingDatapreparationIncrementalbatchprocessingDashboardsOperationalbatchprocessingEnterprisereportsDataminingParameterizedReportsDrilldownVisualizationExploration0--5s5s--1m1m--1h1h+場景不同-工具不同-視角不同Hortonworks將運用需求進展了如下劃分:實時運用場景(0~5s):Storm、S4、ClouderaImpala,ApacheDrill等;交互式場景〔5s~1m〕:最好支持SQL,:ClouderaImpala、ApacheDrill、Shark等;非交互式場景〔1m~1h〕:MapReduce、Hive、Pig、Stinger等;批處置場景〔1h+〕運轉時間較長,處置數據量較大,對容錯性和擴展性要求較高MapReduce、Hive、Pig、Stinger等。8大數據分析與處置架構——一個案例9IngestLandingandAnalyticsSandboxZoneIndexes,facetsHive/HBaseColStoresDocumentsInVarietyofFormatsAnalyticsMapReduceRepository,WorkbenchIngestionandReal-timeAnalyticZoneDataSinksFilter,TransformIngestCorrelate,ClassifyExtract,AnnotateWarehousingZoneEnterpriseWarehouseDataMartsQueryEnginesCubesDescriptive,PredictiveModelsModelsWidgetsDiscovery,VisualizerSearchAnalyticsandReportingZoneMetadataandGovernanceZone9Connectors大數據處置與分析技術數據采集數據處置數據存儲統計分析數據發掘模型預測數據可視化元數據管理10數據處置的幾種方式轉換TransformerConvertpayloadormodifyheaders過濾FilterDiscardmessagesbasedonbooleanevaluation路由RouterDeterminenextchannelbasedoncontent分割SplitterGeneratemultiplemessagesfromone聚集AggregatorAssembleasinglemessagefrommultiple11幾種平臺引見MPPHadoopstormspark12開源的大數據處置平臺SQLonHadoopHortonworks:Tez、StingerCloudera:ImpalaFacebook:Hive,PrestoGoogle發布了Dremel和PowerDrillEMC推出Pivotal+HAWQ開源數據倉庫brighthouse基于MySQL的數據倉庫存儲引擎13開源的大數據處置平臺NO-MapReduce系統微軟的DAG義務計算模型DryadGoogle的圖批量同步處置系統Pregel和增量式計算框架PercolatorYahoo!的數據流計算系統S4、NYU的共享內存處置系統PiccoloBerkeley的交互式實時處置系統Spark等等。NEWSQL系統VoltDBmySQL集群14Hadoop的版本1516IntelHadoop*17Hadoop1.018Hadoopeco-systemExternalDataSourcesHDFSstoragelayerProcessingFramework(Map-Reduce)HBaseSqoop+FlumePigHiveQLMahoutHiveMetastore(HCatalog)OozieClouderaNavigatorMorevarieddatasourceswithmanymoreaccess/retentionrequirementsUsers19Hadoopeco-systemExternalDataSourcesHDFSstoragelayerProcessingFramework(Map-Reduce)HBaseSqoop+FlumePigHiveQLMahoutHiveMetastore(HCatalog)OozieClouderaNavigatorDataaccessedthroughmultipleentrypointsUsers20Hadoopeco-systemExternalDataSourcesHDFSstoragelayerProcessingFramework(Map-Reduce)HBaseSqoop+FlumePigHiveQLMahoutHiveMetastore(HCatalog)OozieClouderaNavigatorUsersLotsofnewconsumersofthedata21Hadoopeco-systemExternalDataSourcesHDFSstoragelayerProcessingFramework(Map-Reduce)HBaseSqoop+FlumePigHiveQLMahoutHiveMetastore(HCatalog)OozieClouderaNavigatorUsersOneaccesscontrolmechanism:files22Hadoop1.0——HDFS存儲模型23Hadoop1.0——計算模型MapReduce24節點功能與角色25集群部署表示26YARN和Hadoop2.027comprisesthelatestreleaseacrossHadoopandthekeyrelatedprojectsintoasingleintegratedandtestedplatformCoreservicesDataservicesOperationalservices28Hadoop2.0Hadoop2.0YARN的根本思想是將JobTracker的兩個主要功能資源管理和作業調度/監控分別主要方法是創建一個全局的ResourceManager〔RM〕和假設干個針對運用程序的ApplicationMaster〔AM〕29對比:Hadoop1.0JobTracker和TaskTracker30對比:Hadoop2.031運轉在YARN上的計算框架YARN=YetAnotherResourceNeogitator.32內存計算——SparkandShark33High-SpeedIn-MemoryAnalytics

overHadoopandHiveDataUCBERKELEY34MapReduce——數據共享于HDFSiter.1iter.2...InputHDFS

readHDFS

writeHDFS

readHDFS

writeInputquery1query2query3result1result2result3...HDFS

readSlowduetoreplication,serialization,anddiskIO35iter.1iter.2...InputSpark——數據共享于內存Distributed

memoryInputquery1query2query3...one-time

processing10-100×fasterthannetworkanddiskSpark之RDD——彈性分布式數據集3637伯克利架構38分布式實時計算系統

Storm流數據處置Storm可以用來處置源源不斷流進來的音訊,處置之后將結果寫入到某個存儲中去。S4(SimpleScalableStreamingSystem)是一個分布式流處置引擎,開發者可以在這個引擎根底上開發面向無界的,不延續的流數據處置運用。分布式rpc由于storm的處置組件是分布式的,而且處置延遲極低,所以可以作為一個通用的分布式rpc框架來運用。搜索引擎本身也是一個分布式rpc系統。39STORM角色Nimbus:擔任資源分配和義務調度。Supervisor:擔任接受nimbus分配的義務,啟動和停頓屬于本人管理的worker進程。Worker:運轉詳細處置組件邏輯的進程。Task:worker中每一個spout/bolt的線程稱為一個task.40根本邏輯——概念Spout:在一個topology中產生源數據流的組件。Spout是一個自動的角色,其接口中有個nextTuple()函數,storm框架會不停地調用此函數,用戶只需在其中生成源數據即可。Bolt:在一個topology中接受數據然后執行處置的組件。Bolt可以執行過濾、函數操作、合并、寫數據庫等任何操作。Bolt是一個被動的角色,Tuple:一次音訊傳送的根本單元。Stream:源源不斷傳送的tuple就組成了stream。Topology:storm中運轉的一個實時運用程序,由于各個組件間的音訊流動構成邏輯上的一個拓撲構造。41大數據處置平臺——MPP42

運用程序經過Master主機訪問數據

在存儲節點和Master主機之間交換數據

每一個存儲節點都是獨立的PgSQL數據庫〔無共享〕QueryPlanMPP=MassiveParallelProcessing海量并行處置構造數據分發43Share-Nothing的完全并行架構

44共享磁盤例如:OracleRACDBSAN/共享磁盤DBDBDB網絡SAN/FC完全共享例如:SMP效力器DB磁盤完全不共享例如:GreenplumDBDBDBDB網絡磁盤磁盤磁盤磁盤Master注:一切的共享資源都用藍灰色表示基于外部表的高速

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論