大數據平臺技術交流資深技術顧問_第1頁
大數據平臺技術交流資深技術顧問_第2頁
大數據平臺技術交流資深技術顧問_第3頁
大數據平臺技術交流資深技術顧問_第4頁
大數據平臺技術交流資深技術顧問_第5頁
免費預覽已結束,剩余32頁可下載查看

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、 2011 IBM Corporation Information Management大數據平臺技術交流 2011 IBM CorporationInformation Management2從各種各樣類型的巨大數據中,快速獲得有價值信息的能力,就是大數據技術什么是大數據Variety: 管理復雜的多角度關系和非關系類型的數據 (你是否忽略利用的非結構化數據進行決策嗎)Velocity: 流數據或者大量數據的移動 (你是否希望通過實時操作提供更好的結果)Volume: 數據量從TB級到ZB級 (你是否收集了所有數據,并在使用它嗎)Veracity:1/3 的領導在做業務決策時候不相信獲得的信

2、息 2011 IBM CorporationInformation Management大數據參考架構超越傳統的數據倉庫概念流計算Internet級別傳統數據倉庫In-Motion AnalyticsData Analytics, Data Operations & Model BuildingResultsInternet ScaleDatabase &WarehouseAt-Rest Data AnalyticsResultsUltra Low Latency ResultsInfoSphere BigInsights傳統/關系型數據源非傳統/非關系型數據源傳統/關系型數據

3、源非傳統/非關系型數據源 2011 IBM CorporationInformation ManagementCloud | Mobile | Security IBM大數據平臺和應用框架通過可視化的方法采集、抽取、以及探查數據應用加速器,加速應用開發,快速實現分析價值BI / ReportingBI / ReportingExploration / VisualizationFunctionalAppIndustryAppPredictive AnalyticsContent AnalyticsAnalytic Applications(分析應用)IBM Big Data Platform(

4、大數據平臺)(大數據平臺)Systems ManagementApplications & DevelopmentVisualization & Discovery分析流數據,以及在大數據的是誰數據洞察數據管控(數據質量、生命周期、)低成本地分析PB級結構化和非結構化數據操作型數據或者歷史數據的,基于數據倉庫內嵌分析Accelerators(加速器)Information Integration & Governance信息整合和管控HadoopSystemStream ComputingData WarehouseContextual Discovery索引和聯邦的上

5、下文相關分析 2011 IBM CorporationInformation Management議程s IBM數據倉庫平臺pure Data 基于大數據平臺的數據分析-DataExplorer IBM大數據優勢匯總 2011 IBM CorporationInformation Management6Forrester Wave關于大數據的報告 2011 IBM CorporationInformation ManagementBigInsights 企業版連接和集成StreamsNetezzaText processing engine and library JDBCFlume基礎架構J

6、aqlHivePigHBase MapReduceHDFS ZooKeeperIndexingLuceneAdaptive MapReduceOozieText compressionEnhanced securityFlexible scheduler可選 IBM 產品分析和探查應用 DB2BigSheetsWeb CrawlerDistrib file copyDB exportBoardreaderDB importAd hoc queryMachine learningData processing. . . 管理和開發工具 管理控制臺 Monitor cluster health,

7、jobs, etc. Add / remove nodes Start / stop services Inspect job status Inspect workflow status Deploy applications Launch apps / jobs Work with distrib file systemWork with spreadsheet interfaceSupport REST-based API . . . R Eclipse 開發工具 Text analytics MapReduce programming Jaql, Hive, Pig developme

8、nt BigSheets plug-in development Oozie workflow generation Integrated installerOpen SourceIBM IBM Cognos BIBig SQL Accelerator for machine data analysis Accelerator for social data analysis GuardiumDataStageData ExplorerSqoop HCatalogGPFS FPO 2011 IBM CorporationInformation ManagementBigInsights 優勢列

9、表 High Performance & Availability GPFS-FPO At least 2X faster than open source Hadoop 17x throughput speedup for document index lookups Fault resistance for Real Time Data POSIX Adaptive MapReduce SQL Interface ( BigSQL ) Integrated Install & Mgt Consoles Security LDAP+ High speed LZO Compre

10、ssion Development Tooling environment, testing, and optimization Warehouse RDBMS & Streams Integration SystemT Text Analytics Blazing Fast, Uses Unstructured data does not require structuring, (MapReduce) Customized Annotators BigSheets Insight Engine for analytics on Massive amounts of data in

11、BigInsights. Power of Map/Reduce within reach of the Business professional with a familiar Spreadsheet-like environment. Built in Visualizations SystemML Machine Leaning (Watson) Directly implemented ML algorithms on MapReduce Deep Statistical / Mining embedded into BigInsights Platform BigIndex Dis

12、tributed indexing and search Parallel indexing and search企業級別基礎設施企業級別分析能力 2011 IBM CorporationInformation ManagementGPFS-FPO與HDFS各項指標對比BigInsights GPFS-FPO開源HDFS或其他方案健壯性無單點故障 99.99%NameNode 存在單點故障數據一致性高數據可能會丟失可擴展性數千節點,實測4000+數千節點POSIX 兼容完全兼容有限數據管理能力安全、備份、快照、緩存、復制有限傳統應用性能好,兼顧讀寫性能隨機讀寫性能差安全性支持ACL, 容量限制

13、,安全認證不支持 2011 IBM CorporationInformation ManagementIBM Adaptive MapReduce 提供強大的企業級管理,用于在可擴展的共享網格上運行分布式應用程序和大數據分析。它可加速數十個并行應用程序,以加快實現成果并更好地利用所有可用資源。TeraSort ThroughputSWIM10 times fewer CPU cores6 times faster60 times fasterBerkley SWIM is a workload benchmark developed at University of California at

14、 Berkley.Measure core scheduling efficiency of MapReduce workloads at Hadoop World 2011Multi-tenant resource management10 x Less hardware for the fastest TeraSort score. 2011 IBM CorporationInformation ManagementBig SQL: 讓 Hadoop 原生支持 SQL 原生 SQL 支持 BigInsights ANSI SQL 92+ Standard syntax support (j

15、oins, data types, ) 真正的 JDBC/ODBC Prepared statements Cancel support Database metadata API support Secure socket connections (SSL) 優化 Leveraging MapReduce parallelismor Direct access for low-latency queries 多種數據源 HBase (including secondary indexes) CSV, Delimited files, Sequence files JSON Hive tabl

16、esBig SQL EngineBigInsightsData Sources SQLHive TablesHBase tablesCSV FilesApplicationJDBC / ODBC Server JDBC / ODBC Driver 2011 IBM CorporationInformation Management使用報表工具 Cognos BI server 可以下推計算到 BigInsights 更快響應時間 沒有 Hive 的限制Application (Map-Reduce)Storage(HBase, HDFS)InfoSphere BigInsightsCognos

17、 BI ServerExplore & AnalyzeReport & ActSQL Interfacevia JDBC 2011 IBM CorporationInformation Management可以使用已有的工具: SQuirreL SQLUsing existing SQL tooling against BigDataSupport for “standard” authentication!(not supported for Hive, but supported by Big SQL!)13 2011 IBM CorporationInformation

18、Management可以使用已有的工具: EclipseUsing existing SQL tooling against BigDataSame setup as for existing SQL sources!Support for “standard” authentication!14 2011 IBM CorporationInformation Management集成的基于Web的安裝無縫的單節點或者集群模式安裝開源組件和IBM組件的安裝驗證檢查,確保系統正常運行 2011 IBM CorporationInformation Management基于Web的管理控制平臺任務

19、和工作流管理系統健康監控集群以及文件系統管理 2011 IBM CorporationInformation Management基于表單的分析 2011 IBM CorporationInformation Management儀表盤 2011 IBM CorporationInformation Management議程s IBM數據倉庫平臺pure Data 基于大數據平臺的數據分析-DataExplorer IBM大數據優勢匯總 2011 IBM CorporationInformation Management計算模式的變革動態數據的實時分析動態數據的實時分析 流數據流數據 結構或非

20、結構化動態數據流結構或非結構化動態數據流 流計算流計算 實時對流數據進行分析計算實時對流數據進行分析計算靜態數據的歷史分析靜態數據的歷史分析 批處理模式批處理模式 查詢驅動:靜態數據提交查詢查詢驅動:靜態數據提交查詢 依靠數據庫,數據倉庫依靠數據庫,數據倉庫傳統計算模式傳統計算模式流計算模式流計算模式QueriesMemoryDiskUpdatesMemoryDiskEvent DataQueriesAlerts Actions20 2011 IBM CorporationInformation ManagementIBM InfoSphere StreamsA platform for re

21、al-time analytics on BIG data 一個處理流數據的低延遲平臺毫秒級,甚至微妙級端到端的延遲 一個可高度擴展的,用于實時分析的高性能平臺通過橫向增加硬件獲得近線性的處理能力擴展高達125個節點擴展 一個靈活的、動態的平臺Streams應用靈活部署支持動態部署新的分析應用Millions of events per secondMicrosecond LatencyTraditional / Non-traditional data sourcesReal time decisionsPowerfulAnalyticsAlgo TradingTelco churnpred

22、ictSmartGridCyberSecurityGovernment /Law enforcementICUMonitoringEnvironmentMonitoring21 連續注入連續分析實現可擴展: 將應用分布到多個計算節點 在流連接的硬件節點之間分發Streams流計算平臺流計算平臺基礎設施提供服務:在跨硬件/軟件節點中調度分析建立流媒體連接變換過濾 / 采樣分類關聯注釋在適當的地方,處理單元可以是“融合”在一起從而消除通信的延遲 2011 IBM CorporationInformation Management 2013 IBM CorporationInformation Ma

23、nagementStreams Toolkit (常用常用)JoinFunctorAggregatePunctorSortFilterDirectory-ScanFileSourceFileSinkUDPSourceUDPSinkTCPSourceTCPSinkExportImportODBCSourceODBCEnrichsolidDBEnrichInetSourceODBCAppend 2011 IBM CorporationInformation Management高度可并行擴展能力同時利用幾十臺、上百臺進行實時數據流處理 2011 IBM CorporationInformation

24、 ManagementX86 BoxX86 BladeCellBladeBlue GeneFPGABladeX86 BladeX86 BladeX86BladeX86 BladeX86BladeTransport Streams Data Fabric高可用、集群部署能力Processing Element ContainerProcessing Element ContainerProcessing Element ContainerProcessing Element ContainerProcessing Element Container優化調度器把操作符分配到不同的節點運行,并持續監

25、控資源的使用情況自適應資源、工作負載、數據速率的變化在低成本硬件上運行從單節點PC到刀片服務器到多陣列集群 2011 IBM CorporationInformation Management26參考性能數據參考性能數據 吞吐性能和延遲吞吐性能和延遲1,975 streams2,133 streams163 streams24 channels163 Decision Engines356 Blue Gene Nodes356 Processing Elements4,274 streamsData Feed每秒500萬條記錄平均延遲 150 微秒最小延遲50 微秒65K中49條延遲 2 毫秒

26、 2011 IBM CorporationInformation Management 2013 IBM CorporationInformation Management大數據的實時分析平臺大數據的實時分析平臺分析不同的數據源,每秒分析上百萬個事件分析不同的數據源,每秒分析上百萬個事件易用性能易用性能 圖形化應用開發模式,容易管理和監控圖形化應用開發模式,容易管理和監控集成能力集成能力 集成集成XML ,MQ, DataStage,HDFS等等高級工具包和加速器高級工具包和加速器 事件序列和地理信息數據庫工具箱和事件序列和地理信息數據庫工具箱和CEP處理處理 可定制化的電信和媒體分析加速器幫

27、助快速部署可定制化的電信和媒體分析加速器幫助快速部署應用應用.InfoSphere StreamsInfoSphere Streams 2011 IBM CorporationInformation Management議程s IBM數據倉庫平臺pure Data 基于大數據平臺的數據分析-DataExplorer IBM大數據優勢匯總 2011 IBM CorporationInformation Management 專家集成數據系統for Transactions為滿足交易型數據服務而優化的系統for Operational Analytics為滿足操作型分析數據服務而優化的系統for

28、Analytics為滿足分析型數據服務而優化的系統Data PlatformDelivering Data Services 2011 IBM CorporationInformation Management議程s IBM數據倉庫平臺pure Data 基于大數據平臺的數據分析-DataExplorer IBM大數據優勢匯總 2011 IBM CorporationInformation ManagementIBM InfoSphere Data ExplorerApplication/Users結合企業各類數據,包括大數據的分析結果FileSystemsRelationalDataCont

29、entManagementEmailCRMSupplyChainERPRSS FeedsExternalSourcesCloudCustomSourcesVelocity PlatformIBM Big Data PlatformSystems ManagementApplication DevelopmentVisualization & DiscoveryAcceleratorsInformation Integration & GovernanceHadoopSystemStream ComputingData WarehouseCommentingRatingSharedFoldersTagging 2011 IBM CorporationInformation ManagementIDE給最終用戶提供整合的企業級的信息探查Application FrameworkReal TimeAnalyticsInternet ScaleAnalyticsIn-DatabaseAnalyticsFederate

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論