HPE大數(shù)據(jù)平臺(tái)之保險(xiǎn)業(yè)極速分析實(shí)現(xiàn)-中國保險(xiǎn)IT應(yīng)用高峰論壇_第1頁
HPE大數(shù)據(jù)平臺(tái)之保險(xiǎn)業(yè)極速分析實(shí)現(xiàn)-中國保險(xiǎn)IT應(yīng)用高峰論壇_第2頁
HPE大數(shù)據(jù)平臺(tái)之保險(xiǎn)業(yè)極速分析實(shí)現(xiàn)-中國保險(xiǎn)IT應(yīng)用高峰論壇_第3頁
HPE大數(shù)據(jù)平臺(tái)之保險(xiǎn)業(yè)極速分析實(shí)現(xiàn)-中國保險(xiǎn)IT應(yīng)用高峰論壇_第4頁
HPE大數(shù)據(jù)平臺(tái)之保險(xiǎn)業(yè)極速分析實(shí)現(xiàn)-中國保險(xiǎn)IT應(yīng)用高峰論壇_第5頁
已閱讀5頁,還剩63頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

HPE大數(shù)據(jù)平臺(tái)之保險(xiǎn)業(yè)極速分析實(shí)現(xiàn)保保險(xiǎn)業(yè)大數(shù)據(jù)平臺(tái)發(fā)展趨勢 目錄112HPE大數(shù)據(jù)平臺(tái)產(chǎn)品方案3HPE大數(shù)據(jù)平臺(tái)典型案例務(wù)勢保險(xiǎn)業(yè)發(fā)展趨分析驅(qū)動(dòng)數(shù)字化務(wù)勢保險(xiǎn)業(yè)發(fā)展趨分析驅(qū)動(dòng)數(shù)字化全渠道個(gè)個(gè)性化BIGDATAWEB營銷網(wǎng)絡(luò)搜索營銷行為定位動(dòng)態(tài)篩選Gigabytes承保明細(xì)數(shù)據(jù)承保記錄BIGDATAWEB營銷網(wǎng)絡(luò)搜索營銷行為定位動(dòng)態(tài)篩選Gigabytes承保明細(xì)數(shù)據(jù)承保記錄客戶接觸支持/服務(wù)聯(lián)系Exabytes用戶產(chǎn)生的內(nèi)容移動(dòng)網(wǎng)絡(luò)用Exabytes用戶產(chǎn)生的內(nèi)容移動(dòng)網(wǎng)絡(luò)用戶點(diǎn)擊流Web日志產(chǎn)品推介/服務(wù)歷史產(chǎn)品推介/服務(wù)明細(xì)分段與細(xì)分社交網(wǎng)絡(luò)用戶情緒外部數(shù)據(jù)業(yè)務(wù)數(shù)據(jù)反饋視頻數(shù)據(jù)語音到文本產(chǎn)品/服務(wù)日志短信/彩信PetabytesA/B測試TerabytesCRMERERP付款記錄增加的數(shù)據(jù)種類和復(fù)雜度 下降的價(jià)值密度 房屋/建筑汽車機(jī)器設(shè)備…總賬會(huì)計(jì)科目日記賬分錄房屋/建筑汽車機(jī)器設(shè)備…總賬會(huì)計(jì)科目日記賬分錄理賠付款事故調(diào)查電銷保險(xiǎn)經(jīng)紀(jì)/代理銀保網(wǎng)上直銷市場營銷活動(dòng)保單保單合同保險(xiǎn)賬戶…投投保人受益人保險(xiǎn)代理服務(wù)提供商…定期壽險(xiǎn)定期壽險(xiǎn)汽車保險(xiǎn)房屋保險(xiǎn)商業(yè)保險(xiǎn)分分公司、部門…物理地址物理地址電子郵件地址電話號(hào)碼地理區(qū)域戶協(xié)議指標(biāo)……理賠業(yè)務(wù)產(chǎn)品理承保業(yè)務(wù)……管理主題財(cái)務(wù)管理業(yè)務(wù)條線投資業(yè)務(wù)客客戶戶協(xié)議指標(biāo)……理賠業(yè)務(wù)產(chǎn)品理承保業(yè)務(wù)……管理主題財(cái)務(wù)管理業(yè)務(wù)條線投資業(yè)務(wù)客客戶管理風(fēng)管IT系統(tǒng)IT系統(tǒng)………平臺(tái)大數(shù)據(jù)分析BI層訪問層集成層過程實(shí)現(xiàn)資產(chǎn)客戶報(bào)表/OLAP展現(xiàn)結(jié)構(gòu)(Views)語義模型(Views)維度,層級(jí)etc平臺(tái)大數(shù)據(jù)分析BI層訪問層集成層過程實(shí)現(xiàn)資產(chǎn)客戶報(bào)表/OLAP展現(xiàn)結(jié)構(gòu)(Views)語義模型(Views)維度,層級(jí)etc.(Views)訪問路徑結(jié)構(gòu)(Views)集成層PDM快速實(shí)現(xiàn)價(jià)值分析的靈活性集成的數(shù)據(jù)用戶友好語義層建模Tableu.可重用預(yù)定義的構(gòu)建模塊,松耦合的“訂單裝配方式”易于客戶化.構(gòu)建模塊可以虛擬訪問,減少ETL、數(shù)據(jù)冗余與延遲.基于最佳實(shí)踐的訪問層實(shí)現(xiàn).選擇維度模塊構(gòu)建不同的維度模型.適用于特殊的分析和BI工具.語義模型不面向任何BI工具。構(gòu)建模塊的可變性提供了構(gòu)建的靈活性。.構(gòu)建模塊基于行業(yè)邏輯數(shù)據(jù)模型.構(gòu)建模塊充分保證數(shù)據(jù)的整合和一致性.提供用戶對(duì)數(shù)據(jù)倉庫的簡單方式訪問.降低BI工具語義層的復(fù)雜性,提高整體系統(tǒng)性能MicroStratey核心層建模基于業(yè)務(wù)語義的分析主機(jī)建模D基于業(yè)務(wù)語義的分析主機(jī)建模DimensionReportBusinessRequirementsPrPresentationBuildingBlocksSampleSampleSemanticModelsBuildingBuildingBlocksAccessAccessPathBuildingBlocksCoreCorePDMBigdataOLAPBigdataOLAPConnector>預(yù)計(jì)算:例如Materializedviews(物化視圖)查詢加速>查詢優(yōu)化工具>其它一些索引技術(shù)OLAP擴(kuò)展>嵌入式分析手段…>1~2TB數(shù)據(jù)規(guī)模下,需要POWER780+中高端存儲(chǔ)+大量調(diào)優(yōu)工作才能勉強(qiáng)保證性能>2CPU的PC服務(wù)器,OracleLicense價(jià)格要30~40萬>人工維護(hù)管理成本過高,需要大量的DBAs>數(shù)據(jù)庫管理的復(fù)雜性:分區(qū)、表空間、索引維護(hù)、性能調(diào)優(yōu)…>分析性能低下:盡管提供了一些性能優(yōu)化措施,但仍無法從根本上解決分析查詢性能低下的問題?OLTPDBMS適合做:>OLTP>小型企業(yè)/部門級(jí)分析應(yīng)用或者很小的數(shù)據(jù)量>簡單的查詢分析?傳統(tǒng)的Oracle/DB2/SQLServer并不適合做分析數(shù)據(jù)庫.由于維度太多.由于維度太多,維成員太多,cube太大都有嚴(yán)重性能問題,全局統(tǒng)一視圖被嚴(yán)重割裂,多維分析只是玩具.重復(fù)加工和維護(hù)成本高.僅支持少量靈活查詢分析.挖掘和預(yù)測效率受R或SAS等計(jì)算能力的嚴(yán)重制約,無法實(shí)施大規(guī)模推廣.僅能基于小樣本訓(xùn)練集,預(yù)測準(zhǔn)確性受到影響.僅支持少量用戶挖掘和預(yù)測.通常只能提供T+1的數(shù)據(jù)加載和服務(wù),實(shí)時(shí)數(shù)據(jù)加載和分析服務(wù)能力不足.無法滿足一線運(yùn)營的高并發(fā)和數(shù)據(jù)實(shí)時(shí)查詢分析要求,無法最大程度發(fā)揮平臺(tái)價(jià)值.風(fēng)險(xiǎn)業(yè)務(wù)相關(guān)性分析.客戶活動(dòng)預(yù)測,客戶流失預(yù)測,產(chǎn)品.風(fēng)險(xiǎn)業(yè)務(wù)相關(guān)性分析.客戶活動(dòng)預(yù)測,客戶流失預(yù)測,產(chǎn)品盈利預(yù)測.面向少量管理者的機(jī)器學(xué)習(xí)和預(yù)測.面向大量業(yè)務(wù)人員..面向大量業(yè)務(wù)人員批量計(jì)算.整合層行業(yè)模型批量加工..整合層行業(yè)模型批量加工.業(yè)務(wù)追蹤、監(jiān)管報(bào)表、精算報(bào)表、財(cái)務(wù)報(bào)表等數(shù)據(jù)集市的批量計(jì)算.面向少量管理者的報(bào)表業(yè)務(wù)智能支持.面業(yè)務(wù)智能支持析機(jī)器學(xué)習(xí)和預(yù)測靈活查詢和數(shù)據(jù)分析批量(整合層,統(tǒng)計(jì)報(bào)表).傳統(tǒng)數(shù)據(jù)庫的集群運(yùn)算能力不足.數(shù)據(jù)加載效率受共享存儲(chǔ)(NAS或SAS)吞吐能力的限制.無法存儲(chǔ)多結(jié)構(gòu)和低價(jià)值數(shù)據(jù).海量數(shù)據(jù)初級(jí)提煉工作要基于高價(jià)值MPP進(jìn)行業(yè)務(wù)敏捷性 目錄11保險(xiǎn)業(yè)大數(shù)據(jù)平臺(tái)發(fā)展趨勢22HPE大數(shù)據(jù)平臺(tái)產(chǎn)品方案33HPE大數(shù)據(jù)平臺(tái)典型案例HPEHPE大數(shù)據(jù)平臺(tái)的關(guān)鍵能力指標(biāo)1、性價(jià)比高,支持大規(guī)模擴(kuò)展可部署于廉價(jià)的x86服務(wù)器/私有云/公有1、性價(jià)比高,支持大規(guī)模擴(kuò)展可部署于廉價(jià)的x86服務(wù)器/私有云/公有云/Hadoop,軟件License費(fèi)用可預(yù)期,支持大規(guī)模節(jié)點(diǎn)擴(kuò)展。2、高處理性能能夠勝任大規(guī)模批量計(jì)算/高并發(fā)查詢/極端復(fù)雜的自主分析和查詢.5、具備企業(yè)級(jí)高可用和易管理特性具備完善的部件失效和節(jié)點(diǎn)失效保護(hù)能力,和完善的全增量備份機(jī)制。4、開放性和集成能力可與Kafka/HadoopHive/HDFS/Spark無縫集成,可與R無縫集成,支持各類BI產(chǎn)品和ETL工具.HPE大數(shù)據(jù)平臺(tái)的關(guān)鍵能力指標(biāo)3、高頻數(shù)據(jù)加載和實(shí)時(shí)分析支持秒級(jí)數(shù)據(jù)實(shí)時(shí)加載和秒級(jí)甚至亞秒級(jí)的數(shù)據(jù)查詢響應(yīng)能力Vertica支持多種部署方式,大幅降低硬件成本基于虛擬化環(huán)境部署性.系統(tǒng)規(guī)模可不停機(jī)隨時(shí)擴(kuò)展基基于物理硬件集群的部署.需額外采購低成本的Linux服務(wù)器硬件集群.可擴(kuò)展到所需的集群規(guī)模基基于云和Hadoop部署.部署于私有云環(huán)境.部署于公有云環(huán)境.部署于Hadoop環(huán)境按需使用的特性Cloud8TB8TB8TB專用數(shù)據(jù)網(wǎng)?并行設(shè)計(jì)利用數(shù)據(jù)投影支持分布式存儲(chǔ)和工作負(fù)載?活動(dòng)”冗余?自動(dòng)復(fù)制、故障轉(zhuǎn)移和恢復(fù)?無共享、基于網(wǎng)格的架構(gòu)為商品服務(wù)器群集提供可擴(kuò)展性?添加節(jié)點(diǎn)來實(shí)現(xiàn)最佳容量和性能客戶端網(wǎng)絡(luò)節(jié)點(diǎn)是同級(jí)–無專門的節(jié)點(diǎn)–所有節(jié)點(diǎn)都是同級(jí)–查詢/加載到任何–連續(xù)/實(shí)時(shí)加載和大數(shù)據(jù)平臺(tái)系統(tǒng)的性能主要影響因素.決定一個(gè)大數(shù)據(jù)平臺(tái)綜合性能的主要因素包括:–硬件處理性能CPU的能力,內(nèi)存的大小、網(wǎng)絡(luò)帶寬、存儲(chǔ)介質(zhì)的讀寫性能、磁盤的數(shù)量和轉(zhuǎn)速,主機(jī)和存儲(chǔ)之間的通道帶寬;–數(shù)據(jù)庫軟件性能(1)數(shù)據(jù)庫對(duì)硬件資源的使用、管理、調(diào)度的效率;(2)數(shù)據(jù)庫的并行能力,數(shù)據(jù)庫并行架構(gòu)決定了數(shù)據(jù)分析系統(tǒng)對(duì)硬件資源的利用效率;(3)數(shù)據(jù)庫優(yōu)化器對(duì)海量數(shù)據(jù)處理的能力;(4)數(shù)據(jù)庫的壓縮能力;.磁盤速度從1956年至今僅僅增長了12.5倍,I/O是主要瓶頸CPU利用率Vertica如何保障性能數(shù)據(jù)庫引擎數(shù)據(jù)庫引擎數(shù)據(jù)庫引擎I/O管理I/O管理I/O管理ScanJoinSumSortConverge100%80%60%40%(與CPU平衡)Vertica推薦的IO配置24數(shù)據(jù)庫引擎I/O管理任務(wù)調(diào)度:SQL解析,任務(wù)控制,結(jié)果匯總I/O能力不足20%Vertica數(shù)據(jù)倉庫平臺(tái)的IO能力816增加磁盤數(shù)量/大內(nèi)存/列存儲(chǔ)/列編碼及壓縮/延遲物化優(yōu)點(diǎn):用最廉價(jià)的硬件資源,就可以將CPU用滿CPU利用率Vertica如何保障性能數(shù)據(jù)庫引擎數(shù)據(jù)庫引擎數(shù)據(jù)庫引擎I/O管理I/O管理I/O管理ScanJoinSumSortConverge100%80%60%40%(與CPU平衡)Vertica推薦的IO配置24數(shù)據(jù)庫引擎I/O管理任務(wù)調(diào)度:SQL解析,任務(wù)控制,結(jié)果匯總I/O能力不足20%Vertica數(shù)據(jù)倉庫平臺(tái)的IO能力816增加磁盤數(shù)量/大內(nèi)存/列存儲(chǔ)/列編碼及壓縮/延遲物化優(yōu)點(diǎn):用最廉價(jià)的硬件資源,就可以將CPU用滿Parse讀優(yōu)化存儲(chǔ)(ROS)60.2560.2960.5378.2960.2560.2960.5378.2910,00011,00013,50025,00010,00011,00013讀優(yōu)化存儲(chǔ)(ROS)60.2560.2960.5378.2960.2560.2960.5378.2910,00011,00013,50025,00010,00011,00013,50025,0001/15/2013,21/16/2013,21/15/2013,21/16/2013,2APX,1MSFT,2NFLX,1APX,1MSFT,2NFLX,1APX60.2510,0001/15/2013APX,3MSFT,3NFLX,260.1960.25,260.2960.53,278.29,2NFLX78.2925,0001/16/20137,10010,000,211,00012,50013,50025,000,2MSFT60.5312,5001/15/2013APX60.197,1001/15/20131/15/2013,31/16/2013,1NFLX,125,00060.1960.2560.5378.2910,0007,10012,500APX,2MSFT,1避免修改數(shù)據(jù)文件:?Insert=追加?Delete=標(biāo)記刪除?Update=Delete+Insert60.1960.25,260.2960.53,278.29,21/15/2013,51/16/2013,37,10010,000,211,00012,50013,50025,000,2中?低延時(shí)/少量快速插入APX,3MSFT,3NFLX,2大數(shù)據(jù)量批量加載/修改1/15/2013,51/16/2013,3讀寫分離的混合存儲(chǔ)架構(gòu)數(shù)據(jù)移動(dòng)異步數(shù)據(jù)寫數(shù)據(jù)移動(dòng)異步數(shù)據(jù)寫優(yōu)化存儲(chǔ)(WOS)載/修改?磁盤式?已分段 ?已排序/已壓縮?大量數(shù)據(jù)直接裝載并發(fā)與負(fù)載管理.無主節(jié)點(diǎn)瓶頸!.查詢被自動(dòng)均勻分布到每個(gè)集群節(jié)點(diǎn).并發(fā)能力會(huì)隨著節(jié)點(diǎn)數(shù)的增加而提高.配置資源管理.不同類型的查詢可設(shè)定不同的資源池.限制并保證查詢所需資源icalical.可按每個(gè)資源池設(shè)置優(yōu)先級(jí)別、并發(fā)數(shù)、運(yùn)行時(shí)間和icalical.資源限制可設(shè)置在資源池、用戶或session級(jí)別.實(shí)時(shí)負(fù)載管理TacticalTactical.Kill掉超時(shí)查詢GeneralGeneralAnalyticUser2AnalyticUser1icCLIVerticaKafka插件提交Kafka流式加載–工作原理CLIVerticaKafka插件提交–Vertica調(diào)度程序(vertica-kafka-scheduler.jar)負(fù)責(zé)組織協(xié)調(diào)從Kafka持續(xù)加載數(shù)據(jù)流資源–可針對(duì)多個(gè)表/主題進(jìn)行配置和調(diào)度–批次隨新偏移值記錄自動(dòng)提交–Vertica可處理JSON、Avro等數(shù)據(jù)格式–數(shù)據(jù)庫內(nèi)監(jiān)控–VerticaKafkaExport插件負(fù)責(zé)將SQL查詢結(jié)果導(dǎo)出到Kafka調(diào)調(diào)度程序組件vertica-kafka-scheduler.jarKafkaKafkaVerticaKafkaKafkaKafkaVerticaKafkaVerticaProducer<-SelectKafkaExportKafka插件Kafka底Kafka插件Kafka底層插件Consumer->CopyKafkaSource插入Vertica中的插入Vertica中的數(shù)據(jù)KafkaData@OffsetX新偏移值微批量(μB)HBaseVertica與Hadoop的數(shù)據(jù)交換HBase.通過Connector和externaltable訪問HDFS中的數(shù)據(jù).通過Connector加載Hadoop原始數(shù)據(jù)類型到Vertica.通過Hcatalog訪問Hive中的對(duì)象.直接將Vertica數(shù)據(jù)文件放入HDFS中僅MapR支持.充分利用到Vertica的SQL語句分析能力.VerticaFlexZone–為簡單數(shù)據(jù)加載自動(dòng)schema化–靈活的解析JSON、XML與分割格式數(shù)據(jù)–快速的半結(jié)構(gòu)化SQL查詢normalize提升性能VerticaVertica?原生SQL高級(jí)分析算法?Statisticalfunctions(統(tǒng)計(jì)分析)?Timeseriesgapfilingandinterpolation(時(shí)序插值、聚合和關(guān)聯(lián))?Event-basedwindowfunctionsandsessionization(事件窗口功能及點(diǎn)擊流分析)?Patternmatching(模式匹配,用戶行為分析)?Geospatialfunctions(地理分析)?……?R分布式計(jì)算擴(kuò)展,并與Vertica無縫集成?K-MeansClustering(K-Means聚類,基于地理位置和購買方式等細(xì)分客戶)?PageRank(佩奇排名,識(shí)別有影響力的客戶)?K-NearestNeighborClassification(K-最近鄰分類)?Na?veBayesClassification(樸素貝葉斯分類)?ClassificationandRegressionTrees(分類與回歸樹)?……C2B2C2B2A2A333A1B2B1C1C2A2C3C1A1B1B3A3.數(shù)據(jù)庫中類似RAID的功能.投影有理有序,因此當(dāng)某節(jié)點(diǎn)出現(xiàn)故障時(shí),某個(gè)幸存節(jié)點(diǎn)上還會(huì)提供一份副本.按照不同的排序順序自動(dòng)存儲(chǔ)冗余數(shù)據(jù)集以提高查詢性能.永續(xù)在線查詢和加載.無需手動(dòng)進(jìn)行基于日志的恢復(fù).節(jié)點(diǎn)中斷時(shí),系統(tǒng)繼續(xù)加載和查詢.通過查詢其他節(jié)點(diǎn)來恢復(fù)缺失數(shù)據(jù)Vertica管理控制臺(tái).通過一個(gè)統(tǒng)一web界面管理多個(gè)集群.實(shí)時(shí)監(jiān)控?cái)?shù)據(jù)庫活動(dòng)事物和集群狀態(tài).對(duì)比關(guān)聯(lián)系統(tǒng)和數(shù)據(jù)庫的活動(dòng)BBrowserAccessVerticaManagementConsoleCluster1Cluster2Cluster3HPEVertica第三方環(huán)境和產(chǎn)品的集成能力HPEVertica高性能的聯(lián)合承諾:Smartbi與HPEVertica達(dá)成戰(zhàn)略合作?大數(shù)據(jù)自助分析?AI探索分析?風(fēng)險(xiǎn)控制?機(jī)器學(xué)習(xí)移動(dòng)協(xié)同探索分析人工智能Smartbi大數(shù)據(jù)分析產(chǎn)品(InsightV7已發(fā)布)移動(dòng)協(xié)同探索分析人工智能報(bào)報(bào)表報(bào)告數(shù)數(shù)據(jù)可視化SmartbiInsight定位于前端數(shù)據(jù)分析工具,可以滿足各種數(shù)據(jù)分析應(yīng)用需求,如大數(shù)據(jù)分析、自助分析、地圖分析、指揮大屏幕、企業(yè)報(bào)表平臺(tái)等等。SmartbiInsight數(shù)據(jù)分析全能王支持復(fù)雜查詢、能根據(jù)數(shù)據(jù)分布特性和集群物理資源情況選擇最廉價(jià)執(zhí)行路徑列存儲(chǔ)/超過12壓縮算法,基表掃描性能提升1到2個(gè)數(shù)量級(jí)硬件成本低,可通過廉價(jià)硬件升級(jí)或置換方式,大幅提升MPP系統(tǒng)的整體計(jì)算性能.成熟的數(shù)據(jù)庫智能優(yōu)化器HPEVertica8.0列式存儲(chǔ)/列壓縮廉價(jià)X86服務(wù)器部署支持HDFS作為Vertica數(shù)據(jù)存儲(chǔ),HadoopConnector,SparkConnector,KafkaConnector支持將R,SAS或自定義統(tǒng)計(jì)學(xué)算法下沉到Vertica支持復(fù)雜查詢、能根據(jù)數(shù)據(jù)分布特性和集群物理資源情況選擇最廉價(jià)執(zhí)行路徑列存儲(chǔ)/超過12壓縮算法,基表掃描性能提升1到2個(gè)數(shù)量級(jí)硬件成本低,可通過廉價(jià)硬件升級(jí)或置換方式,大幅提升MPP系統(tǒng)的整體計(jì)算性能.成熟的數(shù)據(jù)庫智能優(yōu)化器HPEVertica8.0列式存儲(chǔ)/列壓縮廉價(jià)X86服務(wù)器部署支持HDFS作為Vertica數(shù)據(jù)存儲(chǔ),HadoopConnector,SparkConnector,KafkaConnector支持將R,SAS或自定義統(tǒng)計(jì)學(xué)算法下沉到Vertica分布式環(huán)境運(yùn)行,為數(shù)據(jù)挖掘應(yīng)用提供高性能支持.Hadoop/Spark/庫內(nèi)分析支持kafka支持企業(yè)級(jí)負(fù)載管理能力時(shí)序分析支持使用資源池管理不同負(fù)載,能夠按管理不同負(fù)載的CPU,內(nèi)存,優(yōu)先級(jí)支持按時(shí)序,路徑分析行為模式,以發(fā)現(xiàn)業(yè)務(wù)中斷的原因,貸款違約風(fēng)險(xiǎn)模式等.地理分析支持支持按地理區(qū)域進(jìn)行全方位多角度業(yè)務(wù)分析IBMPureDataHortonWorks優(yōu)化器不完善/SQL特性不完整/第三方工具支持不好開發(fā)人員要求高,開發(fā)維護(hù)成本很高.高成本專有硬件決定了不菲產(chǎn)品價(jià)格.價(jià)格不菲且隨硬件淘汰而失效的軟件許可.硬件快速發(fā)展不可避免地引發(fā)了的產(chǎn)品頻繁換代兼容性問題,帶來高昂重復(fù)采購成本.通常不支持單獨(dú)升級(jí)硬件以提升系統(tǒng)計(jì)算能力新一代MPP數(shù)據(jù)庫...主流大數(shù)據(jù)整合平臺(tái)核心優(yōu)勢主要不足Teradata傳統(tǒng)MPP數(shù)據(jù)庫OracleExadata.軟硬件一體架構(gòu),開箱即用/運(yùn)維簡單.優(yōu)化器完善/SQL特性完整/第三方工具支持好...采用廉價(jià)X86服務(wù)器,硬件成本低適用于非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)和初級(jí)提煉沒有軟件License費(fèi)用,只需按年支付MA費(fèi)用..HADOOP.目前客戶接受度還沒有傳統(tǒng)MPP數(shù)據(jù)庫高優(yōu)化器完善/SQL特性完整/第三方工具支持好采用廉價(jià)X86服務(wù)器,產(chǎn)品性價(jià)比高可通過少量投資的硬件升級(jí)或置換方式,大幅提升MPP系統(tǒng)的整體計(jì)算能力 目錄1保險(xiǎn)業(yè)大數(shù)據(jù)平臺(tái)發(fā)展趨勢2HPE大數(shù)據(jù)平臺(tái)產(chǎn)品方案HPE大數(shù)據(jù)平臺(tái)典型案例月度活躍用戶人數(shù)25億內(nèi)容分享3億照片月度活躍用戶人數(shù)25億內(nèi)容分享3億照片“贊”5新增數(shù)據(jù)億FacebookEDW系統(tǒng)的定位.原有基于Hive的EDW只有50TB(包括人力資源,計(jì)費(fèi)等集市,以及為提高性能和保證廣告時(shí)效而建立的若干TB級(jí)匯總表.計(jì)劃利用10-100PB詳細(xì)數(shù)據(jù)分析用戶行為,從而實(shí)施有針對(duì)性的廣告定位.實(shí)現(xiàn)精確的營收分析,用戶行為分析和廣告效率分析.實(shí)現(xiàn)實(shí)時(shí)精準(zhǔn)營銷分析.經(jīng)過大量對(duì)比工作,F(xiàn)acebook認(rèn)為開源SQL-on-Hadoop落后商用MPP產(chǎn)品2-4年Giraph用戶關(guān)系分析其它Scuba內(nèi)存實(shí)時(shí)分析Giraph用戶關(guān)系分析其它Scuba內(nèi)存實(shí)時(shí)分析流處理平.營臺(tái)收分析–不同地理區(qū)與產(chǎn)品需求分析.精準(zhǔn)營銷預(yù)測模型.營收分析–進(jìn)行時(shí)間序列分析,精細(xì)分析各產(chǎn)品的營銷.時(shí)間段的用戶行為分析–一年期間的用戶行為變化選擇MPP的原因.日益增長的分析需求.Map/Reduce(Hive)太慢,而且大多數(shù)分析需求安全性無法保證.In-memory技術(shù)太貴而且不成熟.傳統(tǒng)的DW但容量太小(100TB,不到Hive的0.1%,需要3-5PB)/太貴.需要一個(gè)大型的MPP數(shù)據(jù)庫?有更多分析的功能?能保證數(shù)據(jù)安全?能提供系統(tǒng)的穩(wěn)定性?能通過深度分析數(shù)據(jù)來提升收入、產(chǎn)生新產(chǎn)品(這些現(xiàn)有平臺(tái)無法實(shí)現(xiàn)).每天60萬個(gè)M/RJobs.每天5萬個(gè)InformaticaJobs 15mins移動(dòng)終端定時(shí)任務(wù)調(diào)度表HourlyLogsLogsHadoop/HDFS2個(gè)超大規(guī)模Hadoop集群.1.7ExaBytes數(shù)據(jù) 距離60KM.15000節(jié)點(diǎn).40000節(jié)點(diǎn)桌面設(shè)備.硬件采用FB自己的PC.每天60萬個(gè)M/RJobs.每天5萬個(gè)InformaticaJobs 15mins移動(dòng)終端定時(shí)任務(wù)調(diào)度表HourlyLogsLogsHadoop/HDFS2個(gè)超大規(guī)模Hadoop集群.1.7ExaBytes數(shù)據(jù) 距離60KM.15000節(jié)點(diǎn).40000節(jié)點(diǎn)桌面設(shè)備.硬件采用FB自己的PCServers?OpenComputePr

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論