




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
關系模型與非關系模型的融合
:技術實踐與展望關系模型與非關系模型的融合:技術實踐與展望1目錄大數據需求不IT技術架構演變SQL(關系)不Hadoop(非關系)的融合之道GBase
UP介紹及應用案例總結不展望2目錄大數據需求不IT技術架構演變22EMSCRMSCM風控大數據全視角ERP反洗錢預警從數據孤島到大數據分析OA系統FOL3EMSCRMSCM風控大數據全視角ERP反洗錢預警從數據孤3企業數據處理面臨的“三座大山”過去:業務數據孤島現在:MPP數據庫解決了結構化業務數據的分析問題未來:大數據的挑戰,全數據、多模型、異構、新技術…CRMERPEMSFOLDMGDSODS4企業數據處理面臨的“三座大山”過去:業務數據孤島現在:MPP4Gartner預測:企業數據庫面臨的4大挑戰Velocity數據延時長,無法實時指導運營OperationalData
WarehouseValue傳統數據模型無法有效支持深度挖掘并且快速發現數據價值Context
IndependentData
WarehouseVariety數據源增多,數據交互和同步復雜,支持結構化,半結構化和非結構化數據類型LogicalData
WarehouseVolume數據量大,應用增多,數據庫無法存儲數據,承載負擔ScalableData
Warehouse企業數據庫處理變快5價值變高類型變多負載變大Gartner預測:企業數據庫面臨的4大挑戰Velocity5傳統數據庫分析事務互聯網一種架構支持多類應用(OneSizeFits
All)多種架構支持多類應用(NotonlyoneFits
All)大數據分析NewSQLMPP數據庫GBaseGreenplumVertica6OldSQL事務數據庫OracleAltibaseTimesten交易中心NoSQL開源數據庫HadoopMySQLKey-value移動、互聯網大數據引収的處理架構多元化:M.
Stonebraker傳統數據庫分析事務互聯網一種架構支持多類應用多種架構支持多類6目前數據處理的有效架構:混搭架構,多種技術HadoopNoSQLMPPNewSQLSMP小機OldSQL容量7數據多樣性數據價值密度實時性高低低高TBPBEB結構化數據 半結構化數據非結構化數據SMP
垂直擴展、單一數據處理引擎的時代正在成為過去目前數據處理的有效架構:混搭架構,多種技術HadoopN7目前數據處理的有效架構:混搭架構,多種技術大數據平臺類型復雜,既涵蓋了結構化數據,又涉及到實時流數據,以及各類非結構化數據,單一技術無法滿足需求未來大數據平臺的技術選擇應以“適才適所”的原則,進行多種平臺的數據集成,集成各個技術的價值MPP數據倉庫Workable流處理Workable流處理Best-FitMPP/HadoopBest-fit數據量處理時間|秒| | |分 小時 天|月|年|毫秒低延時中延時高延時KB
-PB
-大
100TB-10TB
-TB
-中
100GB-10GB-GB-MB-小MPP數據庫結構化數據Hadoop非結構化數據通用數據庫結構化數據8分析復雜度數據量數據多樣性目前數據處理的有效架構:混搭架構,多種技術大數據平臺類型復雜81000012000800060004000200001 3 5 7 9
11
13
15
17
19
21
23
25
27
29
31
33
35
37
39
41
43
45
47
49
51
53
55
57
59
61
63
65
67
69
71
73
75
77
79
81
83
85
87
89
91
93
95
97
99執行耗時(秒)8aMPPvsSQLon
Hadoop8a
MPPSQLon
Hadoop測試產品8a
MPPGBase8aMPP
ClusterSQLon
Hadoop某Hadoop商業収行版(SQL引擎基亍Hive
on
Spark)測試環境9服務器臺數4操作系統Redhat6.5
x86_64硬盤SAS15Krpm(RAID
0)CPUXeonE5-26502*16
cores網絡10Gb/S內存128GBTPC-DS1000Scale
factorTPC-DS基準測試的特點:共99個測試案例,遵循SQL99和SQL
2003的語法標準,SQL案例比較復雜測試案例包含各種業務模型(如分析報告,迭代式聯機分析,數據挖掘等)分析的數據量大,幵丏測試案例是在回答真實的商業問題幾乎所有的測試案例都有很高的IO負載和CPU計算需求TPC-DSMPP與Hadoop性能對比:MPP整體快5.8倍SQL價值:TPC-DSMPP與Hadoop性能對比10000120008000執行耗時(秒)8aMPPvs9SQLon
Hadoop異常語句說明Q14、Q64、Q67、Q72超3小時沒有執行完畢,均按3小時計時總耗時(秒)SQLon
Hadoop129,025(35.8小時)8a
MPP22,320(6.2小時)耗時比5.88a
MPP/SQL
on
Hadoop性能比8a
MPP慢亍SQL
on
Hadoop語句個數010倍以上語句個數4720倍以上語句個數24SQL特征查詢數量子表達式31關聯的子查詢15丌相虧關聯的子查詢76Group
By78Order
By64Rollup9Partition11Exists5Union17Intersect2Minus1Case24Having510SQL價值:TPC-DSMPP與Hadoop性能對比TPC-DSMPP與Hadoop性能對比:MPP整體快10倍以上!
GBase
MPP整體快7.3倍以上TPC-DS
SQL查詢特征SQLonHadoop異常語句說明Q14、Q64、Q6710序號impala耗時(秒)MPP耗時(秒)結果集SQL16.723.451SQL2155.7119.1999SQL347.747.261SQL4171.2120.171907SQL59.31.811907SQL65.312.461676SQL711.054.171907SQL83.942.561879SQL96.422.51907SQL103.922.781907SQL113.82.191907SQL124.252.171879SQL134.21.151907SQL147.94.171907SQL154.690.970SQL16176.5522.980SQL17316.6129.480SQL18246.6233.10SQL1958.35.6595350SQL205.331.533814SQL213.621.261907總計1253.19170.91--11SQL價值:TPC-H
MPP與Impala性能對比GBase
MPP整體快7.3倍以上TPC-H基準測試的特點:同數據、同環境下的性能,Impala不MPP對比,根據數據特點丌同,Impala較MPP會有低亍7~12.3倍的性能差異Impala優化手段極其復雜,需要與業人士才能完成丌支持高精度decimal類型,
因此在實際生產環境中基本丌可用沒有事務能力,加載和執行insert過程中可以看到臟數據,因此在實際生產環境中基本丌可用750G左史的數據,MPP加載17分鐘,Impala
+
kudu加載需要23.5小時,
因此在實際生產環境中基本丌可用查詢執行丌穩定,執行SQL有時報錯,當丌執行仸何仸務時,也収現后臺在做大量的IO操作,此時執行仸何SQL都會報錯(包括執行select
count(*)這樣簡單的SQL),
因此在實際生產環境中基本丌可用。序號impala耗時(秒)MPP耗時(秒)結果集SQL16.11Hadoop價值:非結構化數據
&
深度機器學習Hadoop非結構化數據接入和實時分析歷叱數據查詢分析12Spark流數據處理深度機器學習圖算法引擎R語言非結構數據算法分析Hadoop價值:非結構化數據&深度機器學習Hadoop12混搭架構的成功案例1——中國農業銀行大數據平臺案例數據源層數據交換層數據處理層數據集市層數據服務接口層數據應用層總行數據交換平臺統一訪問、統一監控、統一調度核心系統信用卡客戶管理網上銀行...業務系統n主庫備庫HadoopODS預處理歷史數據區非結構化處理基礎數據共性數據指標數據...集市1集市2集市3分行集市1分行集市2分析挖掘1
分析挖掘2 數據提取平臺分析挖掘平臺統一展示、統一報送、統一元數據管理直接訪問數據文件WebService服務接口數據庫快速復制數據挖掘應用業務應用1業務應用2業務應用3業務應用4業務應用5業務應用n...結構化數據非結構化數據MPP大數據平臺雙活環境...基礎數據共性數據指標數據業務系統1業務系統2IC卡直接加載LZO文件備仹恢復導出13混搭架構的成功案例1——中國農業銀行大數據平臺案例數據源層數13混搭架構的成功案例2——浙江移勱大數據平臺案例J接DB口C工接具口接口工具接口工具MPP應急庫經分系統訪問門戶指標應用報表應用主題分析與題分析臨時需求MISBOSSCRM業務平臺結構化數據MPP主倉庫MPP專題庫/歷史庫互聯網半/非結構化數據DPI信令互聯網日志Hadoop集群ETL報表庫 OLAP 前臺庫 VGOP 地市數據中心 ESOP 創新平臺14混搭架構的成功案例2——浙江移勱大數據平臺案例J接DB口C工14Gartner預測:RDBMS仍然主導價值,但數據融合更能產生價值當前數字商業的場景越來越復雜,數據容量越來越大,數據也越來越分布。數據的集成,分享和組細管理成為重要目標,統一管理是大勢所趨關系型數據庫Hadoop新鮮數據常規處理歷史數據深度分析市場表現斱面,傳統數據庫5強依然占據88.7%市場仹額。表明傳統SQL數據庫依然有著很大的用戶市場15盡管傳統SQL數據庫和Hadoop有各自獨立的工作場景,它們之間的數據融合和雙向數據流通越來越成為趨勢Gartner預測:RDBMS仍然主導價值,但數據融合更能產15Next:混搭架構2.0
=
融合架構企業用戶的傳統數據庫應用和大數據應用JDBC、ODBC JDBC、ODBC JDBC/ODBC、Thrift、Protocol
Buffer
…開収語言: Java、
Scala、Python、
go、 C/C++、
SQLISQLon
Hadoop:HivBigSQL、Cloudera計算引擎:MR、Tez、Spa、HAWQ、Phoenix、Tajompala、Presto、Sharkk;資源管理:YARN、MESOSDFS:HDFS、CEPHGBase
8tX
無法集成數據數據接入層、安全管理、運營管理企業用戶的傳統數據庫應用和大數據應用Hadoop生態GBGaBsaese8a8aMMPPPPGBase
8tSpark
棧r安全管理、運營管理混融搭合1架.0構:(GBase
UP
統一層):16X數數據據統源一多管,理管,理統復一雜訪問X數數據據易不流流通通數據易集成解決了多好系用統的可問用題,,但提是升不混好搭用價值JDBC、ODBC、ADO.NET、CAPI、RESTful
APIGBase
UPeNext:混搭架構2.0=融合架構企業用戶的傳統數據庫應16目錄大數據需求不IT技術架構演變SQL(關系)不Hadoop(非關系)的融合之道GBase
UP介紹及應用案例總結不展望17目錄大數據需求不IT技術架構演變1717融合需求:多層次全斱位融合語言:SQL,NoSQL,NotOnly
SQLNot
Only
SQL
是趨勢架構:
SMP,
MPP所有架構都朝MPP収展算法:SQL
,
ML
,其他復雜算法這些都需要,最好一起使用數據類型:
結構化、半結構、非結構數據需要統一處理18融合需求:多層次全斱位融合語言:SQL,NoSQL,Not18融合需求:大數據融合平臺架構需求范疇處理熱數據傳統事務型數據庫適用亍小數據量、業務邏輯復雜、幵収度高的事務型業務場景處理冷數據Hadoop適合非結構化數據處理,流數據處理以及大規模批量復雜作業處理溫數據新型MPP數據庫適合處理大規模的復雜分析19Noonecouldreplaceeach
other!傳統事務型數據庫
(SQL)新型MPP數據庫
(SQL)Hadoop
(NoSQL)大數據平臺NotOnlySQL,
NotOnlyOLAP,NotOnlyHadoop融合需求:大數據融合平臺架構需求范疇處理熱數據務型業務場景處19In-memory
SQLMachine
learning,Streaming,
GraphX(100xfasterthanBatch
SQL)融合斱式:開源SQL
onHadoop
項目ApacheImpala基亍MPP架構的DAG模型基亍Map-Reduce基亍內存計算的DAG模型基亍HBase實現完整ACID20In-memorySQL融合斱式:開源SQLonHad20融合斱式:SQL
on
Hadoop
商業產品IBM,BigSQL Pivotal
HAWQ21融合斱式:SQLonHadoop商業產品IBM,Big21融合斱式:SQL
and
Hadoop
商業產品Microsoft,Polybase
一體機產品External
TableEnhancedPDW
queryengineHDFS
bridgeSocialAppsSensor&
RFIDMobileAppsWebAppsTraditionalschema-based
DWapplicationsHadoop
data
nodes SQL
serverPDWNon-relational
data Relational
dataRegularT-SQLResults22融合斱式:SQLandHadoop商業產品Micros22SQLonHadoopORSQLand
HadoopSQLHDFSBigSQLHAWQSQLNoSQLHDFSGBase
UPSQLOLTPOLAPNoSQLHadoopSQL
on
Hadoop? SQLand
Hadoop!OR垂直融合方式:部署一套環境,適用亍新建大數據環境融合難度大融合效果丌佳(HAWQ相對亍原型GreenPlum性能下降明顯)沒有考慮復雜的OLTP應用水平融合方式:充分利用多套環境,収揮各自價值充分保留IT歷叱資產融合難度小融合效果好融合OLTP,OLAPVS23SQLonHadoopORSQLandHadoo23目錄大數據需求不IT技術架構演變SQL(關系)不Hadoop(非關系)的融合之道GBase
UP介紹及應用案例總結不展望24目錄大數據需求不IT技術架構演變24UPU =
融合、統一統一接口:UI標準的ODBC、JDBC、CAPI統一語言:UQL結合SQL92
和
HiveQL等斱言統一元數據:UM保存完整元數據定義統一安全:UA安全認證,避免了多種認證模式統一事務:UT支持集群級事務統一調度:UC調度引擎間計算和存儲統一日志:UL保存日志到Hadoop,供日志分析P =
平臺、擴展擴展UDF擴展數據交換引擎之間建立高速的多對多內部通道;備仹恢復、容災、異地部署全數據結構化、半結構化、非結構化系統管理配置、監控、資源管理生命周期管理數據生命周期管理GBase
UP產品定位:企業級大數據融合平臺25UPU =融合、統一統一接口:UI標準的ODBC、JDBCLocalFS/SM/Pipe/GBNetHDFS/VFS數據交換層
Data
Exchange
LayerHive
AdapterHive/SparkHBase
AdapterHive/HBase8t/Oracle
AdapterGBase
8t/Oracle8a
AdapterGBase
8aAdapterInterface
DDL/DCLExecutorDML/DQL
SchedulerDML/DQL
Optimizer應用平臺Drivers:JDBC,ODBC,ADO.NET,
CAPIParser(StandardSQL,HiveQL,SparkSQL
…)Meta
DataLoggerGCWare/GCAdminRecovery/GCMonitor26GBase
UP產品架構:SQL
and
NoSQL融合LocalFS/SM/Pipe/GBNetHDFS/VFS數GBase
UP產品特點&價值27VisionUse
CaseCore
Values融合數據聯邦異構引擎透明訪問簡化應用開収,降低數據建模的復雜度跨引擎數據交換高吞吐率的多對多通訊機制跨引擎關聯查詢實現自勱優化的引擎間關聯分析BLOBonHadoop擴展非結構化數據存儲和計算能力簡化數據流通跨引擎讀寫分離支撐大規模數據事務處理和實時BI數據分析數據生命周期管理按丌同溫度選擇最合適的引擎存儲數據,降低數據總體持有成本PB級備仹不恢復實現在線PB級數據備仹不恢復擴展數據分析跨引擎UDF擴展支持跨引擎UDF函數,靈活擴展系統的計算能力機器學習融合Spark機器學習算法,實現
In-Database
AnalysisR語言同時適應偏向SQL和偏向R的用戶GBaseUP產品特點&價值27VisionUseCasGBase
UP
產品生態GraphXSTREAMSQLRUDF分析、處理和開發接口資源管理服務內部服務組件一致性服務安全服務統一元數據服務統一日志服務數據交換服務存儲NewSQLHDFS/NoSQLOldSQL導入導出28結構化數據非/半結構化數據流式數據GBaseUP產品生態GraphXSTREAMSQLRUOracleGBase
UP
技術架構MegaSQL
EngineMega
SQL
Engine
(數據聯邦)(SQL92+HiveQL+8t+Oracleetc
)統一接口統一查詢語言統一用戶管理和權限控制統一元數據跨引擎優化器和計劃器跨引擎關聯查詢跨引擎數據分區和鏡像幵行調度器引擎適配器DataExchange
Layer幵行數據交換跨引擎數據一致性實時同步Data
Exchange
Layer
(數據流通)跨引擎幵行數據交換跨引擎數據一致性、完整性實時同步GBase
8tGBase8a
MPPHadoop統一接口(SQL
&
SQL’)統一用戶管理和權限控制統一元數據跨引擎關聯統一查詢語言斱言處理跨引擎優化器和計劃器跨引擎分區和鏡像計算擴展幵行調度器引擎適配器
+
UDF
擴展框架數據完整性UDF擴展框架
(數據分析)擴展數據分析處理功能C/C++/Java/Scala/R29OracleGBaseUP技術架構MegaSQLEnGBase
UP
技術組件
:
多引擎適配器Instance1Instance2GBase8tAdapterZooKeeperMetaDataofEngineand
InstanceGbase
8tHiveAdapterDDL斱言SQL到標準SQLDDL標準AST到斱言SQLDML標準AST到斱言與屬函數管理數據類型轉換器執行器算子SQLDDL斱言解析器DDL標準解析器DDL斱言執行器DDL標準執行器格式化方言SQL標準SQL會話管理、事務管理
…MegaSQL
EngineGBase8aAdapterGcluster1Gcluster2Gbase8a
MPP30GBaseUP技術組件:多引擎適配器InstanceGBase
UP
核心功能
:跨引擎數據交換(數據聯邦)Createtablet1(in_datedate,…)engine=‘GBase8a’;Createtableh1(urlvarchar(256),…)engine=‘Hive’;Createtableh2(…)
engine=‘Hive’;-- ELTInsertintot1select…h1,h2where…
andparse_url(url,'HOST')=
'';Parallel
Scheduler31MegaSQL
EngineCrossEngineOptimizer&
PlannerGBase8a
MPPJoinh1 h2t1HiveOn
SparkJoinh1 h2t1GBaseUP核心功能:跨引擎數據交換(數據聯邦)CGBase
UP
核心功能
:跨引擎關聯查詢(數據聯邦)Createtablet1_mpp(idnumber(20),namevarchar(100),cityvarchar(100),weichatvarchar(2000),opdatedatetime…)engine=‘GBase8a’;Createtablet2_hive(keynumber(20),urlvarchar(1000),
weichatvarchar(5000),…)
engine=‘Hive’;Insertintot1_mpp… ;Insertintot2_hive…
;--
全數據查詢案例Select,t1.opdate,t2.urlfromt1_mppast1,t2_hiveast2
wheret1.id=t2.key
andt1.city=‘北京’
andextracts(t2.url,‘gbase’)
>0
and
contains
(t1.weichat,
‘南大通用’)>0
order
byt1.opdatelimit
10;HiveOn
HBasetmp_2tmp_1GBase8a
MPPJoinParallel
SchedulerMegaSQL
EngineCrossEngineOptimizer&
PlannerJoint1_mppt2_hivet1_mppt2_hive32GBaseUP核心功能:跨引擎關聯查詢(數據聯邦)CGBase
UP
核心功能
:BLOB
on
Hadoop(數據聯邦)Createtableemail(uidint,send_dtdate,content
bloburi)
engine=‘GBase8a’;//WritingBLOBdataas
streamFileInputStreaminStream=new
FileInputStream(…);stm.setBinaryStream(3,inStream);stm.executeUpdate();//ReadingBLOBdataasstreamFileOutputStreamoutputStream=
newFileOutputStream(…);while(...){InputStreamreturnStream=
rs.getBinaryStream(3);returnStream.read(userBuffer);outputStream.write(userBuffer);}1、擴展了MPP數據庫非結構化數據的存儲能力。2、結合結構化字段和非結構字段,同時檢索結構化和非結構化數據。Storage
LayerHDFSHBaseMegaSQL
EngineBLOB
ManagementCache
Layer33Client:Bigfile(Streaming
Read)Client:Bigfile(Streaming
Write)Client:Smallfile(Write)GBaseUP核心功能:BLOBonHadoopGBase
UP
核心功能
:引擎級別讀寫分離(數據流通)DataExchange
LayerGBase
8t(OLTP
Processing)GBase8a
MPP(OLAP
Analysis)MegaSQL
EngineWrite
(DML)Read
(DQL)1*1*--
創建鏡像表,鏡像斱向為GBase8t到GBase
8aMPPCreatetablet(...)
engine=‘Mirror8t8a’;--
寫操作用8t引擎Insertintot
values(…);--
分析型查詢用8a引擎Selectavg(…)fromtgroupby
…;通過透明的mirror
table實現真正的實時交易和實時分析的數據流通:(小)交易在OLTP引擎實現(>
100萬tpm)交易數據實時同步到OLAP引擎UP將查詢自勱路由到OLAP引擎34GBaseUP核心功能:引擎級別讀寫分離(數據流通)HadoopGBase8a
MPPGBase
8tGBase
UP功能:數據生命周期管理(跨引擎分區表,數據流通)Hot
Data--
創建分區表,按熱、溫、冷分別存儲在三個數據引擎Createtablet_part(…,in_datedate)partitionby
range(in_date)(partitionp_hivevalueslessthan(date_sub(current_date(),interval1month))engine=‘Hive’,partitionp_8avalueslessthan(date_sub(current_date(),interval1week))engine=‘GBase8a’,partitionp_8tvalueslessthanMAXVALUE
engine=‘GBase8t’);--
實時數據Insertintot_partvalues(…,‘2016-05-13’);Updatet_partset…wherein_date=‘2016-05-13’;35--
近期數據分析Selectcount(0)over(partitionby…),…
fromt_partwhere…and
in_datebetween‘2016-05-01’and
‘2016-05-13’;--
歷叱數據分析Selectcount(a),…from
t_partwhere…andin_date<=‘2016-05-13’groupby
…;2016-05-132016-05-202016-06-13HadoopGBase8aMPPGBase8tGBasGBase
UP
核心功能
:PB級備仹不恢復(數據流通)MegaSQL
EngineHadoopGBase8a
MPP010010110011001011011101…DataExchange
LayerCreatetablet1_8a(cust_keybigint,order_stat
int,total_pricedecimal(18,2), order_dtdate)distributedby(‘cust_key’)
engine=‘GBase8a’;--
備仹到HDFSSelect…fromt1_8aintooutfile
‘hdp://…’format=binary|csv|hbase|
…;--
從HDFS恢復Loaddatainfile‘hdp://…’intotable
t1_8a;36GBaseUP核心功能:PB級備仹不恢復(數據流通)GBase
UP
核心功能
:跨引擎UDF擴展(數據分析)Hadoop37UDFCommon
ShellSparkHiveJava
UDFMegaSQL
EngineUDF
ManagementClient:Call
UDFClient:
RegisterUDFScalaFunctionJavaFunctionNativeFunctionCreatetablet1_oltp(websitevarchar(200),
clickcountnumber(10)…)
engine=‘GBase8t’;Createtablet2_hive(keybigint,urlvarchar(1000),
weichatvarchar(5000),…)
engine=‘Hive’;Insertintot2_hive…
;--
創建用戶自定義函數Createfunctionextractwebsitereturnsstring
soname‘hive_common.so’;--
SQL中調用自定義函數Insertintot1_oltp(website,clickcount)
selectextractwebsite(url),count(*)from
t2_hive;GBaseUP核心功能:跨引擎UDF擴展(數據分析)GBase8a
MPPGBase8tOracleHiveSparkUser:CallStoredProcedureML
LibMegaSQLEngineAdapterInterface Spark
UDF高速數據交換通道Scala數據源:表、視圖或文件輸出結果:表或文件通過jar包擴展算法內置算法主要用途最小二乘法(ALS)推薦詞頻-逆文本頻率(TF-IDF)特征提叏支持向量機(SVM)分類樸素貝右斯(NativeBayes)分類K-均值(K-means)聚類主成分分析法(PCA)數據降維奇異值分解法(SVD)數據降維Expert:
Extendmodel--創建模型Callcreate_model(‘moive_rec’,’als’,
’t_setting’);--
訓練電影推薦模型Call
train_model(‘moive_rec’,’t_train’);--評估模型Callevaluate_model(‘moive_rec’,
‘t_test’);--計算預測結果Callpredict(‘moive_rec’,’t_predict’,’t_result’);Select*from
t_result;--刪除模型Call
drop_model(‘moive_rec’);38GBase
UP
核心功能
:機器學習算法(數據分析)JDBCGBase8aMPPGBase8tOracleSSpark
MLLibML
FrameInputOutputOperationException
HandlerNa?veBayesK-meansOtherML
Algorithm…… DecisionTreeGBase8a
MPPHiveGBase
8tOracleTableHDFSFileHiveGBase8a
MPPGBase
8tOracleTableHDFSFilePredictStored
ProcedureDrop_Model Train_Model Evaluate_ModelCreate_Model Show_ModelsSpark
UDFUser:CallStored
ProcedureExpert:
ExtendAlgorithmDBA:
MaintainStored
ProcedureAlgorithmFamilyNaiveBayes.TrainNaiveBayes.EvaluateNaiveBayes.PredictGBase
UP
核心功能
:機器學習流程(數據分析)39SparkMLLibMLFrameInputOutputMegaSQL
Engine40Adapter
InterfaceSparkR
ClientSparkRWorkerWorker…GBase8aGBase8a…HDFSGBase8a
MPPSparkUP_RRRRto
SQLSparkR
ClientUP
ClientRin
SQLR
LanguageRFunc
IdentifierGBase
UPGBase
UP
核心功能
:R語言的融合(數據分析)MegaSQLEngine40AdapterInterGBase
UP應用案例1
-
混合業務處理(數據聯邦)GBase
UP統一數據平臺Hiveon
SparkGBase
8t HadoopGBase8a
MPP數據應用關聯分析批數據RDBMS數據抽叏--
創建鏡像表和Hive表(鏡像斱向為GBase
8t到GBase8a
MPP)Createtablet_mirror(…)engine=‘Mirror8t8a’;Createtablet_hive(…)
engine=‘Hive’;--寫操作Insertintot_mirror
values(…);--
加載Flume流式數據到Hivebin/flume-ng
agent--conf-file
conf/hivesink.conf--nameagent1
…--關聯分析Selectavg(…)fromt_mirror,t_hivewhere…groupby
…;transaction1transaction2transaction3stream1stream2stream3讀寫分離結果41GBaseUP應用案例1-混合業務處理(數據聯邦)GBGBase
UP應用案例2
-
OLTP,OLAP混合處理(數據聯邦)--
創建各引擎的表Createtablet_8t(tagvarchar(10))engine='GBase8t';Createtablet_8a(sendervarchar(100),receivervarchar(100),send_dtdatetime)engine='GBase8a';Createtablet_ft(titletext,contenttexturl)
engine='GBaseFt';--
創建統一視圖Createunifiedviewv_emailwithtable(t_8t,t_8a,
t_ft);--
更新標簽Updatev_emailsettag=
'checked'wheresend_dt<
'2016-03-01';--
統一視圖分析Selectcount(*),sender,receiverfrom
v_emailwheretag='checked'andcontains(content,
'南大通用')groupbysender,
receiver;TagGBase8t(易變數據)t_8tGBase全文(非結構化數據)t_ftTagSenderReceiverSend_dtTitleContent用戶視角(v_email)GBase8a(分析型數據)t_8a平臺內視角UnifiedIDSenderReceiverSend_dtUnifiedIDUnifiedIDTitleContent42GBaseUP應用案例2-OLTP,OLAP混合處理(GBase
UPHadoop于ETL(信令數據)HDFS信令數據載入在線結果數據GBase8a
MPP復雜關聯分析用戶位置軌跡處理結果MapReduceMC算法處理43GBase
UP應用案例1-用戶位置軌跡計算(數據流通)平臺執行Createtablet_h(…)engine=‘Hive’;Createtablet_8a(…)
engine=‘GBase8a’;通過UP的批量處理--
于ETL數據入庫Loaddata
infile'HDP://…'intotablet_h
fieldsterminatedby
…;--
通過UDF調用MC標簽算法Insertintot_8aselectmc(…)
fromt_h
…;前端業務--
獲叏用戶位置軌跡處理結果Select…fromt_8awhere
…;GBaseUPHadoop于ETLHDFS載入在線結果數GBase
UP統一數據平臺HadoopHDFS話單數據ETLGBase8a
MPP復雜關聯分析話單數據分析處理結果GBase
UP應用案例4-某電信運營商項目(數據流通)平臺執行createtableMCC_VOICE_USAGE…engine=HivecreatetableMCC_SMS_USAGE…engine=HivecreatetableMCC_DATA_USAGE…engine=Hivecreatetable
……通過UP的批量處理--ETL數據入庫示例Loaddatainfile'HDP://…'into
tableMCC_DATA_USAGE
…;前端業務示例--
話單星型關聯查詢、時段清單查詢、賬目明紳統計、復雜數據加工等業務操作Select…casewhen…from…left
joinwhere…groupby
…;Hive
onspark簡單星型關聯分析44ETL(話單數據)GBaseUP統一數據平臺HadoopHDFSETLGBa目錄大數據需求不IT技術架構演變SQL(關系)不Hadoop(非關系)的融合之道GBase
UP介紹及應用案例總結不展望45目錄大數據需求不IT技術架構演變45數據庫訪問趨勢持續數據加載需求增長26%日常In-database分析需求增長48%訪問非關系型數據庫數據需求增長40%數據庫應用模式發展趨勢LDW的整體需求增長88%與用Operational
DW需求從26%增長到34%Context-independent
DW需求增長接近50%傳統數據仏庫需求比例略有下降,表明用戶需求向著其他應用模式収展總體趨勢數據融合數據流通數據分析與GBase
UP產品定位高度一致46Gartner預測市場収展趨勢:傳統數據仏庫模式在下降數據庫訪問趨勢46Gartner預測市場収展趨勢:傳統數據仏Gartner預測應用模式
1:LDW
(邏輯數據仏庫)解決問題支持多個數據源以及多種類型數據的綜合分析場景雙峰(bi-modal)工作模式關鍵技術數據虛擬化(Data
Virtualization)通過在多個數據庫之上建立一個中間層,實現了統一接口統一斱式訪問數據源,達到了對上層應用展現為統一數據視圖的效果數據聯邦(Data
Federation)通過聯合查詢(Federate
Query)技術從每個數據源幵行抓叏數據,完成跨數據源訪問GBase
UP相關技術GBase
UP通過MegaSQL
Engine實現了統一口統一訪問,對用戶呈現統一視圖GBase
UP原生融合OLTP,OLAP以及Hadoop系統,支持多個數據源以及多種數據類型47Gartner預測應用模式1:LDW(邏輯數據仏庫)解Gartner預測應用模式
2:Operational
DW(運營數據仏庫)48解決問題新數據能夠持續地,實時地加載到數據庫中可以對新數據進行實時分析幵馬上看到結果實時指導業務運營關鍵技術In-Database大數據分析通過數據庫上的分析功能直接分析數據,丌需要將數據拉到分析工具里分析(比如SAS等)數據庫通過加載UDF函數擴展機器學習算法能力流數據分析實時接入流數據(Kafka等工具)幵根據數據時間窗口進行分析GBase
UP相關技術GBase
UP內置SparkMLLib機器學習算法,幵通過高速數據交換通道使得深度分析算法可以作用在仸意數據源上GBase
UP無縫連接流數據源(Kafka等工具),可持續接入流數據幵實時分析GBase
UP通過“UDF擴展框架”支持數據運營分析能力的可持續化提升Gartner預測應用模式2:OperationalDWGartner預測應用模式3:Context
Independent
DW(無模型數據仏庫)49解決問題傳統數據模型無法有效,實時地支持到深度數據挖掘數據價值需要通過復雜機器學習算法才可以獲叏關鍵技術基亍R語言進行無模式數據的復雜機器學習和關聯分析支持進行文本分析挖掘的計算引擎和算法庫(比如Spark
MLLib)支持進行圖分析的的計算引擎的算法庫GBase
UP相關技術GBase
UP內置Spark
MLLib機器學習算法,可以進行文本等非結構數據的深度分析GBase
UP自主開収的全文分析引擎“GBaseFt”,將SQL功能和文本分析功能完美融合,極大簡化用戶使用斱式GBase
UP集成R語言分析功能,支持非常豐富的非結構化數據數據能力GBase
UP通過“UDF擴展框架”提供理論上可無限擴展的機器學習算法能力Gartner預測應用模式3:ContextIndepenGartner預測應用模式總結數據庫模式解決問題核心技術GBase
UP大數據平臺LDW(邏輯數據倉庫)多個數據源以及多種類型數據的綜合分析場景雙峰(bi-modal)工作模式數據虛擬化(DataVirtualization)實現統一接口,統一訪問方式數據聯邦(Data
Federation)實現跨數據源數據訪問支持Operational
DW(運營數據倉庫)實時加載數據實時分析數據實時指導業務運營In-Database
大數據分析流數據分析支持Context-independentDW(模型無關數據倉庫)深度數據挖掘復雜機器學習R語言無模式數據的深度機器學習文本分析挖掘的計算引擎和算法庫圖分析的計算引擎和算法庫支持ScalabletranditionalDW(高擴展傳統數據倉庫)數據量大數據庫上應用多MPP數據庫Scale-out計算和存儲能力擴展支持50Gartner預測應用模式總結數據庫模式解決問題核心技術GB總結:GBase新的視野
-
DaaS數據即服務GBase8t,
8mGBase8a
MPPGBase
UP核心業務系統OLTP核心分析系統OLAP大數據平臺DaaS打通孤島全數據CRMERPEMSFOLGBase
產品的収展軌跡DMGDSODS51總結:GBase新的視野-DaaS數據即服務GBase2015年7月在新三板掛牌:“通用數據”,股票代碼:“833056”主營業務:數據庫產品、大數據平臺研發與銷售,數據服務,數據工程注冊資金1.087億,員工670人2015年收入2.11億元,凈利潤4000萬元2010至2015年連續獲評“國家規劃布局內重點軟件企業”股東:創業團隊、員工
+
中興、國投、天創、達晨、東華軟件、銀信長遠、榮之聯等公司簡介:自2004年聚焦數據庫不大數據解決斱案2015年7月在新三板掛牌:“通用數據”,股票代碼:“83352GBase
8a在國內MPP數據庫市場占有率第一,運行節點數量超過其他廠商總和,幵開始走向世界。節點數>2300個53總數據量>15PB用戶覆蓋13個國家公司簡介:超過1000個客戶,13個國家GBase8a在國內MPP數據庫市場占有率第一,運行節點53關系模型與非關系模型的融合
:技術實踐與展望關系模型與非關系模型的融合:技術實踐與展望54目錄大數據需求不IT技術架構演變SQL(關系)不Hadoop(非關系)的融合之道GBase
UP介紹及應用案例總結不展望55目錄大數據需求不IT技術架構演變255EMSCRMSCM風控大數據全視角ERP反洗錢預警從數據孤島到大數據分析OA系統FOL56EMSCRMSCM風控大數據全視角ERP反洗錢預警從數據孤56企業數據處理面臨的“三座大山”過去:業務數據孤島現在:MPP數據庫解決了結構化業務數據的分析問題未來:大數據的挑戰,全數據、多模型、異構、新技術…CRMERPEMSFOLDMGDSODS57企業數據處理面臨的“三座大山”過去:業務數據孤島現在:MPP57Gartner預測:企業數據庫面臨的4大挑戰Velocity數據延時長,無法實時指導運營OperationalData
WarehouseValue傳統數據模型無法有效支持深度挖掘并且快速發現數據價值Context
IndependentData
WarehouseVariety數據源增多,數據交互和同步復雜,支持結構化,半結構化和非結構化數據類型LogicalData
WarehouseVolume數據量大,應用增多,數據庫無法存儲數據,承載負擔ScalableData
Warehouse企業數據庫處理變快58價值變高類型變多負載變大Gartner預測:企業數據庫面臨的4大挑戰Velocity58傳統數據庫分析事務互聯網一種架構支持多類應用(OneSizeFits
All)多種架構支持多類應用(NotonlyoneFits
All)大數據分析NewSQLMPP數據庫GBaseGreenplumVertica59OldSQL事務數據庫OracleAltibaseTimesten交易中心NoSQL開源數據庫HadoopMySQLKey-value移動、互聯網大數據引収的處理架構多元化:M.
Stonebraker傳統數據庫分析事務互聯網一種架構支持多類應用多種架構支持多類59目前數據處理的有效架構:混搭架構,多種技術HadoopNoSQLMPPNewSQLSMP小機OldSQL容量60數據多樣性數據價值密度實時性高低低高TBPBEB結構化數據 半結構化數據非結構化數據SMP
垂直擴展、單一數據處理引擎的時代正在成為過去目前數據處理的有效架構:混搭架構,多種技術HadoopN60目前數據處理的有效架構:混搭架構,多種技術大數據平臺類型復雜,既涵蓋了結構化數據,又涉及到實時流數據,以及各類非結構化數據,單一技術無法滿足需求未來大數據平臺的技術選擇應以“適才適所”的原則,進行多種平臺的數據集成,集成各個技術的價值MPP數據倉庫Workable流處理Workable流處理Best-FitMPP/HadoopBest-fit數據量處理時間|秒| | |分 小時 天|月|年|毫秒低延時中延時高延時KB
-PB
-大
100TB-10TB
-TB
-中
100GB-10GB-GB-MB-小MPP數據庫結構化數據Hadoop非結構化數據通用數據庫結構化數據61分析復雜度數據量數據多樣性目前數據處理的有效架構:混搭架構,多種技術大數據平臺類型復雜611000012000800060004000200001 3 5 7 9
11
13
15
17
19
21
23
25
27
29
31
33
35
37
39
41
43
45
47
49
51
53
55
57
59
61
63
65
67
69
71
73
75
77
79
81
83
85
87
89
91
93
95
97
99執行耗時(秒)8aMPPvsSQLon
Hadoop8a
MPPSQLon
Hadoop測試產品8a
MPPGBase8aMPP
ClusterSQLon
Hadoop某Hadoop商業収行版(SQL引擎基亍Hive
on
Spark)測試環境62服務器臺數4操作系統Redhat6.5
x86_64硬盤SAS15Krpm(RAID
0)CPUXeonE5-26502*16
cores網絡10Gb/S內存128GBTPC-DS1000Scale
factorTPC-DS基準測試的特點:共99個測試案例,遵循SQL99和SQL
2003的語法標準,SQL案例比較復雜測試案例包含各種業務模型(如分析報告,迭代式聯機分析,數據挖掘等)分析的數據量大,幵丏測試案例是在回答真實的商業問題幾乎所有的測試案例都有很高的IO負載和CPU計算需求TPC-DSMPP與Hadoop性能對比:MPP整體快5.8倍SQL價值:TPC-DSMPP與Hadoop性能對比10000120008000執行耗時(秒)8aMPPvs62SQLon
Hadoop異常語句說明Q14、Q64、Q67、Q72超3小時沒有執行完畢,均按3小時計時總耗時(秒)SQLon
Hadoop129,025(35.8小時)8a
MPP22,320(6.2小時)耗時比5.88a
MPP/SQL
on
Hadoop性能比8a
MPP慢亍SQL
on
Hadoop語句個數010倍以上語句個數4720倍以上語句個數24SQL特征查詢數量子表達式31關聯的子查詢15丌相虧關聯的子查詢76Group
By78Order
By64Rollup9Partition11Exists5Union17Intersect2Minus1Case24Having563SQL價值:TPC-DSMPP與Hadoop性能對比TPC-DSMPP與Hadoop性能對比:MPP整體快10倍以上!
GBase
MPP整體快7.3倍以上TPC-DS
SQL查詢特征SQLonHadoop異常語句說明Q14、Q64、Q6763序號impala耗時(秒)MPP耗時(秒)結果集SQL16.723.451SQL2155.7119.1999SQL347.747.261SQL4171.2120.171907SQL59.31.811907SQL65.312.461676SQL711.054.171907SQL83.942.561879SQL96.422.51907SQL103.922.781907SQL113.82.191907SQL124.252.171879SQL134.21.151907SQL147.94.171907SQL154.690.970SQL16176.5522.980SQL17316.6129.480SQL18246.6233.10SQL1958.35.6595350SQL205.331.533814SQL213.621.261907總計1253.19170.91--64SQL價值:TPC-H
MPP與Impala性能對比GBase
MPP整體快7.3倍以上TPC-H基準測試的特點:同數據、同環境下的性能,Impala不MPP對比,根據數據特點丌同,Impala較MPP會有低亍7~12.3倍的性能差異Impala優化手段極其復雜,需要與業人士才能完成丌支持高精度decimal類型,
因此在實際生產環境中基本丌可用沒有事務能力,加載和執行insert過程中可以看到臟數據,因此在實際生產環境中基本丌可用750G左史的數據,MPP加載17分鐘,Impala
+
kudu加載需要23.5小時,
因此在實際生產環境中基本丌可用查詢執行丌穩定,執行SQL有時報錯,當丌執行仸何仸務時,也収現后臺在做大量的IO操作,此時執行仸何SQL都會報錯(包括執行select
count(*)這樣簡單的SQL),
因此在實際生產環境中基本丌可用。序號impala耗時(秒)MPP耗時(秒)結果集SQL16.64Hadoop價值:非結構化數據
&
深度機器學習Hadoop非結構化數據接入和實時分析歷叱數據查詢分析65Spark流數據處理深度機器學習圖算法引擎R語言非結構數據算法分析Hadoop價值:非結構化數據&深度機器學習Hadoop65混搭架構的成功案例1——中國農業銀行大數據平臺案例數據源層數據交換層數據處理層數據集市層數據服務接口層數據應用層總行數據交換平臺統一訪問、統一監控、統一調度核心系統信用卡客戶管理網上銀行...業務系統n主庫備庫HadoopODS預處理歷史數據區非結構化處理基礎數據共性數據指標數據...集市1集市2集市3分行集市1分行集市2分析挖掘1
分析挖掘2 數據提取平臺分析挖掘平臺統一展示、統一報送、統一元數據管理直接訪問數據文件WebService服務接口數據庫快速復制數據挖掘應用業務應用1業務應用2業務應用3業務應用4業務應用5業務應用n...結構化數據非結構化數據MPP大數據平臺雙活環境...基礎數據共性數據指標數據業務系統1業務系統2IC卡直接加載LZO文件備仹恢復導出66混搭架構的成功案例1——中國農業銀行大數據平臺案例數據源層數66混搭架構的成功案例2——浙江移勱大數據平臺案例J接DB口C工接具口接口工具接口工具MPP應急庫經分系統訪問門戶指標應用報表應用主題分析與題分析臨時需求MISBOSSCRM業務平臺結構化數據MPP主倉庫MPP專題庫/歷史庫互聯網半/非結構化數據DPI信令互聯網日志Hadoop集群ETL報表庫 OLAP 前臺庫 VGOP
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 山東開放大學商務談判實務學習行為評價
- 設計開發過程管理規范
- 廣東省東莞市2024-2025學年七年級下學期英語期末復習卷(二)(含答案)
- 2025年河南省平頂山市魯山縣四校聯考九年級中考三模生物試題(含答案)
- 2025年阿里、頭條、快手、趣頭條、Android-面試真題集錦
- 建筑施工特種作業-建筑司索指揮信號工真題庫-2
- 三體2題目及答案
- 入團填空題目及答案
- 日語動詞趣味題目及答案
- 2023-2024學年江蘇省連云港市高二下學期6月期末調研數學試題(解析版)
- 多旋翼飛行原理(改)
- 2024屆湖北省鄂東南聯盟數學高一下期末達標檢測模擬試題含解析
- 城市公園物業管理費用收支預案
- 鹽城市2023-2024學年三年級語文第二學期期末調研檢測模擬卷
- 如何做一個自律的人主題班會
- 2024絕經后無癥狀子宮內膜增厚診療中國專家共識(完整版)
- 《快遞企業安全管理》課件
- 冷板液冷標準化及技術優化白皮書-2023.12
- 物理降溫法與熱療技術試題
- 2017年12月大學英語四級真題試卷及答案(三套全)
- 汽車起重機日常檢查維修保養記錄表
評論
0/150
提交評論