




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
數據中心相關技術與應用2013-12-02數據中心相關技術與應用2013-12-02目錄MPP數據庫在數據中心的應用企業級數據中心定義數據中心中的大數據數據中心BI技術選型描述Hadoop在數據中心的應用數據中心ESB技術研究大數據技術與傳統數據中心的集成目錄MPP數據庫在數據中心的應用企業級數據中心定義數據中心中2傳統的數據倉庫的架構數據源抽取、轉換、加載業務數據集市企業數據倉庫ETL元數據前端分析展現工具查詢工具、應用傳統的數據倉庫的架構數據源抽取、轉換、加載業務數據集市企業數3新一代數據中心定義企業數據中心是指建立在數據倉庫與數據倉庫之上的決策分析應用,應包括數據源、數據ETL、ODS數據庫、數據倉庫、數據集市、商務智能應用、數據管理等功能。數據中心應該具備常見數據的處理與管理能力,具備對結構化、半結構化、非結構化等數據的處理能力,同時支持RDB、MPP、NoSQL,同時具備數據的通用管理能力,以數據為中心進行平臺建設。數據中心數據平臺在接口層要豐富又簡單,可以提供各種應用所需接口,最大程度匹配已有接口,對應用改動需求力求最低。一個合理的數據平臺,不能等同于Hadoop或者其他某項單一技術建設;整體數據中心的建設,從數據采集層、存儲層、應用層都有完整的解決方案,同時具備平臺運維管理、接口管理、數據管理功能;數據中心數據管理能力至少應包含:1.元數據管理,2.數據質量管理,3.數據安全管理,4.數據可視化管理,5.數據生命周期管理。數據平臺必須針對數據提供完整方案,同時兼顧應用接口、其他平臺接入,系統管理、系統調度等功能。任何一種單一技術都難以適應數據中心數據采集、存儲、處理和對外服務的需求,多種技術并存才是發展趨勢。RDB、MPP、Hadoop采集處理層數據抽取/加載/檢查ETL調度數據交互、轉換數據映射數據層數據存儲數據聚合服務數據處理服務數據查詢服務事件通知服務信息子層KPI報表統一視圖知識庫接口層服務管理資料類數據服務指標類數據服務配置類數據服務清單累數據服務日志類數據服務OPENAPI數據管理功能數據生命周期管理數據可視化管理數據質量管理采集層數據質量管理數據質量規則、知識庫數據質量稽核指標運維數據安全管理4A認證隱私信息保護權限管控、審計追蹤元數據管理元數據獲取管理元數據存儲與模型管理元數據分析、展現、服務技術、業務元數據管理ODW-RDBODW-MPP分布式文件系統分布式關系數據庫分布式計算數據分發同步處理用戶管理權限管理備份與恢復日志管理設備監控指標資源池指標數據庫指標分布式系統指標指標匯總存儲管理資源池管理設備管理作業調度管理事件自動化規則配置執行引擎性能預警調度異常控制北向接口管理數據采集接口管理數據共享配置通用接口配置平臺管理功能數據服務功能綜合分析系統A+ABIS應用無線網優綜合監控系統信令監測系統日志上層應用其他應用新一代數據中心定義企業數據中心是指建立在數據倉庫與數據倉庫之4新一代數據中心功能視圖數據中心整體功能視圖可以分為數據服務功能模塊、平臺管理功能模塊,數據管理功能模塊,共同數據中心的應用。采集處理層數據抽取/加載/檢查ETL調度數據交互、轉換數據映射數據層數據存儲數據聚合服務數據處理服務數據查詢服務數據集市、OLAP接口層服務管理資料類數據服務指標類數據服務配置類數據服務清單累數據服務日志類數據服務OPENAPI數據管理功能數據生命周期管理數據可視化管理數據質量管理采集層數據質量管理數據質量規則、知識庫數據質量稽核指標運維數據安全管理4A認證隱私信息保護權限管控、審計追蹤元數據管理元數據獲取管理元數據存儲與模型管理元數據分析、展現、服務技術、業務元數據管理DW-RDBDW-MPP分布式文件系統非關系數據庫分布式計算數據分發同步處理數據服務功能用戶管理權限管理備份與恢復日志管理設備監控指標資源池指標數據庫指標分布式系統指標指標匯總存儲管理資源池管理設備管理作業調度管理事件自動化規則配置執行引擎性能預警調度異常控制北向接口管理數據采集接口管理數據共享配置通用接口配置平臺管理功能應用展示層企業數據中心元數據獲取采集層數據質量定義、稽核存儲庫模型定義采集數據分發新一代數據中心功能視圖數據中心整體功能視圖可以分為數據服務功5目錄MPP數據庫在數據中心的應用企業級數據中心定義數據中心中的大數據數據中心BI技術選型描述Hadoop在數據中心的應用數據中心ESB技術研究大數據技術與傳統數據中心的集成目錄MPP數據庫在數據中心的應用企業級數據中心定義數據中心中6數據中心引入大數據的意義與原則隨著半結構化、非結構化數據、互聯網數據等新型數據源的引入以及分析需求對分析深度和廣度的增加,以移動運營商行業為例,越來越需要大數據。主要包括如下:1、數據規模方面:GPRS流量話單的條數和數據量已經超過了語音詳單,而位置信令、Gn信令、客服語音、互聯網外部數據等規模更大,且還處在不斷增長的趨勢。2、數據類型方面:逐步從OLTP系統中獲得的結構化數據,過渡到結構化數據和互聯網網頁、上網日志等非結構化數據和半結構化數據共存。3、對數據的使用方面:不僅有批量的數據加工和前臺界面的訪問,臨時統計、數據挖掘等訪問需求也逐步增多。對歷史明細數據的訪問增多。對數據訪問的及時性增強。隨著數據中心越來越具備大數據平臺的特征,利用傳統的單一數據倉庫技術就難以滿足高效低成本的需求,需要引入相應的大數據技術。新技術的引入不能影響原有的使用感知,需要按照分階段逐步引入的方式。可以參考如下的幾個引入原則:1、先增量后存量。現有的數據處理系統引入大數據處理技術,面臨著模型改造、流程改造等一系列的問題,可以首先在新上線應用引入大數據處理技術。2、先邊緣后核心。對于原有功能的遷移,可以先遷移非關鍵的應用。這些應用不涉及到關鍵生產任務,可以忍受數據處理延遲和故障修復時間較高等可能出現的風險。3、先簡單后復雜。數據處理邏輯較簡單的應用也可以首先嘗試引入大數據處理技術,降低實施的復雜度,積累運維經驗。通過在大數據處理技術的規劃、實施及運維過程中積累經驗及教訓,不斷提升和完善大數據技術的應用水平,逐步拓展大數據技術應用領域。數據中心引入大數據的意義與原則7大數據在數據中心的應用場景大數據技術可以應用在以下場景(包括但不限于):1、原數據倉庫底層結構化數據處理(ETL或ELT)。底層結構化數據處理計算任務重但復雜性不高,不涉及多表關聯,適合引入大數據技術實現高效低成本。例如:對運營商的清單(語音詳單、GPRS清單、WLAN清單等)的清洗、轉換、匯總等。2、半結構和非結構數據處理與分析。例如對上網日志、網絡信令、客服語音等數據的處理和分析,這些數據難以利用傳統數據倉庫技術進行處理和分析。3、數據集市。地數據集市應用較為獨立,且對可靠性的要求并不是十分嚴格,適合作為引入大數據技術形成資源池,以移動運營商為例,可實現各地市、各部門數據集市的云化、池化和虛擬化,最終實現資源動態調配,達到高效低成本。4、數據倉庫數據分級存儲。對低價值的細節數據以及長周期的歷史數據(冷數據)訪問頻率較低,也能容忍相對較長的響應時間,可以存儲在成本更低的平臺上。5、數據挖掘。某些數據挖掘設計長周期的數據,計算時間很長(數天),占用很多數據倉庫資源。還有一些數據挖掘算法超出了關系代數計算范疇,需要抽取數據到獨立的計算平臺(例如SAS統計分析系統)中進行計算。這些數據挖掘任務可以遷移到大數據平臺之上進行計算。例如交往圈的計算,因其僅涉及單一數據,但數據量非常大,且需要多次迭代計算。6、對外查詢。數據中心不僅僅是數據處理,也需要將數據處理的結果對外提供查詢,而這些查詢一部分是海量的OLAP性質的查詢,另外還有一部分OLTP性質的查詢,即數量眾多但每次查詢量較少的。比如數據中心前端庫、與生產系統互動的數據庫以及提供流量詳單查詢的數據庫。這些查詢任務不能很好地運行在OLAP類數據庫之上,可以遷移到大數據平臺上。針對這些應用場景,可以看到,主要需要引入的是Hadoop和MPP技術,然后逐步考慮NoSQL、流計算和內存計算等技術的引入。大數據在數據中心的應用場景8Hadoop技術與MPP技術的比較
HadoopMPP傳統數據倉庫平臺開放性高低低運維復雜度高,與運維人員能力相關中中擴展能力高中低擁有成本低中高系統和數據管理成本高中中應用開發維護成本高中中SQL支持低高高數據規模PB級別部分PBTB級別計算性能對非關系型操作效率高對關系型操作效率高對關系型操作效率中數據結構結構化、半結構化和非結構數據結構化數據結構化數據Hadoop在處理非結構數據和半結構數據上具備優勢,尤其適合海量數據批處理等應用需求。當然隨著Hadoop技術的成熟,基于Hadoop的即席查詢技術也逐漸嶄露頭角。比如仿照Dremel的開源項目ApacheDrill以及ClouderaImpala。MPP適合替代現有關系數據結構下的大數據處理,具有較高的效率,但其在大規模集群(超過100個節點)下的可用性還有待試點證實。MPP數據庫場景下經常需要掃描大量的數據,所以對磁盤存儲系統的I/O性能要求非常高,在測試和日常運行中,I/O多大情況下是瓶頸,這點與Hadoop平臺可以明顯區分開來。Hadoop技術與MPP技術的比較
HadoopMPP傳統9目錄MPP數據庫在數據中心的應用企業級數據中心定義數據中心中的大數據數據中心BI技術規劃選型Hadoop在數據中心的應用數據中心ESB技術研究大數據技術與傳統數據中心的集成目錄MPP數據庫在數據中心的應用企業級數據中心定義數據中心中10MPP數據庫在數據中心的應用場景MPP數據庫適合結構化數據的深度分析、復雜查詢以及多變的自助分析類應用。它提供了統一的標準訪問接口(SQL),而無需像Hadoop一樣需要定制開發。MPP數據庫一般構建在X86平臺上,并使用本地盤而不用陣列,而且產品眾多,因為可以降低擁有成本。MPP數據庫產品在數據中心中可以用于以下場景(包括但不限于):數據集市:數據集市定位于以企業數據倉庫數據為基礎,結合其他相關數據,支撐特定業務場景或者業務部門需求的IT平臺。目前運營商數據中心中已經存在地市數據集市和部門數據集市。隨著新業務平臺分析需求的出現、不同分析特征的需求的出現,還有一些分析需求可以通過數據集市的方式進行承載,比如深度分析(AdvancedAnalysis)和自助分析(Self-ServiceAnalysis)。數據分級存儲(歷史庫或者明細庫):數據中心中數據存儲周期分為在線數據、近線數據、歸檔數據。目前在線數據及近線數據存放在數據倉庫,歸檔數據使用磁帶庫存放。帶來的問題是在線數據中不常訪問的數據占據數據倉庫寶貴的資源,針對歸檔數據的數據分析需求增加,而數據從磁帶庫恢復的時間無法滿足需求。數據中心數據倉庫的數據在完成近期數據支撐任務后,轉移到歷史庫中進行長周期存儲,支持后續數據訪問和長周期數據分析需求,同時可作為核心數據倉庫的備份,提升整體架構及數據的高可用性。MPP架構基于x86平臺構建,可高效低成本的實現歷史庫的建設需求。ETL:通過將數據的關聯匯總卸載到MPP數據庫上,可降低數據倉庫的負載,提高數據關聯匯總的性能,同時可以滿足后續數據量增長情況下的平滑擴容的需求。這部分的計算任務可以定位于數據倉庫外的復雜數據加工、數據匯總任務,其源數據可以來自業務系統,也可以來自ETL(專業ETL工具或者Hadoop)清洗、轉換后的話單或者經過ETL輕度匯總過的數據。其結果數據導入到基礎數據倉庫中供上層應用訪問。MPP數據庫在數據中心的應用場景MPP數據庫適合結構化數據的11MPP平臺選型建議對比項目TeradataEMC南大通用IBMHPAsterDataGreenPlumGBase8ADB2DPFOverGPFSVertica無共享MPP架構
-無主控節點
??*
?無共享MPP架構
-有主控節點??
支持行存儲??
?
支持列存儲???(10.5版本發布后)?當前構建在X86平臺上的新型MPP數據庫產品眾多,Garnter每年會發布一版數據倉庫魔力象限可以供參考。在大陸地區可以獲得技術支持的MPP產品及其特性如下(包括但不限于):不同架構的數據倉庫各有優缺點。比如帶主控節點(Master)的數據庫會存在單點故障,但各節點分工明確;無主控節點的數據庫不存在單點故障,但可能某各節點承擔的任務不平均。行存儲裝載數據快、壓縮率低、查詢速度稍慢;列存儲裝載數據滿、壓縮率高、查詢速度快,但部分產品的列存儲方式無法支持更新、刪除數據。硬件平臺的選型參考各廠家的指導文檔。MPP平臺選型建議對比項目TeradataEMC南大通用IB12MPP數據分布規劃得益于Share-Nothing的架構,MPP數據庫的所有表都是分布式存儲的,所以在創建表時都需要指定分布鍵,分布鍵可以是單一字段,也可以是復合字段,然后通過Hash方式去分布。合理的分布鍵設計可以使得大部分的表關聯操作在一個節點內完成,不需要跨節點進行數據交互,這是MPP數據庫產品(按行Hash分布)與Hadoop(選擇按照塊隨機分布)的根本差別。注意:在某個節點發生故障無法為整個MPP數據庫集群提供服務的情況下,數據庫會自動切換到副本機制,利用副本所在的服務器來提供服務。但是副本所在的服務器本身就要承擔自己正常的工作任務,這樣一來相當于負荷加重了一倍。所以故障情況下雖然整個數據庫集群可用,但是理論上的性能將下降到原來的一半,而不是按照退服節點比例的性能下降。MPP數據分布規劃得益于Share-Nothing的架構,M13目錄MPP數據庫在數據中心的應用企業級數據中心定義數據中心中的大數據數據中心BI技術選型描述Hadoop在數據中心的應用數據中心ESB技術研究大數據技術與傳統數據中心的集成目錄MPP數據庫在數據中心的應用企業級數據中心定義數據中心中14Hadoop在數據中心的應用場景分析場景為什么采用Hadoop采用的組件ETL1、降低原始數據存儲壓力
2、降低數據倉庫處理壓力
3、降低存儲和處理成本Hive/MR/Pig清單查詢1、快速響應海量數據查詢
2、降低查詢成本HBase機器學習和數據挖掘1、降低海量數據挖掘成本
2、縮短計算時間
3、實現更加靈活的算法mahout/R/MR冷數據存儲降低冷數據存儲成本降低冷數據查詢成本HiveOverHDFSHadoop在數據中心的應用場景分析場景為什么采用Hadoo15Hadoop在數據中心的應用場景-ETLHadoop平臺負責從接口機采集數據入HDFS分布式文件系統,并進行清洗、關聯、轉換、匯總、邏輯增強等,實現原始數據、明細數據和匯總數據的處理加工工作。具體實現上可以采用Hive或Pig用腳本來實現數據處理,也可以編寫Java或其他語言的程序(用到Hadoop流的功能),直接利用MapReduce框架來進行處理。Hadoop在數據中心的應用場景-ETLHadoop平臺負責16Hadoop在數據中心的應用場景-詳單查詢Oracle/DB2用戶詳單文件庫數據存儲服務接口話單查詢數據抽取數據解析數據翻譯用戶詳單統計分析收入保障呼叫中心飛信短信彩信WAPEmail網廳統一接入網關平臺用戶賬單HBase分布式數據庫(基于HDFS)……Hive分布式數據倉庫(基于HDFS)……前端查詢業務服務器集群……ETL服務器集群……清賬單數據抽取和轉換計費數據庫清賬單數據裝載入HBase歷史清賬單數據可從HBase導出裝載入Hive(可選)負載均衡設備查詢清單互聯網用戶清單云平臺采用基于大數據的Hadoop云架構,以PC服務器搭建大規模存儲集群。在數據處理方面:引入數據抽取、轉換、加載工具ETL,在入庫前對詳單中的各個字段含義進行翻譯,服務接口不再進行翻譯,提升查詢效率;在分布式存儲方面:引入基于x86服務器的分布式存儲技術,主要由Hbase、Hive、數據庫集成等功能組成,在提高系統的擴展性和彈性的同時,可以方便、快速地為應用增加或減少資源。某運營商省份的應用效果:應用前數據導入性能指標1M/秒,應用后達到45M/秒,性能提升44倍。應用前數據加載性能指標3萬條/秒,應用后達到17萬條/秒,性能提升4.67倍。應用前用戶查詢性能指標30個并發查詢/秒,應用后達到100個并發查詢/秒,性能提升233%。應用前并發查詢性能指標35.81毫秒/筆,應用后達到8.09毫秒/筆,性能提升77.4%。Hadoop在數據中心的應用場景-詳單查詢Oracle/DB17Hadoop在數據中心的應用場景-機器學習與數據挖掘、冷數據存儲Hadoop可以承載數據量較大、需要多次迭代關聯、涉及數據對象較為單一的數據挖掘計算。Hadoop上開源數據挖掘分析專題工具有mahout和R,也可通過MR接口編程實現所需的挖掘算法,可以實現以下數據挖掘:互聯網內容分析專題:客戶上網行為分析,關鍵詞排序,爬蟲,非結構化數據識別WLAN運營分析專題:WLAN終端分析,WLAN位置分析,WLAN與GPRS關聯分析,WLAN用戶群分析用戶交友圈分析專題:用戶個人語音交友圈分析,用戶個人短信交友圈分析,交友圈特征分析Hadoop可以承載歷史性、訪問頻率較低的數據,存放在Hadoop上仍然能夠實現通過Hive或者其他軟件,實現類SQL或者其他API的數據訪問。而在配置策略時,為了節省空間,可選擇進行壓縮、糾刪碼(HDFSRaid)或者降低副本個數,例如2。冷數據例如:超過一定周期的(12個月以上)的詳單信息。上網日志信息和原始網頁信息。其他價值低、優先級低、數據量大的數據。Hadoop在數據中心的應用場景-機器學習與數據挖掘、冷數據18Hadoop選型建議產品包基線版本產品包基線版本Hadoop2.0.0HBase0.94.6Hive0.10.0ClouderaImpala1.0ZooKeeper3.4.3
總體來看,目前ApacheHadoop開源社區主要在Hadoop1.0和2.0兩個版本上分別進行持續更新優化。而Cloudera公司的Hadoop版本CDH3和CDH4也分別基于Hadoop1.0和2.0版本進行封裝。下圖開源社區發布的各個版本以及與Cloudera發布的CDH軟件包的對應關系如下圖所示,以及對應CDH4.3版本的描述:Hadoop選型建議產品包基線版本產品包基線版本Hadoop19Hadoop服務器配置建議項目主節點配置建議數據處理(MR/hive)的數據節點數據查詢(HBase)的數據節點,可以與數據處理的數據節點合設zk節點CPU個數及核心數2路8核以上2路8核以上,如果壓縮數據或者處理比較復雜,可以考慮更多路多核的2路6核以上2路8核以上硬盤數硬盤數可以不同太多,4-6塊6、8或者12塊,數據處理時IO一般不是瓶頸,但更多的磁盤可以存儲更多的數據6、8或者12塊,取決于存儲量(主要靠緩存)硬盤數2-4塊內存128G或更高48G或更高64G或更高,太高GC可能成為負擔48G或更高網絡雙口萬兆或千兆網卡雙口萬兆或千兆網卡,主要影響裝載速度和節點間數據交換效率雙口千兆網卡雙口萬兆或千兆網卡,對網絡延時有高要求,如果可以,建議單獨設立奇數個集群,3-5個Hadoop被設計運行在大規模通用X86硬件平臺之上,使用本地存儲(DAS)來實現ScaleOut。所以其對硬件的要求較低,一般的PC服務器也可以運行,只要滿足發行版所要求的操作系統和JDK需求即可。但是在實際使用中需要根據Hadoop的應用環境來合理配置硬件,充分發揮每個部件的效率。在前期試點中,發現如果執行MapReduce,特別是在壓縮文件上執行,其對CPU的消耗較高,CPU成為了瓶頸;而在運行Hbase的時候,更多的內存會緩存更多的數據,提高查詢吞吐率并縮短響應時間。所以建議這兩種情況下,可以考慮按照如右表格配比來配置硬件:Hadoop服務器配置建議項目主節點配置建議數據處理(MR/20Hbase配置建議Rowkey設計:HBase表的rowkey設計,一般是將關系數據庫中的候選key拼接形成。但是要注意熱點問題,比如rowkey開始的幾位是時間排序,那么在插入的時候,最近幾天的數據很可能是熱點數據,這樣所有的查詢可能都指向了一個regionserver導致了HBase的性能瓶頸。盡量避免使用單調遞增的rowkey,因為在添加數據的時候,所有的新數據都添加到最后一個region,前面的region沒有或者很少有請求,也是熱點問題。熱點問題的處理方式一般是"加鹽",即在rowkey前面添加hash數,來對數據進行hash劃分。列簇設計:HBase表的ColumnFamily最好少于4,一般少于3,對于一般數據放入一個列簇中即可。對于一些強關聯,頻繁訪問的數據可以放一列,這樣在取數據時,熱點訪問只用取這一列數據,可以節省IO。多個列簇有各自memstore,memstore開銷大,而且flush一個列簇,其他的類簇也會flush,會造成不必要的開銷。Region劃分:HBase在導入大量數據前最好預先劃分region,這樣可以加快導入效率。同時也要避免使用HBase自動劃分region,在一種情況下,HBase面臨大量寫入或者scan請求,同時它的region中的數據又達到了閥值,那么它會啟動自動劃分region,有可能導致region劃分風暴,大量的請求會使regionserver和namenode的壓力過大而導致regiondead或者namenodedead。TTL設計:TTL(timetolive),它一般可以用來控制數據的生存時間。一些數據比如客戶幾年以前的數據,幾年以后已經不關心這些數據,可以使用TTL刪除。如果數據沒有這些要求,可以不使用。Hbase配置建議Rowkey設計:21目錄MPP數據庫在數據中心的應用企業級數據中心定義數據中心中的大數據數據中心BI技術選型描述Hadoop在數據中心的應用數據中心ESB技術研究大數據技術與傳統數據中心的集成目錄MPP數據庫在數據中心的應用企業級數據中心定義數據中心中22數據中心系統集成建議在引入Hadoop和MPP數據庫后,數據中心建設將會在現有傳統數據倉庫平臺與新技術之間形成混搭。經典數據倉庫中的OneSingleViewofTruth將難以維持。主要會面臨如下的問題:數據互通:數據需要跨Hadoop和多個數據庫進行交互,如何實現高效的數據同步或數據調用?透明訪問:是否有必要對上層應用屏蔽底層不同數據平臺的細節,提供統一的數據訪問方式?統一管理:如何進行多套數據平臺的元數據、數據質量管理,如何實現統一的調度和運維監控?數據互通機制是多個數據庫與Hadoop之間的橋梁。通過數據互通,我們可以將數據快速從一個平臺遷移到另外一個平臺或從一個平臺方便地訪問另外一個平臺中的數據。數據互通機制的主要難點是要保障數據在兩個平臺間流轉時的高效性和可靠性。數據中心系統集成建議在引入Hadoop和MPP數據庫后,數據23數據中心系統互通的建議實現數據互通機制有2種方法:數據同步、數據調用數據同步:數據同步的主要是實現數據庫與Hadoop之間雙向數據復制功能,數據同步的目的包括這些的場景:不同系統上的數據需要進行關聯分析、數據生命周期管理要求進行數據歸檔或備份、ETL分節點部署需要同步數據等。可以采取如下數據同步方案:在Hadoop端發起的雙向數據同步在數據庫端發起的雙向數據同步在第三方發起的雙向數據同步數據調用:數據調用指的是:不移動數據,通過接口調用實現對另外一個平臺上數據的訪問,被調用平臺承擔運算任務。數據調用方法根據調用方的不同,又分為“從數據庫側調用Hadoop數據”及“從Hadoop側調用數據庫數據”兩種情況。數據調用方法適用的場景原則:低頻度(如:每月/季度/年一次)或臨時(如:臨時訪問5次以下)需要使用其他平臺中存儲的數據。數據中心系統互通的建議實現數據互通機制有2種方法:數據同步、24數據中心互通的技術實現連接器方式通過設計專用的軟件或硬件連接器模塊,實現數據庫與Hadoop之間高速的數據傳輸,其一般具備以下特點: 雙向連接器 并行連接數據庫節點到的Hadoop數據節點 支持UTF-8編碼和常見的數據類型 通過動態工作負載管理的資源控制 融合系統中的角色/用戶提供認證 為數據庫域提供的數據節點,主要實現以下按照源表進行任務分工,可以為表間并行以及表內并行 建立分區、索引及裝載,根據分區原則以及索引等策略,裝載節點將數據直接發送給相應的MPP數據庫節點上 裝載節點處理過程中數據不落地 裝載節點可以是MPP數據庫中的部分節點也可以獨立設置通過連接器的方式,可以實現數據庫與Hadoop系統之間的高速和可靠的數據互通,非常適合數據同步的計算場景。外部表方式:數據庫可以通過外部表的方式,直接訪問存儲在HDFS上的文件。在使用外部表時,數據庫可以像訪問內部數據一樣,將文件當作表insert到數據庫內其他表中,或將HDFS上的文件和數據庫內的表進行關聯操作。同時也可以將RDBMS內的數據,通過外部表的形式,寫入到HDFS上去。例如如下操作:Selectcount(*)fromHDFS_datah,RDBMS_datagwhereh.key=g.key;InsertintoHDFS_dataselect*fromRDBMS_data;數據中心互通的技術實現連接器方式25數據中心透明訪問HADOOP+MPP的混搭架構在解決大數據處理問題的同時也加大了上層應用的數據訪問復雜度。主要問題體現在:多種數據實例:數據可能分布在關系型數據庫、Hadoop分布式計算集群以及HBase庫中。多種訪問接口:不同類型的數據實例的技術實現方式差異大,如關系型數據提供了標準SQL,Hadoop、HBase提供開放API或Hive方式訪問,這同樣對上層訪問增加了難度。跨數據實例的數據計算:不同類型的數據實例的底層數據存儲結構不同,如關系型數據庫存儲結構化數據,而Hadoop計算集群多存儲半結構化數據,如果需要涉及到兩種類型數據實例中的數據關聯(join)計算,目前還難以直接實現,需要做一系列數據互通調度,然后在單實例上完成關聯計算,整個過程復雜度高、工作量大。針對目前出現的這些問題,可以考慮構建數據透明訪問能力。也就是提供統一的數據訪問接口,對上層屏蔽底層數據處理實現細節,提升上層應用的開發效率。主要需要解決兩個方面的問題:1、通過統一的語言或服務接口訪問到不同的數據庫實例,包括數據查詢、數據處理操作等。2、針對跨數據實例的數據互通、關聯操作等,可以通過統一的的語言、服務接口或管理工具等技術來實現。數據中心透明訪問HADOOP+MPP的混搭架構在解決大數據處26目錄MPP數據庫在數據中心的應用企業級數據中心定義數據中心中的大數據數據中心BI技術選型描述Hadoop在數據中心的應用數據中心ESB技術研究大數據技術與傳統數據中心的集成目錄MPP數據庫在數據中心的應用企業級數據中心定義數據中心中27BI集成工具選型問題這些眾多的BI項目從規模和對BI系統支撐的完善程度上來說,大體可以分為Framework、Stand-aloneTools和BISuite三種類型。Framework:開源框架,這是在商業BI系統中所沒有的。我們可以使用它們來構建自己的BI工具,或者增強和擴展我們的BI解決方案。Stand-aloneTools:獨立的BI工具,這是開源項目中數量最多的一類。很多工具只側重BI系統中的某個環節和方面,如ETL、Report、OLAP和Database等等。BISuite:在統一的架構下提供了多種BI系統的特性的工具集合。就目前的情況看,不管是商業軟件還是開源軟件,還沒有任何一個套件提供了完整的端到端的BI解決方案。這些開源的BISuit是通過連接多個其他的組件和工具的方式形成套件的,由于BI系統涉及到的工具是非常多的,所以整合一套完整的BI解決方案是很困難的。開源BI的重要項目:Pentaho、spagoBi是兩個比較大的框架,集成了相當多的開源項目,JfreeReport、Mondrian、Kettle、Weka基本都使用。適合大型復雜項目的開發。Pentaho:是一個以工作流為核心的、強調面向解決方案而非工具組件的BI套件,整合了多個開源項目,目標是和商業BI相抗衡。SpagoBI集成了OLAPServerMondrain和OLAP展示JProvit,能夠通過OpenLaszlo產生實時報表。SpagoBI使用java開發,不依賴于具體的操作系統,有很強的擴展能力。BI集成工具選型問題這些眾多的BI項目從規模和對BI系統支撐28開源BI工具之SpagoBISpagoBI集成了Mondrain和JProvit,能夠通過OpenLaszlo產生實時報表。SpagoBI使用java開發,不依賴于具體的操作系統,有很強的擴展能力。它主要包括:
1、報表工具:JasperReports/EclipseBIRT/iReport
2、OLAPServer:Mondrian
3、OLAP展示:JPivot
4、數據挖掘組件:Weka
5、Map引擎:Geo
6、ETL:BIE
7、搜索引擎:Lucene
8、Dashboard:OpenLaszlo
9、PortalServer:JBoss/Tomcat/JOnAS開源BI工具之SpagoBISpagoBI集成了Mond29開源BI工具之PentahoPentaho是一個以工作流為核心的、強調面向解決方案而非工具組件的BI套件,整合了多個開源項目,目標是和商業BI相抗衡。它包括如下開源組件:
1、工作流引擎:SharkandJaWE
2、數據庫:FirebirdRDBMS
3、集成管理和開發環境:Eclipse
4、報表工具:EclipseBIRT
5、ETL工具:Enhydra/Kettle
6、OLAPServer:Mondrian
7、OLAP展示:JPivot
8、數據挖掘組件:Weka
9、應用服務器和Portal服務器:JBoss
10、單點登陸服務及LDap認證:JOSSO
11、自定義腳本支持:MozillaRhinoJavascript腳本處理器Pentaho是一個很完善的BI解決方案。Pentaho偏向于與業務流程相結合的BI解決方案,側重于大中型企業應用。開源BI工具之PentahoPentaho是一個以工作流為核30Pentaho與Spago對比From張軼總:目前看Pentaho基本符合我們對數據平臺功能的要求。其中,PentahoDataIntergration(PDI)可以用作我們的數據平臺集成,并且其支持與Hadoop及周邊軟件集成。同時也支持絕大多數NoSQL。還有,對于Map/Reducejob也有很好支持。PentahoBusinessAnalytics(PBA)是一個數據分析、展示平臺,可以生成報表,做數據可視化,具有數據挖掘功能。Pentaho集成了很多第三方開源項目,這種集成是無縫的。Pentaho也有很好的Metadata管理功能。總之,它是一個很好的BI系統框架且完全開源。相信通過Pentaho,我們可以搭出一個PoC演示環境。后續我們還會做更進一步的研究。Pentaho與Spago對比From張軼總:目前看Pent31目錄MPP數據庫在數據中心的應用企業級數據中心定義數據中心中的大數據數據中心BI技術選型描述Hadoop在數據中心的應用數據中心ESB技術研究大數據技術與傳統數據中心的集成目錄MPP數據庫在數據中心的應用企業級數據中心定義數據中心中32企業應用集成EAI與ESB企業應用集成(EAI)是集成應用之間數據和服務的一種應用技術。它解決無限的問題,解決方案也幾乎沒有窮盡。目前常見的四種集成風格:1.文件傳輸:兩個系統生成文件,文件的有效負載就是由另一個系統處理的消息。該類風格的例子之一是針對文件輪詢目錄或FTP目錄,并處理該文件。2.共享數據庫:兩個系統查詢同一個數據庫以獲取要傳遞的數據。一個例子是你部署了兩個EAR應用,它們的實體類(JPA、Hibernate等)共用同一個表。3.遠程過程調用:兩個系統都暴露另一個能調用的服務。該類例子有EJB服務,或SOAP和REST服務。4.消息:兩個系統連接到一個公用的消息系統,互相交換數據,并利用消息調用行為。該風格的例子就是眾所周知的中心輻射式的(hub-and-spoke)JMS架構。這些風格迥然不同,因為沒有一種解決辦法能在任何情況下都良好運轉。這導致整個中間件領域都在基于這些模式尋求可用的解決辦法,通常被稱為企業服務總線(ESB)。ESB是最終的中間人:它知道如何使用各種語言在各種協議上調解傳遞的消息。ESB定義與主要功能:ESB全稱為EnterpriseServiceBus,即企業服務總線。它是傳統中間件技術與XML、Web服務等技術結合的產物。ESB提供了網絡中最基本的連接中樞,是構筑企業神經系統的必要元素。Invocation——同步和異步的傳輸協議的支持、服務的定位和綁定Routing——靜態和動態路由、基于內容路由、基于策略路由、基于規則路由Mediation——適配、協議轉換、服務映射Messaging——消息處理、轉換、增強Processchoreography——負責業務邏輯的實現Serviceorchestration——服務編排Complexeventprocessing——事件解釋、事件關聯、模式適配Otherqualityofservice——安全、可靠傳輸、事務Management——監視、audit、日志、計量、管理、BAM企業應用集成EAI與ESB企業應用集成(EAI)是集成應用之33ESB實施探討不推薦的實施:1、用ESB實現大數據傳輸:ESB并不適合完成該項功能,雖然它可以實現這一功能,但這并非最佳實踐。ESB作為企業級的服務聯通、管理平臺,需要穿透ESB的服務應該是企業內重用可能最大、價值最大的那些服務,應用程序對這類服務的訪問應該非常頻繁,因此同一時刻需要ESB支撐的業務可能非常繁重。所以,ESB產品的設計初衷是實現一個無狀態、高吞吐的服務總線,為企業內重要的業務服務提供透明、標準、開放的接入能力。這種實踐的原因是過分放大了ESB對數據的傳輸能力,如果在ESB傳輸巨大的信息,可能會導致ESB整體性能的下降,損害其他重要服務的QoS。2、挾ESB以令外圍應用:ESB的架構師在ESB上設計一套標準的數據接口(通用的XML格式),規定使用統一的協議(如WebService/HTTP)。所有的ESB服務消費者和接入ESB的服務必須符合該標準。其目的是為了簡化ESB上的開發工作。這就是一種“挾天子以令諸侯”的做法。ESB針對的是一個個功能各異的整合邏輯,服務之間的整合邏輯也是迥異的。所以,一勞永逸的ESB之上的架構是不存在的。3、用ESB實現業務流程:有些架構師看到ESB支持服務組合(ServiceComposition)模式,進而認為可用該模式來實現業務流程。因此,ESB產品就演變成了BPM產品。讓ESB實現BPM,特別是長運行的流程時,雖然在技術上可以實現,但是這違背了ESB產品的設計理念,會大大影響其ESB運行時的整體運行效率。推薦的實施:1、服務要管理起來:ESB的一個重要功能是將企業內/合作伙伴處的服務以開放的、標準的服務方式暴露出來,使得服務消費者能夠便利地查找到服務,以促進服務的重用、管理。2、復雜的動態路由規則應服務化:路由是ESB中非常重要的仲裁邏輯之一。路由場景是非常普遍的。譬如,針對不同的客戶提供不同QoS的場景,執行時需根據客戶的類型將其路由到不同執行能力的服務提供者;再比如當響應消息到達ESB時,總是需要將該響應消息送回最初的服務請求者處。對于復雜的路由,推薦將路由規則的邏輯外部化,并將它服務化。ESB實施探討不推薦的實施:34開源ESB之ServiceMix(SM)產品簡介:它是JBI規范的一種實現;包含很熟JBI組件。這些組件支持多種協議,比如JMS,HTTP,FTP,FILE等。同時也實現了EIP,規則和調度。SM也整合了其他的開源項目,比如Apache、ActiveMQCXF,ApaheCamel,ApacheODE以及ApacheGeronimo。優點:1、無縫集成CXF,ActiveMQ,Camel和ODE,因為ServiceMix,ActiveMQ,CXF,Camel都是FUSE的開源產品2、JBI的優勢,組件BC,SE可以在任何JBI容器中直接運行,復用性強3、基于OSGi,具備OSGi的優勢:模塊化,熱部署,易擴展缺點:1、基于JBI但JBI規范太復雜,已被主流中間件廠商拋棄,沒有受到業界的青睞,前途未卜。2、架構復雜,由于JBI的復雜性所致,其架構并非輕量級,過多依賴XML的配置。如果要做進一步的總線上的擴展,則需要對源代碼和例子進行較為深入的學習和研究。3、由于所有消息要進行標準化處理,即生成和解析XML文件,所以會導致性能下降;4、開發過程中需要實現框架特定接口(MessageExchangeListener)接收和處理上述標準消息,侵入性強(侵入業務系統)其他:JBI(JavaBusinessIntegration)是SUN公司解決SOA的方案,但JBI沒有得到IBM與BEA的承認(IBM與BEA等公司推薦SCA和SDO)。開源ESB之ServiceMix(SM)產品簡介:它是JBI35開源ESB之WSO2產品簡介:WSO2是基于ApacheSynapse產品的,通過它可以在web服務,REST/POX服務以及遺留系統間連接,管理和轉換服務交互。它還提供了一個基于AJAX的ESB管理控制臺對其配置文件進行統計分析,管理(添加,刪除以及修改等),和指定執行相應的配置文件。這在開源ESB中是非常少見的。優點:1、基于Axis(axis全稱ApacheEXtensibleInteractionSystem即阿帕奇可擴展交互系統),借助于Axis的特性,能非常好的支持ws規范,ws-*。因此非常適合WebService的場景。2、基于WSO2的Carbon平臺,Carbon是WSO2的基礎平臺,它是一個OSGi框架,幾乎WSO2的產品都能在上面無縫集成3、支持集群,集群中節點間的通信框架基于ApacheTribes(組通信框架),相關信息持久化在內嵌的Derby中,支持一個主節點和多個從節點2的都基于它。4、提供非常優雅的ESB管理控制臺。5、支持流量控制,在單個ESB實例或者集群中,可以在服務級別配置流量控制。當請求數超過閥值時,ESB將被拒絕訪問。6、支持數據緩存,集群中的各個ESB實例共享緩存的數據。當一個請求被ESB實例1處理完后返回響應信息,當再次向ESB實例1或者集群中其他的ESB實例發送該請求時,直接從緩存中取出原來的響應信息。缺點:1、架構不夠清晰,顯得有點臃腫、不簡潔、不夠優雅2、擴展性差,新增一個協議/transport非常困難3、組件比較凌亂,對多種協議(HTTP,WebService,JMS,FTP,EMAIL)的支持,部分依賴于Axis2,部分依賴于synapse開源ESB之WSO2產品簡介:WSO2是基于ApacheS36開源ESB之MuleESB輕量級的消息框架和整合平臺;基于EIP實現;核心組件UMO實現整合邏輯;支持20多種傳輸協議(File、FTP、UDP、SMTP、POP、HTTP、SOAP、JMS等)。并整合了許多流行的開源項目,比如Spring,ActiveMQ,CXF,Axis,Drools等。優點:1、輕量級、靈活性、易用性,容易上手。2、Mule不需將消息轉換成統一的格式,而只在需要時進行轉換,提高了性能。3、它有非常廣泛的傳輸器、路由器和轉換器,且易于擴展。4、開發過程中無需關注Mule代碼,只需通過配置即可將服務暴露,減少了侵入性。5、可以與現有ActivceMQ集成6、使用者最多,最活躍,版本更新快,提供與JBPM等工作流的良好集成7、提供的MuleStudio可進行圖形化開發,功能非常強大缺點:沒法熱部署新的集成流程沒有實現ESB的一些規范要求建議:其中,MuleESB是當下使用最多的開源集成平臺。MuleESB企業版價格低廉,配置、擴展簡單,而且靈活性強,使得它非常流行。開源ESB之MuleESB輕量級的消息框架和整合平臺;基于37開源ESB的相關文檔開源ESB的相關文檔38謝謝!謝謝!39數據中心相關技術與應用2013-12-02數據中心相關技術與應用2013-12-02目錄MPP數據庫在數據中心的應用企業級數據中心定義數據中心中的大數據數據中心BI技術選型描述Hadoop在數據中心的應用數據中心ESB技術研究大數據技術與傳統數據中心的集成目錄MPP數據庫在數據中心的應用企業級數據中心定義數據中心中41傳統的數據倉庫的架構數據源抽取、轉換、加載業務數據集市企業數據倉庫ETL元數據前端分析展現工具查詢工具、應用傳統的數據倉庫的架構數據源抽取、轉換、加載業務數據集市企業數42新一代數據中心定義企業數據中心是指建立在數據倉庫與數據倉庫之上的決策分析應用,應包括數據源、數據ETL、ODS數據庫、數據倉庫、數據集市、商務智能應用、數據管理等功能。數據中心應該具備常見數據的處理與管理能力,具備對結構化、半結構化、非結構化等數據的處理能力,同時支持RDB、MPP、NoSQL,同時具備數據的通用管理能力,以數據為中心進行平臺建設。數據中心數據平臺在接口層要豐富又簡單,可以提供各種應用所需接口,最大程度匹配已有接口,對應用改動需求力求最低。一個合理的數據平臺,不能等同于Hadoop或者其他某項單一技術建設;整體數據中心的建設,從數據采集層、存儲層、應用層都有完整的解決方案,同時具備平臺運維管理、接口管理、數據管理功能;數據中心數據管理能力至少應包含:1.元數據管理,2.數據質量管理,3.數據安全管理,4.數據可視化管理,5.數據生命周期管理。數據平臺必須針對數據提供完整方案,同時兼顧應用接口、其他平臺接入,系統管理、系統調度等功能。任何一種單一技術都難以適應數據中心數據采集、存儲、處理和對外服務的需求,多種技術并存才是發展趨勢。RDB、MPP、Hadoop采集處理層數據抽取/加載/檢查ETL調度數據交互、轉換數據映射數據層數據存儲數據聚合服務數據處理服務數據查詢服務事件通知服務信息子層KPI報表統一視圖知識庫接口層服務管理資料類數據服務指標類數據服務配置類數據服務清單累數據服務日志類數據服務OPENAPI數據管理功能數據生命周期管理數據可視化管理數據質量管理采集層數據質量管理數據質量規則、知識庫數據質量稽核指標運維數據安全管理4A認證隱私信息保護權限管控、審計追蹤元數據管理元數據獲取管理元數據存儲與模型管理元數據分析、展現、服務技術、業務元數據管理ODW-RDBODW-MPP分布式文件系統分布式關系數據庫分布式計算數據分發同步處理用戶管理權限管理備份與恢復日志管理設備監控指標資源池指標數據庫指標分布式系統指標指標匯總存儲管理資源池管理設備管理作業調度管理事件自動化規則配置執行引擎性能預警調度異常控制北向接口管理數據采集接口管理數據共享配置通用接口配置平臺管理功能數據服務功能綜合分析系統A+ABIS應用無線網優綜合監控系統信令監測系統日志上層應用其他應用新一代數據中心定義企業數據中心是指建立在數據倉庫與數據倉庫之43新一代數據中心功能視圖數據中心整體功能視圖可以分為數據服務功能模塊、平臺管理功能模塊,數據管理功能模塊,共同數據中心的應用。采集處理層數據抽取/加載/檢查ETL調度數據交互、轉換數據映射數據層數據存儲數據聚合服務數據處理服務數據查詢服務數據集市、OLAP接口層服務管理資料類數據服務指標類數據服務配置類數據服務清單累數據服務日志類數據服務OPENAPI數據管理功能數據生命周期管理數據可視化管理數據質量管理采集層數據質量管理數據質量規則、知識庫數據質量稽核指標運維數據安全管理4A認證隱私信息保護權限管控、審計追蹤元數據管理元數據獲取管理元數據存儲與模型管理元數據分析、展現、服務技術、業務元數據管理DW-RDBDW-MPP分布式文件系統非關系數據庫分布式計算數據分發同步處理數據服務功能用戶管理權限管理備份與恢復日志管理設備監控指標資源池指標數據庫指標分布式系統指標指標匯總存儲管理資源池管理設備管理作業調度管理事件自動化規則配置執行引擎性能預警調度異常控制北向接口管理數據采集接口管理數據共享配置通用接口配置平臺管理功能應用展示層企業數據中心元數據獲取采集層數據質量定義、稽核存儲庫模型定義采集數據分發新一代數據中心功能視圖數據中心整體功能視圖可以分為數據服務功44目錄MPP數據庫在數據中心的應用企業級數據中心定義數據中心中的大數據數據中心BI技術選型描述Hadoop在數據中心的應用數據中心ESB技術研究大數據技術與傳統數據中心的集成目錄MPP數據庫在數據中心的應用企業級數據中心定義數據中心中45數據中心引入大數據的意義與原則隨著半結構化、非結構化數據、互聯網數據等新型數據源的引入以及分析需求對分析深度和廣度的增加,以移動運營商行業為例,越來越需要大數據。主要包括如下:1、數據規模方面:GPRS流量話單的條數和數據量已經超過了語音詳單,而位置信令、Gn信令、客服語音、互聯網外部數據等規模更大,且還處在不斷增長的趨勢。2、數據類型方面:逐步從OLTP系統中獲得的結構化數據,過渡到結構化數據和互聯網網頁、上網日志等非結構化數據和半結構化數據共存。3、對數據的使用方面:不僅有批量的數據加工和前臺界面的訪問,臨時統計、數據挖掘等訪問需求也逐步增多。對歷史明細數據的訪問增多。對數據訪問的及時性增強。隨著數據中心越來越具備大數據平臺的特征,利用傳統的單一數據倉庫技術就難以滿足高效低成本的需求,需要引入相應的大數據技術。新技術的引入不能影響原有的使用感知,需要按照分階段逐步引入的方式。可以參考如下的幾個引入原則:1、先增量后存量。現有的數據處理系統引入大數據處理技術,面臨著模型改造、流程改造等一系列的問題,可以首先在新上線應用引入大數據處理技術。2、先邊緣后核心。對于原有功能的遷移,可以先遷移非關鍵的應用。這些應用不涉及到關鍵生產任務,可以忍受數據處理延遲和故障修復時間較高等可能出現的風險。3、先簡單后復雜。數據處理邏輯較簡單的應用也可以首先嘗試引入大數據處理技術,降低實施的復雜度,積累運維經驗。通過在大數據處理技術的規劃、實施及運維過程中積累經驗及教訓,不斷提升和完善大數據技術的應用水平,逐步拓展大數據技術應用領域。數據中心引入大數據的意義與原則46大數據在數據中心的應用場景大數據技術可以應用在以下場景(包括但不限于):1、原數據倉庫底層結構化數據處理(ETL或ELT)。底層結構化數據處理計算任務重但復雜性不高,不涉及多表關聯,適合引入大數據技術實現高效低成本。例如:對運營商的清單(語音詳單、GPRS清單、WLAN清單等)的清洗、轉換、匯總等。2、半結構和非結構數據處理與分析。例如對上網日志、網絡信令、客服語音等數據的處理和分析,這些數據難以利用傳統數據倉庫技術進行處理和分析。3、數據集市。地數據集市應用較為獨立,且對可靠性的要求并不是十分嚴格,適合作為引入大數據技術形成資源池,以移動運營商為例,可實現各地市、各部門數據集市的云化、池化和虛擬化,最終實現資源動態調配,達到高效低成本。4、數據倉庫數據分級存儲。對低價值的細節數據以及長周期的歷史數據(冷數據)訪問頻率較低,也能容忍相對較長的響應時間,可以存儲在成本更低的平臺上。5、數據挖掘。某些數據挖掘設計長周期的數據,計算時間很長(數天),占用很多數據倉庫資源。還有一些數據挖掘算法超出了關系代數計算范疇,需要抽取數據到獨立的計算平臺(例如SAS統計分析系統)中進行計算。這些數據挖掘任務可以遷移到大數據平臺之上進行計算。例如交往圈的計算,因其僅涉及單一數據,但數據量非常大,且需要多次迭代計算。6、對外查詢。數據中心不僅僅是數據處理,也需要將數據處理的結果對外提供查詢,而這些查詢一部分是海量的OLAP性質的查詢,另外還有一部分OLTP性質的查詢,即數量眾多但每次查詢量較少的。比如數據中心前端庫、與生產系統互動的數據庫以及提供流量詳單查詢的數據庫。這些查詢任務不能很好地運行在OLAP類數據庫之上,可以遷移到大數據平臺上。針對這些應用場景,可以看到,主要需要引入的是Hadoop和MPP技術,然后逐步考慮NoSQL、流計算和內存計算等技術的引入。大數據在數據中心的應用場景47Hadoop技術與MPP技術的比較
HadoopMPP傳統數據倉庫平臺開放性高低低運維復雜度高,與運維人員能力相關中中擴展能力高中低擁有成本低中高系統和數據管理成本高中中應用開發維護成本高中中SQL支持低高高數據規模PB級別部分PBTB級別計算性能對非關系型操作效率高對關系型操作效率高對關系型操作效率中數據結構結構化、半結構化和非結構數據結構化數據結構化數據Hadoop在處理非結構數據和半結構數據上具備優勢,尤其適合海量數據批處理等應用需求。當然隨著Hadoop技術的成熟,基于Hadoop的即席查詢技術也逐漸嶄露頭角。比如仿照Dremel的開源項目ApacheDrill以及ClouderaImpala。MPP適合替代現有關系數據結構下的大數據處理,具有較高的效率,但其在大規模集群(超過100個節點)下的可用性還有待試點證實。MPP數據庫場景下經常需要掃描大量的數據,所以對磁盤存儲系統的I/O性能要求非常高,在測試和日常運行中,I/O多大情況下是瓶頸,這點與Hadoop平臺可以明顯區分開來。Hadoop技術與MPP技術的比較
HadoopMPP傳統48目錄MPP數據庫在數據中心的應用企業級數據中心定義數據中心中的大數據數據中心BI技術規劃選型Hadoop在數據中心的應用數據中心ESB技術研究大數據技術與傳統數據中心的集成目錄MPP數據庫在數據中心的應用企業級數據中心定義數據中心中49MPP數據庫在數據中心的應用場景MPP數據庫適合結構化數據的深度分析、復雜查詢以及多變的自助分析類應用。它提供了統一的標準訪問接口(SQL),而無需像Hadoop一樣需要定制開發。MPP數據庫一般構建在X86平臺上,并使用本地盤而不用陣列,而且產品眾多,因為可以降低擁有成本。MPP數據庫產品在數據中心中可以用于以下場景(包括但不限于):數據集市:數據集市定位于以企業數據倉庫數據為基礎,結合其他相關數據,支撐特定業務場景或者業務部門需求的IT平臺。目前運營商數據中心中已經存在地市數據集市和部門數據集市。隨著新業務平臺分析需求的出現、不同分析特征的需求的出現,還有一些分析需求可以通過數據集市的方式進行承載,比如深度分析(AdvancedAnalysis)和自助分析(Self-ServiceAnalysis)。數據分級存儲(歷史庫或者明細庫):數據中心中數據存儲周期分為在線數據、近線數據、歸檔數據。目前在線數據及近線數據存放在數據倉庫,歸檔數據使用磁帶庫存放。帶來的問題是在線數據中不常訪問的數據占據數據倉庫寶貴的資源,針對歸檔數據的數據分析需求增加,而數據從磁帶庫恢復的時間無法滿足需求。數據中心數據倉庫的數據在完成近期數據支撐任務后,轉移到歷史庫中進行長周期存儲,支持后續數據訪問和長周期數據分析需求,同時可作為核心數據倉庫的備份,提升整體架構及數據的高可用性。MPP架構基于x86平臺構建,可高效低成本的實現歷史庫的建設需求。ETL:通過將數據的關聯匯總卸載到MPP數據庫上,可降低數據倉庫的負載,提高數據關聯匯總的性能,同時可以滿足后續數據量增長情況下的平滑擴容的需求。這部分的計算任務可以定位于數據倉庫外的復雜數據加工、數據匯總任務,其源數據可以來自業務系統,也可以來自ETL(專業ETL工具或者Hadoop)清洗、轉換后的話單或者經過ETL輕度匯總過的數據。其結果數據導入到基礎數據倉庫中供上層應用訪問。MPP數據庫在數據中心的應用場景MPP數據庫適合結構化數據的50MPP平臺選型建議對比項目TeradataEMC南大通用IBMHPAsterDataGreenPlumGBase8ADB2DPFOverGPFSVertica無共享MPP架構
-無主控節點
??*
?無共享MPP架構
-有主控節點??
支持行存儲??
?
支持列存儲???(10.5版本發布后)?當前構建在X86平臺上的新型MPP數據庫產品眾多,Garnter每年會發布一版數據倉庫魔力象限可以供參考。在大陸地區可以獲得技術支持的MPP產品及其特性如下(包括但不限于):不同架構的數據倉庫各有優缺點。比如帶主控節點(Master)的數據庫會存在單點故障,但各節點分工明確;無主控節點的數據庫不存在單點故障,但可能某各節點承擔的任務不平均。行存儲裝載數據快、壓縮率低、查詢速度稍慢;列存儲裝載數據滿、壓縮率高、查詢速度快,但部分產品的列存儲方式無法支持更新、刪除數據。硬件平臺的選型參考各廠家的指導文檔。MPP平臺選型建議對比項目TeradataEMC南大通用IB51MPP數據分布規劃得益于Share-Nothing的架構,MPP數據庫的所有表都是分布式存儲的,所以在創建表時都需要指定分布鍵,分布鍵可以是單一字段,也可以是復合字段,然后通過Hash方式去分布。合理的分布鍵設計可以使得大部分的表關聯操作在一個節點內完成,不需要跨節點進行數據交互,這是MPP數據庫產品(按行Hash分布)與Hadoop(選擇按照塊隨機分布)的根本差別。注意:在某個節點發生故障無法為整個MPP數據庫集群提供服務的情況下,數據庫會自動切換到副本機制,利用副本所在的服務器來提供服務。但是副本所在的服務器本身就要承擔自己正常的工作任務,這樣一來相當于負荷加重了一倍。所以故障情況下雖然整個數據庫集群可用,但是理論上的性能將下降到原來的一半,而不是按照退服節點比例的性能下降。MPP數據分布規劃得益于Share-Nothing的架構,M52目錄MPP數據庫在數據中心的應用企業級數據中心定義數據中心中的大數據數據中心BI技術選型描述Hadoop在數據中心的應用數據中心ESB技術研究大數據技術與傳統數據中心的集成目錄MPP數據庫在數據中心的應用企業級數據中心定義數據中心中53Hadoop在數據中心的應用場景分析場景為什么采用Hadoop采用的組件ETL1、降低原始數據存儲壓力
2、降低數據倉庫處理壓力
3、降低存儲和處理成本Hive/MR/Pig清單查詢1、快速響應海量數據查詢
2、降低查詢成本HBase機器學習和數據挖掘1、降低海量數據挖掘成本
2、縮短計算時間
3、實現更加靈活的算法mahout/R/MR冷數據存儲降低冷數據存儲成本降低冷數據查詢成本HiveOverHDFSHadoop在數據中心的應用場景分析場景為什么采用Hadoo54Hadoop在數據中心的應用場景-ETLHadoop平臺負責從接口機采集數據入HDFS分布式文件系統,并進行清洗、關聯、轉換、匯總、邏輯增強等,實現原始數據、明細數據和匯總數據的處理加工工作。具體實現上可以采用Hive或Pig用腳本來實現數據處理,也可以編寫Java或其他語言的程序(用到Hadoop流的功能),直接利用MapReduce框架來進行處理。Hadoop在數據中心的應用場景-ETLHadoop平臺負責55Hadoop在數據中心的應用場景-詳單查詢Oracle/DB2用戶詳單文件庫數據存儲服務接口話單查詢數據抽取數據解析數據翻譯用戶詳單統計分析收入保障呼叫中心飛信短信彩信WAPEmail網廳統一接入網關平臺用戶賬單HBase分布式數據庫(基于HDFS)……Hive分布式數據倉庫(基于HDFS)……前端查詢業務服務器集群……ETL服務器集群……清賬單數據抽取和轉換計費數據庫清賬單數據裝載入HBase歷史清賬單數據可從HBase導出裝載入Hive(可選)負載均衡設備查詢清單互聯網用戶清單云平臺采用基于大數據的Hadoop云架構,以PC服務器搭建大規模存儲集群。在數據處理方面:引入數據抽取、轉換、加載工具ETL,在入庫前對詳單中的各個字段含義進行翻譯,服務接口不再進行翻譯,提升查詢效率;在分布式存儲方面:引入基于x86服務器的分布式存儲技術,主要由Hbase、Hive、數據庫集成等功能組成,在提高系統的擴展性和彈性的同時,可以方便、快速地為應用增加或減少資源。某運營商省份的應用效果:應用前數據導入性能指標1M/秒,應用后達到45M/秒,性能提升44倍。應用前數據加載性能指標3萬條/秒,應用后達到17萬條/秒,性能提升4.67倍。應用前用戶查詢性能指標30個并發查詢/秒,應用后達到100個并發查詢/秒,性能提升233%。應用前并發查詢性能指標35.81毫秒/筆,應用后達到8.09毫秒/筆,性能提升77.4%。Hadoop在數據中心的應用場景-詳單查詢Oracle/DB56Hadoop在數據中心的應用場景-機器學習與數據挖掘、冷數據存儲Hadoop可以承載數據量較大、需要多次迭代關聯、涉及數據對象較為單一的數據挖掘計算。Hadoop上開源數據挖掘分析專題工具有mahout和R,也可通過MR接口編程實現所需的挖掘算法,可以實現以下數據挖掘:互聯網內容分析專題:客戶上網行為分析,關鍵詞排序,爬蟲,非結構化數據識別WLAN運營分析專題:WLAN終端分析,WLAN位置分析,WLAN與GPRS關聯分析,WLAN用戶群分析用戶交友圈分析專題:用戶個人語音交友圈分析,用戶個人短信交友圈分析,交友圈特征分析Hadoop可以承載歷史性、訪問頻率較低的數據,存放在Hadoop上仍然能夠實
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 中國家田雜糧項目投資可行性研究報告
- 提升黨建引領力的社區發展戰略措施
- 心理健康產業發展及心理疏導策略
- 低空經濟商業模式創新發展路徑
- 中國航空配餐行業市場調研及行業投資策略研究報告
- 信息化建設對公立醫院管理會計體系的推動作用
- 人力資源成本上升對制造企業整體成本結構的壓力
- 教育心理學與德育的結合
- 探索民辦教育機構的數字化轉型路徑
- 干眼癥的診斷及治療講課件
- 2023-2024學年四川省廣安市高二下學期期末教學質量檢測數學試題 (解析版)
- 夾具考試題及答案
- (高清版)DB31∕T 1530-2024 心理咨詢機構服務規范
- 青海省消防救援總隊招聘消防文員筆試真題2024
- 勝保養操作手冊江鈴馭
- 疫苗及其制備技術課件
- 阿里巴巴公司價值觀實施細則
- 安全防范系統設計方案
- 《人衛版第九版內科學心力衰竭》課件PPT
- 中國監察制度史
- 竣工驗收證書(模板)
評論
0/150
提交評論