




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
智慧金融:金融集團大數據分析平臺總體架構方案智慧金融:議程大數據分析平臺綜述1大數據分析平臺總體架構2大數據分析平臺演進路線3大數據分析平臺一期實施重點4附錄:數據質量管理平臺5議程大數據分析平臺綜述1大數據分析平臺總體架構2大數據分析平金融集團管理分析類應用建設現狀基本分析關注的內容存在的問題基本的現狀商城數據倉庫累積數據沒有充分利用缺乏面向整個金融集團的統一、完整的數據視圖;缺乏支撐金融集團日常業務運轉的風險評估體系;缺乏金融集團客戶360度視圖,客戶行為分析和預測無法實現;缺乏面向金融業務運營管理的關鍵績效指標體系;……商城已建立面向整個零售業務的數據倉庫,整合了前臺業務運營數據和后臺管理數據,建立了面向零售的管理分析應用;金融集團已開展供應鏈金融、人人貸和保理等多種業務,積累了一定量的業務數據,同時業務人員也從客戶管理、風險評級和經營規模預測等方面,提出了大量分析預測需求;……數據平臺、數據應用、數據管控……基礎數據平臺和BI應用建設是未來一段時間的重點!數據平臺整體架構;數據平臺各層建設的標準;較成熟的金融業數據模型;數據質量治理;元數據管理;
數據標準建設數據整合;
數據應用建設;數據平臺的軟硬環境……金融集團管理分析類應用建設現狀基本分析關注的內容存在的問題基大數據分析平臺建設目標外部非結構化數據統一制定目標和分析模型統一劃分分析主題統一設計數據模式統一規劃分析方法統一部署技術基礎統一定義BI應用自定義報表工具行+列的簡單定義方式多種格式報表集團決策層集團職能管控層各級業務操作層關注集團主要經營指標業務人員使用BI應用實現業務協作和創新BI分析工具供應鏈金融系統POP系統其他業務系統云數據推送平臺已實現了主要零售及金融業務系統數據清洗、整合,為未來金融集團數據平臺提供了豐富的數據源。通過數據平臺和BI應用建設,金融集團將搭建統一的大數據共享和分析平臺,對各類業務進行前瞻性預測及分析,為集團各層次用戶提供統一的決策分析支持,提升數據共享與流轉能力采購管理系統查看職能部門的業務經營情況大數據分析平臺建設目標外部非結構化數據統一制定目標和分析模型大數據分析平臺建設預期收益2.加強業務協作實現分散在供應鏈金融、人人貸、保理等各個業務系統中的數據在數據平臺中的集中和整合,建立單一的產品、客戶等數據的企業級視圖,有效促進業務的集成和協作,并為企業級分析、交叉銷售提供基礎3.促進業務創新金融集團業務人員可以基于明細、可信的數據,進行多維分析和數據挖掘,為金融業務創新(客戶服務創新、產品創新等)創造了有利條件4.提升建設效率通過數據平臺對數據進行集中,為管理分析、挖掘預測類等系統提供一致的數據基礎,改變現有系統數據來源多、數據處理復雜的現狀,實現應用系統建設模式的轉變,提升相關IT系統的建設和運行效率5.改善數據質量從中長期看,數據倉庫對金融集團分散在各個業務系統中的數據整合、清洗,有助于企業整體數據質量的改善,提高的數據的實用性通過數據平臺實現數據集中,確保金融集團各級部門均可在保證數據隱私和安全的前提下使用數據,充分發揮數據作為企業重要資產的業務價值1.實現數據共享大數據分析平臺建設預期收益2.加強業務協作實現分散在供應鏈金議程大數據分析平臺綜述1大數據分析平臺總體架構2大數據分析平臺演進路線3大數據分析平臺一期實施重點4附錄:數據質量管理平臺5議程大數據分析平臺綜述1大數據分析平臺總體架構2大數據分析平大數據分析平臺總體架構歷史數據查詢數據交換平臺應用集市數據區商城零售供應鏈金融人人貸系統基金系統……系統企業內外部半結構化、非結構化數據大數據交換組件數據庫數據交換組件數據區數據交換組件數據計算層大數據區沙盤演練數據區數據應用層實時數據區客戶主題協議主題產品主題業務沙盤演練數據增值產品零售數據供應鏈數據增值產品數據區主題數據區……用戶訪問層客戶匯總賬戶匯總機構匯總……社交媒體移動互聯用戶評價訪問日志處理后大數據待處理大數據流程調度監控告警數據標準數據質量元數據數據安全流程調度平臺……數據管控平臺流程調度層數據管控層數據產生層數據交換層實時數據查詢客戶管理財務管理……外部用戶貼源數據區……內部管理分析內部用戶歷史歸檔數據區IT人員風險管理大數據分析平臺總體架構歷史數數據交換平臺應用集市數據區商城零大數據分析平臺總體架構——數據產生層內部業務系統產生的結構化數據商城日常零售業務處理過程中產生的結構化數據,存儲在關系型數據庫中,如:供應商信息、采購信息、商品信息、銷售流水……金融集團日常業務處理過程中產生的結構化數據,存儲在關系型數據庫中,如:客戶信息、賬戶信息、金融產品信息、交易流水……企業內部非結構化數據日常業務處理過程中產生的非結構化數據,存儲形式多樣,主要包括用戶訪問日志、用戶投訴、用戶點評……企業外部數據企業外部數據以非結構化為主,主要包括國家政策法規、論壇等互聯網信息、地理位置等移動信息、微博等社交媒體信息……
源數據內容在本次項目實施中將采用以增量為主、全量為輔結合的方式獲取源數據商城和金融集團業務系統的數據增量數據識別、獲取由云數據推送平臺負責,云數據推送平臺采用分析、對比源系統日志方式實現對于無法通過上述方式獲取增量的源系統數據,則采用某一個時間范圍內的全部數據作為增量初始數據加載均采用全量模式源數據增量大數據分析平臺總體架構——數據產生層內部業務系統產生的結構化大數據分析平臺總體架構——數據交換層數據交換層設計目標傳輸組件是根據數據源存儲的不同分類而設計的,本質是通過分析數據存儲結構和數據存儲庫的特點來針對性的設計工具,以追求卓越的性能保證數據在平臺內高速流轉保證數據交換過程中不失真保證數據交換過程中不丟失保證數據交換過程安全可靠數據區數據交換組件數據庫數據交換組件大數據交換組件金融集團系統數據服務層外部大數據商城系統Hadoop元數據云數據推送平臺數據平臺導入臨時區數據平臺導出臨時區NAS存儲ETL程序區大數據分析平臺總體架構——數據交換層數據交換層設計目標傳輸組大數據分析平臺總體架構——數據交換層NAS存儲Hadoop集群元數據區數據平臺ETL數據處理程序區數據平臺臨時數據區存儲數據平臺各個Hadoop集群的元數據信息,如:HDFS文件系統元數據集團數據交換平臺每日獲取運輸局推送平臺提供的業務系統變化數據,暫存在NAS臨時數據區金融數據平臺加工計算結果返回給業務系統,暫存在NAS臨時數據區數據平臺ETL加工處理程序(數據壓縮、數據加載、各數據數據處理等)統一存儲在NAS集群指定目錄,各接口服務器通過文件系統Link建立映射大數據分析平臺總體架構——數據交換層NAS存儲Hadoop集大數據分析平臺總體架構——數據交換層大數據交換組件企業內部非結構化、半結構化數據,如:音頻、視頻、郵件、Office文檔、抵押品掃描件等企業外部非結構化、半結構化數據,如:微博、貼吧、論壇、用戶點擊流、用戶移動位置等批量采集:大數據源以SFTP協議批量傳輸數據文件在線訪問:開發Java或C應用,調用大據源API,或以網絡平臺爬蟲方式抓取源系統非結構化、半結構化數據組件以實時和批量兩種模式實現下列功能:數據采集數據傳輸到數據交換平臺(接口服務器)NAS指定目錄存儲數據到數據平臺大數據區指定HDFS目錄定時抽取用戶訪問日志,加載到數據平臺大數據區HDFS指定目錄,MR程序加工處理開發網絡爬蟲程序,掃描用戶微博,抓取用戶微博內容,社交圈信息,存入大數據區處理對象實現技術實現功能應用場景大數據分析平臺總體架構——數據交換層大數據交換組件企業內部非大數據分析平臺總體架構——數據交換層數據庫數據交換組件企業內部業務系統產生的結構化數據,包括兩大來源:商城零售業務數據,數據存儲在Oracle、SQLServer、MySQL和MongoDB四類數據庫金融集團互聯網金融業務數據,數據存儲在MySQL數據庫Perl程序數據采集,調用Perl文件模塊相關函數,輪詢指定目錄,獲取數據文件數據核查,Perl執行文件級數據質量檢查數據加載,調用HiveLoad數據命令,加載到數據平臺臨時數據區的HiveTable組件以實時和批量模式實現下列功能:數據采集,輪詢NAS集群指定目錄,獲取數據文件(LZO壓縮)數據核查,對數據文件進行質量校驗數據加載,加載數據到臨時數據區云數據推送平臺連接供應鏈金融系統數據庫,分析供應鏈金融MySQL數據庫日志,識別增量數據,存儲到金融平臺NAS存儲的指定目錄,金融平臺加載數據文件到數據平臺臨時區Hive表處理對象實現技術實現功能應用場景大數據分析平臺總體架構——數據交換層數據庫數據交換組件企業內大數據分析平臺總體架構——數據交換層數據區數據交換組件數據平臺計算層各數據區貼源數據區主題數據區集市數據區沙盤數據區大數據區歸檔數據區Sqoop實現集市數據區與數據平臺其他Hadoop數據區的數據交換Hadoop命令、Hive外部表、MR程序實現數據平臺Hadoop數據區間的數據交換組件以批量方式實現下列數據交換功能:貼源數據區和主題數據區到集市數據區大數據區到主題數據區和集市數據區主題數據區、貼源數據區、集市數據區到沙盤數據區各個數據區數據歸檔數據集市的數據按照據生命周期規劃,統一將過期數據歸檔到歷史數據歸檔區處理對象實現技術實現功能應用場景大數據分析平臺總體架構——數據交換層數據區數據交換組件數據平大數據分析平臺總體架構——流程調度層批量處理流程批量數據處理由流程調度層部署的自定義開發WorkFlow組件調度運行整個流程主要完成如下工作:獲取業務系統結構化數據,存入臨時數據區獲取企業內外部非結構化數據,并進行結構化處理,存入主題或集市數據區按照貼源數據模型整合數據(標準化、數據更新/追加)按照主題數據模型整合數據并生成匯總數據加工計算后,結果交付到數據集市,支持分析類應用大數據分析平臺總體架構——流程調度層批量處理流程批量數據處理大數據分析平臺總體架構——流程調度層實時數據處理流程實時數據處理強調的是實時或準實時獲取并處理數據,通常采取消息隊列等技術構建“數據流”整個處理流程由流程調度層部署的自定義開發WorkFlow組件調度運行整個流程主要完成如下工作:通過數據庫數據交換組件獲取增量數據,加載到實時數據區通過大數據交換組件獲取非結構化數據,并利用Storm處理數據,加載到實時數據區針對實時數據區數據執行標準化處理和貼源整合大數據分析平臺總體架構——流程調度層實時數據處理流程實時數據大數據分析平臺總體架構——流程調度層歸檔數據處理流程數據歸檔的對象包括業務系統數據文件、貼源數據區數據、主題數據區數據、大數據區數據和集市數據區數據數據按照生命周期規劃存儲到歸檔區Hadoop集群,歸檔后原數據區刪除此數據整個處理流程由流程調度層部署的自定義開發WorkFlow組件調度運行整個流程主要完成如下工作:數據文件通過HDFS命令行copyfromlocal進行歸檔貼源、主題和大數據區通過HDFS命令行distcp或自定義開發的MR程序執行歸檔集市數據區通過Sqoop或數據庫提供的Hadoop集成技術(如:外部表)執行歸檔大數據分析平臺總體架構——流程調度層歸檔數據處理流程數據歸檔大數據分析平臺總體架構——數據存儲層業務系統前日增量數據緩存數據,支持后續ELT數據處理數據內容主要用途數據模型保留周期用戶
訪問模式工作負載平臺要求貼源數據模型保存最近7天數據貼源數據區和主題數據區批量作業訪問無最終用戶訪問I/O敏感,連續小批量的數據抽取和加載少量量數據使用Hive的Load命令,大量數據使用MR程序與主題區/貼源區/集市區構成一個Hadoop集群(Hive)無單點故障,7×24小時+非工作日有限停機主題數據區、集市數據區和沙盤演練數據區批量作業訪問無最終用戶訪問I/O敏感,日終批量ETL以ELT形式通過HiveSQL執行與主題區/貼源區/集市區構成一個Hadoop集群(Hive)無單點故障,7×24小時+非工作日有限停機貼源數據模型不保存歷史業務系統前日快照數據和一段時間的流水數據數據標準化,為后續主題模型、集市和沙盤演練提供數據臨時數據區貼源數據區大數據分析平臺總體架構——數據存儲層業務系統前日增量數據數據大數據分析平臺總體架構——數據存儲層(續)企業內外部非結構化、半結構化數據采集并存儲數據,進行結構化處理,最終得到結構化數據數據內容主要用途數據模型保留周期用戶
訪問模式工作負載平臺要求數據按照HDFS文件存儲建議保留1年集市區/沙盤區/增值產品區/主題區/歸檔區批量作業訪問少量高級業務人員進行大數據分析MapReduce分布式計算,半/非結構化數據的結構化處理(包括文本檢索、語義分詞、圖像識別、音頻識別等)與主題區/貼源區構成一個Hadoop集群(HDFS)無單點故障,7×24小時+非工作日有限停機集市區/沙盤區/增值產品區/主題區/高時效區批量作業訪問業務人員執行歷史數據查詢MapReduce分布式計算,HDFS命令實現Hadoop集群內歸檔,Sqoop實現數據庫歸檔,通過Hive提供歷史查詢獨立的Hadoop集群(HDFS+Hive)無單點故障,7×24小時+非工作日有限停機數據按照HDFS文件存儲數據文件按照數據區劃分目錄,建議保留7年其他各數據區歷史數據按數據生命周期規劃歸檔平臺過期數據,支撐歷史數據查詢大數據區歷史歸檔數據區大數據分析平臺總體架構——數據存儲層(續)企業內外部非結構化大數據分析平臺總體架構——數據存儲層(續)業務系統歷史明細數據打破業務條線整合數據數據內容主要用途數據模型保留周期用戶
訪問模式工作負載可用性要求第三范式模型保留長期歷史,需要根據主題細化主題區/集市區/沙盤區/增值產品區/歸檔區批量作業訪問少量高級業務人員進行靈活查詢、挖掘預測I/O敏感,日終批量ETL(合并、拉鏈、關聯、匯總等等)以ELT形式通過HiveSQL執行,復雜處理使用MR定制UDF與大數據區/貼源區構成一個Hadoop集群(Hive)無單點故障,7×24小時+非工作日有限停機集市區/沙盤區/增值產品區/歸檔區批量作業訪問少量高級業務人員進行靈活查詢、挖掘預測I/O敏感,日終批量ETL(連接、聚合、匯總等等)以ELT形式通過HiveSQL執行,復雜處理使用MR定制UDF與大數據區/貼源區構成一個Hadoop集群(Hive)無單點故障,7×24小時+非工作日有限停機逆范式寬表依賴于集市數據需求對主題數據預加工后的結果數據針對應用需求進行數據預連接、預匯總,為集市提供數據主題數據區—明細主題數據區—匯總大數據分析平臺總體架構——數據存儲層(續)業務系統歷史明細數大數據分析平臺總體架構——數據存儲層(續)按沙盤演練需求,準備的明細或匯總業務數據為數據科學家的挖掘預測操作提供數據服務數據內容主要用途數據模型保留周期用戶
訪問模式工作負載可用性要求模型依賴于沙盤演練需求在整個沙盤演練周期內保留集市區/沙盤區/歸檔區批量作業訪問少量高級業務人員進行靈活查詢、挖掘預測I/O敏感,終批量ETL(合并、拉鏈、關聯、匯總等等)以ELT形式通過HiveSQL執行,復雜處理使用MR定制UDF獨立的Hadoop集群(HDFS)無單點故障,7×24小時+非工作日有限停機沙盤區/歸檔區批量作業訪問決策人員、管理人員、業務人員訪問I/O敏感型,BI工具提交的報表、查詢、分析SQL命令和日終批量ETL(匯總、聚集等操作,以ELT形式通過SQL執行)基于開放平臺的完全無共享
MPP數據庫集群+內存數據庫無單點故障,7×24小時+非工作日有限停機維度數據模型依賴業務需求面向企業內部管理分析類應用需求的匯總數據為客戶、運營等管理分析主題和數據增值產品提供數據服務沙盤演練數據區應用集市數據區大數據分析平臺總體架構——數據存儲層(續)按沙盤演練需求,準大數據分析平臺總體架構——數據存儲層(續)根據外部用戶的數據使用需求數據平臺加工計算的結果數據為部署在數據平臺上的企業內外部增值產品提供數據支持數據內容主要用途數據模型保留周期用戶
訪問模式工作負載可用性要求應用模型,依賴于用戶業務需求依賴于用戶業務需求企業外部人員,如:京東客戶通過自己部署在Paas平臺上的應用訪問I/O敏感型,BI工具提交的報表、查詢、分析SQL命令和日終批量ETL(匯總、聚集等操作,以ELT形式通過SQL執行)獨立的Paas平臺,部署Hadoop集群無單點故障,7×24小時+非工作日有限停機企業業務人員高時效、高并發、高可靠性的聯機交易類查詢CPU敏感,BI工具或業務系統高并發、高時效查詢,以及準實時連續ETL處理+SQL批量處理獨立的內存數據庫集群無單點故障,365×24小時不停機貼源數據模型依賴用戶業務需求面向應用的業務系統快照數據和一段時間的交易流水為實時獲準實時分析應用提供數據服務增值產品數據區實時數據區大數據分析平臺總體架構——數據存儲層(續)根據外部用戶的數據大數據分析平臺總體架構——數據存儲層數據流數據集成層操作型聚合數據臨時數據區實時數據區公共匯總數據主題明細數據結構化數據非結構化&半結構化數據沙盤演練數據區實驗室數據集市數據區POP自營數據貼源數據區金融業務數據主題數據區客戶管理集市財務管理集市運營管理集市風險管理集市……集市大物流系統數據供應鏈系統數據財務審計數據財務研發數據操作型明細據歸檔數據區大數據區源系統數據文件貼源數據主題數據集市數據高時效數據大數據增值產品數據區大數據分析平臺總體架構——數據存儲層數據流數據集成層操作型聚大數據分析平臺總體架構——數據應用層大數據平臺應用針對公檢法查詢需求、內外部審計需求和最終用戶的歷史交易查詢需求,以貼源存儲的歸檔數據為基礎,實現的查詢類應用歷史查詢類應用通常使用BI工具或自主開發實現客戶經理等最終業務人員針對當前業務的發生(如:用戶交易、用戶訪問日志),進行實時查詢、分析的應用管理分析類應用主要實現了集團客戶管理、運營管理、財務管理、風險管理、監管信息披露五大分析體系功能管理分析類應用通常采用套裝軟件和BI工具(MicroStrategy等)實現業務人員根據業務需求或自己對業務的理解,設計計算模型,準備各類明細或匯總數據,導入模型運算,驗證業務結果沙盤演練類應用通常使用R語言在Hadoop分布式體系下實現金融集團數據科學家根據自己對業務需求的理解或者對市場的判斷,設計并運行模型,發掘數據價值,并封裝成商業產品數據增值產品通常采用R語言和BI工具實現,面向企業內外部用戶管理分析類應用1沙盤演練類應用3歷史查詢類應用4高時效類分析應用5數據增值類產品2實時分析類應用通常使用CEP、ESB等技術實現大數據分析平臺總體架構——數據應用層大數據針對公檢法查詢需求大數據分析平臺總體架構——平臺發展不同階段對應應用工作負載復雜度大數據平臺發展階段劃分操作為主階段什么正在發生?動態數據倉庫階段
讓正確的事情發生!分析為主階段為什么會發生報表為主階段發生了什么預測為主階段將會發生什么?批量隨機查詢數據分析持續更新加載/短查詢基于事件的動態觸發數據量增長用戶數增長查詢復雜度增長ETL處理復雜度增長管理分析類應用歷史查詢類應用實時分析類應用沙盤演練類應用數據增值類產品大數據分析平臺總體架構——平臺發展不同階段對應應用工作負載復大數據分析平臺總體架構——管理分析類應用總賬分析資產負債表分析損益表分析現金流量表分析財務指標分析盈利分析機構貢獻度產品貢獻度客戶細分貢獻度渠道績效資產負債分析主要指標報告,如:凈利息收入、凈收入、凈現值、市場價值等頭寸報告現金流報告風險價值(VaR)計算財務預算與計劃財務預算財務計劃執行監控執行過程分析年末財務計劃執行分析預測與場景分析業務規模預測收益預測……領導管理駕駛艙機構績效考核客戶經理考核客戶經理工作量評估客戶經理服務客戶收益評估產品績效考核業務量考核供應鏈金融業務人人貸業務保理業務基金業務其它中間業務……渠道成本與收益……風險監控報表/信息披露流動性報表利率敏感性報表資本充足率報表……市場風險市場風險暴露值流動性管理、利率管理信用風險信用風險暴露值計算信用風險控制(貸前控制、貸中監控、貸后分析)操作風險異常交易預警后督差錯檢查……防欺詐/反洗錢定義欺詐交易模型可能性欺詐交易預警欺詐交易分布分析全面風險管理……目前監管機構沒有明確要求客戶單一視圖公司客戶信息管理個人客戶信息管理同業客戶信息管理目標客戶搜索重點客戶關懷客戶風險客戶異動客戶客戶細分個人客戶細分公司客戶細分客戶行為分析客戶輪廓分析產品交叉銷售分析百分比分析渠道偏好分析營銷活動管理營銷活動規劃營銷活動定義營銷活動執行營銷活動蘋果營銷活動自動化渠道接口與集成流程自動化……客戶管理運營管理財務管理風險管理監管披露示例大數據分析平臺總體架構——管理分析類應用總賬分析領導管理駕駛大數據分析平臺總體架構——數據訪問層即席查詢:通過即席查詢工具或手工書寫SQL語句,完成業務信息的即席查看多維分析:從多個維度靈活組合對目標值進行分析,常見功能包括上下鉆取、透明鉆取、旋轉、分頁、層鉆、跨維鉆取等主動問題發現:通過事件觸發、規則匹配等方式發現企業運營中的問題,通過手機、郵件等方式報警決策層管理層業務人員即席查詢靜態報表多維分析儀表盤挖掘預測儀表盤:通過儀表盤及其它展現方式對企業關鍵績效指標進行展示,為領導層決策提供直觀的數據支持靜態報表:按照預先定義格式,批處理報表,在線查詢報表等Office集成:將分析應用嵌入到Office界面中,利用Office的方便、易用特性,降低用戶使用難度問題發現Office集成Web服務挖掘預測:使用專業的軟件工具,通過數理統計等高級統計分析算法,分析結構化、非結構化數據,通過數據模型去挖掘隱藏在數據中的價值數據科學家業務系統Web服務:將分析應用的功能發布為Web服務,注冊在企業服務總線上,供其它業務系統或分析應用調用,獲取分析結果多種展現形式滿足各層級用戶及應用系統使用需求大數據分析平臺總體架構——數據訪問層即席查詢:通過即席查詢工大數據分析平臺總體架構——數據管控層金融數據管控體系涵蓋組織架構、評價與考核、管控流程、管控平臺四個域。數據標準管理數據質量管理元數據管理工作流管理……組織數據與信息標準化委員會數據管理人數據所有人數據生產人數據使用人IT支持團隊考核指標責任評價標準執行評價政策執行評價評價標準數據類型數據格式業務分類真實性定義及時性定義完整性定義技術元數據流程評價與考核流程考核指標建立/維護流程標準建立/維護流程組織建立/維護流程評價與考核業務含義一致性定義數據認責平臺安全等級權限定義數據停用數據共享數據移動數據存儲數據創建業務元數據管理元數據數據全生命周期數據安全管理數據標準數據質量元數據數據安全…………審計定義保留策略……大數據分析平臺總體架構——數據管控層金融數據管控體系涵蓋組織大數據分析平臺總體架構——數據管控體系內部運轉機制管控組織數據管控委員會數據所有人數據認責人IT支持……管控流程數據接入流程數據變更流程數據授權流程數據退役流程標準/政策制定流程評價考核流程……評價與考核標準(數據標準、質量要求、安全要求)遵守標準所需要的政策政策與標準遵從考評定義……數據產生者數據使用者………流程支撐流程支撐制定管控平臺工具支撐明確了數據管控過程中的組織結構、角色、職責等。管控組織除了要負責制定數據標準、質量、安全等要求外,還需要負責制定管控的相關流程和評價考核指標等內容。考評制定通過建立一些定性或定量的數據管控評價考核指標,去評估及考核數據相關責任人職責履行情況、數據管控標準及數據政策的執行情況等。規范了數據管控過程中,各個環節日常任務處理的運作模式,例如數據定義如何變更、數據沖突如何協調等。采用專門的技術平臺支撐管控流程的自動化,發布管控組織制定的一些相關標準和規范,及時反映管控過程中存在的一些問題等。管控綜合管理標準/規范管理流程管理考核儀表盤……元數據管理業務元數據管理技術元數據管理管理元數據分析……數據質量管理稽核規則管理數據稽核質量報告……工具支撐組織架構、評價與考核、管控流程、管控工具這四個域相互作用、相互支撐,提供對各信息系統數據的管控。大數據分析平臺總體架構——數據管控體系內部運轉機制管控組織管大數據分析平臺總體架構——數據管控組織數據管控組織是數據管控體系中最重要的因素,它負責定義和管理業務數據相關標準,制定遵尋標準所必須的政策,監測正在進行的數據管控行動。數據管控組織是否有完整與合理的角色定義、是否有高層領導的參與,是整個數據管控的成敗的關鍵。典型的數據管控組織如下所示:數據管控負責部門崗位角色數據管控主導方信息管理委員會
數據標準管理員數據質量管理員數據產生部門數據管控參與方業務協調人數據分析員數據主管數據使用部門業務協調人數據分析員數據主管數據擁有部門業務協調人數據分析員數據主管數據管理部門運維組織實施項目組數據安全管理員數據管控經理元數據管理員大數據分析平臺總體架構——數據管控組織數據管控組織是數據管控大數據分析平臺總體架構——數據標準管理消除一數多義,提升數據的唯一性、一致性,將逐步形成的數據標準納入一個規范的管理流程中,進行數據標準的更新、發布、使用監督等工作。數據標準管理工作可以分為以下幾個部分:數據標準建立和維護、數據標準執行、數據標準管理的考評。數據標準建立和維護數據分類數據結構關鍵業務對象關鍵代碼數據維度代碼映射客戶類數據標準產品類數據標準。。。類數據標準數據標準執行數據標準管理的考評定性考評定量考評數據標準分析報告數據標準理念推廣歸檔系統……ODS大數據分析平臺總體架構——數據標準管理消除一數多義,提升數據大數據分析平臺總體架構——數據質量管理數據質量管理框架藍圖如下,其中數據質量提升是改進數據質量的手段和質量考評的目的:數據質量要求確認,根據業務要求制定和明確數據質量要求,同時也需要符合數據標準的要求;數據質量考評,對數據質量的量化評價制定數據質量問題解決方案,根據數據質量考評和日常工作中發現的數據質量問題,實施相應的措施,提升數據質量數據質量要求業務規則數據一致性要求數據完整性要求數據唯一性要求數據準確性要求數據及時性要求數據質量標準數據質量驗證規則數據質量考核指標數據質量提升數據補錄手工修正自動修正數據質量考評數據質量監控不定期數據質量檢查數據質量分析報告大數據分析平臺總體架構——數據質量管理數據質量管理框架藍圖如大數據分析平臺總體架構——元數據管理業務元數據:面向業務人員,從業務術語、業務描述、業務指標和業務規則等幾個方面對數據進行描述管理元數據:面向數據管理人員,從運維管理的角度描述數據處理、數據質量和數據安全的狀態信息技術元數據:面向技術人員,從數據結構和數據處理細節方面對數據進行技術化描述大數據分析平臺總體架構——元數據管理業務元數據:面向業務人員大數據分析平臺總體架構——數據安全管理數據安全管理可分為數據安全分級管理和數據訪問授權管理兩個部分:數據安全分級:根據業務要求,制定一系列的數據安全分級標準和政策,為數據應用以及數據管理中實施數據安全保護和訪問提供數據安全控制的基礎。數據訪問授權:數據訪問授權的主要工作是根據數據安全分級標準,定義數據訪問的授權方法及流程,建立基于數據安全分級的數據使用授權機制,實現數據訪問和信息披露的安全。數據安全分級數據敏感度數據安全等級定義數據訪問授權數據重要性數據使用需求數據使用者權責數據訪問授權規則安全技術大數據分析平臺總體架構——數據安全管理數據安全管理可分為數據大數據分析平臺總體架構——高階工作流程業務數據規劃管理高階流程數據認責流程數據治理考核體系數據治理考核流程數據治理考核指標體系數據標準管理管理高階流程數據標準建立流程數據標準維護流程數據質量管理管理高階流程數據質量要求確定流程元數據管理高階流程元數據變更流程數據安全管理管理高階流程數據安全審批流程數據認責流程數據標準、質量、元數據、安全管理流程協調會議考核流程大數據分析平臺總體架構——高階工作流程業務數據規劃管理高階流大數據分析平臺總體架構——數據管控平臺數據管控平臺從總體上來說分為數據層、應用層、展現層三個主要層面,以數據層的數據庫及相關基礎系統為主要信息來源,通過應用層的運算處理,以不同的形式,不同的功能在展現層提供用戶接口首頁標準管理主菜單指標速遞待辦事項信息地圖標準瀏覽標準維護工作管理流程管理績效指標系統管理用戶管理權限管理規范管理數據管控平臺統一用戶集成界面數據標準知識庫數據管控平臺知識庫……元數據管理元數據采集……元數據知識庫質量管理規則配置……質量稽核庫數據層應用層展現層大數據分析平臺總體架構——數據管控平臺數據管控平臺從總體上來大數據分析平臺總體產品框架非結構化/半結構化數據管理分析平臺(X86MPP集群)京東業務系統結構化數據基礎計算平臺(貼源數據區+主題數據區+大數據區)(Hadoop集群+Hive)數據交換平臺(自主開發交換組件+NAS存儲)實時分析平臺(內存數據庫)沙盤演練平臺(Hadoop集群)數據管控平臺FTPSFTP/HTTP/APICopyfromloalQueue京東云數據推送平臺增值產品平臺(Hadoop集群)歷史歸檔查詢平臺(Hadoop集群+Hive)Load(Hive)DistcpHQL+LoadDistcpDistcpHQL+LoadDistcpHQL+LoadSqoopSqoopSqoopMR流程調度平臺大數據分析平臺總體產品框架非結構化/半結構化數據管理分析平臺議程大數據分析平臺綜述1大數據分析平臺總體架構2大數據分析平臺演進路線3大數據分析平臺一期實施重點4附錄:數據質量管理平臺5議程大數據分析平臺綜述1大數據分析平臺總體架構2大數據分析平大數據分析平臺演進路線以基礎平臺搭建為主,配合金融集團初期業務開展,應用建設從客戶信息管理、風險管理和運營管理三方面開展搭建大數據處理平臺和實時分析平臺,應用方面開展實時分析和數據產品封裝開展客戶信息管理、信用風險評級和業務統計分析三類應用建設開展貼源數據整合,初步建立企業級數據視圖,實現對管理分析類應用和實時分析類應用的支撐規劃數據管控藍圖,初步實施數據質量和技術元數據管理2013年2014年——2015年2015年以后對企業價值的創造應管技業務分析框架基礎數據平臺數據管控體系應技管全面開展內部管理分析、實時分析和沙盤演練應用建設,初步展開增值數據產品開發工作全面開展大數據分析平臺建設,引入更多數據源,豐富并完善平臺數據區建設隨著應用體系的搭建,完善數據質量和元數據建設,開展數據標準化工作應技管深化分析體系,形成深度智能化業務分析性能持續優化、數據平臺持續完善、持續深化數據管控體系,形成金融集團企業級的數據管控體系應技管一期2013.10當前位置未來持續優化提升階段第一階段第二階段第三階段大數據分析平臺演進路線以基礎平臺搭建為主,配合金融集團初期業大數據分析平臺演進說明——基礎數據平臺階段劃分建設內容預期效果第一階段搭建數據交換平臺,部署NAS存儲集群,設計并實施數據庫交換組件和數據區交換組件搭建基礎計算平臺,設計并實施貼源數據區,以T+1頻率整合商城和金融業務數據搭建歷史歸檔查詢平臺,歸檔商城和金融業務數據文件搭建內部管理分析應用平臺,部署MPP集群和BI分析應用環境搭建實時分析平臺,部署內存數據庫和實時BI分析環境實現了數據平臺內部個數據區之間、數據平臺與外部系統間的雙向數據傳輸實現了業務數據按照貼源數據模整合實現了數據按照生命周期的歸檔管理實現了內部管理分析環境搭建實現實時分析環境搭建第二階段數據交換平臺增強和優化,包括:大數據交換組件設計實施基礎計算平臺增強,包括:引入更多的數據源,增強貼源數據區;設計并實施主題數據區,打破業務條線整合數據;設計并實施大數據區,實現企業內外部非結構化、半結構化數據加工、處理搭建沙盤演練平臺實時分析平臺增強和優化,包括:引入更多應用及相關數據源實現了基礎數據一次存儲、一次計算、多次使用建立了數據分析人員的實驗環境,實現了用戶自主用數為實時、準實時類分析用提供平臺為封裝、銷售數據類產品提供了平臺第三階段基礎計算平臺持續增強和優化,引入更多的數據源、優化模型和ETL處理搭建增值產品平臺,設計并實施增值產品數據區數據交換平臺、沙盤演練平臺、實時分析平臺進一步增強和優化數據平臺納入盡可能多的企業內外部數據數據平臺以最優的性能支持各類數據應用大數據分析平臺演進說明——基礎數據平臺階段劃分建設內容預期效大數據分析平臺演進說明——數據管控階段劃分建設內容預期效果第一階段分析和梳理當前數據管理方面的成果和現狀,數據管控藍圖和路線圖設計,數據管控工作的組織、技術和流程高階設計梳理金融集團大數據平臺ETL流程各環節的數據質量要求,指定數據質量檢查規則、評價指標、管控流程,并落地實施數據質量管理系統梳理金融集團大數據平臺包含的技術元數據,如:數據字典、ETL任務、ETL流程、BI語義層等,制定相應的管控流程并落地實施元數據管理系統同步大數據分析平臺ETL建設,實現了數據質量管理系統收集并整合了金融集團所有技術元數據,實現了數據生命周管理、血緣分析和影響分析等功能第二階段隨著更多數據源的引入,進一步增強數據質量管理系統隨著更多數據源的引入、更多平臺的建立,梳理并整合更多技術元數據梳理金融集團大數據平臺包含的業務和管理類元數據,如業務術語、業務指標、業務定義等,制定相應的管控流程并落地實施元數據管理系統開展基礎類數據標準建設,基礎數據標準、管控流程、評價指標、落地策略完善了數據質量管理體系,實現了問題及時發現、及時解決實現了金融集團全方位的元數據管理,打通了業務和技術元數據關聯關系為金融集團數據平臺建設提供了基礎類數據標準第三階段數據質量管理持續優化并增強元數據管理持續優化并增強基礎類數據標準逐步落地實施開展指標類數據標準建設基礎數據標準、管控流程、評價指標、落地策略通過完善的數據管控體系,提升數據質量、避免數據二義性、建立數據間的血緣關系,使得業務人員可以方便、有效的使用數據,提高數據實用性大數據分析平臺演進說明——數據管控階段劃分建設內容預期效果第大數據分析平臺演進說明——應用體系階段劃分建設內容預期效果第一階段開展客戶信息管理建設,設計并實施個人客戶和供應商360°視圖、客戶目標搜索、客戶細分等功能開展風險管理建設,設計并實施供應商和個人客戶風險評級模型開展運營管理建設,設計并實施供應鏈金融、人人貸等業務條線業務量統計分析初步梳理實時、準實時分析需求,進行高時效分析應用試點可以方便的對個人客戶和供應商進行分群,以及全方位信息查詢和展示供應商和個人客戶風險等級評定針對目前開展的業務進行經營情況統計分析搭建并驗證高時效應用體系第二階段隨著金融集團業務的展開,逐步開展內部管理分析體系的建設,本階段重點為客戶關系管理、運營管理等高級業務人員利用沙盤演練平臺進行數據挖掘、預測和科學試驗進一步樹立實時、準實時分析需求,深化開展高時效分析應用開始梳理市場上的數據應用需求,嘗試封裝增值數據產品通過內部管理分析體系的建設、滿足了金融集團日常經營管理、決策分析和進一步提高價值創造力的需要實現了業務人員自主用數實現了高時效分析,與業務流程的整合實現了數據產品的封裝,提升了數據價值第三階段隨著金融集團業務的展開,進一步完善內部管理分析體系的建設,包括:市場風險管理、操作風險管理、財務管理等收集實時分析需求,進一步增強并優化實時分析應用體系增值數據產品設計逐漸成為重點,數據分析師收集企業內外部數據需求,設計更完善的增值數據產品通過內部管理分析應用體系建設進一步實現數據共享、業務協作與創新通過實時分析應用體系建設,實現大數據平臺業務系統的交互,與業務流程的融合增值數據產品的開發進一步發揮的數據平臺的數據價值大數據分析平臺演進說明——應用體系階段劃分建設內容預期效果第議程大數據分析平臺綜述1大數據分析平臺總體架構2大數據分析平臺演進路線3大數據分析平臺一期實施重點4附錄:數據質量管理平臺5議程大數據分析平臺綜述1大數據分析平臺總體架構2大數據分析平金融大數據分析平臺一期架構基礎計算平臺:基于Hadoop集群構建,按照業務條線、以貼源數據模型存儲了業務系統明細數據數據交換平臺:NAS集群實現了進出數據平臺數據的暫存,業務數據交換組件實現了業務系統每日增量數據加載,數據區數據交換組件實現了基礎計算平臺與管理分析平臺間的數據交換流程調度平臺:自主開發的流程調度引擎實現整個數據平臺的數據處理任務調度和運行管理分析平臺:由X86分析型數據庫集群、BI軟件1J2EE應用構成,實現了面向應用的數據加工、管理、分析服務實時分析平臺:由高檔X86服務器組成的集群,實現高時效、高并發的實時、準實時類管理分析需求金融大數據分析平臺一期架構基礎計算平臺:基于Hadoop集群數據交換平臺—平臺邏輯架構POP金融大數據分析平臺NAS集群物流財務供應鏈人人貸……云數據推送平臺云數據推送平臺實現源系統數據一次獲取獲、按需分發。平臺采用GoldenGate、JBUS、Flume等技術獲取增量數據,存儲在MySQL集群平臺按照接口規范生成文件,LZO壓縮后,通過FTP傳輸到NAS指定目錄數據交換平臺由FTP服務器、加載服務器和NAS存儲組成,完成業務系統數據的獲取、加載和歸檔FTP服務器:利用LVS構成的FTP集群,接收云數據推送平臺處理后的數據,存儲在NAS集群的指定目錄加載服務器:部署ETL任務,實現指定目錄的文件到達監控、文件級檢核、數據加載(HiveLoad)到臨時數據區,同時歸檔(copyfromlocal)歷史數據區NAS集群:按照日期和源系統劃分目錄,緩存數據,支持日常數據交換和ETL…………LVS集群:FTP服務器#3加載服務器#1文件加載文件歸檔文件到達事件監控文件級檢核加載服務器#4文件加載文件歸檔文件到達事件監控文件級檢核LVS集群:FTP服務器#1LVS集群:負載均衡服務器…………數據交換平臺—平臺邏輯架構POP金融大數據分析平臺NAS數據交換平臺—參與方責任劃分設計并實施云數據推送平臺;按照金融集團接口定義,抽取業務系統數據;按照金融集團接口規范要求,按時生成數據文件、控制文件和DDL文件,并通過FTP傳輸到NAS指定目錄;若源系統有變更,則要求在變更前提供變更內容說明,升級平臺版本,根據金融集團更新接口規范提供數據;應及時解決接口數據提供過程中出現的問題;對于未盡事宜,應同金融集團協商解決。云計算安裝部署金融集團大數據分析平臺物理環境、應用軟件,并進行基礎設施運維;在業務系統數據庫服務器安裝并部署云數據推送平臺客戶端,并提供數據庫訪問。運維部門制定接口規范,并提交給云數據推送項目組;梳理業務系統數據字典,制定接口定義,并提交給云數據推送項目組;開發數據交換組件,從NAS獲取數據并處理;對接收的數據提供驗證功能,并返回驗證結果到云數據推送平臺;根據云數據推送平臺提交的變更通知修改接口定義和數據交換組件;對于未盡事宜,應同云計算方協商解決。金融集團針對金融集團需求,指定接口人、提供文檔;業務系統因版本升級等原因導致數據模型發生變化,及時通知云數據推送平臺接口責任人。研發部門數據交換平臺—參與方責任劃分設計并實施云數據推送平臺;云數據交換平臺—業務系統數據抽取實現方式每張源系統表都對應一個獨立的數據接口數據接口由數據文件和控制文件構成(文件命名和具體內容參見接口規范)文件統一采用UTF-8編碼,統一存在在JSS指定目錄(參見接口規范)如果在抽取周期內沒有數據變更,云數據推送平臺應該生成空的數據接口傳輸方式FTP傳輸,利用LVS技術構建FTP集群,接收數據傳輸頻率云數據推送平臺通常按照T+1頻率為金融集團提供數據,具體頻率要求參見接口定義接口處理模式云數據推送平臺根據不同接口單元定義,準備數據、生成接口數據文件;云數據推送平臺根據接口規范生成相應的接口控制文件;云數據推送平臺壓縮數據(LZO),并通過FTP將數據接口存入NAS指定目錄;金融大數據分析平臺部署在不同加載服務器上的數據交換組件完成:定時輪詢NAS指定目錄,獲取接口(包括數據文件、控制文件和DDL文件);執行文件級檢核;通過檢核后,將數據文件和控制文件移動到NAS集群指定目錄,觸發后續ETL處理;在TaskAutomation調度下執行數據加載和數據歸檔任務。數據交換平臺—業務系統數據抽取實現方式每張源系統表都對應數據交換平臺—平臺部署架構數據交換平臺由8臺X86服務器和一個NAS集群構成X86服務器按照功能分為2組,一組實現數據獲取,一組實現數據加載和歸檔NAS集群作為公共數據區,由8臺服務器共享訪問(讀寫)PythonruntimePythonJSSModuleFTPRedhatLinuxLVS服務器4HDFSClientHive加載任務歸檔任務RedhatLinux加載服務器1HDFSClientHive加載任務歸檔任務RedhatLinux加載服務器4LANPythonruntimePythonJSSModuleLVSRedhatLinuxLVS服務器1…………NAS集群負責源系統數據文件加載和歸檔每臺服務器負責多個源系統支持按需擴展/減少服務器LVS1負載均衡其它LVS服務器負責接收接口文件,寫入NAS集群目錄支持按需擴展/減少服務器部署數據交換平臺和流程調度平臺程序,各服務器通過文件鏈接使用按日期和源系統建立數據目錄,緩存每日接口文件,供交換平臺訪問數據交換平臺—平臺部署架構數據交換平臺由8臺X86服務器流程調度平臺—平臺邏輯架構TaskAutomation驅動各個平臺、實現從數據存入NAS平臺到數據集市生成整個處理過程的工作流管理數據交換平臺負責數據抽取、文件級質量檢核、調用HiveLoad加載數據基礎計算平臺使用HiveSQL實現貼源數據整合、公共匯總數據處理管理分析平臺使用關系型數據庫的SQL實現集市數據的處理歷史歸檔查詢平臺負責數據文件和Hadoop集群數據歸檔流程調度平臺—平臺邏輯架構TaskAutomation流程調度平臺—流程調度元數據TaskAutomation的元數據統一存儲在MySQL數據庫中任務定義,包括任務名稱、描述、運行服務器、運行狀態、運行時間、相關數據源等屬性任務依賴,任務的執行依賴與其他上游任務任務觸發,任務成功執行后觸發的下游任務任務組,一組有相互關系的任務,全部完成后會觸發頭任務運行……元數據由所有流程調度服務器共享流程調度平臺—流程調度元數據TaskAutomatio流程調度平臺—任務調度引擎通過偵測器偵測事件,按照任務定義和任務依賴關系觸發任務運行,觸發方式把主要包括自動觸發定時觸發,按照預先定義的時間周期,如每日、每周、每月,或任何有規律的時間間隔執行任務。目前可明確的任務主要是每月執行的基礎計算平臺、管理分析平臺數據歸檔。事件觸發,按照特定的事件觸發、執行任務。如:數據文件到達指定目錄,會觸發數據加載任務。同樣,流程失敗也會觸發新的job,如錯誤處理、例外處理等。手動觸發系統管理員可以使用TaskAutomation提供的界面或命令接口執行一些job。這些job的功能通常包括對特定范圍的數據進行審計與驗證、對特定范圍的數據進行針對性很強的數據清洗、或者是對某流程失敗后的修復。每個要執行的任務均由任務執行代理啟動運行流程調度平臺—任務調度引擎通過偵測器偵測事件,按照任務定流程調度平臺—集群可靠性和可擴展性高可用性流程調度所需的元數據信息統一保存在MySQL數據庫中,集群中任何服務器發生故障不會破壞元數據完整性。服務器故障時,只需要修改ETL任務屬性,指定其他服務器執行任務即可,故障不會影響任務依賴關系、任務組關系。擴展能力流程調度集群由多臺服務器構成,按工作負載劃分不同角色,分別實現ETL處理過程中不同類型任務的調度。當某類調度工作負載較大時,可通過增加服務器的方式,實現集群的橫向擴展流程調度平臺—集群可靠性和可擴展性高可用性流程調度所需流程調度平臺—平臺部署架構流程調度平臺由八臺X86服務器構成,服務器按照功能分為兩類兩臺X86服務器部署MySQL數據庫集群,存儲流程調度元數據六臺X86服務器部署流程調度引擎,負責各數據區數據處理流程調度與運行TaskAutomationPerlRuntimeHadoopHiveRedhatLinuxMySQLClient臨時/歸檔區調度服務器1TaskAutomationPerlRuntimeHadoopHiveRedhatLinuxMySQLClient貼源區調度服務器TaskAutomationPerlRuntimeHadoopHiveRedhatLinuxMySQLClient匯總區調度服務器TaskAutomationPerlRuntimeHadoopHiveRedhatLinuxMySQLClient臨時/歸檔區調度服務器4MasterNodeMySQL主服務器MasterNodeMySQL從服務器……LANMySQL主-從集群,存儲臨時區、歸檔區、貼源區和匯總區數據處理任務定義,任務依賴關系按數據區劃分工作流,工作流不跨數據區臨時區數據處理的工作流部署在數據交換換平臺的加載服務器貼園區和匯總區工作流分別部署獨立的服務器流程調度平臺—平臺部署架構流程調度平臺由八臺X86服務基礎計算平臺—平臺邏輯架構VMVMVMVMVMVMVMVMVMVMVMVMVMVMVM節點VMVMVMVMVM節點VMVMVMVMVM節點節點節點節點節點節點Hadoop臨時數據區貼源數據區匯總數據區基礎計算平臺基于Hadoop集群搭建集群采用標準的X86服務器集群彈性架構,按需分配計算資源,支持添加X86服務器的方式實現橫向擴展集群中的數據保留三份,保證任何節點故障,不影響集群對外提供服務基礎計算平臺有三個數據區構成臨時數據區,緩存當日源系統變化(新增、修改、刪除)數據,支持后續ELT數據處理貼源數據區,按照源系統數據模型整合的明細歷史數據,作為基礎數據層實現數據一次整合、多次使用匯總數據區,根據應用需求,對貼源數據區明細數據進行預連接、預聚合、預匯總處理的數據,實現了數據的一次計算、多次使用基礎計算平臺—平臺邏輯架構VMVMVMVMVMVMVMV基礎計算平臺—臨時數據區包含內容主要用途大數據分析平臺要整合的源系統,包括:POP、財務審計、財務研發、大物流、供應鏈、金融、網站交易、數據部和移動客戶端等研發體系的各業務系統。建立數據緩沖區,臨時存放從源系統抽取過來的增量/全量數據,支撐后續ELT處理。設計原則數據庫設計原則臨時數據區對應獨立的Hive數據庫不對外提供訪問,ETL用戶對數據庫有增、刪、查、改權限模型設計原則邏輯模型參考源系統和接口規范定義,為每個接口單元設計實體、屬性物理模型與邏輯模型保持一致,每個實體對應一張Hive表,表采用LZO壓縮存儲物理模型設計不建議考慮索引、物化視圖等技術特性以天為單位,按業務日期建立分區歷史保留原則緩存當日業務數據、為數據重跑方便可保留7天歷史過期數據直接刪除對應分區,不需要歸檔基礎計算平臺—臨時數據區包含內容主要用途大數據分析平臺要基礎計算平臺—貼源數據區包含內容主要用途與緩沖層相對應,貼源整合層主要包括:POP、財務審計、財務研發、大物流、供應鏈、金融、網站交易、數據部和移動客戶端等研發體系的各業務系統,所有數據保留歷史。作為整個數據平臺的基礎數據層,累計歷史,為主題層、集市層等數據區提供數據支撐。設計原則數據庫設計原則貼源數據區對應獨立的Hive數據庫不對外提供訪問,ETL用戶對數據庫有增、刪、查、改權限模型設計原則針對不需要記錄變化的實體,其邏輯模型參考緩沖層,按照貼源設計針對需要記錄變化的數據,需要增加時間字段,設計拉鏈數據模型,記錄歷史物理模型考慮分區,流水表按業務日期建立分區,拉鏈表按終止日期建立分區歷史保留原則拉鏈表數據保留最近37個月的歷史快照表數據永久保留交易流水表數據保留最近25個月的歷史過期數據歸檔到歷史歸檔區,需要時回遷基礎計算平臺—貼源數據區包含內容主要用途與緩沖層相對應,基礎計算平臺—匯總數據區包含內容主要用途針對客戶管理、風險評級和業務量統計設計明細數據進行預匯總、預連接和預加工后的結果數據。對明細數據進行預匯總、預連接和預加工,為應用數據集市準備數據。設計原則數據庫設計原則匯總數據區對應獨立的Hive數據庫不對外提供訪問,ETL用戶對數據庫有增、刪、查、改權限模型設計原則匯總層采用了逆范式寬表設計,某種程度上采用維度建模的方法模型設計首先需要根據業務和應用的需要盡量包含更多的屬性和指標,同時兼顧空間匯總層需要針對維度數據執行標準化處理匯總層模型增加數據日期記錄歷史,建議根據數據日期建立分區歷史保留原則不同實體采取不同的歷史保留策略建議以支持應用為輸入,避免永久保留過期數據歸檔到歷史歸檔區,需要時回遷基礎計算平臺—匯總數據區包含內容主要用途針對客戶管理、風基礎計算平臺—平臺部署架構基礎計算平臺由73臺X86服務器構成,3臺服務器作為NameNode和JobTrackerNode,70臺服務器作為DataNode和TaskTrackerNode……DataNodeTaskTrackerNode服務器1DataNodeTaskTrackerNode服務器70Name&JobTrackerNode(Secondary)NameNodeJobTrackerNode內部互聯70臺服務器是HDFS數據節點,臨時數據區和貼源整合區作為獨立的數據庫部署在此服務器上,并按照3份冗余存儲NN負責HDFS元數據管理,元數據信息存儲在NAS集群指定目錄通過硬件冗余、RAID0+1、SlaveNN等技術實現高可用性70臺服務器是MR計算節點,Hive提交的SQL語句,轉化成MR任務,由JobTracker分配到每臺服務器上執行SecondaryNN負責HDFS元數據備份管理,SecondaryJobTracker負責MR計算集群JobTracker高可用性JobTracker
Node負責MR任務分配通過心跳信號檢測TaskTracker活動狀態,排除失效節點基礎計算平臺—平臺部署架構基礎計算平臺由73臺X86服務器基礎計算平臺—平臺網絡拓撲NodeNodeNodeNodeNode20NodesRACK1……NodeNodeNodeNodeNode20NodesRACK2……NodeNodeNodeNodeNode20NodesRACK3……NodeNodeNodeNodeNode20NodesRACK3……基礎計算平臺—平臺網絡拓撲NodeNodeNodeNode管理分析平臺—平臺邏輯架構客戶信息管理,采用J2EE框架自主開發,數據集市構建于分析型數據庫集群運營績效管理,采用MicroStrategy開發,數據集市構建于分析型數據庫集群零售業務靈活分析,采用MicroStrategy開發,數據集市構建于內存數據庫集群HANA管理分析平臺—平臺邏輯架構客戶信息管理,采用J2EE框架管理分析平臺—安全管理個人客戶信息管理企業客戶信息管理金融業務經營分析金融業務規模預測認證管理用戶BI應用門戶審計管理授權管理身份管理授權管理認證管理審計管理安全管理員安全管理員安全管理員賬戶管理平臺安全管理信息庫LDAP賬戶信息權限信息日志信息管理分析平臺—安全管理個人客戶信息管理企業客戶信息管理金大數據分析平臺物理架構說明平臺所有服務器均采用標準X86PC服務器系統劃分為三個子網WEB服務子網,兩臺服務器構成的Tomcat集群應用服務子網,兩臺服務器構成的MicroStrategy集群數據服務子網基礎計算平臺,73臺服務器構成的Hadoop集群數據集市平臺,30臺服務器構成的?集群流程調度平臺,7臺服務器構成的TaskAutomation集群數據交換平臺,5臺服務器與云數據推送平臺接口,分別實現不同業務系統的數據獲取大數據分析平臺物理架構說明大數據分析平臺一期硬件配置所有服務器均采用開放的X86架構,單臺服務器建議配置如下:服務器類型服務器功能數量CPU內存網口操作系統內置盤基礎計算平臺(Hadoop集群)DataNode&TaskTracker服務器7032128G2*1GbCentos6.312*2TB7200RPMSATAdisksNameNode&JobTracker服務器332128G2*1GbCentos6.34*600GB15KSASdisksRAID0+1
歷史歸檔查詢平臺(Hadoop集群)DataNode&TaskTracker服務器301224G2*1GbCentos6.316*3TB7200RPMSATAdisksNameNode&JobTracker服務器31224G2*1GbCentos6.34*600GB15KSASdisksRAID0+1
沙盤演練平臺(Hadoop集群)DataNode&TaskTracker服務器3032128G2*1GbCentos6.312*2TB7200RPMSATAdisksNameNode&JobTracker服務器332128G2*1GbCentos6.34*600GB15KSASdisksRAID0+1
大數據分析平臺一期硬件配置所有服務器均采用開放的X86架構大數據分析平臺一期硬件配置(續)所有服務器均采用開放的X86架構,單臺服務器建議配置如下:服務器類型服務器功能數量CPU內存網口操作系統內置盤數據交換平臺數據接口服務器51664G2*10GbCentos6.32*600GB15KSASdisksRAID0+1流程調度&ETL平臺流程調度&ETL服務器71664G2*10GbCentos6.32*600GB15KSASdisksRAID0+1元數據服務器Hive元數據庫服務器21664G2*10GbCentos6.34*600GB15KSASdisksRAID0+1管理分析平臺數據集市服務器432128G4*10GbCentos6.32*300GB15KSASdisksRAID0+11632128G2*10GbCentos6.314*300GB15KSASdisksRAID0+1內存數據庫服務器420256G2*10GbSLESforSAPapplications11SP28*600GB10kSASdisksRAID5BI應用服務器21664G2*10GbCentos6.32*600GB15KSASdisksRAID0+1WEB服務器21664G2*10GbCentos6.32*600GB15KSASdisksRAID0+1大數據分析平臺一期硬件配置(續)所有服務器均采用開放的X86大數據分析平臺一期硬件配置(續)光前交換機配置要求千兆端口:278萬兆端口:100帶寬:8GBNAS集群配置如下:總存儲容量:40TB磁盤:15000RPMSASDisks網絡接口:萬兆網絡傳輸協議:TCP/IP網絡文件協議:CIFS、NFS單臺Cache:8GB大數據分析平臺一期硬件配置(續)光前交換機配置要求大數據分析平臺一期軟件清單類型軟件清單基礎計算平臺Hadoop0.2Centos6.3歷史歸檔查詢平臺Hadoop0.2Centos6.3沙盤演練平臺Hadoop0.2Centos6.3數據交換平臺HadoopClient&HiveCentos6.3流程調度&ETL平臺TaskAutomationMySQLClientPerlRuntime&MySQLDBDCentos6.3類型軟件清單管理分析平臺數據集市服務器?Centos6.3實時分析平臺內存數據庫服務器SAPHanaEnterprise1.0Centos6.3管理分析&實時分析平臺BI應用服務器MicroStrategy9.3HanaClientDBClientCentos6.3管理分析&實時分析平臺WEB服務器Tomcat7.0Centos6.3大數據分析平臺一期軟件清單類型軟件清單基礎計算平臺Hadoo議程大數據分析平臺綜述1大數據分析平臺總體架構2大數據分析平臺演進路線3大數據分析平臺一期實施重點4附錄:數據質量管理平臺5議程大數據分析平臺綜述1大數據分析平臺總體架構2大數據分析平數據質量管理平臺技術架構數據質量檢查規則執行模塊作為多個ETL任務部署在金融數據平臺ETL服務器上,由Automation工作流調度服務統一調度運行,實現各個數據區技術和業務數據質量檢查數據質量管理系統元模型包含檢查規則、檢查執行結果、分析報告,模型作為一個獨立的Schema部署在決策分析報表平臺的數據庫數據質量檢查規則配置模塊作為JavaWeb應用部署在金融數據平臺Tomcat集群上,數據質量管理員通過統一的Web服務訪問,實現檢查規則的維護數據質量分析報告展現模塊作為JavaWeb應用部署在金融數據平臺Tomcat集群上,用戶通過統一的Web服務訪問,實現日報、月報的瀏覽、下載等功能數據質量分析報告生成模塊作為一個ETL任務部署在決策分析報表平臺ETL服務器上,由Automation工作流調度服務統一調度運行,按照每日、每月生成各數據區數據質量檢查報告數據質量管理平臺以元信息模型為核心,由規則配置管理模塊、檢查執行模塊、分析報告生成模塊和分析報告展現模塊四部分構成。整個數據質量檢查過程以ETL任務的形式統一調度執行。數據質量管理平臺技術架構數據質量檢查規則執行模塊作為多個ET數據質量檢查執行服務數據質量管理的規則執行服務作為ETL任務部署在ETL服務器上在整
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 檔案質量提升年活動方案
- 畢業季飯店活動方案
- 森林戶外課堂活動方案
- 正畸暑假活動方案
- 水表普查活動方案
- 水稻活動活動方案
- 漢服登高活動方案
- 植物手環活動方案
- 水下紅蟲活動方案
- 滄州餐飲活動方案
- 機械CAD-CAM技術課件
- 2024-2025學年廣東省新部編版七年級歷史第二學期期末模擬卷(含答案)
- 2024年河南省澠池縣衛生局公開招聘試題帶答案
- 2025年新疆維吾爾自治區公務員錄用考試面試真題試卷:無領導小組討論邊疆穩定與發展試題
- 預防新生兒嗆奶指南
- 2025年高考湖南卷物理真題(解析版)
- 2025至2030中國汽車物流行業深度發展研究與企業投資戰略規劃報告
- 2025至2030中國新風系統行業市場發展分析及發展前景與投融資報告
- 烹飪刀工考試題庫及答案
- 賣房所得財產分配協議書
- 油車卸油火災應急預案方案(3篇)
評論
0/150
提交評論