金融級數據研發DataOps落地實踐_第1頁
金融級數據研發DataOps落地實踐_第2頁
金融級數據研發DataOps落地實踐_第3頁
金融級數據研發DataOps落地實踐_第4頁
金融級數據研發DataOps落地實踐_第5頁
已閱讀5頁,還剩18頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

金融級數據研發

Data

Ops實踐平安銀行數據及AI平臺團隊負責人/

廖曉格目錄一

數據研發問題及挑戰二

數據研發Data

Ops實踐三

未來展望

平臺數據事故引起客戶投訴

資損甚至監管報送。

在數字化轉型過程中,

高質量的數據保證越發重要

必須有數據研發工程師+后端開發工程師參與完整的業務需求

作業上線流程嚴,

即使不接入生產應用/最小權限的分析任務,

批流程也要小時到天不等,

影響一些分析場景的效能;

指標口徑不統一,

存在煙囪式開發。

缺少實時數據分析能力

重復作業,

數據冗余度高。

數據未進行冷熱分析,

存在垃圾數據。

數據價值難以評估,

需求價值的度量標準。

敏感數據外泄

如何既能實現共享又能符合各項法規數據研發平臺問題和挑戰

問題和挑戰

》》

問題舉例

》》

方向

如何提高數據交付

效率和批量數據時

效?如何有效賦能業

務,

同時控制好平臺成本?重質量升時效降成本保安全如何減少數據事

故,

保證數據交付質量?如何保證數據共享

安全?

計算負載極高存儲成本劇增數據安全隱患ulu不可靠決策…

數據治理急需一套工程體系支撐數據研發,Data

Ops是一種面向數據全生命周期,

以價值最大化為目標的最佳實踐

聚焦于協同從數據需求輸入到交付物輸出的全過程

構建集開發

治理

、運營于一體的自動化數據流水線,

不斷提高數據產品交付

效率與質量,

實現高質量數字化發展。數據治理價值數據成本越來越高,

價值難以評估控制數據風險改善數據質量賦能管理決策降低成本提升數據加工效率資產!包袱?數據

理據治理BAC數數據研發平臺Data

Ops目標?統一數據研發平臺核心目標將Data

Ops的數據管理方法論融入數據開發,

以及一些自動化測試,

部署等技術,構建標準數據研發生產流水線

撐數據資產中心的數據全民化,

安心計劃,

破壁計劃。精細化數據

運營保障數據研發質量;提高數據研發效率;

降低數據使用門檻;

低代碼,自動化數據安全保

護傘提升數據時效

夯實平臺穩定研發流程標

準化治理工具化數據ROI,

控IT成本;價值最大化;加強平臺規范運營符合各項法規;事前制度建設;事中技術管控;事后監控審計;深入湖倉一體架構擴大實時數據使用場

景。目錄一

數據研發問題及挑戰二

數據研發Data

Ops實踐三

未來展望事前治理項事故復盤管理字段相似度流批

湖倉血緣作業成本價值ROI數據對象指標

標簽/特征服務APICI數據加工建立以價值最大化為目標的數據全生命周期管理最佳實踐重質量降成本升時效保安全數據研發平臺Data

Ops邏輯框架CT測試發布推動數據

運營數據

開發基礎底

座時效檢查

相似作業識別

相似加工鏈路統一權限統一調度生成測試一體化數據安全保護傘業務系統表數據源CD運維監控支撐》》目標湖/倉表字段數據集成數據模型數據服務質量運營異常診斷指標加工資產盤點湖/倉表事后治理數據源數據研發平臺Data

Ops-全流程開發流程標準化?基于《數據研發流程基線細則》

和《大數據平臺管理細則》

統一數據研發全周期流程(包括數據源

數據集成

數據加工

指標定義

數據服

務等),

引入CI/CT/CD方法融入并標準化數據研發流程,

降低模型研發過程中的人為風險同時,

提升整個數據研發效率。核心能力n

Dataops全研發流程:

融合數

據集成

數據加工

業務資

產定義開發

Oneservice數據

服務配置全流程;n

數據治理嵌入研發:

改變以

往先產生后治理的流程邏輯,

將治理規范融入數據研發流程;n

先設計再開發服務:

以數據

服務和數據指標驅動數據研

發過程,

遵循先設計再研發

的治理設計理念n

核心開發工具:

面向數據自

動校驗端,

提供數據質量/數

據血緣/元數據管理/規范檢

查/開發測試一體/能力服務,實現線上數據的自動檢核數據服務應用管理數據準備項目注冊服務配置

并發布服務交付數據加工作業建模作業發布自動發布數據

測試數據源數據源數據源

注冊數據源

管理統一數據研發平臺數據研發的全生命周期流程數據集定義數據研發流程規范數據架構規范數據安全規范數據運營規范異構

采集方式

數據源

設定加解密配置采集頻率

設定數據

測試數據

運營語法

校驗UAT

驗證指標定義

指標發布One

service數據集成指標定義研發流程數據

采集數據

加密指標

定義數據

定義數據

上線數據

開發模型

映射合規

檢查維度

定義模型管理表注冊數據資產經分營銷風險監管報送AI建模運營需求管理

(starlink)需求

登記需求

評審需求

分發數據研發平臺Data

Ops-總體功能架構?建設目標:研發層面,

基于湖倉一體存儲,

面向全行提供流批數據一體化的研發平臺,

覆蓋從需求階段-研發階段-運行階段-運營階段,

支持業

務BU模型開發;

管理層面,

集成架構治理規范

運行規范

跑批規范,

實現數據和架構治理工具的平臺化落地。數據研發平臺DI

Cloud指標研發統一SQL語義層引擎

研發階段安全規范(包括權限)基礎

設施指標加工數據建模維度/

指標定義設計即研發指標物化指標上下架

規范數據集成實時采集

Flinkcdc離線采集

waterdrop流批采集Flinkcdc->Spark測試/發布測試用例自動化測試自動化發布自動化部署數據加工批任務Spark流任務Flink流轉批

Flink->SparkAPI開發某省市場資源隔離服務計量服務編排資產全景數據血緣數據質量業務圖譜風險審計安全標準權限審批流程管理外部數據源數據源注冊數據源管理File數據源DB數據源分布式文件系統生產環境流批一體數據研發任務成本運

營中心實時計算引

擎Flink統一智能調

度作業血緣鏈

路治理數據服務化

規范數據質量檢

測統一資源管

理Yarn全鏈路

監控診斷指標盤點

(精品/kpi)數據服務OneService跑批規范運行規范架構治理

規范前端業務運營階段沙箱環境需求階段運行階段Nosql存儲湖倉一體Mpp存儲流程規范設計規范質量規范治理全景監控運營健康排名缺陷作業識別治理離線數據研發元數據管理架構治理檢查數據脫敏數據發布管理

組件管理

組件Spark/Hive

Sqoop

Da

tax

Es-spark

Jdbc?全行統一大數據作業調度平臺,

支持離線數據研發,

血緣自動計算,

生產測試一體,

作業線上發布,

作業運營等數據研發的生命周期過程,

標準

化全行數據研發服務過程,目標提升全行數據治理與數據質量成果,

融合研發和治理的一體化平臺體系;數據研發平臺Data

Ops-數據調度統一研發IDE作業

運營作業

研發調度

服務作業/數據生命周期運營重跑調度(級聯/批量重跑)權限管理日志管理在線診斷關聯服務風險管控經營分析在線分析業務營銷自動調度服務編排Hive執行器Spark執行器數據出倉

執行器多源異構

數據集成防重復調度多租戶

資源隔離執行加速自動監控優先級管控生命周期運營發布作業監控SLA運營作業成本治理技術

組件層服務

場景執行

服務實時質量異常阻斷(依據血緣依賴阻斷下游自動調度)通過數據血緣關系,

時呈現數據調度進度數據研發平臺Data

Ops-質量治理能力?數據質量已經成為銀行數據治理的核心組成部分,

從治理視角而言,

建立完整全流程的數據質量體系,

及時發現質量問題->實時預警屬主修復->

事后復盤增強測試發布環節檢測

提升銀行數據整體質量,

提供更精準的決策分析數據;1)

表粒度規則監控2)

字段粒度規則監控3)

自定義規則監控事后-異常質量問題追蹤復盤事前-質量核驗規則事中-質量核驗基于過程質量問題,

工單追蹤異常整改數據研發平臺Data

Ops-開發測試一體化?為解決大數據數據質量測試痛點,

在測試環境無法完全復現生產問題,

生產數據脫敏到測試環境仍有安全隱患,

因此需要構建數據研發測試一體

化平臺,

完善數據研發流程,

滿足監控合規的評審需求,

數據需求閉環管理,

數據開發

測試

變更流程統一管理,

并和數據監控規則打通,

證全流程質量閉環心能單/雙表、

字段級基礎數據規則自定義資損模型場景建模場景自適應數據模型

(待建)日期型類型數值型類型枚舉型類型字符型類型監管模型風控模型營銷模型機器學習自適應

算法場景模擬精準測試效率優化作業調度/用例執行質量門檻UAT/業務驗收數據研發平臺脫敏系統ROUTER權限系統Jira需求管理DQM數據監控對接系統用戶&權限一鍵UM登錄數據權限自動識別數據

準備聚合報告分析結果大盤流程

管理消金缺陷標注測試自動

執行風險某省市私行某省市…分級別

流程定制信某省市需求評審測試驗收數據研發平臺Data

Ops-數據安全治理?從事前

事中

事后分別管控數據安全

以“事中數據脫敏”為例,

是通過在SQL/作業埋點用戶帳號,

分析SQL/Job對應的元數據字段,

判斷用戶

權限,

返回用戶對應的脫敏數據。統一SQL引擎Router血緣分析

元數據管理

權限管理

脫敏引擎

安全決策引擎事中技術管控:

采用“數據加密”、“數據脫

敏”、“敏感客群保護”、”智能阻斷”、“數據

外發”等手段構筑強固的數據安全保護傘;事后監控審計:

基于規則引擎建立數據訪

問審計平臺——實時的\自動+人工的識別

可能的異常訪問;事前制度建設:

數據安全“制度”先行,

此我行修改制定了“平安銀行數據安全管理

辦法(

2.0版,

2019年)”;大數據

平臺事中事后事前大數據SQL計算引擎Spark

SQL

Presto調度平臺.

SQL

/

JobKyligenceHIVE客戶端AI算法平臺Jupyter數據研發平臺Data

Ops-數倉分層加密處理過程?ODS

貼源層(raw):

敏感字段識別,

利用

正則+算法+人工,

識別出貼源數據表的敏感字段。?ODS

加密層(mid):

高敏感字段加密,

將銀行卡號,

手機號,

證件號進行加密儲存。?數倉

某省市等層:

利用字段級血緣關系,

標識出每感字段。?數據查詢訪問:

應用端查詢數據時,

對統一查詢中心(router),

根據訪問的敏感字段及敏感脫敏類型進行脫敏處理。數據產出流轉過程加密層數據建設組織過程對公MID風險DM個消金DM消金DW公共庫一致性維度DIM接口(對外服務)私庫

(基本法)報表指標

庫(

BU)貼源層

RAW財務DM個標簽

指標對公DW對公DM數據研發平臺Data

Ops-敏感數據發現?源生產系統數據集成過程中,

無論實時或者離線采集,

開發治理一體化平臺基于數據規則自動實現敏感數據發現;識別環節1,

數據識別:

依據預定義規則庫+命名實體算法服務自動識別敏感信息;

識別環節2,

血緣分析:

依據上游字段的安全標記,

下游字段自動繼承;識別環節3,

人工復核:

開放白名單數據環境,

數據標準由人工進行復核確認;4身份證規則:([1-9]\d{5}(18|19|([23]\d))\d{2}((0

[1-

9])|(10|11|12))(([0-2][1-9])|10|20|30|31)\d{3}[0-9Xx])數據自動

識別字段名安全標識Cert_noe身份證Email郵箱CHILD_C

NT子女數量Cert_noemailname算法識別:利用大規模語料學習標注模型,

可快速識別文本中的實體數據表A字段名安全標識字段1身份證字段2郵箱

字段血緣分析

白名單數據環境采集表A數據表B識別說明規則庫人工

復核數據表A數據表B12√√…….數據研發平臺Data

Ops-數據沙箱實現數據流通

安全共享?基于沙箱數據只進不出和分析應用相互隔離兩大原則構建數據沙箱環境,

差異化數據融合模式,

確保安全可控要求下,

提升訓練和探索環節效

率,

便捷化數據應用通道。數據沙箱環境業務

數據數據生產環境B模型結果

寫出資金同業權限最小化申請信用卡

消金

資金同業其他場景

可有效解決類似數據融合

公私聯動融合分析等數據類場景沙箱數據只進不出No

Sql存儲沙箱YARN分析應用相互隔離沙箱HDFS批流開發平臺A結果查看A模型輸出Adhoc即席查詢Aicloud數據分析HDFS/IcebergHbase/MongoDB/ES原則原則信用卡

消金

資金同業其他統一SQL語義引擎C模型輸出B模型輸出開發分

析平臺生產YARNA模型結果

寫出信用卡基礎

資源C模型結果

寫出消金無需權限申請統

敏B結果

查看C結果

查看xx√√?構建支持數據開發全流程的沙箱環境,

確保與生產庫分離,

只進不出,數據采樣

既滿足應用系統的沙箱環境數據探索需求,同時提升數據研發使用效大數據SQL引擎數倉層血緣分析原始層數據研發平臺Data

Ops-沙箱環境數據流程KAFKA

消息隊列跑

批沙

境分

析沙

境1

沙箱環境2

生產環境1

用戶日志異步發送算法平臺

生產環境外部沙箱應用外部生產應用沙箱作業算法平臺

(沙箱環境)

生產

數據源沙箱數據源生產作業

生產庫

2

用戶脫敏/抽樣/

保真/單向脫敏引擎/

采樣引擎

沙箱庫

沙箱賬號寫入脫敏/采樣/

保真是否命中

阻斷規則采集團隊標注敏感字段獲取脫敏字段添加脫敏字段元數據管理安全決策引擎執行

SQL提供

數據沙箱庫報

警2用戶輸出數據研發平臺Data

Ops-成本價值管理能力?平臺層面深化數據價值評估體系探索,

實現數據成本與價值的多維度可量化分析,

基于成本/價值實現數據資產的ROI分析以及成本治理。存儲成本=存儲用量*存儲單價

計算成本=計算用量*計算單價成本樣例數據,參考,

不代表實際情況標簽

價值組合標簽拉新關聯提升資產關聯提升PV/UV基礎標簽組合調用量直接調用量

成本量化分析

基礎平臺從存儲和計算兩個維度,

計算每一份數據成本,

計算公式如下:資源用量范圍包括:?

存儲用量?

計算用量對應資源的使用單價:?

存儲使用單價:

0.67(元/TB每天)?

計算使用單價:業務場景資金相關重要鏈路HIVESASPrestoPV/UVUSER職級明細下載調用量點擊率轉化率數據使用成本資源用量資源單價價值量化分析訪問

熱度模型人工

標注存儲成本+計算成本;0.0000093(元/vcoreseconds)"

開發治理一體化平臺

元數據檢查開發治理一體化平臺

業務屬主定義

平臺

數據分類識別

數據盤點

平臺

資產目錄運營

資產自動掛載

平臺

資產查找服務

資產鏈路地圖

質量檢查

血緣鏈路核驗數倉開發加工指標加工API服務加工資產認定定義資產業務屬主資產自動打標(表類型/是否敏感)↓資產信息盤點↓資產信息變更↓資產生命周期運營資產全景地圖資產場景搜索(5).資產化應用:數據資產治理之

,結合數據價值/成本

,面向數據

用戶

,提供資產目錄和搜索服務,并打通資產與使用場景的平臺斷點數據研發平臺Data

Ops-數據資產沉淀(4).

自動掛載:基于第三步的

自動盤點,

完成對于資產目錄掛載(事前治理側需先完成標準資

產目錄維護)(2).認責定義;:基于推送的數

據(元數據);定義業務屬主和認

,將數據責任方界定清楚(3).

自動盤點:按照事前定義的

業務全景圖譜,依賴治理工具實

現資產的自動打標

,并最終完成

分類盤點(1).生成:依賴元數據治理規

范工具

,檢測通過的數據(元

數據)

,接口推送至數據資產

平臺據

產(5).資產服務(3).資產管理與盤點(1).資產產生(4).資產編目(2).資產認責資產目錄掛載數倉目錄管理平臺

工具層目標

用戶資產目錄導航打通資產場景

資產運營人員

數據加工人員資產運營人員

資產使用人員資產管理人員

資產開發人員數據加工人員目錄一

數據研發問題及挑戰二

數據研發Data

Ops實踐三

未來展望核心能力:

邏輯數倉層構建面向用戶和下游應用消費的邏輯數倉層,

將邏輯表與物理表隔離,

將物理

表交給系統層優化

物理層智能調度透明數據ETL邏輯和物理存儲介質,

邏輯層用戶行為和需求觸發,

實現數據生

產鏈路的智能編排和調度,

針對重復

似計算進行自動合并,

下線或降權無效

低頻

、低價值數據生產

性能自優化基于用戶查詢行為實現自適應的查詢

性能優化,自動實現物化

、緩存或構建Cube/索引

從被動到主動的數據治理,

實現“數據自動駕駛”邏輯層基于業

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論