




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
大數據湖倉一體技術規范2023IIIIII前言數據是國家基礎戰略性資源和重要生產要素,數據要素是數字經濟深化發展的核心引擎。協同推進技術、模式、業態和制度創新,切實用好數據要素,將為經濟社會數字化發展帶來強勁動力。隨著企業數字化轉型的深入,圍繞數據,涌現出更大規模、更復雜的數據處理系統,現代商業智能、多模式數據處理、人工智能和機器學習等等用來構建新一代數據基礎設施正在興起。大數據平臺架構通常是數據湖(hadoop)和數據倉庫(MPP數據庫)的混合架構,由于湖和倉之間的技術架構不一樣,導致出現數據孤島問題,在進行融合計算時需進行數據拷貝,會造成數據冗余存儲。為打破數據湖與數據倉庫割裂的體系,架構上融合數據湖的靈活性、生態豐富和數據倉庫的企業級能力,推出《大數據湖倉一體技術標準》,打通數據倉庫和數據湖兩套體系,讓數據和計算在湖和倉之間自由流動,從而構建一個完整的有機的大數據技術生態體系。PAGE\*ROMANPAGE\*ROMANIV目錄版權聲明 I編制說明 II前言 III一、范圍 1二、縮略語 1三、參考標準 1四、湖倉一體技術架構 1(一)統一存儲 2(二)統一元數據 3(三)統一計算 3(四)統一服務 3(五)統一運維 3(六)安全管理 3(七)湖倉一體架構演進 3五、統一存儲能力要求 3(一)分布式文件系統 4基礎能力 4數據接入 4數據格式 4數據訪問接口 5存儲分級 5數據可靠性 5文件操作 6(二)負載均衡功能 6(三)數據緩存加速 6(四)數據組織格式 7六、統一元數據能力要求 7(一)元數據注冊 8(二)數據源管理 8(三)元數據采集 8(四)元數據稽核 8(五)元數據管理 9(六)元數據服務 9(七)元數據追溯和審計 9七、統一計算能力要求 9(一)批處理引擎 10(二)流處理引擎 10(三)交互式查詢引擎 10(四)交互式分析引擎 10(五)機器學習引擎 11八、統一服務能力要求 11(一)統一開發能力 11通用開發能力要求 11湖倉一體開發能力要求 12開放對接要求 12(二)統一調度能力 12調度配置 13觸發方式 13任務協同調度 13流程控制 13容錯管理 13(三)統一運營能力 14數據資產化管理 14數據價值管理 14(四)統一開放能力 14數據服務開放管理 15服務目錄管理 15數據開放形式 15(五)統一管理能力 15九、運維管理能力要求 15(一)配置管理 15(二)湖倉一體運維 16(三)在線升級 16(四)亞健康檢測 16(五)故障自愈 16(六)日志管理 17(七)北向接口 17十、安全管理能力要求 17十一、湖倉一體架構平滑演進 17(一)數據湖向湖倉一體演進 18(二)數據倉庫向湖倉一體演進 18PAGEPAGE10一、范圍本文件定義了大數據湖倉一體的技術架構,以及統一存儲、統一元數據、統一計算、統一服務、運維管理、安全管理、平滑演進相關能力要求。本文件適用于大數據湖倉一體架構設計,產品研發和測評,以及企業落地實施湖倉一體架構升級做參考。二、縮略語縮略語英文全名中文解釋CDCChangeDataCapture變更數據捕獲,可以記錄數據源的增量變動,同步到一個或多個數據目的DeltaLakeApacheDeltaLake一種數據格式,為ApacheSpark和其他大數據引擎提供可伸縮的ACID事務FlinkApacheFlinkApacheFlink是一個框架和分布式處理引擎,用于在無邊界和有邊界數據流上進行有狀態的計算HadoopApacheHadoop由Apache基金會所開發的分布式系統基礎架構HDFSApacheHDFSHadoop分布式文件系統(HadoopDistributedFilesystem)HiveApacheHive基于Hadoop的一個數據倉庫工具HudiApacheHudi一個開源Apache Spark庫,用于在ApacheHadoop上執行諸如更新,插入和刪除之類的操作IcebergApacheIceberg一種面向海量數據分析場景的開放表格式MRApacheMapReduce一種編程模型,用于大規模數據集(大于1TB)的并行運算TezApacheTezApache支持DAG作業的開源計算框架SparkApacheSpark基于內存計算的開源的集群計算系統三、參考標準GB/T37939-2019 信息安全技術網絡存儲安全技術要求YD/T4029-2022 計算存儲分離架構的分布式存儲技術要四、湖倉一體技術架構湖倉一體是一種新的大數據架構,融合數據湖與數據倉庫的優勢,實現數據湖和數據倉庫的數據無縫打通,提升數據分析效率,同時還能減小數據冗余和搬遷,降低成本,支撐企業大數據系統高效運行。湖倉一體結合云原生技術,采用存算分離架構,提供統一開放的存儲接口,對接多樣的計算引擎,實現存儲合和計算靈活規劃和部署,資源彈性、按需伸縮,從而有效簡化企業的數據基礎設施架構。湖倉一體技術架構如下圖所示:在該架構中,數據統一存儲,提供統一元數據,將大數據、數據倉庫、機器學習、等技術進行整合,形成一套數據服務系統,將數據倉庫和數據湖的價值進行疊加,更好地分析、整合數據。該架構可以很好的克服數據重力,讓數據湖和數據倉庫的數據可以自由流動,用戶可以便捷地調取數據。借助湖倉一體,企業可高效處理數倉內的熱數據與數據湖中的歷史數據,并生成豐富的數據集,無需做數據搬移。湖倉一體技術架構由以下七部分組成。(一)統一存儲接入多種數據,提供多種數據存儲格式,包括數據湖的數據格式和數據倉庫的數據格式,可以存儲任意規模的結構化、半結構化、非結構化數據。通過通用的數據組織格式,如Hudi、Iceberg、DeltLake等,實現數據的統一存儲訪問。(二)統一元數據通過采集、管理數據湖與數據倉庫中的元數據,構建統一元數據目錄和數據視圖,實現數據湖與數據倉庫數據共享,提供湖倉一體化的元數據服務。(三)統一計算集成批處理引擎、流處理引擎、交互式查詢引擎、交互式分析引擎、機器學習引擎等通用數據處理引擎,覆蓋數據處理全場景,通過統一元數據管理,實現與統一的存儲的無縫對接。(四)統一服務為上層業務提供一體化的數據服務體驗,無需關注底層異構環境,為數據開發者、數據使用者、數據運營管理者提供統湖倉一體化服務能力。(五)統一運維滿足多樣化運維需求,支撐平臺管理員、各類運維人員或使用者及時發現、定位并處理問題,提高運維效率。(六)安全管理依據三法一條例,構建全面的安全保護解決方案,從系統層安全、數據層安全、應用層安全構筑完整的安全管理能力。(七)湖倉一體架構演進基于數據湖與數據倉庫現有能力,對標湖倉一體的架構進行補充與完善,實現向湖倉一體架構的平滑演進。五、統一存儲能力要求統一存儲,提供高可靠、可擴展的存儲能力,滿足海量、多樣化的結構化、非結構化數據存儲。面向業務訴求,為原始數據、中間數據、業務數據、歸檔數據提供存儲空間和數據管理能力,滿足不同業務對數據訪問訴求,實現熱點數據高吞吐、低時延讀寫,溫冷數據大容量、低成本讀寫。提供開放、統一的數據組織格式,實現數據湖、倉數據共享。(一)分布式文件系統基礎能力應符合YD/T4029-2022中5.6章的要求基礎上,符合如下要求:EB據存儲。對外接口:與主流大數據、數據庫、AI單文件系統應支持十億以上海量文件,業務連續不中斷。數據接入a)支持數據按多種方式接入:批量寫入、實時寫入、CDC寫入。b)支持連接多種數據庫、文件系統、消息隊列。c)支持數據并行導入/導出。數據格式支持關系表、文本、圖像、視頻等結構化數據和非結構化數據存儲;TXT、CSV、JSON、ApacheParquet、ApacheOrc、HadoopAPIJPEG、BMP、JPG,WAV、FLAC、MP3、AVI、MPEG、RMVB、PDF、TXT、WORD、DOCX等常見文檔格式。壓縮格式要求,根據不同的業務場景,支持采用不同的文件壓縮格式,gzip、lzo、snappy、bzip2數據訪問接口YD/T4029-20225.5a)S3SMB、NFS、POSIXApacheKAFK、ApachePlusa5.存儲分級支持熱、溫、冷等不同層級數據存儲需求。支持分級策略配置,指定整個存儲系統內文件或者指定目錄/件按照分級策略在不同存儲層級之間遷移。支持按照文件在指定訪問周期內的訪問頻次,自動轉換文件的存儲層級。數據可靠性支持采用多副本、EC支持數據糾刪碼方式保護,支持22+2、20+2、16+2、8+2、4+22應支持數據副本校驗和巡檢能力,支持故障副本快速恢復。硬盤故障,支持數據自動重構,無需人工干預;數據重構對業務性能影20。文件操作應支持文件上傳、下載、創建、復制、刪除、獲取、批量刪除對象操作。支持設置文件權限操作。對于超大型文件,支持通過分段的方式上傳或者下載。a)支持追加寫文件。支持使用為文件/對象添加對象標簽以便分類管理。b)支持通過對象標簽管理生命周期規則、跨地域復制規則、清單規則等。c)支持用戶對于自己的文件系統空間和文件數量的查詢。(二)負載均衡功能支持湖倉一體架構下,多業務并行訪問數據。應符合YD/T4029-2022中5.3、5.7和5.8章的負載均衡相關要求。(三)數據緩存加速支持湖倉一體架構下,數據高性能訪問。a)HDFS、S3、NFSb)支持數據、元數據緩存和加速。支持多種緩存設備:內存/SSD/HDD。支持計算側算子下推到存儲側執行,在存儲側讀取數據就近計算,優化大數據計算性能。支持多計算節點共享緩存數據,減少數據冗余存儲。支持緩存數據高可用,計算節點故障遷移、擴容場景,數據免重建,RTO/RPO<1(四)數據組織格式Hudi、Iceberg、DeltaLake實現增量寫入讀取。a)支持事務ACID,可以對存儲的數據進行插入/更新操作。b)支持快照查詢,讀取數據集的最新快照。支持增量查詢,查詢指定時間的最新數據集。commit/compacte)支持數據時間旅行,可基于時間/版本號訪問歸檔的歷史版本數據。支持訪問性能優化,支持小文件合并、數據分布、排序、索引、統計信息、緩存的優化支持對接大數據計算引擎,對數據分析,如:ApacheSpark、FlinkPresto、Hive六、統一元數據能力要求基于元數據管理標準,對數據湖與數據倉庫的的元數據進行統一采集、適配、拉通與管理,形成統一的元數據目錄,實現數據湖與數據倉庫的統一元數據管理,為統一服務、統一計算與統一存儲提供湖倉一體的元數據服務。(一)元數據注冊名稱等。支持提供系統級數據架構定義,包括主題、層次、系統、數據庫等。支持湖倉模型等元數據信息注冊。(二)數據源管理a)支持數據湖與數據倉的所有數據源進行統一管理。b)支持數據源的增、刪、改。(三)元數據采集支持通過對文件存儲的目錄/文件/護元數據。支持數據倉庫技術元數據采集,抽取數據字典信息。MetaStore,支持技術元數據入湖識別與解析。任務測試功能。支持基于行業數據治理規范,具備元數據的適配轉換能力。(四)元數據稽核支持數據湖元數據的稽核,包括一致性稽核、關鍵屬性稽核等。支持數據倉庫元數據的稽核,包括一致性稽核、關鍵屬性稽核等。(五)元數據管理a)支持元數據的增刪改、版本管理。支持元數據的分層管理。d)支持針對數據湖和數倉構建統一的元數據目錄。e)支持基于不同角色和用戶身份,進行功能和數據權限管理。(六)元數據服務存儲位置等。c)支持記錄元數據訪問頻次,標記數據熱度。d)支持查詢歷史版本的元數據信息。(七)元數據追溯和審計a)b)支持記錄元數據采集任務日志,展現任務完成情況。c)支持記錄審計日志,對元數據操作行為追溯、審計。七、統一計算能力要求面向湖倉一體業務,提供多樣化計算引擎,滿足多種場景的數據處理和分析要求。用戶可使用自助查詢、報表、商業智能(BI)和數據探索等形式,驅動計算引擎對數據進行分析。提供與數據湖/數據倉庫的交互工具,如JDBC/ODBC驅動,支持Java、C/C++、Go、Python、Perl和Php等語言客戶端程序連接。(一)批處理引擎支持處理結構化數據、非結構化數據。提供SQL訪問接口,兼容TPC-DS標準語法。支持MapReduce、Hive、Spark、Tez、MaxCompute等常用批處理引擎。(二)流處理引擎支持訪問Hudi、Iceberg、DeltaLake等開放格式。支持Flink、SparkStreaming、Storm等常用流處理引擎。(三)交互式查詢引擎低時延的數據查詢和分析,如Greenplum、ClickHouse、GBase、Hologres等常用交互式查詢引擎。支持SQL結構化查詢語句,包括數據查詢(DQL)、數據定義(DDL)據操縱(DML)、數據控制(DCL)。支持ANSISQL2003標準語法。(四)交互式分析引擎提供大數據實時查詢和分析能力,高性能、高容錯的分布式OLAP能快速處理大規模的數據,并能夠實現快速查詢和分析,如Presto、openLooKeng等。支持SQL結構化查詢語句,支持ANSISQL2003標準語法。d)支持對接數據探索、BI分析、報表展示等工具。(五)機器學習引擎支持機器學習模型開發和部署,提供模型開發所需的工具,提供常用的機器學習算法,如決策樹和支持向量機(SVM),神經網絡(CNN),循環神經網絡(RNN)等。支持TensorFlow、PyTorch和ApacheMXNet等深度學習框架。八、統一服務能力要求針對湖倉一體面對的數據開發者、數據使用者以及數據運營管理者,提供一體化的數據服務。(一)統一開發能力構建可視化的湖倉統一集成開發環境,基于租戶作業運行隔離機制,提供一體化的開發模式,實現全流程的敏捷交付支撐,滿足多樣化開發需求。1.通用開發能力要求a)支持數據目錄查看,方便數據開發者了解數據模型情況。b)支持模型開發、審核、發布與上下線。c)支持模型發布后,元數據的自動采集與注冊。d)支持數據任務開發,包括流處理、批處理、流批一體、交互查詢等任務開發。e)支持數據任務開發、測試、發布、運維一套標準的線上開發流程。支持可視化開發與腳本開發。的抽象與配置。2.湖倉一體開發能力要求a)支持基于統一元數據的湖倉一體任務開發,實現任務的跨湖跨倉。b)支持基于統一元數據的統一模型開發,實現湖倉模型的統一。3.開放對接要求模型開發,實現元數據注冊。支持統一計算層所有計算引擎的適配,如Flink、Spark、Presto等。支持統一存儲下的存儲引擎適配,包括Hudi、Iceberg、DeltaLake布式存儲、對象存儲等。(二)統一調度能力開發業務模型所形成的數據加工任務,需要按時間、事件、或業務要求進行任務的啟停控制。調度配置a)支持提供圖形化任務配置管理,通過配置任務的基礎信息,支持不同的周期類型任務。b)支持模版任務配置,一鍵生成批量調度任務。觸發方式方式進行任務啟??刂?。3.任務協同調度支持按任務的優先級調度。支持設置定時任務;多個子任務并行執行;支持按任務先后順序執行。c)數據倉庫運行。4.流程控制支持設置任務間的依賴關系。等。d)支持用戶自定義表達式,設置和控制任務觸發條件。5.容錯管理具備平臺級調度恢復保障(狀態記憶)、調度健壯性(重跑重試)、數據完整性保障(歷史補算)、簡化運維難度(失敗告警)等能力。(三)統一運營能力統一運營通過數據資產化管理與數據價值化管理,提升湖倉數據質量與價值,加速數據到資產與資本的轉變。1.數據資產化管理與分類,形成數據資產目錄。支持不同角色、不同場景的數據資產目錄展示。支持可視化的數據資產從數據接入、生產、使用、消亡的全過程監控。d)支持持續的數據運營分析與治理,發現問題與改進問題,提升數據質量。2.數據價值管理數據價值分析能力。c)支持通過數據資產價值評估,對數據分級管理。d)支持通過數據服務組合管理提升數據變現能力。(四)統一開放能力構建湖倉數據服務的全流程管理,通過數據服務目錄展示可對外提供的湖倉數據服務,提供多種數據開放形式,滿足各種場景的需求。數據服務開放管理a)b)支持數據安全管理,如數據加密、脫敏等。c)支持數據服務計量和流控。服務目錄管理等。c)支持服務目錄更新、維護和發布。3.數據開放形式支持數據服務使用方提供數據授權、數據復制、數據API息訂閱等數據開放方式。支持同步、異步、訂閱、消息等多種服務訂購方式。(五)統一管理能力遵循行業數據治理規范的具體要求,具備與數據治理模塊對接能力,實現湖、倉數據的統一管理。九、運維管理能力要求(一)配置管理支持圖形管理界面,提供管理員配置存儲系統所需的圖形化流程。應支持存儲池管理、HDFSNameSpace理、硬盤管理、拓撲管理、權限管理、運維管理。c)支持統一監控頁面,對平臺運行湖倉任務進行監控,包括任務狀態、任務依賴關系,前置任務運行情況等,對于異常的任務進行告警。態展示。統計信息;排隊計算是對排隊中任務,計算排隊數量。(二)湖倉一體運維據壓縮等。支持用戶手動對存儲數據布局優化,提升數據訪問性能,如小文件合并。(三)在線升級應支持存儲、計算引擎,軟件、硬件驅動的在線升級和補丁。(四)亞健康檢測報告。支持亞健康檢測告警,并自動隔離該節點。(五)故障自愈a)支持故障自動識別,定位定界;設置故障處理預案。b)支持根據預案,故障任務自動重做。c)支持調度節點異常情況下,同組其他調
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 計算機二級MySQL觸發器應用案例試題及答案
- 計算機網絡安全風險評估試題及答案
- 如何進行嵌入式技術創新試題及答案
- 前沿嵌入式技術試題及答案
- 華能電廠缺陷管理制度
- 醫院智慧門診管理制度
- 單位合并人員管理制度
- 化工園區蒸汽管理制度
- 了解公路工程招投標中的法律風險試題及答案
- 公司醫療器械管理制度
- 高速公路工程投標文件施工組織設計(技術標)
- DB11T 1846-2021 施工現場裝配式路面技術規程
- 四川省成都市2020年中考英語真題(含答案)
- 上海市幼兒園幼小銜接活動指導意見(修訂稿)
- 2024年中國新就業形態勞動糾紛解決研究報告+Resolution+of+Labour+Disputes+Involving+New+Forms+of+Employment+in+China
- 卡西歐手表EFA-120中文使用說明書
- 《十萬個為什么》整本書閱讀-課件-四年級下冊語文(統編版)
- 2024年山東省濟南市中考化學試卷( 含答案)
- 廣東省江門市2023-2024學年高一下學期7月期末考試語文試題(解析版)
- 超市經營服務方案投標方案(技術標)
- 新質生產力視角下高校產教融合人才培養模式研究
評論
0/150
提交評論