數據倉庫建設需求_第1頁
數據倉庫建設需求_第2頁
數據倉庫建設需求_第3頁
數據倉庫建設需求_第4頁
數據倉庫建設需求_第5頁
已閱讀5頁,還剩7頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

數據倉庫建設需求一、項目概況在企業的數字化轉型浪潮中,數據被譽為“新時代的石油”,而數據倉庫作為數據管理與分析的核心基礎設施,在企業的信息化建設中扮演著重要的角色。數據倉庫是為了便于多維分析和多角度展現,而將數據按特定的模式進行存儲所建立起來的關系型數據庫,它的數據基于OLTP源系統。首先,用于支持決策,面向分析型數據處理,它不同于企業現有的操作型數據庫;其次,對多個異構的數據源有效集成,集成后按照主題進行了重組,并包含歷史數據,而且存放在數據倉庫中的數據一般不再修改。數據倉庫系統體系結構:數據源->ETL->數據倉庫存儲與管理->OLAP->BI工具。數據源數據倉庫系統的數據源泉,通常包括企業各類信息,包括存放于RDBMS中的各種業務處理數據和各類文檔數據;各類法律法規、市場信息和競爭對手的信息等等。在互聯網常見的產品中,一般的數據來源還有產品端的數據,包括訂單類到業務類,日志類到用戶行為類,角色類到用戶畫像類和商家屬性類。ETLETL是將業務系統的數據經過抽取、清洗轉換之后加載到數據倉庫的過程,目的是將企業中的分散、零亂、標準不統一的數據整合到一起,為企業的決策提供分析的依據。抽取:抽取前期需要做一些調研工作,主要包括:弄清數據是從哪幾個業務系統中來,各個業務系統的數據庫服務器運行什么DBMS。是否存在手工數據,手工數據量有多大。是否存在非結構化的數據。需要明白的是,需要為各種類型的數據做準備。因為在市場往前發展的過程中,會延伸出來很多新的需求和變化。有時候為了臨時支持某些決策和功能的監控,必須采用這些原本不在計劃中的數據類型。清洗與轉換:數據清洗的任務是過濾那些不符合要求的數據,將過濾的結果交給業務主管部門,確認是否過濾掉還是由業務單位修正之后再進行抽取。清洗的數據種類:不完整數據,錯誤數據和重復數據。這種情況在對Log日志數據的清洗比較常見。如外賣早期通過數據探查發現了很多記錄的缺失和埋點的錯誤。幸而發現的早,并沒有造成大量的數據缺失和錯誤。數據轉換的內容包括編碼轉換(m/f->男/女),字段轉換(balance->bal),度量單位的轉換(cm->m),數據粒度的轉換。業務系統數據存儲非常明細的數據,而數據倉庫中數據是用分析的,不需要非常明細,會將業務系統數據按照數據倉庫粒度進行聚合.商務規則的計算:不同企業有不同的業務規則,不同的數據指標,在ETL過程,將這些數據計算好之后存儲在數據倉庫中,供分析使用(比如KPI)。加載:經過前兩步處理后的數據可直接加載入數據倉庫。數據的存儲與管理:數據的存儲和管理是整個數據倉庫的核心,是關鍵。數據倉庫的組織管理方式決定了它有別于傳統數據庫,同時也決定了其對外部數據的表現形式。從數據倉庫的技術特點著手分析,來決定采用什么產品和技術來建立數據倉庫,然后針對現有各業務系統的數據,進行抽取、清理,并有效集成,按照主題進行組織。數據倉庫按照數據的覆蓋范圍可以分為企業級數據倉庫和部門級數據倉庫(通常稱為數據集市)。OLAP服務器對需要的數據進行有效集成,按多維模型予以組織,以便進行多角度、多層次的分析,并發現趨勢。其具體實現可以分為:ROLAP(關系型在線分析處理)、MOLAP(多維在線分析處理)和HOLAP(混合型線上分析處理)。ROLAP基本數據和聚合數據均存放在RDBMS之中;MOLAP基本數據和聚合數據均存放于多維數據庫中;HOLAP基本數據存放于RDBMS之中,聚合數據存放于多維數據庫中。BI工具主要包括各查詢工具、數據分析工具、數據挖掘工具、報表工具以及各種基于數據倉庫或數據集市的應用開發工具。數據分析工具主要針對OLAP服務器。報表工具、數據挖掘工具主要針對數據倉庫。我院現有數字化應用系統40個,各個應用系統使用對象和用途不同,隨著業務融合和管理提升的需要,現有模式存在以下不足:一是系統分散,產生的數據分散在各應用系統,缺乏統一的聚集手段,存在數據孤島,導致數據的互聯互通不暢,數據資源利用率低。二是系統的融合度不高,數據標準不統一,數據無法便捷提取,各系統之間集成采用的是一對一接口方式,建設和維護成本較高。二、項目目標為了打破信息壁壘,推進業務協同和數據共,通過建立統一的標準規范、安全保障、運行維護體系,按照遵循“一數一源,一源多用”的原則,建設集數據匯集,數據治理,數據共享等功能為一體的數據倉庫,使得各應用系統既是數據的產生和提供者,也是數據的使用者,實現我院數據資產統一管理、統一存儲和統一共享。數據倉庫建設的基本要求如下:1.數據質量高:數據倉庫是聚合來自不同來源的數據,因此需要對源數據進行清洗、整合、標準化等處理,以確保數據質量高、準確性好、可信度高。2.數據安全性好:數據倉庫需要存儲企業的核心數據,要確保數據安全性,防止數據泄漏、數據不當使用、數據被破壞等情況。3.數據一致性好:數據倉庫需要維護和管理來自各個數據源的數據,因此需要保證數據的一致性、標準化和格式化等。4.數據可追溯性:數據倉庫需要能夠追溯數據的來源和變更,以形成全面的數據歷史記錄,方便數據分析和數據挖掘等。5.數據可擴展性強:企業的數據量和類型會不斷增長和變化,因此數據倉庫需要具備高度的可擴展性和靈活性,以應對未來的業務變化和擴展需求。6.數據查詢性能好:數據倉庫的主要目的是支持企業的數據分析和決策,因此需要具備高效的查詢和報告生成功能,以提高數據分析的效率。7.數據倉庫的維護成本低:數據倉庫需要的硬件和軟件資源相對較高,因此建設和維護成本也相對較高,企業需要在建設和維護過程中控制成本,降低數據倉庫的成本。三、項目內容項目包含主要內容:(1)建設數據倉庫基礎軟件平臺1套:建立統一的數據匯集和治理平臺,該平臺能實現多源異構數據(多應用系統不同類型數據庫)的采集、存儲、清洗、共享和API接口發布等功能;支持信創環境部署。(2)項目實施服務:構建我院數據倉庫底座,包括基礎數據,業務數據和歷史數據遷移;(3)形成一套數據使用和管理規范,包括數據庫設計規范、數據使用管理規范、數據接口標準規范、數據運維管理規范;(4)配套提供該平臺的運行環境。具體包括:1.建設一套統一的數據匯集和治理平臺技術側采用成熟的軟件平臺,建立統一的數據匯集和治理平臺,該平臺能實現多源異構數據(多應用系統不同類型數據庫)采集、存儲、清洗、共享、融合服務功能要求。業務側覆蓋全院人力、財務、科研、資產、檢驗、項目等各業務條線指標體系。支持指標體系存儲、更新、定義。同時支持信創環境部署和使用。2.建立一套統一的數據交換接口服務平臺支持通過可視化操作,快速生成數據發布API,提供數據訪問接口實現數據對接;支持自定義SQL模式生成、API分頁配置,支持綁定參數進行動態篩選。同時支持API測試,API運維管理,API授權,API加密調用等功能。3.形成一套數據使用和管理規范通過項目實施,形成符合我院實際的數據庫設計規范、數據使用管理規范、數據接口標準規范、數據運維管理規范,進一步提高數據資源使用和管理規范性。四、功能要求一、軟件部分(1)數據倉庫基礎平臺1套模塊子模塊功能功能描述1、數據開發常規節點常規節點:包含數據同步、SQL腳本、參數賦值、條件分支、虛擬節點、調用任務、消息通知節點。循環容器循環容器:包含循環容器節點的功能。調度配置調度配置:定時ETL的調度配置功能。任務運維任務運維:包含任務各階段的任務數量,調度簡介與周期,運行記錄日志等運行監控,自定義調整硬件資源使用閥值,便于硬件資源利用率優化。數據轉換-基礎算子包數據轉換-基礎算子包:數據轉換依托自身Spark引擎強大的能力,保證了數據的分析處理性能,此項包含數據轉換中基礎類型算子。數據轉換-高級算子包數據轉換-高級算子包:在數據轉換-基礎算子包基礎上,增加大量復雜計算邏輯出算子,使得數據轉換節點中可實現復雜數據分析處理過程。2、數據源管理基礎數據源基礎數據源:包含mysql,Oracle,SQLServer,PostgreSQL,DB2,RestAPI,FTP等最用的數據源種類。3、B/S運維管理平臺系統管理系統管理:包含外觀配置、系統運維、系統配置、插件管理、用戶管理、數據配置,平臺安全防護及用戶信息監控的綜合門戶。智能運維智能運維:智能檢測系統存在的問題和風險,閾值預警,為系統穩定運行提供保障。集團權限控制集團權限控制:支持分配數據源連接權限,任務設計權限以及任務查看和管理權限的多個層級分配,借以達到多部門共用系統且多個管理員分級管理的目的。短信平臺短信平臺:開通短信平臺功能,無縫對接帆軟系統和任務的短信通知,比如任務失敗通知、身份驗證、系統消息通知等等,短信費用按需收費。4、數據源管理進階數據源-大數據進階數據源-大數據:包含大數據場景中常見的數據源種類,如數倉引擎SAPHANA、Hive,Impala,Presto、ClickHouse等。5、數據管道管道任務管道任務:包含讀取方式選擇、讀取起點配置、寫入設置、資源控制設置、源端數據結構變更設置、錯數隊列設置、預警通知設置等功能,實現5分鐘完成兩個數據系統間的同構/異構數據實時同步配置,支持多表或者整庫的自動數據初始化,斷點續傳和實時增量同步。數據監控及補全數據監控及補全:針對單表能夠及時發現數據差異,并在發現數據差異時,可以快速便捷地處理差異,減少數據異常對業務的影響時間,保證源側與目標側數據一致,并可在差異處理后分析差異原因。6、數據源管理高階數據源-指定公有云(API&Webhook)高階數據源-指定公有云(API&Webhook):針對指定公有云應用的API&Webhook進行易用性優化定制數據源,滿足定時同步和實時同步場景。高階數據源-Mysql(Binlog)高階數據源-Mysql(Binlog):基于Mysql的Binlog日志解析進行數據增量抽取,支持數據本身及其元數據(DDL)的增量變化,要求Mysql5.6及以上。高階數據源-Oracle(Logminer)高階數據源-Oracle(Logminer):基于Oracle的Logminer日志解析進行數據增量抽取,支持數據本身及其元數據(DDL)的增量變化,要求Oracle版本在9i~19c。高階數據源-Oracle(CDC)高階數據源-Oracle(CDC):基于Oracle的CDC最小基本日志進行數據增量抽取,僅支持數據本身的增量變化,要求Oracle版本在9i~11c。高階數據源-Sqlserver(CDC)高階數據源-Sqlserver(CDC):基于Sqlserver的CDC最小基本日志進行數據增量抽取,僅支持數據本身的增量變化,要求Sqlserver版本在為企業版(EnterpriseEdition)需要2008及以上版本,標準版(Standard)需要2016SP1及以上版本。高階數據源-PostgreSQL(wal2json)高階數據源-PostgreSQL(wal2json):基于PostgreSQL的wal2json日志解析進行數據增量抽取,僅支持數據本身的增量變化,要求PostgreSQL9.6及以上。高階數據源-IBMDB2高階數據源-IBMDB2(CDC):基于IBMDB2的CDC最小基本日志進行數據增量抽取,僅支持數據本身的增量變化,要求DB2為EnterpriseServerEdition版本。7、數據API服務API數據準備API數據準備:同一API可以從單個數據表或者SQL數據集中取數,并且在API的基礎數據中允許綁定參數進行動態篩選。API管理API管理:0代碼/低代碼可視化配置提供API的數據訂閱服務,包含API地址設置,參數綁定,安全設置等。以及完成API業務包的管理動作。API監控臺API監控臺:對單個API的請求時間,請求地址,響應時長,返回碼等進行實時記錄和監控。二、軟件部分(2)項目實施服務服務項具體功能功能描述1、數據倉庫規劃數據倉庫調研、規劃為加快特檢院數據治理體系建設,明確數據治理歸口管理部門,加強數據標準化元數據和主數據管理工作,定期評估數據治理能力成熟度。加強生產現場、服務過程等數據動態采集,建立覆蓋全業務鏈條的數據采集、傳輸和匯聚體系。加快數據管理平臺體系建設,創新數據融合分析與共享交換機制。強化業務場景數據建模,深入挖掘數據價值,提升數據洞察能力。構建符合業務需求的標準數據模型,并逐漸沉淀特檢院標準數據考核模型,數據考核模型應符合甲方系統規范,并通過審查。完成數據模型設計說明書。對于關鍵數據,需要完成數據探查并完成數據探查報告,用以輔助數據模型開發。2、元數據管理實時存儲構建融合流處理等技術,支持特檢院大數據的高效儲存和統一管理,為特檢院決策提供實時的數據支撐。在數據集上同時進行離線計算和流式處理,滿足高吞吐大數據量和低時延實時處理等多方面的數據計算要求。離線存儲構建對在線存儲的數據進行備份,防范可能發生的數據災難,又稱備份級的存儲。實現對離線硬盤數據的完全控制,防止硬盤數據的非法讀寫與修改。實現對預警硬盤的備份復制。多引擎計算構建集成Hive、Flink、ES等數據引擎進行并線計算。可根據計算優先級進行存算資源調配。存算任務支持斷點續傳。運維管理構建支持可視化運維管理界面,運維成本低,支持集群資源靈活調整,資源使用率高。數據管控構建具備多租戶權限管理能力,支持Kerberos身份認證和數據加密,使用Ranger數據訪問控制。3、主數據管理主數據建表方便地管理主數據、檢索主數據,并基于業務實際使用情況及用戶反饋,幫助特檢院建立主數據對照標準。包含主數據標準制定、檢索、多系統多維分析。標簽服務檢索基于數倉ETL加工好的維表、事實表,圍繞業務對象進行標簽數據模型搭建,方便不同類型標簽的加工調用。包含標簽建模可視化、多種標簽開發模板、支持動態標簽調參數據應用構建對產出元數據標簽進行分群圈選、畫像洞察等操作,快速驗證數據準確性。

包含分群圈選驗證、多維畫像洞察4、主題域構建貼源層構建(ODS)建議基于高性能數據庫進行數據倉庫實施,ETL數據跑批更新頻率建議為T+0,部分冷數據可酌情考慮調整為T+1。

ODS技術指標:源數據同步更新,并進行去重、標準化、臟數據過濾等動作。結果層構建(DW)建議基于高性能數據庫進行數據倉庫實施,ETL數據跑批更新頻率建議為T+0,部分冷數據可酌情考慮調整為T+1。

DW技術指標:基于ODS進行維度構建,初步形成面向業務主題的結果表。后續可結合維度表進行結果數據輸出。集市層構建(ADS)建議基于高性能數據庫進行數據倉庫實施,數據跑批更新頻率建議為T+1,部分財務數據可酌情考慮調整為T+7。

DM技術指標:嚴格面向主題場景的結果表,又名數據集市。能夠快速響應數據查詢訴求。主題域-財務模型(含ODS、DW、ADS)財務管理主題基于特檢院OA管理系統全模塊的數據進行財務主題分析建設,通過OA系統數據中間庫獲取相關指標等數據,多維度綜合分析特檢院財務狀況,滿足領導對特檢院財務指標的全貌管理關注需求,并實現數據的溯源。主題域-科研實驗模型(含ODS、DW、ADS)科技管理主題基于內控項目管理和LIMS系統板塊的數據進行科技管理主題分析建設,提煉科研項目,裝備項目進度管理,科研成果及成果轉化等指標,按項目,人員,部門等不同

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論