




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
ICS35.240.01CCSL705227IDB5227/T112—2022前言 2規范性引用文件 3術語和定義 4數據質量評價總體流程 25數據質量評價要求 35.1確定業務目標和要求 35.2剖析待評價數據 45.3明確數據質量評價指標 55.4設計質量校驗規則 55.5配置質量校驗規則 95.6評估數據質量并輸出報告 96整改問題數據 7數據共享開放工作流程 附錄A(資料性)表級計算得分示例 12附錄B(資料性)部門級計算得分示例 13附錄C(資料性)數據質量報告樣例 14C.1數據質量情況分析 C.2數據質量得分及排名對比 C.3數據異常響應問題變化趨勢 C.4問題數據整改建議 附錄D(規范性)黔南州數據共享開放工作流程 17參考文獻 DB5227/T112—2022本文件按照GB/T1.12020《標準化工作導則第1部分:標準化文件的結構和起草規則》的規定起草。請注意本文件的某些內容可能涉及專利。本文件的發布機構不承擔識別專利的責任本文件由黔南州大數據發展管理局提出。本文件由黔南州大數據發展管理局歸口。本文件起草單位:黔南州大數據發展管理局、黔南州市場監督管理局、都勻市大數據發展服務中心、廣西大學計算機與電子信息學院、黔南民族師范學院、北京東方國信科技股份有限公司、中國電信股份有限公司黔南分公司。本文件主要起草人:潘志刊、楊宗俊、顏家遠、劉超、黃子吉、何曉慧、陳文濤、宋俊、李怡青、董婧、殷文輝、左為、韋廣柱、劉峻、李明江、周錦程、張永麗、胡嘉斌、宋佳南、楊森、傳洪波。1DB5227/T112—2022智慧黔南數據質量評價規范本文件規定了智慧黔南數據質量評價規范的全流程,包括數據質量評價總體流程、數據質量評價要求、整改問題數據、數據共享開放工作流程。本文件適用于智慧黔南數據質量評價規范的具體實施工作,為各行業各部門評價數據質量提供參考。2規范性引用文件下列文件中的內容通過文中的規范性引用而構成本文件必不可少的條款。其中,注日期的引用文件,僅該日期對應的版本適用于本文件;不注日期的引用文件,其最新版本(包括所有的修改單)適用于本文件。GB/T5271.1信息技術詞匯第1部分:基本術語GB/T5271.17信息技術詞匯第17部分:數據庫GB/T36344信息技術數據質量評價指標3術語和定義GB/T5271、GB/T36344界定的以及下列術語和定義適用于本文件。3.1數據關于數據或數據元素的數據(可能包括其數據描述),以及關于數據擁有權、存取路徑、訪問權和數據易變性的數據。[來源:GB/T5271.17—2010,17.06.05]3.2元數據關于數據或數據元素的數據(可能包括其數據描述),以及關于數據擁有權、存取路徑、訪問權和數據易變性的數據。[來源:GB/T5271.17—2010,17.06.05]3.3數據質量在指定條件下使用時,數據的特性滿足明確的和隱含的要求的程度。[來源:GB/T36344—2018,2.3]3.4原始數據終端用戶所存儲使用的各種未經過處理或簡化的數據。[來源:GB/T36344—2018,2.4]2DB5227/T112—20223.5數據集具有一定主題,可以標識并可以被計算機化處理的數據集合。[來源:GB/T36344—2018,2.6]3.6數據質量校驗對數據質量進行校對、核查的過程。3.7數據質量評價指以原始數據為基礎,充分考慮數據之間的相關性、匹配性、邏輯性,采用科學方法對數據的規范性、完整性、準確性、一致性、時效性、可訪問性進行判斷和分析,對可能存在的數據質量問題進行追溯和核實,對數據進行確認的過程。3.8數據標準數據的命名、定義、結構和取值范圍方面的規則和基準。[來源:GB/T36344—2018,2.8]3.9數據剖析用適當的統計、分析等方法對原始數據進行分析,對其特征加以匯總和理解,以求最大化地開發數據的功能,發揮數據的作用。4數據質量評價總體流程數據質量評價流程可保證數據質量評價整個過程的有序及有效進行,具體流程如圖1所示:3DB5227/T112—2022圖1數據質量評價流程5數據質量評價要求5.1確定業務目標和要求內容包括但不限于:——項目的背景、計劃和目標;——數據存在的具體問題;——問題數據的產生,例如流程、組織、技術等;4DB5227/T112—2022——問題數據解決的優先次序。5.2剖析待評價數據內容包括但不限于:——數據的元數據信息,例如數據名稱、數據格式、數據類型、數據精度等。——數據值的分布信息,例如主鍵唯一性、缺失值、取值范圍、異常符號等。——設定字段的級別,按業務重要性程度和數據問題的嚴重性程度對原始數據進行業務影響分級,分為一級、二級、三級。三級級別最高,重要程度分類方式如下:三級:業務主鍵;二級:數值型、日期型、文本類表示的日期字段,短文本類字段(如名稱、地址、代碼、類型等特征字段),權威數據來源字段;5DB5227/T112—2022一級:空值率大于80%、其他類型字段,如:源業務系統字段、長文本描述類型字段。5.3明確數據質量評價指標數據質量評價指標劃分為:完整性、一致性、準確性、合理性、唯一性與及時性六個維度。其中,完整性、一致性、準確性應符合GB/T36344的規定。5.4設計質量校驗規則5.4.1制定校驗規則概述根據質量評價指標制定12項質量校驗規則,對數據質量進行計算、評分,質量評價指標和校驗規則的對應關系見表1。表1質量評價指標對應的質量校驗規則表123456789完整性6DB5227/T112—2022按照數據規則要求,數據元素被賦予數值的程度,包括數據元素的完整性和數據記錄的完整性。對應的規則為:字段完整性校驗、空值校驗、記錄數校驗、參照校驗-雙向校驗,完整性評價指標見表2。表2完整性校驗規則1234A=數據內容與參照數據相互不包含的數據數注:X代表數據質量評價值一致性數據與其他特定上下文中使用的數據無矛盾的程度,包括相同數據一致性和關聯數據一致性。對應的規則為一致性校驗,一致性評價指標見表3。表3一致性校驗規則1對分布在不同庫表中的相同數據A=校驗列中與參照列中數據內容不一致的數據記單表匯總校驗:校驗列數據匯總值和參照列數據雙表匯總校驗:校驗表與參照表關聯后校驗列數A=校驗表與參照表關聯后校驗列數據和參照列數7DB5227/T112—2022注:X代表數據質量評價值準確性數據準確性表示其所描述的真實實體(實際對象)真實值的程度,包括數據內容正確性、數據格式合規性、臟數據出現率。對應的規則為:值域校驗、格式校驗、參照校驗-單向校驗,準確性評價指標見表4。表4準確性校驗規則1校驗數據的值是否在預設的范圍2YYYY-MM-DDHH:MI:SS電話格3校驗數據在參照數據中的包含程A=數據內容不包含在參照數據的范圍內的數據記注:X代表數據質量評價值合理性根據數據之間的業務邏輯合理的程度,對應的規則為:邏輯校驗、波動性校驗、關系校驗,合理性評價指標見表5。表5合理性校驗規則1邏輯校驗檢查數據是否滿足一定條邏輯校驗檢查數據是否滿足一定條件的要求。分為單行邏輯、維度匯維度匯總統計校驗:維度匯總結果存在得滿分8DB5227/T112—20222驗波動校驗通過對兩段不同時期數據的比較,檢驗數據波動情況是否合理。波動校驗分同比校驗、環比校當C超出預先設定的閾值得0分,未超出得滿分當C超出預先設定的閾值得0分,未超出得滿分統計周期與本文件第章節“同比校驗”當C超出預先設定的閾值得0分,未超出得滿分統計周期與本文件第章節“同比校驗”3A=校驗列數據不符合參照列數據兩者關聯關系注:X代表數據質量評價值唯一性9DB5227/T112—2022特定字段、記錄、文件或數據集唯一性的度量。對應的規則為:重復校驗,唯一性評價指標見表6。表6唯一性校驗規則1校驗某一或多個校驗列數據是否有注:X代表數據質量評價值及時性數據的加工是否滿足時效性要求。對應的規則為:記錄數校驗,及時性評價指標見表7。表7及時性校驗規則1校驗某一更新周期內數據量是否5.4.2定義規則權重定義規則權重根據數據剖析階段確定的字段的重要程度來定,由高到低分別為3、2、1,重要程度越高的字段權重越高,即三級字段權重為3,二級字段權重為2,一級字段權重為1。其中,同一字段的所有規則的權重都相同,如果是多個字段關聯的規則取權重低的作為此規則的權重。5.5配置質量校驗規則將三級和二級字段與已有的數據標準進行映射,查看是否有對應的標準:——對已有數據標準的字段,按標準配置稽核規則;——對沒有數據標準的字段,根據剖析階段得出的字段的數據特征設計稽核規則。將校驗規則配置至系統平臺中,其中應注意:——宜對數據清洗前和數據清洗后的數據表配置校驗規則,以便通過對清洗前后校驗結果進行分析和改進;——當有多個校驗規則時,每一個字段配置一個校驗規則;——通過設置權重,優化校驗結果;——在時間充足的情況下,宜配置規則說明。5.6評估數據質量并輸出報告5.6.1概述數據質量評價分3個層次:規則級、表級、部門級。5.6.2制定評分規則DB5227/T112—2022規則級計算公式各類數據質量校驗規則得分的計算公式,應符合5.4.1的規定。表級計算公式表級得分均遵循下列計算公式進行計算得出:式中:i——第i個Wsum——總權重。表級計算得分的示例,見附錄A。部門級計算公式部門級得分均遵循下列計算公式進行計算得出:式中:部門級計算得分的示例,見附錄B。5.6.3評定質量等級數據質量等級按照數據質量評分區間劃分三個等級,由高至低分別為質優、質中、質差,等級的評價分值如下:——質優:80≤質量得分≤100;——質中:60≤質量得分<80;——質差:質量得分<60。5.6.4輸出數據質量報告DB5227/T112—2022數據質量報告的樣例見附錄C。6整改問題數據系統平臺根據校驗規則對原始數據進行校驗,生成數據質量報告,并將問題數據推送至數據提供方,由數據提供方對問題數據進行整改,處理后的數據重新接入,并進行數據校驗,生成新的數據質量報告,可重復執行以上步驟直至整改到沒有問題數據。整改問題數據的流程見圖2。圖2問題數據整改流程7數據共享開放工作流程各部門開展數據共享開放工作,應符合附錄D的規定。DB5227/T112—2022表級計算得分示例表A.1某表的得分3322根據表A列出的某表各字段的規則得分,計算該表的得分。根據給出的計算公式,計算過程如下:即:該表的數據質量評價得分為92.06。DB5227/T112—2022部門級計算得分示例表B.1部門的各表得分根據表B列出的各表的得分,計算該部門的得分。根據給出的計算公式,計算過程如下:即:該部門的數據質量評價得分為86.08。DB5227/T112—2022(資料性)數據質量報告樣例黔南州XXX局XXXX年XX月數據質量報告C.1數據質量情況分析截至202X年X月X日,黔南州XXX局數據質量得分為63分,質量為中等。共檢測了XX表、XX表、XX表共X個;其中質優表對象X個,質中表對象X個,質差表對象X個。涉及X個質量評估維度,其中,完整性得分XX,一致性得分XX,準確性得分XX,合理性得分XX,唯一性得分XX,及時性得分XX。C.2數據質量得分及排名對比C.2.1黔南州XXX局數據質量得分變化趨勢:C.2.2各表數據質量得分排名:DB5227/T112—2022C.3數據異常響應問題變化趨勢將質量稽核規則分為六大類進行問題率的統計,下圖是黔南州XXX局涉及的數據準確性、完整性問題率變化趨勢圖:C.4問題數據整改建議黔南州XX局的數據存在以下問題,建議整改:1)XX表:名稱不規范的有XX%,日期格式不對的有XX%,手機號碼長度不對的有XX%……。DB5227/T112—20222)XX部門:XX表數據出現完整性問題,建議自行恢復數據,人工恢復得XX分
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 付費會員活動方案
- 代發營銷活動方案
- 代表倡議活動方案
- 以往紗窗活動方案
- 儀仗兵自由活動方案
- 仲夏集體活動方案
- 企業中秋拓展活動方案
- 湖北省T8聯盟2025屆高三下學期高考考前模擬(一)數學試題
- 企業會議活動方案
- 企業公司元旦活動方案
- 邏輯學七道試題及答案
- 機關單位招標管理制度
- 積分落戶勞動合同協議
- 遼寧沈陽副食集團所屬企業招聘筆試題庫2025
- 2024年中級注冊安全工程師《金屬非金屬礦山安全》真題及答案
- 炊事員安全試題及答案
- 數字孿生技術在制造業的創新應用
- 2025年下半年北京市昌平區東小口鎮招聘擬聘用易考易錯模擬試題(共500題)試卷后附參考答案
- 馬幫運輸協議書
- AI助力市場營銷自動化及優化策略研究
- 數字智慧方案未來醫院智慧孿生和空間創新
評論
0/150
提交評論