




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
ICS01.040.35CCSL7035TechnicalrequirementsforpublicdataIDB35/T2240—2024前言 2規范性引用文件 3術語和定義 4基本原則 25過程要求 26方法要求 57安全要求 7附錄A(資料性)數據清洗的常見方法 8參考文獻 9DB35/T2240—2024本文件按照GB/T1.1—2020《標準化工作導則第1部分:標準化文件的結構和起草規則》的規定起草。請注意本文件的某些內容可能涉及專利。本文件的發布機構不承擔識別專利的責任。本文件由福建大數據一級開發有限公司提出。本文件由福建省信息化標準化技術委員會(SAFJ/TC11)歸口。本文件起草單位:福建大數據一級開發有限公司、福建省數字經濟發展促進中心、福建省市場監督管理局行政服務中心、福建省網絡與信息安全測評中心、福建省建設信息中心、福建奇比特信息科技有限公司。本文件主要起草人:李喆、陳國清、徐侃、涂平、王宇奇、鄒建紅、黃煒、石福仁、游鄂平、梁煜、張鎮暉、李元、傅騰宇、李海、吳春華、馬騰、陳閃閃、謝丹丹、張健文。1公共數據清洗技術要求GB/T35274信息安全技術大數據服務安全能力要求GB/T36344—2018信息技術數據質量評價公共數據資源目錄publicdata源的特征,便于公共數據資源的檢索、定位與數據集存在兩條及以上完全相同的記錄,或在某一字段內存在多個相2DB35/T2240—20244基本原則安全性數據在清洗過程中應防止數據泄露、篡改或非法訪問。合法性數據清洗過程和數據內容應符合《中華人民共和國數據安全法》《中華人民共和國個人信息保護法》等相關法律法規的要求。可審計性數據清洗的全過程應跟蹤和記錄,確保數據的來源、處理步驟、結果輸出等可追溯。5過程要求基本流程數據清洗基本流程應包含檢測分析、確定清洗范圍、定義清洗規則、數據抽取、清洗轉換、結果核驗、數據標識和數據加載等環節(見圖1)。35.2檢測分析b)從數據量、類型、內容、關系、數值范圍等維度進行檢測分析;c)檢測分析顆粒度達到字段級別,對數據中的每個字段、每個值進行檢測分析;e)檢測分析結果包含數據基本屬性分析、數據的分布情況、數據的相關性和趨勢、檢測時間、5.3確定清洗范圍4c)將不符合業務使用目標的數據存入問題數據庫表,用于后續查證或重新使用。5.4定義清洗規則a)缺失值清洗規則:根據業務規則,對缺失數據進行填充或刪除;b)重復值清洗規則:根據唯一性約束,去除數據集的重復值;c)異常值清洗規則:根據業務邏輯和規則,對異常數據進行刪除、修正、標記;d)數據格式清洗規則:根據業務規則,5.5數據抽取5.6清洗轉換c)數據清洗轉換任務結束后,及時刪除5.7結果核驗5.7.1核驗內容a)檢查數據集是否存在缺失值、重復值、異常值;b)檢查字段的類型與預期的數據類型是否一致,字段的長度是否符合預定的長度限制;c)檢查數據集的記錄數量或總數據量是否符合預期值;d)檢查數據是否滿足特定的業務規則,包括數據依賴關系是否正確,數據的時序性是否合理,5.7.2核驗要求a)按GB/T36344—2018第5章中的數據質量評價指標制定核驗規則;d)當數據核驗不通過時,進行數據標識。5.8數據加載5b)明確數據安全加載的具體要求、規則c)通過對比源數據和目標環境中的數據來確認數據的完整性、準確性和一致性等進行數據加載d)詳細記錄加載過程中出現的異常狀況,包括異常類型、發生時間、影響范圍等信息;f)提供數據加載通道的冗余備份機制,防g)加載完成后,刪除數據加載通道中的緩存數據,釋放系統資源。5.9數據標識a)對每個核驗不通過的數據進行唯一性標識;c)對標識的數據進行檢測分析,以確定a)根據業務規則,使用編程語言的庫函數或數據庫處理工具掃描數據集并標識缺失值;b)利用統計工具及可視化方法(如箱線圖、散點圖)對數據集的缺失數據進行統計和識別。a)當數據集某個字段的缺失率超過預設的閾值,且該字段對業務分析的重要性較低時,直接刪b)通過插值、固定值、均值、中位數、眾數等方法補齊無法刪除的缺失值,常見的缺失值補全b)對比處理前后的非空值數量或缺失值比例,檢查填充后的值是a)通過編程語言的庫函數或數據庫處理工具,比較數據集的所有字段或選定的關鍵字段,識別6b)利用統計工具計算每列(或每行)的重復數據的數量或比例,通過模糊匹配技術處理拼寫錯b)重復數據中包含不同的信息,根據業務規則和數據統一性約束,將信息合并成一條記錄。a)對比處理前后的重復數量或重復數據比例,計算出重復數據去除率;a)根據業務規則,識別數據中的異常值,如超出預定范圍的數值、邏輯錯誤的數據等;b)利用統計方法、聚類方法、密度估計方法及機器學習模型識別異常值,常見的異常值識別方b)異常值為關鍵重要信息時,根據業務規則采用固定值、均值、中位數、眾數等方法進行修正a)根據業務邏輯和規則對清洗結果進行核驗;b)對比處理前后的異常值數量,核驗所有異常值是否已被正確刪a)利用編程語言的庫函數或數據庫處理工具,將數據與元數據進行對比,識別出格式不一致的b)通過預設的數據驗證規則,如數據類型、數據單位和數據值范圍等,利用規則引擎對數據集7b)利用規則引擎匹配和替換不符合要求的數據,在替換過程中,新數據要符合數據規范和質量a)與原始數據比對確認數據格式已修正;數據清洗過程應符合GB/T35274、GB/T37973、GB/T39477、GB/T43697數據清洗網絡安全等級保護應符合GB/T22239的相a)記錄管理員和用戶的各類操作日志,對身份鑒別、策略管理、備份作業、恢復作業、數據庫8A.1常見的缺失值補全方法缺失值的補全方法需要根據數據的性質以及缺失值的分布情況進行評估,包括但不限于:a)均值/中位數/眾數填充:根據數據分布特性,選擇合適的統計量填充缺失值;e)K近鄰填充:根據數據點的相似性,使用K個最近鄰的數據點填充缺失值;f)模型預測填充:建立預測模型,根據其他字段的值預測缺失值。A.2常見的異常值識別方法異常值的識別方法需要根據具體的數據集和業務背景來決定,包括c)百分位數法:選擇將超過某個上/下分位數閾值的數據點視為異常d)密度估計法:利用概率密度函數估):A.3常見的數據格式處理方法a)日期時間格式處理:將包含日期和時間的數據轉換為統一的日期時間格式,如將字符串類型b)字符串處理:對數據中的字符串進行清理和處理,如去除多余空格、刪除特殊字符、轉換大d)數據單位轉換:統一數據中的單位,如將溫度從攝氏度轉換為華氏度,或將長度從厘米轉換DB
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 教育行業假期旅游證明(6篇)
- 現代汽車技術與維修實踐題集
- 水利水電工程考試全景預測與試題及答案
- 社會化媒體與公共關系的融合試題及答案
- 經濟法概論新穎試題及答案分享
- 2025年市政工程職業規劃與試題答案
- 行政管理與公關理論的結合試題及答案
- 美術課件簡筆畫
- 2025年工程項目管理復習的竅門及試題及答案
- 工程項目管理過程創新試題及答案
- 《比亞迪品牌歷史課件》課件
- 2025年4月自考00160審計學答案含評分參考
- 強基計劃語文試題及答案
- 購買木地板合同協議
- 嚴重開放性肢體創傷早期救治專家共識解讀
- 2024年佛山市順德區公辦中小學招聘教師真題
- 速賣通開店考試最權威答案
- 2025-2030中國船舶行業發展分析及發展前景與投資研究報告
- 耐藥菌耐藥性監測策略-全面剖析
- 北京市通州區2025年初中學業水平模擬考試(一模)英語試卷(含答案)
- 手術中大出血搶救流程
評論
0/150
提交評論