




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
CCSL80T/CSACPrivacycomputing:Technicalrequirementsfordesensitizationeffectevalua中國網絡空間安全協會發布T/CSAC008—2024前言 12規范性引用文件 13術語和定義 14概述 34.1脫敏效果評估的目標 34.2脫敏效果評估的基本原則 44.3脫敏效果評估的使用 55脫敏效果評估指標體系 55.1脫敏效果評估指標體系概述 55.2可逆性評估指標 55.3信息偏差性評估指標 55.4信息損失性評估指標 66脫敏效果評估通用技術要求 76.1單次脫敏效果評估的技術要求 76.2基于數據挖掘的脫敏效果評估的技術要求 86.3脫敏系統效果評估的技術要求 附錄A(資料性)脫敏效果評估示例 12A.1概述 A.2單次脫敏效果評估 A.3基于數據挖掘的脫敏效果評估 A.4脫敏系統效果評估 附錄B(資料性)可逆性的計算方法 15B.1概述 B.2逆向映射 B.3字典攻擊 B.4統計分析 B.5機器學習攻擊 附錄C(資料性)信息偏差性的計算方法 16C.1概述 C.2均方誤差 C.3均絕對誤差 C.4Kullback-Leibler散度 16C.5歐氏距離的計算方法 C.6余弦距離的計算方法 T/CSAC008—2024C.7峰值信噪比 C.8結構相似性指數 C.9平均數 C.10中位數 C.11標準差 C.12方差 C.13最大值 C.14最小值 附錄D(資料性)信息損失性的計算方法 20D.1概述 D.2信息熵的計算方法 附錄E(資料性)脫敏效果評估報告要求 21E.1形成評估報告的目的 E.2評估報告的組成內容 E.3評估項目概述組成內容 E.4被評估對象描述組成內容 E.5單項評估結果分析組成內容 E.6整體評估組成內容 E.7等級評估結論組成內容 E.8脫敏效果評估報告參考 參考文獻 IIIT/CSAC008—2024本文件按照GB/T1.1—2020《標準化工作導則第1部分:標準化文件的結構和起草規則》給出的規則起草。請注意本文件的某些內容可能涉及專利,本文件的發布機構不承擔識別專利的責任。本文件由中國網絡空間安全協會提出并歸口。本文件起草單位:西安電子科技大學、中國科學院信息工程研究所、中國網絡安全審查認證和市場監管大數據中心、中國電信股份有限公司、上海交通大學、海南大學、四川昊華銳恒科技有限公司、成都西電網絡安全研究院、國網上海研究院、北京市計算中心有限公司、航天信息股份有限公司、普華永道商務咨詢(上海)有限公司、中移(杭州)信息技術有限公司。本文件主要起草人:李暉、李鳳華、朱輝、牛犇、張玲翠、郭守坤、宋祁朋、崔琦、閆小良、聶智戈、徐倩華、邱衛東、曹春杰、楊倩、王雪瓊、趙興文、崔艷鵬、吳裔、趙琉濤、王杰斌、馬馳、唐鵬、郭淵博、張龍。1T/CSAC008—2024隱私計算脫敏效果評估技術要求本文件描述了脫敏效果評估的目標、基本原則和使用情況,給出了脫敏效果評估的技術要求,包括脫敏效果評估指標體系、單次脫敏效果評估、基于數據挖掘的脫敏效果評估、脫敏系統效果評估的技術要求。本文件適用于規范各類組織的隱私信息脫敏處理活動,也適用于互聯網、通信、金融、醫療、物流、交通、教育、文旅和公共服務等領域的機構為主體的個人信息處理者,以及個人信息保護產品提供商、產品評測機構、個人信息保護合規審計評估機構、審查認證機構等組織對隱私信息脫敏處理活動進行監督、管理和評估。2規范性引用文件本文件引述下列文件中的部分內容。下列文件中,注日期的引用文件,僅該日期對應的版本適用于本指南,不注日期的引用文件,其最新版本適用于本指南。GB/T25069-2022信息安全技術術語GB/T35273-2020信息安全技術個人信息安全規范GB/T37964-2019信息安全技術個人信息去標識化指南GB/T37988-2019信息安全技術數據安全能力成熟度模型T/CSAC005—2024隱私計算總體框架T/CSAC006—2024隱私計算脫敏控制技術要求T/CSAC007—2024隱私計算脫敏算法能力評估技術要求3術語和定義GB/T25069-2022和GB/T35273-2020界定的以及下列術語和定義適用于本文件。3.1個人信息personalinformation以電子或者其他方式記錄的能夠單獨或者與其他信息結合識別特定自然人身份或者反映特定自然人活動情況的各種信息,包含個人信息本身及其衍生信息,不包括匿名化處理后的信息。[來源:GB/T44588—2024,3.3,有修改]3.2隱私信息處理者privateinformationprocessor對隱私信息進行收集、存儲、使用、加工、傳輸、提供、公開、刪除、脫敏、存證與取證等操作的實體。[來源:T/CSAC005—2024,3.22]3.3敏感屬性privateattribute信息載體中含有敏感個人信息的屬性,泄露、修改或破壞該屬性值會對個人權益產生影響。2T/CSAC008—2024注:在潛在的重標識攻擊期間需要防止其值與任何一個隱私信息主體相關聯。[來源:GB/T37964-2019,3.10,有修改]3.4敏感個人信息sensitivepersonalinformation一旦泄露或者非法使用,容易導致自然人的人格尊嚴受到侵害或者人身、財產安全受到危害的個人信息。注:敏感個人信息包括生物識別、宗教信仰、特定身份、醫療健康、[來源:GB/T35273-2020,3.4]3.5隱私信息privacyinformation能通過信息系統進行處理的敏感個人信息,是個人信息記錄中的標識符、準標識符和敏感屬性的集合。注:隱私信息包括個人生物特征信息、銀行賬號、通健康生理信息、交易信息、14歲以下(含)[來源:T/CSAC005—2024,3.4]3.6原始信息rawinformation當前主體采集或者接收到的信息,其包含敏感個人信息,需要進行脫敏處理,且可以通過攜帶脫敏控制策略來實現個人信息的流轉脫敏控制。3.7脫敏信息desensitizedinformation經過特定脫敏算法處理的原始數據,使其中的隱私信息難以直接關聯到特定的隱私信息主體。3.8脫敏要求desensitizationrequirement待脫敏的隱私信息的脫敏等級、脫敏時機、脫敏算法及其參數選擇等約束信息。[來源:T/CSAC005—2024,3.24]3.9延伸控制extendedcontrol在數據流通與共享過程中,收集、存儲、使用、加工、傳輸、提供、公開、刪除、脫敏、存證與取證等環節的隱私操作迭代控制、控制策略動態調整、控制策略可控傳遞,以及控制策略執行可信驗證。[來源:T/CSAC005—2024,3.23]3.10數據模態datamode個人信息載體數據的具體表示形式,比如數字、文本、圖像、視頻、語音等。3.11數據脫敏datadesensitization通過一系列數據處理方法對原始數據進行處理以減少或消除敏感個人信息的一種數據保護方法。[來源:GB/T37988-2019,3.12,有修改]3.12可逆性reversibility被脫敏掉的隱私信息被復原的可能性。T/CSAC008—2024[來源:T/CSAC005—2024,3.28]3.13信息偏差性informationdeviation脫敏算法執行前后,可觀測到的脫敏信息與原始信息的偏差。[來源:T/CSAC005—2024,3.34]3.14信息損失性informationloss信息被不可逆的脫敏算法作用后,隱私信息損失部分對可用性的影響程度。[來源:T/CSAC005—2024,3.35]3.15數據域datadomain數據在收集、存儲、使用、加工、傳輸、提供、公開、刪除、脫敏、存證與取證等環節所依賴的相同的防護要求和操作場景。3.16隱私信息分量privateinformationelement具有一定語義的、不可再細分的隱私信息。[來源:T/CSAC005—2024,3.7]3.17隱私信息抽取與度量extractionandmeasurementofprivateinformation通過對采集或接收的信息進行分析,提取不同模態信息中的隱私信息分量,并對隱私信息分量進行分類以及量化隱私信息分量的敏感度或保護程度。3.18隱私度量動態調整dynamicadjustmentofprivacymeasurement通過識別判斷隱私信息所屬的應用場景,對隱私信息分量的敏感度或保護程度進行針對性的度量調整。3.19脫敏延伸控制extendedcontrolfordesensitization在數據泛在流通與共享過程中,對全生命周期各環節的隱私操作進行迭代控制。3.20隱私按需保護on-demondprivacyprotection約束隱私信息處理者根據延伸控制策略,對接收到的隱私信息進行按需脫敏、按需刪除等處理,提供場景自適應的隱私保護能力。4概述4.1脫敏效果評估的目標脫敏效果評估的目標包括:a)脫敏后的數據應該符合法律法規和脫敏控制的要求;b)脫敏效果評估應從可逆性、信息偏差性、信息損失性這三個維度來驗證隱私信息脫敏處理的有效性和安全性;4T/CSAC008—2024c)脫敏效果評估應該確保脫敏后的數據可以安全地用于特定的分析、共享或存儲等需求。4.2脫敏效果評估的基本原則保護效果評估是對從脫敏后的隱私信息中恢復損失信息的難度進行評價。脫敏效果評估執行策略思路如圖1所示,若保護效果評估未達到預期效果,則可能重新執行隱私信息抽取與度量、隱私度量動態調整、脫敏延伸控制、隱私按需保護,詳細示例見附錄A。包括:a)脫敏效果評估的指標體系,采用可逆性、信息偏差性和信息損失性等評估指標;b)單次脫敏效果評估,通過分析脫敏算法執行前后的信息,衡量已脫敏的隱私信息分量的可恢復程度;c)基于數據挖掘的脫敏效果評估,通過收集特定個人一定時間內的脫敏信息,采用數據挖掘技術試圖推算出已脫敏的隱私信息分量;d)脫敏系統效果評估,通過收集若干特定個人或所有個人的一定時間內的脫敏信息,采用數據挖掘技術試圖推算特定個人的已脫敏的隱私信息分量;e)單次脫敏效果評估、基于數據挖掘的脫敏效果評估和脫敏系統效果評估的區別在于評估對象的數據集合范圍和規模不同。圖1脫敏效果評估執行策略思路4.2.1單次脫敏效果評估單次脫敏效果評估,是對從原始信息得到中間信息這一單一過程進行的評估。單次脫敏效果可以從可逆性、信息偏差性、信息損失性三個維度進行評估,若單次脫敏效果評估未達到預期閾值,則需反饋到隱私按需保護組件重新定義隱私操作。4.2.2基于數據挖掘的脫敏效果評估基于數據挖掘的脫敏效果評估,是指對采用數據挖掘技術分析特定個人一定時間內的已通過單次脫敏效果評估的脫敏信息,以推算出已脫敏的隱私信息分量程度的評估?;跀祿诰虻拿撁粜Ч梢詮男畔⑵钚?、信息損失性兩個維度進行評估。若基于數據挖掘的脫敏效果評估未達到預期閾值,則需反饋到隱私度量動態調整組件和脫敏延伸控制組件更換場景描述和重新調整控制策略。4.2.3脫敏系統效果評估脫敏系統效果評估是指對采用數據挖掘技術分析若干特定個人或所有個人一定時間內的已通過基于數據挖掘的脫敏效果評估的脫敏信息,以推算出特定個人已脫敏的隱私信息分量程度的評估。脫敏系統整體效果可以從信息偏差性、信息損失性兩個維度進行評估。若脫敏系統效果評估未達到預期閾值,5T/CSAC008—2024則需反饋到隱私信息抽取與度量組件、隱私度量動態調整組件和脫敏延伸控制組件重新調整原始度量、更換場景描述和重新調整控制策略。4.3脫敏效果評估的使用脫敏效果評估是支撐信息發布、統計查詢和數據交換的決策依據,也是篩選和自動化選擇隱私保護算法的基礎。脫敏效果評估的結果包括:單次脫敏效果評估的結果、基于數據挖掘的脫敏效果評估的結果和脫敏系統效果評估的結果,這三種類別評估結果的使用對象和作用如下:a)單次脫敏效果評估的結果:可以為隱私信息處理者、安全合規審查團隊等使用,以便衡量本次脫敏操作的效果和脫敏信息的可用性、安全性等,是否符合本次的脫敏期望;b)基于數據挖掘的脫敏效果評估的結果:可以為脫敏系統使用者、脫敏系統開發者等使用,以便衡量個人敏感數據在系統內流轉時,脫敏操作對隱私信息的保護效果;c)脫敏系統效果評估的結果:可以為監管機構、數據管理者等使用,以便衡量隱私信息在跨系統流轉時的隱私保護效果。5脫敏效果評估指標體系5.1脫敏效果評估指標體系概述脫敏效果評估指標體系包括可逆性、信息偏差性和信息損失性等三類指標,根據應用場景、數據模態、脫敏控制策略等要素,為每個評估維度設置相應的權重,進行加權計算,得出脫敏效果的綜合評估結果。5.2可逆性評估指標可逆性評估是衡量從脫敏算法處理后信息中復原隱私信息的可能性。由于脫敏旨在保護敏感個人信息,通常情況下脫敏是不可逆的??赡嫘远攘糠椒ㄈ缦拢篴)脫敏算法可逆性,評估隱私信息脫敏使用的是否是不可逆脫敏算法,并根據算法是否可逆確立不同的可逆性評估指標,具體如下:1)脫敏算法為不可逆算法,宜依據脫敏算法參數確立可逆性評估指標;2)脫敏算法為可逆算法,宜依據脫敏算法恢復密鑰強度確立可逆性評估指標。b)脫敏算法參數強度,評估脫敏算法使用的參數強度,并根據處理的數據模態,確立算法參數強度指標的所占權重值,具體如下:1)數據模態為文本、表格等的數據,算法參數強度指標所占權重值宜較低;2)數據模態為圖形、圖像、視頻、音頻等的數據,算法參數強度指標所占權重值宜較高。c)信息還原性,評估通過脫敏后的隱私信息還原出原始隱私信息的程度,例如:恢復信息的準確度、恢復信息的偏差度,以此評估脫敏效果的可逆性,具體如下:1)恢復信息的準確度越高,脫敏效果的可逆性就相對越高;2)恢復信息的偏差度越高,脫敏效果的可逆性就相對越低。5.3信息偏差性評估指標信息偏差性評估是衡量脫敏算法處理后的信息失真和偏移程度。信息偏差性度量方法如下:6T/CSAC008—2024a)統計偏差性,比較原始數據和脫敏后數據的統計指標,例如:均方差、平均絕對值、KL散度、歐氏距離、余弦距離、峰值信噪比、結構相似性指數、均值、中位數、方差、標準差、最大值、最小值等,并根據處理的數據模態,確立信息偏差性的評估指標,具體如下:1)數據模態為文本、表格等的數據,宜選擇均方差、平均絕對值等指標為統計偏差性評估指標;2)數據模態為圖形、圖像、視頻、音頻等的數據,宜選擇峰值信噪比、結構相似性指數等指標為統計偏差性評估指標。b)數據分布偏差性,比較原始數據和脫敏后數據的分布差異,例如:分布形狀、分位數和累積分布函數等,并根據處理的數據模態,確立信息偏差性的評估指標,具體如下:1)數據模態為文本、表格等的數據,宜選擇分布形狀等指標為數據分布偏差性評估指標;2)數據模態為圖形、圖像、視頻、音頻等的數據,宜選擇累積分布函數等指標為數據分布偏差性評估指標。c)模型應用準確性,使用原始數據和脫敏后數據分別構建訓練模型,選擇合適的驗證集或測試集,比較模型在驗證集或測試集上的效果,以此評估脫敏效果的信息偏差性,具體如下:1)模型在驗證集或測試集上的效果越好,脫敏效果的信息偏差性相對越低;2)模型在驗證集或測試集上的效果越差,脫敏效果的信息偏差性相對越高。d)數據隨機性分析,評估脫敏算法對隱私信息的隨機性影響程度,以此評估脫敏效果的信息偏差性,具體如下:1)脫敏算法對隱私信息的隨機性影響越小,脫敏效果的信息偏差性相對越低;2)脫敏算法對隱私信息的隨機性影響越大,脫敏效果的信息偏差性相對越高。5.4信息損失性評估指標信息損失性評估是衡量脫敏算法處理后隱私信息損失部分對可用性的影響程度。信息損失性度量方法如下:a)信息熵,信息熵是衡量數據集中信息量的度量指標,通過計算原始數據和脫敏后數據的信息熵,比較差異,并根據處理的數據模態,確立信息損失性的評估指標,具體如下:1)數據模態為圖形、圖像、視頻、音頻等的數據,宜選擇信息熵等指標為信息損失性評估指標;2)脫敏算法前后數據的信息熵差值越大,脫敏效果的信息損失性相對越高。b)互信息,互信息是衡量兩個隨機變量之間相互依賴程度的度量指標,通過計算原始數據和脫敏后數據之間的互信息進行量化評估,并根據處理的數據模態,確立信息損失性的評估指標,具體如下:1)數據模態為文本、表格等的數據,宜選擇互信息等指標為信息損失性評估指標;2)脫敏算法前后數據的互信息越高,脫敏效果的信息損失性相對越低。c)數據分布特征,比較原始數據和脫敏后數據的分布特征的統計指標,例如:均值、方差、分位數等,并根據處理的數據模態,確立信息損失性的評估指標,具體如下:1)數據模態為文本、表格等的數據,宜選擇數據分布特征等指標為信息損失性評估指標;2)脫敏算法前后數據的數據分布特征越相近,脫敏效果的信息損失性相對越低。d)數據關聯性,計算原始數據和脫敏后數據之間的關聯性的度量指標,例如:相關系數、協方差等,并根據處理的數據模態,確立信息損失性的評估指標,具體如下:1)數據模態為文本、表格等的數據,宜選擇數據關聯性等指標為信息損失性評估指標;2)脫敏算法前后數據的數據關聯性越高,脫敏效果的信息損失性相對越低。T/CSAC008—2024e)數據可用性,評估脫敏數據在特定應用場景下的可用程度指標,例如:數據分析、模型訓練等應用場景,并根據處理的數據模態,確立信息損失性的評估指標,具體如下:1)數據模態為圖形、圖像、視頻、音頻等的數據,宜選擇數據可用性等指標為信息損失性評估指標;2)脫敏算法前后數據的數據可用性越高,脫敏效果的信息損失性相對越低。6脫敏效果評估通用技術要求6.1單次脫敏效果評估的技術要求單次脫敏效果評估,將執行脫敏算法前的隱私信息與脫敏后的隱私信息進行可逆性、信息偏差性和信息損失性的評估。具體的技術要求分為可逆性評估的技術要求,信息偏差性評估的技術要求和信息損失性評估的技術要求。單次脫敏效果評估中,未符合脫敏效果期望閾值的指標反饋流程如圖2所示。圖2單次脫敏效果評估中,未符合脫敏效果期望閾值的指標反饋流程6.1.1可逆性評估的技術要求單次脫敏效果評估中,可逆性的評估技術要求如下:a)依據執行脫敏算法后的數據模態、數據規模和應用場景,確定可逆性對應的權重值,具體如1)數據模態為文本、表格等的數據,脫敏效果可逆性評估的權重值宜設置較低;2)數據模態為圖形、圖像、視頻、音頻等的數據,脫敏效果可逆性評估的權重值宜設置較b)依據隱私信息的數據模態及應用場景,選擇5.1.2節中的評估指標,評估已脫敏的隱私信息分量的被還原能力,并根據確立的各可逆性指標的權重值進行評估,具體如下:1)數據在數據域內流轉場景下,恢復信息的準確度、恢復信息的偏差度指標可適用于任何類型的數據模態的數據;2)數據在數據域外發布場景下,恢復信息的準確度、恢復信息的偏差度指標的權重值宜設置較高。c)單次脫敏效果評估結論的可逆性指標未達到脫敏效果期望閾值時,宜重新定義隱私操作,具體如下:8T/CSAC008—20241)宜反饋到隱私按需保護組件中的按需脫敏模塊,重新選擇脫敏算法,并設置該脫敏算法的參數;2)重新定義隱私操作后,再次進行數據脫敏,重新進行單次脫敏效果的可逆性評估。6.1.2信息偏差性評估的技術要求單次脫敏效果評估中,信息偏差性的評估技術要求如下:a)依據執行脫敏算法后的數據模態、數據規模和應用場景,確定信息偏差性對應的權重值,具體如下:1)數據模態為圖形、圖像、視頻、音頻等的數據,脫敏效果信息偏差性評估的權重值宜設置較低;2)數據模態為文本、表格等的數據,脫敏效果信息偏差性評估的權重值宜設置較高。b)依據數據規模及統計特性,選擇5.1.3節中的評估指標,評估脫敏算法執行前的原始隱私信息與脫敏后的隱私信息之間的偏差程度,并根據確立的各信息偏差性指標的權重值進行評估,具體如下:1)均方誤差、平均數等指標可適用于數據規模較小的數據;2)Kullback-Leibler散度、余弦距離等指標可適用于數據規模較大的數據。c)單次脫敏效果評估結論的可逆性指標符合脫敏效果期望閾值,但其信息偏差性未達到脫敏效果期望閾值時,宜重新定義隱私操作,具體如下:1)宜反饋到隱私按需保護組件中的按需脫敏模塊,修改脫敏算法的參數;2)若多次反饋后,仍未達到脫敏效果期望閾值,需反饋到脫敏延伸控制組件中的延伸控制策略生成模塊,生成調整后的延伸控制策略。6.1.3信息損失性評估的技術要求單次脫敏效果評估中,信息損失性的評估技術要求如下:a)依據執行脫敏算法后的數據模態、數據規模和應用場景,確定信息損失性對應的權重值,具體如下:1)數據模態為圖形、圖像、視頻、音頻等的數據,脫敏效果信息損失性評估的權重值宜設置較低;2)數據模態為文本、表格等的數據,脫敏效果信息損失性評估的權重值宜設置較高。b)依據數據規模及統計特性,選擇5.1.4節中的評估指標,評估脫敏算法執行前的原始隱私信息與脫敏后的隱私信息之間的信息損失程度,并根據確立的各信息損失性指標的權重值進行評估,具體如下:1)信息熵、互信息等指標可適用于數據規模較小的數據;2)信息可用性、數據分布特征等指標可適用于數據規模較大的數據。c)單次脫敏效果評估結論的可逆性指標符合脫敏效果期望閾值,但其信息損失性未達到脫敏效果期望閾值時,宜重新定義隱私操作,具體如下:1)宜反饋到隱私按需保護組件中的按需脫敏模塊,修改脫敏算法的參數;2)若多次反饋后,仍未達到脫敏效果期望閾值,需反饋到脫敏延伸控制組件中的延伸控制策略生成模塊,生成調整后的延伸控制策略。6.2基于數據挖掘的脫敏效果評估的技術要求T/CSAC008—2024基于數據挖掘的脫敏效果評估,是指對采用數據挖掘技術分析特定個人一定時間內的已通過單次脫敏效果評估的脫敏信息,以推算出已脫敏的隱私信息分量程度的評估。具體的技術要求分為信息偏差性評估的技術要求和信息損失性評估的技術要求?;跀祿诰虻拿撁粜Чu估中,未符合脫敏效果期望閾值的指標反饋流程如圖3所示。圖3基于數據挖掘的脫敏效果評估中,未符合脫敏效果期望閾值的指標反饋流程6.2.1信息偏差性評估的技術要求基于數據挖掘的脫敏效果評估中,信息偏差性的評估技術要求如下:a)選取數據挖掘算法,對特定個人一定時間內的脫敏信息進行挖掘分析,推斷出特定個人的被脫敏的隱私信息,應根據處理的數據模態,確立數據挖掘算法,具體如下:1)數據模態為文本、表格等的數據,宜使用文本挖掘、關聯規則挖掘等數據挖掘算法;2)數據模態為圖形、圖像、視頻、音頻等的數據,宜使用降維、圖數據挖掘等數據挖掘算法。b)評估推斷出的特定個人的隱私信息,與其對應的真實隱私信息進行偏差性的對比分析,并根據確立的各信息偏差性指標的權重值進行評估,具體如下:1)均方誤差、平均數等指標可適用于文本、表格等模態的數據;2)Kullback-Leibler散度、余弦距離等指標可適用于圖形、圖像、視頻、音頻等模態的數據。c)基于數據挖掘的脫敏效果評估結論的信息偏差性未達到脫敏需求閾值時,宜重新調整控制策略,具體如下:1)宜反饋到脫敏延伸控制組件中的延伸控制策略生成模塊,生成調整后的延伸控制策略;2)重新調整控制策略,再次進行數據脫敏,重新進行基于數據挖掘的脫敏效果的信息偏差性評估。6.2.2信息損失性評估的技術要求基于數據挖掘的脫敏效果評估中,信息損失性的評估技術要求如下:a)選取數據挖掘算法,對特定個人一定時間內的脫敏信息進行挖掘分析,推斷出特定個人的被脫敏的隱私信息,應根據處理的數據模態,確立數據挖掘算法,具體如下:1)數據模態為文本、表格等的數據,宜使用文本挖掘、關聯規則挖掘等數據挖掘算法;2)數據模態為圖形、圖像、視頻、音頻等的數據,宜使用降維、圖數據挖掘等數據挖掘算法。b)評估推斷出的特定個人的隱私信息,與其對應的真實隱私信息進行損失性的對比分析,并根據確立的各信息損失性指標的權重值進行評估,具體如下:T/CSAC008—20241)數據分布特征、數據關聯性等指標可適用于文本、表格等模態的數據;2)信息熵、信息可用性等指標可適用于圖形、圖像、視頻、音頻等模態的數據。c)基于數據挖掘的脫敏效果評估結論的信息偏差性達到脫敏需求閾值,而信息損失性未達到脫敏效果期望閾值時,宜更換場景描述,具體如下:1)宜反饋到隱私度量動態調整組件中的場景識別和度量調整模塊,修正場景識別、度量調整機制;2)重新更換場景描述,再次進行數據脫敏,重新進行基于數據挖掘的脫敏效果的信息損失性評估。6.3脫敏系統效果評估的技術要求脫敏系統效果評估,是指對采用數據挖掘技術分析若干特定個人或所有個人一定時間內的已通過基于數據挖掘的脫敏效果評估的脫敏信息,以推算出特定個人已脫敏的隱私信息分量程度的評估。具體的技術要求分為信息偏差性評估的技術要求和信息損失性評估的技術要求。脫敏系統效果評估中,未符合脫敏效果期望閾值的指標反饋流程如圖4所示。圖4脫敏系統效果評估中,未符合脫敏效果期望閾值的指標反饋流程6.3.1信息偏差性評估的技術要求脫敏系統效果評估中,信息偏差性的評估技術要求如下:a)選取數據挖掘算法,對若干特定個人或所有個人一定時間內的脫敏信息進行挖掘分析,推斷出特定個人的被脫敏的隱私信息,應根據處理的數據模態,確立數據挖掘算法,具體如下:1)數據模態為文本、表格等的數據,宜使用文本挖掘、關聯規則挖掘等數據挖掘算法;2)數據模態為圖形、圖像、視頻、音頻等的數據,宜使用降維、圖數據挖掘等數據挖掘算法。b)評估推斷出的特定個人的隱私信息,與其對應的真實隱私信息進行偏差性的對比分析,并根據確立的各信息偏差性指標的權重值進行評估,具體如下:1)均方誤差、平均數等指標可適用于文本、表格等模態的數據;2)Kullback-Leibler散度、余弦距離等指標可適用于圖形、圖像、視頻、音頻等模態的數據。c)脫敏系統效果評估結論的信息偏差性達到脫敏需求閾值時,宜重新調整控制策略,具體如下:1)宜反饋到脫敏延伸控制組件中的延伸控制策略生成模塊,生成調整后的延伸控制策略;2)重新調整控制策略,再次進行數據脫敏,重新進行脫敏系統效果的信息偏差性評估。T/CSAC008—20246.3.2信息損失性評估的技術要求脫敏系統效果評估中,信息損失性的評估技術要求如下:a)選取數據挖掘算法,對若干特定個人或所有個人一定時間內的脫敏信息進行挖掘分析,推斷出特定個人的被脫敏的隱私信息,應根據處理的數據模態,確立數據挖掘算法,具體如下:1)數據模態為文本、表格等的數據,宜使用文本挖掘、關聯規則挖掘等數據挖掘算法;2)數據模態為圖形、圖像、視頻、音頻等的數據,宜使用降維、圖數據挖掘等數據挖掘算法。b)評估推斷出的特定個人的隱私信息,與其對應的真實隱私信息進行損失性的對比分析,并根據確立的各信息損失性指標的權重值進行評估,具體如下:1)數據分布特征、數據關聯性等指標可適用于文本、表格等模態的數據;2)信息熵、信息可用性等指標可適用于圖形、圖像、視頻、音頻等模態的數據。c)脫敏系統效果評估結論的信息偏差性達到脫敏效果期望閾值,而信息損失性未達到脫敏效果期望閾值,宜更換場景描述,具體如下:1)宜反饋到隱私度量動態調整組件中的場景識別和度量調整模塊,修正場景識別、度量調整機制;2)若多次反饋后,仍未達到脫敏效果期望閾值,需反饋到隱私信息抽取與度量組件中的隱私信息抽取、隱私信息分類及隱私信息度量模塊,修正隱私信息的抽取、分類和度量。T/CSAC008—2024(資料性)脫敏效果評估示例A.1概述根據脫敏效果評估指標體系,本附錄介紹單次脫敏效果評估、基于數據挖掘的脫敏效果評估、脫敏系統效果評估的方法,可供進行脫敏效果評估時參考。脫敏效果評估過程的關鍵處理環節如下。A.2單次脫敏效果評估單次脫敏效果評估流程如下:a)收集待評測的原始數據與脫敏后數據。原始數據示例如表A.1所示,脫敏后數據示例如表A.2所示。其涉及到的敏感信息屬性為“姓名”、“身份證號碼”、“年齡”、“手機號碼”,本示例中年選擇“年齡”屬性作為評估示例;表A.1原始數據12345678注:本表格中示例用于數據脫敏。示例中數據為虛擬數據,不涉及公為無實際意義的信息;姓名為常見假名;疾病類型為泛指類別,不表A.2脫敏后數據12345678注:本表格中示例用于脫敏效果評估。示例中虛構數據已經進行脫敏處理,不涉及公民的隱私信息。b)判斷隱私信息所屬場景,本次評估示例中隱私信息的應用場景為醫療問診類場景,數據模態為數值型數據,數據規模較小,由此確定可逆性、信息偏差性和信息損失性對應的權重值為0.2、0.6、0.2;T/CSAC008—2024c)依據隱私信息的數據模態和應用場景,選擇恢復信息的準確度和恢復信息的偏差度為本次脫敏效果評估的可逆性的評估指標。經評估,脫敏后數據恢復得到原始信息的準確度達到了脫敏效果期望閾值,恢復信息的偏差度達到了脫敏效果期望閾值;d)依據數據規模及統計特性,選擇均值和方差為本次脫敏效果評估的信息偏差性的評估指標。經評估,脫敏后數據與原始數據的均值變化量未達到脫敏效果期望閾值,脫敏后數據與原始數據的方差變化量達到了脫敏效果期望閾值;e)依據數據信息量及關聯性,選擇信息熵差值為本次脫敏效果評估的信息損失性評估指標。經評估,脫敏后數據與原始數據的信息熵差值達到了脫敏效果期望閾值。A.3基于數據挖掘的脫敏效果評估基于數據挖掘的脫敏效果評估流程如下:a)收集得到用戶“張三”一定時間內的其他場景中的脫敏后數據如表A.3,A.4所示。選擇決策樹算法對收集到的用戶“張三”的脫敏信息進行挖掘分析,推斷得到用戶“張三”的被脫敏的隱私信息為{年齡:30-35};表A.3收集到的用戶“張三”在網絡問診場景中的脫敏后數據1表A.4收集到的用戶“張三”在交通票務場景中的脫敏后數據1男年齡為泛化區間;疾病類型為泛指類別,不涉及b)使用信息偏差性和信息損失性的評估指標作為基于數據挖掘的脫敏效果評估指標。經評估推斷出的用戶“張三”的隱私信息與對應的真實隱私信息的信息偏差性指標未達到脫敏效果期望閾值,信息損失性指標也未達到脫敏效果期望閾值。A.4脫敏系統效果評估脫敏系統效果評估流程如下:a)收集得到用戶“王*”和用戶“吳*”一定時間內的其他場景中的脫敏后數據如表A.5,A.6所示,以及用戶“張三”一定時間內的各個場景中的脫敏后數據如表A.3,A.4所示。選擇決策樹算法對收集到的用戶“張三”、用戶“王*”和用戶“吳*”用戶的脫敏信息進行挖掘分析,推斷得到用戶“張三”的被脫敏的隱私信息為{年齡:30-34};表A.5收集到的用戶“王*”在醫療問診場景中的脫敏后數據1注:本表格中示例用于脫敏效果評估。示例中虛構數據已經進行脫敏處理,不涉及公民的隱私信息。T/CSAC008—2024表A.6收集到的用戶“吳*”在網約車場景中的脫敏后數據序號1注:本表格中示例用于脫敏效果評估。示例中虛構數據已經進行脫敏處理,不涉及公民的隱私信息。b)使用信息偏差性和信息損失性的評估指標作為基于數據挖掘的脫敏效果評估指標。經評估推斷出的用戶“張三”的隱私信息與對應的真實隱私信息的信息偏差性指標達到了脫敏效果期望閾值,信息損失性指標未達到脫敏效果期望閾值。T/CSAC008—2024(資料性)可逆性的計算方法B.1概述可逆性可以通過逆向映射、字典攻擊、統計攻擊、機器學習等方法判斷,本附錄介紹了逆向映射、字典攻擊、統計攻擊、機器學習的方法描述,可供隱私脫敏的組織者參考。B.2逆向映射逆向映射是一種簡單的可逆性評估方法,即嘗試將脫敏后的數據重新映射回原始數據。如果能夠準確還原原始數據,說明脫敏算法不安全。逆向映射的關鍵在于找到逆向映射函數或算法,使得脫敏結果能夠被逆向操作還原。B.3字典攻擊字典攻擊是一種基于預先構建的字典或映射表來還原脫敏結果的方法。攻擊者通過窮舉字典中的映射關系,嘗試將脫敏結果映射回原始數據,如果能夠找到匹配的映射關系,即可還原原始數據。為了防止字典攻擊,脫敏算法需要使用隨機化技術或其他安全措施,使得字典攻擊的成功率極低。B.4統計分析統計分析是一種基于脫敏結果統計特征來推斷原始數據的方法。攻擊者通過分析脫敏結果的統計特征,如頻率分布、均值、方差等,來推測原始數據的可能取值范圍。脫敏算法需要通過添加噪音、擾動或其他技術來破壞統計特征,從而提高脫敏結果的安全性。B.5機器學習攻擊機器學習攻擊是一種利用機器學習模型來還原脫敏結果的方法。攻擊者可以使用機器學習算法,通過訓練模型來學習脫敏結果與原始數據之間的映射關系,一旦攻擊者成功構建了準確的模型,即可使用該模型將脫敏結果還原回原始數據。為了抵御機器學習攻擊,脫敏算法需要采用對抗性機器學習技術或其他防御機制,使得攻擊者難以構建準確的模型。T/CSAC008—2024(資料性)信息偏差性的計算方法C.1概述信息偏差性可以通過計算脫敏算法執行前后數據的均方誤差、歐式距離、余弦距離等表示,本附錄介紹了相關計算信息偏差性的方法,可供隱私脫敏的組織者參考。C.2均方誤差對于兩個數據集X和Y,均方誤差(MeanSquaredError,MSE)是用來衡量它們之間的差異程度的統計指標。它的作用是評估模型預測或擬合的準確性,或者比較兩個數據集之間的差異程度。均方誤差的計算公式如下:n表示數據點的個數,表示X數據集中的第i個數據點,yi表示Y數據集中的第i個數據點。比較原始信息和脫敏信息之間的信息偏差性,可以計算它們之間的均方誤差,均方誤差的數值越大,表示脫敏操作引入的偏差越大,均方誤差越小,表示脫敏操作引入的偏差越小。均方誤差可運用的數據模態為:數值型和編碼型。C.3均絕對誤差對于兩個數據集X和Y,平均絕對誤差(MeanAbsoluteError,MAE)是用來衡量它們之間的差異程度的統計指標。它的作用是評估模型預測或擬合的準確性,或者比較兩個數據集之間的差異程度。平均絕對誤差的計算公式如下:其中,n表示數據點的個數,表示X數據集中的第i個數據點,yi表示Y數據集中的第yi個數據點。比較原始信息和脫敏信息之間的信息偏差性,可以計算它們之間的平均絕對誤差,平均絕對誤差的數值越大,表示脫敏操作引入的偏差越大,平均絕對誤差越小,表示脫敏操作引入的偏差越小。平均絕對誤差可運用的數據模態為:數值型和編碼型。C.4Kullback-Leibler散度對于兩個離散分布P和Q,其中P表示真實分布,Q表示近似分布,Kullback-Leibler散度(Kullback-LeiblerDivergence,KLD)是用來衡量它們之間的差異程度的統計指標。它的作用是評估一個概率分布相對于另一個概率分布的信息丟失或信息增益。KL散度的公式如下:其中,n表示P分布中元素的個數,表示P分布中第i個元素,P(xz)表示元素在分布P中的概率,Q(xz)表示元素在分布Q中的概率。T/CSAC008—2024比較原始信息和脫敏信息之間的偏差,可以計算它們之間的Kullback-Leibler散度,Kullback-Leibler散度的數值越大,表示脫敏操作引入的偏差越大,Kullback-Leibler散度越小,表示脫敏操作引入的偏差越小。Kullback-Leibler散度可運用的數據模態為:編碼型。C.5歐氏距離的計算方法歐式距離(Euclideandistance,ED)是指兩個n維向量之間的距離,即歐氏空間中兩點之間的物理距離。計算兩個向量x=(x1,x2,…,xn)和y=(y,y2,..…,y)的歐氏距離d(x,y)的公式如下:比較原始信息和脫敏信息之間的信息偏差性,可以計算它們之間的歐氏距離,如果歐氏距離較小,則說明脫敏操作引入的偏差較小,反之則說明脫敏操作引入的偏差較大。歐氏距離可運用的數據模態為:數值型和編碼型。C.6余弦距離的計算方法余弦距離(Cosinedistance,CD)是指兩個向量之間的夾角余弦值,用于衡量它們的相似度。計算兩個向量和y的歐氏距離的公式如下:其中,是兩個向量的點集,llxll和llyll分別是向量x和向量y的范數。比較原始信息和脫敏信息之間的信息偏差性,可以計算它們之間的余弦距離。余弦距離的取值在0到1之間,如果余弦距離接近1,則說明脫敏操作引入的偏差較小,如果余弦距離接近0,則說明脫敏操作引入的偏差較大。余弦距離可運用的數據模態為:音頻型。C.7峰值信噪比峰值信噪比(PeakSignal-to-NoiseRatio,簡稱PSNR)是一種用于衡量兩個數據集之間的重建質量或差異程度的指標。PSNR可以用于比較不同數據集之間的相似度,從而確定哪個數據集的質量更高。較高的PSNR表示數據集之間的差異較小,較低的PSNR表示數據集之間的差異較大。計算兩個數據集峰值信噪比的公式如下:其中,MAX表示信號的最大可能取值(對于8位圖像通常為255),MSE表示均方誤差,是兩個數據集之間的平均差異。比較原始信息和脫敏信息之間的信息偏差性,可以計算它們之間的峰值信噪比。峰值信噪比越高,表示數據集的偏差較小,峰值信噪越低,表示數據集的偏差較大。峰值信噪比可運用的數據模態為:圖像型和視頻型。T/CSAC008—2024C.8結構相似性指數結構相似性指數(StructuralSimilarityIndex,簡稱SSIM)是一種用于衡量兩個圖像之間結構相似度的指標。它綜合考慮了亮度、對比度和結構等因素,能夠更準確地評估圖像的相似度。SSIM的計算公式如下:SSIM(x,y)=[l(x,y)*c(x,y)*s(x,y)]Λa其中,和y表示兩個圖像,l(x,y)表示亮度相似度,c(x,y)表示對比度相似度,s(x,y)表示結構相似度,a是一個參數(通常取1)。比較原始信息和脫敏信息之間的信息偏差性,可以計算它們之間的結構相似性指數。SSIM的取值范圍在0到1之間,如果結構相似性指數接近1,則說明脫敏操作引入的偏差較小,如果結構相似性指數接近0,則說明脫敏操作引入的偏差越小。結構相似性指數可運用的數據模態為:圖像型和視頻型。C.9平均數平均數(Average,AVE)是一種常見的統計量,通過比較不同數據集的平均數,可以了解它們之間的差異。平均數可以幫助識別數據集之間的相似性或差異性,并對數據進行比較和分析。平均數的計算公式如下:其中,表示數據集中的第i個數據點,N表示數據點的總數。比較原始信息和脫敏信息之間的信息偏差性,可以計算它們之間的平均數的差值。平均數的差值越大,表示脫敏操作引入的偏差越大,平均數的差值越小,表示脫敏操作引入的偏差越小。平均數可運用的數據模態為:數值型。C.10中位數中位數(Median,MED)是一種用于衡量數據集的中心位置的統計量。中位數是將數據集按照大小排序后,位于中間位置的數值。中位數可以幫助識別數據集之間的相似性或差異性,并對數據進行比較和分析。中位數的計算方式如下:a)如果數據集中的數據個數為奇數,中位數是排序后位于中間位置的數值;b)如果數據集中的數據個數為偶數,中位數是排序后中間兩個數值的平均值。比較原始信息和脫敏信息之間的信息偏差性,可以計算它們之間的中位數的差值。中位數的差值越大,表示脫敏操作引入的偏差越大,中位數的差值越小,表示脫敏操作引入的偏差越小。中位數可運用的數據模態為:數值型。C.11標準差標準差(StandardDeviation,縮寫為SD)是用來衡量數據集中數據的離散程度或變異程度的統計量。標準差可以用來比較不同數據集之間的離散程度。計算數據集標準差的公式如下:其中,表示數據集中的第個數據點,表示數據集的均值,表示數據點的總數。T/CSAC008—2024比較原始信息和脫敏信息之間的信息偏差性,可以計算它們之間的標準差的差值。標準差的差值越大,表示脫敏操作引入的偏差越大,標準差的差值越小,表示脫敏操作引入的偏差越小。標準差可運用的數據模態為:數值型。C.12方差方差(Variance,Var)是一種統計量,用于描述數據集內數據點的變異程度。方差可以幫助我們了解數據集中數據點的分布情況和數據的穩定性,經常用于比較不同數據集之間的差異或進行數據篩選。計算方差的公式如下:其中,表示數據集中的第個數據點,表示數據集的均值,表示數據點的總數。比較原始信息和脫敏信息之間的信息偏差性,可以計算它們之間的方差的差值。方差的差值越大,表示脫敏操作引入的偏差越大,方差的差值越小,表示脫敏操作引入的偏差越小。方差可運用的數據模態為:數值型。C.13最大值最大值(MaximumValue,縮寫為Max)是數據集中的最大觀測值,它表示數據集中的最高點或最大的數據點。最大值可以幫助確定數據集中的極端值,幫助了解數據的范圍和數據的分布情況,在數據分析和統計中,最大值經常用于比較不同數據集之間的差異或進行數據篩選。計算最大值的公式如下:Max=max(x1,x2,…,xn)其中,X1,X2,…,xn表示數據集中的數據點,而Max表示數據集的最大值。比較原始信息和脫敏信息之間的信息偏差性,可以計算它們之間的最大值的差值。最大值的差值越大,表示脫敏操作引入的偏差越大,最大值的差值越小,表示脫敏操作引入的偏差越小。最大值可運用的數據模態為:數值型。C.14最小值最小值(MinimumValue,縮寫為Min)是數據集中的最小觀測值,它表示數據集中的最低點或最小的數據點。最小值可以幫助確定數據集中的極端值,對于了解數據的范圍和數據的分布情況非常有用,在數據分析和統計中,最小值經常用于比較不同數據集之間的差異或進行數據篩選。計算最小值的公式如下:Min=min(xz,xi,…,xn)其中,X1,X2,…,xn表示數據集中的數據點,而Min表示數據集的最小值。比較原始信息和脫敏信息之間的信息偏差性,可以計算它們之間的最小值的差值。最小值的差值越大,表示脫敏操作引入的偏差越大,最小值的差值越小,表示脫敏操作引入的偏差越小。最小值可運用的數據模態為:數值型。20T/CSAC008—2024(資料性)信息損失性的計算方法D.1概述信息損失性可以通過脫敏算法執行前后數據的信息熵差值、相關系數差值、協方差等表示,本附錄介紹了信息熵算法和相關性分析算法,可供隱私脫敏的組織者參考。D.2信息熵的計算方法信息熵(InformationEntropy,縮寫為IE)是信息論中用來衡量隨機變量不確定性的指標??梢酝ㄟ^計算數據集的信息熵,然后比較不同數據集的信息熵大小來評估它們的信息損失性。計算信息熵的公式如下:IE(x)=-zp(x)logzp(x)其中,P(x)表示數據中某個值出現的概率。對于給定的數據集,可以將每個數據值出現的概率代入公式中,然后將結果相加,即可得到數據集的信息熵。比較原始信息和脫敏信息之間的信息損失性,可以計算它們之間的信息熵的差值。信息熵的差值越大,表示脫敏操作引入的信息損失越大,信息熵的差值越小,表示脫敏操作引入的信息損失越小。信息熵可運用的數據模態為:數值型、編碼型、圖像型、視頻型和音頻型。21T/CSAC008—2024(資料性)脫敏效果評估報告要求E.1形成評估報告的目的評估報告可以更好地幫助當前隱私信息處理者、個人信息保護合規審計評估機構、審查認證機構等
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 會計提崗考試題及答案
- 山西省大同市渾源縣第七中學校2023-2024學年高一下學期期末考試 數學試題(含解析)
- 催奶師考試試題及答案
- 員工趣味考試題及答案解析
- java多態實現原理面試題及答案
- 泵站運營考試題及答案
- 工程管理試題及答案
- 自我評測工具2025年信息系統項目管理師試題及答案
- 西方社會運動影響試題及答案
- 西方政治制度與社會基本權利的關系試題及答案
- 社區居民積分制管理實施方案
- 高中生物教材易錯易混概念辨析(新人教版2019)
- 《創新創意設計》課件
- 初高中物理銜接講座(初高中物理對比)
- 寵物酒店商業計劃書創新創業計劃書2024年
- 2024年徐州市小學六年級畢業抽測語文模擬試卷
- 《電力建設安全工作規程 第2部分:電力線路》
- 模板工程風險辨識及防范措施
- 房建工程監理大綱范本(內容全面)
- 300立方米柴油儲罐設計
- 2024年湖北新華書店有限公司招聘筆試參考題庫含答案解析
評論
0/150
提交評論