電信大數據平臺數據數據脫敏典型場景、常用脫敏算法及算法選擇_第1頁
電信大數據平臺數據數據脫敏典型場景、常用脫敏算法及算法選擇_第2頁
電信大數據平臺數據數據脫敏典型場景、常用脫敏算法及算法選擇_第3頁
電信大數據平臺數據數據脫敏典型場景、常用脫敏算法及算法選擇_第4頁
已閱讀5頁,還剩2頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、附錄 A(資料性附錄)數據脫敏典型場景A.1用戶訪問生產環境中的數據圖 A.1 低權限業務用戶訪問敏感數據對于正常接入大數據平臺的業務系統用戶權限也不同,為實現敏感數據保護, 可通過細粒度的訪問控制, 實現不同用戶對同一敏感數據訪問時進行不同的展示,對低權限用戶脫敏展示,如圖A.1 所示。業務系統訪問時效性要求較高,通常使用動態脫敏。在此場景下,首先應實現基于用戶名、IP、客戶端類型、訪問時間等要素的敏感數據訪問授權。在處理訪問請求時,首先采集用戶權限要素信息,根據用戶權限判斷是否需脫敏,進行何種程度的脫敏。由脫敏策略模塊根據權限情況制定并下發脫敏任務,脫敏引擎對用戶查詢的結果數據進行脫敏處理

2、后回傳。A.2數據從生產環境導出到測試環境圖 A.2 數據從生產環境導出到測試環境數據從生產環境導出到測試環境時,一般是為了驗證業務應用功能或業務算法模型。為了防止敏感數據泄漏,在滿足測試環境業務驗證的前提下,只提供保持最小化數據特性的脫敏數據。 因為脫敏操作發生在數據批量遷移時,基于性能和可落地性的考慮,通常選擇靜態脫敏方式,如圖A.2 所示。本場景中, 主要目標是防止敏感數據流入測試環境,若實際業務具有明確的保持脫敏后數據特征的需求,比如保持數據類型、數據格式、數據間依存關系等,可參照附錄-2 選擇合適的脫敏算法進行脫敏;若具體業務場景無明確需求,至少采用不可逆算法對數據進行脫敏。A.3數

3、據從生產環境導出到租戶環境數據從生產環境導出到租戶環境時,一般是用于統計分析和數據挖掘。為防止敏感數據泄漏,在滿足租戶業務需求的前提下, 只提供保持最小化數據特性的脫敏數據。 因為脫敏操作發生在數據批量遷移時,基于性能和可落地性的考慮,通常使用靜態脫敏方式。本場景中, 主要目標是防止租戶環境使用人員過度訪問敏感數據, 若實際業務具有明確的保持脫敏后數據特征的需求, 比如保持數據統計特征、 數據頻率分布、 數據間依存關系等,可參照附錄 B 選擇合適的脫敏算法進行脫敏;若具體業務場景無明確需求,至少采用不可逆算法對數據進行脫敏。A.4運維人員訪問生產環境中的數據運維人員訪問生產環境中的數據是為了驗

4、證平臺或業務的正常運行敏感數據。 為防止敏感數據泄漏, 只需提供為運維人員脫敏后的數據。,不需要獲取真實的由于訪問業務系統時效性要求較高,推薦采用動態脫敏方式。本場景中,應采用不可逆脫敏算法對數據進行脫敏展示,防止運維人員接觸敏感信息。A.5景點人流量統計分析在此場景下,以手機號及位置信息為維度進行數據統計,需要對手機號數量進行統計,因此對手機號的脫敏處理要保持數據格式, 以及保持每個手機號的唯一性。 由于統計有時效性要求,且需要分時段分析,因此時間的處理需保持原有數據格式、保持原有頻率分布。附錄 B(資料性附錄)常用脫敏算法及算法選擇B.1 算法介紹數據脫敏算法是實現敏感數據脫敏的關鍵,常用

5、的數據脫敏算法包括加密、格式保留算法( FPE)、重排等可逆算法以及關系映射、偏移取整、散列、隨機替換、常量替換、截斷、掩碼、泛化等不可逆算法,以及面向發布數據的k-匿名、差分隱私。不同脫敏算法適用的數據類型和脫敏形態不同,如表B.1 所示(脫敏實現形態對算法無硬性要求,但由于部分算法時間開銷較高, 在動態脫敏過程中使用會對處理效率產生一定影響,因此, 基于算法實現效率進行脫敏實現形態推薦。 )。表 B.1 數據脫敏常用算法算法描述適用數據類型推薦脫敏形態重排跨行隨機互換原始敏感數據, 打破原始敏感數據與通用動態脫敏、 靜態脫本行其他數據關聯關系。敏原始敏感數據間存在業務關聯關系,需要在數據脫

6、動態脫敏、 靜態脫關系映射敏后仍舊保持這種關系。因此在脫敏處理過程中,通用敏利用算法表達式對脫敏后的數據進行函數映射,使其脫敏后仍舊保持業務關聯關系。偏移取整按照一定粒度進行偏移取整。日期、時間、數字動態脫敏、 靜態脫敏對原始數據通過散列算法計算, 使用計算后的散列動態脫敏、 靜態脫散列值來代替原始數據。目前應用較多的散列算法是通用敏SHA-256等。通過加密密鑰和算法對原始數據進行加密,從而使靜態脫敏加密敏感數據變成不可讀的密文。常見加密算法:通用SM4,3DES, RC4、DSA、 AES-128、 SHA-256等。格式保留算一種特殊的加密脫敏算法, 對敏感數據進行加密脫通用靜態脫敏法(

7、 FPE)敏,密文與原始數據保持格式一致。常量替換使用常量偽裝數據對原始數據進行替換(偽裝數據通用動態脫敏、 靜態脫生成與原始數據值無關)。敏隨機替換保持數據格式, 按照特定原始數據的編碼規則重新通用動態脫敏、 靜態脫生成一份新的數據。敏截斷截斷內容。通用動態脫敏、 靜態脫敏掩碼對原始數據的部分內容用通用字符進行統一替換,字符串動態脫敏、 靜態脫從而使敏感數據僅保持部分內容公開。敏標簽化按預定義類別進行分類,將使用類別標簽替換原始通用動態脫敏、 靜態脫敏感數據。敏泛化用更一般的值取代原始數據,降低敏感數據精確通用動態脫敏、 靜態脫度,達到無法識別個體的目的。敏k- 匿名通過對數據內容的處理,保

8、證在數據表發布時,數數據集靜態脫敏據中存在一定量的準標識符上不可區分的記錄。在原數據中加入噪音信息,使得滿足差分隱私的數靜態脫敏差分隱私數據集據集能夠抵抗任何對隱私數據的分析B.2 算法選擇建議由于業務應用對數據分析的需求,脫敏后的數據要在保證隱私信息被隱掉的基礎上保持一定原有特性。典型數據脫敏需求如表B.2 所示。表 B.2 數據脫敏特性的業務應用要求數據脫敏特性描述示例保持數據類型脫敏后的數據與原始數據類型一致,數據類日期數據脫敏后仍為有效合法的日期型包括但不限于字符串、數字、日期、時間。類型保持數據格式脫敏后的數據需要符合原始數據的編碼規則原手機號碼若脫敏后為和

9、類型滿足手機號碼格式要求,若脫敏后為 99988887777則不滿足手機號碼格式要求保持數據間依存常見數據間依存關系包括但不限于:數據引用完整性示例:關系數據引用完整性,不同的數據間通過敏感數比如詳單表與月賬單表都存在客戶標據的相互引用產生關聯關系;識,且這兩張表中的客戶標識存在引用數據之間沒有引用關系,但存在業務邏輯上關系,那么這兩張表的客戶標識數據在的依存關系。脫敏后仍要存在引用關系;業務邏輯依存關系示例:客戶信息表中存儲居民身份證號、出生日期兩類業務數據, 脫敏后的身份證號碼與出生日期數據要保持業務一致。那么這兩類數據間存在關聯關系。保持數據統計特脫敏后數據,在

10、業務所需的維度上保持統計員工工資表中包含工資收入信息,數據征總體特征不變。脫敏后仍要保持工資總和不變保持數據頻率分脫敏后的數據,在按業務所需劃分的各組內按年齡區間分組統計用戶數:布保持數量不變。20歲以下 150人,20歲到 30歲 300人,30歲到 40歲 180人,40歲以上 120人;數據脫敏后,仍舊保持各年齡段分組內人數不變不同的身份證號碼脫敏后, 不能生成相保持數據唯一性不相同的數據脫敏后不會有同樣的數據, 相同的數據 (身份證號碼) ,相同的身份同的數據脫敏后一定相同。證脫敏后一定生成相同的數據 (身份證號)以下各圖為可保持各種數據原始特性的常見脫敏算法分析。 主要區別在于可逆算

11、法存在脫敏數據可還原的風險,在實際業務應用中應控制使用。脫敏算法可保持某種數據原始特性, 是指此類脫敏算法中存在某種特定的算法可保持該特性。 比如圖 B.1 中隨機替換可保持數據類型,是指存在一種隨機替換算法,使其原始數據與脫敏后的數據類型保持一致。 以下六種保持數據原始特性的常見脫敏算法分析均指該類算法中存在某種特定算法實現可保持該特性。部分脫敏算法可使得脫敏處理后的數據保持原始數據類型,如隨機替換 (使用原數據類型替換),常量替換,掩碼,泛化,偏移取整,截斷,FPE,重排等,如圖B.1 所示。圖 B.1 保持數據類型的常用脫敏算法隨機替換,常量替換,掩碼,泛化,偏移取整,與原始數據格式一致(如手機號碼位數保持不變)FPE,重排等算法可保持脫敏后的數據,如圖 B.2 所示。圖 B.2 保持數據格式的常用脫敏算法對于數據之間有依存關系的情況,如字段之間的引用關系、邏輯依存關系,隨機替換、散列、 關系映射算法可保持引用關系,加密可使數據保持數據間業務邏輯關系,如圖 B.3 所示。圖 B.3 保持數據間依存

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論