一種基于個人化匿名的多敏感屬性隱私保護算法_第1頁
一種基于個人化匿名的多敏感屬性隱私保護算法_第2頁
一種基于個人化匿名的多敏感屬性隱私保護算法_第3頁
一種基于個人化匿名的多敏感屬性隱私保護算法_第4頁
一種基于個人化匿名的多敏感屬性隱私保護算法_第5頁
已閱讀5頁,還剩56頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、 分類號: 密級: u d c : 編號: 工學碩士學位論文 一種基于個人化匿名的多敏感屬性隱私保護算法 工學碩士學位論文一種基于個人化匿名的多敏感屬性隱私保護算法classified index: u.d.c:a dissertation for the degree of m. enga method of personalized anonymization for multidimensional privacies preservation哈爾濱工程大學學位論文原創性聲明本人鄭重聲明:本論文的所有工作,是在導師的指導下,由作者本人獨立完成的。有關觀點、方法、數據和文獻的引用已在文中指

2、出,并與參考文獻相對應。除文中已注明引用的內容外,本論文不包含任何其他個人或集體已經公開發表的作品成果。對本文的研究做出重要貢獻的個人和集體,均已在文中以明確方式標明。本人完全意識到本聲明的法律結果由本人承擔。 作者(簽字): 日期: 年 月 日哈爾濱工程大學學位論文授權使用聲明本人完全了解學校保護知識產權的有關規定,即研究生在校攻讀學位期間論文工作的知識產權屬于哈爾濱工程大學。哈爾濱工程大學有權保留并向國家有關部門或機構送交論文的復印件。本人允許哈爾濱工程大學將論文的部分或全部內容編入有關數據庫進行檢索,可采用影印、縮印或掃描等復制手段保存和匯編本學位論文,可以公布論文的全部內容。同時本人保

3、證畢業后結合學位論文研究課題再撰寫的論文一律注明作者第一署名單位為哈爾濱工程大學。涉密學位論文待解密后適用本聲明。本論文(在授予學位后即可 在授予學位12個月后 解密后)由哈爾濱工程大學送交有關部門進行保存、匯編等。作者(簽字): 導師(簽字):日期: 年 月 日 年 月 日 一種基于個人化匿名的多敏感屬性隱私保護算法摘 要由于傳統的敏感數據方法主要針對單一敏感屬性的數據,然而很多現實應用中,發布的數據往往涉及到多個敏感屬性。目前多敏感屬性的數據發布方法成為重要的研究方向,但由于不同個去掉,不通順!人對隱私保護的要求程度不同,在統一匿名概括過程中傳統的匿名算法導致數據的過分保護和保護不足。因此

4、,論文提出一種基于個人匿名化的多敏感屬性隱私保護算法改進上述缺點。 這一段只介紹論文研究的意義論文首先分析數據庫隱私保護現有的主要技術,研究現有多維敏感屬性數據發布時隱私保護技術的主要特點,針對由單維敏感屬性表都滿足匿名條件合并多維敏感屬性表產生大量冗余信息的問題,論文提出一種多維敏感屬性的隱私保護方法,采用基于最小信息損失的概括策略來改進匿名模型,然后將概括問題轉化為帶特定約束的聚類問題,改進傳統笛卡爾積算法應用在合并多維敏感屬性表時造成的信息損失。其次由于多維敏感屬性數據發布技術在匿名化過程中沒有考慮單一個體對應多條記錄的情況,導致了同一個人多個敏感屬性之間關聯信息丟失的問題,本文提出一種

5、基于身份保持的多維敏感屬性匿名算法,采用有損連接方法并結合(k,l)-匿名模型的數據發布技術,避免單一個體對應多個記錄情況在匿名中的過度泛化問題。最后論文在基于個人匿名要求的多敏感屬性數據發布這一應用場景下,通過對個人匿名相關隱私技術發展趨勢的分析和研究后,綜合考慮數據安全性和信息有效性兩個特點,采用更為靈活的執行策略即動態語義樹控制技術,提出一種能夠解決關系數據庫中多維敏感屬性發布數據時隱私信息泄露的模型,本文提出此模型的形式化描述去掉!重復了!并給出相應的算法。本文利用仿真實驗結合matlab進行數據處理,詳細敘述所提出的多維敏感屬性方法在信息冗余度和有損連接及個人匿名化要求的處理結果。通

6、過曲線圖對實驗數據及其處理結果進行綜合的分析與比較,說明本文提出的方法在克服冗余信息缺點同時能夠更好地保護隱私數據集的準確性。通過仿真實驗結果驗證本文提出的方法可以滿足每個人隱私要求的最小量概括,最大程度地保留了原始數據中信息,從而達到提高挖掘結果準確性的效果。關鍵字: 多維敏感屬性;信息損失度摘要中無該詞!;身份保持;個人化匿名摘要中無該詞!;語義分類樹摘要中無該詞!一種基于個人化匿名的多敏感屬性隱私保護算法abstractthe traditional ways of sensitive data in a single sensitive property data, but a lot

7、 of practical applications of the data are often involve multiple sensitive property.at present, many sensitive property data on the way an important research direction, but because of personal privacy protection on different requirements and level, the reunification process of anonymous review of t

8、he anonymous data are the protection and conservation. therefore, the thesis put forward a based on personal anonymous the more sensitive property privacy algorithms to improve the above shortcomings.thesis analyses the first privacy existing major technology, research, the existing multidimensional

9、 sensitive property data privacy protection technology issued by the chief trait in response to the property table single anonymous are to meet the conditions for multidimensional sensitive property table of the redundant information, the thesis put forward a multidimensional sensitive property priv

10、acy protection technology, information based on the loss of the overall strategy to improve anonymous model, and then will bring up matter for the specific constraints of the gathering problem .in the paper, proposed based on the identity of the multidimensional sensitive property, it will connect a

11、nonymously algorithm and integrated approach (k, l)-anonymous data dissemination of a model technical and avoid a single individual corresponding records in a condition of anonymity problems. the generalization of the anonymous article is based on individual requirements of the more sensitive proper

12、ty data dissemination of the application of the scene by an anonymous related to individual privacy technique development trend analysis and research, comprehensive consideration information and data security, therefore, adopt a more flexible policy in the dynamic semantic the control technology, wh

13、ich can be solved in a relational database multidimensional sensitive property publishing data privacy information disclosure of the model, this proposed model detailedly this is the algorithm.the experiments with using matlab emulation for data processing, a detailed account of a multidimensional s

14、ensitive property method in the information of redundancy and will connect anonymously, and the required processing. the result by about the data and the results of analysis and synthesis is that the proposed method overcome the shortcoming of redundancy information and can better protect personal d

15、ata sets for accuracy. the simulations validate the results of this method can meet everyone privacy for the minimum amount of generalizations, the maximum retain the original data in information, which to improve the accuracy of results.keywords: multidimensional sensitive attributes; loss of infor

16、mation; remain anonymous; personalized anonymity; semantic categories tree目 錄第1章 緒論11.1 論文的背景與意義11.2 國內外研究現狀21.3 研究內容和工作41.4 論文組織結構5第2章 相關理論與技術72.1 隱私保護概述72.2 匿名策略82.2.1 k-匿名策略102.2.2 l-多樣性匿名策略122.2.3面向應用的匿名策略132.3 信息損失度量142.4 單維敏感信息損失度最小概括算法162.5 多敏感屬性的隱私保護技術162.6 本章小結17第3章 基于有損連接的隱私保護算法193.1 問題的提出

17、193.2 基于身份保持的多維敏感屬性匿名模型203.3 匿名方法213.3.1 單維敏感屬性概括方法213.3.2 多維敏感屬性概括方法243.3.3 多維敏感屬性概括算法253.4 有損連接方法263.5 本章小結29第4章 基于個人匿名的隱私保護算法304.1 個性化匿名304.2 問題的提出314.3 多敏感屬性語義分類樹324.3.1 單維分類樹324.3.2 多敏感屬性語義分類樹324.4 基于個人化匿名的多敏感屬性隱私保護算法334.5 本章小結35第5章 實驗仿真和結果分析365.1 實驗環境及相關說明365.2 多維敏感屬性算法的分析375.2.1 多敏感屬性發布方法的對比3

18、75.2.2 不同約束條件下多維敏感方法的有效性分析385.3 有損連接方法的多維敏感屬性方法的分析385.4 個人匿名多維敏感屬性方法的分析395.5 本章小結40結論42參考文獻44攻讀碩士學位期間發表的論文和取得的科研成果47致謝48第1章 緒論第1章 緒論右邊距不對!1.1 論文的背景與意義數據挖掘作為一種研究從海量數據中自動提取出未知模式的新興技術,在短短十幾年內取得了非常快速的發展,但是也引發出一系列問題,其中最常見就是個人隱私信息的泄露。如果針對個人的收入水平、消費習慣、婚姻狀況和病歷記錄等信息的分析,可以推測到商業部門和醫療機構的發展趨勢。可是由于這些數據發布后和不同機構的其他

19、數據源所提供數據進行鏈接處理,這樣就形成了可以抽取敏感信息的渠道,因此給個人隱私帶來了一定的威脅從而造成隱私泄露。綜上所述因此,在數據挖掘過程中如何更好地解決數據的隱私保護問題,怎樣對發布的數據進行處理以保證其安全性,這方面的研究已經開始成為數據庫安全的一個研究熱點和重要方向。隱私保護技術要求在保護數據隱私的同時不影響發布數據的應用。隱私保護數據挖掘的出發點是通過非精確的原始信息來抽取出較為準確的模式與規則?;陔[私的數據挖掘是從原始數據記錄的非準確性與數據挖掘結果的精確性之間尋求一個平衡。隨著數據挖掘方法和數據發布結果等數據庫應用的出現和發展,當前面臨的重大挑戰是如何成功地保護隱私數據和防止

20、敏感信息泄露,如個人的婚姻狀況、顧客的喜好、患者的疾病史和信用卡記錄等敏感的數據。目前基于個人匿名的k-匿名概括方法在提高個人隱私保護程度上達到了更高的效率,該方法是基于個人化匿名的觀點,個人可以通過不同分類樹中的節點指定自己隱私的不同保護程度。從而,在滿足每個人隱私要求的最小量概括的條件下,實現在最大程度上保留原始數據中的信息。但是該方法在數據挖掘時仍然存在一些缺點,為了提高對個人隱私數據的保護程度和挖掘結果的準確性,本論文提出了一種更為有效的數據發布方法。在數據挖掘領域中,隱私一般被劃分為兩類:一類隱私是原始數據本身所具有的。由于傳統的數據挖掘技術是在沒有加密過的原始數據中進行處理的,也就

21、是說只有將包含個人或企業隱私的原始數據不經改動來交給數據挖掘者才會挖掘出有用的知識和規則,如個人的年齡、家庭電話、身份證號、財產狀況和信用等級等信息,如果這些信息一旦泄露的話,很有可能會對個人的生活產生許多不良的影響。保護個人信息,就是在數據挖掘過程中不能泄漏個人的信息數據,但是可以通過直接或間接的方法確定用戶的特征信息。另一類隱私是在原始數據中所隱含的知識,即保護數據產生關聯和模式,防止數據挖掘中部分敏感模式的產生和泄漏。如某大公司常來往的優質客戶的行為特征等規則,如果這些知識被一些別有用心的人非法獲得到,勢必會對企業的核心競爭力造成嚴重的影響。隱私保護數據挖掘的目標是通過一種數據集變換的方

22、法,通過這種方法重復!使得敏感數據和其產生的規則在進行數據挖掘的過程中不易被發現。但是在數據挖掘過程中這些敏感信息往往存在泄漏的情況,尤其是當多個不同數據源合作挖掘時,各數據源間的信息泄漏問題不準確,應該是信息關聯之后泄漏隱私。同時,挖掘出的結果很可能會導致原始敏感數據的泄露,如:個人的隱私信息、企業的客戶資料、財務情況和產品銷售策略等商業機密。因此,需要通過研究新的方法來確保數據挖掘中的隱私數據及其產生的規則不會被泄露認真檢查錯別字!。保護好數據的隱私,一直是隱私保護數據挖掘方法的最基本要求。但發布數據信息的最終目標是要通過這些挖掘方法來獲取真實可用的知識與規則。因此,在保證隱私受到合理保護

23、的前提下,所采取的方法一定要求發布的數據能夠得到盡量準確的挖掘結果。從宏觀上分析,數據的隱私性和準隱私泄漏確性似乎是一對矛盾,提高隱私性勢必造成準確性的下降;而要保證挖掘結果準確性的提高就必定要以犧牲一定的隱私性為代價。綜上所述,實現隱私數據的合理化保護和基于統計抽取數據的模式發現兩者兼顧,正是新一代隱私保護數據挖掘方法問題研究的出發點和最終目標。1.2 國內外研究現狀如何降低發布數據中隱私信息的泄露程度作為隱私保護技術研究的核心問題,近年來許多專家提出了不同的匿名策略限制數據發布的信息來達到這一目標。發布數據信息的最終目的是要通過這些挖掘方法來獲取真實可用的知識與規則,所以,針對更好的概括方

24、法來減少數據損失保證挖掘結果的準確性的研究,逐漸成為隱私保護技術領域的重點。無論是從低層數據概括策略的改進還是考慮高層數據挖掘方面的優化,都一直是發布隱私數據的基本原則,保護好個人數據的隱私,一直是隱私保護數據挖掘方法的最基本要求,根據個人匿名要求靈活地改變概括策略解決隱私信息泄露的問題也是這一領域的研究發展方向之一。因此,國內外的知名學者在研究隱私保護技術時,根據上述原則進行不同的改進和優化以完成不同背景下的隱私保護目標。1997年,美國卡基梅隆大學數據挖掘領域的兩個專家samarati和sweeney博士針對公共數據庫與微數據集發布方法的研究,首次提出了基于匿名策略的隱私保護技術,并于20

25、02年命名其為k-匿名算法1。美國普度大學在2004年針對關系數據庫特點的研究提出了隱私保護訪問控制技術的方法,于2005年公布了作為下一代數據庫的關鍵技術,隱私數據庫的實現需要研究不同背景的安全技術2-3。2006年,machanavajjhala等人對k-匿名模型進行了深入的研究和分析,并根據其特點提出了兩種相關的攻擊技術,分別是一致性攻擊和背景知識攻擊,針對上述兩種攻擊,作者給出了通過提高匿名組中敏感屬性多樣性的方法(l-diversity寫法全文應一致!下一頁與這一頁不同!全文檢查!規范:外文字母的正、斜體用法按照gb31003102-1993(名稱請見附錄a)及gb7159-87 電

26、氣技術中的文字符號設計通則的規定使用,即物理量符號、物理常量、變量符號用斜體,計量單位等符號均用正體。sinx、cosx等三角函數應用正體。)來降低隱私泄露4。2007 ,venkatasubramanian提出了3 種最優泛化模式,其中指出l-多樣性算法的不足,提出了t-closeness 框架,該方法要求在每個不同等價類中敏感值的分布要接近于其在原始數據表中的分布5。2009年raymond chi-wing wong等人提出了一種隱私數據的匿名發布方法,通過分析鏈接攻擊的情況后改進匿名模型6。2010年ali inan等人通過多方安全計算方法,在考慮到一些個人隱私前提下,對數據庫中數據的

27、隱私方面進行保護7。隨著國內數據隱私保護技術方向的發展,我國的許多專家已開始關注和研究。2003年北京科技大學信息管理學專家梅紹祖教授針對網絡隱私權保護的特點,首先提出了個人信息收集最小化與收集的結果之間應該滿足不可傳遞性的要求8。2004年北京大學在數據庫隱私保護層,結合國家自然科學基金課題 “面向隱私保護的數據挖掘方法研究”對隱私保護數據挖掘進行了研究。2005年,劉向宇、楊曉春等人提出了classfly算法,并于2006年提出了滿足多k-匿名約束策略的classfly+算法,兩個算法classfly和classfly+都考慮概括過濾的方法,即首先把發布數據在有關準標識符上的投影表中可以滿

28、足k-匿名約束條件的記錄過濾掉,然后將剩余元組存在不同屬性值個數最多的屬性進行概括,如過仍存在滿足k-匿名約束的元組還需要將其過濾出去,這樣反復執行上述的概括過程與過濾操作,一直到發布表中元組不滿足k-匿名約束條件的個數小于k個為止,將這些不滿足k-匿名約束條件的元組隱匿9。并于2007年根據多約束匿名條件和k-匿名化算法的特點,提出三種多約束k-匿名化算法:post-classfly、nm-classfly和ftb-classfly10。2006年清華大學張國強博士提出了改進后可以抵抗推演攻擊的(k,l)-匿名模型,此模型針對敏感信息的敏感程度不同,首先指定每個元組的匿名程度和敏感信息的多樣

29、化程度,然后采用每個元組的(k,l)約束條件進行匿名化處理,最后實現抵抗推演攻擊的目標11。2008年,楊曉春、王雅哲、王斌等人首次對多敏感屬性數據發布問題進行詳細研究,繼承了基于有損連接對隱私數據進行保護的思想,提出了針對多敏感屬性隱私數據發布的多維桶分組技術12。宋金玲,黃立明等人給出了準標識符的通用求解算法13,分析了不同函數依賴的情況來找出正確的準標識。華東理工大學韓建民等人綜述了微聚集算法的基本思想、相關技術和當前動態,對現有的微聚集算法進行了分類分析,并總結了微聚集算法的評估方法,最后對微聚集算法的研究難點及未來的發展趨勢作了探討14。清華大學信息安全重點實現把匿名發布于個性化匿名

30、要求結合在一起,提出了一種基于個性化匿名的(a,k)-匿名策略,引入分類樹的思想實現數據發布中個體對私人隱私的保護要求15。2009年,李太勇、唐常杰等人提出一種通過兩次聚類實現k-匿名的隱私保護方法16。給出了影響矩陣的概念,用來描述準標識符對敏感屬性的影響,研究了影響矩陣聚類技術,對敏感屬性影響相近的元組進行聚類,實現k-匿名效果。王茜、曾子平提出了一種(p,a)-sensitive k-匿名模型,將敏感屬性根據敏感度進行分組,然后給各分組設置不同的約束,并給出了(p,a)-sensitive k-匿名算法,該方法可以明顯地減少隱私泄露,增強了數據發布的安全性17。同年,王茜、屈盛知等人對

31、k-匿名模型進行了擴展,提出一種新的基于敏感屬性值泄露個數期望的匿名模型18。香港大學的陳華明等人通過對多敏感屬性不同維數的權重不同算法來完成數據的隱私保護19。祁瑞麗、王可、郭學濤等人首先將多敏感屬性隱私保護問題轉化為多敏感屬性l-多樣性問題,然后給出了多敏感屬性樹構造方法及最大葉子子樹優先策略,在此基礎上提出了一個多敏感屬性保護算法20。劉玉煲、黃志蘭、傅慰慈針對已有方法信息損失程度高、聚集查詢精度低的不足,在(alpha,k)隱私保護模型基礎上,利用關系數據庫理論的有損分解思想,提出了一種改進的數據隱私保護方法21。復旦大學周水庚,李豐等人中對隱私保護領域已有研究成果進行了總結,對各類隱

32、私保護技術的基本原理、特點進行了闡述,在對已有技術深入對比分析的基礎上,指出了隱私保護技術的未來發展方向22??偟膩碚f,我國目前關于隱私保護技術的研究還是處于起步階段,未來具有非常廣闊的發展空間。1.3 研究內容和工作由于傳統的敏感數據方法主要針對單一敏感屬性的數據,然而很多現實應用中,發布的數據往往涉及到多個敏感屬性。論文首先分析數據庫隱私現有的主要技術,研究現有多維敏感屬性數據發布隱私保護技術的主要特點,針對由單維敏感屬性表都滿足匿名條件合并多維敏感屬性表產生大量冗余信息的問題,論文提出一種多維敏感屬性的隱私保護技術,通過改進傳統笛卡爾積算法應用在多維敏感屬性表中造成的信息損失,并歸納和總

33、結了現有隱私保護的核心技術,包括量化信息泄露風險度和信息損失度。論文根據匿名概括過程中需要解決的兩個關鍵問題:量化信息損失度和重編碼方法,采用基于最小信息損失的概括算法來改進匿名模型。其次,現有的多維敏感屬性數據發布技術在匿名化過程中沒有考慮單一個體對應多條記錄的情況,本文提出一種新的基于身份保持的多維敏感屬性匿名算法,結合有損連接方法并采用(k,l)-匿名模型的數據發布方法,深入分析該重編碼方法并證明其可以保持同一個人多個敏感屬性之間可能的關聯信息。同時,論文深入研究(k,l)-匿名模型和傳統匿名模型在基于多維敏感屬性數據發布過程中,存在的隱私信息泄露與鏈接攻擊等問題,通過改進以上不足,避免

34、單一個體對應多個記錄情況在匿名中的過度泛化問題。論文最后在基于個人匿名要求的多敏感屬性數據發布這一應用場景下,由于不同個人對隱私保護的要求和級別不同,在統一匿名概括過程中傳統的匿名算法導致數據的過分保護和保護不足。論文擬通過對個人匿名相關隱私技術發展趨勢的分析和研究,綜合考慮數據安全性和信息有效性兩個特點,采用更為靈活的執行策略即動態語義樹控制技術,提出一種能夠解決關系數據庫中多維敏感屬性數據發布個人隱私泄露風險的方法,即基于個人匿名的多維敏感屬性方法。該方法在克服缺點同時更好地保護隱私的數據集,即滿足每個人隱私要求的最小量的概括,最大程度地保留了原始數據中信息,從而這是摘要的寫法,研究內容應

35、該是計劃分析什么、針對什么問題,擬研究什么,計劃達到什么目標達到提高挖掘結果準確性的效果。本文的主要工作在于:這是結論應該說的,此處只敘述你計劃研究什么,要解決什么問題,達到什么目標或效果!(1)針對多維敏感屬性匿名中的過度泛化和數據記錄冗余問題,提出一種新的基于信息損失度的多敏感屬性的概括方法。作為一種新的方法,通過單維敏感屬性滿足最小信息損失度的匿名原則,使多維敏感屬性表在合并時最大程度的限制記錄的冗余情況。減少由傳統發布方法所產生的冗余記錄,對發布記錄的數據發掘具有非常大的意義。(2)針對單一個體對應多個記錄情況在匿名中的過度泛化問題,本文通過描述單一個體對應多個記錄情況,多敏感屬性數據

36、在此模型要求的發布,討論原有技術在私泄露風險和鏈接攻擊等情況出現的問題。針對上述問題,本文結合有損連接方法并采用(k,l)-匿名模型的數據發布方法,給出一種新的基于有損連接的多維敏感屬性隱私保護方法,發布數據通過新的重編碼方法可以保持同一個人多個敏感屬性之間可能的關聯信息,對多敏感屬性之間的研究更有實際意義,并且可以分析不同敏感屬性間的關聯,能為下一步個人隱私保護匿名方法中語義樹的建立提供數據源。(3)針對多敏感屬性數據發布中個人動態地指定敏感信息,討論原有個人匿名應用在單一敏感屬性方法中的缺陷,采用更為靈活的執行策略即動態語義樹控制技術,提出一種多維敏感屬性語義樹及新的概括算法。該算法在個人

37、隱私要求的情況下,尤其是在關系數據庫中對隱私保護的效率上具有更實際的應用性。通過上述研究過程,本課題需要達到的預期目標是:對多維敏感屬性數據發布的匿名策略有深入的了解。利用身份保持的方法結合多維敏感屬性的匿名策略來降低信息損失,通過此方法保留的信息及關聯的基礎上,與個體對私人隱私信息的動態要求結合,以解決每個人隱私的概括要求和保留原始數據中信息準確性的問題。1.4 論文組織結構在上述研究內容的基礎上將本文分為五章。第1章為緒論,介紹本文的研究背景、課題研究的目的及意義。對數據隱私保護技術的研究現狀進行闡述,提出目前存在的不足及需要解決的主要問題。給出了本文的研究思路和實現目標,并對全文布局進行

38、交待。第2章主要從數據發布中面向多敏感屬性的隱私保護整體出發,總結并分析現有的隱私保護技術,包括多敏感屬性隱私數據發布問題、發布方法等。在這些理論的基礎上,清晰地了解多敏感屬性隱私保護的現狀。在本章的第二部分中,分析泛化處理過程中造成的信息損失,并量化的定義數據概括帶來的信息損失,最后將問題轉化為帶特定約束的聚類分組問題,文章提出不同以往單一敏感屬性匿名保護的方法,討論多敏感屬性隱私保護的技術,并著重分析匿名信息損失的方法。第3章針對單一個體對應多個記錄的情況下的多敏感屬性數據發布的情況,討論原有技術在此情況出現的問題,提出一種新的基于有損連接的隱私保護方法,并分析新方法概括后數據的信息損失情

39、況及由多敏感屬性關系推出新的關聯集合。第4章主要研究基于個人動態隱私要求的多敏感數據發布特點,討論原有個人匿名應用在單一敏感屬性情況的缺陷,提出一種多敏感屬性語義樹及新的概括算法,該算法在匿名化過程中針對個人不同的隱私需求,應該制定個性化的隱私約束,能夠有效地保護個人的敏感隱私。第5章以具體的應用仿真實例來具體描述本文提出的方法,并對數據的處理結果進行綜合的分析驗證方法的有效性與準確性。43第2章 相關理論與技術第2章 相關理論與技術論文在上一章中首先介紹了有關本文研究的背景意義和國內外的研究現狀,然后對本文的研究內容和論文組織進行了詳細的描述。本章首先對隱私保護技術的相關理論和技術作為重點介

40、紹,其次結合本文的應用背景下討論傳統理論研究存在的不足,分析最小信息損失度的匿名策略克服匿名過程中數據被泛化的缺點,最后結合上述理論提出多維敏感屬性的隱私保護技術叫“技術”太大啦!,并分析冗余信息出現的情況,證明該方法在發布數據信息的有效性。2.1 隱私保護概述個人信息是指可以直接或間接識別出自然人情況的數據資料,包括姓名、性別、身份證號、年齡、出生日期、健康和家庭住址等等。歐盟委員會在1992年的理事會數據保護條例的修改建議稿中明確規定:“個人數據是指包含一個可識別的自然人的任何信息,不單單局限于以可處理形式所存在的信息,它有關任何形式和任何種類的信息,強調只要這種信息是有關個人的,不論個人

41、是活著的或者是已經死亡的,并且只要求這個或這些人是可以通過這些信息來識別的”。這些個人數據的內容包括個人的基本自然狀況、有何生活經歷及習慣、社會與政治背景和家庭基本情況等。個人隱私權是人的基本權利,是公民對其隱私加以保護和約束所特定的人格權。但是直到今天,隱私權任是處于一個發展中的概念,隱私權還不是一個能夠容易界定的概念。沃倫和布蘭戴斯將隱私權在隱私權一文中解釋為文獻引用?“隱私權作為個人在通常情況下決定自己的思想、情感和觀點在多大程度上與別人交流和溝通的權利,是個人對其私人領域的一種有限的控制狀態,主要解釋為以下兩個方面,一方面是決定是否允許他人對其進行多大程度的親密接觸(包括個人信息的接觸

42、)的決定;另一方面是他對自己私人事務的決定”。隱私權是指自然人在享有到私人生活安寧和私人信息受到法律保護的同時,不因被他人利用非法渠道進行搜集、侵擾、利用和公開的一種人格權。其主要內容包括私人信息保密權、個人生活不受干擾的權利、個人通訊秘密權及個人隱私利用權等,另外還有學者認為隱私權包括三方面:保密個人的隱私信息,保證個人生活安寧的權利和保護個人私事自由決定的權利。個人信息隱私權是指個人對與自己相關的能夠被識別的信息資料加以約束和利用以及排除非法利用和干擾的權利。在信息技術高速發展的今天,人們每天都在享受由此帶來的方便和快捷,但也因此使得個人信息的搜集變得越來越容易,信息技術不得不比喻為一把“

43、雙刃劍”,關于個人信息的使用不當或予以公開都可能會給個人造成財產、精神上的損失。個人信息隱私權已經從傳統的保證“個人生活安寧不受外界干擾”的消極權利逐漸演變為現代的具有更積極意義的“信息隱私權”,這樣隱私權更突出地表現為個人對私人信息和私人事務的控制力上。綜上所述,在個人隱私權的保護上不能只停留在針對所謂獨處權的保護,而是應該轉變為朝向保護個人信息的方向上發展。目前基于隱私保護不同需求的角度進行分析,把隱私保護技術分為兩個重點研究領域:面向用戶的隱私保護技術與面向數據的隱私保護技術的研究。前者針對擁有者有隱私自治的原則進行研究,通過不同的預定義隱私泄露參數來進行隱私數據控制的,應該制定個性化的

44、隱私約束?;谏鲜鼋榻B,面向用戶信息隱私保護的提出主要從三個方面分析:發布信息的隱匿程度、數據信息的非鏈接性和個體行為發布的非直觀性。在數據庫應用方面,用戶隱私保護主要從如何保護由數據間關聯可以表達的敏感信息考慮,也就是說通過隱私保護方法來限制用戶敏感數據從而達到消除由抽取數據和鏈接信息時導致的隱私泄露等目標,主要是采用某些專門處理方法,或者使用在這些記錄上附屬特殊標記達到上述目的。在數據發布過程中,面向數據的隱私保護技術是針對關系數據庫中的原始記錄與發布數據中個人隱私敏感信息泄露的問題,即保護好數據中明顯暴露出個人隱私的數據,或者通過記錄間關聯的抽取發現隱私信息的數據,對上述數據的保護所提出

45、的方法進行研究。2.2 匿名策略隱私保護技術在信息安全領域作為一種新興的技術,同傳統的訪問控制方法和加密技術有這本質的區別。訪問控制技術與加密技術的關鍵思想是既保證數據的隱秘性得到保護,又保證它不被非授權的第三者訪問或抽取。目前主要通過防止攻擊者通過非法手段來得到隱私數據(訪問控制)或者使得攻擊者獲得的數據因擾動后變得不再可用(加密技術)來實現。非法的攻擊者則以獲得可用的隱秘數據為最終目標。而隱私保護技術在數據的隱密性上并不能完全保障,一般來說隱私數據完全可以對外界公開的,對于任何人這些數據都是都可以隨時訪問的,該技術的關鍵是如何保護隱私數據與個人之間的對應關系。因為從非法攻擊的角度看,攻擊的

46、目標主要是抽取出隱私數據與個人之間所產生的對應關系。所以隱身保護技術的主要目的就是隱私數據在一定程度上可以被任何人得到,但是所發布的數據卻不能把對應到某個特定的人身上。目前隱身保護技術在數據共享中的應用主要體現在匿名保護問題中:由于被共享的數據集中任何數據記錄均與某一個體相存在對應關系,所以在這些數據集中存在涉及個人隱私的敏感屬性值(如醫療記錄數據中的病人用藥情況和疾病診斷信息)。隱身保護技術研究的目的是實現對共享數據集包含個人隱私的敏感屬性值進行匿名保護,也就是說防止非法攻擊者將個人隱私的敏感屬性值與其對應的特定個體關聯起來。傳統方法只是將原始數據記錄中可以唯一標識出個人身份的屬性(即標識符

47、,如姓名、身份證號碼、銀行卡號)進行簡單的移出,可是這樣其實并不能完全保證個體隱私不被非法攻擊者獲得。文獻1中研究表明由于在數據記錄中存在一些屬性可與外部數據源鏈接而間接推斷出個體身份所對應的記錄,這樣在共享僅移除唯一標識個人身份屬性的原始數據集時,攻擊者如果通過非法渠道根據自己掌握的數據和發布數據進行重新鏈接,就能夠推斷出所隱藏個體的身份信息,所以造成了個人隱私的泄漏。本文為了便于描述,通過以常見的關系數據庫為例,將數據表中的屬性具體分為以下三類23:(1)個人標識符(individually identifying attribute大小寫寫法應全文一致!看下頁標注,全文檢查,簡稱id):

48、在數據表t中,在任何情況下都可以直接標識出個人身份的關鍵屬性集,被稱為個人標識符。如姓名、身份證號碼、銀行卡號、手機號碼和社會保險號碼等。(2)準標識符(quasi-identifier attribute,簡稱qi):在數據表t中,能夠被數據持有者發現并通過與外部信息相鏈接可以造成個人隱私信息泄露的全部關鍵屬性集,稱為準標識符。如出生日期、性別、年齡和住居地郵編等。(3)隱私敏感屬性(sensitive attribute,簡稱st):在數據表t中,一些涉及個人不愿被別人具體知道的屬性集,稱為隱私敏感屬性。如病歷情況、用藥記錄和年收入等。例如,在表2.1表2.1應該在本段下的原始數據表中,年

49、齡,國籍,地區編碼的集合構成準標識符qi,疾病為隱私敏感屬性,而在這個表里面沒有任何可以唯一標識個體身份的屬性的標識符,例如名字,身份證號碼或者手機號等。鏈接攻擊24就是通過準標識符同其他渠道獲得的信息進行重新鏈接造成隱私泄露的情況。通過鏈接攻擊,攻擊者可以間接的發現與個體相關的敏感屬性值,從而導致個人隱私信息泄漏。文獻1中給出一個鏈接攻擊的例子:在馬薩諸塞州,研究者可以從社保委員會(gic)得到本州居民的健康信息表(medical list),其中含有地區編碼、年齡、社會保險號、健康狀況等一百個屬性,這樣當研究者得到注冊選民信息表(voter list)時,可以很容易地將兩個表進行鏈接,如圖

50、2.1所示,就可以在選民信息表中得到與健康信息表中出現同一人的身體健康狀況。很明顯由于在數據發布之后,這些數據可以隨時被任何數據接收者所使用,而此時數據提供者既不了解數據接收者所擁有的其他數據信息,也不能對數據接收者對發布數據的使用進行控制監督,因此在數據發布之前,一定要對數據表中一些關鍵的記錄進行特殊處理,只有這樣才能保障數據所有者的個人隱私信息不被輕易泄漏。本章接下來就如何對數據表中的關鍵屬性值進行處理的常見方法進行描述。這句話去掉,沒有必要!且空白太大!圖2.1 鏈接攻擊示例在數據發布時,為了防止數據中準標識符被攻擊者通過鏈接攻擊所利用,目前匿名化成為主要的研究技術,其核心是如何隱藏個人

51、與隱私信息之間的對應關系。當前已有多種匿名化策略2530和實現這些策略的匿名化技術(generalization methods)被學者提出,匿名化策略(generalization principle),即如何生成滿足何種類型的匿名要求等價組,其主要關心解決匿名化后數據的安全性問題。另外采用什么匿名策略來生成滿足要求的等價組,也是今后大家研究的重點方向,它是致力于解決發布后的數據可以滿足相應匿名策略的具體方法,目前常用的方法主要有聚類與劃分、抽象與更新和交換,其中在匿名過程中如何通過盡可能的減少匿名損失來實現匿名化的方法也是今后研究熱點,如圖2.2所示:句號!圖2.2 隱私保護研究模型示意圖

52、2.2.1 k-匿名策略通過匿名化技術把數據記錄生成若干等價組,可以使等價組內每個記錄的qi屬性和隱私敏感屬性不會再有一一對應關系,這樣就能夠保障個人隱私信息不會被泄漏。匿名策略的研究主要是用來解決生成什么樣的等價組,使得等價組內每個記錄的隱私屬性值要滿足什么樣的條件才能保證數據隱私程度足夠安全。表2.1表號后空一個漢字 原始數據表id年齡國家地區編碼疾病t127美國14248艾滋病t228加拿大14207艾滋病t326美國14246艾滋病t425加拿大14249艾滋病t541中國13053肝炎t648日本13074肝炎t745印度13064心臟病t842印度13062心臟病t933美國142

53、42流感t1037加拿大14204流感t1136加拿大14205流感t1235美國14248消化不良表2.2 4-匿名化表id年齡國家地區編碼疾病t1<30美洲142*艾滋病t2<30美洲142*艾滋病t3<30美洲142*艾滋病t4<30美洲142*艾滋病t5>40亞洲130*肝炎t6>40亞洲130*肝炎t7>40亞洲130*心臟病t8>40亞洲130*心臟病t93*美洲142*流感t103*美洲142*流感t113*美洲142*流感t123*美洲142*消化不良定義2.1 提出k-匿名策略(k-anonymity)概念:這不是定義的寫法!為

54、了防止非法攻擊者進行鏈接攻擊,samarati p和sweeney l提出了k-匿名(k-anonymity)的概念,它要求數據表經過發布后的數據中存在一定數量的而且是不可區分的個體,這樣就使攻擊者在鏈接攻擊后仍不能判別出敏感屬性所對應的具體個體,從而保證了個人隱私不被泄密的問題。對于原始數據表t,經過匿名概括后處理得到等價組標記為t,如果t滿足k-匿名(k-anonymity),當且僅當在t中任一等價組內每一條數據記錄至少有k-1條與它相對應的記錄。如果一個數據集中的每個等價組內的數據記錄都滿足k-匿名條件,那么就稱該數據表是滿足k-匿名寫法要一致!全文檢查!模型的。按照k-匿名模型要求進行

55、概括的發布數據中,對于每個元組記錄都至少存在有其他k-1個元組與其對應的標識符屬性取值上是相同的。如果滿足這一條件的話,即使攻擊者在利用鏈接攻擊時,也很難會將數據集內的每個元組與某一具體個體關聯到一起。這種匿名方法可以有效防止鏈接攻擊,例如對表2.1的原始表可以經過4-匿名化后得到滿足匿名條件的數據,見表2.2表、圖都是先寫圖表引用見表2.2,然后顯示圖!表2.2應該放到本段的后面!所示,在新的數據表中每一條記錄都有至少3條記錄在準標識符上具有相同的對應關系,即使攻擊者通過非法渠道可以知道某條紀錄在表2.2中,但是他也不能確定是哪條唯一紀錄與它相對應。因此像這樣滿足k-匿名模型的數據,在一定程

56、度上是可以降低因鏈接攻擊所帶來隱私泄漏的風險,不過這種匿名策略要保證完全防止隱私泄漏仍然是不可能的,例如當同質攻擊和背景知識攻擊對數據進行非法抽取時,個人的隱私還是會有泄漏的可能。2.2.2 l-多樣性匿名策略基于背景知識攻擊或者同質攻擊對數據記錄進行非法抽取,如果敏感屬性值存在過于特殊的情況時,即敏感屬性st在每個集合元素上缺乏一定的多樣性,此時k-anonymity模型在安全隱患上存在較大的漏洞,針對k-匿名模型的不足,文獻4較早地提出l-多樣性匿名策略。定義2.2 l-多樣性模型(l-diversity):在數據表中如果一個等價組內的敏感屬性集合存在至少l個不同表現較好的屬性,則稱該等價組是滿足l-多樣性策略的。在一個數據

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論