云時代下的大數據安全技術_第1頁
云時代下的大數據安全技術_第2頁
云時代下的大數據安全技術_第3頁
云時代下的大數據安全技術_第4頁
云時代下的大數據安全技術_第5頁
已閱讀5頁,還剩11頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、云時代下的大數據安全技術摘要:認為云計算結合大數據,是時代發展的必然趨 勢。提出了保障大數據安全的方法和技術,方法包括:構建 云環境下的大數據信息安全體系,建立并研究基于 Hadoop 的大數據安全架構等;技術包括:基于大數據的威脅發現技 術、大數據真實性分析技術、基于大數據的認證技術、基于 大數據的安全規則挖掘技術, 以及防范高級持續性威脅 ( APT) 攻擊的技術。認為大數據帶來許多新的安全問題和挑戰,但 它本身也是解決問題的重要手段,需要進一步地研究。關鍵詞:大數據;云計算;大數據安全;APT 攻擊;數據挖掘隨著云時代的來臨,大數據也吸引了越來越多學術界和 工業界的關注。 從 20 世紀

2、 90 年代“數據倉庫之父” Bill Inmon 率先提出“大數據”的概念,到 2011 年麥肯錫全球研究院(MGI)發布了關于大數據的詳盡報告,直至2012年美國奧巴馬政府公布了“大數據研發計劃” ,才使得大數據真正成 為許多學科的重點研究課題。大數據科學的基礎研究已經成 為當今社會的研究熱點。英國牛津大學教授維克托?邁爾?舍恩伯格, 在他的大數據時代: 生活、工作與思維的大變革 一書中,深刻地闡述了大數據所帶來的三大變革,即思維變革、商業變革和管理變革。大數據帶來更多的是思維變革一一樣本數據或局部數據向全體數據的變革,結果數據向 過程數據的變革,靜態存儲數據向動態流處理數據的變革。隨著大

3、數據技術的不斷發展,許多傳統的信息安全技術 也受到了挑戰。在大量數據產生、收集、存儲和分析的過程 中,既會涉及一些傳統安全問題,也會涉及一些新的安全問 題,并且這兩類問題會隨著數據規模、處理過程、安全要求 等因素而被不斷放大。而大數據的 4V (大量、高速、多樣、 真實性)+1C (復雜)特征,也使得大數據在安全技術、管 理等方面面臨新的安全威脅與挑戰 1。1 大數據安全技術發展現狀談到大數據,不可避免地就要提及云計算技術,它們就 像一枚硬幣的正反面一樣密不可分。云計算結合大數據,是 時代發展的必然趨勢。云計算為大數據提供了存儲場所、訪 問渠道、虛擬化的數據處理空間,具有盤活數據資產價值的 能

4、力。另一方面,大數據技術通過挖掘價值信息 2 進行預測 分析、策略決斷,為國家、企業甚至個人提供決策和服務。作為一個云化的大數據架構平臺, Hadoop 自身也存在 著云計算面臨的安全風險,企業需要實施基于身份驗證的安 全訪問機制,而 Hadoop 派生的新數據集也同樣面臨著數據 加密問題。云端大數據從使用頻率上有靜態數據加密機制和 動態數據加密機制兩種 3 。靜態數據加密機制與傳統加密一樣,有對稱加密算法和非對稱加密算法兩種。而動態數據加 密機制方面近年來則有較多的論述,較為常用的是同態加密 機制4 。對加法同態的加密算法有Paillier 算法5 ,對乘法同態的加密算法有 RSA算法,還有

5、對加法和簡單標量乘法同 態的加密算法,如 IHC和MRS算法。Craig Gentry提出一 種基于理想格的全同態加密算法 7 ,實現了全同態加密所有 屬性的解決方案。同樣,大數據依托的非關系型數據庫(NoSQL)技術沒有經過長期發展和完善,在維護數據安全方面也未設置嚴格 的訪問控制和隱私管理,缺乏保密性和完整性特質。另一方 面,NoSQL對來自不同系統、不同應用程序及不同活動的數 據進行關聯,也加大了隱私泄露的風險。大數據時代,想屏 蔽外部數據商挖掘個人信息是不可能的,大數據隱私問題堪 憂。 Itani 提出的協議能夠在云計算環境下保證用戶的隱私 8, Creese的方案有效地解決了企業云部

6、署中的隱私安全問題 9。除了常見的基于加密體制的數據存儲和數據處理的隱私 性保護方案外,A. Parakh等于2011年和2013年分別提出了 基于空間有效性的機密共享隱式機制10及運用隱式機制的云端計算機制 11 。針對非結構化數據(比如社交網絡產生 的大量數據)的隱私保護技術也是云時代下大數據安全隱私 保護的重大挑戰,典型的匿名保護需求為用戶標識匿名、屬 性匿名(也稱點匿名)及邊匿名(用戶間關系匿名) 。目前邊匿名方案大多是基于邊的增刪 12 ,還有一個重要思路是基于超級節點對圖結構進行分割和聚集操作13 。2 基于大數據的安全技術及發展趨勢 新形勢下的大數據安全也面臨諸多新的挑戰,在大數

7、據 產業鏈的各個環節,安全問題無處不在。面對一系列的安全 風險和關鍵問題,如何保障大數據安全,并在信息安全領域 有效利用,是學術界和工業界都需要認真對待和解決的問題。2.1 構建云環境下的大數據信息安全體系 只有在正確完整的安全體系指導下,大數據信息安全建 設所需的技術、產品、人員和操作等才能真正發揮各自的效 力。大數據應用過程通常劃分為采集、存儲、挖掘、發布 4 個環節,它們的安全性可通過下面一些技術和方法實現:( 1)數據采集階段的安全問題主要是數據匯聚過程中 的傳輸安全問題,需要使用身份認證、數據加密、完整性保 護等安全機制來保證采集過程的安全性。傳輸安全主要用到 虛擬專用網絡(VPN)

8、和基于安全套接層協議 VPN( SSL VPN 技術。( 2)數據存儲階段需要保證數據的機密性和可用性, 提供隱私保護、備份與恢復技術等。這個階段可能用到的技 術有:基于數據變換的隱私保護技術(包括隨機化、數據交 換、添加噪聲等) 、基于數據加密的隱私保護技術、基于匿 名化的隱私保護技術 (通常采用抑制、 泛化兩種基本操作) 、靜態數據加密機制(數據加密標準(DES、高級加密標準( AES)、 IDEA、 RSA、 ElGamal 等)、動態數據加密機制(同 態加密、異地備份、磁盤陣列(RAID)、數據鏡像、Hadoop 分布式文件系統(HDFS等。(3)數據挖掘階段需要認證挖掘者的身份、嚴格

9、控制 挖掘的操作權限,防止機密信息的泄露。這個階段涉及到的 技術有:基于秘密信息的身份認證、基于信物的身份認證技 術、基于生物特征的身份認證技術、自主訪問控制、強制訪 問控制、基于角色的訪問控制等。( 4)數據發布階段需要進行安全審計,并保證可以對可能的機密泄露進行數 據溯源。 這個階段的技術可能涉及到: 基于日志的審計技術、 基于網絡監聽的審計技術、基于網關的審計技術、基于代理 的審計技術、數據水印技術等。2.2 基于 Hadoop 的大數據安全架構Hadoop 是一種分布式數據和計算的框架,在全球范圍 內已成為大數據應用最為廣泛的技術架構。當前, Hadoop 已成為工業界和學術界進行云計

10、算應用和研究的標準平臺。 分布式文件系統使大規模并行計算成為可能,但堆棧各層的 集成以及數據節點與客戶端 / 資源管理機構之間通信, 都會引 入新的安全問題。圖1是Hadoop核心HDFS的架構,在不破 壞大數據集群的基本功能及大數據本身必要特點的前提下, 我們先來分析這種架構下的安全問題及隱患并給出相應安全解決建議。在高度分布式數據集群中,很難驗證異構平臺之間安全 的一致性,即不同的數據結點的數據安全的整體性和一致性 是分布式計算的痛點。而與傳統集中式數據安全模型不同的 是,大數據集群內的數據是流動的,有多個副本,在不同節 點間移動以確保冗余和彈性的機制導致數據很難及時、準確 地定位存儲位置

11、,無法獲知數據備份個數,這加大了副本安 全保護機制設計上的難度。對于數據訪問,大多數大數據環 境提供了 schema 級別的訪問控制,但沒有更細的粒度,雖 然在大數據環境中可以借鑒安全標簽和其他高級屬性,但需 要應用設計者將這些功能集成到應用和數據存儲中去。對于 節點間的通信, Hadoop 和絕大多數組件之間的通信是不安 全的,它們使用傳輸控制協議( TCP) /IP 之上的遠程過程調 用協議(RPC ,并沒有嵌入安全傳輸層協議(TSL和SSL 等安全機制。另外,客戶端可以直接與資源管理者及節點進 行交互,增加了惡意代碼或鏈接發送的概率,也難以保證客 戶端免受數據節點的攻擊。最后,最為重要的

12、是大數據棧自 身設計并沒有考慮安全機制。這些都是基于HDFS架構的大數據環境的安全隱憂?;?Hadoop 的大數據架構,其安全機制可以通過下面 一些方法和技術得以保證:(1)使用Kerberos進行節點驗證。 Kerberos是一個最 有效的安全控制措施之一,并且可以集成到 Hadoop 基礎設 施中。其可有效驗證服務間通信,阻斷集群中的惡意節點和 應用程序, 保護 Web 控制臺的訪問, 使得管理通道難以被攻 擊。( 2)對于惡意客戶端發起的獲取文件請求,可以通過 使用文件層加密對數據加以保護。被惡意訪問的文件是不可 讀的磁盤映像,且文件層加密提供一致安全保護,有些產品 甚至提供內存加密保

13、護。( 3)使用密鑰管理服務分發密鑰和證書,并為每個組 應用程序和用戶設置不同密鑰,可以提高密鑰的安全性,防 止文件加密的失效。(4)在節點之間、節點與應用程序之間使用SSL/TLS組件實現安全通信,設計、集成有效的安全通信機制和現成組 件。2.3 基于大數據的威脅發現技術 由于大數據分析技術的出現,企業可以超越以往的“保 護一檢測一響應一恢復” (PDDR模式,更主動地發現潛在 的安全威脅。“棱鏡”計劃也可以被理解為應用大數據方法 進行安全分析的成功故事。通過收集各個國家各種類型的數 據,利用安全威脅數據和安全分析形成系統方法發現潛在危 險局勢,在攻擊發生之前識別威脅?;诖髷祿耐{發現

14、技術可以使分析內容的范圍更大,通過在威脅檢測方面引入 大數據分析技術,可以更全面地發現針對企業數據資產、軟 件資產、實物資產、人員資產、服務資產和其他為業務提供 支持的無形資產等各種信息資產的攻擊。另一方面,基于大 數據的威脅發現技術可以使分析內容的時間跨度更長,現有 的威脅分析技術通常受限于內存大小,無法應對持續性和潛 伏性攻擊。而引入大數據分析技術后,威脅分析窗口可以橫 跨若干年的數據,因此威脅發現能力更強,可以有效應對高 級持續性威脅(APT)類攻擊。基于大數據的威脅分析,我 們可以對攻擊威脅進行超前預判,能夠尋找潛在的安全威脅, 對未發生的攻擊行為進行預防。而傳統的安全防護技術或工 具

15、大多是在攻擊發生后對攻擊行為進行分析和歸類,并做出 響應。傳統的威脅分析通常是由經驗豐富的專業人員根據企 業需求和實際情況展開,然而這種威脅分析的結果很大程度 上依賴于個人經驗。同時,分析所發現的威脅也是已知的。 大數據分析的特點是側重于普通的關聯分析,而不側重因果 分析,因此通過采用恰當的分析模型可發現未知威脅。2.4 大數據真實性分析技術目前,基于大數據的數據真實性分析被廣泛認為是最為 有效的方法?;诖髷祿臄祿鎸嵭苑治黾夹g能夠提高垃 圾信息的鑒別能力。一方面,引入大數據分析可以獲得更高 的識別準確率。例如,對于點評網站的虛假評論,可以通過 收集評論者的大量位置信息、評論內容、評論時間

16、等進行分 析,鑒別其評論的可靠性。如果某評論者為某品牌多個同類 產品都發表了惡意評論,則其評論的真實性就值得懷疑。另 一方面,在進行大數據分析時,通過機器學習技術可以發現 更多具有新特征的垃圾信息。然而該技術仍然面臨一些困難, 主要是虛假信息的定義、分析模型的構建等。云時代的未來必將涌現出更多、更豐富的安全應用和安 全服務。對于絕大多數信息安全企業來說,更為現實的方式 是通過某種方式獲得大數據服務,結合自己的技術特色領域, 對外提供安全服務。一種未來的發展前景是:以底層大數據 服務為基礎,各個企業之間組成相互依賴、相互支撐的信息 安全服務體系,總體上可以形成信息安全產業界的良好生態 環境。2.

17、5 基于大數據的認證技術 傳統的認證技術主要通過用戶所知的秘密(例如口令) 或者持有的憑證(例如數字證書)來鑒別。這樣就會存在問 題:首先,攻擊者總是能夠找到方法來騙取用戶所知的秘密 或竊取用戶持有的憑證,從而輕松通過認證;其次,傳統認 證技術中認證方式越安全往往意味著用戶負擔越重(例如攜 帶硬件USBKe,如果采用先進的生物認證技術,又需要設 備具有生物特征識別功能,從而限制了這些先進技術的使用。 如果在認證技術中引入大數據分析則能夠有效地解決這兩 個問題。基于大數據的認證技術指的是收集用戶行為和設備行為數據,并對這些數據進行分析,獲得用戶行為和設備行為的特征,進而通過鑒別操作者行為及其設備

18、行為來確定其身份。這與傳統認證技術利用用戶所知秘密、所持有憑證或具有的生物特征來確認其身份有很大不同。這樣,攻擊者很難模擬用戶行為特征來通過認證,因此更加安全,同時又減 小了用戶認證負擔,可以更好地支持各系統認證機制的統一。2.6 基于大數據的安全規則挖掘技術在 Internet 網絡中,為保證網絡安全,會引入防火墻技 術和入侵檢測技術等。在這些技術中,通常是通過建立一套 安全規則或過濾規則達到其安全目標,而這些規則的建立傳 統方法是通過專家知識系統。在大數據時代,這些安全規則 可以通過數據挖掘技術或方法實現。聚類分析是數據挖掘中的一項重要技術,根據在數據中 發現的描述對象及其關系的信息,將數

19、據對象分組。組內相 似性越大,組間差別越大,聚類效果就越好。K-means 算法作為聚類分析中的一種基本方法,由J.MacQueen于1967年首次提出14,由于其容易實現,時間復雜度與數據規模接近線性,并且能夠快速地收斂到局部最 優值,因此成為最廣泛應用的聚類算法 15。然而 K-means 算法也存在較為明顯的缺陷,其中有以下兩點:(1) K-means算法需要人為確定聚類數K和選取初始質心集,其聚類結果的好壞明顯受到初始化條件的影響 16-18, 即選取不同的 K 值和初始質心集會得到不同的聚類結果。(2)K-means 算法僅適用于數據項全是數字的情況。對 非數字數據進行聚類分析是一個

20、特別棘手的問題19 ,這在很大程度上限制了 K-means 算法的應用范圍。針對問題( 1),Ester M 等提出了基于密度的聚類方法DBSCAN20,該算法以及以此為基礎的一些改進算法17-18采用基于密度的自動聚類,避免了對初始條件的隨機選取, 在一定程度上解決了 K-means 算法對初始條件敏感的問題。然而,由于基于密度的聚類算法時間復雜度通常較高,在處 理大規模數據集時會出現瓶頸;同時在對于非數字數據集的 聚類過程中,采用傳統的基于密度的聚類算法往往會造成聚 類失效問題。針對以上問題,在借鑒 K-means算法框架的基礎上,文 獻21提出一種基于“預抽樣 -次質心”的密度聚類算法,

21、采 用預抽樣的方法將算法時間復雜度控制為線性,同時通過引 入次質心的概念,解決聚類失效問題。分析表明該算法能很 好地克服K-means算法的初始條件敏感性和一般密度聚類算 法的聚類失效問題,實現較為理想的聚類結果。2.7防范APT攻擊的技術APT攻擊是大數據時代面臨的最復雜的信息安全問題之一,而大數據分析技術又為對抗APT攻擊提供了新的解決手段。APT具有極強的隱蔽性,且潛伏期長、持續性和目標性 強,技術高級,威脅性也大。 APT 攻擊檢測方案通常有沙箱 方案、異常檢測、全流量審計、基于深層協議解析的異常識 別、攻擊溯源等。在 APT 攻擊檢測中,存在的問題包括:攻 擊過程包含路徑和時序;攻擊

22、過程的大部分貌似正常操作; 不是所有的異常操作都能立即檢測;不能保證被檢測到的異 常在 APT 過程的開始或早期。 基于早期記憶的檢測可以有效 緩解上述問題,既然 APT 是在很長時間發生的,我們的對抗 也要在一個時間窗內來進行,并對長時間、全流量數據進行 深度分析。 APT 攻擊防范策略包括防范社會工程、通過全面 采集行為記錄避免內部監控盲點、 IT 系統異常行為檢測等。3 結束語 大數據帶來許多新的安全問題和挑戰,但大數據本身也 是解決問題的重要手段,它就像一把雙刃劍,既需要研究合 適的“盾”來保護大數據,也需要研究如何用好大數據這根 “矛”。戰略資詢公司麥肯錫認為:大數據將會是帶動未來

23、生產力發展、科技創新及消費需求增長的指向標,它以前所 未有的速度,顛覆人們探索世界的方法,驅動產業間的融合 與分立。大數據已成為各個國家和領域關注的重要戰略資源, 可能對國家治理模式、企業決策、組織業務流程、個人生活 方式都將產生一系列長遠、巨大的影響。參考文獻1 MANADHATA P K. Big Data for Security: Challenges, Opportunities , and Examples C/Proceedings of the 2012 ACM Workshop on Building Analysis Datasets and Gathering Exper

24、ience Returns for Security , Raleigh, North Carolina , USA, 20122 YU S C, WANG C, REN K, et al. Achieving Secure, Scalable, and Fine-grained Data Access Control in Cloud Computing C/ Proceedings of the INFOCOM10 , the 29th conference on Information communication , Piscataway, USA, 2010: 534-5423 BEL

25、ARE M and ROGAWAY. PIntroduction to Modern Cryptography J. Ucsd Cse, 2005: 2074 GENTRY C, HALEVI S, SMART N P. Homomorphic Evaluation of The AES Circuit M. Germany : Springer Berlin Heidelberg , 20125 CATALANO D. Pailliers Cryptosystem Revisited C/ in Proceedings of the 8th ACM conference on Compute

26、r and Communications Security , PA, USA, 2001: 206-2146 BENDLIN R, DAMGARD I, ORLANDI C, et al. Semi-Homomorphic Encryption and Multiparty Computation M. Germany : Springer Berlin Heidelberg , 2011 7 GENTRY C. A Fully Homomorphic Encryption Scheme D. Standford University , 20098 ITANI W, KAYSSI A, C

27、HEHAB A. Privacy As a Servic:e Privacy-Aware Data Storage and Processing in Cloud Computing Architectures C/ Eighth IEEE International Conference on Dependable , Autonomic and Secure Computing , Washington DC, USA, 2009:711-716.doi : 10.1109/DASC.2009.1399 CREESE ,S HOPKINS P, PEARSON ,S et al. Data

28、 Protection-Aware Design for Cloud Services M. Germany : Springer Berlin Heidelberg , 200910 PARAKH A, KAK S. Space Efficient Secret Sharing for Implicit Data Security J. Information Science , 2011, 181( 2): 335-34111 PARAKH A, MAHONEY W. Privacy Preserving Computations Using Implicit Security C / P

29、roceedings of the 22nd International Conference on Computer Communications and Networks ( ICCCN), Nassau, Bahamas, 2013: 1-6. doi : 10.1109/ICCCN.2013.661417212 ZHANG L J, ZHANG W N. Edge Anonymity in Social Network Graphs C / Proceedings of the International Conference on Computational Science and

30、Engineering (CSE09),Vancouver, Canada, 2009: 1-813 MICHAEL H A,GEROME M,DAVID J,et al. Resisting Structural Re-identification in Anonymized Social NetworksC/ Proceedings of the 34th International Conference on Very Large Data Bases( VLDB2008), Aucklnad , New Zealand, 2008: 102-11414 MACQUEEN J. Some Methods for Classification and Analysis of Multivariate Observations. C / Proceedings of the Fifth Berkeley Symposium on Mathematical Statistics and Probability , Oakland, USA, 1967: 281-29715 JAIN A K. Data Clustering: 50 Years Beyond K-Means J. Pattern recognition letters , 2010, 1

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論