智慧城市 城市級大數據安全技術服務應用建設方案V3_第1頁
智慧城市 城市級大數據安全技術服務應用建設方案V3_第2頁
智慧城市 城市級大數據安全技術服務應用建設方案V3_第3頁
智慧城市 城市級大數據安全技術服務應用建設方案V3_第4頁
智慧城市 城市級大數據安全技術服務應用建設方案V3_第5頁
已閱讀5頁,還剩30頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

智城市

城市級大數據安全技術服務

應用建設方案

文件編號202XQK011/BT-ZTA-QK011

文件狀態[]草稿[正式發布[]正在修改

當前版本

擬制日期

審核日期

目錄

第一章發展現狀......................................................3

1.1.應用背景....................................................3

1.2.大數據應用..................................................4

1.3.技術總體視圖...............................................8

1.3.1.平臺安全............................................9

1.3.2.數據安全...........................................10

1.3.3.隱私保護...........................................10

第二章面臨問題.....................................................12

2.1.平臺安全問題..............................................12

2.2.數據安全問題...............................................15

2.3.個人隱私安全挑戰...........................................18

第三章大數據安全技術...............................................20

3.1.平臺安全技術..............................................20

3.2.數據安全技術...............................................24

3.3.個人隱私保護技術..........................................29

第四章發展總結.....................................................31

第五章未來發展.....................................................33

第一章發展現狀

1.1.應用背景

當前,全球大數據產業正值活躍發展期,技術演進和應用創新并

行加速推進,非關系型數據庫、分布式并行計算以及機器學習、深度

挖掘等新型數據存儲、計算和分析關鍵技術應運而生并快速演進,大

數據挖掘分析在電信、互聯網、金融、交通、醫療等行業創造商業價

值和應用價值的同時,開始向傳統第一、第二產業傳導滲透,大數

據逐步成為國家基礎戰略資源和社會基礎生產要素。

與此同時,大數據安全問題逐漸暴露。大數據因其蘊藏的巨大價

值和集中化的存儲管理模式成為網絡攻擊的重點目標,針對大數據的

勒索攻擊和數據泄露問題日趨嚴重,全球大數據安全事件呈頻發態勢。

相應的,大數據安全需求已經催生相關安全技術、解決方案及產品的

研發和生產,但與產業發展相比,存在滯后現象。

習近平主席在中共中央政治局就實施國家大數據戰略第二次集

體學習時指出,要構建以數據為關鍵要素的數字經濟,推動實體經濟

和數字經濟融合發展,推動互聯網、大數據、人工智能同實體經濟深

度融合。同時,要切實保障國家數據安全。這要求我們必須堅持國家

總體安全觀,樹立正確

的網絡安全觀,堅持“以安全保發展,以發展促安全,”充分發

大數據發展過程中,資源、技術、應用相依相生,以螺旋式上

升的模式發展。無論是商業策略、社會治理、還是國家戰略的制定,

都越來越重視大數據的決策支撐能力。但也要看到,大數據是一把

雙刃劍,大數據分析預測的結果對社會安全體系所產生的影響力和破

壞力可能是無法預料和提前防范的。例如,美國一款健身應用軟件

將用戶健身數據的分析結果在網絡上公布,結果涉嫌泄露美國軍事

機密,這在以往是不可想象的。未來,基于大數據的智能決策將會

在經濟運行、社會生活、國家治理方面發揮更重要的作用,大數據

可能會對國家“11種安全”的方方面面產生更加深遠的影響。

因此,必須從“大安全”的視角審視大數據安全問題,必須站在國

家總體安全觀的高度,打破傳統的重技術的安全保護思維模式,建立

涉及經濟、法律、技術等多角度全方位的大數據安全保障體系。

(二)大數據正逐漸演變為新一代基礎性支撐技術,大數據平臺

的自身安全將成為大數據與實體經濟融合領域安全的重要影響因素

目前來看,大數據正在成為一種通用的數據處理技術,除推動人

工智能、虛擬現實等新興信息技術應用創新之外,互聯網、大數據通

過與實體經濟的深度融合,正加速推進傳統制造業向數字化、網絡化、

智能化發展。然而,在信息化和工業化融合業務繁榮發展的背后,安

全問題如影隨形。針對大數據平臺的網絡攻擊手段正在悄然變化,攻

擊目的已經從單純地竊取數據、癱瘓系統轉向干預、操縱分析結果,

攻擊效果已經從直觀易察覺的系統宕機、信息泄露轉向細小難以察覺

的分析結果偏差,造成的影響可能從網絡安全事件上升到工業生產安

全事故。目前,傳統基于監測、預警、響應的網絡安全技術難以應對

上述攻擊變化,需要進行理念創新,針對不斷變化演進的網絡攻擊

形態,設計建構更加完善的大數據平臺安全保護體系,為上層跨行業

跨領域的業務應用提供基礎性安全保障。

(三)大數據時代,數據在流動過程中實現價值最大化,需要

重構以數據為中心、適應數據動態跨界流動的安全防護體系

大數據時代,數據作為一種特殊的資產,能夠在流通和使用過程

中不斷創造新的價值。因此,在大數據應用場景下,數據流動是‘常

態”,數據靜止存儲才是“非常態”。同時,可以預見到,未來大數據業

務環境將更加開放,業務生態將更加復雜,參與數據處理的角色將更

多元,系統、業務、組織邊界將進一步模糊,導致數據的產生、流動、

處理等過程比以往更加豐富和多樣。數據的頻繁跨界流動,除可能導

致傳統的數據泄露風險外,還會引發新的安全風險。特別是在數據共

享環節中,傳統數據訪問控制技術無法解決跨組織的數據授權管理和

數據流向追蹤問題,僅靠書面合同或協議難以實現對數據接收方的數

據處理活動進行實時監控和審計,極易造成數據濫用的風險,最典型

的案例即是今年曝光的“劍橋分析”事件。未來,數據共享和流通將

成為剛性業務需求,傳統的靜態隔離安全保護方法將徹底不能滿足

數據流動安全防護的需求,必須通過動態變化的視角分析和判斷數據

安全風險,構建以數據為中心的動態、連續的數據安全防護體系。

(四)大數據推動數字經濟新業態新模式蓬勃發展,廣大民眾卻

面臨享受便捷化泛在化信息服務與保護個人信息權利之間的兩難抉

近年來,我國網絡購物、移動支付、共享經濟等數字經濟新業態

新模式發展迅猛,基于互聯網、移動互聯網、物聯網的信息服務已經

滲透到社會生活的方方面面,為廣大民眾提供便捷、高效、全天候的

服務。以普惠金融為例,利用大數據對個人數據的挖掘和分析,能夠

幫助金融科技公司更好的理解用戶需求,提供個性化定制服務;利用

大數據進行金融風險控制,能夠實現流水線操作,減少經營成本,提

高服務效率,提升用戶體驗。例如,某互聯網金融服務企業推出的“310”

個人信貸服務模式,即“3分鐘填表、1分鐘批貸、0人工干預,“為

用戶提供了傳統信貸服務無法比擬的業務體驗,同時將業務成本從每

單2000亓降至2.3元.然而,用戶享受便捷服務的代價是出讓自

己的個人信息權利c每日推薦、個人日報、免押租車等信息服務,都

是基于大數據技術對用戶個人數據進行挖掘分析,形成用戶畫像,進

而提供的定制化服務。但大數據應用場景下,無所不在的數據收集技

術、專業化多樣化的數據處理技術,使得用戶難以控制其個人信息的

收集情境和應用情境,用戶對其個人信息的自決權利自然被削弱。特

別是,企業間的數據共享日益頻繁,利用大數據的超強分析能力對多

源數據進行處理,能夠將經過匿名化處理的數據再次還原,導致現有

數據脫敏技術“失靈”,直接威脅用戶的隱私安全。

綜上,大數據安全是涉及技術、法律、監管、社會治理等領域的

綜合性問題,其影響范圍涵蓋國家安全、產業安全和個人合法權益。

同時,大數據在數量規模、處理方式、應用理念等方面的革新,不僅

導致大數據平臺自身安全需求發生變化,還帶動數據安全防護理念隨

之改變,同時引發對高水平隱私保護技術的需求和期待。

1.3.技術總體視圖

如前所述,大數據安全是一個跨領域跨學科的綜合性問題,可以

從法律、經濟、技術等多個角度進行研究。本報告以技術作為切入點,

梳理分析當前大數據的安全需求和涉及的技術,提出大數據安全技術

總體視圖,如圖1所示。在繪制大數據安全技術總體視圖的過程中,

我們參考了NIST等國內外關于大數據技術參考架構的研究成果。

考慮到大數據平臺為上層應用系統提供存儲和計算資源,是對數據進

行采集、存儲、計算、分析與展示等處理的工具和場所,因此,我

們以大數據平臺為基本出發點,形成了大數據安全總體視圖。

在總體視圖中,大數據安全技術體系分為大數據平臺安全、數據

安全和個人隱私保護三個層次,自下而上為依次承載的關系。大數據

平臺不僅要保障自身基礎組件安全,還要為運行其上的數據和應用提

供安全機制保障;除平臺安全保障外,數據安全防護技術為業務應用

中的數據流動過程提供安全防護手段;隱私安全保護是在數據安全基

礎之上對個人敏感信息的安全防護。

去標識化匿名化

隱私安全

分類分級數據隔離

質量管理數據加密

元數據管理防泄漏

數據安全

傳輸交換安全存儲安全計算安全平臺管理安全

補丁管理

配置管理

安全審計......

1.3.1.平臺安全

大數據平臺安全是對大數據平臺傳輸、存儲、運算等資源和功能

的安全保障,包括傳輸交換安全、存儲安全、計算安全、平臺管理安

全以及基礎設施安全。

傳輸交換安全是指保障與外部系統交換數據過程的安全可控,需

要采用接口鑒權等機制,對外部系統的合法性進行驗證,采用通道加

密等手段保障傳輸過程的機密性和完整性。存儲安全是指對平臺中的

數據設置備份與恢復機制,并采用數據訪問控制機制來防止數據的越

權訪問。計算組件應提供相應的身份認證和訪問控制機制,確保只有

合法的用戶或應用程序才能發起數據處理請求。平臺管理安全包括平

臺組件的安全配置、資源安全調度、補丁管理、安全審計等內容c此

外,平臺軟硬件基礎設施的物理安全、網絡安全、虛擬化安全等是大

數據平臺安全運行的基礎。

1.3.2.數據安全

數據安全防護是指平臺為支撐數據流動安全所提供的安全功能,

包括數據分類分級、元數據管理、質量管理、數據加密、數據隔離、

防泄露、追蹤溯源、數據銷毀等內容。

大數據促使數據生命周期由傳統的單鏈條逐漸演變成為復雜多

鏈條形態,增加了共享、交易等環節,且數據應用場景和參與角色愈

加多樣化,在復雜的應用環境下,保證國家重要數據、企業機密數據

以及用戶個人隱私數據等敏感數據不發生外泄,是數據安全的首要需

求。海量多源數據在大數據平臺匯聚,一個數據資源池同時服務于多

個數據提供者和數據使用者,強化數據隔離和訪問控制,實現數據“可

用不可見”,是大數據環境下數據安全的新需求。利用大數據技術對

海量數據進行挖掘分析所得結果可能包含涉及國家安全、經濟運行、

社會治理等敏感信息,需要對分析結果的共享和披露加強安全管理。

1.3.3.隱私保護

本報告所提的隱私保護是指利用去標識化、匿名化、密文計算等

技術保障個人數據在平臺上處理、流轉過程中不泄露個人隱私或個人

不愿被外界知道的信息。隱私保護是建立在數據安全防護基礎之上的

保障個人隱私權的更深層次安全要求。然而,我們也意識到大數據時

代的隱私保護不再是狹隘地保護個人隱私權,而是在個人信息收集、

使用過程中保障數據主體的個人信息自決權利0實際上,個人信息保

護已經成為一個涵蓋產品設計、業務運營、安全防護等在內的體系化

工程,不是一個單純的技術問題。但由于本報告重點聚焦大數據安全

技術,因此在談及數據主體的個人權益保護時,我們選擇去繁從簡,

從研究方向更為清晰的隱私保護技術入手開展研究。

第二章面臨問題

大數據安全威脅滲透在數據生產、采集、處理和共享等大數據產

業鏈的各個環節,風險成因復雜交織;既有外部攻擊,也有內部泄露;

既有技術漏洞,也有管理缺陷;既有新技術新模式觸發的新風險,也

有傳統安全問題的持續觸發。本報告將聚焦于大數據本身面臨的安全

威脅,從大數據平臺安全、數據安全和個人信息安全三個方面展開分

析,確定大數據安全需求。

2.1.平臺安全問題

1、大數據平臺在Hadoop開源模式下缺乏整體安全規劃,自

身安全機制存在局限性

目前,Hadoop已經成為應用最廣泛的大數據計算軟件平臺,其

技術發展與開源模式結合。Hadoop的最初設計是為了管理大量的公

共web數據,假設集群總是處于可信的環境中,由可信用戶使用的

相互協作的可信計算機組成。因此最初的Hadoop沒有設計安全機

制,也沒有安全模型和整體的安全規劃。隨著Hadoop的廣泛應用,

越權提交作業、修改JobTracker狀態、篡改數據等惡意行為不斷出

現,Hadoop開源社區開始考慮安全需求,并相繼加入了Kerberos

認證、文件ACL訪問控制、網絡層加密等安全機制,這些安全功能

可以解決部分安全問題,但仍然存在局限性。在身份管理和訪問控制

方面,依賴于Linux的身份和權限管理機制,身份管理僅支持用戶

和用戶組,不支持角色;僅有可讀、可寫、可執行三個權限,不能滿

足基于角色的身份管理和細粒度訪問控制等新的安全需求。安全審計

方面,Hadoop生態系統中只有分布在各組件中的日志記錄,無原生

安全審計功能,需要使用外部附加工具進行日志分析。另外,開源

發展模式也為Hadoop系統帶來了潛在的安全隱患。企業在進行工

具研發的過程中,多注重功能的實現和性能的提高,對代碼的質量和

數據安全關注較少,因此,開源組件缺乏嚴格的測試管理和安全認證,

對組件漏洞和惡意后門的防范能力不足。據CommonVulnerabilities

andExposures(以下簡稱“CVE”)漏洞列表顯示,從2013年

到2017年,Hadoop暴露出來的漏洞數量共計18個,其中有5個

是關于信息泄露的漏洞,并且漏洞數量逐年增長。

2、大數據平臺服務用戶眾多、場景多樣,傳統安全機制的性能

難以滿足需求

大數據場景下,數據從多個渠道大量匯聚,數據類型、用戶角色

和應用需求更加多樣化,訪問控制面臨諸多新的問題。首先,多源數

據的大量匯聚增加了訪問控制策略制定及授權管理的難度,過度授權

和授權不足現象嚴重。其次,數據多樣性、用戶角色和需求的細化增

加了客體的描述困難,傳統訪問控制方案中往往采用數據屬性(如

身份證號)來描述訪問控制策略中的客體,非結構化和半結構化數據

無法采取同樣的方式進行精細化描述,導致無法準確為用戶指定其可

以訪問的數據范圍,難以滿足最小授權原則。大數據復雜的數據存儲

和流動場景使得數據加密的實現變得異常困難,海量數據的密鑰管

理也是亟待解決的難題。

3、大數據平臺的大規模分布式存儲和計算模式導致安全配置難

度成倍增長

開源Hadoop生態系統的認證、權限管理、加密、審計等功能

均通過對相關組件的配置來完成,無配置檢查和效果評價機制。同時,

大規模的分布式存儲和計算架構也增加了安全配置工作的難度,對安

全運維人員的技術要求較高,一旦出錯,會影響整個系統的正常運行。

據Shodan互聯網設備搜索引擎的分析顯示,大數據平臺服務器配

置不當,已經導致全球5120TB數據泄露或存在數據泄露風險,泄

露案例最多的國家分別是美國和中國1o本年初針對Hadoop平臺

的勒索攻擊事件,在整個攻擊過程中并沒有涉及常規漏洞,而是利用

平臺的不安全配置,輕而易舉地對數據進行操作。

4、針對大數據平臺網絡攻擊手段呈現新特點,傳統安全監測技

術暴露不足

大數據存儲、計算、分析等技術的發展,催生出很多新型高級的

網絡攻擊手段,使彳導傳統的檢測、防御技術暴露出嚴重不足,無法有效

抵御外界的入侵攻擊。傳統的檢測是基于單個時間點進行的基于威脅特

征的實時匹配檢測,而針對大數據的高級可持續攻擊(APT)采用長期

隱蔽的攻擊實施方式,并不具有能夠被實時檢測的明顯特征,發現難度較大。

此外,大數據的價值低密度性,使得安全分析工具難以聚焦在價值點上,

黑客可以將攻擊隱藏在大數據中,傳統安全策略檢測存在較大困難c因

此,針對大數據平臺的高級持續性威脅(APT)攻擊時有發生,大數據

平臺遭受的大規模分布式拒絕服務(DDoS)攻擊屢見不鮮。Verizon

公司《2018年數據泄露調查報告》顯示,48%的數據泄露與黑客攻

擊有關,其中,DDoS、釣魚攻擊以及特權濫用是主要的黑客攻擊

方式,具體數據如圖3所示。

數據泄露中主要攻擊手段統計

黑客

攻擊

惡意軟件配

圖3.數據泄露中主要攻擊手段統計圖

2.2.數據安全問題

除數據泄露威脅持續加劇外,大數據的體量大、種類多等特點,

使得大數據環境下的數據安全出現了有別于傳統數據安全的新威脅。

(1)數據泄露事件數量持續增長,造成的危害日趨嚴重

大數據因其蘊藏的巨大價值和集中化的存儲管理模式成為網絡

攻擊的重點目標,針對大數據的勒索攻擊和數據泄露問題日趨嚴重,

重大數據安全事件頻發。Gemalto《2017數據泄露水平指數報告》

顯示,2017年上半年全球范圍內數據泄露總量為19億條,超過

2016年全年總量(14億),比2016年下半年增長了160%多,從

2013年到2017年全球數據泄露的具體數目如圖4所示,從圖中

可以看出數據泄露的數目呈現逐年上漲的趨勢。僅2017年,全球

發生了多起影響重大的數據泄露事件,美國共和黨下屬數據分析公司

2、征信機構3先后發生大規模用戶數據泄露事件,影響人數均達到

億級規模。我國數據泄露事件也時有發生。2017年3月,京東試

用期員工與網絡黑客勾結,盜取涉及交通、物流、醫療等個人信息50

億條,在網絡黑市販賣.此外,數據泄露的潛在隱患同樣不容樂觀,

據Shodan統計,截至2017年2月3日,中國有15046個

MangoDB數據庫暴露在公網,存在嚴重安全問題。

數據泄露事件數量單位:億個

30.00

25.00

?nnn

15.00

10.00

5.00

nnn

圖4.2013-2017年數據泄露數量統計圖

(2)數據采集環節成為影響決策分析的新風險點

在數據采集環節,大數據體量大、種類多、來源復雜的特點為數

據的真實性和完整性校驗帶來困難,目前,尚無嚴格的數據真實性、

可信度鑒別和監測手段,無法識別并剔除虛假甚至惡意的數據。若黑

客利用網絡攻擊向數據采集端注入臟數據,會破壞數據真實性,故意

將數據分析的結果引向預設的方向,進而實現操縱分析結果的攻擊目

的。

(3)數據處理過程中的機密性保障問題逐漸顯現

數字經濟時代來臨,越來越多的企業或組織需要參與產業鏈協同,

以數據流動與合作為基礎進行生產活動。企業或組織在開展數據合作

和共享的應用場景中,數據將突破組織和系統的邊界進行流轉,產生

跨系統的訪問或多方數據匯聚進行聯合運算。保證個人信息、商業機

密或獨有數據資源在合作過程中的機密性,是企業或組織參與數據共

享合作的前提,也是數據有序流動必須要解決的問題。

(4)數據流動路徑的復雜化導致追蹤溯源變得異常困難

大數據應用體系龐雜,頻繁的數據共享和交換促使數據流動路徑

變得交錯復雜,數據從產生到銷毀不再是單向、單路徑的簡單流動模

式,也不再僅限于組織內部流轉,而會從一個數據控制者流向另一個

控制者。在此過程中,實現異構網絡環境下跨越數據控制者或安全域

的全路徑數據追蹤溯源變得更加困難,特別是數據溯源中數據標記的

可信性、數據標記與數據內容之間捆綁的安全性等問題更加突出。

2018年3月的“劍橋分析”事件中,Facebook即是因為對第三方使

用數據缺乏有效的管理和追責機制,最終導致8700萬名用戶資料

被濫用,還帶來了股價暴跌、信譽度下降等嚴重后果。

2.3.個人隱私安全挑戰

大數據應用對個人隱私造成的危害不僅是數據泄露,大數

據采集、處理、分析數據的方式和能力對傳統個人隱私保護框

架和技術能力亦帶來了嚴峻挑戰。

(1)傳統隱私保護技術因大數據超強的分析能力面臨失效

的可能

在大數據環境下,企業對多來源多類型數據集進行關聯分

析和深度挖掘,可以復原匿名化數據,進而能夠識別特定個人

或獲取其有價值的個人信息。在傳統的隱私保護中,數據控制

者針對單個數據集孤立地選擇隱私保護技術和參數來保護個人

數據,特別是利用去標識、掩碼等技術的做法,無法應對上述

大數據場景下多源數據分析挖掘引發的隱私泄露問題。

(2)傳統隱私保護技術難以適應大數據的非關系型數據庫

在大數據技術環境下,數據呈現動態變化、半結構化和非結構化

數據居多的特性,對于占數據總量80%以上的非結構化數據,通常

采用非關系型數據庫(NoSQL)存儲技術完成對大數據的抓取、管

理和處理。而非關系型數據庫目前尚無嚴格的訪問控制機制及相對完

善的隱私保護工具,現有的隱私保護技術,如去標識化、匿名化技術

等,多適用于關系型數據庫。

第三章大數據安全技術

面對上述大數據安全挑戰與威脅,產業各界在安全防護技術方面

進行了針對性的實踐與探索。本報告從大數據平臺安全、數據安全、

隱私保護三個方面闡述大數據安全技術的發展現狀。

3.1.平臺安全技術

隨著市場對大數據安全需求的增加,Hadoop開源社區增加了身

份認證、訪問控制、數據加密等安全機制。商業化Hadoop平臺也

逐步開發了集中化安全管理、細粒度訪問控制等安全組件,對平臺進

行了安全升級。部分安全服務提供商也致力于通用的大數據平臺安全

加固技術和產品的研發,已有多款大數據平臺安全產品上市。這些

安全機制的應用為大數據平臺安全提供了基礎機制保障。

1、Hadoop開源社區增加了基本安全機制,但安全能力不能滿

足現實需求

Hadoop開源系統中提供了身份認證、訪問控制、安全審計、數

據加密等基本安全功能。身份認證方面,Hadoop支持兩種身份驗證

機制:簡單機制和Kerberos機制。簡單機制是默認設置,根據客戶

進程的有效LHD確定用戶名,只能避免內部人員的誤操作。

Kerberos機制支持集群中服務器間的認證和Client到服務器的認

證。因為Kerberos可以實現較強的安全性,同時保證較高的運行性

能,目前還沒有哪種認證方式可以取代Kerberos認證。基于

Kerberos的認證方式對于系統外部可以實現強安全認證,但

Kerberos的認證顆粒度基于操作系統用戶,無法支持系統內組件之

間的身份認證。訪問控制方面,目前大數據安全開源技術在訪問控制

方面主要有基于權限的訪問控制、訪問控制列表、基于角色的訪問控

制、基于標簽的訪問控制和基于操作系統的訪問控制等幾種方式。

POSIX權限和訪問控制列表方式可用于HDFS、MapReduce.

HBase中,Hive支持基于角色的訪問控制,HBase和Accumulo

提供了基于標簽的訪問控制。在以上幾種訪問控制方式中,企業主流

使用的是基于權限的訪問控制和基于角色的訪問控制。大數據場景下

用戶角色眾多,用戶需求更加多樣化,難以精細化和細粒度地控制每

個角色的實際權限,導致無法準確為用戶指定其可以訪問的數據范圍,

實現細粒度訪問控制較為困難。大數據環境訪問控制的復雜性不僅在

于訪問控制的形式多樣,另一方面在于大數據系統允許在不同系統層

面廣泛共享數據,需要實現一種集中統一的訪問控制從而簡化控制策

略和部署。安全審計方面,Hadoop開源系統各組件均提供日志和審

計文件,可以記錄數據訪問過程,為追蹤數據流向和發現違規數據操

作提供原始依據。但Hadoop各組件分別進行基本的日志和審計記

錄,并存儲在其內部,實現全系統的安全審計較為困難,需要使用

外部的日志聚合系統從集群中所有節點拉取審計日志,放入集中化

的位置進行存儲和分析。數據加密方面,大數據環境下需要實現數

據在靜態存儲及傳輸過程的加密保護,其難點在于密鑰管理。從

Hadoop2.6開始,HDFS支持原生靜態加密——應用層加密,是一

種基于加密區的透明加密方法,需要加密的目錄被分解為若干加密

區,當數據寫入加密區時被透明地加密,客戶端讀取數據時被透明

地解密。對于動態傳輸數據,對應RPC.TCP/IP和HTTP,Hadoop

提供了不同的動態加密方法,保證客戶端與服務器傳輸的安全性。

目前Hadoop開源技術能夠支持通過基于硬件的加密方案,大幅提

高數據加解密的性能,實現最低性能損耗的端到端和存儲層加密。

加密的有效使用需要安全靈活的密鑰管理和分發機制,目前在開源

環境下沒有很好的解決方式,需要借助商業化的密鑰管理產品。

2、商業化大數據平臺解決方案已經具備相對完善的安全機制

商業化的大數據平臺,如Cloudera公司的CDH(Cloudera

DistributionHadoop)、Hortenworks公司的HDP(Hortonworks

DataPlatform)華為公司的Fusioninsight、星環信息科技的

TDH(TranswarpDataHub)等,在平臺安全機制上,做了如下幾個

方面的優化。集中安全管理和審計方面,通過專門的集中化的組件(如

Manager.Ranger、Guardian)形成了大數據平臺總體安全管理視

圖,實現集中的系統運維、安全策略管理和審計,通過統一的配置

管理界面,解決了安全策略配置和管理繁雜的難題。身份認證方面,

通過邊界防護,保證Hadoop集群入口的安全,通過集中身份管理

和單點登錄等方式,簡化了認證機制,通過界面化的配置管理方式,

可以方便的管理和啟用基于Kerberos的認證。訪問控制方面,通過

集中角色管理和批量授權等機制,降低集群管理的難度,通過基于角

色或標簽的訪問控制策略,實現資源(例如文件、目錄、表、數據庫、

列族等訪問權限)的細粒度管理。加密和密鑰管理方面,提供靈活的

加密策略,保障數據傳輸過程及靜態存儲都是以加密形式存在,也可

以實現對Hive、HBase的表或字段加密,同時提供更好的秘鑰存

儲方案,并能提供和企業現有的HSM(HardwaresecurityModule)

集成的解決方案。

商業化大數據安全方案從2008年開始起步,經過了大量的測

試驗證,有眾多部署實例,大量的運行在各種生產環境,技術成熟度

高。由于這類安全萬案的安全機制是只針對特定平臺開發,安全保障

組件僅適用于該平臺,對于其他大數據平臺,很難采取此類方案實現

平臺安全加固。

3、商業化通用安全組件可以為已建大數據平臺提供安全加固方

通用安全組件是指適用于原生或二次開發的Hadoop平臺的安

全防護機制,一般實現方式是通過在Hadoop平臺內部部署集中管

理節點,負責整個平臺的安全管理策略設置和下發,實現對大數據平

臺的用戶和系統內組件的統一認證管理和集中授權管理。通過在原功

能組件上部署安全插件,對數據操作指令進行解析和攔截,實現安全

策略的實施,從而實現身份認證、訪問控制、權限管理、邊界安全等

功能。身份認證方面,在兼容平臺原有Kerberos+LDAP認證機制

的基礎上,支持口令、手機、PKI等多因素組合認證方式,實現外部

用戶認證和平臺內部組件之間的認證,支持用戶單點登錄。訪問控制

方面,引入DAC、MAC、RBAC、DTE等多種訪問控制模式,實現

HDFS文件、計算資源、組件等細粒度的訪問控制,支持安全、審

計、操作三權分立。實現平臺安全配置基線檢查,提高大數據平臺自

身的安全性。還實現敏感數據的動態模糊化管理等功能。

通用安全組件易于部署和維護、適合對已建大數據系統進行安全

加固,可以在不改變現有系統架構的前提下,解決企業的大數據平臺

安全需求。靈活性強,方便與現有的安全機制集成。這類產品的提供

者一般都是專業的安全服務商,專注于安全問題的解決,防護機制

的完備性強,精度高,為開源大數據平臺提供了較完備的安全加固方

案。

3.2.數據安全技術

數據是信息系統的核心資產,是大數據安全的最終保護對象。除

大數據平臺提供的數據安全保障機制之外,目前所采用的數據安全技

術,一般是在整體數據視圖的基礎上,設置分級分類的動態防護策略,

降低已知風險的同時考慮減少對業務數據流動的干擾與傷害。對于結

構化的數據安全,主要采用數據庫審計、數據庫防火墻,以及數據庫

脫敏等數據庫安全防護技術;對于非結構化的數據安全,主要采用數

據泄露防護(Dataleakageprevention,DLP)技術。同時,細粒度

的數據行為審計與追蹤溯源技術,能幫助系統在發生數據安全事件時,

迅速定位問題,查缺補漏。

1、敏感數據識別技術作為數據安全監控的必要技術條件逐步實

現自動化

在敏感數據的監控方案中,基礎部分就是從海量的數據中挑選

出敏感數據,完成對敏感數據的識別,進而建立系統的總體數據視

圖,并采取分類分級的安全防護策略保護數據安全。傳統的數據識

別方法是關鍵字、字典和正則表達式匹配等方式,通常結合模式匹

配算法展開,該方法簡單實用,但人工參與的相對較多,自動化程

度較低,隨著人工智能識別技術的引入,通過機器學習可以實現大

量文檔的聚類分析,自動生成分類規則庫,內容自動化識別程度正

逐步提高。

2、數據防泄露技術發展相對成熟并向智能化方向演進

DLP是指通過一定的技術手段,防止用戶的指定數據或信息資

產以違反安全策略規定的形式流出企業的一類數據安全防護手段。針

對數據泄露的主要途徑,DLP采用的主要技術如下:針對使用泄露

和存儲泄露,通常采用身份認證管理、進程監控、日志分析和安全審

計等技術手段,觀察和記錄操作員對計算機、文件、軟件和數據的操

作情況,發現、識別、監控計算機中的敏感數據的使用和流動,對敏

感數據的違規使用進行警告、阻斷等。針對傳輸泄露,通常采取敏感

數據動態識別、動態加密、訪問阻斷、和數據庫防火墻等技術,監控

服務器、終端以及網絡中動態傳輸的敏感數據,發現和阻止敏感數

據通過聊天工具、網盤、微博、FTP、論壇等方式泄露出去。目前

的DLP,普遍引入了自然語言處理、機器學習、聚類分類等新技術,

將數據管理的顆粒度進行了細化,對敏感數據和安全風險進行智能識

別。“智能安全”將會成為DLP技術發展的趨勢,大數據分析技術、

機器學習算法的發展與演進將推動數據泄露防護的智能化發展,DLP

將實現用戶行為分析與數據內容的智能識別,實現數據的智能化分層、

分級保護,并提供終端、網絡、云端協同一體的敏感數據動態集中管

控體系。

3、結構化數據庫安全防護技術基本成熟,非結構化數據庫安全

防護亟需加強

結構化的數據安全技術主要是指數據庫安全防護技術,可以分

為事前評估加固、事中安全管控和事后分析追責三類,其中評估主

要是數據庫漏洞掃描技術,安全管控主要是數據庫防火墻、數據加

密、脫敏技術,事后分析追責主要是數據庫審計技術。目前數據庫

安全防護技術發展逐步成熟。而在針對云環境和大數據環境的安全

方面,針對非結構化數據庫的防護方案已經由一些技術領先的廠商

提出,但技術成熟度較低。

4、密文計算技術因多源數據計算機密性需求成為研究熱點

隨著多源數據計算場景的增多,在保證數據機密性的基礎上實現

數據的流通和合作應用一直是困擾產業界的難題,同態加密和安全

多方計算等密文計算方法為解決這個難題提供了一種有效的解決思

路。

同態加密提供了一種對加密數據進行處理的功能,對經過同態

加密的數據處理得到一個輸出,將這一輸出進行解密,其結果與統

一方法處理未加密的原始數據得到的輸出結果一致。也就是說,其

他人可以對加密數據進行處理,但是處理過程不會泄露任何原始內

容。同時,擁有密鑰的用戶對處理過的數據進行解密后,得到的正

好是處理后的結果c因為這樣一種良好的特性,同態加密特別適合在

大數據環境中應用,既能滿足數據應用的需求,又能保護用戶隱私不

被泄露,是一種理想的解決方案。2009年,Gentry提出了第一個

全同態加密體制使得該方面的研究取得突破性進展,隨后許多密碼學

家在全同態加密方案的研究上作出了有意義的工作,促進了全同態

加密向實用化的發展,但是目前同態加密算法的計算開銷過高,尚未

應用到實際生產中C

安全多方計算(SecureMulti-PartyComputation,SMPC)是解

決一組互不信任的參與方之間保護隱私的協同計算問題,SMPC

要確保輸入的獨立性,計算的正確性,同時不泄露各輸入值給參與

計算的其他成員。安全多方計算的這一特點,對于大數據環境下的

數據機密性保護有獨特的優勢。通用的安全多方計算協議雖然可以解

決一般性的安全多方計算問題,但是計算效率很低,盡管近年來研

究者努力進行實用化技術的研究,并取得一些成果,但是離真正的

產業化應用還有一段距離。

5、數字水印和數據血緣追蹤技術發展明顯滯后于實際需求

以上的數據識別、密文計算、安全監控和防護是“事前”和“事中”

的安全保障技術,隨著數據泄露事件的頻繁發生,“事后”追蹤和溯

源技術變得越來越重要。安全事件發生后泄露源頭的追查和責任的判

定是及時發現問題、查缺補漏的關鍵,同時,對安全管理制度的執行

也會形成一定的威懾作用。目前常用的追蹤溯源技術包括數字水印和

數據血緣追蹤技術C

數字水印技術是為了保持對分發后的數據流向追蹤,在數據泄

露行為發生后,對造成數據泄露的源頭可進行回溯。對于結構化數據,

在分發數據中摻雜不影響運算結果的數據,采用增加偽行、增加偽

列等方法,拿到泄密數據的樣本,可追溯數據泄露源。對于非結構

化數據,數字水印可以應用于數字圖像、音頻、視頻、打印、文本、

條碼等數據信息中,在數據外發的環節加上隱蔽標識水印,可以追

蹤數據擴散路徑。但目前的數字水印方案大多還是針對靜態的數據

集,滿足數據量巨大、更新速度極快的水印方案尚不成熟。

數據血緣(Lineage,Provenance,Pedigree)亦可譯為血統、起

源、世系、譜系,是指數據產生的鏈路,數據血緣記載了對數據處理

的整個歷史,包括數據的起源和處理這些數據的所有后繼過程(數據

產生、并隨著時間推移而演變的整個過程)。通過數據血緣追蹤,可

以獲得數據在數據流中的演化過程。當數據發生異常時,通過數據

血緣分析能追蹤到異常發生的原因,把風險控制在適當的水平。目前

數據血緣分析技術應用尚不廣泛,技術成熟度還未達到大規模實際的

應用需求。

3.3.個人隱私保護技術

大數據環境下,數據安全技術提供了機密性、完整性和可用性的

防護基礎,隱私保護是在此基礎上,保證個人隱私信息不發生泄露或

不被外界知悉。目前應用最廣泛的是數據脫敏技術,學術界也提出了

同態加密、安全多方計算等可用于隱私保護的密碼算法,但應用尚不

廣泛。

1、數據脫敏技術發展成熟,是目前應用最廣泛的隱私保護技術

數據脫敏是指對某些敏感信息通過脫敏規則進行數據的變形,實

現對個人數據的隱私保護,是應用最廣泛的隱私保護技術。目前的脫

敏技術主要分為如下三種:第一種加密方法,是指標準的加密算法,

加密后完全失去業務屬性,屬于低層次脫軌。算法開銷大,適用于機

密性要求高、不需要保持業務屬性的場景。第二種基于數據失真的技

術,最常用的是隨機干擾、亂序等,是不可逆算法,通過這種算法可

以生成“看起來很真實的假數據”。適用于群體信息統計或(和)需

要保持業務屬性的場景。第三種可逆的置換算法,兼具可逆和保證業

務屬性的特征,可以通過位置變換、表映射、算法映射等方式實現。

表映射方法應用起來相對簡單,也能解決業務屬性保留的問題,但是

隨著數據量的增大,相應的映射表同量增大,應用局限性高。算法映

射方法不需要做映射表,通過自行設計的算法來實現數據的變換,這

類算法都是基于密碼學的基本概念自行設計的,通常的做法是在公開

算法的基礎上做一定的變換,適用于需要保持業務屬性或(和)需

要可逆的場景。數據應用系統在選擇脫敏算法時,可用性和隱私保護

的平衡是關鍵,既要考慮系統開銷,滿足業務系統的需求,又要兼顧

最小可用原則,最大限度的保護用戶隱私。

2、匿名化算法將成為未來解決隱私保護問題的有效途徑

數據匿名化算法可以實現根據具體情況有條件地發布部分數據,

或者數據的部分屬性內容,包括差分隱私、K匿名、L多樣性、T接

近等。匿名化算法要解決的問題包括:隱私性和可用性間的平衡問

題,執行效率問題,度量和評價標準問題,動態重發布數據的匿名

化問題,多維約束匿名問題等。匿名化算法由于能夠在數據發布環

境下防止用戶敏感數據被泄露,同時又能保證發布數據的真實性,

這一特性在大數據安全領域受到廣泛關注。目前,匿名化算法還有

很多挑戰性問題亟待解決,算法的成熟度和使用普及程度還不是很

高。匿名化相關算法是目前數據安全領域的研究熱點之一,目前取

得了豐富的研究成果,也得到了一些實際應用,后續匿名化算法會

在隱私保護方面得到越來越多的應用。

第四章發展總結

國內外大數據平臺安全、數據安全、隱私保護相關的技術已經取

得了一定的進展,能夠初步解決本報告第三章提到的安全問題與挑戰;

但在應對一些新的網絡攻擊形式、數據應用場景、隱私保護需求方面,

大數據安全技術的現有能力和水平還存在一定差距。

平臺安全方面,集中的安全配置管理和安全機制部署能夠基本滿

足目前平臺的安全需求,大數據平臺的漏洞掃描與攻擊監測技術相對

薄弱。目前的商業化大數據平臺和商業化通用安全組件,為Hadoop

生態系統增加了集中安全管理、準入控制、多因素認證、細粒度訪問

控制、密鑰管理、數據脫敏、集中審計等安全機制,在一定程度上填

補了大數據平臺安全機制的空缺,基本滿足目前平臺的安全需求,但

Hadoop仍處在快速發展的階段,認證機制依賴Kerberos,其認證

中心可能會成為系統瓶頸。平臺防攻擊技術方面,目前大數據平臺仍

然使用傳統網絡安全的防護手段,對大數據環境下擴大的防護邊界和

更加隱蔽的攻擊方式無法做到全面覆蓋,而且行業對大數據平臺本身

可能的攻擊手段關注較少,預防手段不足,一旦有新的漏洞出現,波

及范圍將十分巨大C

數據安全方面,數據安全監控和防泄露技術相對成熟,數據的

共享安全、非結構化數據庫的安全防護以及數據泄露溯源技術亟待改

進。目前,數據泄露問題在技術上可以得到較完備的解決,敏感數據

自動化識別為防泄露提供了基礎技術;人工智能、機器學習等技術的

引入,使得數據防泄露向智能化方向演進;數據庫防護技術的發展也

為數據泄露提供了有力的技術保障。密文計算技術、數據泄露追蹤技

術的發展仍無法滿足實際的應用需求,難以解決數據處理過程的機密

性保障問題和數據流動路徑追蹤溯源問題。具體而言,密文計算技術

的研究仍處在理論階段,運算效率遠未達到實際應用的需求;數字水

印技術無法滿足大數據環境下大量、快速更新的應用需求;數據血緣

追蹤技術未獲得足夠的應用驗證,其成熟度尚未達到產業化應用水平。

隱私保護方面,技術的發展明顯無法滿足當前迫切的隱私保護需

求,大數據應用場景下的個人信息保護問題需要構建法律、技術、經

濟等多重手段相結合的保障體系。目前,應用廣泛的數據脫敏技術

受到多源數據匯聚的嚴重挑戰而可能面臨失效,匿名化算法等前沿技

術目前鮮有實際應用案例,普遍存在運算效率過低、開銷過大等問題,

還需要在算法的優化方面進行持續改進,以滿足大數據環境下的隱私

保護需求。如前所述,大數據應用與個人信息保護之間的突出矛盾不

單是技術問題,尤其是在缺乏技術保障的當下,更需要通過加快立法、

加強執法規范大數據應用場景下的個人信息收集、使用行為,盡快構

建政府管理、企業履責、社會監督、網民自律等多主體共同參與的個

人信息保護制度體系。

第五章未來發展

大數據正在成為經濟社會發展新的驅動力,日益對經濟運行機制、

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論