AI平臺安全白皮書_第1頁
AI平臺安全白皮書_第2頁
AI平臺安全白皮書_第3頁
AI平臺安全白皮書_第4頁
AI平臺安全白皮書_第5頁
已閱讀5頁,還剩11頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、AI平臺安全白皮書AI安全白皮書執行摘要執行摘要近年來,隨著海量數據的積累、計算能力的發展、機器學習方法與系統的持續創新與演進,諸如圖像識別、語音識別、自然語言翻譯等人工智能技術得到普遍部署和廣泛應用,人工智能正朝著歷史性時刻邁進。與此同時,AI對于傳統計算機安全 領域的研究也產生了重大影響,除了利用AI來構建各種惡意檢 測、攻擊識別系統外,黑客也可能利用AI達到更精準的攻擊。 除此之外,在關鍵的AI應用場景上,AI自身的安全性變得前所 未有的重要,極需要構建一個不會被外界干擾而影響判斷的健壯AI系統。可以說AI幫助了安全,安全也能幫助AI。本白皮書主要目的是探討AI自身的安全,確保AI模型和

2、數據的 完整性與保密性,使其在不同的業務場景下,不會輕易地被攻擊者影響而改變判斷結果或泄露數據。不同于傳統的系統安全漏洞,機器學習系統存在安全漏洞的根因是其工作原理極為復雜,缺乏可解釋性。各種AI系統安全問題(惡意機器學習)隨之產生,閃避攻擊、藥餌攻擊以及各種后門漏洞攻擊層出不窮。這些攻擊不但精準,而且對不同的機器學習模型有很強的可傳遞性,使得基于深度神經網絡(DNN)的一系列AI應用面臨較大的安全威脅。例如,攻擊者在訓練階段摻入惡意數據,影響AI模型推理能力;同樣也可以在判斷階段對要判斷的樣本加入 少量噪音,刻意改變判斷結果;攻擊者還可能在模型中植入后門并實施高級攻擊;也能通過多次查詢竊取模

3、型和數據信息。華為致力于AI安全的研究,旨在提供一個令用戶放心的AI應用安 全環境,為華為AI使能構建智能世界的新時代愿景與使命做出 貢獻。為了應對AI安全的新挑戰,本白皮書提出了將AI系統部 署到業務場景中所需要的三個層次的防御手段:攻防安全,對已知攻擊設計有針對性的防御機制;模型安全,通過模型驗證等手段提升模型健壯性;架構安全,在部署AI的業務中設計不 同的安全機制保證業務安全。未來,華為的AI安全任重而道遠。在技術上,需要持續研究AI 可解釋性,增強對機器學習工作機理的理解,并構建機制性防御措施搭建AI安全平臺;在業務上,需要詳細剖析AI在產品線 的應用案例,落地經過測試和驗證的AI安全

4、關鍵技術。以“萬 物感知、萬物互聯、萬物智能”為特征的智能社會即將到來, 華為愿與全球的客戶和伙伴們共同努力攜手并進,共同面對AI 安全挑戰。目錄目錄1. 邁向智能社會022. AI安全面臨五大挑戰033. AI安全典型攻擊方式04TOC o 1-1 h z u HYPERLINK l _TOC_250003 閃避攻擊04 HYPERLINK l _TOC_250002 藥餌攻擊05 HYPERLINK l _TOC_250001 后門攻擊05 HYPERLINK l _TOC_250000 模型竊取攻擊054. AI安全防御手段06AI安全攻防07AI模型安全09AI業務的安全架構105.

5、攜手共建安全的智慧未來12參考文獻13邁向智能社會邁向智能社會近年來,隨著海量數據的積累、計算能力的發展、機器學習方法與系統的持續創新與演進,諸如圖像識別、語音識別、自然語言翻譯等人工智能技術得到普遍部署和廣泛應用。越來越多公司都將增大在AI的投入,將其作為業務發展 的重心。華為全球產業愿景預測:到2025年,全球將實現1000億聯接,覆蓋77%的人口;85%的企業應用將部署到云上;智能家庭機器人將進入12%的家庭,形成千億美元的市場。人工智能技術的發展和廣泛的商業應用充分預示著一個萬物智能的社會正在快速到來。1956年,麥卡錫、明斯基、香農等人提出“人工智能”概念。60年后的今天,伴隨著谷歌

6、DeepMind開發的圍棋程序AlphaGo戰勝人類圍棋冠 軍,人工智能技術開始全面爆發。如今,芯片和傳感器的發展使“+智能”成為大勢所趨:交通+智能,最懂你的路;醫療+智能,最懂你的痛;制造+智能,最懂你所需。加州大學伯克利分校的學者們認為人工智能在過去二十年 快速崛起主要歸結于如下三點原因1:1)海量數據:隨著互聯網的興起,數據以語音、視頻和文字等形式快速增長;海量數據為機器學習算法提供了充足的營養,促使人工智能技術快速發展。2)高擴展計算機和軟件系統:近年來深度學習成功主要歸功于新一波的CPU集群、GPU和TPU等專用硬件和相關的軟件平臺。3)已有資源的可獲得性:大量的開源軟件協助處理數

7、據和支持AI相關工作,節省了大量的開發時間和費用;同時許多云服務為開發者提供 了隨時可獲取的計算和存儲資源。在機器人、虛擬助手、自動駕駛、智能交通、智能制造、智慧城市等各個行業,人工智能正朝著歷史性時刻邁進。谷歌、微軟、亞馬遜等大公司紛紛將AI作為引領未來的核心發展戰略。2017年谷歌DeepMind升級版的AlphaGo Zero橫空出世;它不再需要人類棋譜數據,而是進行自我博弈,經過短短3天的自我訓練就強勢打敗了AlphaGo。AlphaGo Zero能夠發現新知識并發展出打破常規的新策略,讓我們看到了利用人工智能技術改變人類命運的巨大潛能。我們現在看到的只是一個開始;未來,將會是一個全聯

8、接、超智能的世界。人工智能將為人們帶來極致的體驗,將積極影響人們的工作和生活,帶來經濟的繁榮與發展。AI安全面臨五大挑戰AI安全面臨五大挑戰AI有巨大的潛能改變人類命運,但同樣存在巨大的安全風險。這種安全風險存在的根本原因是AI算法設計之初普遍未 考慮相關的安全威脅,使得AI算法的判斷結果容易被惡意攻擊者影響,導致AI系統判斷失準。在工業、醫療、交通、 監控等關鍵領域,安全危害尤為巨大;如果AI系統被惡意攻擊,輕則造成財產損失,重則威脅人身安全。AI安全風險不僅僅存在于理論分析,并且真實的存在于現今各種AI應用中。例如攻擊者通過修改惡意文件繞開惡意文 件檢測或惡意流量檢測等基于AI的檢測工具;

9、加入簡單的噪音,致使家中的語音控制系統成功調用惡意應用;刻意修 改終端回傳的數據或刻意與聊天機器人進行某些惡意對話,導致后端AI系統預測錯誤;在交通指示牌或其他車輛上貼 上或涂上一些小標記,致使自動駕駛車輛的判斷錯誤。應對上述AI安全風險,AI系統在設計上面臨五大安全挑戰:軟硬件的安全:在軟件及硬件層面,包括應用、模型、平臺和芯片,編碼都可能存在漏洞或后門;攻擊者能夠利用這些漏洞或后門實施高級攻擊。在AI模型層面上,攻擊者同樣可能在模型中植入后門并實施高級攻擊;由于AI 模型的不可解釋性,在模型中植入的惡意后門難以被檢測。數據完整性:在數據層面,攻擊者能夠在訓練階段摻入惡意數據,影響AI模型推

10、理能力;攻擊者同樣可以在判斷 階段對要判斷的樣本加入少量噪音,刻意改變判斷結果。模型保密性:在模型參數層面,服務提供者往往只希望提供模型查詢服務,而不希望曝露自己訓練的模型;但通過多次查詢,攻擊者能夠構建出一個相似的模型,進而獲得模型的相關信息。模型魯棒性:訓練模型時的樣本往往覆蓋性不足,使得模型魯棒性不強;模型面對惡意樣本時,無法給出正確的判斷結果。數據隱私:在用戶提供訓練數據的場景下,攻擊者能夠通過反復查詢訓練好的模型獲得用戶的隱私信息。AI安全典型攻擊方式AI安全典型攻擊方式閃避攻擊閃避攻擊是指通過修改輸入,讓AI模型無法對其正確識別。閃避攻擊是學術界研究最多的一類攻擊,下面是學術界提

11、出的最具代表性的三種閃避攻擊:對抗樣本的提出:研究表明深度學習系統容易受到精心設計的輸入樣本的影響。這些輸入樣本就是學術界定義的對抗樣例或樣本,即Adversarial Examples。它們通常是在正常樣本上加入人眼難以察覺的微小擾動,可以很容易地愚弄正常的深度學習模型。微小擾動是對抗樣本的基本前提,在原始樣本處加入人類不易察覺的微小擾動會導致深度學習模型的性能下降。Szegedy 等人2在2013年最早提出了對抗樣本的概念。在其之后,學者相繼提出了其他產生對抗樣本的方法,其中Carlini等人提出的CW攻擊可以在擾動很小的條件下達到100%的攻擊成功率,并且能成功繞過大部分對抗樣本的防御機

12、制。物理世界的攻擊:除了對數字的圖片文件加擾,Eykholt等人3對路標實體做涂改,使AI路標識別算法將“禁止通行”的路標識別成為“限速45”。它與數字世界對抗樣本的區別是,物理世界的擾動需要抵抗縮放,裁剪,旋轉, 噪點等圖像變換。傳遞性與黑盒攻擊:生成對抗樣本需要知道AI模型參數,但是在某些場景下攻擊者無法得到模型參數。Papernot等人4發現對一個模型生成的對抗樣本也能欺騙另一個模型,只要兩個模型的訓練數據是一樣的。這種傳遞性(Transferability)可以用來發起黑盒攻擊,即攻擊者不知道AI模型參數。其攻擊方法是,攻擊者先對要攻擊的模型進行多次查詢,然后用查詢結果來訓練一個“替代

13、模型”,最后攻擊者用替代模型來產生對抗樣本。產生出來的對抗樣本可以成功欺騙原模型。AI安全典型攻擊方式藥餌攻擊AI系統通常用運行期間收集的新數據進行重訓練,以適應數據分布的變化。 例如,入侵檢測系統(IDS)持續在網絡上收集樣本,并重新訓練來檢測新的攻擊。在這種情況下,攻擊者可能通過注入精心設計的樣本,即藥餌,來使訓練數據中毒(被污染),最終危及整個AI系統的正常功能,例如逃逸AI的安全分類等。深度學習的特點是需要大量訓 練樣本,所以樣本質量很難完全保證。Jagielski等人5發現,可以在訓練樣本中摻雜少量的惡意樣本,就能很大程度干擾AI模型準確率。他們提出最優坡度攻擊、全局最優攻擊、統計優

14、化攻擊三種藥餌攻擊。并展示了這些藥餌攻擊對于健康數據庫,借貸數據庫跟房價數據庫的攻擊,影響這些AI模型對新樣本的判斷。通過加入藥餌數據影響對用藥量的分析、對貸款量/利息的分析判斷、對房子售價的判斷。通過加入8%的惡意數據,攻擊者能夠使模型對超過50%的患者的用藥量建議時,出現超過 75%的變化量。后門攻擊與傳統程序相同,AI模型也可以被嵌入后門。只有制造后門的人知道如何觸發,其他人無法知道后門的存在,也無法觸發。與傳統程序不同的是,神經網絡模型僅由一組參數構成,沒有源代碼可以被人讀懂,所以后門的隱蔽性更高。攻擊者通過在神經網絡模型中植入特定的神經元生成帶有后門的模型,使得模型雖然對正常輸入與原

15、模型判斷一致,但對特殊輸入的判斷會受攻擊者控制。如Gu等人6提出一種在AI模型中嵌入后門的方法,只有輸入圖像中包 含特定圖案才能觸發后門,而其他人很難通過分析模型知道這個圖案或這個后面的存在。此類攻擊多發生在模型的生成或傳輸過程。模型竊取攻擊模型/訓練數據竊取攻擊是指攻擊者通過查詢,分析系統的輸入輸出和其他外部信息,推測系統模型的參數及訓練數據信息。與Software-as-a-Service類似,云服務商提出了AI-as-a-Service(AIaaS)的概念,即由AI服務提供商負 責模型訓練和識別等服務。這些服務對外開放,用戶可以用其開放的接口進行圖像,語音識別等操作。Tramr等學者7提

16、出一種攻擊,通過多次調用AIaaS的識別接口,從而把AI模型“竊取”出來。這會帶來兩個問題:一是知識產權的竊取。樣本收集和模型訓練需要耗費很大資源,訓練出來的模型是重要的知識產權。二是前文提到的黑盒閃避攻擊。攻擊者可以通過竊取的模型構造對抗樣本。AI安全防御手段圖1描繪了AI系統部署到業務場景中所需要三個層次的防御手段:1、攻防安全:對已知攻擊所設計的有針對性的防御機制;2、模型安全:通過模型驗證等手段提升模型健壯性;3、架構安全:在AI部署的業務中設計不同的安全機制保證架構安全。AI云側訓練AI模型訓練模型AI業務部署部署業務反饋業務總控AI推理功能功能功能功能AI推理AI推理AI推理AI推

17、理設備設備設備設備數據數據數據數據數據防藥餌數據數據可解釋數據自恰防閃避、后門可驗證模型模型健壯性防模型竊取模型可解釋多模型架構AI安全防閃避攻擊、防藥餌攻擊、防后門攻擊、防模型竊取攻防安全模型安全數據可解釋、可驗證模型、模型健壯性、可解釋模型架構安全隔離與檢測、冗余與熔斷、多模型架構、數據自恰性隔離| 檢測冗余| 熔斷圖1 AI安全防御架構AI安全攻防針對上一章提到已知的攻擊方式,學術界已有許多對抗方法,對于可能遭受的攻擊能提供不同程度的緩解,圖2列出AI系統在數據收集、模型訓練及模型使用階段的各種防御技術。數據收集階段模型訓練階段模型使用階段竊取攻擊后門攻擊藥餌攻擊閃避攻擊模型水印隱私聚合

18、教師模型PATE回歸分析訓練數據過濾DNN模型驗證輸入重構對抗樣本檢測對抗訓練網絡蒸餾差分隱私輸入預處理模型剪枝集成分析對抗樣本生成圖2 AI安全防御技術閃避攻擊防御技術:網絡蒸餾(Network Distillation):網絡蒸餾技術的基本原理是在模型訓練階段,對多個DNN進行串聯,其中前一個DNN生成的分類結果被用于訓練后一個DNN。有學者8發現轉移知識可以一定程度上降低模型對微小擾動的敏感度,提高AI模型的魯棒性,于是提出將網絡蒸餾技術用于防御閃避攻擊,并在MNIST和CIFAR-10數據集上測試,發現該技術可將使特定攻擊(如JSMA)的成功率降低。對抗訓練(Adversarial T

19、raining):該技術的基本原理是在模型訓練階段,使用已知的各種攻擊方法生成對抗樣本,再將對抗樣本加入模型的訓練集中,對模型進行單次或多次重訓練,生成可以抵抗攻擊擾動的新模型。同時,由于綜合多個類型的對抗樣本使得訓練集數據的增多,該技術不但可以增強新生成模型的魯棒性,還可以增強模型的準確率和規范性。對抗樣本檢測(Adversarial Sample Detection):該技術的原理為在模型的使用階段,通過增加外部檢測模型或原模型的檢測組件來檢測待判斷樣本是否為對抗樣本。在輸入樣本到達原模型前,檢測模型會判斷其是否為對抗樣本。檢測模型也可以在原模型每一層提取相關信息,綜合各種信息來進行檢測。

20、各類檢測模型可能依據不同標準來判斷輸入是否為對抗樣本。例如,輸入樣本和正常數據間確定性的差異可以用來當作檢測標準;對抗樣本的分布特征,輸入樣本的歷史都可以成為判別對抗樣本的依據。輸入重構(Input Reconstruction):該技術的原理是在模型的使用階段,通過將輸入樣本進行變形轉化來對抗閃避攻擊,變形轉化后的輸入不會影響模型的正常分類功能。重構方法包括對輸入樣本加噪、去噪、和使用自動編碼器(autoencoder)9改變輸入樣本等方法。DNN模型驗證(DNN Verification):類似軟件驗證分析技術,DNN模型驗證技術使用求解器(solver)來驗證DNN模型的各種屬性,如驗證

21、在特定擾動范圍內沒有對抗樣本。但是通常驗證DNN模型是NP完全問題,求解器的效率較低。通過取舍和優化,如對模型節點驗證的優先度選擇、分享驗證信息、按區域驗證等,可以進一步提高DNN模型驗證運行效率。以上各個防御技術都有具體的應用場景,并不能完全防御所有的對抗樣本。除此之外,也可以通過增強模型的穩定性來防御閃避攻擊,使模型在功能保持一致的情況下,提升AI模型抗輸入擾動的能力。同時也可以將上述防御技術進 行并行或者串行的整合,更有效的對抗閃避攻擊。藥餌攻擊防御技術:訓練數據過濾(Training Data Filtering):該技術側重對訓練數據集的控制,利用檢測和凈化的方法防止藥餌攻擊影響模型

22、。具體方向包括10:根據數據的標簽特性找到可能的藥餌攻擊數據點,在重訓練時過濾這些攻擊點; 采用模型對比過濾方法,減少可以被藥餌攻擊利用的采樣數據,并過濾數據對抗藥餌攻擊。回歸分析(Regression Analysis):該技術基于統計學方法,檢測數據集中的噪聲和異常值。具體方法包括對模型定義不同的損失函數(loss function)來檢查異常值,以及使用數據的分布特性來進行檢測等。集成分析(Ensemble Analysis):該技術強調采用多個子模型的綜合結果提升機器學習系統抗藥餌攻擊的能力。多個獨立模型共同構成AI系統,由于多個模型采用不同的訓練數據集,整個系統被藥餌攻擊影響的可能性

23、進一步降低。此外,通過控制訓練數據的采集、過濾數據、定期對模型進行重訓練更新等一系列方法,提高AI系統抗藥餌攻擊的綜 合能力。后門攻擊防御技術:輸入預處理(Input Preprocessing):該方法的目的是過濾能觸發后門的輸入,降低輸入觸發后門、改變模型判斷的風險11。模型剪枝(Model Pruning):該技術原理為適當剪除原模型的神經元,在保證正常功能一致的情況下,減少后門神經元起作用的可能性。利用細粒度的剪枝方法12,可以去除組成后門的神經元,防御后門攻擊。模型/數據防竊取技術:隱私聚合教師模型(PATE):該技術的基本原理是在模型訓練階段,將訓練數據分成多個集合,每個集合用于訓

24、練一個獨立DNN模型,再使用這些獨立DNN模型進行投票的方法共同訓練出一個學生模型13。這種技術保證了學生模型的判斷不會泄露某一個特定訓練數據的信息,從而確保了訓練數據的隱私性。差分隱私(Differential Privacy):該技術是在模型訓練階段,用符合差分隱私的方法對數據或模型訓練步驟進行加噪。例如有學者提出使用差分隱私生成梯度的方法14,保護模型數據的隱私。模型水印(Model Watermarking):該技術是在模型訓練階段,在原模型中嵌入特殊的識別神經元。如果發現有相似模型,可以用特殊的輸入樣本識別出相似模型是否通過竊取原模型所得。AI模型安全如上節所述, 惡意機器學習(Ad

25、versarial ML)廣泛存在,閃避攻擊(Evasion)、藥餌攻擊(Poisoning)以及各種后門漏洞攻擊無往不利,攻擊不但精準、也有很強的可傳遞性(Transferability),使得AI模型在實用中造成誤判的危害極大。因此,除了針對那些已知攻擊手段所做的防御之外,也應增強AI模型本身的安全性,避免其它可能的攻擊 方式造成的危害,可以由如下圖3中列出的幾個方面展開。可解釋數據可解釋模型業務系統后饋檢測前饋檢測可驗證模型圖3 模型安全性分析模型可檢測性:如同傳統程序的代碼檢測,AI模型也可以通過各種黑盒、白盒測試等對抗檢測技術來保證一定程度的 安全性,已有測試工具基本都是基于公開數據

26、集,樣本少且無法涵蓋很多其他真實場景,而對抗訓練技術則在重訓練的過程中帶來較大的性能損耗。在AI系統的落地實踐中,需要對各種DNN模型進行大量的安全測試,如數據輸入訓練模型前要做前饋檢測模塊過濾惡意樣本,或模型輸出評測結果經過后饋檢測模塊從而減少誤判,才能在將AI系統 部署到實際應用前提升AI系統的魯棒性。模型可驗證性:DNN模型有著比傳統機器學習更加預想不到的效果(如更高識別率,更低誤報率等),目前廣泛用于各種圖像識別、語音識別等應用中,然而AI模型在關鍵安全應用(如自動駕駛、醫學診斷等)領域還需要慎重。對DNN模型進行安全驗證(certified verification)也可以在一定程度

27、上保證安全性。模型驗證一般需要約束輸入空間(input space)與輸出空間(output space)的對應關系,從而驗證輸出在一定的范圍內。但是基于統計優化(optimization)的學習及驗證方法總還是無法窮盡所有數據分布,而極端攻擊則有機可乘,這樣在實際應用中較難實施具體的保護措施。只有在對DNN模型內部工作機理充分理解的基礎上才能進一步解決機制性防御(principled defense)問題。模型可解釋性:目前大多數AI都被認為是一個非常復雜的黑盒子系統,他的決策過程,判斷邏輯,判斷依據都很難被 人完全理解。目前有些業務中,例如棋類、翻譯業務,為了讓人類和機器之間有更好的互動,

28、我們希望理解為什么機器做出了這些決定,但是AI系統不可解釋并不會帶來太多問題。如果它不告訴我們為什么把這個單詞翻譯成了另一 個單詞,只要翻譯出的結果是好的,它就可以繼續是一個完全的黑盒子、完全復雜的系統,而不會帶來什么問題。但對于有些業務,不可解釋性往往對于會帶來業務法務風險或者業務邏輯風險。例如在保險、貸款分析系統中,如果AI系統不能給出其分析結果的依據,那么就有可能會被詬病其帶有歧視;又例如在醫療保健中,為了精確的根據AI 的分析進行進一步的處理,我們需要了解AI做出判斷的根據。例如我們希望AI系統就其判斷一位病人有沒有癌癥給出 其數據分析及原因,AI系統需要有能力說“我把這些數據、圖像和

29、這個和那個做了對比從而得出了結論”。如果連其 運作的原理都無法得知,自然也就無法有效地設計一個安全的模型。增強AI系統的可解釋性,都有助于我們分析AI系 統的邏輯漏洞或者數據死角,從而提升AI系統安全性,打造安全AI。學術界正在對AI模型的可解釋性進行積極探索,如Strobelt等人15提出對隱藏激活函數做可視化分析;Morcos等人16提出用統計分析方法發現語義神經元;以及Selvaraju等人17提出的針對圖形識別的顯著性檢測。模型可解釋性也可以通過以下三個階段展開:建模前的“數據可解釋”:模型是由數據訓練而來,因此要解釋模型的行為,可以從分析訓練此模型的數據開始。如果能從訓練數據中找出幾

30、個具代表性的特征,可以在訓練時選擇需要的特征來構建模型,有了這些有意義的特征,便可對模型的輸入輸出結果有較好的解釋。構建“可解釋模型”:一個方法是結合傳統機器學習,對AI結構進行補充。這種做法可以平衡學習結果的有效性與 學習模型的可解釋性,為解決可解釋性的學習問題提供了一種框架。傳統機器學習方法共同的重要理論基礎之一是統計學,在自然語言處理、語音識別、圖像識別、信息檢索和生物信息等許多計算機領域已經獲得了廣泛應用并給出很好的可解釋性。對已構筑模型進行解釋性分析:通過分析AI模型的輸入、輸出、中間信息的依賴關系分析及驗證模型的邏輯。學術 界中既有如LIME(Local Interpretable

31、 Model-Agnostic Explanations)18等能夠通用地分析多種模型的分析方法,也有需要針對模型構造進行深入分析的分析方法。當AI系統具有可解釋性時,我們就可以比較有效地對系統進行驗證和檢測:例如通過針對AI系統各模塊及輸入數據間 邏輯關系分析,可以確認客戶償還能力分析模塊與客戶性別,種族無關。而AI系統具備可解釋性的另一個優勢是,AI 系統的輸入/中間數據之間的邏輯關系會相對清晰。我們可以根據這些數據之間的自洽性判斷是否有非法/攻擊數據, 甚至對惡意的攻擊樣本進行清除跟修復,提高模型健壯性。歐盟一般數據保護法GDPR要求AI系統決策不能基于如用戶種族、政治立場、宗教信仰等數

32、據。而具備可解釋性的AI 系統可以確保其分析結論符合上述要求,避免出現受到“算法歧視”的受害人。大多AI系統中,其偏見問題往往不在于算法本身,而是提供給機器的數據。如果輸入數據中帶有存在偏見的數據,例如公司HR有輕微拒絕女性求職者的偏見,這些數據將導致模型中的拒絕女性求職者案例增加,從而造成性別比例失調。即使性別并不是模型培訓數據的重要特征,其數據也會使AI模型的分析結論進一步放大人類的本身偏見。而政府往往需要驗證AI使能系統的安全 性,可靠性,可解釋性。只有可解釋,可驗證的健壯AI系統才能給予公眾信心與信任。AI業務的安全架構在大力發展人工智能的同時,必須高度重視AI系統引入可能帶來的安全風

33、險,加強前瞻預防與約束引導,最大限度降低風險,確保人工智能安全、可靠、可控發展。而在業務中使用AI模型,則需要結合具體業務自身特點和架構,分析判 斷AI模型使用風險,綜合利用隔離、檢測、熔斷和冗余等安全機制設計AI安全架構與部署方案,增強業務產品健壯性。在自動駕駛業務中,當AI系統如果對剎車,轉彎,加速等等關鍵操作的判斷出現失誤時,可能會對用戶,對社會造成 巨大危害。因此需要保證AI系統在關鍵操作時的安全使用。對自動駕駛AI系統進行許多的安全測試當然很重要,但是 這種模擬測試方法并不能保證AI系統不出錯。在很多業務中,也許很難找到一個任何時候都能給出100%正確答案的 AI系統。相比之下,更重

34、要的是對系統架構進行安全設計,使得當AI系統對判斷不確定的時候,業務還能夠回退到手 工操作等安全狀態。在醫療輔助AI系統中,如果AI系統對于“應該給病人哪個藥,用量多少”這個問題不能給出確定 答案時,或感知到自身有可能受到攻擊時,相比給出一個可能造成危險的不準確預測,讓AI系統直接回答“請咨詢病 人的醫師”會更好一點。為了保護用戶利益,我們需要按照業務需求,在系統中合理運用如下安全機制確保AI業務安 全,如圖4所示:隔離檢測熔斷冗余綜合決策執行手工操作AI推理規則判斷圖4 AI引入業務決策的安全架構隔離:在滿足業務穩定運行的條件約束下,AI系統會分析識別最佳方案然后發送至控制系統進行驗證并實施

35、。通常 業務安全架構要考慮對各個功能模塊進行隔離,并對模塊之間設置訪問控制機制。對AI系統的隔離可以一定程度上 減少針對AI推理的攻擊面,而對綜合決策系統的隔離可以有效減少針對決策系統的攻擊。AI推理的輸出作為輔助決 策建議將導入綜合決策模塊,而只有經過授權認證的指令才能得以通過。檢測:在主業務系統中部署持續監控和攻擊檢測模型,綜合分析網絡系統安全狀態,給出系統當前威脅風險級別。當威脅風險較大時,綜合決策可以不采納自動系統的建議,而是將最終控制權交回人員控制,保證在遭受攻擊情況下的安全性。熔斷:業務系統在進行關鍵操作時,如AI輔助的自動駕駛或醫療手術等,通常要設置多級安全架構確保整體系統安 全

36、性。需要對AI系統給出的分析結果進行確定性分析,并在確定性低于閾值時回落到以規則判斷為準的常規技術或 直接交回人工處理。冗余:很多業務決策、數據之間具有關聯性,一個可行的方法是通過分析此類關聯性是否遭受破壞保證AI模型運行 時的安全。還可以搭建業務“多模型架構”:通過對關鍵業務部署多個AI模型,使得在單個模型出現錯誤時不會影 響到業務最終決策。同時多個模型的部署也使得系統在遭受單一攻擊時被全面攻克的可能性大大降低,從而提升整個系統的強壯性。Amodei等人19還進一步描述了AI系統在應用中可能會遇到的幾種安全挑戰:如避免AI系統在執行任務時可能產生的 消極副作用、AI系統在達成目的時可能采取的

37、趨利行為、以及AI系統在執行任務時的安全拓展問題等。對這些問題進 行基礎研究將會使得AI系統在未來實用場景更加安全。攜手共建安全的智慧未來攜手共建安全的智慧未來人工智能的各個學科,如計算機視覺、語音識別、自然語言處理、認知與推理、博弈等,還處在早期發展的階段, 依靠大數據做統計分析的深度學習系統拓展了人工智能所能解決問題的邊界,但也被認為是普遍“缺乏常識”,這也是當前人工智能研究的最大障礙。人工智能要依靠數據與知識的雙輪驅動,下一代人工智能的突破可能是知識推理。而人工智能應用的大規模普及和發展則需要很強的安全性保證。我們首先關注兩大類AI安全攻防問題:第一類是 攻擊者影響AI決策的正確性:攻擊

38、者可以通過破壞和控制AI系統本身,或者通過特意改變輸入來使系統不知不覺地做 出攻擊者想要的決定;第二類是攻擊者獲取AI系統訓練的保密數據,或者破解AI模型。本文進一步從AI安全攻防、AI 模型安全和AI架構安全等三個層面闡述AI系統安全,保障AI應用的安全性。此外,AI的透明性和可解釋性也是安全的 基礎,一個不透明和無法解釋的人工智能無法承擔起涉及人身安全及公共安全的關鍵任務。人工智能還會帶來法律法規、倫理道德、社會監管等很寬泛的安全課題。2016年9月1日,斯坦福大學“人工智能百年研究(AI100)”項目發布了首篇名為“2030 年的人工智能與生活(AI and Life in 2030)”

39、研究報告20,指出面對人工智能技術將帶來的深刻變化,要求更合理和“不會扼殺創新”的監管。未來幾年,隨著人工智能在交通和醫療等領域內的應用,它們必須以一種能構建信任和理解的方式引入,還要尊重人權和公民權利。與此同時,“政策和流程也應該解決道德、隱私和安全方面的影響”。為此國際社會應協同合作推動人工智能向著造福人類的方向演進。參考文獻參考文獻I. Stoica, D. Song, R. A. Popa, D. Patterson, M. W. Mahoney, R. Katz, A. D. Joseph, M. Jordan, J. M. Hellerstein, J. Gonzalez,K. G

40、oldberg, A. Ghodsi, D. Culler and P. Abbeel, A Berkeley View of Systems Challenges for AI, University of California, Berkeley, Technical Report No. UCB/EECS-2017-159, 2017.C. Szegedy, W. Zaremba, I. Sutskever, J. Bruna, D. Erhan, I. Goodfellow and R. Fergus, Intriguing properties of neural networks,

41、 arXiv preprint arXiv:1312.6199, 2013.K. Eykholt, I. Evtimov, E. Fernandes, B. Li, A. Rahmati, C. Xiao, A. Prakash, T. Kohno and D. Song, Robust physical- world attacks on deep learning models, in Conference on Computer Vision and Pattern Recognition (CVPR), 2018.N. Papernot, P. McDaniel and I. Good

42、fellow, Transferability in machine learning: from phenomena to black-box attacks using adversarial samples, arXiv preprint arXiv:1605.07277, 2016.M. Jagielski, A. Oprea, B. Biggio, C. Liu, C. Nita-Rotaru andB. Li, Manipulating machine learning: Poisoning attacks and countermeasures for regression le

43、arning, in IEEE Symposium on Security and Privacy (S&P), 2018.T. Gu, B. Dolan-Gavitt and S. Garg, Badnets: Identifying vulnerabilities in the machine learning model supply chain, in NIPS MLSec Workshop, 2017.F. Tramr, F. Zhang, A. Juels, M. K. Reiter and T. Ristenpart, Stealing Machine Learning Mode

44、ls via Prediction APIs, in USENIX Security Symposium, 2016.N. Papernot, P. McDaniel, X. Wu, S. Jha and A. Swami, Distillation as a defense to adversarial perturbations against deep neural networks, in IEEE Symposium on Security and Privacy (S&P), 2016.S. Gu and L. Rigazio, Towards deep neural networ

45、k architectures robust to adversarial examples, inInternational Conference on Learning Representations (ICLR), 2015.R. Laishram and V. Phoha, Curie: A method for protecting SVM classifier from poisoning attack, arXiv preprint arXiv:1606.01584, 2016.Y. Liu, X. Yang and S. Ankur, Neural trojans, in International Conference on Computer Design (ICCD), 2017.K. Liu, D.-G. Brendan and G. Siddharth, Fine-Pruning: Defending Against Backdooring Attacks on Deep Neural Networks, arXiv preprint arXiv:1805.12185, 2018.N. Papernot, A. Martn, E. Ulfar, G. Ian and T. Kunal, Semi- supervised knowledge

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論