馬賽克戰下區域穿插與防御_第1頁
馬賽克戰下區域穿插與防御_第2頁
馬賽克戰下區域穿插與防御_第3頁
馬賽克戰下區域穿插與防御_第4頁
馬賽克戰下區域穿插與防御_第5頁
已閱讀5頁,還剩15頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1245目錄3創意背景及意義創意核心內容創意技術路線創意軍事價值及應用前景方案應用創新點1創意背景及意義背景:未來馬賽克戰中藍方部隊為攻擊紅方指揮控制中心,需要通過迂回穿插突破紅方防衛部隊構建的防御網藍方空中部隊紅方防衛部隊紅方指揮控制中心藍方地面部隊1創意背景及意義任務:紅方無人機執行防御,藍方坦克執行穿插模擬真實的戰場環境問題:藍方坦克如何實現穿插,紅方無人機如何實現有效防御意義:構建紅藍對抗體系數字空間,支撐未來數字孿生戰場建設無人機巡航坦克穿插穿插起始點穿插目標點1245目錄3創意背景及意義創意核心內容創意技術路線創意軍事價值及應用前景方案應用創新點2創意核心內容根據強化學習訓練模型,將藍方坦克抽象為智能體,紅方無人機抽象為障礙物,整個穿插過程簡化為:智能體怎樣在不碰到障礙物的前提下抵達目標點。最終抽象為障礙物動態變化的迷宮問題。迷宮問題的經典求解算法是回溯法。回溯法應用于靜態環境,而戰場是動態環境。創意的核心在于應用強化學習研究穿插與防御問題。序號穿插防御問題迷宮問題1無人機位置固定(無意義)障礙物位置固定2無人機航速航線固定障礙物按照固定規律移動3無人機航速航線變化障礙物無規律移動簡化無人機覆蓋區域起始位置目標點抽象迷宮問題與穿插防御問題對比經典迷宮問題1245目錄3創意背景及意義創意核心內容創意技術路線創意軍事價值及應用前景方案應用創新點3創意技術路線紅方無人機定速巡航,相當于迷宮中障礙物勻速向上移動。實驗中智能體表示藍方坦克,設置5個障礙物表示5架無人機。藍方坦克需要在不斷變化的環境中執行穿插。self.modelself.algforward()predict()learn()loss()sample()predict()learn()build_program()envmodelalgorithmagent②基于PARL框架編碼Q1:紅方無人機定速巡航時,藍方坦克怎樣完成穿插任務?環境:5*5障礙物運動方式:循環向上移動狀態空間:1*12,表示智能體和5個障礙物當前XY坐標 (0,4,0,0,1,3,2,1,3,4,4,2)動作空間:1*4(0向上1向下2向左3向右)獎勵值:越界-10碰到障礙物-10抵達終點+10每一步消耗-1障礙物(無人機)循環向上移動藍方坦克初始位置藍方坦克目標位置無人機巡航①構建Gym訓練環境3創意技術路線REINFORCE:Monte-CarloPolicy-GradientControl(episodic)forπ.

0.1上0.4下0.2左0.3右0上1下0左0右

蒙特卡洛策略梯度算法①與環境交互得到⑤計算交叉熵,將Loss函數送到Adam優化器Q1:紅方無人機定速巡航時,藍方坦克怎樣完成穿插任務?③基于策略梯度(POLICYGRADIENT)算法進行訓練和測試3創意技術路線障礙物勻速向上可解環境下神經網絡訓練效果如果環境不可解,此時的策略:呼叫遠程火力主動攻擊1號或2號無人機,變為可解環境后,基于上述步驟求解穿插路徑12435不可解狀態(智能體無論選擇哪個動作都會發生錯誤)2號無人機被摧毀可解狀態穿插路徑Q1:紅方無人機定速巡航時,藍方坦克怎樣完成穿插任務?3創意技術路線量子防御:選擇概率閾值A(0-1之間),使用自然隨機數算法生成高維隨機數R(0-1之間),如果R>A,障礙物向上移動1步,反之,障礙物保持當前位置不動迷宮問題中,為阻止藍方通過強化學習求解穿插路徑,需要改變障礙物的移動方式,不再勻速向上移動此時在藍方看來,障礙物的移動完全沒有規律,環境狀態轉移概率不確定,不再具有馬爾可夫性,因而無法基于強化學習求解障礙物隨機向上移動更底層的原理:(1)當障礙物規律移動時,引發環境變化的只有時間,移動規律是平穩線性的,神經網絡能夠學習到并收斂(2)當障礙物無規律移動時,引發環境變化的除了時間,還有每個障礙物用于決策的隨機數,藍方無法觀測和獲取,訓練環境狀態空間信息不足,神經網絡無法收斂Q2:紅方怎樣調整巡航策略以對抗人工智能算法?環境馬爾可夫性:智能體和障礙物相撞,訓練失敗3創意技術路線將量子防御策略應用于真實戰場環境:紅方無人機基于量子防御策略調整巡航速度,構建動態變化的量子防御體系,對抗藍方強化學習算法不同的顏色代表不同的航速,呈無規律變化常規策略下每架無人機航速固定Q2:紅方怎樣調整巡航策略以對抗人工智能算法?3創意技術路線可控量子防御與完全量子防御的區別:可控量子防御使用可控隨機策略控制隨機數的生成,而完全量子防御使用自然隨機數生成算法,隨機數不受控制,沒有規律紅方地面部隊Q3:敵我識別失效(系統被摧毀、敵方偽裝)情形下紅方地面部隊如何通過?此時對應到迷宮問題,即要求在障礙物隨機移動的環境下求解穿插路徑,由前面的分析,障礙物完全隨機移動時是無法求解的,因而提出可控量子防御障礙物隨機向上移動3創意技術路線

障礙物隨機向上移動Q3:敵我識別失效(系統被摧毀、敵方偽裝)情形下紅方地面部隊如何通過?可控隨機策略保證了訓練過程中決策錯誤執行狀態恢復時隨機數序列的連續性,紅方地空雙方共享算法的基礎上,地面部隊基于17維(12維位置信息+5維隨機數信息)的狀態空間進行訓練,神經網絡能夠收斂1245目錄3創意背景及意義創意核心內容創意技術路線創意軍事價值及應用前景方案應用創新點4創意軍事價值及應用前景①戰前準備期間,藍方模擬紅方無人機所有可能的位置組合,基于每種情形進行訓練。如果神經網絡收斂,則保存訓練參數到模型庫中,構建戰場局勢知識庫;如果神經網絡不收斂,則對該位置組合進行可解性標記。②進入戰場后,藍方坦克基于戰場局勢知識庫,根據紅方無人機的當前位置判斷環境是否可解。如果可解,則使用知識庫中的神經網絡參數執行穿插路徑規劃;如果不可解,需主動攻擊紅方巡航無人機,促成可解環境。藍方視角紅方視角應用強化學習求解穿插路徑4創意軍事價值及應用前景①按照分級防御機制,初始采用常規防御策略,當防御被突破時,切換至量子防御策略,此種策略能夠對抗人工智能算法,使得神經網絡無法收斂,從而實現有效防御。②當本方地面部隊需要通過防區時,采取可控隨機策略執行非完全的量子防御策略,對抗人工智能算法的同時保證己方的正常通行。分級防御機制藍方視角紅方視角4創意軍事價值及應用前景藍方空中部隊紅方防衛部隊紅方指揮控制中心藍方地面部隊藍方飛行器紅方防衛飛行器紅方指揮控制中心前面只討論了藍方地面坦克的穿插過程,使用二維迷宮驗證,后續還需要討論藍方空中部隊如何穿插,問題演化為三維太空戰場景太空戰4創意軍事價值及應用前景太空戰中紅方飛行器采用梯隊巡航,藍方面臨一系列二維穿插問題如果紅方飛行器采用常規巡航策略,那么藍方可基于強化學習得到穿插路徑,如果紅方使用量子巡航策略,則能有效防御太空戰暢想期望的孵化渠道:基于已經完成的概念驗證,結合未來高算力支撐(訓練、計算、渲染),利用深度強化學習探索復雜三維立體空間中量子防御策略的應用效果第1梯隊第2梯隊第3梯隊藍方飛行器移動方向紅方飛行器移動方向太空戰1245目錄3創意背景及意義創意核心內容創意技術路線創意軍事價值及應用前景方案應用創新點5方案應用創新點創新點1:應用強化學習解決復雜動態環境下的區域穿插問題將紅藍對抗中的典型場景抽象為智能

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論