




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
國家級虛擬仿真實驗教學一流本科課程《無人機集群技術》第七章
無人機集群協同搜索目錄7.1無人機集群協同搜索任務7.2無人機集群協同搜索任務描述7.3無人機集群協同搜索控制架構7.4無人機集群協同搜索算法7.5本章小結無人機集群協同搜索任務7.1協同搜索概述提出背景:實際環境的復雜性和多樣性使得單無人機無法在短時間內完成協同搜索任務;單無人機容易受到不確定因素的干擾,如突發故障,被敵軍擊落等導致任務失敗,而重新派出無人機則會延誤軍情;基于多目標搜索的場景,單無人機的搜查效率和情報回傳效率較低;單無人機獲取信息有限,容易陷入局部最優解;無人機集群協同搜索:無人機通過集群方式對協同目標進行搜索決策,建立起對環境與目標的認知,從而快速、全面地獲取信息。47.1協同搜索概述分布式協同方式多目標搜索決策與規劃問題:區域覆蓋目標監視協同搜索障礙物規避無人機集群協同搜索示意圖57.1協同搜索目標分類靜止目標在區域中位置相對固定,不會隨著時間發生改變??煞譃閮煞N情況:1.目標在初始狀態下已經產生并且不會繼續生成;全覆蓋區域搜索;目標存在概率圖+智能優化;2.目標位置固定,會隨著時間隨機生成;運動目標在給定區域內位置和數量隨機變化。動態智能規劃;7.16協同搜索算法評價指標優化目標評價指標:
1.使無人機集群發現目標概率最大;2.使無人機集群搜索信息不確定性降到最??;
3.使無人機協同搜索花費代價最??;對應搜索效能函數:
1.目標發現收益JT;
2.環境搜索收益JE;
3.搜索代價JS
;7.17協同搜索算法評價指標目標發現收益JT機載傳感器在[k,k+Nv-1]時間內探測到的累積目標發現概率:pkmn(k):第i架無人機的搜索圖Rni范圍內的目標存在概率,與搜索圖上位置xp(k)相關;bimn(k):用來確定可能發現的目標;7.18協同搜索算法評價指標7.1機載傳感器在[k,k+Nv-1]時間內探測區域Rni目標信息不確定性減少量:ei(k):第i架無人機對當前目標信息的不確定程度。根據k時刻的搜索圖其信息的確定性程度為
imn(k),信息熵ei(k)定義為:9環境搜索收益JE協同搜索算法評價指標7.110無人機集群協同過程中的時間或燃油消耗:0<wi
<1,i=1,2,3,wi為權重,反映目標搜索收益、環境搜索收益和搜索代價分別在搜索效能函數中不同影響程度。搜索代價JS總搜索效能無人機集群協同搜索任務描述7.2環境搜索圖模型搜索環境分類已知環境:由無人機自身所維護的一種特殊數據,描述了無人機對當前環境信息的理解和認知。未知環境:通常采用概率模型來描述目標的位置狀態,針對多無人機協同搜索過程中的環境不確定性引入多種搜索圖:概率圖:表征任務區域內目標分布情況,提高發現目標可能性;不確定圖:描述無人機對環境認知程度,提高目標搜索效率;信息素圖:表示無人機集群的搜索狀態,提高無人機的協同效率。7.212概率地圖模型柵格化地圖針對搜索環境任務的特點,一般采用概率模型描述目標的位置狀態,但連續的概率地圖不利于對信息進行處理,因此往往需要柵格化處理。7.213概率地圖模型概率地圖初始化
7.214概率地圖模型概率地圖更新
搜索圖的初值反映了目標先驗信息,這些信息可以通過外部情報偵察獲得。7.215概率地圖模型
考慮到傳感器觀測的不確定性,其目標存在概率更新方程為:7.216概率地圖模型隨著對某個網格探測次數的增加,無人機對該網格處的信息不斷了解,因此確定度也是不斷變化的,其更新方程為:
7.217傳感器探測模型傳感器探測模型傳感器性能優劣,直接影響了無人機集群搜索目標的效果。通過對傳感器建模,建立無人機探測范圍和探測精度的關系,能夠進一步建立無人機對未知環境下目標搜索的概率地圖。機載傳感器探測模型7.218傳感器探測模型無人機搭載傳感器高分辨率攝像頭:通過深度學習等技術進行目標識別。合成孔徑雷達:分辨率高,用于遙感和測繪。激光雷達:識別精度高,在夜晚仍能保持較好的識別率。機載傳感器探測模型7.219傳感器探測模型
7.220狀態空間模型無人機航向編碼
無人機航向示意圖7.221狀態空間模型
7.222狀態空間模型
7.223無人機集群協同搜索控制架構7.3集中式搜索控制架構由中心節點對無人機集群的統一控制,從全局角度對集群搜索問題進行協調和優化。無人機執行搜索任務時,將傳感器的數據進行簡單處理發送給控制中心,并由控制中心判斷和指導控制無人機的下一步行動。集中式控制架構無人機集群協同搜索的集中式交互7.325集中式搜索控制架構MPC核心思想是滾動時域控制思想(RecedingHorizonControl,RHC),使無人機機集群能夠實時動態調整其任務和航跡,尤其是在動態變化和未知的環境中執行搜索任務模型預測控制算法(MPC)無人機集群決策搜索決策過程滾動優化求解7.326集中式搜索控制架構搜索決策過程①系統狀態預測:結合當前時刻k系統的狀態和系統動態模型,來預測系統未來N階段的狀態;②優化任務決策:利用步驟①得到預測狀態來確定優化控制的N個序列,然后將其中第一項作為當前優化決策;③實時航跡規劃:根據先前步驟②得到的優化決策,實時規劃無人機執行下一時刻搜索任務的航跡。優化決策過程采用在時域滾動的方式迭代進行,在不同時刻內不斷更新系統狀態,直至無人機完成所有的搜索任務。7.327集中式搜索控制架構滾動優化求解設k+q時刻系統狀態為x(k+q|k),控制輸入預測為u(k+q|k)。用X(k)表示k時刻N步預測狀態,U(k)表示控制輸入,在N步預測后系統的搜索效能記為:在k時刻,求解系統最優任務決策優化模型表示為:7.328分布式搜索控制架構分布式搜索控制架構取消了控制中心,無人機之間相互平等,可以相互通信協作;具有一定的智能性和自主能力,能夠刺激響應和協商決策;計算代價小、魯棒性好,能夠實時通信與決策,適用于解決大規模集群和實時處理要求較高的任務場景。7.329分布式搜索控制架構分布式模型預測控制算法(DMPC)將大規模的集中式在線優化問題轉化分布式優化問題,并通過每架無人機來獨立控制和優化決策建立預測模型實時滾動優化設計反饋校正無人機集群分布式控制架構圖7.330分布式搜索控制架構分布式模型預測控制算法的具體步驟如下:將一個大規模控制系統劃分為M個子系統,對其當前時刻下最優控制增量進行初步的預測求解,得到:
:系統k時刻的控制增量;i:第i個子系統;l:第l時刻針對劃分完成后的子系統,各自求解相應的性能指標,獲取當前時刻的迭代最優解利用納什最優策略的思想,判斷前后兩個迭代周期內最優解的差值是否滿足納什迭代的精度。若滿足,進行下一步。否則令求解該時刻下的即時控制律并將該控制量作用于各個子系統。滾動優化到下一個時刻,重復以上步驟,完成整個系統過程的優化控制。7.331集散式搜索控制架構集散式搜索控制架構有機結合了分布式和集中式兩種控制架構,滿足現階段集群技術發展現狀,將成為未來常態的實用化架構。需對無人機集群進行分簇,簇內的無人機間采用分布式控制架構,通過簇頭與其他各個簇進行通信,中心節點與各個簇頭之間采用集中式控制架構?;谧灾螀f同的集散式控制架構圖7.332集散式搜索控制架構集散式控制架構遠程操作層:對無人機集群的搜索情況下達指令,對無人機進行遠程控制任務計劃層:將無人機群分成若干組,按照一定規則從每組中選出一架無人機作為組長,無人機群從領隊中按照相關規則或隨機選取領導者來執行任務規劃層的職能任務協調層:各個無人機組的組長負責成員間的信息交流和協調任務執行層:利用內部的功能模塊對搜索信息進行處理,再由決策模塊自主決策,最后經過協調層優化決策結果后執行搜索目標任務7.333集散式搜索控制架構協同分區搜索:提高多無人機集群協同搜索效率支持無人機的動態加入和退出,有利于無人機在不同任務之間進行靈活轉換,面對地面站與無人機之間的通信中斷仍能夠自組織完成搜索任務,因此對無人機智能化程度要求高無人機集群協同分區搜索過程7.334無人機集群協同搜索算法7.4無人機集群協同搜索算法無人機集群協同搜索算法無人機集群協同搜索方法分類7.436傳統優化算法貪婪算法在每個階段進行局部最優選擇,以求全局最優未考慮整體搜索效率,在合理的時間內通常得到局部最優解,但是一般難以產生全局最優解隨機搜索以隨機方式在候選解中選擇出下一步無人機航向在區域搜索目標時未考慮目標實時探測情況以及集群內無人機之間的協同7.437傳統優化算法車道搜索將搜索區域劃分為一組車道,每架無人機都被分配一個唯一的車道。在搜索過程中,當一個目標被探測到時,無人機開始執行長機任務。當集群形成時,集群成員將當前位置存儲在各自的車道上作為返回點。當一個車道上的搜索任務完成時,無人機將被分配一個新的車道。隨機搜索將任務區域離散化為一組均等大小柵格,每個柵格標記初始值均標記相同值,當柵格在無人機的傳感器覆蓋范圍內,柵格值發生變化7.438基于概率融合的協同目標搜索算法基于概率融合的協同目標搜索算法將搜索區域劃分為具有M個均等大小的柵格,用m=(x,y)標記位置。在整個搜索任務中,將目標占用概率建模為服從貝努利分布,當xc=1時表示目標出現在柵格c中,概率為Pc,而當xc=0時表示柵格c中不存在目標,概率為1?Pc。當Pc=1表示柵格c中一定存在目標,當Pc=0則表示一定不存在目標。無人機可以移動到不同的柵格并進行獨立觀察記為UAVi,在時間步t處搜索地圖柵格坐標表示為ci,t=(xi,t,yi,t)。將UAVi在t時刻柵格c中的獨立傳感器觀測值表示為Oi,c,t,為每個柵格定義兩個觀測結果,即Oi,c,t=0或Oi,c,t=1。利用參數p和q分別表示傳感器的探測概率和虛警概率,P(Oi,c,t=1|xc=1)=p和P(Oi,c,t=1|xc=0)=q。每當UAVi訪問柵格時在搜索地圖中更新與該單元Pc相關的信息。7.439基于概率融合的協同目標搜索算法基于概率融合的協同目標搜索算法任務開始時,將初始數值設置為Pic0=0.5,表示未探測前無人機完全不確定狀態。每架無人機開始觀測,基于傳感器觀測Oi,c,t=0和當前柵格ci中的先驗概率Pi,c,t-1,更新自身維護的搜索地圖中占用概率為Pi,c,t。無人機集群協同搜索信息融合7.440基于概率融合的協同目標搜索算法基于概率融合的協同目標搜索算法無人機在時間t時刻最多有N個訪問ci值。每架無人機根據移動到搜索區域中的下一個柵格并在新柵格繼續融合過程。當探測概率大于設定探測閾值時無人機將停止搜索。無人機集群協同搜索信息融合7.441基于概率融合的協同目標搜索算法基于概率融合的協同目標搜索算法每架無人機在每個時間步進行兩種不同觀測地圖的更新:獨立地圖更新和協同地圖融合。獨立地圖更新只需要局部信息。協同地圖融合將無人機自身的本地獨立概率與其他無人機的信息結合起來,并計算存儲在搜索地圖中的實際概率Pi,ci。
符號ci:UAVi的位置;
Pi,cj:UAVj在UAVi位置處的占用概率(j=1,2,…,N)多無人機的局部4×4搜索地圖與融合地圖多無人機信息搜索地圖融合7.442基于概率融合的協同目標搜索算法獨立搜索地圖更新使用貝葉斯規則更新當前柵格c中的概率,該規則使用傳感器特征(p和q)、傳感器觀測Oi,c,t和柵格c中先驗概率,搜索地圖更新如下式所示:Pi,c,0,p,q均∈(0,1);若Pi,c,0=1,則Pi,c,t=1;若Pi,c,0=0,t>0,則Pi,c,t=0;若p=0,UAVi獲得等于1的傳感器觀測值,則Pi,c,t為0,無論將來觀測值如何都保持不變7.443基于概率融合的協同目標搜索算法地圖融合策略信息更新UAVi計算柵格ci的占用概率并共享給其他無人機。所有接收到此信息的無人機替換其搜索地圖中ci處的先前概率值。UAVi從其他無人機接收更新信息并更新其搜索地圖表示為:j=1,2,…,N,假設集群內無人機不會同時訪問同一個柵平均值UAVi將信息共享給定柵格的UAVj。否則,UAVi根據自身搜索地圖和UAVj提供的信息求平均。UAVi通過以下方式更新其地圖:7.444基于概率融合的協同目標搜索算法地圖融合策略式中n取決于通信范圍,如果通信范圍受限,本地搜索地圖中cj的概率值可能不同,n等于通信范圍內具有不同cj值的無人機數量。如果通信范圍不受限制,則所有UAV都擁有其本地搜索地圖中以cj表示的概率值的最新認知。7.445基于粒子群算法的協同搜索PSO算法
7.446基于粒子群算法的協同搜索PSO算法將每個粒子視為一個可行的搜索決策輸入,UAVi的控制輸入為uiv(k)=[vi(k),Δφi(k)],粒子編碼方式如下圖所示粒子的每一維中數值取值為[-1,1]范圍內實數,分別表示為rφ和rv,為保證控制輸入決策變量的取值在可行范圍之內,滿足下式約束條件:解碼后可得到一組無人機的飛行方向調整角度指令,計算出對應的目標點序列,只要限制粒子的取值范圍,就可使相鄰狀態滿足最大偏轉角、飛行速度等性能約束,有效提高優化決策效率。決策變量到PSO粒子結構的映射7.447基于粒子群算法的協同搜索滾動優化過程在RHC中,當前控制動作是通過在線求解每個采樣時刻的有限水平最優控制問題,以系統當前狀態為初始狀態,優化產生一個最優控制序列,且只有該序列中的前幾個控制輸入被實施到系統中。通過在線優化和滾動,使得無人機集群在搜索過程中快速響應環境變化。基于PSO算法解決多無人機協同區域搜索的關鍵是確定適應度函數,對于基于RHC的協同搜索問題,目標函數與每架無人機的當前位置和跟蹤點的后續位置相關。最優控制序列7.448基于并行螞蟻群算法的協同搜索蟻群算法選擇機制:信息素濃度越高,則被選中的概率就越大;更新機制:路徑上的信息素濃度會隨著螞蟻的經過而變化;協調機制:所有信息基本都以不同種類信息素的方式呈現。蟻群算法示意圖7.449基于并行螞蟻群算法的協同搜索蟻群算法在算法初期階段,人工螞蟻執行隨機搜索,并在搜索過的路徑上留下信息素。由于正反饋機制,人工螞蟻逐漸傾向于濃度更高的信息素路徑,并找到接近于最優解的解。每只螞蟻在搜索過程中相互獨立,彼此之間僅通過釋放的信息素進行通信,最終實現從無序到有序的過程。正反饋機制有助于蟻群優化算法快速找到最優解,隱式并行性能夠防止算法陷入局部最優解,有利于進一步搜索解空間并尋找更好的解,具有較高的可靠性以及強大的全局搜索能力。7.450基于并行螞蟻群算法的協同搜索通過構建無人機集群之間的協同信息,增強對任務環境的全局認知情況,提升系統整體搜索效能。無人機集群協同搜索與并行蟻群覓食行為有著很大相似作用,兩者映射關系如下表所示內容無人機集群協同搜索并行蟻群覓食行為行為主體無人機螞蟻行為空間任務區域覓食空間具體行為搜索目標尋找食物無人機集群協同搜索與蟻群覓食行為映射關系7.451基于并行螞蟻群算法的協同搜索每只螞蟻對應一架無人機,具備感知、交流、移動和更新的能力。無人機的搜索決策對應螞蟻的狀態轉移,螞蟻之間通過信息素進行通信。在柵格化的任務區域中,螞蟻在各個柵格間的轉移構成無人機的搜索路徑。基于并行蟻群算法原理圖7.452基于并行螞蟻群算法的協同搜索信息素結構初始化記任意時刻螞蟻維護的信息素結構如下所示:τk,(x,y)表示無人機k在t時刻維護的信息素地圖中存儲坐標為(x,y)處的柵格信息素濃度值將信息素初始化為如下函數:τ0是柵格i中的信息素濃度;pi是柵格i的目標概率值基于并行蟻群算法協同搜索框圖7.453基于并行螞蟻群算法的協同搜索
7.454基于并行螞蟻群算法的協同搜索
7.455基于并行螞蟻群算法的協同搜索面向任務協同的信息素更新機制在t次迭代后蟻群v中螞蟻m對柵格j產生的信息素變化量,可表示為:
是種群v的路徑與其他螞蟻種群的路徑之間的重疊度;uvm為搜索t次迭代后種群v中螞蟻m的信息素總量;vvm-表示其他種群信息素的總量,該值越大,表示與柵格j中其他群體的重疊較少;Jvm是完成搜索后種群v中螞蟻m的搜索成本,并對該蟻群中所有螞蟻的目標函數值排序;Q為信息素增強系數;w1和w2分別表示搜索收益權重系數。當m∈[1,u]表示螞蟻m的信息素濃度增加,而當m∈[u+1,M]表示螞蟻M的信息素濃度降低。7.456基于并行螞蟻群算法的協同搜索
7.457基于并行螞蟻群算法的協同搜索求解無人機集群協同搜索的步驟如下:采用柵格地圖離散化任務區域,初始化構建的目標概率圖;設置蟻群優化算法參數,初始化N只螞蟻的位置以及各螞蟻的本地信息素結構;各螞蟻確定待選柵格集合,計算各柵格的狀態轉移概率,并按照狀態轉移規則選出下一時刻柵格;螞蟻轉移到下一柵格并對周圍環境進行搜索;計算目標函數,并根據自身及鄰居螞蟻位置分布,各螞蟻按照信息素更新規則對本地信息素結構進行更新,同時更新目標存在概率圖;7.458基于并行螞蟻群算法的協同搜索求解無人機集群協同搜索的步驟如下:判斷是否達到最大循環次數,若是則算法結束,否則返回步驟3上述算法步驟。并行蟻群算法流程圖7.459基于麻雀算法的協同目標搜索SSA算法主要包括局部通信網絡建立、協同搜索模型構建和優化模型求解收斂速度快、優化能力強局部通信網絡下基于SSA算法的協同目標搜索系統框架7.460基于麻雀算法的協同目標搜索局部通信網絡建立利用有向圖G=<N,D>表示當前的實時通信網絡,其中N為無人機集群數量,D表示無人機集群內無人機之間的距離,相鄰通信矩陣A可以表示為:dcom范圍閾值,dij為無人機i與無人機j的歐氏距離。A表示無人機集群的實時通信拓撲關系,若aij=1,則表示無人機i到無人機j是連通狀態,可以相互發送位置信息。反之則通信不可達。7.461基于麻雀算法的協同目標搜索優化目標函數構建通信成本函數可表示為:為了降低能量成本,引入數字信息素策略。數字信息素構成包括吸引信息素和排斥信息素兩部分,兩種信息素的更新可表示為:7.462基于麻雀算法的協同目標搜索優化目標函數構建Ea和Er分別表示吸引信息素和排斥信息素的揮發系數;Sa和Sr為相應的傳播系數;δ∈(0,1)是調節因子;da(t)為柵格i自主釋放的吸引信息素;fi為最后一次訪問柵格i到當前周期數;ga(t)和gr(t)分別為柵格(t-1,t]時間內從鄰近柵格傳入的吸引信息素和斥力信息素。則有Ni’為相鄰柵格總數;Nei為鄰近柵格7.463基于麻雀算法的協同目標搜索優化目標函數構建局部通信下的集群協同效益表示為:N′表示當前通信網絡下無人機數量,n為預測步驟,Sa()為當前通信網絡中無人機位置在t時刻的吸引信息素強度,Sr()為當前時刻的排斥信息素強度。綜上所述,基于SSA算法的協同搜索模型的目標優化函數可以定義為:JPt為協同收益,JSt為通信成本;1和2分別表示權重歸一化系數647.4基于麻雀算法的協同目標搜索基于SSA算法的求解優化模型策略初始化種群中有N只麻雀,位置空間為d維。xdN代表麻雀個體,具有較大適應度值的麻雀作為探索者,位置更新策略如下:it為當前迭代次數;itmax為最大迭代次數;ξ為隨機數(ξ∈(0,1])H為1×d大小的全1矩陣;k為正態分布的隨機數;xi,j為麻雀i在j維空間的位置;R2為預警值(R2∈(0,1]);S為安全值(S∈(0.5,1])7.465基于麻雀算法的協同目標搜索基于SSA算法的求解優化模型策略將其余麻雀作為跟隨者,位置更新如下式所示:xbit和xwit分別為當前迭代it中麻雀的最佳和最差位置;R為隨機數(r∈[?1,1])7.466基于麻雀算法的協同目標搜索
7.467基于麻雀算法的協同目標搜索建立面向局部網絡的協同搜索模型,該模型利用現有的局部位置信息,在當前網絡下利用基于SSA算法最大化優化指標,能夠提高無人機集群協同搜索能力。SSA算法流程框圖7.468基于深度強化學習的協同目標搜索強化學習通過智能體和環境之間的持續交互試錯來最大化累積回報較為典型的深度強化學習算法有深度Q網絡(DQN)、近端策略優化(PPO)等基于結合雙Q學習和噪聲Q學習的多智能體深度強化學習算法DNQMIX建立搜索環境模型,構建觀測空間,通過深度強化學習算法DNQMIX在線生成無人機集群協同搜索路徑基于深度強化學習算法的協同搜索框圖7.469基于深度強化學習的協同目標搜索構建搜索環境模型將搜索區域Ω劃分為Lx×Ly個大小相等的離散網格,網格的中心點坐標定義為cx,y=(x,y){x=1,2…Lx;y=1,2…Ly}作為標識。每個目標只能占用一個網格,將網格內目標存在的概率建模為伯努利分布,即τx,y=1(存在目標),概率為Px,y,τx,y=0(不存在目標),概率為1-Px,y。假設搜索區域Ω中有No個隨機分布的威脅。威脅k的坐標表示為zk=(x,y),1≤k≤No系統模型7.470基于深度強化學習的協同目標搜索構建搜索環境模型無人機集群系統U={U1,U2,…Ui…,UNu}(1≤i≤Nu)包含Nu個同構無人機。無人機i在時間步t(1≤t≤T)處的坐標表示為ui,t=(x,y)。每個無人機都配備有一個傳感器,無人機i只能在時間步t和探測半徑Rs下觀察探測區域Θi,t內的網格。無人機i在時間步t對網格cx,y的觀測結果表示為Φi,tx,y,Φi,tx,y=1表示在網格cx,y檢測到目標,Φi,tx,y=0表示在網格cx,y未檢測到目標。傳感器模型檢測結果的條件概率可表示為:為確保在噪聲環境中能夠執行有效檢測,檢測概率p和虛警概率q分別設置在[0.5,1]和[0,0.5]的區間范圍內。7.471基于深度強化學習的協同目標搜索構建搜索環境模型每架無人機i在時間步長t都維護了一個單獨的關于搜索區域Ω的概率信息圖i,t?{Pi,tx,y|τx,y=1},并采用貝葉斯準則根據觀測結果更新概率圖:將無人機i的鄰居定義為:Rc表示通信范圍7.472基于深度強化學習的協同目標搜索構建搜索環境模型無人機記錄每個網格的正檢測次數Ni,tx,y(+)(從任務開始時Φi,tx,y為1的總次數)和負檢測次數Ni,tx,y(?)(從任務開始時Φi,tx,y為0的總次數)。無人機i在時間步t處的正探測時間和負探測次數可表示為:無人機i在時間步t認為網格cx,y中目標存在的概率可以表示為:7.473基于深度強化學習的協同目標搜索觀測空間與動作空間作為智能體的網絡輸入,提取的信息可分為三類目標存在概率:從無人機的局部概率圖中提取并根據貝葉斯概率更新,其中邊界外的目標存在概率水平假設為0;訪問次數信息:若無人機在某個時間步探測某個網格,則該網格訪問次數加1,邊界外的訪問次數假定為0;鄰居和威脅信息:視野中的威脅表示為0.5,視野中的其他無人機表示為1,空網格或邊界外的網格表示為0無人機的位置也會添加到觀測向量中,這些局部信息構成了智能體的觀測空間并幫助無人機確定下一步行動。在每個時間步,無人機根據其當前位置最多有四個候選動作北、南、東、西可用。如果某個移動方向將導致無人機在下一時間步移出邊界,則該方向將從候選動作中丟棄。7.474基于深度強化學習的協同目標搜索設計獎勵函數將無人機的視場范圍(FOV)定義為以自身為中心的正方形區域(邊長為Lf)。在每個時間步,無人機提取FOV內的局部信息作為智能體策略網
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 營養解碼-動物生理代謝的關鍵路徑-洞察闡釋
- 藝術品價格波動因素-洞察闡釋
- 染色ants綠色應用-洞察闡釋
- 聯合數據庫安全范式與保密性研究-洞察闡釋
- 高速公路修建工程合同3篇
- 最有用的房屋租賃合同2篇
- 賣地下室儲物間的合同2篇
- 工程管理員勞動合同2篇
- 2025年汽車維修廠勞動合同2篇
- 2025年小產權房購房合同3篇
- GB/T 7573-2025紡織品水萃取液pH值的測定
- 反恐應急演練方案腳本
- 2024年山東棗莊科技職業學院棗莊工程技師學院招聘筆試真題
- 行政費用管理控制辦法及規定
- 校園廣播系統投標方案
- 2025年標準課件《維護祖國統一》
- 區委巡察辦2025年上半年工作總結
- 認識新商業(慕課版) 課后自測題答案(陸婷)+期末試題
- 籃球教練禮儀培訓
- 三年級語文下冊《非連續性文本閱讀》期末復習專項課件
- 《Art-Deco建筑風格》課件
評論
0/150
提交評論