人工智能通識 課件 第七章 智能之軀-具身智能_第1頁
人工智能通識 課件 第七章 智能之軀-具身智能_第2頁
人工智能通識 課件 第七章 智能之軀-具身智能_第3頁
人工智能通識 課件 第七章 智能之軀-具身智能_第4頁
人工智能通識 課件 第七章 智能之軀-具身智能_第5頁
已閱讀5頁,還剩53頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

第七章智能之軀——具身智能《人工智能通識》配套課件《人工智能通識》教研組本章目錄7.1具身智能概述7.2具身智能的核心技術7.3具身智能的典型案例

7.4具身智能的前沿與展望1本章目錄7.1具身智能概述7.2具身智能的核心技術7.3具身智能的典型案例

7.4具身智能的前沿與展望17.1具身智能概述具身智能的基本概念具身智能定義:以智能體作為本體支撐,不再局限于被動響應,而是能夠像生物體一樣,主動適應環境變化,應對噪聲干擾,并適時調整自身行為。輸入輸出離身智能具身智能物理交互環境復雜動態輸入聽說看交互理解單一的符號智能往往與真實世界相脫節,認知與身體解耦智能是具身化和情景化的,具身智能可通過與真實世界的交互完成任務智能體7.1具身智能概述具身智能的基本概念具身(Embodiment):智能系統所依附的、能夠支持豐富感官體驗與靈活運動能力的物理實體,是智能體與環境互動的基礎。具身的(Embodied):具有身體的,可參與交互、感知的。具身智能(EmbodiedAI):特指那些擁有物理形態,并能直接參與物理世界交互的智能系統,如服務型機器人、智能無人駕駛車輛等。它們通過“身體力行”的方式,展現出高度的環境適應性與任務執行能力。具身任務:像人類一樣通過觀察、移動、對話以及與世界互動從而完成的一系列任務。多模態:一個模型或系統能夠處理多種不同類型的輸入數據并融合它們生成輸出,這些類型包括文本、圖像、音頻和視頻等。這種能力對于提升智能系統的環境感知與決策能力至關重要。主動交互:機器人或智能體與環境的實時交互過程,從而提高智能體的學習、交流與處理問題的能力,是具身智能實現高效任務執行的關鍵。7.1具身智能概述具身智能的核心要素具身智能本體學習數據智能體本體在物理與虛擬空間中承擔環境感知和任務執行,通過多種形式的機器人展現其關鍵作用,設計廣泛適應性的本體是實現數字與物理世界融合的基礎。其感知能力、運動靈活性及操作精度共同決定了本體的多維性能。智能體作為本體的智能核心,具備敏銳的感知能力和動態決策機制,能夠解析復雜環境并高效執行任務;借助深度學習和多模態模型的發展,智能體實現了從單一任務向多功能通用應用的躍升,具備自我進化和持續優化的能力。數據在機器學習與具身智能系統中至關重要,通過整合大量多樣的具身數據,提升了智能體的任務執行成功率,但仍面臨數據采集與結構復雜的挑戰。具身學習通過智能體與環境及人類的互動,構建“感知-決策-行動”閉環,利用人類-智能體交互數據強化多模態系統,推動智能體進化與性能提升。在交互過程中,系統提供多樣化輸出選項供用戶反饋,以此優化未來性能,并通過人機協作糾正錯誤,增強系統的安全性和可靠性。7.1具身智能概述具身智能的核心要素具身數據的獲取方案:RT-X項目互聯網數據預訓練,學習通用知識具身數據微調,學習動作控制“將蘋果移動至在罐子和橘子之間”基于OpenX-Embodiment數據集訓練,RT-2-X模型在眾多具身任務上平均成功率提升近50%。RT-X項目構建通用具身數據集,涵蓋多種機器人類型、任務和場景,整合了來自34家研究實驗室的60個數據集,數據集總量驚人地達到1,402,930條記錄。7.1具身智能概述具身智能的核心要素具身智能領域四種數據積累方法建立虛擬仿真環境,模擬現實環境在虛擬環境中訓練智能體。虛擬環境中收集人類演示數據。虛擬式方法訓練生成模型,生成具身數據。根據人類演示數據,生成更多訓練數據。生成式方法完成互聯網數據的預訓練,學習通用知識,并實現具身數據微調和動作控制。網絡式方法機械臂抓取等實際場景。少量的人類演示。表演式方法機器人從收集的數據中學習。7.1具身智能概述具身智能的核心要素具身智能系統中四種常見的策略泛化方法1.多任務/多場景/多技能決策3.大模型技術2.仿真訓練4.真實訓練具身智能的進化學習示例7.1具身智能概述具身智能與人工智能

傳統人工智能具身智能概念定義強調通過計算機技術模擬和實現人類智能,一般以軟件形式存在。強調智能系統與物理實體之間的交互。例如機器人系統。實現路徑傳統的算法和模型,例如機器學習、神經網絡等。不僅依賴于傳統AI算法,還依賴于傳感器、執行器和物理動力學的結合。研究焦點聚焦于抽象問題解決、符號知識表示與邏輯推理過程,以及在已知或可建模環境中提供決策支持,較少涉及實際物理環境中的動態交互。強調智能體與物理環境之間的交互,關注感知與行動的結合、自適應學習,以及智能體如何基于自身物理特性在不同情境性作出反應。應用領域醫療數據分析、圖像識別、語音識別以及自然語言處理等領域。機器人、自動化制造、倉儲物流等需要與物理環境交互的場景。7.1具身智能概述具身智能的意義與價值核心理念智能體與環境動態互動,超越靜態數據處理方法。強調嵌入物理環境,通過感知、理解和行動適應與改變環境。研究進展整合視覺、語言處理及決策制定。在虛擬仿真環境中展示應對復雜挑戰的能力。AI模擬器作為理論與實踐的橋梁,如AI2-THOR,支持多任務廣泛訓練。7.1具身智能概述具身智能的意義與價值應用前景提升人機協同效率,實現情感交流與策略制定。在環境保護、資源管理、教育公平、醫療普惠等領域發揮作用。執行危險任務,減輕人類負擔,精準調控資源利用。未來展望代表人工智能的重大技術飛躍。推動社會智能化、和諧化發展的關鍵驅動力。本章目錄7.1具身智能概述7.2具身智能的核心技術7.3具身智能的典型案例

7.4具身智能的前沿與展望17.2具身智能的核心技術具身智能的系統框架核心技術:具身感知:深度融入物理世界的智慧觸角行為模塊:復雜任務達成的執行者具身交互:構建人機協作的新生態強化學習與模仿學習仿真到真實的遷移7.2具身智能的核心技術具身智能的核心技術:具身感知主動視覺感知智能體能夠自主控制感知設備,如選擇最佳視角和運用注意力機制。這種能力允許智能體主動探索環境,優化信息獲取,從而提高任務執行效率。例如,通過調整攝像頭的角度和焦距,智能體可以聚焦于最相關的視覺線索。三維視覺定位與物體感知智能體需具備在三維空間中定位自身及周圍物體的能力,這對導航和物體操作至關重要。現代視覺編碼器預訓練技術增強了對物體類別、姿態和幾何形狀的精確估計,使智能體能在復雜動態環境中全面感知。這使得智能體能夠準確理解其所在環境的三維布局,并據此作出決策。多模態感知整合除了視覺之外,觸覺和聽覺等感知模態同樣重要,它們為智能體提供額外的環境信息。觸覺傳感幫助智能體感知物體的質地、重量和形狀,支持精確的物體操作。整合多模態感知數據,能夠顯著提升智能體對環境的整體理解能力,使其在執行任務時更加靈活和高效。7.2具身智能的核心技術具身智能的核心技術:具身感知具身感知模式的發展被動感知被動感知感知大模型主動感知具身交互感知具身主動感知SAM:視覺分割大模型DINO:視覺分割大模型靜態環境識別精度與人類相當通過主動獲取圖像,相比現有大模型的目標檢測性能有顯著提升。被門擋住了視線?交互后,推開門看看是什么,能干什么第三人稱第一人稱第一人稱行為交互+感知具身感知模式從被動到主動交互感知方向發展7.2具身智能的核心技術具身智能的核心技術:行為模塊行為模塊是連接感知與行動的紐帶,它基于豐富的感知數據或人類指令,操縱智能體執行復雜的物體操作任務。這一過程融合了語義理解、場景感知、決策制定與穩健的控制規劃。規劃優化反饋提示交互基于物理反饋的規劃數值函數狀態獎勵數值迭代…規劃優化評估基于強化學習的規劃7.2具身智能的核心技術具身智能的核心技術:具身交互人類監督與反饋的重要性人類在監督智能體行為軌跡的同時,確保其行動符合需求,并保障交互的安全、合法及道德邊界。尤其在醫學診斷等敏感領域,人類監督能有效彌補數據局限性與算法能力的不足。從被動感知到主動交互的轉變智能體通過在線互動實現模型發展與進化,從第三人稱的被動感知轉向第一人稱的主動交互感知。如智能體能夠通過行為交互主動適應實際場景,如“被門擋住視線”的情況。人類與智能體交互的兩種范式具身交互分為“不平等互動”模式,即“指導者-執行者”范式,人類發布指令,智能體輔助完成任務;以及“平等互動”模式,智能體與人類共同決策,預示更加協同的未來。7.2具身智能的核心技術具身智能的學習框架:強化學習強化學習是一種通過智能體與環境交互來學習最優策略的方法。在具身智能中,智能體通過執行動作并接收環境反饋(獎勵或懲罰)來優化行為,從而不斷嘗試新的動作組合以最大化累積獎勵。獎勵觀測動作

(7-1)7.2具身智能的核心技術具身智能的學習框架:強化學習不同于有監督學習最小化預測誤差思路,強化學習的最終優化目標是最大化智能體策略在動態環境交互過程中的價值。策略的價值可以等價轉換為獎勵函數在策略占用度量上的期望,即:

在具身智能的應用中,強化學習不僅能夠幫助智能體學會執行基本任務(如行走、抓取等),還能夠通過不斷試錯和自我優化,提高智能體在復雜環境中的適應性和魯棒性。(7-2)7.2具身智能的核心技術具身智能的學習框架:模仿學習假設存在一個專家智能體,其策略可以看成一個理想的最優策略,那么具身智能體就可以通過模仿這個專家在環境中交互的狀態動作數據來訓練一個策略,并且不需要用到環境提供的獎勵信號。這類方法我們稱之為模仿學習。與強化學習不同,它是一種通過觀察專家演示來學習行為的方法。專家數據狀態動作有監督學習7.2具身智能的核心技術具身智能的學習框架:模仿學習

典型的模仿學習方法包括:行為克隆(BehaviorCloning,BC)逆強化學習(inverseRL)生成對抗模仿學習(GenerativeAdversarialImitationLearning,GAIL)7.2具身智能的核心技術具身智能的學習框架:行為克隆

(7-3)

7.2具身智能的核心技術具身智能的學習框架:行為克隆行為克隆中的復合誤差問題:行為克隆算法僅僅基于一小部分專家數據進行訓練,因此其策略僅能在這些專家數據的狀態分布范圍內做出準確預測。然而,強化學習涉及的是序貫決策問題,這意味著通過行為克隆學習到的策略在與環境進行交互時無法完全達到最優。一旦策略出現偏差,所遇到的下一個狀態可能從未在專家數據中出現過。

分布偏移問題智能體軌跡專家軌跡7.2具身智能的核心技術具身智能的學習框架:生成對抗模仿學習

對比:行為克隆算法則無需此類環境交互即可直接從專家數據中學習策略。7.2具身智能的核心技術具身智能的學習框架:生成對抗模仿學習

(7-4)

7.2具身智能的核心技術具身智能的學習框架:總結模仿學習的優點:通過不斷與環境交互,采樣最新的狀態-動作對,具備快速學習能力。由于直接利用專家的先驗知識,這種方法可以顯著減少智能體在試錯過程中所需的時間和資源。此外,模仿學習還能避免強化學習中常見的獎勵稀疏或獎勵欺騙問題,提供更穩定的引導。模仿學習的缺點:仍面臨專家演示數據局限性和偏見的問題,可能導致學習到的策略泛化能力不足。此外,模仿學習通常難以直接處理環境或任務變化帶來的不確定性,需要與其他方法結合以提高適應性。模仿學習與強化學習相融合:首先通過模仿學習快速構建基本行為模型,再利用強化學習進行微調和優化,提高模型的泛化能力和魯棒性。例如,在機器人抓取任務中,先通過模仿學習掌握基本動作,再通過強化學習優化以提高成功率。7.2具身智能的核心技術具身智能的核心技術:仿真到真實的遷移仿真到真實的遷移(Simulation-to-Real,Sim2Real)關注于將在仿真環境(如虛擬世界、模擬器等)中訓練得到的模型、算法或策略成功地遷移到現實世界中的物理實體(如機器人、自動駕駛汽車等)上,并確保其在實際應用中表現出良好的性能和穩定性。虛擬智能體實體智能體Sim2RealReal2Sim虛實循環7.2具身智能的核心技術具身智能的核心技術:仿真到真實的遷移Sim2Real的實現方法:(1)構建高精度、高逼真度的仿真環境概述:構建高精度仿真環境是實現Sim2Real的關鍵步驟,通過理解現實世界、選擇合適工具、精細建模與校準等方法,可以創建接近現實的仿真環境。引入不確定性因素并進行驗證與優化,有助于提高模型在現實世界中的性能和穩定性。方法:世界模型通過模擬環境狀態變化和預測策略效果,為Sim2Real提供準確可靠的仿真環境。它處理感知信息和數據建模,實現對物體、場景、動作等要素的準確抽象和模擬。7.2具身智能的核心技術具身智能的核心技術:仿真到真實的遷移Sim2Real的實現方法:(1)構建高精度、高逼真度的仿真環境(a)基于生成的方法Lαxy編碼器解碼器轉換(b)基于預測的方法Lαxy編碼器轉換解碼器編碼器(c)知識驅動的方法Lαxy編碼器轉換解碼器編碼器k可選具身世界模型的設計方法7.2具身智能的核心技術具身智能的核心技術:仿真到真實的遷移Sim2Real的實現方法:(2)數據驅動的方法生成多樣化模擬數據:數據驅動方法首先強調從仿真環境中生成大量、多樣化的數據,覆蓋各種物理條件、環境變化和任務場景。這些數據為模型提供豐富的訓練素材,確保其在模擬環境中表現出色并具備泛化能力。收集與整合現實數據:現實數據的收集與整合是數據驅動方法的關鍵,通過部署傳感器和記錄設備獲取高質量現實數據,校準模擬環境并驗證模型表現。這些數據幫助發現潛在偏差,提升模型在現實世界中的適用性。7.2具身智能的核心技術具身智能的核心技術:仿真到真實的遷移Sim2Real的實現方法:(2)數據驅動的方法結合模擬與現實數據優化模型:在模型訓練階段,結合模擬數據與現實數據來優化模型參數,通過預訓練和微調策略,使模型在模擬環境中學習基本技能,并通過現實數據反饋進行優化。這種方式增強了模型適應現實環境的能力。持續學習與迭代優化:數據驅動方法強調模型的持續學習與優化,通過不斷收集新的現實數據并將其用于模型再訓練與更新,確保模型緊跟環境變遷與任務需求變化。這一過程提高了模型在現實世界中的穩定性和可靠性。7.2具身智能的核心技術具身智能的核心技術:仿真到真實的遷移Sim2Real的實現方法:(2)數據驅動的方法機器人演示數據人體演示數據打開機柜切割甜椒將胡蘿卜放在盤中清洗玻璃專家演示數據用微波爐加熱湯將藍色塊放到綠色碗中打開門標注數據只用兩根手指握住刀柄視頻點云RGB+深度圖文本聲音觸覺模擬數據格式7.2具身智能的核心技術具身智能的核心技術:仿真到真實的遷移Sim2Real的實現方法:(3)域適應與域隨機化域適應:域適應使模型能夠在不同但相關的數據分布上保持高性能,即從仿真環境遷移到現實環境中。通過識別仿真與現實環境的主要差異,并利用特征對齊等技術來縮小這些差異,幫助模型忽略特定噪聲,關注有用特征。特征對齊與生成對抗網絡:特征對齊通過學習共享特征空間使仿真與現實數據表示接近,而生成對抗網絡生成具有現實特性的仿真數據,作為補充訓練集幫助模型適應現實環境。無監督或自監督方法利用未標記的現實數據微調模型,設計自監督算法捕捉現實世界的本質特征。7.2具身智能的核心技術具身智能的核心技術:仿真到真實的遷移Sim2Real的實現方法:(3)域適應與域隨機化。域隨機化:域隨機化通過增加仿真環境的復雜性和多樣性來提高模型訓練的魯棒性,通常在仿真訓練階段隨機化環境參數。這種方法不需要現實數據,依賴模擬器和廣泛的隨機化策略,鼓勵模型學習不依賴特定環境參數的特征,從而提高泛化能力,并可作為域適應的預處理步驟以加速適應過程。本章目錄7.1具身智能概述7.2具身智能的核心技術7.3具身智能的典型案例

7.4具身智能的前沿與展望17.3具身智能的典型案例具身智能任務的樹狀結構從人工智能的發展范式出發,具身系統的研究焦點在于如何更有效地適應未知環境,特別是在機器人規劃與導航等復雜任務中。具身于本體之上的智能核心,負責感知、理解、決策、控制等核心工作。智能體服務機器人導航機器人通過與環境進行多模態交互,移動到指定地點。具身智能通過與環境交互得到的反饋進行學習:反饋-動作-反饋-動作……智能體環境

機械臂通過與環境進行多模態交互,將物體移動到指定地點。智能機器人操作7.3具身智能的典型案例智能機器人操作任務智能機器人操作是一個綜合性的領域,它集成了視覺、語言等多模態輸入處理能力,旨在輸出精準的機器人動作以執行多樣化的具身智能任務,如物體抓取任務。(a)剛性物體操作-ManiSkill(b)柔性物體操作-SoftGym(c)視覺語言操作

提示:給定<img>我需要釘釘子,場景中有什么物件可能有用?預測:石頭。行動:11291381221321351061277.3具身智能的典型案例智能機器人操作任務視覺-語言-動作(VLAs)的基本概念與操作策略定義:VLAs是一種結合了視覺、語言與動作執行的更高級別任務處理框架,旨在結合視覺與語言信息,指導機器人或智能系統完成復雜任務(如清理桌面、拿取物品)。其核心在于其強大的多模態處理能力。VLA模型組成:視覺模塊負責解析圖像數據,語言模塊則理解自然語言指令,動作模塊據此生成動作指令并控制機器人執行相應的動作。三者之間通過深度協作與交互,使得模型不僅能理解復雜的場景與指令,還能靈活地執行任務,促進機器人綜合能力的全面優化與提升。7.3具身智能的典型案例智能機器人操作任務視覺-語言-動作(VLAs)的基本概念與操作策略指令:打掃房間高級任務規劃器

低級控制策略

分層機器人操作策略7.3具身智能的典型案例智能機器人操作任務視覺-語言-動作(VLAs)的具體實現——RoboticsTransformer系列模型2022年12月,谷歌推出了名為RoboticsTransformer1(RT-1)的具身智能模型,這是一種多任務處理模型,能夠將機器人的輸入和輸出動作轉換為Token形式,從而提升實時控制。從最上面的抽屜里取出薯片放到柜臺上指令圖像··1+γβFiLMEfficientNet…TokenLearnerTransformer模式手臂底部動作RT-13Hz7.3具身智能的典型案例智能機器人操作任務視覺-語言-動作(VLAs)的具體實現——RoboticsTransformer系列模型RT-2在模型設計上進行了重大創新,它將機器人的動作編碼成一種獨特的文本標記語言,這種創新性的表示方式使得RT-2能夠利用互聯網級別的龐大視覺-語言數據集進行訓練。問:這張照片的內容是什么?答:31142317055244一只灰色的驢在街上行走問:Quepuis-jefaireaveccesobjets?(法語)答:31142317055244Fairecuireungateau.問:對于<任務>機器人應該如何操作?答:132114128525156

互聯網級別的視覺問答+機器人動作數據問:對于<任務>機器人應該如何操作?答:…ViT大語言模型LLM答:132114128525156

逆標記化機器人動作描述用于機器人控制的視覺-語言-動作模型把草莓放到正確位置撿起快要掉下的袋子撿起不一樣的東西閉環機器人控制協同微調部署RT27.3具身智能的典型案例智能機器人操作任務其他VLA的典型技術預訓練視覺編碼器:通過大規模數據集的訓練,獲得能夠捕捉復雜視覺特征并生成高質量視覺表示的模型。環境動力學建模:包括利用前向動力學方程來預測物體在給定力作用下的運動軌跡,以及利用逆向動力學方程來推斷產生特定運動所需的力或力矩。世界模型視覺-語言融合機制:動作解碼器語言編碼器視覺編碼器指令狀態鍵,值動作(a)交叉注意力動作解碼器語言編碼器視覺編碼器指令狀態動作哈達瑪積(b)FilM(c)拼接動作解碼器語言編碼器視覺編碼器指令狀態動作7.3具身智能的典型案例服務機器人導航任務服務機器人導航要求機器人在未知且復雜的環境中,僅憑目標位置和多個視角的觀測(主要是視覺信息),通過集成的感知硬件與先進算法進行深度分析,并在與環境的持續交互與反饋中,高效且準確地在限定步數內抵達指定位置。視覺目標導航任務示例RGB視圖第三視角俯視圖7.3具身智能的典型案例服務機器人導航任務服務機器人導航的整體流程多模態信息智能體行為環境反饋交互輸入輸出感知硬件感知算法RGB-D攝像頭激光雷達臂端攝像頭目標檢測、視覺分割、視覺預訓練感知硬件平臺不同類型的服務機器人導航規劃算法語義地圖、邊界跟蹤、強化導航算法執行硬件輪式足式復合式行為預測算法軌跡預測、長短期目標預測、智能決策虛擬環境現實環境現實復雜環境7.3具身智能的典型案例智能導航任務的金字塔結構視覺語言導航視覺目標導航點導航復雜度上升Agent導航至距離某個特定點有一定距離的位置。在有限部分觀測輸入條件下,即缺少導航所需全局信息,輸出動作對目標位置的推測。Agent遵循自然語言指令并結合視覺觀察以及歷史軌跡學會在環境中逐步導航。7.3具身智能的典型案例智能導航任務——點導航初始化與目標定位:Agent通常在環境的原點(0,0,0)初始化,目標點通過相對原點的三維坐標指定。為了完成任務,Agent需要具備視覺感知、情景記憶構建、邏輯推理、路徑規劃及導航等能力。導航硬件與位置感知:Agent集成GPS和指南針等硬件來確定自身相對于目標的方向位置,目標坐標可以是靜態的或動態的。然而,由于室內環境中定位的不準確性,目前視覺導航工作轉向基于RGB-D的在線定位,不再依賴傳統的GPS和指南針。學習型導航方法:基于學習的點導航方法探索端到端解決方案來處理未知環境中的導航,利用多種感官輸入(如彩色圖像、深度圖及最近的觀測動作),無需真實地圖或精確姿態信息。7.3具身智能的典型案例智能導航任務——視覺目標導航任務定義與數學描述:

7.3具身智能的典型案例智能導航任務——視覺目標導航示例:(a)目標導航路徑(b)智能體觀測視角與環境左圖為成功示例,其中綠色軌跡表示成功的導航路徑;白色三角形表示智能體的視角,藍色方框標記的是目標物體。7.3具身智能的典型案例智能導航任務——視覺語言導航(VLN)沿著大廳走,進入房間,在沙發旁邊停下。視覺觀察語言指令歷史軌跡環境反饋交互動作感知VLN智能體VLN的一般框架:視覺-語言-導航(VisualLanguageNavigation,VLN)任務旨在使得Agent遵循自然語言指令并結合視覺觀察以及歷史軌跡學會在環境中逐步導航。7.3具身智能的典型案例智能導航任務——視覺語言導航(VLN)基于VLN的室內導航方案:朝著欄桿行走,然后從樓梯右經過,走進客廳向右轉,然后停在邊桌旁邊。環境語言觀察動作觀察動作AgentOracle走向圍欄,隨后向右經過樓梯。走進起居室后右轉,在桌子前停下。(1)理解語言(2)關聯視覺語言(3)動作預測借助于視覺觀察、環境交互以及獎勵機制,構建強化學習框架;利用語言指令指導Agent完成語言理解、視覺與語言關聯以及動作預測,使得智能體移動到指定位置。7.3具身智能的典型案例智能導航任務——視覺語言導航(VLN)基于VLN的室內導航方案:VLN框架的核心組成:自然語言理解與處理

視覺感知與識別

導航規劃與控制

跨模態融合與協同

朝著欄桿行走,然后從樓梯右經過,走進客廳向右轉,然后停在邊桌旁邊。環境語言觀察動作觀察動作AgentOracle走向圍欄,隨后向右經過樓梯。走進起居室后右轉,在桌子前停下。(1)理解語言(2)關聯視覺語言(3)動作預測7.3具身智能的典型案例智能導航任務——視覺語言導航(VLN)VLN的具體實現——Robo-VLN模型Robo-VLN(機器人視覺和語言導航)利用分層跨模態Agent,通過模塊化訓練與分層決策,將VLN定位為逼真模擬中的連續控制問題,從而完成長期跨模態任務。智能體由一個高級策略和一個相應的低級策略組成。高級策略是由編碼器-解碼器架構組成,其任務是將相關指令與觀察到的視覺信息通過交叉注意力機制進行特征對齊,同時利用多模態注意力解碼器獲取跨時間信息。低級策略利用模仿學習策略將子目標信息和觀察到的視覺狀態轉換為線速度和角速度,然后計算低級動作

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論