人形機器人感知硬件專題研究:人形機器人的五類感官和硬件支撐_第1頁
人形機器人感知硬件專題研究:人形機器人的五類感官和硬件支撐_第2頁
人形機器人感知硬件專題研究:人形機器人的五類感官和硬件支撐_第3頁
人形機器人感知硬件專題研究:人形機器人的五類感官和硬件支撐_第4頁
人形機器人感知硬件專題研究:人形機器人的五類感官和硬件支撐_第5頁
全文預覽已結束

付費下載

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

人形機器人感知硬件專題研究:人形機器人的五類感官和硬件支撐人形機器人加速發展,感知能力愈發重要人形機器人迅速迭代,國內外廠商加速布局特斯拉機器人迭代迅速,歷時8個月便可執行復雜動作。2022年10月,在特斯拉AIDay上,特斯拉機器人Optimus首次亮相,當時還需要人工推出,僅能完成簡單的肢體動作。而在2023年3月的投資者日中,Optimus便展現了步行以及組裝機器人的工作能力。到2023年5月的股東大會上,Optimus已經可以實現對物品的抓取等復雜動作。馬斯克提出,Optimus將面向應用場景進行快速迭代,預計在特定應用場景將快速推出量產機型。我們認為特斯拉強大的汽車供應鏈有望加速Optimus量產實現。特斯拉強大的供應鏈及解決方案有望加速人形機器人量產進程。目前人形機器人商業化量產的瓶頸主要可歸結為技術、成本和應用場景三個方面。但特斯拉在三大瓶頸方面均有特有優勢。1)技術方面,擁有FSD自動駕駛技術以及DOJOD1超級計算芯片的特斯拉在人形運動控制、硬件執行器、運動規劃算法等方面正在進行廣泛深入的底層研究;2)成本方面:研發團隊在設計階段已充分考慮量產階段的降本可行性,例如高度集成的電池、6種執行器等,強大供應鏈保障有望降低量產成本;3)應用場景:特斯拉汽車工廠將為人形機器人提供巨大的試驗田,早期版本的機器人將在工廠中進行大量訓練,并不斷迭代,解決了大多數廠商早期尋找應用場景這一大難題。傳統機器人公司技術迭代速度較慢,且并未面向應用場景設計機器人,供應鏈問題也導致機器人造價十分昂貴。以大家熟知的波士頓動力

Atlas為例,根據波士頓動力官網,波士頓動力的Atlas擁有近40年的發展歷史,1983年-2013年,從麻省理工LegLab走出來的Atlas基本完成了簡單的肢體動作和行走能力,2016年Atlas開始具有簡單的物體搬運功能,并且沒有靈巧手,2019年Atlas行走能力進一步增強,可實現后空翻等動作,并且能夠識別復雜地形,2021年,Atlas具有一定的工作能力,用簡單的靈巧手搬運物體。目前,發展了40年的Atlas仍然沒有明確的應用場景,且售價十分昂貴,達到200萬美元以上。特斯拉或在機器人行業再次帶來鲇魚效應。回顧新能源汽車在中國市場的發展史,特斯拉這條“鲇魚”對于我國新能源汽車升級與降本帶來巨大推動作用。2019年1月,特斯拉上海工廠奠基,2020年1月,特斯拉上海工廠新車交付,國產版Model3售價下調,扣除補貼后,基礎版車型售價從35.58萬元下調至29.9萬元,低廉的售價以及優良的性能對我國新能源車廠商帶來了巨大沖擊,迫使我國新能源車廠商降本提效,加速了新能源車行業的發展,同時也推動了我國消費者對新能源車的接受度提高。因此,我們認為特斯拉在機器人行業中也將扮演這條“鲇魚”,極快的迭代速度以及可預期的低廉的售價將迫使老牌機器人廠商加速發展。國內外巨頭紛紛參股或設立人形機器人研發公司。現有人形機器人產品主要為日本本田ASIMO、美國波士頓動力Atlas、美國AgilityRobot、優必選Walkers、中國小米CyberOne、以及特斯拉Optimus等。其中,日本本田、小米及特斯拉皆研發了自己的人形機器人。而波士頓動力相繼輾轉谷歌、軟銀后,目前被現代公司收購。美國AgilityRobot的2022年B+輪融資的投資者中,出現了亞馬遜及索尼。國內外巨頭紛紛下場加碼人形機器人,人形機器人有望迎來快速發展。國內外機器人創業公司也紛紛推出人形機器人或產品。國內機器人行業創業公司如追覓科技、達闥科技等先后推出自己的雙足人形機器人,國內四足機器人領先企業宇樹科技也在加入到人形機器人的研發中,騰訊RoboticsX實驗室推出自研機器人靈巧手“TRX-Hand”和機械臂“TRX-Arm”,為其后續在機器人行業的發展作出鋪墊,華為于2023年6月注冊成立東莞極目機器有限公司,正式進軍機器人領域,注冊資本8.7億元。國外方面,OpenAI

在A2輪領投挪威人形機器人公司1XTechnologies,旨在將其強大的AI系統與實體機器人結合起來,從而為AGI的發展奠定基礎。人形機器人浪潮下,類人型機器人也迎來快速發展,但人形機器人仍然是各大廠商的主要目標。隨著人形機器人浪潮襲來,類人型機器人如四足機器人也迎來了快速發展,成為各大廠商的必爭之地,早在2021年3月騰訊便發布多模態四足機器人Max,并在2022年8月推出Max二代,小米于2021年8月發布第一代四足機器人鐵蛋,小鵬鵬行機器也于2022年7月發布首款四足機器人。此外一些在機器人領域深耕多年的創業公司也擁有自己的標桿四足機器人產品,例如宇樹科技的A1、云深處的絕影X20、蔚藍科技的E系列、優寶特的YoBoGo。國外較為出名的四足機器人有波士頓動力的Spot、IIT的HyQReal。但人形機器人相較于仿人形機器人仍有較大優勢:(1)仿生步態下運動能力較傳統履帶/四輪/雙輪機器人大幅提升;(2)靈巧手可實現雙手配合和工具替換,較工業機器人技能更廣;(3)依靠算法能力實現復雜環境識別并實施決策。預計到2027年,全球人形機器人市場規模將達到141億美元。根據優必選招股書,弗若斯特沙利文預計2026年全球智能服務機器人產品及解決方案的市場規模將達到676億美元,2021年到2026年CAGR達到25%。而根據StratisticsMarketResearchConsulting數據,全球人形機器人市場規模將在2027年達到141億美元,2020年到2027年CAGR達到58%。人形機器人是具身智能的重要載體,AI發展賦能機器人感知人工智能的下一個浪潮將是具身智能。在ITFWorld2023半導體大會上,英偉達創始人兼首席執行官黃仁勛表示,人工智能的下一個浪潮將是具身智能,即能理解、推理、并與物理世界互動的智能系統。具身智能是具有身體體驗的智能。1950年,圖靈在他的論文“ComputingMachineryandIntelligence”中首次提出了具身智能的概念。之后的幾十年里,大家都覺得這是一個很重要的概念,但是由于技術限制,具身智能并未有很好的發展。從認知的角度來看,人類是第一人稱視角的智能,用1963年的實驗來說明,有兩只貓,一直貓被綁起來,只能看這個世界,另一只貓可以主動去走。被動的貓是一種旁觀的智能,而主動的貓是具身的智能。到最后,這只旁觀的貓失去了行走能力。當機器可以主動感知世界時,人工智能也就變成了第一人稱的智能,也就無限接近于人類。具身智能由具身感知、具身想象和具身執行三個基礎模塊構成。上海交通大學盧策吾教授在機器之心AI科技年會中提出了PIE方案,即具身感知(Perception)、具身想象(Imagination)和具身執行(Execution)。PIE方案幫助機器模擬了人類的思維及行動方式,即機器人首先需要識別物體,然后通過交互感知物體,再通過數字孿生進行仿真模擬,利用最好的結果去執行。盧教授也演示了機器人如何抓取被打碎的陶瓷瓶碎片,對于不規整的碎片,機器人總是能成功抓取。作為具身智能的大腦,多模態大模型更符合人類大腦接受與處理信息的方式。從人類接受信息的角度看,我們所接收到真實世界的信息來自于多模態的數據源,如語音、文本、圖像等,而單模態預訓練模型只涵蓋了單一模態的信息,無法對人類的信息獲取、環境感知、知識學習與表達的主動學習過程進行有效表達,不同模態之間的隱式交互信息并未被充分利用與學習。“GPT一小步,多模態AI的一大步”,GPT-4支持圖片和文本類信息同時輸入。GPT-4是由OpenAI發布的大型多模態模型,它不僅能與用戶一起生成、編輯,完成創意的迭代和技術寫作任務,更重要的是,它還能讀懂圖片。多模態感知是實現通用人工智能的必要條件,無論是知識/能力獲取還是與現實物理世界的交互,這也是其與上一代GPT的主要區別。在GPT-4中,多模態輸入的圖像和文本基于Transformer作為通用接口,圖形感知模塊與語言模塊對接進行進一步計算。基于Transformer技術,GPT-1只有12層,而到了GPT-3,則增加到96層。GPT-4增加了額外的視覺語言模塊,理論上具有更大的模型尺寸和輸入窗口。語言方面,以ChatGPT為代表的大模型已具備協助機器人處理語言,從而可以高效地對感知信息進行交互,如人類通過自然語言對機器人進行調試。根據微軟SaiVemprala等最新的論文:“目前的機器人需要專門的工程師不斷編寫新的代碼來修正機器人的行為,而我們使用ChatGPT的目標是讓非技術用戶參與到修正過程中,通過高級語言命令與語言模型交互,無縫部署各種平臺和任務。”如果付諸實踐,AI有望幫助編寫新代碼和規范來糾正機器人的行為,因此允許了不懂技術的廣大用戶提供反饋,輕松地與機器人互動,直到用戶對機器人的處理解決方案滿意為止,再將這個代碼部署到機器人上,一個調試就結束了。視覺方面,谷歌推出ViT統一了CV和NLP框架,用于圖像識別。ViT模型將語言模型的transformer架構用于視覺模型,代替了傳統的CNN,統一了CV和NLP的架構。2020年10月,谷歌推出VisionTransformer(ViT)模型,證明了不使用CNN,直接將Transformer結構應用于視覺模型也可以很好地執行圖像分類任務。Transformer將句子中的每個詞(token)并行輸入編碼器,ViT直接將圖像拆分為多個塊,將每個塊的位置和包含的圖像信息當做是一個詞,輸入到編碼器中,訓練好的編碼器可以將圖像輸出為一個包含了圖像特征的編碼,類似于在語言模型中將一句話輸出為一個包含了語言信息的編碼,之后通過MLP層將編碼器的輸出轉化為不同分類的概率。信息處理方面,算法模型與軟硬件一起集成為可供機器人“思考”的“大腦”。如谷歌發布RoboCat,其基于谷歌的多模態模型Gato,可以在模擬和物理環境中處理語言、圖像和動作。通過將Gato的架構與一個大型訓練數據集結合起來,該數據集由各種機器人手臂的圖像序列和動作組成,可以解決數百種不同的任務。RoboCat先通過機器視覺觀察由人工操作的機械臂完成任務,搜集數據后通過在物理和虛擬環境中進行練習,通過練習生成新的訓練數據,合并進入訓練集,用于新版本的訓練,從而學會此次任務。學會此次任務的RoboCat可被移植到新的機械臂上,對新的機械臂進行微調后執行相同的任務,RoboCat在幾小時內觀察1000次人工演示后,可以靈巧的指揮新手臂抓取齒輪,成功率高達86%。RoboCat的出現為未來更加通用的機器人出現打下基礎。人工智

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論