




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
汽車(chē)自動(dòng)駕駛算法行業(yè)市場(chǎng)分析
1、自動(dòng)駕駛一一數(shù)據(jù)驅(qū)動(dòng)下的算法迭代
1.1、自動(dòng)駕駛算法是感知、預(yù)測(cè)、規(guī)劃、控制的結(jié)合體
自動(dòng)駕駛算法反應(yīng)了工程師們根據(jù)人的思維模式,對(duì)自動(dòng)駕駛所需處
理過(guò)程的思考,通常包含感知、預(yù)測(cè)、規(guī)劃模塊,同時(shí)輔助一些地圖、
定位等模塊,實(shí)現(xiàn)自動(dòng)駕駛功能的落地。
感知:感知外部世界
感知模塊主要解決四類任務(wù):(1)檢測(cè):找出物體在環(huán)境中的位置;
(2)分類:明確對(duì)象是什么,如分辨不同類別交通標(biāo)志;(3)跟蹤:
隨著時(shí)間的推移觀察移動(dòng)物體,通常采用跨幀追蹤對(duì)象(將不同幀中
檢測(cè)到的對(duì)象進(jìn)行匹配)、BEV加入時(shí)序信息等實(shí)現(xiàn);(4)語(yǔ)義分
割:將圖像中的每個(gè)像素與語(yǔ)義類別匹配,如道路、天空、汽車(chē)等,
用于盡可能詳細(xì)了解環(huán)境。以Apollo感知算法框架為例,其算法包
含預(yù)處理、神經(jīng)網(wǎng)絡(luò)模型、后處理等模塊。首先圖像預(yù)處理主要是對(duì)
圖像進(jìn)行調(diào)整、畸變校正等,使之更符合機(jī)器學(xué)習(xí)的要求。其次分別
對(duì)紅綠燈、車(chē)道線、障礙物等特征進(jìn)行檢測(cè),其中紅綠燈通過(guò)檢測(cè)邊
框、顏色等進(jìn)行進(jìn)一步的識(shí)別;障礙物則經(jīng)過(guò)2D到3D的轉(zhuǎn)換,得
出真實(shí)的信息坐標(biāo),再融合車(chē)道線檢測(cè)信息、外部傳感器信息等得出
真實(shí)世界的障礙物信息。該部分通常采用全卷積神經(jīng)網(wǎng)絡(luò)或者YOLO
等算法實(shí)現(xiàn)。
1.1.2.預(yù)測(cè):理解外部環(huán)境和當(dāng)前狀態(tài)
預(yù)測(cè)模塊實(shí)際上是算法對(duì)外部環(huán)境和自車(chē)狀態(tài)的理解。預(yù)測(cè)模塊首先
收集感知模塊輸入的車(chē)道線、障礙物、紅綠燈、地圖、定位等信息對(duì)
主車(chē)的狀況進(jìn)行判斷。其次場(chǎng)景感知模塊對(duì)外部障礙物的優(yōu)先級(jí)、路
權(quán)等外部環(huán)境對(duì)主車(chē)的影響進(jìn)行感知。評(píng)估器則會(huì)根據(jù)場(chǎng)景信息和障
礙物信息判斷出障礙物的軌跡或意圖。預(yù)測(cè)器則根據(jù)短期的預(yù)測(cè)軌跡
和意圖判斷障礙物等外部環(huán)境相對(duì)長(zhǎng)期的軌跡。這將為未來(lái)汽車(chē)的規(guī)
劃提供重要的參考。算法層面通常以RNN為主。
圖3:百度Apollo的算法中,預(yù)測(cè)模塊包含場(chǎng)景理解、評(píng)估、預(yù)測(cè)等環(huán)節(jié)
感際信息容濤場(chǎng)景感際評(píng)估涔預(yù)測(cè)涔
埼票管理!-
逐ffl
1.1.3、規(guī)劃:思考如何行動(dòng)
規(guī)劃指找到合理路徑來(lái)到達(dá)目的地。規(guī)劃通常分為全局路徑規(guī)劃、行
為規(guī)劃與運(yùn)動(dòng)規(guī)劃幾個(gè)部分。其中,全局路徑規(guī)劃指智能汽車(chē)依靠地
圖規(guī)劃出理想狀態(tài)下到達(dá)目的地的路徑。行為規(guī)劃則是主車(chē)在實(shí)際行
駛的過(guò)程中,面臨實(shí)時(shí)的交通環(huán)境,做出的各類駕駛行為,如跟車(chē)、
換道、避讓等。運(yùn)動(dòng)規(guī)劃生成與駕駛行為對(duì)應(yīng)的駕駛軌跡,包含路徑
規(guī)劃和速度規(guī)劃。最后再采用一些優(yōu)化方式讓變道加速等行為變得平
順以滿足舒適性要求。算法層面,通常采用基于規(guī)則的規(guī)劃決策算法,
前沿的玩家也開(kāi)始引入機(jī)器學(xué)習(xí)等方式,以提升決策效能。
1.2、數(shù)據(jù):算法的養(yǎng)料,現(xiàn)實(shí)與虛擬的交織
算法、算力和數(shù)據(jù)是人工智能的三大要素,數(shù)據(jù)在模型訓(xùn)練中擁有不
可忽視的影響。一方面,Transformer等大模型在大體量數(shù)據(jù)集訓(xùn)練
下才能表現(xiàn)更佳的特性帶來(lái)其對(duì)訓(xùn)練端數(shù)據(jù)的要求激增,特斯拉在
2022年AIDAY上曾表示,訓(xùn)練其占用網(wǎng)絡(luò)采用了14億幀圖像數(shù)據(jù)。
另一方面,由于自動(dòng)駕駛面臨的場(chǎng)景紛繁復(fù)雜,諸多長(zhǎng)尾問(wèn)題需要在
現(xiàn)實(shí)或虛擬場(chǎng)景中獲取。因此數(shù)據(jù)閉環(huán)在自動(dòng)駕駛領(lǐng)域彌足重要。毫
末智行將數(shù)據(jù)作為“自動(dòng)駕駛能力函數(shù)”的自變量,認(rèn)為是決定能力發(fā)
展的關(guān)鍵,Momenta也曾表示,L4要實(shí)現(xiàn)規(guī)模化,至少要做到人類
司機(jī)的安全水平,最好比人類司機(jī)水平高一個(gè)數(shù)量級(jí),因此需要至少
千億公里的測(cè)試,解決百萬(wàn)長(zhǎng)尾問(wèn)題。
數(shù)據(jù)挖掘和針對(duì)性的訓(xùn)練能顯著減少CornerCaseo以特斯拉為例,
在面臨一個(gè)看起來(lái)像臨時(shí)停車(chē)但實(shí)際上是永久停車(chē)的場(chǎng)景時(shí),最初算
法會(huì)將其判定為臨時(shí)停車(chē)。當(dāng)特斯拉通過(guò)數(shù)據(jù)挖掘在訓(xùn)練集中增加了
1.4萬(wàn)個(gè)類似場(chǎng)景的視頻并訓(xùn)練模型后,神經(jīng)網(wǎng)絡(luò)便理解了這輛車(chē)?yán)?/p>
面沒(méi)有司機(jī),將其判別為永久停車(chē)。
2、大模型橫空出世,自動(dòng)駕駛奇點(diǎn)來(lái)臨
早期自動(dòng)駕駛方案采用激光雷達(dá)+高精度地圖為主。早期市場(chǎng)以傳統(tǒng)
計(jì)算機(jī)視覺(jué)和專家系統(tǒng)為基礎(chǔ)構(gòu)建輔助駕駛功能,隨后人工智能的蓬
勃發(fā)展讓深度學(xué)習(xí)在自動(dòng)駕駛領(lǐng)域被廣泛使用,以waymo為代表的
自動(dòng)駕駛先驅(qū)玩家開(kāi)創(chuàng)了激光雷達(dá)+高精度地圖的感知范式,Cruise.
白度等巨頭紛紛效仿。該方案中,對(duì)道路結(jié)構(gòu)、車(chē)道線等靜態(tài)環(huán)境元
素的感知強(qiáng)依賴高精度地圖,而實(shí)時(shí)的動(dòng)靜態(tài)障礙物信息則強(qiáng)依賴激
光雷達(dá)。高精地圖成為一項(xiàng)“基礎(chǔ)設(shè)施”,將很多在線難以解決的問(wèn)題
提前存儲(chǔ)到地圖數(shù)據(jù)中,行車(chē)時(shí)作為一項(xiàng)重要的感知數(shù)據(jù)來(lái)源,減輕
傳感器和控制器的壓力。由于該方案只能在有圖地區(qū)行駛,也被一些
人形象的稱為“有軌電車(chē),
高昂的單車(chē)成本和高精度地圖成為自動(dòng)駕駛大規(guī)模推廣瓶頸。
Robotaxi成本高昂(Yole統(tǒng)計(jì)早期Waymo為代表的的自動(dòng)駕駛汽
車(chē)改裝成本約為20萬(wàn)美元),高精度地圖采集制作以及合規(guī)要求繁
雜(量產(chǎn)落地過(guò)程中,高精度地圖面臨:采集成本高;人工修圖制圖
費(fèi)時(shí)費(fèi)力;地圖鮮度不足;國(guó)內(nèi)法規(guī)嚴(yán)格等困難),帶來(lái)該方案的泛
化性較差。經(jīng)過(guò)數(shù)十年的發(fā)展,Robotaxi的使用范圍仍被限制在特
定區(qū)域,使用對(duì)象也僅局限在商用車(chē)領(lǐng)域。市場(chǎng)亟待出現(xiàn)一種單車(chē)性
能強(qiáng)大、成本低廉的自動(dòng)駕駛解決方案。
2.1.BEV+Transformer橫空出世,大模型推動(dòng)自動(dòng)駕駛邁向普及
2021年特斯拉推出BEV+transformer、重感知輕地圖的自動(dòng)駕駛解
決方案,開(kāi)啟了自動(dòng)駕駛行業(yè)新的篇章。
2.1.1、BEV感知助力成為感知外部世界標(biāo)準(zhǔn)范式
BEV全稱為Bird'sEye-View(鳥(niǎo)瞰圖),即通過(guò)神經(jīng)網(wǎng)絡(luò)將各個(gè)攝
像頭和傳感器獲取的信息進(jìn)行融合,生成基于俯視的“上帝視角”的鳥(niǎo)
瞰圖,同時(shí)加入時(shí)序信息,動(dòng)態(tài)的對(duì)周邊環(huán)境進(jìn)行感知輸出,便于后
續(xù)預(yù)測(cè)規(guī)劃模塊使用。正如人類一樣,駕駛行為需要將各處觀察到的
信息綜合到統(tǒng)一的空間中,來(lái)判別什么地方是可以行駛的區(qū)域。究其
原因,駕駛行為是在3D空間中的行為,而鳥(niǎo)瞰圖則是將2D的透視
空間圖像轉(zhuǎn)換為3D空間,不存在距離尺度問(wèn)題和遮擋問(wèn)題,使得算
法可以直觀的判斷車(chē)輛在空間中的位置以及與其他障礙物之間的關(guān)
系。
2.1.2、Transformer大模型為構(gòu)建BEV空間提供最優(yōu)解
2021年特斯拉在AIDay上第一次將BEV+transformer的算法形式引
入到自動(dòng)駕駛,開(kāi)啟了自動(dòng)駕駛的嶄新時(shí)代。首先BEV空間的構(gòu)建,
實(shí)際上就是尋找一種恰當(dāng)?shù)姆绞剑瑢⒍鄠€(gè)2D的圖像和傳感器信息綜
合轉(zhuǎn)化成為一個(gè)3D的向量空間。經(jīng)過(guò)多次嘗試,特斯拉最終引入了
Transformer大模型來(lái)實(shí)現(xiàn)這一轉(zhuǎn)換。Transformer大模型是近年人
工智能領(lǐng)域的熱門(mén)算法,其主要通過(guò)注意力機(jī)制來(lái)分析關(guān)注元素之間
的關(guān)系進(jìn)而理解外部世界。早年被應(yīng)用于自然語(yǔ)言處理領(lǐng)域,后續(xù)延
展到計(jì)算機(jī)視覺(jué)等多個(gè)方向。算法的優(yōu)勢(shì)顯著:
具有更好的全局信息感知能力:Transformer模型更關(guān)注圖像特征之
間的關(guān)系,因此會(huì)跟多關(guān)注整個(gè)圖像的信息,卷積神經(jīng)網(wǎng)絡(luò)更多關(guān)注
固定大小區(qū)域的局部信息,因此Transformer在面對(duì)圖像中長(zhǎng)程依賴
性的問(wèn)題擁有更好的表現(xiàn)。
天花板高企適用于大規(guī)模數(shù)據(jù)訓(xùn)練場(chǎng)景:在圖像識(shí)別能力方面,
Transformer擁有更高的上限,隨著訓(xùn)練數(shù)據(jù)量的增長(zhǎng),傳統(tǒng)CNN
模型識(shí)別能力呈現(xiàn)飽和態(tài)勢(shì),而Transformer則在數(shù)據(jù)量越大的情況
下?lián)碛懈玫谋憩F(xiàn)。而自動(dòng)駕駛洽洽為面向海量的數(shù)據(jù)場(chǎng)景,要求有
足夠好的精度的場(chǎng)景。
擁有多模態(tài)感知能力:Transformer可實(shí)現(xiàn)多模態(tài)數(shù)據(jù)的處理,應(yīng)對(duì)
圖像分類、目標(biāo)檢測(cè)、圖像分割功能,并實(shí)現(xiàn)對(duì)3D點(diǎn)云、圖像等數(shù)
據(jù)的融合處理。
靈活、較好的泛化性能:Transformer可適用于不同大小的輸入圖像,
同時(shí)外部環(huán)境包含擾動(dòng)的情況下仍能保持較好的檢測(cè)性能。
但CNN網(wǎng)絡(luò)在提取底層特征和視覺(jué)結(jié)構(gòu)方面有比較大的優(yōu)勢(shì),而在
高層級(jí)的視覺(jué)語(yǔ)義理解方面,需要判別這些特征和結(jié)構(gòu)之間的如何關(guān)
聯(lián)而形成一個(gè)整體的物體,采用Transformer更加自然和有效。同時(shí)
CNN也擁有更好的效率,可以采用更低的算力實(shí)現(xiàn)效果。因此業(yè)界
通常會(huì)將CNN和Transformer結(jié)合來(lái)進(jìn)行物體識(shí)別。
2.1.3.特斯拉引領(lǐng)打開(kāi)自動(dòng)駕駛天花板
特斯拉的自動(dòng)駕駛算法結(jié)構(gòu)中,首先將攝像頭信息無(wú)損采集,送入卷
積神經(jīng)網(wǎng)絡(luò)Regnet來(lái)提取不同尺度的圖像特征,接著使用BiFPN進(jìn)
行特征融合,然后將這些特征送入Transformer模塊,利用
Transformer中的多頭注意力機(jī)制來(lái)實(shí)現(xiàn)2D圖像特征到三維向量空
間的轉(zhuǎn)換和多攝像頭特征系信息的融合,之后接入不同的“頭”如交通
標(biāo)志檢測(cè)、障礙物檢測(cè)等,來(lái)實(shí)現(xiàn)不同任務(wù)的處落地,形成一套優(yōu)雅
的,可完美實(shí)現(xiàn)數(shù)據(jù)驅(qū)動(dòng)的感知算法。由十不同的“頭”之間采用了共
享的特征提取網(wǎng)絡(luò),因此被特斯拉起名為‘九頭蛇”算法架構(gòu)。
特斯拉的BEV+Transformer算法中兩個(gè)環(huán)節(jié)尤為關(guān)鍵:
(1)2D圖像到3D空間的轉(zhuǎn)換以及圖像融合:在2D圖像到3D向
量空間轉(zhuǎn)換的環(huán)節(jié),特斯拉在行業(yè)內(nèi)首次引入了Transformer。具體
而言,先構(gòu)建一個(gè)想要輸出的三維的柵格空間,并對(duì)其進(jìn)行位置編碼
成為查詢向量(Query),然后將每個(gè)圖像和自己的特征輸出相應(yīng)的
查詢鍵碼(Key)和值(Value),最終輸入到注意力機(jī)制中輸出想
要的結(jié)果。類似于每個(gè)圖像中的特征都廣播自己是什么物體的一部分,
而每個(gè)輸出空間的位置像素像拼圖一樣,尋找對(duì)應(yīng)的特征,最終構(gòu)建
出希望輸出的向量空間。(Query、Key、Value分別為T(mén)ransformer
算法中的參數(shù),通過(guò)將外部世界轉(zhuǎn)化為參數(shù)而實(shí)現(xiàn)信息處理和任務(wù)輸
出)
(2)加入時(shí)序信息,讓算法擁有“記憶”:為了讓自動(dòng)駕駛算法捱有
類似一段時(shí)間內(nèi)“記憶”的能力,特斯拉在感知網(wǎng)絡(luò)架構(gòu)中加入了時(shí)空
序列特征層。通過(guò)引入慣性導(dǎo)航傳感器獲取的包含速度和加速度等自
車(chē)運(yùn)動(dòng)的信息,算法模型可獲取時(shí)間和空間的記憶能力。具體而言,
特斯拉給算法加入特征隊(duì)列模塊(FeatureQueue),他會(huì)緩存一些
特征值(包含歷史幀的BEV特征、慣導(dǎo)傳感器信息等),便于了解
車(chē)輛行動(dòng),這個(gè)序列包含時(shí)間和空間記憶。然后引入視頻模塊(Video
Module)使用空間循環(huán)神經(jīng)網(wǎng)絡(luò)(SpatialRNN)/transformer等算
法將前述緩存的特征進(jìn)行融合,關(guān)聯(lián)前后時(shí)刻信息,使得模型具有記
憶能力,讓自動(dòng)駕駛汽車(chē)將?同時(shí)能夠記住上一段時(shí)間和上一段位置的
檢測(cè)信息。
圖14:杵斯拉為感知部分加入時(shí)序信息已增強(qiáng)其“記憶”
時(shí)序信息融合
.計(jì)征序列(存儲(chǔ)時(shí)序信息)
車(chē)輛運(yùn)動(dòng)學(xué)信息
Multi-C4m<fafusion&BEVtransform1多攝像頭融合及BEV視角轉(zhuǎn)換
2PN
共享皆干網(wǎng)絡(luò)提取圖像特征
2.1.4.BEV+Transformer大模型提供遠(yuǎn)強(qiáng)于傳統(tǒng)自動(dòng)駕駛算法的感
知能力
(1)改善2D-3D空間轉(zhuǎn)換過(guò)程中深度預(yù)測(cè)難點(diǎn),感知性能大幅提升
弓I入BEV+Transfo「mer后,模型對(duì)于2D空間向3D空間轉(zhuǎn)換的精度
大幅提高。構(gòu)建BEV模型一大重要任務(wù)是實(shí)現(xiàn)2D圖片到3D空間的
轉(zhuǎn)換,通常業(yè)內(nèi)有四大類方式實(shí)現(xiàn)2D-3D視角轉(zhuǎn)換:早期通常以基
于相機(jī)內(nèi)外參數(shù)(焦距、光芯、俯仰角、偏航角和地面高度)的兒何
變換的IPM(逆透視變換)實(shí)現(xiàn),由于該方式基于地面純平、俯仰角
一定的假設(shè),約束條件實(shí)現(xiàn)難度高;后續(xù)英偉達(dá)推出BEV行業(yè)的開(kāi)
山之作LSS算法,但由于其計(jì)算量龐大以及精度仍然有限,難以支
撐BEV的真正落地;其后學(xué)界業(yè)界探索了眾多方案,包含基于神經(jīng)
網(wǎng)絡(luò),通過(guò)監(jiān)督學(xué)習(xí)數(shù)據(jù)驅(qū)動(dòng)實(shí)現(xiàn)BEV空間構(gòu)建等方式,但深度估
計(jì)的精度均不盡人意。2021年,特斯拉首次將Transformer應(yīng)用于
BEV空間的構(gòu)建,在多攝像頭視角下,相比傳統(tǒng)感知方式,大幅提
升了感知精度,該方案推出后也迅速被業(yè)界廣泛追捧。
(2)完美實(shí)現(xiàn)多攝像頭、多傳感器的信息融合,極大方便后續(xù)規(guī)控
任務(wù)
BEV+Transformer實(shí)際上引入“特征級(jí)融合”(中融合)方式。通常自
動(dòng)駕駛汽車(chē)擁有6-8個(gè)攝像頭以及其他多種傳感器,在感知過(guò)程中,
需要將各類傳感器的信息進(jìn)行融合。傳感器融合大體可分為幾大類:
數(shù)據(jù)級(jí)融合(前融合):直接將傳感器采集的數(shù)據(jù)如圖像和點(diǎn)云融合。
該方案優(yōu)勢(shì)在于數(shù)據(jù)損失少,融合效果好,但時(shí)間同步、空間同步要
求達(dá)到像素級(jí)別,難度較高,需要對(duì)每個(gè)像素計(jì)算,對(duì)算力消耗大,
目前少有使用。
目標(biāo)級(jí)融合(后融合):將每個(gè)傳感器采集信息并處理后的目標(biāo)進(jìn)行
融合。該方案是此前自動(dòng)駕駛主流采用的方案,被廣泛應(yīng)用于攝像頭
之間、不同傳感器之間的信息融合。優(yōu)勢(shì)在于算法簡(jiǎn)單、解耦性好即
插即用。但也存在致命問(wèn)題,由于融合前的處理?yè)p失了大量關(guān)鍵信息,
影響感知精度,融合結(jié)果容易沖突或錯(cuò)誤。此外后融合中的融合算法
仍然基于規(guī)則,無(wú)法進(jìn)行數(shù)據(jù)驅(qū)動(dòng),存在局限性。
特征級(jí)融合(中融合):則將原始傳感器采集的數(shù)據(jù)經(jīng)過(guò)特征提取后
再將特征向量進(jìn)行融合。該方案的優(yōu)勢(shì)在于,數(shù)據(jù)損失少、將目標(biāo)“分
解”為特征,更容易在不同相機(jī)和傳感器之間關(guān)聯(lián),融合效果好。在
BEV+transformer算法中實(shí)際上均采用中融合的方式。
以路過(guò)大型卡車(chē)場(chǎng)景為例,障礙物某個(gè)時(shí)刻在5個(gè)攝像頭中同時(shí)出現(xiàn),
且每個(gè)攝像頭只能觀察到車(chē)的某個(gè)部分。傳統(tǒng)算法通常會(huì)分別在每個(gè)
攝像頭內(nèi)完成檢測(cè),再融合各攝像頭的結(jié)果。通過(guò)部分信息識(shí)別出卡
車(chē)整體的特征及其困難,且一旦完成物體險(xiǎn)測(cè),相當(dāng)于“腦補(bǔ)”了看不
到的部分,誤差較大拼接困難,經(jīng)常會(huì)識(shí)別為多個(gè)目標(biāo)或漏檢。而
BEV+Transformer通過(guò)特征級(jí)融合,完美生成鳥(niǎo)瞰視角下的場(chǎng)景,
并且識(shí)別精度更高。
(3)更易融入時(shí)序信息,模型擁有“記憶”,避免遮擋等問(wèn)題
感知算法中,時(shí)序融合能夠大幅提升算法連續(xù)性,對(duì)障礙物的記憶可
解決遮擋問(wèn)題,更好的感知速度信息,對(duì)于道路標(biāo)志的記憶可提升駕
駛安全和對(duì)汽車(chē)車(chē)輛行為預(yù)測(cè)的準(zhǔn)確度,增強(qiáng)算法的可靠性和精度。
在BEV+transformer算法中,由于所有的感知被統(tǒng)一到3D鳥(niǎo)瞰圖空
間,通過(guò)將不同時(shí)間和不同位置的特征關(guān)聯(lián)可很容易的實(shí)現(xiàn)時(shí)序信息
的融合。如在面對(duì)遮擋場(chǎng)景時(shí),帶有時(shí)序信息的自動(dòng)駕駛算法感知效
果遠(yuǎn)優(yōu)于基于單幀圖像感知的算法。同時(shí)也更便于下游的規(guī)劃控制算
法實(shí)現(xiàn)對(duì)障礙物的追蹤。
(4)汽車(chē)擁有實(shí)時(shí)建圖能力,擺脫對(duì)高精度地圖的依賴
BEV+Transformer算法可在車(chē)端實(shí)時(shí)構(gòu)建媲美高精地圖的高精度局
部地圖,能夠在任意常規(guī)道路條件下,實(shí)現(xiàn)自動(dòng)駕駛所需的靜態(tài)場(chǎng)景
深刻理解,然后以此為基礎(chǔ),端到端的輸出障礙物的軌跡和速度、車(chē)
道線信息等,實(shí)現(xiàn)復(fù)雜場(chǎng)景下的自動(dòng)駕駛應(yīng)用,而不需要依賴高精地
圖。使得算法的泛化性大幅提升,成本也大幅下降。
2.2、占用網(wǎng)絡(luò)提供3D世界感知,形成通用障礙物識(shí)別能力
占用網(wǎng)絡(luò)構(gòu)建通用障礙物感知體系,提升對(duì)未知物體感知效果。直接
在矢量空間產(chǎn)生統(tǒng)一的體積占用數(shù)據(jù),對(duì)于車(chē)子周?chē)我獾囊粋€(gè)3D
位置,它預(yù)測(cè)了該位置被占用的概率,對(duì)每個(gè)位置它還會(huì)產(chǎn)生一定的
語(yǔ)義信息比如路邊、汽車(chē)、行人、或者路上的碎片等等,用不同的顏
色標(biāo)出,同時(shí)觀測(cè)速度信息,形成“占用柵格”'柵格流(描述速度信
息)”+弱語(yǔ)義的表達(dá)形式。對(duì)特斯拉而言,即將原有Transformer算
法輸出的2DBEV+時(shí)序信息的向量空間增加高度信息,形成3DBEV+
時(shí)序信息的4D空間表達(dá)形式。網(wǎng)絡(luò)在FSD上每10ms運(yùn)行一次,
即以100FPS的速度運(yùn)行,模型檢測(cè)速度大幅提升。
占用網(wǎng)絡(luò)優(yōu)勢(shì)顯著:(1)其改變了神經(jīng)網(wǎng)絡(luò)算法先“認(rèn)識(shí)”才能‘識(shí)別”
的特性,形成了動(dòng)靜態(tài)物體統(tǒng)一的障礙物感知方式,可大幅減少
Cornercase,提升安全性。(2)擺脫檢測(cè)框的約束,對(duì)不規(guī)則外形
障礙物的感知能力大大增強(qiáng)。(3)對(duì)特斯拉來(lái)說(shuō),通用障礙物感知
能力可以復(fù)用到其他產(chǎn)品如機(jī)器人上,形成了統(tǒng)一的算法框架。
占用網(wǎng)絡(luò)的構(gòu)建并非單獨(dú)算法上得演進(jìn),而是體系能力的提升。3D
空間的距離真值獲取實(shí)際上較為困難,即使擁有激光雷達(dá),其稀疏的
點(diǎn)云信息仍然難以滿足占用網(wǎng)絡(luò)的訓(xùn)練需求,而由于仿真環(huán)境中距離
真值信息可以直接獲取,因此占用網(wǎng)絡(luò)的構(gòu)建幾乎和強(qiáng)大的仿真場(chǎng)景
構(gòu)建相輔相成。
2.3、規(guī)控算法由基于規(guī)則邁向基于神經(jīng)網(wǎng),大模型開(kāi)始嶄露頭角
2.3.1>人工智能逐步滲透進(jìn)入規(guī)控算法
發(fā)力安全性、舒適性和效率,規(guī)控算法成為當(dāng)前頭部玩家主攻方向。
人能夠基于非常有限的感知信息完美實(shí)現(xiàn)駕駛行為,很大程度因?yàn)槿?/p>
類擁有強(qiáng)大的“規(guī)控”能力。對(duì)自動(dòng)駕駛而言,采取一種讓安全性、舒
適性和效率都達(dá)到最大化的駕駛策略無(wú)疑是各大廠商不懈追求的目
標(biāo)。而該環(huán)節(jié)也直接決定了自動(dòng)駕駛功能的消費(fèi)者體驗(yàn),目前頭部玩
家已經(jīng)將主攻方向轉(zhuǎn)移到規(guī)控算法領(lǐng)域。
a24:自動(dòng)駕駛的目標(biāo):安全、仔適、效率
“擬人化”、強(qiáng)泛化性,人工智能推動(dòng)自動(dòng)駕駛“老司機(jī)'上線。規(guī)控算
法的難度較高,存在諸多非確定(如輔路與干道沒(méi)有綠化帶隔離,輔
路的車(chē)輛可隨時(shí)進(jìn)入干道)、強(qiáng)交互(如多個(gè)物體在同一場(chǎng)環(huán)境下決
策會(huì)相互影響,存在一定博弈性)、強(qiáng)主觀(如駕駛員的駕駛風(fēng)格,
很難用有限標(biāo)準(zhǔn)量化表示)的場(chǎng)景。同時(shí)涉及交通法規(guī)等一系列問(wèn)題。
早年的算法通常采用基于專家知識(shí)和規(guī)則的模式為主,由于基于規(guī)則
的系統(tǒng)需要不斷補(bǔ)充新的規(guī)則以實(shí)現(xiàn)對(duì)各類環(huán)境的良好應(yīng)付,日積月
累代碼量龐大,占用算力資源,且不易維護(hù)。因此依靠數(shù)據(jù)驅(qū)動(dòng)的基
于人工智能的規(guī)控算法日益走向臺(tái)前。面對(duì)復(fù)雜的外部環(huán)境,人工智
能模型能夠更加平滑的以“類人”的方式對(duì)駕駛行為進(jìn)行處理,泛化能
力強(qiáng)、舒適性好,應(yīng)對(duì)復(fù)雜場(chǎng)景的能力大幅提升C
兼顧“安全”和“性能”,神經(jīng)網(wǎng)絡(luò)和基于規(guī)則結(jié)合有望成為一段時(shí)期內(nèi)
規(guī)控算法的主流。小鵬汽車(chē)自動(dòng)駕駛負(fù)責(zé)人吳新宙曾表示,基于大數(shù)
據(jù)和深度學(xué)習(xí)的算法在規(guī)控領(lǐng)域的滲透會(huì)越來(lái)越深,預(yù)計(jì)未來(lái)整個(gè)框
架都將基于深度學(xué)習(xí)為基礎(chǔ),但基于規(guī)則的算法也會(huì)長(zhǎng)期存在,因?yàn)?/p>
規(guī)控算法的可解釋性很重要。基于神經(jīng)網(wǎng)絡(luò)的規(guī)控算法有諸多優(yōu)勢(shì),
但目前如訓(xùn)練過(guò)程中數(shù)據(jù)的清洗、一致性;面向一些小場(chǎng)景特定的算
法調(diào)整;可解釋性差等問(wèn)題仍客觀存在。因此諸多玩家目前仍采用以
人工智能和基于規(guī)則結(jié)合的方式來(lái)部署規(guī)控算法,制定一些規(guī)則來(lái)對(duì)
人工智能產(chǎn)生的行為進(jìn)行兜底,實(shí)現(xiàn)較好的規(guī)控效果,未來(lái)隨著人工
智能能力的提升,視控算法人工智能化已經(jīng)成為大勢(shì)所趨。交互搜索
+評(píng)估模型,特斯拉規(guī)控算法行止有效。在規(guī)控方面,特斯拉采月交
互搜索+評(píng)估模型的方式實(shí)現(xiàn)舒適、有效以及傳統(tǒng)搜索算法和人工智
能的結(jié)合的算法。具體如下:(1)決策樹(shù)生成:首先根據(jù)車(chē)道線、
占用網(wǎng)絡(luò)、障礙物等得到候選目標(biāo),生成一些候選目標(biāo);(2)軌跡
規(guī)劃:通過(guò)傳統(tǒng)搜索和神經(jīng)網(wǎng)絡(luò)的方式同步構(gòu)建抵達(dá)上述目標(biāo)的軌跡;
(3)交互決策:預(yù)測(cè)自車(chē)以及場(chǎng)景中其他參與者之間的相互作用,
形成新的軌跡,經(jīng)過(guò)多次評(píng)估選擇最后軌跡。在軌跡生成階段,特斯
拉采用了基于傳統(tǒng)搜索算法和基于神經(jīng)網(wǎng)絡(luò)兩種形式,之后根據(jù)碰撞
檢查、舒適性分析、駕駛員接管可能性和與人的相似程度等對(duì)生成的
軌跡打分,決定走哪條路線。基于這種方式有效的將道路參與者的博
弈考慮在內(nèi),同時(shí)完美將基于規(guī)則和基于人工智能結(jié)合,呈現(xiàn)出強(qiáng)大
競(jìng)爭(zhēng)力。
2.3.2,大模型賦能,車(chē)道線預(yù)測(cè)等復(fù)雜任務(wù)得以實(shí)現(xiàn)
復(fù)雜道路的車(chē)道拓普結(jié)構(gòu)識(shí)別難度較高。自動(dòng)駕駛車(chē)輛在行駛過(guò)程中
需要明確自車(chē)的道路情況和車(chē)道線拓?fù)淝闆r,以此來(lái)決定如何規(guī)劃自
己的行駛軌跡。但當(dāng)車(chē)道線模糊,或者十字路口等場(chǎng)景下,需要算法
自己計(jì)算出車(chē)道線情況,來(lái)指導(dǎo)自身的自動(dòng)駕駛行為。我們看到一些
玩家針對(duì)這樣的場(chǎng)景做出了優(yōu)化,來(lái)完美應(yīng)對(duì)各類突發(fā)情況,產(chǎn)業(yè)算
法不斷進(jìn)化和成熟。
特斯拉采用訓(xùn)練語(yǔ)言模型的形式來(lái)訓(xùn)練車(chē)道線網(wǎng)絡(luò)模型。車(chē)道線網(wǎng)絡(luò)
實(shí)際上是嫁接在感知網(wǎng)絡(luò)上的一個(gè)Transformer的解碼器(Decoder)。
參考自然語(yǔ)言處理任務(wù)中的形式,讓模型用自回歸(綜合上個(gè)環(huán)節(jié)的
結(jié)果輸出下個(gè)環(huán)節(jié)的內(nèi)容)的方式輸出車(chē)道線的預(yù)測(cè)結(jié)果。具體而言,
將車(chē)道線包含節(jié)點(diǎn)位置、節(jié)點(diǎn)屬性(起點(diǎn)、終點(diǎn)、中間點(diǎn)等)、分叉
點(diǎn)、交叉點(diǎn)等進(jìn)行編碼,形成類似語(yǔ)言模型中單詞的屬性,輸入
Transformer解碼器中,將信息轉(zhuǎn)化成為“車(chē)道線語(yǔ)言”,去生成下個(gè)
階段的結(jié)果,進(jìn)而形成整個(gè)路網(wǎng)的車(chē)道線的拓?fù)浣Y(jié)構(gòu)。
理想汽車(chē)在理想家庭日上也展示了其用于增強(qiáng)路口性能的算法NPN
神經(jīng)先驗(yàn)網(wǎng)絡(luò)。為了解決大模型在十字路口不穩(wěn)定的問(wèn)題,對(duì)復(fù)雜路
口,提前進(jìn)行路口的特征提取和存儲(chǔ),當(dāng)車(chē)輛再次行駛到路口時(shí)刻,
將過(guò)去提取好的特征和BEV感知大模型粕合,形成更加完美的感知
結(jié)果。
2.4、端到端(感知決策一體化):大模型為自動(dòng)駕駛徹底實(shí)現(xiàn)帶來(lái)
希望
2.4.1.回歸自動(dòng)駕駛第一性原理,端到端自動(dòng)駕駛成為市場(chǎng)遠(yuǎn)期共
識(shí)
模塊化的自動(dòng)駕駛算法設(shè)計(jì)存在諸多問(wèn)題,前述文章中提到的感知、
預(yù)測(cè)、規(guī)劃等環(huán)節(jié)的算法稱為模塊化算法設(shè)計(jì),這些方案中每個(gè)模塊
獨(dú)立負(fù)責(zé)單獨(dú)的子任務(wù),這種方案具備簡(jiǎn)化研發(fā)團(tuán)隊(duì)分工,便于問(wèn)題
回溯,易于調(diào)試迭代等優(yōu)點(diǎn)。但由于將不同任務(wù)解耦,各個(gè)模塊之間
容易產(chǎn)生信息損失問(wèn)題,且多個(gè)模塊間優(yōu)化目標(biāo)不一致,最后模塊間
產(chǎn)生的誤差會(huì)在模型中傳遞。端到端自動(dòng)駕駛解決方案回歸自動(dòng)駕駛
第一性原理。因此業(yè)界也一直在探索端到端的自動(dòng)駕駛算法形式,即
設(shè)計(jì)一個(gè)算法模型,直接輸入傳感器感知的信息,輸出控制結(jié)果C端
到端的自動(dòng)駕駛算法擁有非常明顯的優(yōu)勢(shì):(1)其遵循了自動(dòng)駕駛
的第一性原理:即無(wú)論感知、規(guī)劃、決策模塊如何設(shè)計(jì),最終是為了
實(shí)現(xiàn)更好的自動(dòng)駕駛效果,因此現(xiàn)有的方法聚焦單獨(dú)某個(gè)模塊的優(yōu)化,
對(duì)整體的效果提升未必有效。(2)端到端的方式可避免極聯(lián)誤差,
去掉冗余信息,提升視覺(jué)信息的表達(dá)。(3)傳統(tǒng)模塊化的算法中需
要面臨模型之間的多個(gè)編解碼環(huán)節(jié),帶來(lái)的計(jì)算的冗余浪費(fèi)。(4)
規(guī)則驅(qū)動(dòng)徹底轉(zhuǎn)變?yōu)閿?shù)據(jù)驅(qū)動(dòng),理想狀態(tài)下讓汽車(chē)自動(dòng)駕駛模型訓(xùn)練
變得簡(jiǎn)潔。
2.4.2.工業(yè)界已經(jīng)開(kāi)啟探索,邁向完全自動(dòng)駕駛
目前全球無(wú)論學(xué)術(shù)界還是工業(yè)界均對(duì)該方案進(jìn)行了不懈探索。如英偉
達(dá)2016年即提出端到端的自動(dòng)駕駛解決方案,而Uber更多次發(fā)相
關(guān)的論文探索有關(guān)算法。最新的CVPR2023上商湯、OpenDriveLab、
地平線等聯(lián)合發(fā)布的端到端的自動(dòng)駕駛算法UniAD,獲得了當(dāng)年的最
佳論文。其采用Transformer將感知、決策、規(guī)劃、控制模塊都融入
到一個(gè)模型中,端到端的處理自動(dòng)駕駛問(wèn)題,能夠呈現(xiàn)出最佳的運(yùn)行
效果。
目前英國(guó)初創(chuàng)公司W(wǎng)ayve亦致力于開(kāi)發(fā)端到端的自動(dòng)駕駛系統(tǒng),致
力于讓汽車(chē)通過(guò)自己的計(jì)算機(jī)視覺(jué)平臺(tái)“自己看世界”,同時(shí)可以根據(jù)
它所看到的東西做出自己的決定。馬斯克也曾在推特上表示,其
FSDV12版本將是一個(gè)端到端的自動(dòng)駕駛模型。
2.4.3,大模型的思考,自動(dòng)駕駛或許并非終點(diǎn)
通識(shí)知識(shí)和強(qiáng)泛化能力助力人類輕松學(xué)會(huì)駕駛。人類可以在短時(shí)間內(nèi)
學(xué)會(huì)駕駛,但機(jī)器則需要海量的數(shù)據(jù)和訓(xùn)練。可能的原因在于人類在
學(xué)習(xí)駕駛之前就已經(jīng)充分對(duì)整個(gè)世界有了全面的認(rèn)知,并可以將這些
認(rèn)識(shí)泛化到各類場(chǎng)景下。如在學(xué)校附近應(yīng)該減速、遇到老人應(yīng)當(dāng)小心
等,面對(duì)形狀怪異的紅綠燈人類幾乎不加思考就可理解其想表達(dá)的意
思。通識(shí)知識(shí),強(qiáng)泛化能力可以對(duì)自動(dòng)駕駛行為產(chǎn)生重大幫助。GPT
受到市場(chǎng)追捧,也引發(fā)了自動(dòng)駕駛界對(duì)模型構(gòu)建方式的思考。前文提
到的英國(guó)公司W(wǎng)ayve亦在嘗試構(gòu)建一個(gè)世界模型,通過(guò)使用與駕駛
本身無(wú)關(guān)的數(shù)據(jù),如一些文本數(shù)據(jù)預(yù)訓(xùn)練模型進(jìn)而提升模型的駕駛性
能。此外,公司亦在嘗試將自動(dòng)駕駛模型和自然語(yǔ)言結(jié)合,讓自動(dòng)駕
駛模型能夠描述自己的行為,進(jìn)而增強(qiáng)模型的性能和可解釋性。國(guó)內(nèi)
毫末智行等也在做出相應(yīng)的嘗試,建立大參數(shù)的模型,并將海量駕駛
場(chǎng)景編碼成語(yǔ)料,投喂給模型進(jìn)行無(wú)監(jiān)督學(xué)習(xí),接著再加入人類反饋
強(qiáng)化學(xué)習(xí)幫助其掌握駕駛員的行為,進(jìn)而讓模型擁有接近人的自動(dòng)駕
駛能力。大語(yǔ)言模型的風(fēng)靡也讓市場(chǎng)對(duì)自動(dòng)駕駛模型構(gòu)建的方式有了
新的想象空間,DriveGPT未嘗不是一種可以嘗試的方向。
圖38:GPT帶來(lái)了業(yè)界對(duì)自動(dòng)駕駛算法構(gòu)建的新思考
InstructionGPT初隔唉
育?文本!!■
RLHF
■■學(xué)習(xí)
子任imiutkxi
自動(dòng)偵gLearning1
魂郅&洎動(dòng)駕駛的曬范式
世界模型浮上水面,面向通用場(chǎng)景,解決通用問(wèn)題。在最新的
CVPR2023會(huì)議上,特斯拉提出了世界模型,即構(gòu)建一個(gè)模型,可
觀察所有需要觀察的事物,并將其轉(zhuǎn)化為向量空間,鏈接各類豐富的
下游任務(wù)。該模型不止用于汽車(chē),還可用于機(jī)器人等等嵌入式人工智
能場(chǎng)景。通過(guò)該模型可預(yù)測(cè)未來(lái)、構(gòu)建仿真場(chǎng)景,通過(guò)語(yǔ)言提示,讓
它生成各類場(chǎng)景如直行、向右變道等。
2.5、數(shù)據(jù)端:大模型推動(dòng)數(shù)據(jù)閉環(huán)和仿真落地
神經(jīng)網(wǎng)絡(luò)只決定了算法的上限,而是否能讓神經(jīng)網(wǎng)絡(luò)發(fā)揮其效能,數(shù)
據(jù)起到了決定性的作用,因此如何尋找純凈且多樣化的海量數(shù)據(jù)集相
比算法而言同等重要。
2.5.1>數(shù)據(jù)閉環(huán):自動(dòng)化運(yùn)行,降本增效推升規(guī)模是關(guān)鍵
完整的數(shù)據(jù)閉環(huán)系統(tǒng),通經(jīng)常包含數(shù)據(jù)采集、數(shù)據(jù)挖掘、數(shù)據(jù)標(biāo)注、
模型訓(xùn)練等環(huán)節(jié)。其對(duì)自動(dòng)駕駛功能實(shí)現(xiàn)的重要性不言而喻,但當(dāng)前
自動(dòng)駕駛車(chē)型傳感器越來(lái)越高端,據(jù)dSPACE的數(shù)據(jù),若采用4k800
萬(wàn)像素的攝像頭,每秒產(chǎn)生的數(shù)據(jù)將達(dá)到3GB,疊加激光雷達(dá)毫米
波雷達(dá)等傳感器,整車(chē)每秒將產(chǎn)生的40G數(shù)據(jù),每小時(shí)產(chǎn)生19Tb
數(shù)據(jù),對(duì)整車(chē)廠的數(shù)據(jù)處理能力提出考驗(yàn)。
數(shù)據(jù)采集:通常自動(dòng)駕駛算法會(huì)采取一定的觸發(fā)(Trigger)機(jī)制來(lái)
開(kāi)啟數(shù)據(jù)上傳。如出現(xiàn)人類駕駛和自動(dòng)駕駛不一致的情況,或不同傳
感器之間一致性不同的情況,或者不同算法出現(xiàn)沖突,以及某些指定
的特殊場(chǎng)景如近距離跟車(chē)、加塞、光照急劇變化、陰影車(chē)道線等等。
特斯拉在2022AIDAY上表示其擁有221種觸發(fā)器。數(shù)據(jù)清洗/挖掘:
數(shù)據(jù)清洗和挖掘?qū)嶋H上是數(shù)據(jù)處理的過(guò)程:通常采集的數(shù)據(jù)包含大量
的無(wú)用數(shù)據(jù),這里需要算法將訓(xùn)練模型所需要的數(shù)據(jù)提取出來(lái),以實(shí)
現(xiàn)有效的數(shù)據(jù)收集,同時(shí)修正部分錯(cuò)誤數(shù)據(jù)。這其中對(duì)于數(shù)據(jù)處理的
“內(nèi)功”要求深厚。數(shù)據(jù)標(biāo)注:挖掘到有價(jià)值的數(shù)據(jù)后,需要采用人工
標(biāo)注或自動(dòng)標(biāo)注的方式,疊加部分仿真數(shù)據(jù),形成數(shù)據(jù)集來(lái)實(shí)現(xiàn)對(duì)算
法的訓(xùn)練和迭代。這其中涉及2D標(biāo)注、3D標(biāo)注、車(chē)道線標(biāo)注、語(yǔ)
義分割等,工作量大,同時(shí)影響著車(chē)企自動(dòng)駕駛算法的迭代,是數(shù)據(jù)
閉環(huán)中的重中之重。
數(shù)據(jù)閉環(huán)收益顯著但成本不可忽視,降本增效是關(guān)鍵。數(shù)據(jù)標(biāo)注方面,
據(jù)特斯拉AIDAY描述公司曾經(jīng)組建了超過(guò)千人的團(tuán)隊(duì),早期通過(guò)人
工在2D圖片上進(jìn)行精細(xì)標(biāo)注,但效率低下;后改進(jìn)為在向量空間完
成標(biāo)注,再通過(guò)投影投射到8個(gè)攝像機(jī)里面,效率大幅提升;再之后
特斯拉即建立了自動(dòng)標(biāo)注系統(tǒng),通過(guò)離線大模型實(shí)現(xiàn)自動(dòng)標(biāo)注,大幅
提升標(biāo)注效率。此外特斯拉通過(guò)多車(chē)輛聯(lián)合優(yōu)化等方式來(lái)提升標(biāo)注的
精確度,起到了良好的效果。行業(yè)其他玩家亦開(kāi)發(fā)自動(dòng)標(biāo)注工具以降
本增效,據(jù)小鵬汽車(chē)描述,采用自動(dòng)化標(biāo)注工具后,公司能夠在17
天內(nèi)完成原本需要200個(gè)人年才能完成的標(biāo)注任務(wù)。數(shù)據(jù)閉環(huán)方面,
特斯拉、小鵬、理想汽車(chē)均提到了各自的自動(dòng)化數(shù)據(jù)閉環(huán)體系,能夠
全自動(dòng)完成數(shù)據(jù)的采集、挖掘、標(biāo)注、存儲(chǔ)等環(huán)節(jié),大大提升模型的
訓(xùn)練和迭代效率。
2.5.2.仿真:從提升效率到不可或缺
仿真是自動(dòng)駕駛系統(tǒng)構(gòu)建不可或缺的環(huán)節(jié)。將數(shù)據(jù)采集過(guò)程中的實(shí)車(chē)
數(shù)據(jù)經(jīng)過(guò)聚類、場(chǎng)景提取、泛化與篩選,構(gòu)筑用于測(cè)試的虛擬世界,
自動(dòng)駕駛算法控制車(chē)輛,與虛擬世界產(chǎn)生交互,并將交互結(jié)果輸出,
在自動(dòng)駕駛領(lǐng)域優(yōu)勢(shì)明顯:(1)當(dāng)數(shù)據(jù)極端難以獲取的時(shí)候,仿真
可以生成大量的場(chǎng)景供模型訓(xùn)練;(2)天然帶有標(biāo)注信息。當(dāng)數(shù)據(jù)
難以標(biāo)注的時(shí)候,如幾百萬(wàn)人過(guò)馬路,標(biāo)注成本極高且效率低下容易
產(chǎn)生錯(cuò)誤,但仿真場(chǎng)景下不存在上述難點(diǎn);(3)仿真可以給規(guī)控算
法以安全的實(shí)驗(yàn)環(huán)境;(4)仿真的價(jià)格低廉,效率高。理論上完美
的仿真能夠取代實(shí)車(chē)測(cè)試,進(jìn)而以較低成本達(dá)到安全測(cè)試效果,縮短
自動(dòng)駕駛算法研發(fā)周期,是自動(dòng)駕駛開(kāi)發(fā)迭代的重要環(huán)節(jié)。
不同的算法對(duì)仿真環(huán)境的構(gòu)建提出不同要求。通常自動(dòng)駕駛核心算法
包括感知算法、決策規(guī)劃算法、控制算法三大環(huán)節(jié),其中感知算法仿
真需要高還原度的三維重建場(chǎng)景和精準(zhǔn)的傳感器模型;決策規(guī)劃算法
仿真需要大量的場(chǎng)景庫(kù)為支撐;控制算法需要引入精準(zhǔn)的車(chē)輛動(dòng)力學(xué)
模型。虛擬場(chǎng)景構(gòu)建方面,通常需要模擬出與真實(shí)世界一致的靜態(tài)、
動(dòng)態(tài)交通運(yùn)行場(chǎng)景。靜態(tài)場(chǎng)景通常包含道路、車(chē)道線、減速帶、交通
標(biāo)志、路燈、車(chē)站、周?chē)ㄖ鹊龋ǔJ褂酶呔鹊貓D和二維重建
技術(shù)構(gòu)建(通常需要回執(zhí)高精度地圖并進(jìn)行三維建模);動(dòng)態(tài)場(chǎng)景包
含動(dòng)態(tài)指示設(shè)施、機(jī)動(dòng)車(chē)行為、非機(jī)動(dòng)車(chē)行為、行人行為、通信環(huán)境、
氣象變化、時(shí)間變化等。感知系統(tǒng)仿真方面,包含攝像頭仿真(生成
逼真的圖像并添加色彩和光學(xué)屬性等通常采用游戲引擎來(lái)構(gòu)建,如百
度阿波羅采用Unity3D、騰訊TADSim引入了虛幻引擎)、毫米波雷
達(dá)仿真、激光雷達(dá)仿真。車(chē)輛動(dòng)力學(xué)仿真方面,通常基于多體動(dòng)力學(xué)
搭建模型,其中包含車(chē)體、懸架系統(tǒng)、轉(zhuǎn)向系統(tǒng)、制動(dòng)系統(tǒng)、動(dòng)力系
統(tǒng)、傳動(dòng)系統(tǒng)等多個(gè)真實(shí)部件的車(chē)輛模型。
對(duì)仿真工具而言,其能夠覆蓋的場(chǎng)景范圍越大,自動(dòng)駕駛可行駛邊界
就越廣泛。因此評(píng)價(jià)自動(dòng)駕駛算法最重要的標(biāo)準(zhǔn)就是測(cè)試其是否能夠
處理足夠多的場(chǎng)景摩。通常仿真模型會(huì)以真實(shí)采集的數(shù)據(jù)、模擬數(shù)據(jù)、
以及根據(jù)真實(shí)場(chǎng)景合成的仿真數(shù)據(jù)為數(shù)據(jù)源,對(duì)場(chǎng)景的幾何形狀、物
理運(yùn)動(dòng)規(guī)律、以及場(chǎng)景中各個(gè)元素如車(chē)流、行人等符合邏輯規(guī)律,以
實(shí)現(xiàn)更好的仿真效果。
自動(dòng)駕駛仿真平臺(tái)市場(chǎng)競(jìng)爭(zhēng)激烈,促使平臺(tái)仿真性能提升。自駕仿真
平臺(tái)布局主體眾多,可以劃分為科技公司、自駕解決方案商、仿真軟
件企業(yè)、車(chē)企、高校及科研機(jī)構(gòu)五大類。科技公司擁有大數(shù)據(jù)優(yōu)勢(shì),
軟件開(kāi)發(fā)經(jīng)驗(yàn)豐富;自駕解決方案商多針對(duì)自研發(fā)需要,較少對(duì)外提
供仿真服務(wù);不同仿真軟件企業(yè)經(jīng)驗(yàn)積累程度不同,傳統(tǒng)企業(yè)積累深
厚,初創(chuàng)企業(yè)積累薄弱;車(chē)企能夠?qū)⒙窚y(cè)和仿真測(cè)試同步結(jié)合,但限
于自身軟件開(kāi)發(fā)能力,多與外部仿真平臺(tái)提供商合作進(jìn)行自動(dòng)駕駛汽
車(chē)開(kāi)發(fā);高校及科研機(jī)構(gòu)主要對(duì)自駕仿真軟件進(jìn)行前瞻、基礎(chǔ)性研究。
自駕仿真平臺(tái)參與者眾,市場(chǎng)競(jìng)爭(zhēng)激烈,具備更快迭代速度、更強(qiáng)仿
真能力、更完善服務(wù)支持的仿真平臺(tái)將快速成長(zhǎng)。
DRIVESim:Nvidia自動(dòng)駕駛研發(fā)生態(tài)體系重要一環(huán)。DRIVESim是
由英偉達(dá)開(kāi)發(fā)的端到端仿真平臺(tái),能夠進(jìn)行大規(guī)模多傳感器仿真。
DRIVESim功能強(qiáng)大,能夠提供核心模擬和渲染引擎,生成逼真的數(shù)
據(jù)流,創(chuàng)建各種測(cè)試環(huán)境,模擬暴雨和暴雪等各種天氣條件,以及不
同的路面和地形,還可以模擬白天不同時(shí)間的眩目強(qiáng)光以及晚上有限
的視野,達(dá)到“照片級(jí)逼真且物理精確”的傳感器仿真。
DRIVESim具有完善的工具鏈支持,融入英偉達(dá)自動(dòng)駕駛開(kāi)發(fā)生態(tài)。
DRIVESim可以在Omniverse云平臺(tái)上運(yùn)行,也可以在OVX服務(wù)器
組成的本地?cái)?shù)據(jù)中心甚至單顆RTX3090上運(yùn)行。DRIVESim具有開(kāi)
放式、模組化分特點(diǎn),擁有良好的可拓展性:(1)支持神經(jīng)重建引
擎(NER),該AI工具可以將真實(shí)世界的數(shù)據(jù)直接帶入仿真中,開(kāi)
發(fā)者可在仿真環(huán)境中修改場(chǎng)景、添加合成對(duì)象,并應(yīng)用隨機(jī)化技術(shù),
大大增加真實(shí)感并加快生產(chǎn)速度。(2)使用NVIDIAOmniverseKit
SDK,DRIVESim允許開(kāi)發(fā)人員構(gòu)建自定義模型、3D內(nèi)容和驗(yàn)證工
具,或與其他模擬進(jìn)行交互。(3)支持DRIVEReplicator生成與合
成傳感器數(shù)據(jù)對(duì)應(yīng)的真值數(shù)據(jù),用于訓(xùn)練芻動(dòng)駕駛汽車(chē)DNNo
DRIVESim已融入英偉達(dá)完整的軟硬協(xié)同生態(tài),支持從概念到部署的
自動(dòng)駕駛汽車(chē)開(kāi)發(fā)及驗(yàn)證。
51Sim-0ne:本土仿真系統(tǒng)助力中國(guó)自動(dòng)駕駛量產(chǎn)落地。Sim-One
是51World全棧自研的云原生仿真平臺(tái)。(1)場(chǎng)景方面,Sim-One
具有豐富的場(chǎng)景生成方式,特別是能基于語(yǔ)義泛化工具鏈能夠?qū)崿F(xiàn)場(chǎng)
景的快速定義;與第三方場(chǎng)景庫(kù)達(dá)成合作,擴(kuò)充場(chǎng)景數(shù)量,提高仿真
測(cè)試質(zhì)量。(2)平臺(tái)方面,Sim-One具有豐富的功能,包括靜態(tài)和
動(dòng)態(tài)數(shù)據(jù)導(dǎo)入、測(cè)試場(chǎng)景案例編輯、各類仿真、測(cè)試與回放、虛擬數(shù)
據(jù)集生成以及各類在環(huán)測(cè)試;Sim-One基于原生云架構(gòu)仿真平臺(tái),
支持大規(guī)模并發(fā)仿真技術(shù),日測(cè)試?yán)锍炭蛇_(dá)十萬(wàn)公里。(3)評(píng)價(jià)方
面,Sim-One具備豐富的指標(biāo)庫(kù)可供用戶自行選擇進(jìn)行評(píng)價(jià),涵蓋
安全性、違規(guī)性、舒適性、高效性、經(jīng)濟(jì)能耗性、控制準(zhǔn)確性等多個(gè)
維度,并且支持多場(chǎng)景并發(fā)評(píng)價(jià)。
Al應(yīng)用于仿真系統(tǒng),能夠有效輔助自動(dòng)駕駛系統(tǒng)升級(jí)。(1)在場(chǎng)景
庫(kù)構(gòu)建方面,從傳感器數(shù)據(jù)中利用AI進(jìn)行自動(dòng)化、大規(guī)模三維重建,
構(gòu)建現(xiàn)實(shí)世界對(duì)象和背景的幾何形狀、外觀和材料屬性;使用大量路
采數(shù)據(jù)訓(xùn)練AgentAI,使之模仿道路場(chǎng)景口的主體,賦予虛擬場(chǎng)景強(qiáng)
交互性;利用已有場(chǎng)景庫(kù)與生成式AI,自動(dòng)生成無(wú)需標(biāo)注的各種交
通場(chǎng)景數(shù)據(jù)。(2)在車(chē)輛仿真測(cè)試過(guò)程中,使用AI識(shí)別自動(dòng)駕駛系
統(tǒng)的弱點(diǎn),并自動(dòng)創(chuàng)建對(duì)抗性場(chǎng)景,同時(shí)芻駕系統(tǒng)使用AI算法自動(dòng)
從錯(cuò)誤中學(xué)習(xí),自動(dòng)迭代更新,無(wú)需密集手動(dòng)調(diào)整算法,適應(yīng)更快節(jié)
奏、更大規(guī)模的訓(xùn)練。AI能使仿真系統(tǒng)更有針對(duì)性,使自動(dòng)駕駛算
法調(diào)整自動(dòng)化,加速自駕技術(shù)在現(xiàn)實(shí)世界落地。
3、自動(dòng)駕駛算法變革引領(lǐng)產(chǎn)業(yè)鏈變化
3.1.兵馬未動(dòng)糧草先行,云端算力軍備競(jìng)賽開(kāi)啟
對(duì)自動(dòng)駕駛而言,大量的數(shù)據(jù)處理、訓(xùn)練、自動(dòng)標(biāo)注、仿真等工作需
要完成,算力成為車(chē)企打造自動(dòng)駕駛能力的核心,決定著車(chē)企的算法
迭代效率和上限。特斯拉表示其總算力在2024年將沖刺100EFIops,
而國(guó)內(nèi)領(lǐng)先玩家亦不遑多讓,紛紛構(gòu)建自有的數(shù)據(jù)中心,自動(dòng)駕駛的
算力軍備競(jìng)賽從車(chē)端蔓延到云端。
3.1.1、特斯拉自研算力平臺(tái)Dojo,2024年沖刺100EFIops算力
特斯拉在應(yīng)對(duì)海量訓(xùn)練和仿真需求時(shí)構(gòu)建了龐大的算力體系。據(jù)特斯
拉在2021年AIDAY介紹,特斯拉為了移除自動(dòng)駕駛系統(tǒng)對(duì)毫米波
雷達(dá)的依賴,從250萬(wàn)個(gè)視頻剪輯中生成了超過(guò)100億個(gè)標(biāo)簽,需
要龐大的離線神經(jīng)網(wǎng)絡(luò)和引擎。而硬件方面,特斯拉在2021年AIDAY
期間就擁有接近1萬(wàn)塊GPU,2022年AIDAY上這一數(shù)字提升到1.4
萬(wàn)片,其中約50%的負(fù)載用來(lái)實(shí)現(xiàn)云端自動(dòng)標(biāo)注和車(chē)載占用網(wǎng)絡(luò)的
訓(xùn)練。
自研D1芯片和Doj。超級(jí)計(jì)算機(jī)布局算力。為了進(jìn)一步提升算力水
平,2021年起特斯拉開(kāi)始自研D1人工智能芯片和Dojo超級(jí)計(jì)算機(jī)。
將25顆自研的D1芯片封裝成Dojo訓(xùn)練模塊,再將120個(gè)訓(xùn)練模塊
結(jié)合Dojo接口處理器等組件融合形成Dojo主機(jī),目前10機(jī)柜的
DojoExaPOD超級(jí)計(jì)算機(jī)將擁有1.1EFlops算力,并且擁有強(qiáng)擴(kuò)展
能力,借助特斯拉強(qiáng)大的軟件能力,將有效提升其在算法領(lǐng)域的迭代
速率。
圖60:掙斯拉算力需求將迎來(lái)快速增長(zhǎng)
TrainedOnExtremely
LargeCompute
InUnitsOfA100GPU8TotalAmountOfTeslaCompute
400,000
300,000
200,000
100,000
0
而據(jù)特斯拉Al官方賬號(hào)顯示,特斯拉將
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 創(chuàng)新驅(qū)動(dòng)下的企業(yè)數(shù)字化轉(zhuǎn)型路徑
- 區(qū)域中心小學(xué)餐飲配送服務(wù)體系建設(shè)規(guī)劃方案探討
- 合肥特殊疾病管理辦法
- 學(xué)校三年發(fā)展規(guī)劃實(shí)施成果評(píng)估與反思總結(jié)報(bào)告
- 江蘇紅酒倉(cāng)儲(chǔ)管理辦法
- 回遷工作經(jīng)費(fèi)管理辦法
- 非物質(zhì)文化遺產(chǎn)保護(hù)策略研究
- 余杭房屋租賃管理辦法
- 請(qǐng)假休假管理:全面指南與實(shí)施建議
- 安全生產(chǎn)與文明施工綜合實(shí)施方案
- 拍賣(mài)公司員工培訓(xùn)考核管理制度
- 廣東省行業(yè)企業(yè)職業(yè)技能競(jìng)賽技術(shù)工作指引
- 浙江2025年6月高一學(xué)考模擬歷史試題及答案
- 2025年計(jì)算機(jī)程序設(shè)計(jì)考試試卷及答案
- 2025年河南省中考數(shù)學(xué)真題含答案
- 人力中介公司管理制度
- 抗精神病藥氯丙嗪講課件
- 2025人教英語(yǔ)初中八年級(jí)下冊(cè)期末測(cè)試卷(含答案)
- 燃?xì)馊霊艋卦L管理制度
- 燃?xì)夤居?jì)量管理制度
- 綜合與實(shí)踐 白晝時(shí)長(zhǎng)規(guī)律的探究 同步練習(xí)(含答案)人教版七年級(jí)數(shù)學(xué)下冊(cè)
評(píng)論
0/150
提交評(píng)論