信息技術:汽車自動駕駛算法行業專題_第1頁
信息技術:汽車自動駕駛算法行業專題_第2頁
信息技術:汽車自動駕駛算法行業專題_第3頁
信息技術:汽車自動駕駛算法行業專題_第4頁
信息技術:汽車自動駕駛算法行業專題_第5頁
已閱讀5頁,還剩16頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

信息技術:汽車自動駕駛算法行業專題

1、自動駕駛一數據驅動下的算法迭代

1.1、自動駕駛算法是感知、預測、規劃、控制的結合體

自動駕駛算法反應了工程師們根據人的思維模式,對自動駕駛所需處理過程的思考。

通常包含感知、預測、規劃模塊,同時輔助一些地圖、定位等模塊,實現自動駕駛功

能的落地。

1.1.1、感知:感知外部世界

感知模塊主要解決四類任務:(1)檢測:找出物體在環境中的位置;(2)分類:明確

對象是什么,如分辨不同類別交通標志;(3)跟蹤:隨著時間的推移觀察移動物體,

通常采用跨幀追蹤對象(將不同幀中檢測到的對象進行匹配)、BEV加入時序信息等

實現;(4)語義分割:將圖像中的每個像素與語義類別匹配,如道路、天空、汽車

等,用于盡可能詳細了解環境。以Apollo感知算法框架為例,其算法包含預處理、神

經網絡模型、后處理等模塊。首先圖像預處理主要是對圖像進行調整、畸變校正等,

使之更符合機器學習的要求。其次分別對紅綠燈、車道線、障礙物等特征進行檢測,

其中紅綠燈通過檢測邊框、顏色等進行進一步的識別:障礙物則經過2D到3D的轉

換,得出真實的信息坐標,再融合車道線檢測信息、外部傳感器信息等得出真實世界

的障礙物信息。該部分通常采用全卷積神經網絡或者YOLO等算法實現。

1.1.2、預測:理解外部環境和當前狀態

預測模塊實際上是算法對外部環境和自車狀態的理解。預測模塊首先收集感知模塊輸

入的車道線、障礙物、紅綠燈、地圖、定位等信息對主車的狀況進行判斷。其次場景感

知模塊對外部障礙物的優先級、路權等外部環境對主車的影響進行感知。評估器則會根

據場景信息和障礙物信息判斷出障礙物的軌跡或意圖。預測器則根據短期的預測軌跡

和意圖判斷障礙物等外部環境相對長期的軌跡。這將為未來汽車的規劃提供重要的參

考。算法層面通常以RNN為主。

圖3:百度Apollo的算法中,預測模塊包含場景理解、評估、預測等環節

感知信息容器場景感知評估器預測器

軌跡生成

--------------------------當/向翦皤

1.1.3、規劃:思考如何行動

規劃指找到合理路徑來到達目的地。規劃通常分為全局路徑規劃、行為規劃與運動規

劃幾個部分。其中,全局路徑規劃指智能汽車依靠地圖規劃出理想狀態下到達目的地

的路徑。行為規劃則是主車在實際行駛的過程中,面臨實時的交通環境,做出的各類

駕駛行為,如跟車、換道、避讓等。運動規劃生成與駕駛行為對應的駕駛軌跡,包含

路徑規劃和速度規劃。最后再采用一些優化方式讓變道加速等行為變得平順以滿足舒

適性要求。算法層面,通常采用基于規則的規劃決策算法,前沿的玩家也開始引入機

器學習等方式,以提升決策效能。

1.2、數據:算法的養料,現實與虛擬的交織

算法、算力和數據是人工智能的三大要素,數據在模型訓練中擁有不可忽視的影響。

一方面,Transformer等大模型在大體量數據集訓練下才能表現更佳的特性帶來其對

訓練端數據的要求激增,特斯拉在2022年AIDAY上曾表示,訓練其占用網絡采用了

14億幀圖像數據。另一方面,由于自動駕駛面臨的場景紛繁復雜,諸多長尾問題需要

在現實或虛擬場景中獲取。因此數據閉環在自動駕駛領域彌足重要。亳末智行將數據

作為"自動駕駛能力函數”的自變量,認為是決定能力發展的關鍵,Momenta也曾表

示,L4要實現規模化,至少要做到人類司機的安全水平,最好比人類司機水平而一個

數量級,因此需要至少千億公里的測試,解決百萬長尾問題。

數據挖掘和針對性的訓練能顯著減少ComerCase。以特斯拉為例,在面臨一個看起

來像臨時停車但實際上是永久停車的場景時,最初算法會將其判定為臨時停車,當特斯

拉通過數據挖掘在訓練集中增加了1.4萬個類似場景的視頻并訓練模型后,神經網絡

便理解了這輛車里面沒有司機,將其判別為永久停車。

2、大模型橫空出世,自動駕駛奇點來臨

早期自動駕駛方案采用激光雷達+高精度地圖為主。早期市場以傳統計算機視覺和專家

系統為基礎構建輔助駕駛功能,隨后人工智能的蓬勃發展讓深度學習在自動駕駛領域

被廣泛使用,以waymo為代表的自動駕駛先驅玩家開創了激光雷達+高精度地圖的感

知范式,Cruise,百度等巨頭紛紛效仿。該方案中,對道路結構、車道線等靜態環境元

素的感知強依賴高精度地圖,而實時的動靜態障礙物信息則強依賴激光雷達。高精地

圖成為?項"基礎設施”,將很多在線難以解決的問題提前存儲到地圖數據中,行車

時作為?項重要的感知數據來源,減輕傳感器和控制器的壓力。由于該方案只能在有

圖地區行駛,也被一些人形象的稱為“有軌電車"。

高昂的單車成本和高精度地圖成為自動駕駛大規模推廣瓶頸。Robotaxi成本高昂

(Yole統計早期Waym。為代表的的自動駕駛汽車改裝成本約為20萬美元),高精

度地圖采集制作以及合規要求繁雜(量產落地過程中,高精度地圖面臨:采集成本

高;人工修圖制圖費時費力;地圖鮮度不足;國內法規嚴格等困難),帶來該方案的

泛化性較差。經過數十年的發展,Robotaxi的使用范圍仍被限制在特定區域,使用對

象也僅局限在商用車領域。市場亟待出現一種單車性能強大、成本低廉的自動駕駛解

決方案。

2.1、BEV+Transformer橫空出世,大模型推動自動駕駛邁向普及

2021年特斯拉推出BEV+transformer、重感知輕地圖的自動駕駛解決方案,開啟了

自動駕駛行業新的篇章。

2.1.1、BEV感知助力成為感知外部世界標準范式

BEV全稱為Bird'sEya-View(鳥瞰圖),即通過神經網絡將各個攝像頭和傳感器獲

取的信息進行融合,生成基于俯視的"上帝視角"的鳥瞰圖,同時加入時序信息,動

態的對周邊環境進行感知輸出,便于后續預測規劃模塊使用。正如人類一樣,駕駛行

為需要將各處觀察到的信息綜合到統一的空間中,來判別什么地方是可以行駛的區

域。究其原因,駕駛行為是在3D空間中的行為,而鳥瞰圖則是將2D的透視空間圖像

轉換為3D空間,不存在距離尺度問題和遮擋問題,使得算法可以直觀的判斷車輛在空

間中的位置以及與其他障礙物之間的關系。

2.1.2、Transformer大模型為構建BEV空間提供最優解

2021年特斯拉在AIDay上第一次將BEV+transformer的算法形式引入到自動駕

駛,開啟了自動駕駛的嶄新時代。首先BEV空間的構建,實際上就是尋找一種恰當的

方式,將多個2D的圖像和傳感器信息綜合轉化成為一個3D的向量空間。經過多次嘗

試,特斯拉最終引入了Transformer大模型來實現這一轉換。Transformer大模型是

近年人工智能領域的熱門算法,其主要通過注意力機制來分析關注元素之間的關系進

而理解外部世界。早年被應用于自然語言處理領域,后續延展到計算機視覺等多個方

向。算法的優勢顯著:

具有更好的全局信息感知能力:Transformer模型更關注圖像特征之間的關系,因此

會跟多關注整個圖像的信息,卷積神經網絡更多關注固定大小區域的局部信息,因此

Transformer在面對圖像中長程依賴性的問題擁有更好的表現。

天花板高企適用于大規模數據訓練場景:在圖像識別能力方面,Transformer?擁有更高

的上限,隨著訓練數據量的增長,傳統CNN模型識別能力呈現飽和態勢,而

Transformer則在數據量越大的情況下擁有更好的表現。而自動駕駛洽洽為面向海量

的數據場景,要求有足夠好的精度的場景。

擁有多模態感知能力:Transformer可實現多模態數據的處理,應對圖像分類、目標

檢測、圖像分割功能,并實現對3D點云、圖像等數據的融合處理。

靈活、較好的泛化性能:Transformer可適用于不同大小的輸入圖像,同時外部環境

包含擾動的情況下仍能保持較好的檢測性能。

但CNN網絡在提取底層特征和視覺結構方面有比較大的優勢,而在高層級的視覺語義

理解方面,需要判別這些特征和結構之間的如何關聯而形成一個整體的物體,采用

Transformer更加自然和有效。同時CNN也擁有更好的效率,可以采用更低的兌力

實現效果。因此業界通常會將CNN和Transformer結合來進行物體識別。

2.1.3、特斯拉引領打開自動駕駛天花板

特斯拉的自動駕駛算法結構中,首先將攝像頭信息無損采集,送入卷積神經網絡

Regnet來提取不同尺度的圖像特征,接著使用BiFPN進行特征融合,然后將這些特

征送入Transformer模塊,利用Transformer中的多頭注意力機制來實現2D圖像特

征到三維向量空間的轉換和多攝像頭特征系信息的融合,之后接入不同的"頭"如交

通標志檢測、障礙物檢測等,來實現不同任務的處落地,形成一套優雅的,可完美實

現數據驅動的感知算法。由于不同的"頭”之間采用了共享的特征提取網絡,因此被

特斯拉起名為"九頭蛇"算法架構。

特斯拉的BEV+Transformer算法中兩個環節尤為關鍵:

(1)2D圖像到3D空間的轉換以及圖像融合:在2D圖像到3D向量空間轉換的環

節,特斯拉在行業內首次引入了Transformer。具體而言,先構建一個想要輸出的三維

的柵格空間,并對其進行位置編碼成為查詢向量(Query),然后將每個圖像和自己的

特征輸出相應的查詢健碼(Key)和值(Value),最終輸入到注意力機制中輸出想要

的結果。類似于每個圖像中的特征都廣播自己是什么物體的一部分,而每個輸出空間

的位置像素像拼圖一樣,尋找對應的特征,最終構建巴希望輸出的向量空間。

(Query.Key、Value分別為Transformer算法中的參數,通過將外部世界轉化為

參數而實現信息處理和任務輸出)

(2)加入時序信息,讓算法擁有“記憶":為了讓自動駕駛算法擁有類似一段時間內

"記憶”的能力,特斯拉在感知網絡架構中加入了時空序列特征層。通過引入慣性導

航傳感器獲取的包含速度和加速度等白車運動的信息,算法模型可獲取時間和空間的

記憶能力。具體而言,特斯拉給算法加入特征隊列模塊(FeatureQueue),他會緩

存一些特征值(包含歷史幀的BEV特征、慣導傳感器信息等),便于了解車輛行動,

這個序列包含時間和空間記憶。然后引入視頻模塊(VideoModule)使用空間循環呻

經網絡(SpatialRNN)/transformer等算法將前述緩存的特征進行融合,關聯前后時

刻信息、,使得模型具有記憶能力,讓自動駕駛汽車將同時能夠記住上一段時間和上一

段位置的檢測信息。

圖14:特斯拉為感知部分加入時序信息已增強其“記憶”

VelocityofDetectedCars

MultiomvideofMtures20x80x256

VideoModule時序信息融合

Featurequeue特征序列(存儲時序信息)

車輛運動學信息

KinematicsIMU

fwtvres20*00x256

Multi-camerafusion&BEVtransform多攝像頭融合及BEV視角轉換

共享骨干網絡提取圖像特征

2.1.4、BEV+Transformer大模型提供遠強于傳統自動駕駛算法的感知能力

(1)改善2D-3D空間轉換過程中深度預測難點,感知性能大幅提升

引入BEV+Transformer后,模型對于2D空間向3D空間轉換的精度大幅提高。構建

BEV模型一大重要任務是實現2D圖片到3D空間的轉換,通常業內有四大類方式實

現2D-3D視角轉換:早期通常以基于相機內外參數(焦距、光芯、俯仰角、偏航角和

地面商度)的幾何變換的IPM(逆透視變換)實現,由于該方式基于地面純平、俯仰

角?定的假設,約束條件實現難度高;后續英偉達推出BEV行業的開山之作LSS算

法,但由于其計算量龐大以及精度仍然有限,難以支撐BEV的真正落地;其后學界業

界探索了眾多方案,包含基于神經網絡,通過監督學習數據驅動實現BEV空間構建等

方式,但深度估計的精度均不盡人意。2021年,特斯拉首次將Transformer應用于

BEV空間的構建,在多攝像頭視角卜,相比傳統感知方式,大幅提升了感知精度,該

方案推山后也迅速被業界廣泛追捧。

(2)完美實現多攝像頭、多傳感器的信息融合,極大方便后續規控任務

BEV+Transformer實際上引入"特征級融合”(中融合)方式。通常自動駕啾!汽車擁

有6-8個攝像頭以及其他多種傳感器,在感知過程中,需要將各類傳感器的信息進行

融合。傳感器融合大體可分為幾大類:

數據級融合(前融合):直接將傳感器采集的數據如圖像和點云融合。該方案優勢在

于數據損失少,融合效果好,但時間同步、空間同步要求達到像素級別,難度較高,

需要對每個像素計算,對算力消耗大,目前少有使用。

目標級融合(后融合):將每個傳感器采集信息并處理后的目標進行融合。該方案是此

前自動駕駛主流采用的方案,被廣泛應用于攝像頭之間、不同傳感器之間的信息融

合。優勢在于算法簡單、解耦性好即插即用。但也存在致命問題,由于融合前的處理

損失了大量關鍵信息,影響感知精度,融合結果容易沖突或錯誤。此外后融合中的融

合算法仍然基于規則,無法進行數據驅動,存在局限性。

特征級融合(中融合):則將原始傳感器采集的數據經過特征提取后再將特征向量進

行融合。該方案的優勢在于,數據損失少、將目標"分解"為特征,更容易在不同相

機和傳感器之間關聯,融合效果好。在BEV+transformer算法中實際上均采用中融合

的方式。

以路過大型卡車場景為例,障礙物某個時刻在5個攝像頭中同時出現,且每個攝像頭

只能觀察到車的某個部分。傳統算法通常會分別在每個攝像頭內完成檢測,再融合各

攝像頭的結果。通過部分信息識別出卡車整體的特征及其困難,且一旦完成物體檢

測,相當于“腦補”了看不到的部分,誤差較大拼接困難,經常會識別為多個目標或

漏檢。而BEV+Transformer通過特征級融合,完美生成鳥瞰視角下的場景,并且識

別精度更高。

(3)更易融入時序信息,模型擁有"記憶",避免遮擋等問題

感知算法中,時序融合能夠大幅提升算法連續性,對障礙物的記憶可解決遮擋問題,

更好的感知速度信息,對于道路標志的記憶可提升駕駛安全和對汽車車輛行為預測的

準確度,增強算法的可靠性和精度。在BEV+transformer算法中,由于所有的感知被

統一到3D鳥瞰圖空間,通過將不同時間和不同位置的特征關聯可很容易的實現時序信

息的融合。如在面對遮擋場景時,帶有時序信息的自動駕駛算法感知效果遠優于基于

單幀圖像感知的算法。同時也更便于下游的規劃控制算法實現對障礙物的追蹤。

(4)汽車擁有實時建圖能力,擺脫對高精度地圖的依賴

BEV+Transformer算法可在車端實時構建媲美高精地圖的高精度局部地圖,能夠在任

意常規道路條件下,實現自動駕駛所需的靜態場景深刻理解,然后以此為基礎,端到

端的輸出障礙物的軌跡和速度、車道線信息等,實現包雜場景下的自動駕駛應用,而

不需要依賴高精地圖。使得算法的泛化性大幅提升,成本也大幅下降。

2.2、占用網絡提供3D世界感知,形成通用障礙物識別能力

占用網絡構建通用障礙物感知體系,提升對未知物體感知效果。直接在矢量空間產生

統?的體枳占用數據,對于車子周圍任意的?個3D位置,它預測了該位置被占用的概

率,對每個位置它還會產生一定的語義信息比如路邊、汽車、行人、或者路上的碎片等

等,用不同的顏色標出,同時觀測速度信息,形成"占用柵格"+"柵格流(描述速度

信息)"+弱語義的表達形式。對特斯拉而言,即將原有Transformer算法輸出的

2DBEV+時序信息的向量空間增加高度信息,形成3DBEV+時序信息的4D空間表達形

式。網絡在FSD上每10ms運行一次,即以100FPS的速度運行,模型檢測速度大幅

提升。

占用網絡優勢顯著:(1)其改變了神經網絡算法先"認識"才能"識別"的特性,形

成了動靜態物體統一的障礙物感知方式,可大幅減少Comercase,提升安全性。

(2)擺脫檢測框的約束,對不規則外形障礙物的感知能力大大增強。(3)對特斯拉

來說,通用障礙物感知能力可以復用到其他產品如機器人上,形成了統一的算法框

架。

占用網絡的構建并非單獨算法上得演進,而是休系能力的提升。3D空間的距離直值費

取實際上較為困難,即使擁有激光雷達,其稀疏的點云信息仍然難以滿足占用網絡的

訓練需求,而由于仿真環境中距離真值信息可以直接獲取,因此占用網絡的構建幾乎

和強大的仿真場景構建用輔相成。

2.3、規控算法由基于規則邁向基于神經網,大模型開始嶄露頭角

2.3.1、人工智能逐步滲透進入規控算法

發力安全性、舒適性和效率,規控算法成為當前頭部玩家主攻方向。人能夠基于非常

有限的感知信息完美實現駕駛行為,很大程度因為人類擁有強大的"規控”能力。對

自動駕駛而言,采取一種讓安全性、舒適性和效率都達到最大化的駕駛策略無疑是各

大廠商不懈追求的目標。而該環節也直接決定了自動駕駛功能的消費者體驗,目前頭

部玩家已經將主攻方向與移到規控算法領域。

圖24:自動駕駛的目標:安全、舒適、效率

Safety

ComfortEfficiency

"擬人化"、強泛化性,人工智能推動自動駕駛“老司機"上線。規控算法的難度較

高,存在諸多非確定(如輔路與干道沒有綠化帶隔離,輔路的車輛可隨時進入干

道)、強交互(如多個物體在同一場環境下決策會相互影響,存在一定博弈性)、強

主觀(如駕駛員的駕駛風格,很難用有限標準量化表示)的場景。同時涉及交通法規

等一系列問題。早年的算法通常采用基于專家知識和規則的模式為主,由于基于規則

的系統需要不斷補充新R勺規則以實現對各類環境的良好應付,日積月累代碼量龐大,

占用算力資源,且不易維護。因此依靠數據驅動的基丁人工智能的規控算法日益走向

臺前。面對復雜的外部環境,人工智能模型能夠更加平滑的以"類人"的方式對駕駛

行為進行處理,泛化能力強、舒適性好,應對復雜場景的能力大幅提升。

兼顧"安全"和"性能”,神經網絡和基于規則結合有望成為一段時期內規控算法的

主流。小鵬汽車自動駕帙負責人吳新宙曾表示,基于大數據和深度學習的第法在規控

領域的滲透會越來越深,預計未來整個框架都將基于深度學習為基礎,但基于規則的

算法也會長期存在,因為規控算法的可解釋性很重要。基于神經網絡的規控算法有諸多

優勢,但目前如訓練過程中數據的清洗、一致性;面向一些小場景特定的算法調整;

可解釋性差等問題仍客觀存在。因此諸多玩家FI前仍采用以人工智能和基于規則結合

的方式來部署規控算法,制定一些規則來對人工智能產生的行為進行兜底,實現較好

的規控效果,未來隨著人I:智能能力的提升,規控算法人【:智能化已經成為大勢所

趨。交互搜索+評估模型,特斯拉規控算法行止有效。在規控方面,特斯拉采用交互搜

索+評估模型的方式實現舒適、有效以及傳統搜索算法和人工智能的結合的算法。具體

如下:(1)決策樹生成:首先根據車道線、占用網絡、障礙物等得到候選目標,生成

一些候選目標;(2)軌跡規劃:通過傳統搜索和神經網絡的方式同步構建抵達上述目

標的軌跡;(3)交互決策:預測自車以及場景中其他參與者之間的相互作用,形成新

的軌跡,經過多次評估選擇最后軌跡。在軌跡生成階段,特斯拉采用了基于傳統搜索

算法和基于神經網絡兩種形式,之后根據碰撞檢查、舒適性分析?、駕駛員接管可能性

和與人的相似程度等對生成的軌跡打分,決定走哪條路線。基于這種方式有效的將道

路參與者的博弈考慮在內,同時完美將基于規則和基于人【:智能結合,呈現出強大競

爭力。

2.3.2、大模型賦能,車道線預測等復雜任務得以實現

復雜道路的車道拓普結構識別難度較高。自動駕駛車輛在行駛過程中需要明確自車的

道路情況和車道線拓撲情況,以此來決定如何規劃自己的行駛軌跡。但當車道線模

糊,或者十字路口等場景下,需要算法自己計算出車道線情況,來指導自身的自動駕

駛行為。我們看到一些玩家針對這樣的場景做出了優化,來完美應對各類突發情況,

產業算法不斷進化和成熟。

特斯拉采用訓練語言模型的形式來訓練車道線網絡模型。車道線網絡實際上是嫁接在

感知網絡上的?個Transformer的解碼器(Decoder)。參考自然語言處理任務中的

形式,讓模型用自回歸(綜合上個環節的結果輸出下個環節的內容)的方式輸出車道

線的預測結果。具體而言,將車道線包含節點位置、節點屬性(起點、終點、中間點

等)、分義點、交叉點等進行編碼,形成類似語言模型中單詞的屬性,輸入

Transformer■解碼器中,將信息轉化成為“車道線語言",去生成下個階段的結果,進

而形成整個路網的車道線的拓撲結構。

理想汽車在理想家庭日上也展示了其用于增強路口性能的算法NPN神經先驗網絡。為

了解決大模型在十字路口不穩定的問題,對復雜路口,提前進行路口的特征提取和存

儲,當車輛再次行駛到路口時刻,將過去提取好的特征和BEV感知大模型融合,形成

更加完美的感知結果。

2.4、端到端(感知決策一體化):大模型為自動駕駛徹底實現帶來希望

2.4.1、回歸自動駕駛第一性原理,端到端自動駕駛成為市場遠期共識

模塊化的自動駕駛算法設計存在諸多問題。前述文章中提到的感知、預測、規劃等環

節的算法稱為模塊化算法設計,這些方案中每個模塊獨立負責單獨的子任務,這種方

案具備簡化研發團隊分工,便于問題回溯,易于調試迭代等優點。但由于將不同任務

解耦,各個模塊之間容易產生信息損失問題,且多個模塊間優化目標不一致,最后模

塊間產生的誤差會在模型中傳遞。端到端白動駕駛解決方案回歸自動駕駛第一性原理,

因此業界也一直在探索端到端的自動駕駛算法形式,即設計一個算法模型,直接輸入

傳感器感知的信息,輸出控制結果。端到端的自動駕駛算法擁有非常明顯的優勢:

(1)其遵循了自動駕馭的第一性原理:即無論感知、規劃、決策模塊如何設計,最終

是為了實現更好的自動駕駛效果,因此現有的方法聚焦單獨某個模塊的優化,對整體

的效果提升未必有效。(2)端到端的方式可避免極聯誤差,去掉冗余信息,提升視覺

信息的表達。(3)傳統模塊化的算法中需要面臨模型之間的多個編解碼環節,帶來的

計算的冗余浪費。(4)規則驅動徹底轉變為數據驅動.理想狀態下讓汽車自動駕駛模

型訓練變得簡潔。

2.4.2、工業界已經開啟探索,邁向完全自動駕駛

目前全球無論學術界還是工業界均對該方案進行了不懈探索。如英偉達2016年即提出

端到端的自動駕駛解決方案,而Uber更多次發相關的論文探索有關算法。最新的

CVPR2023I?商湯、OpenDriveLab,地平線等聯合發布的端到端的自動駕駛算法

UniAD,獲得了當年的最佳論文。其采用Transformer將感知、決策、規劃、控制模

塊都融入到一個模型中,端到端的處理自動駕駛問題,能夠呈現出最佳的運行效果。

目前英國初創公司Wayve亦致力于開發端到端的自動駕駛系統,致力于讓汽車通過芻

己的計算機視覺平臺"自己看世界",同時可以根據它所看到的東西做出自己的決

定。馬斯克也曾在推特上表示,其FSDV12版本將是一個端到端的自動駕駛模型。

2.4.3、大模型的思考,自動駕駛或許并非終點

通識知識和強泛化能力助力人類輕松學會駕駛。人類可以在短時間內學會駕駛,但機

器則需要海量的數據和訓練。可能的原因在于人類在學習駕駛之前就已經充分對整個

世界有了全面的認知,并可以將這些認識泛化到各類場景下。如在學校附近應該減

速、遇到老人應當小心等,面對形狀怪異的紅綠燈人類幾乎不加思考就可理解其想表

達的意思。通識知識,強泛化能力可以對自動駕駛行為產生重大幫助。GPT受到市場追

捧,也引發了自動駕駛界對模型構建方式的思考。前文提到的英國公司Wayve亦在嘗

試構建一個世界模型,通過使用與駕駛本身無關的數據,如一些文本數據預訓練模型

進而提升模型的駕駛性能。此外,公司亦在嘗試將自動駕駛模型和自然語言結合,讓

自動駕駛模型能夠描述自己的行為,進而增強模型的性能和可解釋性。國內亳末智行等

也在做出相應的嘗試,建立大參數的模型,并將海量駕駛場景編碼成語料,投喂給模

型進行無監督學習,接著再加入人類反饋強化學習幫助其掌握駕駛員的行為,進而讓

模型擁有接近人的自動駕駛能力。大語言模型的風靡乜讓市場對自動駕駛模型構建的

方式有了新的想象空間,DriveGPT未嘗不是一種可以嘗試的方向。

圖38:GPT帶來了業界對自動駕駛算法構建的新思考

InstructionGPT的訓練范式

海?文本6摳人工瘋寫問答對

自動/位加訓等監ta竽習

海?多槽態故應子任根塊Imitation

RL(HF)

自動范甘孜訓媒監行訓煉Learning

端到端自動駕駛的il慘范式

->--}---f7/cri[J:

當差,絲來非智庫

世界模型浮上水面,面向通用場景,解決通用問題。在最新的CVPR2023會議上,特

斯拉提出了世界模型,即構建一個模型,可觀察所有需要觀察的事物,并將其轉化為

向量空間,鏈接各類豐富的卜游任務。該模型不止用于汽車,還可用于機器人等等嵌

入式人工智能場景。通過該模型可預測未來、構建仿真場景,通過語言提示,讓它生

成各類場景如直行、向右變道等。

2.5、數據端:大模型推動數據閉環和仿真落地

神經網絡只決定了算法的上限,而是否能讓神經網絡發揮其效能,數據起到了決定性

的作用,因此如何尋找純凈且多樣化的海量數據集相比算法而言同等重要。

2.5.1、數據閉環:自動化運行,降本增效推升規模是關鍵

完整的數據閉環系統,通經常包含數據采集、數據挖掘、數據標注、模型訓練等環

節。其對自動駕駛功能實現的重要性不言而喻,但當前自動駕駛車型傳感器越來越高

端,據dSPACE的數據,若采用4k800萬像素的攝像頭,每秒產生的數據將達到

3GB,疊加激光雷.達毫米波雷達等傳感器,整車每秒將產生的40G數據,每小時產生

19Tb數據,對整車廠的數據處理能力提出考驗。

數據采集:通常自動駕駛算法會采取一定的觸發(Trigger)機制來開啟數據上傳。如

出現人類駕駛和自動駕駛不一致的情況,或不同傳感器之間一致性不同的情況,或者

不同算法出現沖突,以及某些指定的特殊場景如近距離跟車、加塞、光照急劇變化、

陰影車道線等等。特斯拉在2022AIDAY上表示其擁有221種觸發器。數據清洗/挖

掘:數據清洗和挖掘實際上是數據處理的過程,通常采集的數據包含大量的無用數

據,這里需要算法將訓練模型所需要的數據提取出來,以實現有效的數據收集,同時

修正部分錯誤數據。這其中對于數據處理的“內功”要求深厚。數據標注:挖掘到有價

值的數據后,需要采用人工標注或自動標注的方式,疊加部分仿真數據,形成數據集

來實現對算法的訓練和迭代。這其中涉及2D標注、3D標注、車道線標注、語義分割

等,工作量大,同時影響著車企自動駕駛算法的迭代,是數據閉環中的重中之重。

數據閉環收益顯著但成本不可忽視,降本增效是關鍵。數據標注方面,據特斯拉AI

DAY描述公司曾經組建了超過千人的團隊,早期通過人工在2D圖片上進行精細標

注,但效率低下;后改進為在向量空間完成標注,再通過投影投射到8個攝像機里

面,效率大幅提升;再之后特斯拉即建立了自動標注系統,通過離線大模型實現自動

標注,大幅提升標注效率。此外特斯拉通過多車輛聯合優化等方式來提升標注的精確

度,起到了良好的效果。行業其他玩家亦開發自動標注工具以降本增效,據小鵬汽車

描述,采用自動化標注工具后,公司能夠在17天內完成原本需要200個人年才能完

成的標注任務。數據閉環方面,特斯拉、小鵬、理想汽車均提到了各白的白動化數據

閉環體系,能夠全自動完成數據的采集、挖掘、標注、存儲等環節,大大提升模型的

訓練和迭代效率C

2.5.2、仿真:從提升效率到不可或缺

仿真是自動駕駛系統構建不可或缺的環節。將數據采集過程中的實車數據經過聚類、

場景提取、泛化與篩選,構筑用于測試的虛擬世界,自動駕駛算法控制車輛,與虛擬

世界產生交互,并將交互結果輸出,在自動駕駛領域優勢明顯:(1)當數據極端難以

獲取的時候,仿真可以生成大量的場景供模型訓練;(2)天然帶有標注信息。當數據

難以標注的時候,如幾百萬人過馬路,標注成本極高且效率低下容易產生錯誤,但仿

真場景下不存在上述難點:(3)仿真可以給規控算法以安全的實驗環境;(4)仿真的

價格低廉,效率高。埋論上完美的仿真能夠取代實車測試,進而以較低成本達到安全測

試效果,縮短自動駕駛算法研發周期,是自動駕會開發迭代的重要環節。

不同的算法對仿真環境的構建提出不同要求。通常自動駕駛核心算法包括感知算法、

決策規劃算法、控制算法三大環節,其中感知算法仿真需要高還原度的三維重建場景

和精準的傳感器模型;決策規劃算法仿真需要大量的場景庫為支撐;控制算法需要引

入精準的車輛動力學模型。虛擬場景構建方面,通常需要模擬出與真實世界?致的靜

態、動態交通運行場景。靜態場景通常包含道路、車道線、減速帶、交通標志、路

燈、車站、周圍建筑等等,通常使用高精度地圖和三維重建技術構建(通常需要回執

高精度地圖并進行三維建模);動態場景包含動態指示設施、機動車行為、非機動車

行為、行人行為、通信環境、氣象變化、時間變化等。感知系統仿真方面,包含攝像

頭仿真(生成逼真的圖像并添加色彩和光學屬性等通常采用游戲引擎來構建,如百度

阿波羅采用Unity3D、騰訊TADSim引入了虛幻引擎)、亳米波雷達仿真、激光雷達

仿真。車輛動力學仿真方面,通常基于多體動力學搭建模型,其中包含車體、懸架系

統、轉向系統、制動系統、動力系統、傳動系統等多個真實部件的車輛模型。

對仿真工具而言,其能夠覆蓋的場景范圍越大,自動駕駛可行駛邊界就越廣泛。因此評

價自動駕駛算法最重要的標準就是測試其是否能夠處理足夠多的場景庫。通常仿真模

型會以真實采集的數據、模擬數據、以及根據真實場景合成的仿真數據為數據源,對

場景的幾何形狀、物理運動規律、以及場景中各個元素如車流、行人等符合邏輯規律,

以實現更好的仿直效果.

自動駕駛仿真平臺市場競爭激烈,促使平臺仿真性能提升。自駕仿真平臺布局主體眾

多,可以劃分為科技公司、自駕解決方案商、仿真軟件企業、車企、高校及科研機構

五大類。科技公司擁有大數據優勢,軟件開發經驗豐富:自駕解決方案商多針對自研

發需要,較少對外提供仿真服務:不同仿真軟件企業經驗積累程度不同,傳統企業積

累深厚,初創企業積累薄弱:車企能夠將路測和仿真測試同步結合,但限于自身軟件

開發能力,多與外部仿真平臺提供商合作進行自動駕駛汽車開發;高校及科研機構主

要對自駕仿真軟件進行前瞻、基礎性研究。自駕仿真平臺參與者眾,市場競爭激烈,

具備更快迭代速度、更強仿真能力、更完善服務支持的仿真平臺將快速成長。

DRIVESim:Nvidia自動駕駛研發生態體系重要一環。DRIVESim是由英偉達開發的

端到端仿真平臺,能夠進行大規模多傳感器仿真。DRIVESim功能強大,能夠提供核

心模擬和渲染引擎,生成逼真的數據流,創建各種測試環境,模擬暴雨和暴雪等各種

天氣條件,以及不同的路面和地形,還可以模擬白天不同時間的眩目強光以及晚上有

限的視野,達到”照片級逼真且物理精確”的傳感器優真。

DRIVESim具有完善的工具鏈支持,融入英偉達自動駕駛開發生態。DRIVESim可以

在Omniverse云平臺上運行,也可以在OVX服務器組成的本地數據中心甚至單顆

RTX3090上運行。DRIVESim具有開放式、模組化分特點,擁有良好的可拓展性:

(1)支持神經重建引擎(NER),該AI工具可以將真實世界的數據直接帶入仿真中,

開發者可在仿真環境中修改場景、添加合成對象,并應用隨機化技術,大大增加真實

感并加快生產速度。(2)使用NVIDIAOmniverseKitSDK,DRIVESim允許開發

人員構建自定義模型、3D內容和驗證工具,或與其他模擬進行交互。(3)支持

DRIVEReplicator生成與合成傳感器數據對應的真值數據,用于訓練自動駕駛汽車

DNNoDRIVESim已融入英偉達完整的軟硬協同生態,支持從概念到部署的自動駕駛

汽車開發及驗證。

51Sim-One:本土仿真系統助力中國自動駕駛量產落地。Sim-One是51World全棧

自研的云原生仿真平臺。(1)場景方面,Sim-One具有豐富的場景生成方式,特別

是能基『語義泛化工具鏈能夠實現場景的快速定義:與第三方場景庫達成合作,擴充

場景數量,提高仿真測試質量。(2)平臺方面,Sim-One具有豐富的功能,包括靜

態和動態數據導入、測試場景案例編輯、各類仿真、測試與回放、虛擬數據集生成以

及各類在環測試:Sim-One基于原生云架構仿真平臺,支持大規模并發仿真技術,H

測試里程可達十萬公里。(3)評價方面,Sim-One具備豐富的指標庫可供用戶自行

選擇進行評價,涵蓋安全性、違規性、舒適性、高效性、經濟能耗性、控制準確性等

多個維度,并且支持多場景并發評價。

AI應用于仿真系統,能夠有效輔助自動駕駛系統升級。(1)在場景庫構建方面,從傳

感器數據中利用AI進行自動化、大規模三維重建,構建現實世界對象和背景的幾何形

狀、外觀和材料屬性;使用大量路采數據訓練AgentAI,使之模仿道路場景中的主

體,賦予虛擬場景強交互性;利用已有場景庫與生成式AI,自動生成無需標注的各種

交通場景數據。(2)在車輛仿真測試過程中,使用A]識別自動駕駛系統的弱點,并

自動創建對抗性場景,同時自駕系統使用AI算法自動從錯誤中學習,自動迭代更新,

無需密集手動調整算法,適應更快節奏、更大規模的訓練。AI能使仿真系統更有針對

性,使自動駕駛算法調整自動化,加速自駕技術在現實世界落地。

3、自動駕駛算法變革引領產業鏈變化

3.1、兵馬未動糧草先行,云端算力軍備競賽開啟

對自動駕駛而言,大量的數據處理、訓練、自動標注、仿真等工作需要完成,算力成

為車企打造自動駕駛能力的核心,決定著車企的算法迭代效率和上限。特斯拉表示其

總算力在2024年將沖列lOOEFIops,而國內領先玩家亦不遑多讓,紛紛構建自有的

數據中心,自動駕駛的算力軍備競賽從車端蔓延到云端。

3.1.1、特斯拉自研算力平臺Dojo,2024年沖刺lOOEFIops算力

特斯拉在應對海量訓練和仿真需求時構建了龐大的算力體系。據特斯拉在2021年AI

DAY介紹,特斯拉為了移除自動駕駛系統對毫米波雷達的依賴,從250萬個視頻剪輯

中生成了超過100億個標簽,需要龐大的離線神經網絡和引擎。而硬件方面,特斯拉

在2021年AIDAY期間就擁有接近1萬塊GPU,2022年AIDAY上這一數字提升

到1.4萬片,其中約50%的負載用來實現云端自動標注和車載占用網絡的訓練。

自研D1芯片和Doj。超級計算機布局算力。為了進一步提升算力水平,2021年起特

斯拉開始自研D1人工智能芯片和Dojo超級計算機。將25顆自研的D1芯片封裝成

Dojo訓練模塊,再將120個訓練模塊結合Dojo接口處理器等組件融合形成Doj。主

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論