智能駕駛行業市場分析_第1頁
智能駕駛行業市場分析_第2頁
智能駕駛行業市場分析_第3頁
智能駕駛行業市場分析_第4頁
智能駕駛行業市場分析_第5頁
已閱讀5頁,還剩29頁未讀, 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

智能駕駛行業市場分析

數據融合和神經網絡構建智能駕駛方案底層

目前自動駕駛行業網絡基礎架構普遍為

lnput->backbone->neck->head->outputo以特斯拉為例,其自動駕

駛理念是通過深度學習模型建立仿照人腦基于視覺的計算機神經網

絡系統,將攝像頭的圖像數據經過融合、特征提取、識別、決策幾步

處理成鳥瞰圖模式或者3D空間占用情況,用于后續的路徑規劃,各

家處理順序有所不同。具體而言,特斯拉自主構建的HydraNet網絡

在input端輸入攝像頭的原始圖像數據,通過backbone層的神經網

絡架構提取圖像特征數據,將特征輸入neck結合后續路徑規劃等任

務做調整,再對特征數據賦予時間信息,進一步實現對目標不同時間

信息的融合,并將結果傳向各個heads,完成后續任務。整個算法的

核心在于特征提取及數據融合,高效的數據處理和有效的感知圖層構

建是自動駕駛落地的基礎。特斯拉以視覺圖像數據為主,其他車企也

會選擇將毫米波雷達、超聲波雷達、激光雷達等多傳感器數據加以綜

合,并在特征提取、識別、融合、決策等數據處理順序上存在差異,

以此可以將數據融合分為前融合、后融合、特征級融合三種模式。

特征級融合集低數據損失與低算力消耗優勢于一體

1)前融合:傳感器數據融合,計算量大,目前業內應用并不多。前

融合,也稱為數據級融合,指的是將傳感器的觀測數據融合,然后再

從融合數據中提取特征向量進行判斷識別。其特點在于只有一個感知

的算法,對融合后的多維綜合數據進行感知。

前融合的優勢是不存在數據丟失的問題,得到的結果也較為準確,前

融合屬于底層數據融合。將多個傳感器的原始觀測數據(rawdata)直

接進行融合,比如把激光雷達的點云數據和攝像頭的像素級數據進行

融合,數據的損失比較少;其挑戰主要在于計算量大,對算力和融合

策略要求較高,由于視覺數據是2D圖像空間,激光雷達點云是3D

空間,在進行融合時,要么在圖像空間里把點云放進去,給圖像提供

深度信息,要么在點云坐標系里,通過給點云染色或做特征渲染,讓

點云具有更豐富的語義信息。

2)后融合:各傳感器輸出結果在決策層融合,為智能駕駛早期階段

主流方案。后融合,也稱為目標級融合、決策級融合,指的是每個傳

感器各自獨立處理生成的目標數據,每個傳感器都有自己獨立的感知

算法,比如視覺感知算法、激光雷達感知算法、毫米波雷達感知算法

等,從而各自輸出帶有傳感器自身屬性的結果,并在決策層由主處理

器進行數據融合,這也是當前的主流方案。后融合的優勢在于1)不

同的傳感器都獨立進行目標識別,解耦性好,且各傳感器可以互為冗

余備份;2)對于主機廠來說,后融合算法比較簡單,每種傳感器的

識別結果輸入到融合模塊,融合模塊對各傳感器在不同場景下的識別

結果,設置不同的置信度,最終根據融合策略進行決策;3)算力要

求更低,參考汽車之心數據,后融合策略對車端算力要求在10OTOPS

以內,前融合卻需要500-1000TOPS算力。后融合的缺點在于在后

融合策略下,低置信度信息會被過濾掉,原始數據丟失。

圖6:多傳感器后融合基本原理示意圖

3)特征級融合:相比后融合數據損失少,相比前融合算力消耗少,

在BEV空間中使用更大。特征級融合,也稱為中間層次級融合,指

的是先將各個傳感器通過神經網絡模型提取中間層特征(即有效特

征),再對多種傳感器的有效特征進行融合,從而更有可能得到最佳

推理。特征級融合的好處在于,相較于后融合,數據損失少、準確度

更高,相較于前融合,算力消耗較少,參考汽車之心數據,特征級融

合對車端算力需求大約在300-400TOPS之間。

前融合算法算力要求高、目前更多流行于學術界,后融合算法會產生

嚴重的原始數據丟失問題,特征級融合算法兼具數據損失少、算力消

耗少的兩大優勢,被提出后廣泛應用于車企及供應商中;特斯拉采用

純視覺方案通過特征級融合實現算力和推理結果的最佳權衡。國內小

鵬、理想、華為等同樣選擇特征級融合方案,差異在于國內車企普遍

采用雷達、攝像頭等多種類傳感器配置,特征級融合還是基于視覺傳

感器數據,理想等公司另外提出將傳感器的特征級融合結果和激光雷

達數據再次進行前融合來增強整體感知效果。

自動駕駛的感知層在輸入攝像頭等原始數據后,其處理包括融合、特

征提取、識別、決策幾個步驟,車企根據自身的傳感器配置選擇數據

融合方案,并選擇不同的神經網絡做圖像的特征提取、數據融合等處

理過程,根據內部結構的不同,神經網絡模型一般可分為DNN、CNN、

RNN、Transforme「等多種,不同的神經網絡結構會在處理過程中提

供不同的助力效果。

神經網絡模型從CNN到Transformer,效率提升

DNN(深度神經網絡):全連接神經網絡,存在效率低下等問題

DNN的基礎是神經元,神經網絡由一個個神經元組合而成,其作用

就是接收n個輸入,然后給出一個輸出,具體計算過程根據需要進行

設計。在輸入層和輸出層中間加入隱藏層,即構成DNN(深度沔經

網絡),隱藏層是輸入層和輸出層之間眾多神經元和鏈接組成的各個

層面,如果有多個隱藏層,則意味著多個激活函數,隱藏層的層數問

題根據實際問題來設定,設定過多會造成計算資源浪費,設定過少會

降低結果準確率,下圖中箭頭的方向代表前向傳播的方向,每一個神

經元得到的結果會傳給下一層所有的神經元,這也是DNN也被稱為

全連接神經網絡的原因,一層一層傳遞得出最終結果。DNN(深度

神經網絡)的問題在于參數過多效率低下,訓練困難;大量的參數也

會很快導致網絡過擬合,而自動駕駛感知層輸入數據較多,CNN(卷

積神經網絡)可有效解決以上問題。

CNN卷積神經網絡:對局部感知,再在更高層將局部信息綜合得到

全局信息,適用于圖像識別

卷積神經網絡(ConvolutionNeuralNetwork,CNN)是一種前饋神經

網絡,其本質是一個多層感知機,CNN成功推出的原因在于“將復雜

問題簡化”,把大量參數降維成少量參數,再做處理,其通過卷積層

和池化層所采用的局部連接和權值共享的方式來降維:一方面減少了

權值的數量使得網絡易于優化;另一方面降低了模型的復雜度、減小

了過擬合的風險,適用于圖像識別。

CNN分類圖像,一般需要卷積操作、池化操作、全連接操作來進行

預測識別。1)卷積層:卷積層的主要作用是對輸入圖像或者特征圖

進行特征提取。卷積核相當于一個滑動參數窗口,在輸入圖像或者特

征圖上實現固定步長且有規則滑動,每滑動一次,與輸入圖像或者特

征圖對應區域進行相應的計算,獲取代表局部特征信息的值。

2)池化層:池化層作用是在保留重要特征的情況下,降低數據處理

維度。池化層主要操作是通過對上一層輸出特征圖進行采樣操作。一

般的采樣方式有三種:最大池化、平均池化和混合池化。

3)全連接層:通常位于網絡的底部,常用于分類任務。在分類網絡

中,全連接層可以為輸出結果的概率。

圖14:全連接方式

若只通過DNN全連接層進行特征提取,會增加網絡的復雜度并且計

算復雜度高,相比之下CNN卷積神經網絡是先對局部進行感知,然

后在更高層將局部信息綜合得到全局信息,兼具局部連接和權重分享

的特點:1)局部連接:卷積運算使用卷積核通過滑動窗口將輸入特

征映射連接到神經元中,與全連接相比,該方法有效地降低了網絡復

雜度,這提高了在線學習數據特征的性能;2)權重分享:對于局部

連接處理輸入特征圖的整個過程中,所使用的卷積核為同一個卷積核,

因此計算所需要的權重矩陣為同一個,即權值共享。

CNN卷積神經網絡之所以適合圖像識別,主要在于CNN模型限制參

數個數并挖掘局部結構的特點。其缺陷在于一方面,CNN無法對相

對空間信息進行編碼,僅關注于檢測某些特征,而不考慮它們之間的

相對位置;另一份,池化層會將局部特征壓縮為單一的值,這些值無

法完全代表原始特征的信息,導致可能丟失一些有價值的特征信息。

Transformer:在并行計算、保留位置信息、捕捉遠距離特征等方面

表現優異

Transformer是一種基于注意力機制(AttentionMechanism)的神經

網絡模型,由谷歌2017年論文《AttentionisAllYouNeed》提出,

相比RNN的優勢在于可并行計算、并且能夠處理長序列的輸入,相

比CNN的優勢在于保留了位置信息、且解決遠距離特征依賴問題。

因此,Transformer模型成了自然語言處理領域中最流行的模型之一。

Attention機制源自于人類視覺注意力機制:將有限的注意力集中在

重點信息上,從關注全部到關注重點,從而節省資源,快速獲得最有

效的信息。Attention是一種權重參數的分配機制,目標是幫助模型

捕捉重要信息,本質是一種帶權求和。

Encoder是對輸入句子SourceXI、X2、X3、X4進行編碼,將輸入

句子通過非線性變換轉化為中間語義Ci,對于解碼器Decoder來說,

其任務是根據句子Source的中間語義表示Ci和之前已經生成的歷史

信息來生成i時刻要生成的Yi。

傳統的Attention機制發生在Target的元素和Source中的所有元素

之間,SelfAttention(自注意力機制)不是輸入語句和輸出語句之間

的Attention機制,而是輸入語句內部元素之間或者輸出語句內部元

素之間發生的Attention機制,簡單理解,如下圖所示,對于每一個

輸入向量a,經過藍色部分SelfAttention(自注意力機制)之后都輸

出一個向量b,這個向量b是考慮了所有的輸入向量對a1產生的影

響才得到的,這里有四個詞向量a對應就會輸出四個向量bo

SelfAttention(自注意力機制)的矩陣形式如下圖,具體計算過程為:

1)把4個輸入a拼成一個矩陣I,這個矩陣有4個column,也就是

a1到a4,I乘上相應的權重矩陣W,得到相應的矩陣Q、K、V,分

別表示query,key和value;2)利用得到的Q和K計算每兩個輸入

向量之間的相關性,也就是計算attention的值0,通常采用點乘的

方式;3)矩陣A中的每一個值記錄了對應的兩個輸入向量的AttenHon

的大小A'是經過softmax歸一化后的矩陣。再利用得到的A,和V,

計算每個輸入向量a對應的self-attention層的輸出向量b組成的矩

陣0。

Multi-HeadAttention(多頭注意力機制)是在self-attention的基礎

之上進行了完善,使用多組得到多組Query,Keys,Values,然后

每組分別計算得到一個Z矩陣,將得到的多個Z矩陣進行拼接,最

后將拼接后的矩陣再乘一個權重矩陣W,得到乙Multi-Head

Attention(多頭注意力機制)的思想類似于卷積神經網絡中的filter,

可以從不同的角度提取圖像的特征,從而得到多個特征表達。

Transformer是一個基于Encoder-Decoder框架的模型,具備可并行

計算、可保留位置信息、可捕獲遠距離特征等多重優勢。1)并行計

算:Transformer不存在網絡中間狀態不同時間輸入的依賴關系,可

以自由進行并行計算;2)位置信息:Transformer使用位置函數對

位置編碼,因而保留了位置信息;3)遠距離特征:自注意力機制允

許模型為序列中的每個位置分配不同的權重,以便模型可以更好捕捉

序列中的關系,可捕獲遠距離特征。

對于自動駕駛而言,傳統CNN圖像數據融合基于局部特征執行,局

部感知能力強,感知區域隨層數增加逐步擴大,但可能忽略圖像間依

存關系;而Transformer從輸入開始的每一層結構都可以看到所有信

息,同時可以利用自注意力機制特性對全局信息加以感知,感知數據

處理更靈活,但是模型表現提升需要一定數據規模,同時全局計算復

雜度高。目前特斯拉等多家車企選擇Transformer與CNN并存模式,

結合兩種神經網絡架構優點,Transformer技術提升CNN架構下感

知系統環境語義的理解深度,CNN架構節省Transformer的算力損

耗,長期看這一多神經網絡架構有望加速AI大模型及高階自動駕駛

的量產上車。

明23:Transformer架構在大規模的陵訓練數據下表現良好

-

t二*70

-dM)w

一KS

MIb

75z

7O&

-m4)

duJ0

o-

L

v

N

l

u

K

U砥

J

\

Inu^NclImageNet-2Ik1

Prr-lrainmgchta^ctNumberofJFIprctraining、』mpk、

法規落地,高階智能駕駛有望加速上車

各國政策在不斷放開對自動駕駛的限制。智能駕駛技術發展走在政策

法規限制之前,高階智能駕駛技術持續進階,然而事故權責認定、準

入條件等領域立法空白影響車企上車決策。2022年7月,深圳市發

布的《深圳經濟特區智能網聯汽車管理條例》,首次規范智能網聯汽

車智能駕駛的定義、市場準入條件及責任認定等內容,有望為其他地

區提供示范效應,加速L3智能駕駛的落地。2023年6月21日,工

信部在國務院政策例行吹風會上透露,將啟動智能網聯汽車準入和上

路通行試點,組織開展城市級“車路云一體化”示范應用,支持有條件

的智能駕駛,這里面講的是L3級,及更高級別的智能駕駛功能商業

化應用。而在此之前,美國國家航空運輸安全管理局在2022年3月

提出全智能駕駛汽車不需要再配備傳統的方向盤、制動或油門踏板等

裝置。特斯拉FSD為代表的高階智能駕駛在技術完善后,上車有望

加速。

特斯拉帶動智能駕駛行業技術進階

特斯拉FSD算法持續升級(2021年BEV+Transformer—2022年引

入OccupancyNetwork一2023年或引入端到端融合大模型),引領

行業發展。智能駕駛方案存在較高技術壁壘,從硬件層面減少雷達配

置、到軟件層面提供BEV、Transformer>Occupancynetwork等大

模型實現重感知方案,均是特斯拉走在行業前列。2023年后特斯拉

推出FSDV12的端到端模式,有望帶動行業進入新一輪快速迭代周

期,智能駕駛方案滲透率有望持續提升。

技術層面:軟硬件持續迭代,大模型、端到端引領行業

特斯拉智能駕駛方案可以簡單分為四個階段。2014年10月-2016年

7月,特斯拉與Mobileye深度合作,當時的Hardwarel.0硬件配置

為1個前置攝像頭+1個毫米波雷達+12個中程超聲波雷達,選用

MobileyeEyeQ3芯片,軟件方案為Mobileye黑盒模式。至2016年

10月,特斯拉開始自研軟硬件系統,發布第二代硬件Hardware2.0,

配8個攝像頭+12個遠程超聲波雷達+1個前置毫米波雷達,選用英

偉達TegraParker芯片,芯片算力從MobileyeEyeQ3的0.256TOPS

提升到NIVIDTegraParker的1TOPS,最關鍵在于英偉達芯片+安森

美等傳感器脫離mobileye的軟硬件一體模式;軟件上選用行業內通

用的卷積神經網絡實現2D圖像檢測,但是2016年10月更新硬件

HW2.0版本,直到2017年1月Tesla配備HW2.0的車輛補齊AEB、

防碰撞預警、車道保持、自適應巡航等多種Autopilot功能;2019年

-2021年5月,特斯拉升級Hardware3.0硬件配置,傳感器不變,搭

載2個自研FSD芯片,同時逐步在軟件算法引入

BEV+Transformer+Occupancynetwork等模型,技術層面引領行業

發展。2021年5月起,特斯拉轉向純視覺方案,逐步減少超聲波雷

達及毫米波雷達配置,芯片配置保持不變。2023年后,特斯拉即將

發布新一代端到端大模型及新一代硬件配置Hardware4.0,智能駕駛

技術路線進入新時代。

2016?2019年,起步智能駕駛全棧自研

2016年是特斯拉智能駕駛全棧自研的起點。2016年之前,特斯拉與

Mobileye深度合作,采用其軟硬件一體的智能駕駛解決方案。2016

年10月,特斯拉開始自研智能駕駛技術方案,硬件選擇英偉達的

TegraParker芯片,相比mobileye合作的HW1.0增加7個攝像頭(8

個攝像頭+12個超聲波雷達+1個前置雷達);軟件方面用行業內通

用的卷積神經網絡實現2D圖像檢測,數據采用人工標注,軟件算法

工作網絡結構為Input-backbone-neck-head-Output,單head

模式限制多任務并行。2018-2019年,特斯拉構建多任務學習網絡

HydraNet,在input端輸入攝像頭的原始圖像數據,在主干網絡使用

卷積神經網絡模型regnet進行特征的識別提取,對特征數據賦予時

間信息,進一步實現對不同時間目標的融合。HydraNet設置多個

head同時處理多項任務,比如同時檢測車道線及紅綠燈等;主干網

絡提取的特征在多個head任務中共享,減少重復計算;同時任務間

又相對獨立,存在較低耦合,不會互受影響。

2019-2022年,傳統分解式模型,感知+規控創新引領行業技術發展

2019年開始,特斯拉智能駕駛方案邁上正軌,這一時期的特斯拉采

用傳統分解式方案,2021年推出BEV+Transformer架構,2022年

又提出Occupancynetwork,通過感知算法處理傳感器數據,然后將

處理結果送入規劃控制模型得出交互博弈的動態最優解。特斯拉在感

知、規控兩處模型創新性設計引領行業發展。

感知層,BEV+Transformer+OccupancyNetworks實現3D重建,

脫離高精地圖限制

為構建三維向量空間,大部分車企使用激光雷達方案來獲取深度信息,

并與視覺感知進行融合,馬斯克堅持第一性原理,將事物拆解回本質,

使用更接近于人類駕駛員的純視覺方案,通過多個攝像頭數據實現智

能駕駛,感知層是特斯拉與眾多使用雷達的智能駕駛方案最大不同,

也是特斯拉算法最顯著的創新。

純視覺方案首先需要解決多攝像頭數據融合問題。常規做法是1)先

對各攝像頭數據進行處理后融合;2)直接將多攝像頭數據整合后做

特征提取等任務;3)先對多個攝像頭進行特征提取,然后對有效特

征加以融合。特斯拉選擇第三種,并進一步引入BEV網絡

+Transformer模型實現多視角圖像特征轉換到車體坐標的鳥瞰圖,

隨后進化Occupancynetwork實現3D重建,判斷空間占用并向下輸

出結果用于規劃。其中,BEV是鳥瞰圖(Bird'sEyeView)的簡稱,

也被稱為上帝視角,是將多傳感器圖像數據統一成用于描述感知世界

的俯視視角,特斯拉先通過HydraNet共享的主干網絡提取每個輸入

圖像的特征,并將其投影到預設好的BEV空間中,通過Transformer

模型將時間和空間維度上的特征融合,以此將感知結果統一,盡可能

擴大感知范圍、便于后續規控模型操作。

圖26:特斯拉BEV.Iran,former模型

OccupancyNetworks負責3D空間占用檢測

OccupancyNetworks負責識別三維空間占用情況,即每一柵格是否

有物體占用。具體而言,是將輸入的多視角圖像通過BiFPN和CNN

組成的backbone網絡提取多尺度特征,然后模型通過帶3D空間位

置的SpatialQuery對2D圖像特征進行多相機融合,以此生成

OccupancyFeatures替代了原本的BEVFeatureso隨后對不同時間

及空間下的圖像特征進一步融合,以此獲得帶有時序信息的

4DOccupancy特征。特征融合后,Occupancy將整個3D空間分割

成一個個小柵格,并通過解碼器輸出每個柵格的空間占據概率等信息。

算法從關注目標識別轉向空間占用和語義分割,并據此進行道路規劃,

解決自動駕駛實際運行中存在沒經過訓練的數據無法被識別問題。

規控層,融入神經網絡加速路徑規劃

特斯拉規控方案兼顧算法安全及算法耗時兩方面。智能駕駛規控的核

心目標是實現出發地到目的地間平衡最佳安全性、舒適性、駕乘時間

和體驗的路線,并驅使車輛順利到達。其中在存在標識復雜路口或者

眾多交通參與者互動等場景,實現高效路徑規劃是核心。傳統思路為

盡量減少與其他交通參與者互動、做聯合多物體的路徑規劃,但耗時

長、用戶體驗差;特斯拉創新性引入交互搜索方案,1)接收上一步

通過BEV+Transformer等多種大模型處理后的感知數據;2)通過接

收到的vectorspace找到要去的路口、車道線等地點;3)做一條初

始的路徑規劃;4)考慮場景中存在的其他交通參與者可能出現的博

弈;5)重新進行路徑規劃。當人類駕駛員操控車輛,而系統后臺規

劃決策與人類駕駛員行為不一致時?,該場景特征通過影子模式上傳至

數據集參與后續訓練。路徑規劃過程逐步增加約束條件(其他交通參

與者博弈行為),并和神經網絡結合,一方面保留約束規則保證規控

層的安全、穩定;另一方面通過神經網絡為模型加速。

2023年之后,智能駕駛進入端到端AI新時代

智能駕駛模型下一步迭代方向是端到端AI模型,以加大數據量換取

系統復雜度和開發難度降低。端到端的智能駕駛方案將傳統方案中感

知、規劃、執行等多個模型變成融合大模型,實現直接輸入傳感器數

據到輸出轉向、剎車等駕駛指令的突破。一方面減少感知、決策等中

間模塊的訓練過程,有效集中模型訓練資源;避免產生數據多級傳輸

導致的誤差;同時也不存在各子模塊目標與總系統目標存在偏差的情

況,保證效益最大化。

端到端Al模型并不是新概念,實際上它被應用于各行各業,最典型

即ChatGpt,從輸入人類語言直接輸出所需要的人類語言,不需要經

過其他的模型做進一步的機器語言翻譯。從算法上看,作為。penai

推出的語言大模型,基于Transformer模型的端到端生成式對話系統,

創新性使用基于人類反饋數據的系統進行模型訓練,具體而言是將系

統輸出的預測結果與真實結果之間形成的誤差反向傳播到模型中重

新訓練,調整權重和參數直至模型收斂(模型結果穩定,不會因為小

的失誤產生大波動)或者達到預期。Chatgpt向智能駕駛及其他行業

提供優化人與機器交互、提升數據訓練效率等方向的思路。

智能駕駛層面,端到端最早出現在1988年的ALVINN實驗中,實驗

者將一個攝像頭裝在真實車輛上,通過淺層神經網絡實現圖像特征提

取,同時采集人類駕駛員動作,實現速度0.5m/s下400米的端到端

無人駕駛。隨后2016年,英偉達公布無人駕駛系統DAVE-2,結合

近三十年的算力、算法等技術發展,其在ALVINN基礎上增加攝像頭

和數據量,將淺層神經網絡更新成先進的深度卷積神經網絡以獲得更

好的特征提取效果,實現采集不到一百小時的訓練數據足以訓練汽車

在高速公路、普通公路以及晴天、多云和雨天等多種情況下運行,路

測數據顯示98%時間為智能駕駛。

2023年,馬斯克提出FSDV12版本將實現端至IJ端的AI駕駛方案,

特斯拉方案具備的天然優勢有望引領智能駕駛模型迭代提速。端到端

模型發展多年,英偉達、商湯等陸續提出方案,但是受限于算法、數

據等限制始終沒有大規模落地。2023年特斯拉提出FSDV12版本將

實現端到端的Al駕駛方案,從輸入圖像到輸出控制的操作更為直觀、

流暢,同時和FSD多年技術積累契合。1)傳統的智能駕駛涉及雷達、

攝像頭、V2X等多樣化數據來源,數據存在不同的格式和維度,同時

還需要考慮定位和地圖的輸入,很難放入統一的模型網絡中;而特斯

拉將采用視覺方案,重感知、輕地圖,利用BEV網絡+Transformer

架構實現了多視角視圖的特征級融合,同時避免了雷達等傳感器高成

本問題。純視覺方案存在難以識別沒有經過訓練的場景問題,即模型

難以泛化,而特斯拉引入了Occupancynetwork實現輸入2D圖像到

輸出3D空間重建,算法端能力得到驗證。2)端到端模型將分解式

模型中多個參數聯合學習、擬合數據的實際分布情況、根據新的輸入

數據輸出概率模型;根據大數定律,隨機事件會在大量重復實驗中收

斂,即數據越多、擬合效果越好;端到端模型往往需要更大量的數據

樣本及算力支持。而特斯拉全球車隊截至今年5月總行駛里程已經超

過1000億英里,根據特斯拉官網,特斯拉用于優化系統的autopilot

行駛里程數據已經超過90億英里。

數據層面:構建數據閉環,可擴展智算中心適配訓練量提升

數據閉環是高階智能駕駛的必經之路。大模型及端到端模型訓練均需

要大量數據,特斯拉構建數據采集一搭建數據集一自動標注一送入模

型訓練一量化部署上車的數據閉環。在數據采集層面,智能駕駛系統

需要大量數據提供模型測試和優化,尤其是多樣化、包含cornercase.

標注深度、速度、加速度信息的數據。特斯拉基于數據集訓練算法、

通過云端部署到擁有影子模式(ShadowMode)的車隊中,影子模

式在司機駕駛時運行但不控制車輛,運行算法中人類駕駛員行為與系

統模擬行為不一致時,系統將此場景識別為“cornercase”并上傳搭建

數據集,并用于后續的模型訓練迭代。特斯拉智能駕駛數據集中的數

據來自人工標注、自動標注、虛擬仿真及大規模生成四部分。人工標

注是最傳統的數據來源,直到2018年時,特斯拉還在2D圖像上采

用人工標注,但效率低、難以滿足模型迭代需求。2019年,特斯拉

開始使用自動標注取代人工貼標,效率獲得大幅度提升。特斯拉通過

運行中的車輛采集數據,將包含圖像、IMU、GPS等數據的視頻圖

像上傳至服務器,對圖像做預處理、輸出深度等信息,再以SLAM

等Al模型實現三維場景重建。標注效率顯著提升,但考慮智能駕駛

存在眾多無法窮舉的“cornercase”場景、難以標注場景,特斯拉推進

虛擬仿真及大批量生成,公司用盡量真實的傳感器模擬和渲染設計虛

擬數據,進一步擴充數據集豐富度。

數據中心端,可擴展性結構適配智能駕駛模型。Transformer模型進

一步奠定大模型領域主流算法結構,特斯拉自研FSD芯片提升車端

智能駕駛算力;同時大數據量上車催化了算力需求的提升,數據訓練

中心算力需求同比提升。特斯拉2021年研發AI芯片D1,同時將25

個D1芯片封裝成一個訓練模塊,達成9Petaflops的算力,隨后再將

訓練模塊組成機柜,達到1.1EFLOP算力,進一步提升數據訓練中

心能力。與特斯拉另外用5760個NvidiaAWO構建的1.8EFLOPS

超算中心相比,DOJO的特色不在于算力的突破性進展,而是通過對

稱的分布式架構實現高擴展性;具體而言,通過2DMesh架構連接

形成互聯對稱、內存訪問對稱,同時具備分布式架構,每個Node都

具有相同的處理能力和存儲能力,可以實現增加機器但不影響模型運

行性能的可擴展性,使模型開發和訓練不會受模型分割等影響。

圖必特斯拉自研AI芯片D1

362TFLOPs—”

22.6TFLOPsFP32

1OTBps/dir.On-Ch*pBandwidth

4TBps/edge.O"C2Bandwidth

400WTDP

B?LA

用戶層面:目前整體滲透率偏低,FSD入華或將加速

2016年之前,特斯拉的輔助駕駛功能分為autopilot及

enhancedautopilot兩檔,前者標配,包括交通感知巡航控制、自動

輔助轉向兩項功能;后者提供高速導航、自動變道、自動泊車、智能

召喚功能,需要購車時額外付費5000美元購買(購車后需要6000

美元)。2016年特斯拉推出FSD預定,當時并沒有給出功能,只需

要在購車時額外增加3000美元可以獲得預定;2019年第二季度特

斯拉正式發布FSD應用版本,價格增長至5000美元,同期取消

enhancedautopilot購買;FSD訂購率飆升至歷史最高。此后,隨著

低價格車型(3&Y)及中國地區銷量快速增長、FSD價格增長,2019

年第三季度開始FSD滲透率呈現下降趨勢,截至2022年Q3,特斯

拉FSD全球訂購率在7.4%,北美和歐洲地區略高,在14.30%和

8.80%,亞太地區僅為0.4%。

低價格車型(3&Y)及中國地區銷量快速增長、FSD價格增長,2019

年第三季度開始FSD滲透率呈現下降趨勢。

1)價格較低且FSD訂購率較低的Model3、ModelY車型銷量規模

增長。由于不同的產品定位和客戶群體,特斯拉不同車型的FSD訂

購率存在較大差異。根據TroyTeslike數據,同在北美,model3和

modely的訂購率分別為5?20%和13.30%,而models/modelx史于

44.80%的高位。特斯拉2016年推出model3,2017年產品開始交付,

產品定價相對較低,銷量增長迅速,至2023年第一季度,models

及modely銷量已經占據整體銷量的96%,公司整體產品銷售結構變

化帶來FSD訂購率變化。

2)尚未完全開放FSD功能的中國為代表的亞太地區銷量規模增長。

國內特斯拉銷量持續增長,截至2023年第一季度,中國地區特斯拉

銷售車型累計超過153萬臺,但是由于數據安全問題,特斯拉尚未

能向中國地區用戶完全開放FSD功能,目前國內用戶手冊上并沒有

完全智能駕駛能力(Beta)功能,支付6.5萬元費用后所得體驗僅為

標配AP(自適應巡航、車道保持)+EAP(高速上自動輔助導航、高

速上自動輔助變道、智能召喚、自動泊車),而EAP單獨售價僅為3.2

萬元,國內FSD訂購率極低。

3)FSD價格一路上漲。2016年北美FSD售價為購車時在EAP基礎

上增加3000美元預訂或購車后支付4000美元預訂;在2019年4

月,特斯拉正式發布FSD應用包,價格上漲至5000美元,經過多

輪漲價,最新到2023年的V11版本,FSD售價躍升到15000美元。

隨價格上漲,特斯拉陸續增加城區NOA等輔助駕駛功能,一定程度

上提升用戶體驗,但受法規、技術限制,FSD整體仍是L2+輔助駕

駛,沒有出現跨越性革新。

截至2022年Q3,特斯拉FSD全球訂購率在7.4%,北美和歐洲地

區略高,在14.30%和8.80%,亞太地區僅為0.4%。馬斯克提出全

面智能駕駛時代今年年底即將到來。而我們預計隨FSD進入中國,

澳洲、德國等地持續開放FSDBETA、V12端到端版本推出以及

Robotaxi落地,FSD滲透率持續提升。

1)FSD若進入中國,將有效提升亞太地區滲透率。截至2023年第

一季度,中國地區特斯拉銷售車型累計超過153萬臺,但亞太地區

整體FSD滲透率水平不到1%,待開發市場廣闊。我們認為FSD完

全進入中國關鍵在于數據。1)數據獲?。禾厮估钚碌?/p>

BEV+Transformer+Occupancynetworks大模型擺脫高精地圖限制,

但根據自然資源部規定,特斯拉智能駕駛輔助系統運行、服務和道路

測試過程中對車輛及周邊道路設施空間坐標、影像、點云及其屬性信

息等進行采集、存儲、傳輸和處理的行為屬于測繪,外商投資企業應

委托具有相應測繪資質的單位開展相應測繪活動,由被委托的測繪資

質單位承擔收集、存儲、傳輸和處理相關空間坐標、影像、點云及其

屬性信息等業務及提供地理信息服務與支持。2)數據中心的存儲及

訓練:2021年5月12日,國家互聯網信息辦公室發布《汽車數據安

全管理若干規定(征求意見稿)》提出,個人信息或者重要數據應當

依法在境內存儲,確需向境外提供的,應當通過國家網信部門組織的

數據出境安全評估。馬斯克在2021年9月世界互聯網大會上提出,

特斯拉已在中國設立數據中心,將中國業務產生的所有數據本地化,

包括生產、銷售、服務和充電。初步解決個人數據存儲問題,未來進

一步解決自動駕駛數據存儲及自動駕駛模型本地化迭代難題后,在國

內外法規加速落地情況下,中國及亞太地區滲透率有望加速提升。

2)澳洲、德國等地FSDBETA開啟推送。特斯拉2020年10月推出

FSDBETA,首次推出僅向美國少數用戶開放測試,需要用戶主動申

請并通過安全評分系統評估;2022年2月,該功能向加拿大少數用

戶開放;2022年11月,特斯拉向全北美用戶開放測試權限,用戶申

請即可使用。直到2023年5月,根據Teslascope平臺,特斯拉

FSDBETA首次在澳大利亞、德國、比利時開啟推送,FSDBETA首

次向北美以外地區拓展,歐洲、澳洲滲透率有望提升。

3)FSDV12帶來端到端模型革新。FSD自2019年正式推出后,經

歷幾輪漲價和多次系統更新,比如2020年FSDBETA版推出城區自

動轉向,2022年11月將高速公路輔助駕駛系統融入FSDBETA版

木。但是受限于法規等限制,并沒有推動真正的功能性革新。馬斯克

今年提出FSBV12版本將去掉“BETA”,啟用端到端的自動駕駛大模

型,將多年來行業通用的感知、規劃兒個模型融合成大模型,減少中

間模型訓練工作量、加速自動駕駛算法迭代、提升用戶體驗。新一代

大模型落地后,FSD系統滲透率有望進一步提升。

4)Robotaxi預計2024年量產,B2C+C2C雙模式拉動FSD滲透率提

升。馬斯克在2016年提出共享車隊概念,提出車主可以將自己的車

加入共享車隊,同時特斯拉會在需求旺盛的地區布局自己的車隊;

2019年明確指出特斯拉車主可以選擇將自己的車加入到Robotaxi

中,特斯拉會從其中抽取25%~30%分成的商業模式。2022年馬斯

克重申Robotaxi將于2024年量產,采用無方向盤或者踏板設計。

按照特斯拉官方測算,Robotaxi出行成本低至每英里0.18美元以下,

遠低于目前的出行費用(如深圳滴滴快車每公里收費2-2.5元,折合

傳統/拼車每英里0.5-0.7美元),Robotaxi落地空間廣闊。馬斯克預

計每輛Robotaxi每年可帶來超3萬美元的利潤,可連續載客11年。

B2C模式增加特斯拉配FSD車型出貨量,C2c模式提升客戶訂購率,

Robotaxi落地后,FSD滲透率有望持續上行。

國內公司積極布局高階智能駕駛,大模型快速推進

高階智能駕駛將人從操作車輛中解放出來,顯著提升駕乘體驗,預期

擁有極高用戶粘性,同時將車企定位從傳統制造業轉向科技行業,收

費模式從整車交易的一錘子模式轉向持續付費,公司投資意愿較強。

華為、小鵬等公司積極布局、快速推進大模型發展,帶動產'亞鏈上下

游充分受益。

特斯拉引領,國內新勢力積極跟進大模型布局

特斯拉BEV+Transformer+Occupancynetworks大模型引領潮流后,

華為、小鵬等多家公司走向擺脫高精地圖依賴道路。根據九章智駕信

息,小鵬汽車發布XNet,采用多相機多幀的方式把來自每一個相機

的視頻流直接注入到一個大模型深度學習網絡里.,進行多幀時序前融

合,輸出BEV視角下的動態目標物的4D信息(如車輛,二輪車等

的大小、距離、位置及速度、行為預測等),以及靜態目標物的3D

信息(如車道線和馬路邊緣的位置)。理想汽車2023年6月17日

召開家庭科技日發布會,其城市NOA不依賴高精地圖,采用增強BEV

大模型,配備的自動駕駛訓練算力達1200PFLOPS,還有6億公里

訓練里程,當月開啟北京和上海城市NOA內測;通勤NOA在用戶

自主設定通勤路線下1-2周內可以完成訓練,預計通勤NOA下半年

開放。華為ADS于2020年首次亮相,1.0版本實現基于Transformer

的BEV架構,今年發布的2.0版本增加獨家自研GOD網絡,通過

激光雷達、毫米波雷達、攝像頭等多傳感融合感知,具備識別異形障

礙物能力,實現無高精地圖智能駕駛。華為智能駕駛方案與長安阿維

塔、賽力斯問界、北汽極狐等深度合作,預計今年第三季度將實現

15個無圖城市落地,年末達到45城無圖駕駛落地。

?8:自動駕駛公司感知大模型配置情況

上方侑況A力芯片云■?■中心窗?!隽r■

21年6月正情窿1?

FSOBETA

KVHfAntfof?erModelUwsM力iHt(機口.閏年15000

WUrfiFSO日

(fiMB)-X^MNDojo.M年10月一(一次tiz買》

9(2301)

力S般慢稗達100U?Flop*

XPILOTtt-W

小M率皿》8為NIVIOOr.n-X*2MOPFLOPS

XMGPIi-41”萬it

KV?Tr?ntforBer

?NRhTlWjlD入文2=dA0P,。版-35%萬元;

AOMAX30XBOlOfllSflL*wNIVID0n??-X*212O0PFL0PSM6億公?

AOM?M9?萬元

??R?)

MAO/nop*8CV(7月開媯)ET5WRIVIOOein-XM//M0jt/fl

8EV*Transfora?rM—一次償u女8000元.

網修《占用富不墨;,

華為八摩ADS20?GOO??n?)C610//何算7200元.包月720

空間網臨)MM”元

8ev?Tran?forr新事卡

■末?行30M4000萬公?1M0元

?—tOHT-HCV

8£Vl??=lt?HIVI00,.n-X*2200PFL0PS《昆侖名

,V,D//

MT30如?文心大帽里M?0-0i"3Am金?)■—)

廣汽族安fl今對番奧支雙芯

“M10PS

環及。JOJI法AIONLX片及鼻椅式計||平

雄彩僮航《目就投入使用第1/

KVForwr$2遇能住與可移Hvts^je

.為3740PFL0P$>

Wtt

大模型助力成本下降,自動駕駛空間廣闊

大模型上車強化視覺算法弱化成像雷達,有望實現感知硬件整體降本。

大模型落地有效減少高精地圖依賴,弱化成像雷達作用,考慮中國存

在很多城區快速建設、道路頻繁變化的城市,如果在沒有大模型幫助

下落地城區NOA,會受限于高精地圖及成像雷達高成本(研究指出

高精地圖輔助智能駕駛的服務費預估每輛車為700-800元/年,是普

通導航電子地圖的20-35倍)。大模型加速車企上車城區輔助駕駛,

同時減少車企的傳感器硬件配置壓力,華為ADS2.0版本使用1個激

光雷達、3個毫米波雷達、11個攝像頭組及12個超聲波雷達,相對

ADS1.0方案減少2個激光雷達;特斯拉FSD也逐漸取消毫米波雷

達及超聲波雷達的傳感器。未來整車傳感器成本有望持續下降,自動

駕駛市場空間提升。

預計2025年國內帶城區輔助駕駛功能的自動駕駛市場規模510億元;

遠期市場規模隨技術進步將持續增加。我們預計隨車企硬件方案降本

及高階自動駕駛能力上車,2025年帶城區輔助駕駛功能的自動駕駛

滲透率將從目前的0.4%提升至IJ6%水平,按照國內乘用車銷量2430

萬輛,自動駕駛單車價值34000元買斷預估,國內市場規模將到510

億元水平。我們認為用戶對自動駕駛產品的定價與自身成本息息相關,

用戶選擇以自動駕駛產品取代人類司機的底層邏輯是以機器取代人

力,當自動駕駛軟硬件廠商進步,產品供給曲線右移,產品會觸及更

多自身駕車時間成本或人力工資成本稍低的用戶,即遠期看,穩態下

自動駕駛需求量有望持續增加,遠期市場規模約為2880億元。

數據需求提升,部分公司布局智算中心

當前的智能駕駛模型普遍基于深度學習構建,前期輸入大量數據訓練

模型,使得模型具備類似人類駕駛員的感知、規劃、執行能力,并通

過訓練矯正其行為。同時考慮現實存在cornercase,智能駕駛模型

上車后也需要不斷接收用戶數據或使用仿真數據對模型迭代訓練。隨

智能駕駛等級提升以及越來越多的大模型算法上車,數據計算量增大,

算力要求提高,為匹配數據量增長并做好后續大規模數據訓練準備,

部分公司開始布局智算中心。根據國家信息中心定義,智算中心是智

能時代面向社會全域多主體的新型公共基礎設施,集算力生產供應、

數據開放共享、智慧生態建設和產'也創新聚集四大功能于一體,為有

海量數據存儲、處理、分析及應用支撐需求的各類場景提供載體支撐,

提供包括生產、聚合、調度、釋放算力四個環節能力;1)生產算力,

基于強大服務器和多種算力芯片,對智能駕駛模型提供數據處理、訓

練;2)聚合算力,采用最新網絡和存儲技術實現文件、對象、塊、

大數據存儲服務一體化及同一架構上不同應用件數據融合,并在需要

時將數據高效傳出;3)調度算力,基于智能駕駛系統對算力的需求

特點,通過虛擬化、容器化等技術,CPU、GPU、FPGA、ASIC等

算力資源進行標準化和細粒度切分,滿足多樣化需求,保障系統開發

和業務的高效運行。4)釋放算力,采用全流程軟件工具,針對不同

場景應用需求,通過機器學習自動化的先進方法產出高質量模型或服

務。

智算中心建設周期長,初始投資大,主機廠出于算力需求開始建設。

但是高階智能駕駛模型尤其是端到端模型數據計算量巨大,部分有實

力的主機廠及企業已經開始布局。參考佐思汽車信息,2023年1月,

吉利汽車的星睿智算中心正式上線,總投資10億元,規劃機柜5000

架。該中心目前的云端總算力達81億億次每秒,預計到2025年,

算力規模將擴充到120億億次每秒;覆蓋包括智能網聯、智能駕駛、

新能源安全、試制實驗等業務領域,提升吉利整體20%研發效率。

特斯拉的dojo超算中心進一步提升其綜合業務能力(智算中心是

CPU+AI芯片,針對特定的人工智能行業斌能;超算中心采用

CPU+GPU的芯片架構,可針對行星模擬、工程仿真等多種領域實現

通用化大精度計算賦能)。

大模型落地推動智能駕駛硬件變革

大模型及高階自動駕駛落地同樣催化硬件配置變革。我們整理了目前

特斯拉和國內造車新勢力的代表車型智能化配置,出于硬件預埋角度,

雖然目前國內暫時無法落地高等級自動駕駛,蔚來等部分車企還是選

擇配置30+顆傳感器,其中包括800萬像素攝像頭,為后續高階智能

駕駛落地后OTA升級做足準備。我們認為在大模型落地及高階自動

駕駛加速上車的趨勢下,越來越多的車企傳感器方案重心會向視覺傾

斜,會有更多的800萬像素攝像頭上車;同時1000+TOPS的大算

力域控制器數量增多,底盤端線控制動和線控轉向滲透率也將直線向

±o

我們簡單梳理當前智能駕駛各環節硬件配置價值量水平,以小鵬G6

為例,目前小鵬G6Max版搭載31顆傳感器,包括12顆攝像頭+12

顆超聲波雷達+5顆米波雷達+2顆激光雷達,整車傳感器+域控成本

約3萬元。具體看,預計單個120萬/500萬/800萬像素攝像頭價格

為100~200元/300?400元/400~500元;超聲波雷達單價百元內;

預計3D角雷達單價為200-300元;3D前雷達單價約400-500元,

4D成像毫米波雷達價格在1500-2000元水平;激光雷達成本較高,

目前單價預計在5000-6000元;L2~L4級自動駕駛域控預計在

2000-10000元區間。

變化一:感知端,系統重心向視覺轉移,攝像頭像素水平提升

視覺逐漸成為感知系統重心,攝像頭像素水平提升。車企攝像頭方案

相對雷達優勢顯著,一方面感知信息豐富,通過圖像數據顯示車道線、

交通信號燈等多種信息,達到最接近人眼的感知效果;另一方面,攝

像頭從1956年開始在汽車應用,技術水平更為成熟、產業鏈更為完

備。在大模型的助力下,圖像感知數據的處理能力得到進一步提升,

視覺在感知層優勢越來越顯著。特斯拉從HW1.0時期僅配備單個攝

像頭向三目前視、多路環視攝像頭方案升級,目前國內新勢力車型普

遍采用30+個傳感器配置,攝像頭占比約40%。同時隨自動駕駛技

術進階,攝像頭素質同比提升,800萬像素的攝像頭提供更好的戌像

效果、更遠的探測距離及更大的視場角,2022年開始大量800萬像

素攝像頭搭載上車。理想L9、蔚來ES8等車型單車配備800萬像素

攝像頭數量達6~7個。目前行業普遍采用的11~12顆攝像頭+5顆毫

米波雷達+1?3顆激光雷達方案的成本在1.5萬元~2萬元水平,遠期

規模化量產,全無人駕駛下,車企個攝像頭+3個4D毫米波

雷達+2個普通毫米波的傳感器配置,成本有望降至10000元內。

圖44:2020-2025E中國乘用車ADAS攝像頭搭載量

4D毫米波雷提供較高質量圖像數據,有望加速上車,2023年中國乘

用車前裝市場搭載量將有機會突破百萬個。自動駕駛算法發展提升圖

像數據處理質量,大模型和數據中心落地提升自動駕駛預訓練數據集

空間,但是國內仍存在大量cornercase,存在被遮擋“鬼探頭”現象。

攝像頭、激光雷達等傳統方案不能解決困境,4D毫米波雷達提供“穿

墻”數據,提高感知系統探測能力。相對傳統的3D毫米波雷達,4D

毫米波雷達點云數據更加密集,提供較為清晰的圖像。同時其成本又

顯著低于激光雷達,該產品也將隨高階自動駕駛落地及車企降木壓力

快速上車。研究預測,2023年中國乘用車前裝市場,4D成像雷達的

搭載量將有機會突破百萬個。

國內外供應商積極布局,少部分產品已經量產上車。4D毫米波雷達

優勢顯著,大陸集團、采埃孚、森思泰克、保隆科技等Tieri廠商,

以及華為、mobileye等自動駕駛方案供應商都積極布局4D毫米波雷

達市場。其中森思泰克進度較快,其產品已經在理想L7、長安SL03、

紅旗、吉利等多個品牌配套量產。

車載通信有望轉為光信號方案。更進一步,目前行業內傳輸車內遠距

離的攝像頭信息普遍使用串行解串器方案,這部分產品掌握在德州儀

器、美信串行器GMSL兩家手里,不利于我國車企產業鏈安全;未

來行業趨勢是從電導線轉向光導線,光導線不受電磁場干擾,可以減

少抗干擾配置,整車成本有望下降,同時我國企業有較強的產業優勢,

華為等公司已經開始研究光信號下的車內通信,行業有望加速發展。

變化二:規劃端,數據要求提升,域控算力升級

數據和算法要求提升,自動駕駛芯片算力持續提升(或從低于10Otps

到遠期lOOOtps)。一方面大模型及大型自動駕駛數據處理提出大算

力需求;另一方面,高規格攝像頭等傳感器上車提供更多需要處理的

數據,增加算力消耗,比如傳統的L1?L2級自動駕駛,配備120-200

萬像素攝像頭,只需要對車道檢測等簡單功能提供算力,而

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論