車載智能計算芯片白皮書(2023版)_第1頁
車載智能計算芯片白皮書(2023版)_第2頁
車載智能計算芯片白皮書(2023版)_第3頁
車載智能計算芯片白皮書(2023版)_第4頁
車載智能計算芯片白皮書(2023版)_第5頁
已閱讀5頁,還剩42頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

目錄

一、背景...................................................................................................................................4

二、車載智能計算趨勢與挑戰(zhàn)........................................................................................5

1.傳感器及控制單元復(fù)雜繁多..............................................................................................................5

2.環(huán)境感知融合帶來實時數(shù)據(jù)處理挑戰(zhàn)........................................................................................6

3.算法模型尚不能很好應(yīng)對長尾場景............................................................................................7

4.AI算法演進周期快于智能芯片設(shè)計周期....................................................................................8

5.大算力低功耗的車載智能計算芯片方案缺乏.............................................................................8

6.功能安全是底線........................................................................................................................9

三、軟件定義汽車........................................................................................................10

1.軟件定義汽車的驅(qū)動力............................................................................................................11

2.系統(tǒng)架構(gòu)革新..........................................................................................................................12

3.云原生技術(shù)極大提升研發(fā)效率.................................................................................................15

4.邊緣算力預(yù)埋與車云協(xié)同計算提升汽車長期價值....................................................................17

四、異構(gòu)計算芯片........................................................................................................19

1.車載智能計算SoC架構(gòu)..........................................................................................................21

2.能耗與性能..............................................................................................................................22

3.功能安全.................................................................................................................................24

4.信息安全.................................................................................................................................27

五、車載智能計算軟硬協(xié)同優(yōu)化..................................................................................29

1.自動駕駛算法向端到端大模型演進..........................................................................................29

2.軟硬協(xié)同優(yōu)化的難點...............................................................................................................30

3.NPU軟硬協(xié)同設(shè)計創(chuàng)新..........................................................................................................35

4.異構(gòu)感知計算流水線優(yōu)化........................................................................................................36

5.輔助駕駛、自動駕駛案例........................................................................................................37

6.智能座艙案例..........................................................................................................................43

六、總結(jié)與展望............................................................................................................47

《車載智能計算芯片白皮書(2023)》一、背景

智能化、面向服務(wù)的基礎(chǔ)架構(gòu)、軟件定義汽車等已經(jīng)成為各大汽車廠商競相追逐的熱點和差異化

的焦點。高算力域控制器、智能座艙、輔助駕駛、自動駕駛等人工智能算法應(yīng)用越來越受到各大汽車

制造商、汽車零部件供應(yīng)商、算法和系統(tǒng)集成商的重視和關(guān)注,并迅速成為投資和競爭的重點。軟件

和算法在智能駕駛汽車中越來越重要而且成為了差異化競爭的關(guān)鍵。軟件價值的提升意味著未來汽車

更多的創(chuàng)新將集中在電子和軟件部分。領(lǐng)先的底層架構(gòu)、出色的軟件迭代、持續(xù)優(yōu)化和不斷進化的硬

件技術(shù),將加速整個汽車行業(yè)的轉(zhuǎn)型與變革。隨著芯片技術(shù)、硬件技術(shù)、軟件技術(shù)、人工智能、深度

學(xué)習(xí)算法等迅猛發(fā)展,智能計算已是大勢所趨,車載智能計算軟硬件平臺和服務(wù)的競爭在汽車行業(yè)中

將會越來越激烈。

據(jù)IHS調(diào)研的數(shù)據(jù)顯示,中國購車消費者對于智能座艙科技的關(guān)注度要高于美國、日本、英國等

多個國家,對于座艙智能科技水平的關(guān)注僅次于安全配置,甚至超過動力、價格、能耗等指標。據(jù)

HIS調(diào)研預(yù)測,到2030年,汽車智能座艙的全球市場規(guī)模將達到681億美元,而中國市場規(guī)模將超過

1600億元;全球占比將超過37%,成為全球主要的智能座艙消費市場。另據(jù)Tractica預(yù)測,2025年

汽車人工智能硬件、軟件和服務(wù)市場將達到265億美元。麥肯錫的一份調(diào)研也顯示,2030年全自動駕

駛汽車可能占全球乘用車銷量的15%,2040年時,將上升到80%。自動駕駛目前是一個相對新生的

市場,相信隨著人工智能技術(shù)、法律監(jiān)管的完善以及消費者接受度的提升,自動駕駛市場會進一步擴

大。

當然,人工智能技術(shù)是實現(xiàn)汽車智能化的最核心要素之一,它包括機器學(xué)習(xí)、深度學(xué)習(xí)、自然語

言處理、計算機視覺等軟件工程、算法的演化。其中算法模型的演化需求,以及紛繁復(fù)雜的應(yīng)用場景,

極大驅(qū)動了車載智能計算芯片創(chuàng)新。

今年以來,ChatGPT的驚人效果標志著人工智能領(lǐng)域的又一次重大里程碑,同時還掀起了一場深

刻的軟件開發(fā)變革,這就是大數(shù)據(jù)和大模型驅(qū)動的軟件開發(fā)2.0新范式,將在未來的數(shù)年內(nèi)深刻影響

車載智能計算的發(fā)展路徑。

4《車載智能計算芯片白皮書(2023)》

與PC、手機的發(fā)展歷史所展現(xiàn)的規(guī)律一樣,智能計算芯片演進速度在極大程度上決定了整車智能

化的演進速度,是產(chǎn)業(yè)發(fā)展的風向標,今天,在智能汽車百年巨變的時代背景下,車載智能計算芯片

迎來了高速發(fā)展的機遇期。

智能汽車未來將有機會在實現(xiàn)“零事故”、“零排放”和“零擁堵”的宏偉愿景中發(fā)揮重要作用。本報告

將從車載智能計算趨勢與挑戰(zhàn)、軟件定義汽車趨勢、車載異構(gòu)計算芯片,以及軟硬協(xié)同設(shè)計角度,闡

述車載智能計算軟硬件平臺的發(fā)展機遇與創(chuàng)新實踐。

二、車載智能計算趨勢與挑戰(zhàn)

輔助駕駛、自動駕駛以及智能座艙是跨越人工智能、高性能芯片、通信技術(shù)、傳感器技術(shù)、車輛

控制技術(shù)、操作系統(tǒng)等基礎(chǔ)軟硬件以及功能安全要求等多領(lǐng)域的系統(tǒng)工程,落地技術(shù)難度大,主要體

現(xiàn)在如下幾點:

1.傳感器及控制單元復(fù)雜繁多

車輛中的傳感器與各種電子電氣系統(tǒng)的信息傳輸與控制都由汽車電子控制器(ECU)完成,ECU在

制動系統(tǒng)、變速系統(tǒng)、懸架系統(tǒng)、安全系統(tǒng)、驅(qū)動系統(tǒng),以及自動駕駛、輔助駕駛、智能座艙等都有

廣泛應(yīng)用,據(jù)統(tǒng)計2019年中國汽車單車ECU數(shù)量大約為20–30個,目前的智能化較高的車型,主

要ECU數(shù)量可能超過100個。

5《車載智能計算芯片白皮書(2023)》

圖一:自動駕駛傳感器及軟件

如圖一所示,自動駕駛主要分為感知層、決策層和執(zhí)行層。感知層主要通過激光、攝像頭、GPS、

陀螺儀等傳感器獲取車輛所處環(huán)境和車輛狀態(tài)信息,比如:行人檢測、車輛檢測、車道線檢測、紅綠

燈識別、交通標識牌識別、障礙物識別和車輛定位等;決策層根據(jù)路線規(guī)劃、所處的環(huán)境以及車輛自

身狀態(tài)等規(guī)劃下一步具體行駛?cè)蝿?wù)(車道保持、換道、跟車、超車、避撞等)、行為(加速、減速、

轉(zhuǎn)向等)和路徑(行駛軌跡);執(zhí)行層則基于車輛動力控制系統(tǒng)對車輛進行轉(zhuǎn)向、制動、驅(qū)動等控制,

使車輛按照既定行駛策略行駛。

智能化汽車帶來了更加紛繁復(fù)雜的電子零部件ECU通過軟件與通信協(xié)議協(xié)調(diào)工作,給車身電子電

氣架構(gòu)、開發(fā)成本、車身重量等帶來極大挑戰(zhàn)。

2.環(huán)境感知融合帶來實時數(shù)據(jù)處理挑戰(zhàn)

智能汽車需要處理傳感器(攝像頭、激光雷達、雷達和超聲波)捕獲的海量數(shù)據(jù),它必須提供實

時反饋,例如交通狀況、事件、天氣狀況、路標、交通信號等。需要每秒數(shù)萬億次計算操作(TOPS)

6《車載智能計算芯片白皮書(2023)》

來同時處理多個具有挑戰(zhàn)性的任務(wù)(例如,對象提取、檢測、分割、跟蹤等)。根據(jù)LucidMotors的

研究人員測算,智能汽車每小時各種傳感器累計產(chǎn)生的數(shù)據(jù)量大約為1.4TB-19TB。

來源:StephanHeinrich,LucidMotors,FlashMemorySummit2017

圖二:車載傳感器數(shù)量及帶寬

L2級別及以下的駕駛輔助系統(tǒng)所需處理的數(shù)據(jù)量小且算法模型簡單,因此小算力芯片與算法的強

耦合即可滿足系統(tǒng)需求。隨著激光雷達等高性能傳感器的量產(chǎn)上車以及智能駕駛系統(tǒng)算法的泛化性提

升,面向量產(chǎn)乘用車的全場景自動駕駛點到點通行鏈路正逐步打通。對于L3級別及以上的智能駕駛系

統(tǒng)而言,傳感器數(shù)量的增加及多路高分辨率攝像頭帶來海量實時環(huán)境感知數(shù)據(jù),外加算法模型的復(fù)雜

程度不斷增加,計算平臺的處理能力面臨巨大挑戰(zhàn)。

3.算法模型尚不能很好應(yīng)對長尾場景

超過95%的車禍是由于各種人為錯誤造成的,但是對于完全自動駕駛技術(shù)量產(chǎn)而言,在倫理、法

律要求下,AI技術(shù)不成熟導(dǎo)致車禍是不能容忍的。使用更先進的AI模型算法,采用更為完備的訓(xùn)練標

注數(shù)據(jù),雖然可以提高自動駕駛的安全性和準確性,然而,極端情況仍然是需要人類駕駛者來干預(yù),

至少目前為止還沒有算法可以解決所有的極端場景。

7《車載智能計算芯片白皮書(2023)》

即便隨著自動駕駛汽車不斷的里程突破,很多時候在人類看來是非常低級錯誤的自動駕駛事故案

例也時有發(fā)生。從自動駕駛算法角度來看,每一個低級失誤導(dǎo)致的事故案例,都反映了AI算法或者模

型的不完備性,我們是無法接受自動駕駛算法犯低級錯誤,哪怕錯誤概率低至0.01%。

模型的泛化性不佳是其中的重要原因之一,突破點在于通用人工智能(AGI,ArtificialGeneral

Intelligence)理論和算法的進展,以及與之適配的計算平臺架構(gòu)。

4.AI算法演進周期快于智能芯片設(shè)計周期

當前,AI算法演進周期跟智能芯片設(shè)計周期之間的矛盾非常突出。AI算法演進速度非常快,在過

去10年時間里,差不多每年都有會新的深度學(xué)習(xí)算法模型出現(xiàn)。據(jù)統(tǒng)計,大概每14個月,新的模型

就能將計算效率提升一倍,但典型的車載芯片開發(fā)周期需要三年。算法優(yōu)化會對計算平臺架構(gòu)帶來巨

大的挑戰(zhàn),計算平臺架構(gòu)必須根據(jù)算法的特點進行特定優(yōu)化,才能保持足夠的計算效率和性能。

這種進化速度上的不匹配,對芯片公司的算法能力提出更高要求,需要對算法的發(fā)展趨勢進行預(yù)

判,前瞻性地將其計算特點融入到芯片架構(gòu)設(shè)計當中,使得芯片經(jīng)過三年的研發(fā),在推出市場的時候,

仍然能夠很好地適應(yīng)最新的主流算法,同時保證能滿足關(guān)鍵應(yīng)用需求。通過軟硬結(jié)合,能保持很高的

硬件利用率,達到真正意義上向后兼容軟件算法創(chuàng)新,這是非常難的。

5.大算力低功耗的車載智能計算芯片方案缺乏

不斷迭代的算法和模型,都對AI基礎(chǔ)硬件計算平臺提出更為苛刻的計算要求。當下,多數(shù)自動駕

駛技術(shù)都在基于GPU(圖形處理芯片)進行AI(深度神經(jīng)網(wǎng)絡(luò))計算。但GPU不像定制芯片(ASIC)

那樣高能效比或具有成本效益。最大的問題之一是功耗,要使L3以上的工作完美無缺,我們需要

1000瓦以上的功耗來處理來自多個攝像頭、雷達、激光雷達等的實時海量數(shù)據(jù)。巨大的能耗需求,對

電動汽車的電量存儲發(fā)起巨大挑戰(zhàn)。

8《車載智能計算芯片白皮書(2023)》

自動駕駛等級傳感器數(shù)量算力需求(TOPS)

L215+2+

L320+20+

L425+300+

L530+4000+

來源:智能汽車算力平臺方案解析

表一:自動駕駛等級與算力需求

6.功能安全是底線

功能安全指電子電器及其相關(guān)軟件本身,通過其內(nèi)置的安全機制,將傷害人類或損壞物品的潛在

風險降低到可容忍的范圍。在航空、工業(yè)、公共交通等領(lǐng)域中功能安全標準已經(jīng)存在很多年,但是道

路上行駛的汽車在功能安全上面臨更多的挑戰(zhàn):

?成本

汽車作為非常重要的交通工具,早已走入千家萬戶,汽車作為日常消費品,市場競爭非常充分,

用戶對于價格非常敏感。航空、工業(yè)以及公共交通等領(lǐng)域可靠性要求更高,涉及功能安全可以通過更

多的冗余設(shè)計達到,而各大汽車制造商在成本控制上則要苛刻得多,在成本可控的前提下,達到功能

安全標準則面臨更多的權(quán)衡和挑戰(zhàn)。

?使用場景

汽車使用場景和范圍非常寬泛,作為全天候高頻使用,且不同駕駛?cè)藛T使用習(xí)慣不同,外加一般

車輛的使用周期8-10年,在此期間關(guān)鍵零部件需要能始終保持正常運轉(zhuǎn),可靠性測試驗證的周期長、

復(fù)雜度高。

9《車載智能計算芯片白皮書(2023)》

?市場新需求

伴隨著軟件技術(shù)、硬件技術(shù)以及人工智能等數(shù)字化技術(shù)日益完善成熟在多個領(lǐng)域,特別是在移動

互聯(lián)網(wǎng)領(lǐng)域取得了的巨大成功,當代人們對于汽車的需求已經(jīng)不滿足于傳統(tǒng)交通工具屬性,轉(zhuǎn)而對舒

適性、安全性、可靠性、娛樂性等提出了更多要求,新技術(shù)突破與市場新需求共同推動著汽車技術(shù)革

新,但功能安全仍然是汽車產(chǎn)業(yè)的最核心、最重要的關(guān)切點。數(shù)字化、新能源等技術(shù)在汽車功能安全

維度,還缺乏相應(yīng)的測試及驗證方案,這也讓新技術(shù)導(dǎo)入到汽車工業(yè)面臨更多的挑戰(zhàn)。

?預(yù)期功能安全

汽車產(chǎn)業(yè)功能安全標準ISO26262推薦對隨機硬件失效采用定量分析,而最新的自動駕駛AI算法

雖然已經(jīng)提出了許多數(shù)據(jù)驅(qū)動設(shè)計的方法,不過深度神經(jīng)網(wǎng)絡(luò)的可解釋性、穩(wěn)定性以及魯棒性方面仍

然存在很多未解決的技術(shù)問題,因此ISO26262并不適合機器學(xué)習(xí)特別是深度神經(jīng)網(wǎng)絡(luò)的應(yīng)用,預(yù)期

功能安全SOTIF(SafetyoftheIntendedFunctionality)ISO21448也是在這一背景下誕生,SOTIF

關(guān)注系統(tǒng)運行時發(fā)生的超出預(yù)期設(shè)計的場景或者超出部件性能限制的情形,以及人為因素對于系統(tǒng)的

影響,適用于輔助駕駛、自動駕駛、人機交互等。但是對于未知的不安全場景,我們沒有辦法窮舉或

者消除,只有通過不斷驗證和迭代系統(tǒng)開發(fā),直到系統(tǒng)滿足選定的指標。ISO21448也提供了一套完

整的流程方法(verification&validation)來減小這部分的風險。

三、軟件定義汽車

軟件定義汽車(SoftwareDefinedVehicle,簡寫:SDV)隨著2012年特斯拉電動汽車的推出而

廣為人知,它主要基于特定的汽車硬件平臺上,通過軟件來實現(xiàn)相關(guān)功能和特性,其周期貫穿汽車生

產(chǎn)、制造、銷售以及后續(xù)服務(wù)等階段,軟件定義汽車可以提供越來越復(fù)雜的安全和保護功能、更高級

別的系統(tǒng)自主性以及接受各種功能和安全機制相關(guān)的軟件更新能力,除此之外,還將提供例如防盜、

在發(fā)生索賠時支持保險公司的信息、警報或緊急情況通知等高級服務(wù)和應(yīng)用。軟件定義汽車代表了汽

車從硬件平臺逐漸邁向智能化、可擴展、可不斷升級的移動物聯(lián)網(wǎng)終端的轉(zhuǎn)變。

10《車載智能計算芯片白皮書(2023)》

在過去,汽車消費者往往通過馬力、扭矩、外觀等特性來區(qū)分不同汽車。如今的消費者越來越多

期待軟件定義的新功能,例如駕駛輔助系統(tǒng)、自動駕駛、車載娛樂和智能網(wǎng)聯(lián)等。這些需求的演變催

生了新的商業(yè)模式和新的工程研發(fā)協(xié)作方式。

1.軟件定義汽車的驅(qū)動力

1.1用戶習(xí)慣與預(yù)期需求

據(jù)東吳證券數(shù)據(jù)顯示,2021Q1,全球智能手機的滲透率高達90%,智能手機與移動互聯(lián)網(wǎng)在過

去15年左右時間的興起與繁榮,硬件的性能持續(xù)提升,新技術(shù)層出不窮,軟件生態(tài)、軟件應(yīng)用的價值

都獲得了巨大的市場回報。雖然手機生產(chǎn)廠商通常每半年到一年推出新款手機設(shè)備,但是消費者無需

購買最新款手機硬件,僅通過系統(tǒng)升級和軟件更新,也可以體驗性能提升和更多功能。消費者在智能

手機和移動互聯(lián)的使用習(xí)慣和意愿上,成功延伸至汽車領(lǐng)域,比如車載信息娛樂、智能網(wǎng)聯(lián)、人機交

互等產(chǎn)品形態(tài)。

1.2提升用戶體驗,降低服務(wù)成本需要

車輛信息娛樂、遠程信息處理或車輛診斷系統(tǒng)的軟件升級不再需要前往經(jīng)銷商或者4S店。SDV

能夠接收無線(OTA)更新,其中包括安全補丁、信息娛樂改進、自動駕駛、輔助駕駛等車輛核心功

能的調(diào)整,甚至也包括動力總成和車輛動力學(xué)的調(diào)較和監(jiān)控。除此之外,ECU、傳感器、執(zhí)行器以及

用戶行為等都會產(chǎn)生大量數(shù)據(jù),這些數(shù)據(jù)有機會完成本地實時分析或者發(fā)送到云端處理,使主機廠能

夠深入了解汽車狀態(tài)和用戶使用習(xí)慣,并改進汽車軟件生命周期管理、開發(fā)個性化功能,與消費者建

立更深入、更緊密的服務(wù)關(guān)系。

1.3軟件、算法是汽車工業(yè)“四化”的重要根基

汽車產(chǎn)業(yè)朝著電動化、智能化、網(wǎng)聯(lián)化以及共享化發(fā)展,汽車作為一個包含機械動力的數(shù)字化信

息終端,許多重要的功能特性需要借助軟件和算法來完成,比如智能語音控制車內(nèi)空調(diào)溫度,檢測駕

駛員是否疲勞駕駛等。除此之外,汽車全身通常都有超過100個ECU,甚至多個攝像頭、毫米波雷達、

11《車載智能計算芯片白皮書(2023)》

激光雷達、超聲波雷達等各種傳感器,這些傳感器數(shù)據(jù)都會實時匯總,輔助駕駛員安全駕駛,其中大

量的實時數(shù)據(jù)處理,需要有相應(yīng)的軟件系統(tǒng)收集、分析、處理并形成實時的決策控制信號。

據(jù)統(tǒng)計,相比波音787飛機代碼行約為650萬行,目前中高端汽車的軟件代碼超過1.5億行,軟

件占汽車生產(chǎn)總成本約10%,相信隨著更多軟件、算法、應(yīng)用的部署,軟件占總成本將逐步提高,甚

至超過總車成本50%。

1.4價值鏈遷移,軟件將成為新的業(yè)務(wù)增長點

伴隨汽車電子的興起,汽車行業(yè)迎來了技術(shù)革新潮流,汽車零部件競爭激烈,價值和利潤率越來

越低,傳統(tǒng)汽車銷售模式在汽車交付給終端消費者的時候,銷售即完成。相較于特斯拉汽車的銷售模

式,在汽車交付之后,通過FOTA(FirmwareOver-The-Air)或者SOTA(SoftwareOver-The-Air)

等方式完成汽車軟件更新升級,持續(xù)收取用戶服務(wù)費用,例如預(yù)裝特斯拉FSD硬件的汽車消費者,可

以以每月199美元的費用訂閱Autopilot自動駕駛服務(wù),軟件訂閱模式意味著已售車輛在將來還會持續(xù)

為特斯拉公司貢獻收入,也為軟件定義汽車帶來新的營收價值。

2.系統(tǒng)架構(gòu)革新

電子電氣架構(gòu)(簡稱EEA),指汽車上所有的電子和電氣部件,以及這些部件之間的拓撲結(jié)構(gòu)和

連接線束。當下汽車以分布式EEA為主,一個ECU對應(yīng)一個或者少數(shù)幾個功能,每個ECU包含嵌入

式軟件,并通過CAN、FlexRay等總線技術(shù)連接。通常主機廠只是根據(jù)市場需求不斷增加ECU和調(diào)

整線束拓撲,車載線束已經(jīng)變得非常冗余且拓撲結(jié)構(gòu)復(fù)雜,智能車引入三電系統(tǒng)(動力電池、驅(qū)動電

機和電控系統(tǒng))則進一步加劇了EEA的復(fù)雜程度,特別是智能座艙、自動駕駛需要更多的ECU和傳

感器,但傳統(tǒng)分布式EEA已經(jīng)碰到傳輸瓶頸,算力和總線信號傳輸速度遠遠落后于電動化和智能化需

求,繼續(xù)沿用現(xiàn)有分布式EEA來完成不斷演變的智能汽車功能需求,成為了不太可能完成的任務(wù)。

2.1電子電氣架構(gòu)革新是硬件基礎(chǔ)

12《車載智能計算芯片白皮書(2023)》

當下,大多數(shù)量產(chǎn)汽車都是采用分布式電子電氣架構(gòu),一輛汽車有多個小型固定功能電子控制單

元(ECU),它們由許多不同的供應(yīng)商設(shè)計,軟硬件高度耦合,如果需要新增功能,相應(yīng)的ECU和軟

件需要改動,車內(nèi)線束等可能也需要改變,帶來更多系統(tǒng)集成、驗證等工作,成本極高,因此在功能

升級方面,不具備靈活性。域集中式電子電氣架構(gòu)則將同一功能域下的多個ECU整合到域控制器中,

降低鏈接的復(fù)雜性,也同時縮短線束長度,降低成本和重量,典型域控制器是車載信息娛樂系統(tǒng)

(IVI)、數(shù)字駕駛艙、ADAS/AD和電源、底盤和車身。未來,隨著功能更強大的異構(gòu)、專用SoC的

出現(xiàn),中央集成式電子電氣架構(gòu)(車輪上的數(shù)據(jù)中心)將進一步整合域控制器,高性能服務(wù)器芯片將

取代多個域控制器系統(tǒng),傳感器終端僅包含低功耗、實時計算ECU,這些ECU將進行邊緣預(yù)處理,

然后將數(shù)據(jù)轉(zhuǎn)發(fā)到高性能中央計算單元進行高速處理。

隨著電子電氣架構(gòu)的不斷演進變革,計算硬件單元更加集中,ECU芯片的數(shù)量也會大幅減少,軟

件不再基于特定的ECU來開發(fā),而是具備可移植性、可擴展性,也更容易迭代更新,當然對計算芯片

的性能要求也會越來越高,由于計算趨于集中,支持不同工作負載的高性能異構(gòu)計算芯片(System

onChip)和標準化的編程接口,將會是軟件定義汽車功能的硬件基礎(chǔ)。

圖三:電子電氣架構(gòu)演進

13《車載智能計算芯片白皮書(2023)》

2.2面向服務(wù)架構(gòu)是軟件基礎(chǔ)

2.2.1面向信號架構(gòu)(SignalOrientedArchitecture)

面向信號架構(gòu)是分布式電子電氣架構(gòu)中汽車軟件的常用開發(fā)架構(gòu),由于ECU的功能是固定的,彼

此通過LIN/CAN等總線進行點對點通信,軟件提前編寫并固化在ECU內(nèi)運行,隨著汽車功能越來越

多越來越復(fù)雜,ECU的數(shù)量也急劇增多,微小的功能改動都可能會引起整車通信甚至其它ECU軟件

的更新,這種架構(gòu)不具備靈活性和擴展性,開發(fā)和驗證的成本非常高。

2.2.2面向服務(wù)架構(gòu)(ServiceOrientedArchitecture)

面向服務(wù)架構(gòu)(ServiceOrientedArchitecture,簡稱SOA)在軟件、信息通信領(lǐng)域是非常成熟、

常見的軟件架構(gòu)設(shè)計理念,它鼓勵提供抽象訪問接口和模塊化軟件組件的方式,讓軟件模塊很容易在

不同場景下復(fù)用,通常以SoftwareDevelopmentKits(SDK)、軟件庫、以及遠程調(diào)用的方式提供,

上層系統(tǒng)通過復(fù)用和自由組合既有軟件模塊,可以實現(xiàn)快速開發(fā)特定的功能,并能降低測試驗證成本

和開發(fā)周期。高內(nèi)聚、松耦合、可擴展性強是SOA架構(gòu)的核心特點。

圖四:智能汽車SOA架構(gòu)示意圖

14《車載智能計算芯片白皮書(2023)》

2.2.3異構(gòu)計算硬件與系統(tǒng)軟件

硬件定義了SOA的能力邊界,底層硬件通常包括核心的AI計算單元,通用計算單元以及控制單

元(包括各種傳感器、執(zhí)行器ECU等)。系統(tǒng)軟件則提供了豐富的硬件訪問抽象接口、虛擬化、應(yīng)用

操作系統(tǒng)、實時操作系統(tǒng)以及各種通信協(xié)議封裝等功能。異構(gòu)計算硬件與系統(tǒng)軟件的接口標準化以及

它們的軟件開發(fā)者生態(tài),決定了應(yīng)用開發(fā)者的準入門檻。采用ArmCPU計算核心的車載SoC平臺,

很容易實現(xiàn)虛擬化并與Linux、Android、RTOS、GCC編譯器、Java虛擬機等系統(tǒng)軟件完美集成,為

上層應(yīng)用開發(fā)者提供與手機、桌面、數(shù)據(jù)中心等應(yīng)用幾乎相同的開發(fā)、調(diào)試體驗,讓移動互聯(lián)網(wǎng)的開

發(fā)者近乎無縫將大量功能代碼模塊遷移到車載應(yīng)用軟件中。

3.云原生技術(shù)極大提升研發(fā)效率

隨著汽車系統(tǒng)軟件的復(fù)雜性越來越高,特別是自動駕駛、輔助駕駛等新型應(yīng)用的誕生,應(yīng)用程序

代碼變得日益復(fù)雜,為了快速滿足各種不斷變化的消費者需求,由此產(chǎn)生的軟件開發(fā)、部署和管理方

式也有別于傳統(tǒng)車載嵌入式系統(tǒng)開發(fā)。云原生開發(fā)模式降低了整個云基礎(chǔ)設(shè)施行業(yè)的成本、時間和復(fù)

雜性,非常適用于汽車應(yīng)用開發(fā),其中基于微服務(wù)容器架構(gòu),可以大量復(fù)用工作負載的基礎(chǔ)技術(shù)代碼,

以及模塊化部署方式,這些都在傳統(tǒng)的智能手機和企業(yè)應(yīng)用中已經(jīng)得到了大量的驗證。

云原生技術(shù)有利于企業(yè)在公有云、私有云和混合云等新型動態(tài)環(huán)境中,構(gòu)建和運行可彈性擴展的

應(yīng)用,能夠構(gòu)建容錯性高、易于管理和便于觀察的松耦合系統(tǒng)。結(jié)合自動化手段,云原生技術(shù)使工程

師很容易對系統(tǒng)進行頻繁的代碼變更。云原生技術(shù)對于汽車應(yīng)用開發(fā)而言,意味著轉(zhuǎn)向基于云的開發(fā)

模式,實現(xiàn)在云端開發(fā)軟件并直接部署于邊緣端的汽車上。開發(fā)者隨時隨地部署和測試汽車軟件應(yīng)用,

極大縮短車載系統(tǒng)應(yīng)用的開發(fā)和部署周期。

15《車載智能計算芯片白皮書(2023)》

圖五:云原生的虛擬仿真與真實部署

3.1.1云原生技術(shù)與車載研發(fā)融合

關(guān)鍵應(yīng)用與常規(guī)應(yīng)用混合編排簡化部署復(fù)雜度:車載軟件在本質(zhì)上可以是同時部署運行關(guān)鍵應(yīng)用

和常規(guī)應(yīng)用微服務(wù)的。關(guān)鍵應(yīng)用對安全性和實時性的要求更高,相應(yīng)的微服務(wù)從硬件資源調(diào)度和依賴

的軟件庫必須得到相應(yīng)的優(yōu)先級部署。比如某些微服務(wù)可能需要滿足ISO26262規(guī)范定義的ASIL-B/

ASIL-D的完整性級別,引入經(jīng)過安全認證的編譯器、運行框架或者SDK,這些編譯器和工具將作為基

于微服務(wù)容器的一部分進行集成。另外,現(xiàn)有的云原生基礎(chǔ)設(shè)施及容器編排技術(shù),可以感知軟硬件特

征,特別是嵌入式車載硬件系統(tǒng)的功能特性,按照需求把相應(yīng)的微服務(wù)部署到最合適的節(jié)點上,并以

最佳方式運行。

快速云端仿真驗證測試:車載系統(tǒng)開發(fā)人員可以在云端運行模擬運行軟件系統(tǒng)。彈性可擴展是云

計算非常重要的特性,作為DevOps基礎(chǔ)架構(gòu)的一部分,云可以提供大量的硬件資源,方便開發(fā)者提

供大量的數(shù)據(jù)輸入,模擬成百上千的真實使用場景,甚至可以同時在數(shù)千個云端服務(wù)器節(jié)點上啟動執(zhí)

行。這種大規(guī)模的仿真測試,如果在實際的車載嵌入式系統(tǒng)中來完成,需要的時間會極其漫長。根據(jù)

Arm對客戶的初步調(diào)查,大約70%的車載軟件系統(tǒng)模擬測試,是完全可以基于彈性云環(huán)境執(zhí)行的。

16《車載智能計算芯片白皮書(2023)》

車載硬件計算平臺與軟件系統(tǒng)同步開發(fā):從軟件開發(fā)人員的角度看,基于云的執(zhí)行環(huán)境和汽車邊

緣計算環(huán)境之間,實現(xiàn)指令集架構(gòu)(ISA)和CPU架構(gòu)對等,意味著可以進一步降低開發(fā)成本和周期。

以基于Arm的車載計算平臺為例,開發(fā)者可以在AWS的Graviton(ArmCPU)實例上編寫、測試和

運行應(yīng)用,實現(xiàn)完整的端到端基于ArmCPU技術(shù)的云到汽車邊緣計算,開發(fā)人員甚至可以不用交叉編

譯代碼,在車載硬件計算平臺沒有量產(chǎn)前,就可以在非常貼近實際場景中完成驗證。編譯器和模擬器

也可以最大效率利用硬件計算資源,避免因最終部署環(huán)境的不一致,導(dǎo)致大量程序代碼異常在與車載

計算硬件平臺集成時才暴露。

3.1.2SOAFEE云原生開發(fā)框架

SOAFEE是車廠、一級供應(yīng)商、半導(dǎo)體、軟件和云技術(shù)頭部企業(yè)等攜手合作,為軟件定義汽車開

發(fā)了基于開放標準的新架構(gòu),它用經(jīng)過驗證的云原生增強技術(shù),與汽車應(yīng)用中必需的實時和安全功能

一起運作,快速無縫地滿足軟件定義汽車的應(yīng)用需求開發(fā)。此外,由這些企業(yè)組成的特別興趣小組

(SIG,SpecialInterestGroup)還為SOAFEE定義了參考實現(xiàn),通過開源軟件的形式免費發(fā)布,以

實現(xiàn)廣泛的原型設(shè)計、工作負載探索和早期開發(fā)。Arm與頭部商用解決方案供應(yīng)商攜手合作,最大限

度地提高兼容性,也為功能安全設(shè)計提供更快的途徑。

4.邊緣算力預(yù)埋與車云協(xié)同計算提升汽車長期價值

隨著SOA的域集中式EEA的逐步應(yīng)用普及,以及車端算力的快速增長,智能汽車將成為一個移

動的超級計算機,車端軟件復(fù)雜度也將不斷提升,并逐漸形成多個分層:OS/Middleware層,AI與大

數(shù)據(jù)層,數(shù)據(jù)智能的應(yīng)用層。憑借算力、軟件和通信的能力、智能汽車具備可持續(xù)迭代的能力,也將

有越來越多的數(shù)據(jù)驅(qū)動智能應(yīng)用在智能汽車上出現(xiàn),包括智能座艙、輔助駕駛、智能診斷、用戶行為

模型、智能熱管理、智能底盤等。而在車端數(shù)據(jù)的采集和智能應(yīng)用的運行均依托車載智能計算,大數(shù)

據(jù)開發(fā)則集中在云端,為了提高數(shù)據(jù)采集、算法部署的效率,需要通過中間件軟件來封裝車云異構(gòu)。

17《車載智能計算芯片白皮書(2023)》

案例一:智協(xié)慧同的車云協(xié)同計算方案

智協(xié)慧同的EXCEEDDATA車云計算解決方案采用了Codeless+Serverless+Middleware的技術(shù)理念打造了

一套跨車云的計算架構(gòu),不僅封裝了車云異構(gòu),同時封裝了車端的復(fù)雜度和車型異構(gòu),幫車企實現(xiàn)了數(shù)據(jù)采集→數(shù)

據(jù)加工→數(shù)據(jù)閉環(huán)→數(shù)據(jù)生態(tài)的全棧數(shù)據(jù)驅(qū)動能力。

案例二:智協(xié)慧同的車云同構(gòu)計算

18《車載智能計算芯片白皮書(2023)》

智能場景的實現(xiàn)需要車載智能計算與云計算的協(xié)同,為了讓汽車產(chǎn)品保持量產(chǎn)后的可持續(xù)迭代能力,往往需要

預(yù)置足夠的算力確保智能汽車的持續(xù)進化。車載計算模塊通常會部署在采用Arm架構(gòu)的域控制器或者中央網(wǎng)關(guān)上,

EXCEEDDATA邊緣計算的中間件軟件(邊緣計算引擎和時序數(shù)據(jù)庫)往往部署在ArmCortex-A系列的CPU上運

行,實現(xiàn)對車端海量數(shù)據(jù)的解析、計算、壓縮和存儲。計算引擎能夠調(diào)用一些復(fù)雜的算子,在車端進行窗口識別、

特征提取乃至機器學(xué)習(xí)等運算。這也就意味著,一旦有較為充足的算力可以被調(diào)用,那么在車端實現(xiàn)一些復(fù)雜多樣

的計算場景,不僅可以有效的將算力轉(zhuǎn)變?yōu)闃I(yè)務(wù)和商業(yè)價值,而且可以持續(xù)的提升用戶移動出行體驗。但在智能汽

車初期,車企在車端缺乏冗余算力的規(guī)劃,導(dǎo)致產(chǎn)品后續(xù)迭代空間有限,這一點有望隨著算力的增長和邊緣計算的

發(fā)展而得到新的突破。

四、異構(gòu)計算芯片

不同于手機、桌面、數(shù)據(jù)中心或者一般邊緣計算場景對于智能計算芯片的需求,從軟件定義汽車

的角度,汽車終端智能計算芯片必須承載幾乎所有的關(guān)鍵核心計算任務(wù)如實時響應(yīng)、神經(jīng)網(wǎng)絡(luò)計算、

圖像處理、通用計算等異構(gòu)計算等。安謀科技的IP產(chǎn)品基本覆蓋各種計算場景,如圖六所示,SoC芯

片開發(fā)商可以根據(jù)計算類型和密集程度,選擇相應(yīng)的IP計算核心組合,加速車載芯片研發(fā)周期。

圖六:安謀科技車載芯片不同場景算力IP方案示意

19《車載智能計算芯片白皮書(2023)》

不同場景的計算任務(wù)對于性能和功能需求很不一樣。比如AI計算的數(shù)據(jù)源包括視頻、圖像、音頻、

傳感器數(shù)據(jù)等。安謀科技的計算IP核心產(chǎn)品主要分類如下:

?CPU(中央處理單元)是一種通用任務(wù)處理器,非常適合運行復(fù)雜的邏輯串行任務(wù),安謀科

技CPU產(chǎn)品根據(jù)系統(tǒng)復(fù)雜度和場景,劃分3個大系列:

oCortex-A:高性能、高吞吐流水線作業(yè),支持多核并行運行、軟件管理中斷、現(xiàn)代操

作系統(tǒng)支持(如Linux),并提供高級編程模型接口,常見于高性能應(yīng)用程序運行場景,

比如海量信號數(shù)據(jù)格式轉(zhuǎn)換;

oCortex-R:實時數(shù)據(jù)處理,軟件管理中斷,快速中斷響應(yīng)以及多核支持,常見于需要

實時性要求非常苛刻的場景,比如汽車制動和轉(zhuǎn)向控制器;

oCortex-M:為面積、功耗以及實時操作系統(tǒng)(RTOS)特別優(yōu)化的處理器,提供簡單

編程模型接口,由硬件管理中斷,適用于功耗要求非常高的場景,比如藍牙鑰匙、胎

壓監(jiān)測等;

?GPU(圖形處理單元)是用于高速圖形渲染的處理器,因其有多個高度并行內(nèi)核(可以多

達數(shù)百甚至上千個微內(nèi)核)處理數(shù)學(xué)矩陣運算,通常用于圖形渲染操作,也可以完成部分AI

算子并行計算加速。

?NPU(神經(jīng)網(wǎng)絡(luò)處理單元)是為深度神經(jīng)網(wǎng)絡(luò)推理而定制的邏輯電路實現(xiàn),具有低功耗、速

度快和占用硅片面積小的優(yōu)點,支持多種神經(jīng)網(wǎng)絡(luò)算子,支持運行時編程動態(tài)支持不同深度

神經(jīng)網(wǎng)絡(luò)模型的高效推理。

?ISP(圖像信號處理器)是將圖像傳感器(比如一個或者多個攝像頭信號數(shù)據(jù))實時轉(zhuǎn)化成

多種格式的數(shù)據(jù)輸出,方便人類觀看或者其它機器視覺應(yīng)用進一步處理。

?Security(信息安全)是一個包含硬件、軟件、工具包,支持應(yīng)用程序不可知的安全子系統(tǒng),

跨多樣化系統(tǒng)提供安全服務(wù)的方案。

20《車載智能計算芯片白皮書(2023)》

車輛控制、智能座艙、輔助駕駛、自動駕駛等場景和通常的邊緣計算場景相比,需要更高的性能,

更低的功耗,更及時的響應(yīng),更可靠穩(wěn)定,更保密安全,且成本可控,以滿足安全駕駛的苛刻需求。

車載應(yīng)用開發(fā)往往需要同時使用上述多種異構(gòu)計算單元提供算力保障,不同計算單元協(xié)同工作,平衡

工作負載,構(gòu)建最具成本效益和高性能的芯片配置,需要芯片設(shè)計廠商針對場景優(yōu)化。

1.車載智能計算SoC架構(gòu)

輔助駕駛和自動駕駛運行時軟件與芯片硬件是緊密耦合的,從汽車行業(yè)發(fā)展趨勢看,域集中式電

子電氣架構(gòu)和更為激進的中央集中式電子電氣架構(gòu)是產(chǎn)業(yè)發(fā)展方向,無論是哪一類電子電氣架構(gòu),車

載SoC都會更加復(fù)雜,需同時具有多路傳感器接口(包括攝像頭、雷達、超聲波雷達、激光雷達等)、

通信、GPU、VPU、ISP、NPU、高性能APCPU等功能模塊,以及應(yīng)對車載環(huán)境對于信息安全和功

能安全的特殊需求,這些都需要完整無縫銜接運行,并且可以支撐上層各種特定虛擬化軟件應(yīng)用。

如圖七所示,安謀科技提供了車載智能計算SoC所需要的幾乎全部核心IP,以及底層硬件計算單

元配套的驅(qū)動、編譯器、工具鏈等系統(tǒng)軟件集等,以滿足虛擬化和上層應(yīng)用開發(fā)所需的仿真、調(diào)試等

快速開發(fā)、測試和部署運行需求。

圖七:安謀科技車載智能SoC概念設(shè)計方案

21《車載智能計算芯片白皮書(2023)》

2.能耗與性能

2020年6月,權(quán)威雜志《科學(xué)》發(fā)表MIT、英偉達和微軟研究人員的聯(lián)合論文,論文指出:隨著,

隨著摩爾定律放緩,AI計算性能提升在于軟件工程,算法,硬件架構(gòu)聯(lián)合優(yōu)化,行業(yè)正在迎來頂層設(shè)

計的黃金時代。

來源:CharlesE.Leiserson,etc.Science368,1079(2020)5June2020,MIT、Nvidia、Microsoft

圖八:后摩爾時代的計算效能提升

該論文從側(cè)面揭示了一個重要趨勢:隨著AI計算的興起,計算規(guī)模擴大了2~3個數(shù)量級,算法、

軟件和架構(gòu)開始引領(lǐng)芯片創(chuàng)新,行業(yè)進入了軟件定義智能計算芯片時代。

車載智能計算芯片上,AI計算加速器(深度神經(jīng)網(wǎng)絡(luò)加速器)的能耗通常較大,靈活可配置的系

統(tǒng)架構(gòu),可以極大降低功耗,提高性能,降低晶體管數(shù)量,讓PPA(Performance、Power、Area)

達到最優(yōu),但達到這個目的,通常有如下技術(shù)難點:

22《車載智能計算芯片白皮書(2023)》

2.1突破馮·諾伊曼“瓶頸”

傳統(tǒng)馮·諾伊曼計算架構(gòu),程序和數(shù)據(jù)保存在內(nèi)存中,處理器和內(nèi)存是分開的,數(shù)據(jù)在兩者之間移

動。這種計算架構(gòu)導(dǎo)致數(shù)據(jù)在內(nèi)存和處理器間的傳輸延遲不可避免。例如DDR最高帶寬理論值約為

30-80GB/s,且隨機數(shù)據(jù)訪問時的帶寬要遠低于理論值。而一次深度神經(jīng)網(wǎng)絡(luò)的推理過程涉及的計算

中間數(shù)據(jù)量遠高于此,比如:VGG16網(wǎng)絡(luò)有138.36M個權(quán)重參數(shù),一次推理過程需要154.7G次乘累

加運算。深度神經(jīng)網(wǎng)絡(luò)加速器(NPU)最重要的優(yōu)化手段之一是降低對內(nèi)存訪問的頻率,有利于降低

系統(tǒng)功耗,并縮短推理計算的延遲。比如根據(jù)不同類型場景需求中的神經(jīng)網(wǎng)絡(luò)模型特性,設(shè)定NPU內(nèi)

SRAM大小,降低DDR內(nèi)存訪問的概率。甚至當模型無法全部一次性加載到NPU中時,也可以通過

靈活的數(shù)據(jù)替換策略和對稀疏矩陣數(shù)據(jù)優(yōu)化壓縮等手段,大大降低內(nèi)存訪問頻率和帶寬延遲。

2.2靈活性與性能的平衡

基于深度神經(jīng)網(wǎng)絡(luò)推理的NPU,包含大量乘加操作以及標量數(shù)學(xué)運算單元,由于神經(jīng)網(wǎng)絡(luò)算法不

同,其網(wǎng)絡(luò)結(jié)構(gòu)也會有較大差異,因此在定制相應(yīng)的AI加速器單元時,往往操作粒度越細靈活度越高,

NPU內(nèi)部實現(xiàn)也更加復(fù)雜,反之靈活度低,甚至只支持特定網(wǎng)絡(luò)模型,但是NPU內(nèi)部實現(xiàn)則相對簡

單。安謀科技“周易”NPU內(nèi)部包含標量處理單元(ScalarUnit)、張量處理單元(TensorProcessing

Cluster)以特定AI操作(FixFunction)硬件加速單元實現(xiàn),并定義了一套完備的AI推理計算的指令

集,并通過上層系統(tǒng)軟件驅(qū)動以上模塊協(xié)同交互,完成基于各種深度神經(jīng)網(wǎng)絡(luò)類型的推理計算任務(wù),

實現(xiàn)運行效率和通用性的兼顧。

2.3通用性和專用性兼顧

通用型AI推理處理器,由于內(nèi)部復(fù)雜且有部分冗余設(shè)計,與特定神經(jīng)網(wǎng)絡(luò)模型加速的處理器相比,

性能很難做到絕對優(yōu)勢,一些NPU廠商會通過固化部分常用運算算子,確保針對特定模型算法也有顯

著加速效果。安謀科技“周易”NPU本身配合專有工具鏈和編譯器,能支持數(shù)百個各類音視頻及其它數(shù)

據(jù)類型的神經(jīng)網(wǎng)絡(luò)應(yīng)用,并在架構(gòu)設(shè)計上已經(jīng)特別優(yōu)化支持VisionTransformer、3D神經(jīng)網(wǎng)絡(luò)等,對

處理像素級別處理應(yīng)用等均有很好的性能優(yōu)化。

23《車載智能計算芯片白皮書(2023)》

2.4可變推理量化比特精度

在推理準確率允許范圍內(nèi),降低推理時的量化比特精度,既可以大大降低運算單元的計算量,又

能減少存儲容量需求,還可以降低存儲器讀寫頻次。安謀科技“周易”NPU的基本計算單元設(shè)計成可配

置的權(quán)重精度,支持INT4、INT8、INT12、INT16、FP16等。多種推理數(shù)據(jù)類型支持,兼顧了推理精

度和效率,比如在推理精度滿足需求的前提下,用戶可以選用INT4的權(quán)重值;創(chuàng)新性的INT12支持,

既可以滿足像素級別處理的神經(jīng)網(wǎng)絡(luò)推理精度要求,同時帶寬、存儲低于INT16,從而提高能效比。

2.5多核調(diào)度

雖然NPU單核內(nèi)部運算已經(jīng)是并行計算,但是同一時間只會有一個推理計算任務(wù)進行。先進的多

核方案,能夠使單塊SoC硅片充分發(fā)揮硬件的算力,每個計算核心可以完成不同的推理計算或者多個

計算核心共同完成同一個推理計算任務(wù),理論上算力可以做到并行疊加,甚至可滿足數(shù)千TOPS算力

需求。不過多核設(shè)計中,系統(tǒng)軟件對于多核任務(wù)的調(diào)度優(yōu)化十分重要,需要合理將任務(wù)分配到不同計

算核心并監(jiān)控其運行狀態(tài),隨著并行任務(wù)的增多,任務(wù)調(diào)度器本身也會成為性能瓶頸。安謀科技“周

易”NPU多核架構(gòu)則采用先進的硬件任務(wù)調(diào)度管理器,相比使用控制處理器(如CPU、DSP等)來調(diào)

度多核任務(wù)的架構(gòu)設(shè)計,能夠克服隨著算力增加而產(chǎn)生調(diào)度瓶頸的問題,并且可以使HostCPU軟件

設(shè)計和維護更加簡化和高效。

3.功能安全

涉及到安全應(yīng)用的汽車芯片必須滿足系統(tǒng)的ISO26262要求,其中包括半導(dǎo)體IP,處理子系統(tǒng)、

嵌入式存儲器等。功能安全強調(diào)應(yīng)對兩類失效:系統(tǒng)性失效和隨機硬件失效。對于前者除了公司層級

需要具備合規(guī)的功能安全流程外,更需在產(chǎn)品研發(fā)的生命周期下嚴格遵循功能安全流程,從而將系統(tǒng)

性失效的風險控制在對應(yīng)汽車安全完整性等級(ASIL)要求的范圍內(nèi)。對于后者可用失效模式影響和

診斷分析進行定量證明,芯片內(nèi)的功能安全機制是可以保證診斷覆蓋率,達到或者超過ISO26262相

應(yīng)的ASIL要求。

24《車載智能計算芯片白皮書(2023)》

圖九:功能安全兩類失效類型

針對隨機硬件失效的各種失效模式,需要有相應(yīng)的功能安全機制進行應(yīng)對。包括用于保護內(nèi)部

SRAM和傳輸中數(shù)據(jù)的糾錯碼(ECC)、探測硬件死鎖(deadlock)的watchdogtimer、探測寄存器內(nèi)容

故障的Parity、針對復(fù)雜邏輯的硬件冗余和鎖步、以及探測門級隨機硬件失效所需運行的軟件自測庫

等等。由此可見,為了應(yīng)對隨機硬件失效,額外的硬件及軟件安全機制的設(shè)計均是不可或缺的。在具

體的產(chǎn)品開發(fā)實踐中,以安謀科技開發(fā)的STAR-MC2為例,該處理器使用了以下機制來實現(xiàn)錯誤的檢

測和處理:

?處理器設(shè)計了內(nèi)存保護單元,安全態(tài)標記單元等進行軟件訪問權(quán)限管理,保護軟件系統(tǒng)的正確

運行;

?處理器設(shè)計了異常處理單元,允許對包含硬件錯誤、指令執(zhí)行錯誤、內(nèi)存訪問異常、取指令異

常等錯誤行為進行相應(yīng)的處理和糾正;

?處理器的存儲器和總線接口上,引入ECC(錯誤數(shù)據(jù)糾正)或者Flopparity(校驗)設(shè)計,對

存儲數(shù)據(jù)讀寫錯誤進行檢測和糾正;

?處理器設(shè)計了一個可編程的內(nèi)建存儲自測試模塊,可以對存儲單元進行測試;

?處理器設(shè)計了一個可編程的內(nèi)建軟件自測試模塊,可以通過軟件對處理器自身進行覆蓋性測試。

25《車載智能計算芯片白皮書(2023)》

雙核異步互鎖(參考)設(shè)計,通過兩個完全一致的處理器運行同時運行同樣的程序代碼,并對結(jié)

果進行實時比較,用冗余的方式實現(xiàn)硬件運行錯誤的實時發(fā)現(xiàn)和處理,實現(xiàn)超過99%的隨機錯誤檢測

覆蓋率,達到ISO26262ASIL-D要求;

作為硬件安全機制的補充,同時為了優(yōu)化PPA,安謀科技軟件自測庫(SoftwareTestLibrary)

被廣泛用于芯片產(chǎn)品中。從功能安全的角度來看,STL的設(shè)計開發(fā)與使用需要從以下幾個維度進行綜

合考慮:

3.1運行階段

一般來說STL可以在啟動和運行兩個階段為芯片提供安全保障。在啟動階段,STL可以檢測硬件

安全機制的有效性,從而有效避免潛在故障。在運行階段,STL可以通過不同的激勵和測試向量支持

芯片故障的實時在線檢測。根據(jù)不同的系統(tǒng)上下文,STL可以有不同的觸發(fā)模式。

3.2運行平臺

STL作為一種軟件安全機制,其安全運行除了需要在軟件開發(fā)過程中所采用的各種系統(tǒng)性的方法

論來保證安全外,還需要安全的硬件運行平臺。從STL運行環(huán)境來看這個問題,STL的指令需要能夠

安全的執(zhí)行,并且STL軟件棧需要被保護以避免其他無安全要求的軟件棧的干擾。

3.3診斷能力

作為安全機制,STL需要為硬件提供足夠的診斷能力。STL診斷能力通常會以ASILB級別的隨機

硬件失效診斷能力為目標。對于十分復(fù)雜的設(shè)計,有時候往往需要STL與各種硬件安全機制相互配合

來實現(xiàn)最終目標。

3.4系統(tǒng)能力

軟件系統(tǒng)能力是由開發(fā)過程決定的,無法在項目完成后提升。雖然,STL提供的診斷能力只有

ASILB,但是,有時STL往往會與ASILD的軟件棧同步運行。所以,有的STL雖然為硬件提供的是

26《車載智能計算芯片白皮書(2023)》

ASILB的診斷能力,但是,往往有ASILD的系統(tǒng)能力要求。這主要是為了方便用戶在集成過程中減

少免干擾分析方面的工作量。

3.5系統(tǒng)集成

STL一般獨立于HAL并專屬于特定硬件,STL根據(jù)會應(yīng)用或RTOS的指令有選擇的執(zhí)行硬件測試

并且通過特定的API反饋測試結(jié)果。STL可以通過調(diào)度器支持用戶配置不同的測試組。用戶還可以通

過特定API來改變STL行為模擬硬件故障的進行系統(tǒng)集成測試。不過STL調(diào)用期間一般需要屏蔽外部

中斷。

4.信息安全

智能汽車的信息安全,是確保自動駕駛邊緣計算系統(tǒng)免受外部非法入侵或者攻擊的核心基礎(chǔ)。

自動駕駛汽車的安全性應(yīng)涵蓋自動駕駛邊緣計算堆棧的不同層。這些安全措施包括傳感器安全、

操作系統(tǒng)安全、控制系統(tǒng)安全和通信安全。汽車安全要求HSM(HardwareSecurityModule–硬件安

全模塊)已經(jīng)成為智能汽車的安全基礎(chǔ),也是行業(yè)的默認標準。

“山海”SPU是安謀科技自主研發(fā)的專門應(yīng)用于汽車行業(yè)的HSM解決方案,能夠廣泛應(yīng)用于自動駕

駛芯片,智能座艙、域控制器、中央網(wǎng)關(guān)等不同的應(yīng)用場景,“山海”SPU還支持功能安全為智能汽車

芯片提供可靠的安全基礎(chǔ)能力。

27《車載智能計算芯片白皮書(2023)》

圖十:“山海”SPU架構(gòu)

在安全子系統(tǒng)“山海”SPU內(nèi)部,有專用的CPU負責處理HSM內(nèi)部的安全請求,加解密引擎是

安全子系統(tǒng)的核心,提供安全算法加速器的功能,支持國密算法SM2、SM3、SM4以及國際通用算法

RSA、ECC、SHA、AES等,并通過配置可以滿足EvitaHSM不同級別(Full、Medium、Light)的

要求。

虛擬化是智能汽車中的重要需求,“山海”SPU能夠提供多達16個虛擬機同時訪問,為隔離的不同

應(yīng)用提供安全保障。除硬件安全能力外,“山海”SPU提供了豐富的軟件庫支持智能汽車安全能力的建

立,支持系統(tǒng)廠商構(gòu)建符合行業(yè)要求的啟動方案,使車載系統(tǒng)安全快速進入Runtime狀態(tài),啟動TEE

OS基礎(chǔ)操作系統(tǒng),并通過STL周期性校驗HSM的健康狀態(tài),確保系統(tǒng)的可靠性。

從軟件定義汽車角度來看,信息安全應(yīng)該是各類軟件包括操作系統(tǒng),系統(tǒng)軟件、應(yīng)用軟件等的重

要組成部分,只有能夠在各類型軟件中把信息安全放在首位考慮建立系統(tǒng)性的信息安全方案,整車系

統(tǒng)的安全性才能得到保證。隨著強安全性要求的軟件越來越多,比如智能車鑰匙、FOTA、身份認證,

數(shù)據(jù)的安全存儲和傳輸?shù)龋琀SM在汽車軟件系統(tǒng)中的地位越發(fā)關(guān)鍵,“山海”SPU為這些強安全場景的

28《車載智能計算芯片白皮書(2023)》

軟件及整車的軟件安全提供基礎(chǔ)安全能力,包括提供運行態(tài)的安全根,加解密能力以及密鑰和機密信

息的存儲等能力,是建立系統(tǒng)信息安全的核心安全部件。

五、車載智能計算軟硬協(xié)同優(yōu)化

車載智能計算場景中,人工智能推理技術(shù)對應(yīng)的軟件、硬件和算法是非常重要的。無論智能座艙,

輔助駕駛或是自動駕駛,包含CPU、NPU、GPU等功能模塊芯片(SoC)是承載計算的核心基礎(chǔ)硬

件平臺,基于硬件基礎(chǔ)平臺,與軟件、算法適配協(xié)同,才能充分挖掘算力,使芯片在實際應(yīng)用中發(fā)揮

出性能優(yōu)勢。

1.自動駕駛算法向端到端大模型演進

案例三:自動駕駛端到端大模型行業(yè)研究案例

自動駕駛算法正在向感知決策一體化大模型的方向發(fā)展。2023年6月22日,在計算機視覺領(lǐng)域頂級會議CVPR

上,來自上海人工智能實驗室、武漢大學(xué)等學(xué)者的論文Planning-orientedAutonomousDriving獲得最佳論文,這是

CVPR歷史上首篇以自動駕駛為主題的最佳論文。

論文中提出“感知決策一體化”的自動駕駛通用大模型UniAD,該算法直接使用傳感器輸入,通過對學(xué)習(xí)人類駕駛

行為,采用完整的端到端系統(tǒng),實現(xiàn)完整的全場景自動駕駛。該系統(tǒng)最大優(yōu)勢在于:其行駛范圍幾乎等同人類駕駛

范圍ODD(OperationalDesignDomain,即運行設(shè)計域,指自動駕駛系統(tǒng)被設(shè)計起作用的條件及適用范圍)場景,

不需依賴高精地圖,只需依賴導(dǎo)航地圖,即可實現(xiàn)。

UniAD建立了以全局任務(wù)為目標的自動駕駛大模型架構(gòu)。第一次將檢測、跟蹤、建圖、軌跡預(yù)測,占據(jù)柵格預(yù)

測以及規(guī)劃,整合到一個基于Transformer的端到端網(wǎng)絡(luò)框架下,并將各項任務(wù)通過token的形式在特征層面,按照

感知-預(yù)測-決策的流程進行深度融合,實現(xiàn)了自動駕駛系統(tǒng)算法性能的全面提升。UniAD在nuScenes數(shù)據(jù)集中的所

有任務(wù)表現(xiàn)均達到State-of-the-art,并且在預(yù)測和規(guī)劃中的效果表現(xiàn)遠超其他模型。

29《車載智能計算芯片白皮書(2023)》

UniAD端到端模型構(gòu)架

基于BEV+Transformer的端到端自動駕駛大模型實現(xiàn)感知決策一體化

面對自動駕駛海量長尾場景的挑戰(zhàn),大模型已經(jīng)表現(xiàn)出巨大的潛力,目前這一“BEV+

Transformer”的模型需要上億級別的參數(shù)量。在未來十年,端到端的模型需要更大參數(shù)規(guī)模,甚至到

千億級、萬億級以上,從而提高自動駕駛系統(tǒng)的自適應(yīng)性、穩(wěn)定性、準確性和持續(xù)進化能力。

同時,隨著算法的日益復(fù)雜,原先簡單的大規(guī)模并行計算架構(gòu)也難以為繼,智能計算與邏輯計算

開始深度耦合,例如,為了實現(xiàn)更高效率的稀疏化等優(yōu)化手段,通過CPU對數(shù)據(jù)進行調(diào)度,可以實現(xiàn)

更好的NPU計算利用率,因此,NPU算力的增長會同步帶動對于CPU算力的需求。

2.軟硬協(xié)同優(yōu)化的難點

芯片設(shè)計、生產(chǎn)與場景落地往往是不同的廠商參與,芯片設(shè)計和生產(chǎn)由于其一次性投入非常大,

特別是針對汽車的智能計算芯片而言,只有足夠的場景覆蓋才會有較大出貨量,所以車載芯片在其設(shè)

計之初就會保留一定通用性。對于特定場景的軟件開發(fā)團隊而言,一方面需要與芯片及基礎(chǔ)軟件開發(fā)

團隊通力合作,通過軟件優(yōu)化的方式充分發(fā)揮芯片及硬件的計算效能;另外一方面,通用芯片很難針

30《車載智能計算芯片白皮書(2023)》

對所有場景都實現(xiàn)特別優(yōu)化。因此,實際場景中的計算性能發(fā)揮往往與芯片最佳性能差距較大,其中

的難點主要體現(xiàn)在如下幾個方面:

2.1AI算法迭代創(chuàng)新周期很快

人工智能領(lǐng)域軟件迭代的速度非常快,據(jù)斯坦福大學(xué)以人為本人工智能研究所發(fā)布的《2022年人

工智能指數(shù)報告》指出,2021年全球人工智能相關(guān)的公開專利數(shù)量超過14萬件,是2015年的30

倍,年復(fù)合增長率高達76.9%。因此,固化的硬件設(shè)計難以滿足日益增長的算力需求和日新月異的算

法演化需求,特別是在車載計算硬件平臺,一旦發(fā)布,則存在于汽車的完整周期,要滿足未來8-10年

的軟件和算法迭代,選定合適的硬件計算平臺,甚至預(yù)埋部分額外算力,可以與未來的軟件、算法升

級適配的是非常重要的。

圖十一:全球人工智能專利數(shù)統(tǒng)計

2.2AI模型計算模式差異性大

31《車載智能計算芯片白皮書(2023)》

車載AI應(yīng)用目前以推理為主,算法模型是在云端提前訓(xùn)練好,下載部署到車端,但是目前不存在

一個統(tǒng)一的深度神經(jīng)網(wǎng)絡(luò)模型,適用于所有的AI場景,往往不同具體場景有多種類型的算法模型適用,

這些不同類型的模型共同驅(qū)動AI推理芯片的架構(gòu)演進。

比如早期CNN模型采用若干個卷積層作用于輸入圖像以生成低維特征,然后再將幾個全連接層

用作分類器產(chǎn)生識別結(jié)果的輸出;ResNet則主要基于稠密矩陣,使用了多分支和并行層,以實現(xiàn)多尺

度采樣和避免梯度消失;而對于推薦系統(tǒng)而言,可能需要非常大的甚至跨越節(jié)點才可以存放下的稀疏

矩陣模型;還有近年關(guān)注度較高的Transformer模型等等,他們的并行性、網(wǎng)絡(luò)結(jié)構(gòu)、計算依賴性、

網(wǎng)絡(luò)層數(shù)、模型大小、以及數(shù)據(jù)訪問模式都不盡相同,這給都AI加速器設(shè)計增加不少挑戰(zhàn)。

2.3端到端異構(gòu)計算流水線設(shè)計與參數(shù)調(diào)優(yōu)復(fù)雜

異構(gòu)計算是車載高性能AI應(yīng)用的典型流水線作業(yè)計算方式,既復(fù)用了傳統(tǒng)CPU的成熟軟件生態(tài),

也可以結(jié)合場景,用特定硬件加速器完成AI推理、前處理和后處理,真正做到兼顧性能延遲、功耗、

成本等。從軟件與算法角度,需要對AI任務(wù)進行分割,確認相應(yīng)的硬件加速器使用,建立合理的計算

流水線以及設(shè)定相應(yīng)的處理參數(shù)和調(diào)度策略,確保環(huán)境感知數(shù)據(jù)通過不同步驟(硬件加速單元)不會

出現(xiàn)明顯的瓶頸,這都需要建立在大量的實驗數(shù)據(jù)分析上,才能得到最佳的優(yōu)化配置。

案例四:地平線真實計算效能計算公式

32《車載智能計算芯片白皮書(2023)》

地平線的技術(shù)專家提出,智能計算芯片的性能通過FPS(FramesPerSecond)更能夠反映AI芯片的真實計

算性能。

2.4指令集定義兼顧靈活性和性能

指令集架構(gòu)(ISA)是對計算機計算模型的明確規(guī)范,它定義了軟件如何控制芯片。ISA充當硬件

和軟件的接口,并明確了處理器單元能夠做什么以及如何完成,也是用戶能夠與硬件交互的唯一方式。

它是匯編語言程序員、編譯器編寫者和應(yīng)用程序程序員可以看到的機器編程手冊。ISA定義了支持的

數(shù)據(jù)類型、寄存器、硬件如何管理主內(nèi)存、微處理器可以執(zhí)行的指令以及輸入/輸出模型等。

硬件加速算子粒度是確保架構(gòu)可編程性、實現(xiàn)軟件優(yōu)化、適應(yīng)未來算法演進需求的關(guān)鍵,在此基

礎(chǔ)上,定義完備且穩(wěn)定的指令集,在軟件和硬件迭代不同步的情況下,仍然可以通過微架構(gòu)和芯片制

造工藝的改進提升,實現(xiàn)應(yīng)用整體性能的朝高吞吐量、低功耗、小面積和低帶寬方向優(yōu)化。

“周易”NPU指令集是專門為AI處理器設(shè)計的一套異構(gòu)指令集,以傳統(tǒng)VLIW為基礎(chǔ),包含可編程

標量,矢量處理器指令集和AI專用計算處理指令集,兼顧了靈活性和AI處理的高效性,并以此拓展

成可支持靜態(tài)形(StaticShape)和動態(tài)形(DynamicShape)模型輸入數(shù)據(jù)。“周易”指令集的設(shè)計思

想是面向通用AI數(shù)據(jù)處理,盡可能把AI相關(guān)的計算轉(zhuǎn)移到NPU上面執(zhí)行,并且提供編程友好的接口

來支持開發(fā)者進行自定義開發(fā)。指令集對開發(fā)者開放,開發(fā)者除了使用內(nèi)建優(yōu)化算子庫之外,更可實

現(xiàn)整個NPU的靈活編程,以滿足用戶日益增長的定制化、差異化的神經(jīng)網(wǎng)絡(luò)算法部署需求。

2.5統(tǒng)一編程模型

AI推理計算是非常復(fù)雜的過程,對于延遲要求非常高,采用多核并行架構(gòu)可以有效提高性能是高

性能SoC上的常見做法,并行架構(gòu)在數(shù)據(jù)訪問延遲、計算核心作業(yè)調(diào)度、計算核心控制、多層次緩存

結(jié)構(gòu)、虛擬化以及進程間切換等方面,涉及到編譯器、多核編程,數(shù)據(jù)壓縮、量化等眾多細節(jié),這些

對AI應(yīng)用開發(fā)者而言并非完全透明,甚至需要開發(fā)者對性能數(shù)據(jù)進行調(diào)試、跟蹤、分析。這一整套代

碼編寫、調(diào)試涉及的SDK/API調(diào)用規(guī)范,可以簡單理解為編程模型。深入理解編程模型,需要對硬件

33《車載智能計算芯片白皮書(2023)》

架構(gòu)有一定理解,也是充分發(fā)揮應(yīng)用程序計算性能的前置條件,但是對于很多AI應(yīng)用開發(fā)者而言,理

解硬件架構(gòu)并非易事,因此統(tǒng)一的編程模型至少帶來如下好處:

編程學(xué)習(xí)曲線:對于應(yīng)用開發(fā)者而言,熟練使用同一套編程API和編程方式,有助于降低開發(fā)人

員學(xué)習(xí)成本和團隊溝通成本,提高日常開發(fā)工作效率,也有助于保持軟硬件平臺演化的一致性。比如

深度學(xué)習(xí)主流框架之一的Keras,代碼簡單很容易擴展,非常直觀的定義神經(jīng)網(wǎng)絡(luò),初學(xué)者非常容易

入門,最初Keras為了訓(xùn)練自定義的神經(jīng)網(wǎng)絡(luò),采用了Theano作為默認的后端實現(xiàn)來完成AI訓(xùn)練,

隨著TensorFlow訓(xùn)練框架的興起,Keras也支持TensorFlow以及其它多個AI訓(xùn)練框架為其后端執(zhí)

行器,影響了大量的AI開發(fā)者。簡單、易用、完備、高度抽象、兼容性強的API定義,對于吸引AI

開發(fā)者非常重要。

簡化調(diào)試部署:同一個系列不同版本的芯片,功能或者性能可能有所不同,芯片廠商提供統(tǒng)一的

SDK,可以屏蔽芯片實現(xiàn)細節(jié)和硬件差異,可以避免用戶代碼的改動甚至可以避免用戶代碼重新編譯。

對于AI應(yīng)用開發(fā)者而言,可以做到開發(fā)環(huán)境調(diào)試和目標設(shè)備運行基本保持一致,特別是目標設(shè)備不完

全一致時,也會極大簡化開發(fā)、調(diào)試和部署的工作量,降低成本。比如ApacheTVM項目兩個主要功

能為:將深度學(xué)習(xí)模型編譯成最小可部署的與硬件無關(guān)模塊;根據(jù)后端執(zhí)行加速器硬件特性,自動生

成和優(yōu)化模型,提高性能;ApacheTVM目前可以支持的后端比如生成CPU、GPU、瀏覽器WASM

VM以及部分自定義的NPU代碼和模型,極大簡化開發(fā)者的調(diào)試部署時間。

2.6編譯器技術(shù)

硬件執(zhí)行體設(shè)計者,會根據(jù)計算特征,將計算瓶頸相關(guān)運算固化成硬件指令,采用硬件加速單元

來完成,而編譯器開發(fā)者則需要制定規(guī)則,將軟件代碼翻譯成相應(yīng)的硬件加速指令。通常軟件和算法

會針對不同場景,使用不同的算法模型,完成相應(yīng)的計算任務(wù),即便是同一類型的算法模型,也會根

據(jù)能效和性能需要,進行必要的參數(shù)調(diào)整。編譯器技術(shù)雖然可以幫助軟件開發(fā)者將高級語言翻譯成機

器可執(zhí)行機器語言,但是編譯器通常都是基于規(guī)則來完成機器語言的翻譯和優(yōu)化,在實際運行中,由

34《車載智能計算芯片白皮書(2023)》

于輸入條件和場景不同,編譯器無法針對運行時的場景進行優(yōu)化,此時則需要軟件工程師對芯片硬件

架構(gòu)體系有一定了解,針對場景編寫出硬件優(yōu)化的代碼,并指導(dǎo)編譯器優(yōu)化編譯。

3.NPU軟硬協(xié)同設(shè)計創(chuàng)新

對于AI芯片而言,能夠通過軟件在運行時重新配置、實時動態(tài)改變功能,以運行不同計算任務(wù),

滿足不同場景需求至關(guān)重要。AI芯片的運行時實時動態(tài)重新配置稱為可重構(gòu)計算技術(shù),可重構(gòu)計算技

術(shù)允許硬件架構(gòu)不變,通過軟件來完成計算任務(wù)設(shè)定,同時具備CPU的靈活性和ASIC的高性能和低

功耗,被認為是突破性的下一代集成電路技術(shù),為AI芯片帶來了極高的靈活度和適用范圍。

可重構(gòu)技術(shù)與系統(tǒng)軟件緊密耦合,普通AI應(yīng)用軟件開發(fā)并不能直接針對AI芯片進行編程。“周

易”NPU是典型的可重構(gòu)AI芯片技術(shù),通過CompassSDK可以完成典型AI模型的轉(zhuǎn)化和代碼編譯,

使得AI模型可以運行在包含“周易”NPUIP的芯片之上。最新發(fā)布的X2系列NPU產(chǎn)品針對自動駕駛

領(lǐng)域計算芯片,單核MAC陣列,在配置成INT8*INT8或者INT8*INT12時,可以提供10TOPS的

算力,INT16*INT16時可以提供2.5TOPS的算力,并支持混合精度神經(jīng)網(wǎng)絡(luò)推理部署。除了精度的

動態(tài)配置外,“周易”NPU還可以在運行時配置,以支持各種AI模型的動態(tài)切換。

圖十二:“周易”NPU軟件技術(shù)棧

如圖十二藍色部分所示,“周易”NPU工具鏈可以把典型的AI訓(xùn)練框架生成的模型,轉(zhuǎn)化成“周

易”NPU可執(zhí)行文件,并在轉(zhuǎn)化編譯過程中,針對目標平臺芯片進行諸如低精度量化等優(yōu)化執(zhí)行碼操作,

35《車載智能計算芯片白皮書(2023)》

極大方便AI算法和軟件工程師部署模型推理和性能調(diào)優(yōu)。目前已支持160多個常用的AI模型算子,

其開放的軟件技術(shù)架構(gòu),也方便AI開發(fā)者自定義算子。隨著“周易”NPU技術(shù)的不斷演化,更多新的AI

芯片將不斷量產(chǎn),軟件與算法開發(fā)者均可以借助“周易”NPU工具鏈,完成代碼模型對AI芯片產(chǎn)品的適

配、調(diào)試或者仿真測試,實現(xiàn)軟件算法開發(fā)對芯片的解耦,提高車載自動駕駛軟件的研發(fā)效率。

AI編譯器可以將機器學(xué)習(xí)模型轉(zhuǎn)換為對應(yīng)AI芯片上的運行代碼(通常作為某種形式的深度神經(jīng)網(wǎng)

絡(luò)執(zhí)行),甚至針對特定模型和目標芯片特性進行優(yōu)化。一方面軟件屏蔽了AI芯片的底層技術(shù)細節(jié),

降低自動駕駛算法落地的工程開發(fā)難度,另外一方面,隨著算法和模型的不斷演進,對于未來出現(xiàn)的

新算法和模型支持也能做到一定程度上的支持,確保硬件平臺向后兼容性。

4.異構(gòu)感知計算流水線優(yōu)化

車載智能計算平臺在輔助駕駛或者自動駕駛場景中,對于環(huán)境數(shù)據(jù)感知有著非常苛刻的延遲要求,

其中數(shù)據(jù)傳輸及處理涉及到多個功能模塊。在SoC設(shè)計時,不同功能IP模塊往往由不同廠商提供,

針對特定場景優(yōu)化,需要這些模塊間形成可以直接通信的系統(tǒng)方案。比如:多路攝像頭及其它傳感器

輸入的環(huán)境感知數(shù)據(jù),會實時輸入給NPU模塊。高性能的車載智能計算SoC內(nèi)部,讓NPU模塊與

GPU、ISP、VPU等模塊協(xié)同工作以達到最佳的效率是非常重要的。

安謀科技推出的DFC(DirectFrameConnection)技術(shù),避免ISP(ImageSignalProcessor)

輸出數(shù)據(jù)寫入DRAM(延遲通常在50–100ns)內(nèi)存,然后NPU再從DRAM內(nèi)存讀取數(shù)據(jù)并處理的

過程,在芯片設(shè)計時,工程師可以根據(jù)場景需求,靈活配置DFC內(nèi)部SRAM(延遲通常在1-2ns)大

小,橋接諸如標準的“玲瓏”ISP和“周易”NPU模塊,極大降低數(shù)據(jù)延遲和功耗,提高數(shù)據(jù)處理吞吐率,

避免因數(shù)據(jù)訪問DRAM造成性能抖動。

36《車載智能計算芯片白皮書(2023)》

DFC

(SRAM)

ISP

NPU

數(shù)據(jù)總線

(DRAM)

圖十三:DFC技術(shù)示意圖

5.輔助駕駛、自動駕駛案例

案例五:地平線智駕系列產(chǎn)品

地平線是中國智能駕駛計算解決方案的頭部廠商,到目前為止,已經(jīng)推出了四代車載智能計算芯片,并開發(fā)對

應(yīng)的BPU智能計算引擎,在產(chǎn)品開發(fā)的理念上充分體現(xiàn)了前文所提到的方法論。

2018年,地平線提出了智能計算的新摩爾定律,這個定律的核心概念是端到端的計算性能優(yōu)化,而不只是理論

的峰值算力。其中包含三方面的關(guān)鍵要素:第一是在設(shè)計、工程實現(xiàn)方面的極致優(yōu)化;第二是對最先進算法的采

納,結(jié)合整個算法大發(fā)展趨勢,預(yù)判最合適自動駕駛應(yīng)用場景的最佳算法;第三是軟硬件計算架構(gòu)的聯(lián)合優(yōu)化。通

過將這三方面結(jié)合在一起,設(shè)計出端到端的計算最優(yōu)解。總體來看,設(shè)計理念就是既支持好算法,又使得它物理硬

件實現(xiàn)最有效。

這個過程中,需要軟件和硬件在算法、在工程技術(shù)上進行很多探索。自動駕駛芯片執(zhí)行的是“從感知到定位到規(guī)

控”的完整閉環(huán),并遵循嚴格的安全標準,將車規(guī)體系對可靠性和安全性的最高要求和最佳實踐,注入到了歷代的芯

片設(shè)計和解決方案的工程實踐中。

車載計算架構(gòu)從以邏輯為主的1.0走向以智能為主的2.0時代,本質(zhì)是從規(guī)則化設(shè)計方式走向數(shù)據(jù)化設(shè)計方式。

數(shù)據(jù)驅(qū)動的方法不僅僅用于算法本身,還應(yīng)用于編譯器,通過優(yōu)化提升編譯器的算法和性能,可以將算法轉(zhuǎn)換

成計算架構(gòu)上準確執(zhí)行的長序列

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論