GPU行業市場前景及投資研究報告:“AI算力GPU”AI產業化加速智能大時代開啟_第1頁
GPU行業市場前景及投資研究報告:“AI算力GPU”AI產業化加速智能大時代開啟_第2頁
GPU行業市場前景及投資研究報告:“AI算力GPU”AI產業化加速智能大時代開啟_第3頁
GPU行業市場前景及投資研究報告:“AI算力GPU”AI產業化加速智能大時代開啟_第4頁
GPU行業市場前景及投資研究報告:“AI算力GPU”AI產業化加速智能大時代開啟_第5頁
已閱讀5頁,還剩110頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

證券研究報告半導體行業評級:領先大市-A華金證券電子團隊—走進“芯”時代系列深度之六十“AI算力GPU”AI產業化再加速,智能大時代已開啟——GPU行業深度報告2023年3月26日核心觀點(1)?

在芯片算力快速提升、日趨龐大的數據量共同支撐下,AI算法迭代升級加速。AI的發展經歷了很長時間的積累,其能不斷跨越科學與應用之間的鴻溝主要得益于技術突破、行業落地、產業協作等多方面的推動,而技術突破是其中最為關鍵的要素。從起步階段發展到當下深度學習階段,算法、數據和算力構成了AI三大基本要素,并共同推動AI向更高層次的感知和認知發展。算法方面,目前深度學習仍然是AI技術發展的主導路線,但是早期所使用的有監督學習方式由于受限于對大量標注數據依賴與理解能力缺乏,而且模型通用性較差,正逐步被新的技術所取代,在芯片算力的快速提升、日益龐大的數據量這兩者的支撐下,新算法正處于加速迭代升級過程中。?

自監督學習的算法模型快速發展,“預訓練+精調”的開發范式邁向成熟,新一輪AI技術產業化之路開啟。谷歌、臉書等多家企業先后發布使用自監督學習的算法模型,通過挖掘無標注數據的監督信息,減少人為干預。現階段自監督學習本質上仍依賴規范化、標簽化的數據,主要借助預訓練模型構筑并學習數據特征。“預訓練”的做法一般是將大量低成本收集的訓練數據放在一起,經過某種預訓方法去學習其中的共性,然后將其中的共性“移植”到特定任務的模型中,再使用相關特定領域的少量標注數據進行“微調”,這樣的話,模型只需要從“共性”出發,去“學習”該特定任務的“特殊”部分即可。預訓練模型成功的關鍵是自監督學習與Transformer的結合。預訓練大模型在海量數據的學習訓練后具有良好的通用性和泛化性,用戶基于大模型通過零樣本、小樣本學習即可獲得領先的效果,同時“預訓練+精調”等開發范式,讓研發過程更加標準化,顯著降低了人工智能應用門檻。整體上來看,關于本輪AI技術突破所帶來的產業化變局,我們有三個核心觀點:1、基于GPT為代表的大模型AI的通用能力,未來幾年大模型AI的滲透廣度、深度和速度有可能會超預期;2、ChatGPT采用的是閉源模型,其加速的產業落地會刺激更多的廠商加大大模型AI的研發投入,進而推動AI產業化發展;3、大模型AI通用能力的提升,帶動的將不僅僅是云計算市場的增長,伴隨著多種技術與商業化路徑的逐步成熟,云、邊緣、端的增量市場空間均有望漸次打開。核心觀點(2)?

云端計算進入高性能計算時代,大模型訓練仍以GPU為主。雖然AI芯片目前看有GPU、ASIC、CPU、FPGA等幾大類,但是基于幾點原因,我們判斷GPU仍將是訓練模型的主流硬件:1、Transformer架構是最近幾年的主流,該架構最大的特點之一就是能夠利用分布式GPU進行并行訓練,提升模型訓練效率;2、ASIC的算力與功耗雖然看似有優勢,但考慮到AI算法還是處于一個不斷發展演進的過程,用專用芯片部署會面臨著未來算法更迭導致芯片不適配的巨大風險;3、英偉達強大的芯片支撐、生態、算法開源支持。?

模型小型化技術逐步成熟,從訓練走向推理,云、邊、端全維度發展。我們認為至少有四大投資主線應持續關注:1、GPU方面,在英偉達的推動下,其從最初的顯卡發展到如今的高性能并行計算,海外大廠已經具備了超過20年的技術、資本、生態、人才等儲備,形成了大量的核心技術專利,而且也能充分享有全球半導體產業鏈的支撐,這都或是目前國內廠商所缺失的。近幾年在資本的推動下,國內涌現出數十家GPU廠商,各自或都具備一定的發展基礎,但整體經營時間較短,無論從技術積淀、產品料號布局、高端料號性能來說,與國外大廠仍具備較大差距。但國產化勢在必行,國內相關產業鏈重點環節也積極對上游芯片原廠進行扶持,國產算力芯片需要不斷迭代以實現性能的向上提升,后續持續關注相關廠商料號升級、生態建設和客戶突破;2、

AI在端側設備應用普及是大勢所趨,目前,知識蒸餾、剪枝、量化等模型小型化技術在逐步成熟,AI在云、邊、端全方位發展的時代已至。除了更加廣泛的應用帶來需求量的提升外,更復雜算法帶來更大算力的需求也將從另一個維度推動市場擴容;3、數據的高吞吐量需要大帶寬的傳輸支持,光通信技術作為算力產業發展的支撐底座,具備長期投資價值;4、Chiplet技術可以突破單一芯片的性能和良率等瓶頸,降低芯片設計的復雜度和成本。基于向Chiplet模式的設計轉型,已經是大型芯片廠商的共識,相關產業鏈具備長期投資價值。?

建議關注:瑞芯微、晶晨股份、星宸科技(待上市)、全志科技、北京君正、中科藍訊、富瀚微、恒玄科技?

風險提示:技術創新風險、宏觀經濟和行業波動風險、國際貿易摩擦風險。總目錄由專用走向通用,GPU賽道壁壘高筑產業化路徑顯現,全球AI競賽再加速全維智能化大時代,國產算力行則必至建議關注產業相關風險提示分目錄(1)由專用走向通用,GPU賽道壁壘高筑?

1.1

什么是GPU?

1.14

走向新場景的GPGPU?

1.2

始于圖形處理設備?

1.15GPU與GPGPU的對比?

1.3

浮點計算能力與可編程性結合?

1.4GPU發展三大方向?

1.16GPGPU與CPU的對比?

1.17

并行計算發展的核心?

1.5

英傳達顯卡發展歷程?

1.18SIMT,主流GPU的系統架構核心?

1.19GPGPU架構,以A100為例?

1.6GeForceRTX40系列,時代最強?

1.7

英特爾的核顯?

1.20Fermi是第一個完整的GPU計算架構?

1.21

通用算力提升是英偉達GPU架構演進的重點之一?

1.22

多方面構建的高壁壘?

1.8

核顯與獨顯性能對比?

1.9

圖形流水線是GPU工作的通用模型?

1.10

統一渲染架構的推出開啟了通用計算大時代?

1.11

從簡單到越來越復雜的流水線?

1.12

光線追蹤時代開啟?

1.23

人才與研發投入,以英偉達為例?

1.24

國外廠商多年間構筑了龐大的專利池?

1.25

英偉達全棧布局構筑強大生態?

1.26

走向異構,海外廠商橫向布局不斷?

1.13

光線追蹤算法要求的計算量巨大分目錄(2)產業化路徑顯現,全球AI競賽再加速?

2.1AI技術賦能實體經濟面臨的瓶頸?

2.2

ChatGPT的破圈?

2.14

數據中心邁入“高算力”時代,兵家必爭?

2.15

英偉達數據中心業務快速增長?

2.16

自動駕駛研發兩大商業路線?

2.17

自動駕駛實現的兩種技術路線?

2.18

單車智能化推動算力升級加速?

2.19

自動駕駛具備廣闊市場前景?

2.3

ChatGPT的成功離不開預訓練大模型?

2.4

預訓練模型的發展歷程?

2.5Transformer架構成主流?

2.6

自監督學習與Transformer的結合?

2.7

大模型的突現能力?

2.8

參數量爆發式增長的ChatGPT?

2.9

預訓練大模型,第三波AI發展的重大拐點?

2.10

生成式AI、邊緣AI技術即將步入成熟期?

2.11

大模型是大算力和強算法結合的產物?

2.12AI芯片三劍客?

2.13

訓練端GPU擔綱分目錄(3)全維智能化大時代,國產算力行則必至???????????????3.1

全球數據中心負載任務量快速增長??????????????3.16

先求有,再求好3.2

全球計算產業投資空間巨大3.3

預訓練大模型對于GPU的需求3.4

國內市場需求將保持高增長3.5

云計算及云部署方式3.17

生態先兼容主流,未來將走向自建3.18

國產之路已開啟,部分國產GPU設計廠商列表3.19GPU發展離不開全球產業鏈的支撐3.20

制程升級對于算力芯片性能提升具有較高貢獻度3.21

摩爾定律發展趨緩3.6

不同云部署方式的市場占比3.7

企業上云持續向細分行業滲透3.8

從“資源上云”邁入“深度用云”3.9

信創從試點走向推廣3.22

Chiplet技術潛力大3.23

Chiplet技術發展歷程3.24

行業巨頭推動,產業加速落地3.25

采用Chiplet技術的產品不斷出現3.26

算力兩大演進方向:更大算力&更多樣化應用3.27

存量替代與增量成長并存3.10

公有云主要參與廠商3.11

云計算產業鏈3.12

集成顯卡與獨立顯卡市場份額3.13

獨立顯卡英偉達一家獨大3.14

性能強大的H1003.28

高吞吐量離不開高速傳輸3.29

光通信前景可期3.15

國產廠商兩條發展路徑:GPU和GPGPU分目錄(4)建議關注產業相關?

4.1

瑞芯微?

5.1

海光信息?

5.2

龍芯中科?

5.3

景嘉微?

4.2

晶晨股份?

4.3

星宸科技(待上市)?

4.4

全志科技?

4.5

北京君正?

4.6

中科藍訊?

4.7

富瀚微?

5.4

寒武紀-U?

5.5?

5.6

芯原股份-U?

5.7

華大九天?

5.8

概倫電子?

5.9

長電科技?

5.10

華天科技?

5.11

通富微電?

5.12

炬芯科技?

5.13

源杰科技?

5.14

光迅科技?

5.15

摩爾線程(未上市)?

4.8

恒玄科技風險提示?

技術創新風險?

宏觀經濟和行業波動風險?

國際貿易摩擦風險目錄01由專用走向通用,GPU賽道壁壘高筑?????????1.1什么是GPU?????????1.10統一渲染架構的推出開啟了通用計算大時代1.11從簡單到越來越復雜的流水線1.12光線追蹤時代開啟????????1.19GPGPU架構,以A100為例1.2始于圖形處理設備1.20Fermi是第一個完整的GPU計算架構1.21通用算力提升是英偉達GPU架構演進的重點之一1.22多方面構建的高壁壘1.3浮點計算能力與可編程性結合1.4GPU發展三大方向1.13光線追蹤算法要求的計算量巨大1.14走向新場景的GPGPU1.5英傳達顯卡發展歷程1.6GeForceRTX40系列,時代最強1.7英特爾的核顯1.23人才與研發投入,以英偉達為例1.24國外廠商多年間構筑了龐大的專利池1.25英偉達全棧布局構筑強大生態1.26走向異構,海外廠商橫向布局不斷1.15GPU與GPGPU的對比1.16GPGPU與CPU的對比1.8核顯與獨顯性能對比1.9圖形流水線是GPU工作的通用模型1.17并行計算發展的核心1.18SIMT,主流GPU的系統架構核心產業化路徑顯現,全球AI競賽再加速全維智能化大時代,國產算力行則必至建議關注產業相關風險提示1.由專用走向通用,GPU賽道壁壘高筑1.1

什么是GPUSOC中的GPU模塊?

圖形處理器(graphicsprocessingunit,縮寫:GPU),又稱顯示核心、視覺處理器、顯示芯片,是一種專門在個人電腦、工作站、游戲機和一些移動設備(如平板電腦、智能手機等)上做圖像和圖形相關運算工作的微處理器。?

NVIDIA公司在1999年發布GeForce256圖形處理芯片時首先提出GPU的概念。從此NVIDIA顯卡的芯片就用這個新名字GPU來稱呼。GPU使顯卡削減了對CPU的依賴,并執行部分原本CPU的工作,尤其是在3D圖形處理時。GPU與顯卡資料:痞客邦,華金證券研究所資料:痞客邦,華金證券研究所1.由專用走向通用,GPU賽道壁壘高筑1.2

始于圖形處理設備?

最早計算機是黑白顯示的時代,機器對于顯示的要求極低,隨著計算機的普及和軟件的多樣化,使用者對于顯示的要求越來越高。VGA(VideoGraphicsArray,視頻圖形陣列)是一種標準的顯示接口,是IBM于1987年提出的一個使用模擬信號的電腦顯示標準。VGA標準由于可以呈現的彩色顯示能力大大加強,因此迅速成為了顯示設備的標準,也推動了VGACard也即是顯卡的誕生。早期的VGACard的唯一功能是輸出圖像,圖形運算全部依賴CPU,當微軟Windows操作系統出現后,大量的圖形運算占據了CPU的大量資源,如果沒有專門的芯片來處理圖形運算,Windows界面運作會大受影響而變得卡頓,因此出現專門處理圖形運算的芯片成為必然趨勢。?

1993年1月,英偉達創立,1999年,英偉達發布了劃時代的產品GeForce256,首次推出了所謂圖形處理器(GPU,GraphicProcessing?

Unit)的概念,它帶來了3D圖形性能的一次革命。圖:顯卡發展歷程資料:51CTO,華金證券研究所繪制1.由專用走向通用,GPU賽道壁壘高筑1.3

浮點計算能力與可編程性結合?

GeForce256

是一款用于實時圖形處理的專用處理器,GeForce圖形處理器的發布,實現了頂點的矩陣變換和光照計算,圖形實時處理應用需要高內存帶寬和大量的浮點計算能力。2001年英偉達發布了第三代顯示核心GeForce3,GeForce3不僅集成了來自之前GeForce256和GeForce2芯片的“靜態”座標轉換和照明引擎,更增加了稱為“頂點著色單元”的可編程頂點處理器功能。游戲開發者可借由加上頂點程序,讓游戲產生令人驚艷的全新效果。?

可編程性與浮點計算能力相結合,基于GPU的通用計算也開始出現,GPU朝著通用計算的方向持續演進。2006年,英偉達CUDA(ComputeUnifiedDeviceArchitecture,統一計算設備架構),及對應工業標準的OpenCL的出現,讓GPU實現更廣泛的通用計算功能,GPGPU的概念落地。NVidiaTesla架構GPU的圖形(處理)流水線資料:搜狐網,華金證券研究所資料:《深入GPU硬件架構及運行機制》博客園,華金證券研究所1.由專用走向通用,GPU賽道壁壘高筑1.4GPU發展三大方向?

GPU最初用在PC和移動端上運行繪圖運算工作的微處理器,與CPU集成以集成顯卡(核顯)的形態發揮功能。NVIDIA于2007年率先推出獨立GPU(獨顯),使其作為“協處理器”在PC和服務器端負責加速計算,承接CPU計算密集部分的工作負載,同時由CPU繼續運行其余程序代碼。?

2019年NVIDIA的中國GTC大會設置了兩大主題:AI和圖形。從大會的關注重點可以看出,GPU未來趨勢主要是3個:大規模擴展計算能力的高性能計算(GPGPU)、人工智能計算(AIGPU)、更加逼真的圖形展現(光線追蹤RayTracingGPU)。英偉達三大產品系列四核心Intel處理器的die

shot框圖(帶有Gen9核顯)資料:CSDN,華金證券研究所資料:英偉達,華金證券研究所1.由專用走向通用,GPU賽道壁壘高筑1.5

英傳達顯卡發展歷程時間

發布型號

制程1995STG-2000X

500nm采用第一代NV1核心,核心頻率12MHz,同時支持2D、3D處理能力亮點1998

RIVA128

350nm第一款成功的顯示核心。第一款支持微軟Direct3D加速的圖形芯片,也是第一個提供硬件三角形引擎的128bit圖形芯片,加入了對OpenGL技術的支持1999

RivaTNT2

250nm奠定英偉達顯卡王朝的基石,核心頻率和顯存容量都有了極大的提升,從這一代開始,英偉達開始產品進行了市場化細分GeForce1999

256首次推出了所謂圖形處理器(GPU)的概念,增加了PixelShader流水線的數目,支持硬件T&L引擎,第一款硬件支持T&L的顯卡,亦支援MPEG-2硬件視頻加速。Quadro也是以220nmGeForce256為基礎開始研發。2001

GeForce3

180nm英偉達首款支持DirectX

8.0的產品,并支持可編程的T&L引擎GeForce42002

Ti4200GeForce150nm新一代的T&L引擎,并支持高效率的反鋸齒技術2004

6800130nm渲染管線首次突破性增長到16條,采用GDDR3顯存,頻率達到了1.1GHz。同年,英偉達SLI(可擴展的鏈接接口)技術問世,單臺PC的圖形處理能力大大提升。世界上第一塊支持DirectX10的PC桌面顯卡。GeForce8采用統一流水線結構,傳統顯示核心的架構分為頂點著色引擎和像素著色引擎。所謂統一渲染,即GPU中不再有單獨的頂端渲染單元和像素渲染單元,而是由一個通用的渲染單元同時完成頂點和像素渲染任務。統一渲染架構具有硬件利用效率高以及編程靈活的優點,進一步提升了GPU內部運算單元的可編GeForce2006

8800GTX

90nm

程性,讓GPU運行高密集度的通用計算任務就成為可能GeForce采用英偉達推出全新一代的Fermi架構,Fermi架構GPU產品在保持圖形性能的前提下,將通用計算的重要性提升到前所未有的高度,大規模GPU計算從之開始。30億個晶體管的大芯片,2010

GTX48040nm

全局ECC設計、可讀寫緩存、更大的sharedmemory、甚至出現了分支預測概念。Fermi是英偉達最后一款在游戲顯卡上保留強悍雙精度的微架構采用Kepler架構,與前一代的Fermi架構相比,Kepler架構不僅僅是性能的提升,功耗和溫度上也得到了極大的改善。Fermi架構中英偉達主要專注于提升計算與曲面細分的性能。然而在Kepler架構中,英偉達轉向了提升效率、可編程性與性能,效率的提升來自采用了統一的GPU時鐘、簡化的靜態指令調度和更加優化的每瓦性能。專用的雙精度CUDA核心被用來GeForce2013

GTXTitan

28nm

彌補KeplerCUDA核心為了節省芯片面積而放棄的雙精度計算能力采用英偉達第四代GPU架構Maxwell架構,Kepler的改進版架構。最明顯的變化是在SMX單元和GPC單元上,Maxwell的SMM(之前叫SMX)單元從之前Kepler的包含192個CUDACore下降GeForce2014

GTX970GeForce到128個,但發射器從之前的每SMX一個變為了每SMM四個,目的是降低每個SMM單元的運算壓力提升效率,增加了兩個寄存器,然后L1緩存翻倍,GPC單元的L2緩存增加到了2M。28nm

Maxwell將具備以下三大特性:提升圖形性能,降低編譯難度(這應該歸功于ARMv8核心和統一內存尋址增強技術)和提高能耗比。這一代顯卡的工藝和架構全面升級。架構方面,采用了Pascal架構,Pascal是Maxwell的接替者,增強了異步計算功能實現硬件層了對DirectXAPI的更高版本(DirectX12Feature2016

GTX1080

16nm

Level12_1)的支持,高端產品還配備帶寬更高的HBM2顯存,性能和能耗比都有了很大提升GeForce

第一代GeForceRTX系列,支持光線/路徑追蹤硬件加速,使實時光線追蹤成為可能。新GeForce顯卡最大的亮點就是集成了光線追蹤核心的TuringGPU,從技術上拉開了與上代顯卡2018

RTX2080

12nm

的差距,NVIDIA宣布圖靈架構的時候表示新一代顯卡的光線追蹤性能是現有Pascal顯卡的6倍之多GeForce

三星

采用了全新的Ampere安培架構,相比RTX20系的圖靈架構是革命性的提升,Ampere集成了第二代RT光線追蹤核心、第三代Tensor張量核心,并支持PCIE4.0、DisplayPort1.4a、2020

RTX3090

8nm

HDMI2.1GeForce采用最新的AdaLovelace架構,較上一代Ampere晶體管和CUDA核心數量提升70%,著色器、光追、深度學習性能均實現重大飛躍。AdaLovelace架構的創新大體上可以分為三2022

RTX40系列

4nm

個板塊,分別是帶來了新的全景光線追蹤、著色器執行重排序(SER)和DLSS3資料:英偉達,維基百科,華金證券研究所整理1.由專用走向通用,GPU賽道壁壘高筑1.6GeForceRTX40系列,時代最強?

2022秋季GTC大會上,英偉達發布GeForceRTX?40系列GPU,旨在為游戲玩家和創作者提供革命性性能,其中新旗艦產品RTX4090GPU的性能相較上一代提升最高可達4倍。作為全球首款基于全新NVIDIA?

AdaLovelace架構的GPU,RTX40系列在性能和效率上都實現了巨大的代際飛躍,根據NVIDIA創始人兼首席執行官黃仁勛的介紹,RTX光線追蹤和神經網絡渲染的時代正在全面展開。?

RTX40系列GPU具有一系列新的技術創新:包括流式多處理器具有高達83TFLOPS的著色器能力、第三代RTCores的有效光線追蹤計算能力達到191TFLOPS、第四代TensorCores具有高達1.32Petaflops的FP8張量處理性能、著色器執行重排序(SER)通過即時重新安排著色器負載來提高執行效率、Ada光流帶來2倍的性能提升、架構上改進來實現與TSMC4N定制工藝技術緊密結合等。資料:電腦評測網,華金證券研究所1.由專用走向通用,GPU賽道壁壘高筑1.7

英特爾的核顯?

1998年英特爾推出了Inteli740獨立顯卡并進入顯卡市場,隨后它被整合進了810/815芯片組并誕生了Intel的集成顯卡家族。2010年英特爾推出的Clarkdale處理器是首款整合GPU的CPU,這款處理器由32nm制程CPUDie和45nm的GPUDie共同封裝在一塊PCB上組成,兩顆芯片使用QPI總線相連。2011年英特爾推出的SandyBridge架構處理器把CPU和GPU做到同一塊芯片上,進入核顯時代。英特爾早期通過封裝將CPU、GPU兩顆芯片封裝在一起Skylake處理器核心(CPU、GPU在同一顆芯片上)資料:超能網,華金證券研究所資料:超能網,華金證券研究所1.由專用走向通用,GPU賽道壁壘高筑1.8

核顯與獨顯性能對比?

2022年1月25日,搭載第12代酷睿AlderLake-H處理器的筆記本正式上市,采用最新一代Intel7制程工藝,內置IrisXEGPU,擁有48組EU單元,加速頻率高達1450MHz。英特爾IrisXEGPU的跑分Intel第12代酷睿性能圖資料:量子位,華金證券研究所資料:zmmoo,華金證券研究所1.由專用走向通用,GPU賽道壁壘高筑1.9

圖形流水線是GPU工作的通用模型?

圖形流水線(graphicspipeline),也叫圖形管線,指的是一連串的圖形處理任務,這一系列的工作先后有序、不可顛倒,因此得以有這個形象的稱呼。圖形流水線是GPU工作的通用模型,它以某種形式表示的三維場景為輸入,輸出二維的光柵圖形到顯示器。圖:圖形流水線資料:CSDN,華金證券研究所1.由專用走向通用,GPU賽道壁壘高筑1.10

統一渲染架構的推出開啟了通用計算大時代?

GPU的硬件結構從固定功能流水線架構發展為大規模并行的統一染色器架構。所謂統一渲染,即GPU中不再有單獨的頂端渲染單元和像素渲染單元,而是由一個通用的渲染單元同時完成頂點和像素渲染任務。為了實現這一點,圖形指令必須先經過一個通用的解碼器、將頂點和像素指令翻譯成統一渲染單元可直接執行的渲染微指令,而統一渲染單元其實就是一個高性能的浮點和矢量計算邏輯,它具有通用和可編程屬性。在統一渲染架構的GPU中,VertexShader和PixelShader概念都將廢除同時代之以ALU。ALU是個完整的圖形處理體系,它既能夠執行對頂點操作的指令(代替VS),又能夠執行對象素操作的指令(代替PS)。基于統一渲染架構,ShaderCore被挖掘出了更多的使用方法,比如通用計算。早期的GPU只支持固定管線統一渲染架構資料:CSDN,華金證券研究所資料:CSDN,華金證券研究所1.由專用走向通用,GPU賽道壁壘高筑1.11

從簡單到越來越復雜的流水線當代GPU渲染管線示意圖?

以前GPU只支持固定管線,并且不支持編程,2002年,GPU在VertexOperations和FragmentOperations這兩個模塊中具有了可編程功能,2006年GPU流水線中增加了一種新的模塊,GeometryShader(幾何元著色器),使得圖形程序開發者在可編程渲染管道(programablerender

pipline)下能夠更大的發揮自由度。再之后,Tessellation(細分曲面技術)、Mesh著色器等等功能的加入,GPU的流水線變得越來越復雜。?

GPU要實現對二維屏幕上每一個像素點的輸出,需要很多個并行工作的著色處理器shaderprocessor同步工作,示意圖中將硬件中的四個小處理器連為一組,軟件層面將各類渲染任務按4個thread打成一個卷warp發給硬件,同時加入了多warp切換的機制,保證了GPU任務執行的高效性。資料:新浪網,華金證券研究所1.由專用走向通用,GPU賽道壁壘高筑1.12

光線追蹤時代開啟?

光線跟蹤是一種真實地顯示物體的方法,該方法由Appel在1968年提出。光線跟蹤方法沿著到達視點的光線的反方向跟蹤,經過屏幕上每一個象素,找出與視線相交的物體表面點P0,并繼續跟蹤,找出影響P0點光強的所有光源,從而算出P0點上精確的光線強度,在材質編輯中經常用來表現鏡面效果。光線跟蹤或稱光跡追蹤是計算機圖形學的核心算法之一。在算法中,光線從光源被拋射出來,當他們經過物體表面的時候,對他們應用種種符合物理光學定律的變換。最終,光線進入虛擬的攝像機底片中,圖片被生成出來。光線追蹤原理圖光線追蹤對比圖資料:CSDN,華金證券研究所資料:新浪,華金證券研究所1.由專用走向通用,GPU賽道壁壘高筑1.13

光線追蹤算法要求的計算量巨大?

光線追蹤與光柵化的實現原理不同。光柵化渲染管線是傳統的渲染管線流程,是以一個三角形為單元,將三角形變成像素的過程;光線追蹤渲染管線則是以一根光線為單元,描述光線與物體的求交和求交后計算的過程。和光柵化線性管線不同的是,光線追蹤的管線是可以通過遞歸調用來衍生出另一根光線,并且執行另一個管線實例。光線追蹤最大難點在于對算力要求極高,計算量非常龐大。?

2018年NVIDIA發布的RTX2080GPU,采用Turing架構,在GPU中集成了68個獨立的RT(raytracing)Core

(專門為光線追蹤服務的,實質上它是一條特異化的專用流水線),用于光線追蹤,光線處理能力達到了10Giga/S,1080P@60Hz需要處理的光線約為6Giga/S,光線追蹤對于反射和陰影有著更逼真的處理效果,盡管目前仍然是采用光線追蹤和傳統光柵圖形處理相結合的方式來進行圖形渲染,但其效果已經遠超傳統光柵圖形處理。資料:英偉達,華金證券研究所1.由專用走向通用,GPU賽道壁壘高筑1.14

走向新場景的GPGPU?

對GPU通用計算進行深入研究從2003年開始,并提出了GPGPU概念,前一個GP則表示通用目的(General

Purpose),所以GPGPU一般也被稱為通用圖形處理器或通用GPU。伴隨著GPUShader單元計算能力的不斷增長,GPU也在向通用計算開始擴張邊界。GPU從由若干專用的固定功能單元(FixedFunctionUnit)組成的專用并行處理器,進化為了以通用計算資源為主,固定功能單元為輔的架構,這一架構的出現奠定了GPGPU的發展基礎。?

GPGPU由于其高并發性、高吞吐量以及不斷提升的可編程能力,目前的應用已經擴展到科學計算、區塊鏈、大數據處理、工程計算、金融、基因等方面。AI芯片的分類計算是未來科學和工程突破的關鍵資料:搜狐網,華金證券研究所資料:《智能時代的科學計算:低維表達與高維問題的自然融合》李若,華金證券研究所1.由專用走向通用,GPU賽道壁壘高筑1.15GPU與GPGPU的對比NVIDIAGeForceRTX40的GPC單元?

GPU的核心價值體現在圖形圖像渲染,GPGPU的重點在于算力,雖然都是由GPU的架構演進而來,但所關注的重點有明顯區別。GPGPU架構設計時,去掉了GPU為了圖形處理而設計的加速硬件單元,保留了GPU的SIMT架構和通用計算單元,使之更適合高性能并行計算,并能使用更高級別的編程語言,在性能、易用性和通用性上更加強大。GPU與GPGPU對比資料:新浪網,華金證券研究所資料:英偉達,華金證券研究所1.由專用走向通用,GPU賽道壁壘高筑1.16GPGPU與CPU的對比?

CPU作為計算機系統的運算和控制核心,是信息處理、程序運行的最終執行單元。CPU內部主要由運算器、控制器和寄存器組成,運算器執行數值計算,寄存器儲存數據。CPU是程序的調用者和運行者,計算機的每一條指令都要經過CPU的解析和執行。GPU無法單獨工作,必須由CPU進行控制調用才能工作。CPU可單獨作用,處理復雜的邏輯運算和不同的數據類型,但當需要大量的處理類型統一的數據時,則可調用GPU進行并行計算。?

CPU與GPU從設計之初就是為了實現不同的目標,GPU的構成相對簡單,有數量眾多的計算單元和超長的流水線,特別適合處理大量的類型統一的數據。GPU為并行而設計,更重視整體數據吞吐量(Throughput);CPU為串行而設計,更看重任務間的時延(Latency)。與超標量亂序CPU相比,通過減少用于控制邏輯的面積并增加算術邏輯單元的面積,GPU可以在高度并行的工作負載上獲得更好的單位面積性能。CPU與GPU芯片面積對比CPU與GPGPU架構對比(ALU用于計算的晶體管)資料研究所:anandtech,華金證券資料:imagination,華金證券研究所1.由專用走向通用,GPU賽道壁壘高筑1.17

并行計算發展的核心?

現代計算機發展經歷了串行計算時代、并行計算時代,并行計算機是由一組處理單元組成的,這組處理單元通過互相之間的通信與協作,以更快的速度共同完成一項大規模的計算任務。并行計算機體系結構的發展主要體現在計算節點性能的提高及節點間通信技術的改進兩方面。?

弗林分類法,根據指令流和數據流的不同組織方式把計算機體系的結構分為四類:單指令流單數據流(SISD)、單指令流多數據流(SIMD)、多指令流多單數據流(MISD)、多指令流多數據流(MIMD)。指令流指的是機器執行的指令序列;數據流指指令流調用的數據序列,包括輸入數據和中間結果。SIMD是一種執行模型,這意味著處理器將其用于在管道中將相似的數據集排隊并并行執行的方法,是現代CPU和GPU使用的最受歡迎的EM之一。弗林分類法資料:javatpoint,華金證券研究所1.由專用走向通用,GPU賽道壁壘高筑1.18SIMT,主流GPU的系統架構核心?

現代的GPU架構中,每個GPU會包含很多的core,英偉達稱之為流多處理器(streamingmultiprocessors,SM)。每個核都在執行單指令多線程的程序(single-instructionmultiple-thread,SIMT)。在單個核上執行的線程可以通過暫存內存(有點像阻塞操作,保存現場)進行通信,并使用快速barrier操作進行同步。?

SIMT與SIMD(同一條指令多個數據)的共同點是同一條指令。SIMT是SIMD的線程等價物,不同之處在于,SIMD使用執行單元或矢量單元,而SIMT將其擴展為利用線程。SIMT的好處是無需開發者費力把數據湊成合適的矢量長度,并且SIMT允許每個線程有不同的分支。SIMT的主要優點是它減少了指令預取帶來的等待時間。現代GPU簡單架構示意圖SIMD與SIMT對比資料:CSDN,華金證券研究所資料:新浪VR,華金證券研究所1.由專用走向通用,GPU賽道壁壘高筑1.19GPGPU架構,以A100為例?

A100是NVIDIA2020年5月14日發布的采用新一代Ampere架構的計算卡,使用了GA100核心。Ampere架構仍然沿用了成熟的GPC-TPC-SM多級架構,GA100內部包含8組圖形處理集群(Graphics

ProcessingCluster,GPC),每組GPC包含8組紋理處理集群(TextureProcessingCluster,TPC),每組TPC又包含8組流式多處理器(StreamingMultiprocessor,SM),另外還有內存控制器組成。GPCSM資料:CSDN,華金證券研究所繪制1.由專用走向通用,GPU賽道壁壘高筑1.20Fermi是第一個完整的GPU計算架構?

英偉達的Fermi是第一個完整的GPU計算架構,該架構在保持圖形性能的前提下,將通用計算的重要性提升到前所未有的高度,大規模GPU計算從此開始。?

要做通用計算,需要更強大的線程管理能力,更強大的仲裁機制,豐富的共享cache和寄存器資源以及充足的發射端等。全新Fermi架構,是以處理器為目標進行設計,因此Fermi架構新增了以前GPU上從來沒有的東西,包括更多的指令雙發射、統一的L2全局緩存、64KB的可配置式L1或者SharedMemory、大量的原子操作單元等等。GF100費米架構核心示意圖資料:快懂百科,華金證券研究所1.由專用走向通用,GPU賽道壁壘高筑1.21

通用算力提升是英偉達GPU架構演進的重點之一?

2016年3月英偉達推出Pascal架構,采用16nm和14nm的工藝。該架構建立在五大技術突破之上,啟用了全新的計算平臺,打破了從書桌端到數據中心的傳統思維。Pascal徹底采用全新設計,為深度學習和其他計算工作負載提供更好的性能。該架構利用全新的混合精度指令,可為深度學習提供每秒超過20萬億次浮點運算的性能峰值。英偉達架構兩年升級一次資料:華金證券研究所繪制1.由專用走向通用,GPU賽道壁壘高筑1.22

多方面構建的高壁壘?

GPU的體系結構與算法是各個公司的核心機密。微架構人才核心競爭力制程算法專利產業配套生態資料:華金證券研究所繪制1.由專用走向通用,GPU賽道壁壘高筑1.23

人才與研發投入,以英偉達為例?

根據英偉達官網報告顯示,公司共有22,500名員工;根據公司最新財年的年報顯示,公司職員中有80%屬于技術人員,有50%的具備高等學歷。?

根據英偉達最新的公告顯示,整個2023財年,英偉達總收入269.7億美元,與前一個財年幾乎持平,研發支出高達73.39億美元,研發支出在營收中占比高達27.21%。截至2023財年,公司十年間共計研發支出高達290.23億美元。圖:近十個財年英偉達營收(億美元)、研發支出(億美元)

、研發支出在營收中占比300.00250.00200.00150.00100.0050.0035.00%30.00%25.00%20.00%15.00%10.00%5.00%269.14269.7432.35%29.05%27.21%26.57%25.91%23.53%166.7521.17%20.28%19.57%18.50%117.16109.1897.1473.3969.1052.6850.1013.3146.8213.6041.3013.3639.2428.2923.7617.9714.630.000.00%2014財年2015財年2016財年2017財年2018財年2019財年2020財年2021財年2022財年2023財年研發支出(億美元)營業收入(億美元)研發支出在營收中占比資料:wind,華金證券研究所1.由專用走向通用,GPU賽道壁壘高筑1.24

國外廠商多年間構筑了龐大的專利池?

根據萬雪佼、徐步陸在2017年發布的《圖形處理器(GPU)專利態勢研究》的內容顯示,全球GPU專利呈現以下幾大特點:?

1、從全球專利公開國看,GPU專利全球布局重心在美國。其中超過總數80%的5459個專利家族有美國專利,剩余世界五大專利局的中日歐韓分布也排名靠前,均有超過10%專利家族有該國專利布局。從各國公開趨勢來看,在美國、中國、韓國專利布局比重呈逐年上升趨勢;?

2、從專利權人分布看,全球GPU技術領域專利數量排名前20的公司占有全球70%的GPU專利,GPU專利技術相對集中。排名靠前的公司以美國居多,其次是英國(ARM和ImaginationTech)。日本游戲公司索尼電腦娛樂公司和任天堂公司也有少量GPU專利。除臺灣VIA公司外,排名前100的沒有中國專利權人。GPU技術領域全球專利家族持有數量排名前三的分別是NVIDIA、Intel和AMD。其中NVIDIA持有專利數量占全球總量的近20%。?

3、我國原生GPU企業,歷史短,專利數量極少且布局僅在國內。1.由專用走向通用,GPU賽道壁壘高筑1.25

英偉達全棧布局構筑強大生態?

2006年,NVIDIA推出CUDA,這是一種用于通用GPU計算的革命性架構。CUDA的存在使得開發者使用GPU進行通用計算的難度大幅降低,使得開發者可以相對簡單有效地對英偉達GPU芯片進行編程,使科學家和研究人員能夠利用GPU的并行處理能力來應對最復雜的計算挑戰。?

芯片是算力基礎,但要充分發揮其性能,必須構建完備的系統軟件底層庫,英偉達構建了從底層系統軟件、驅動軟件、平臺到上層的應用框架。此外,英偉達提供全面的算法庫,幾乎全部開源。圖:英偉達提供全堆棧的AI、HPC軟件資料:搜狐,華金證券研究所1.由專用走向通用,GPU賽道壁壘高筑1.26

走向異構,海外廠商橫向布局不斷?

異構計算主要是指使用不同類型指令集和體系架構的計算單元組成系統的計算方式。異構計算近年來得到更多關注,主要是因為通過提升CPU時鐘頻率和內核數量而提高計算能力的傳統方式遇到了散熱和能耗瓶頸。而與此同時,GPU等專用計算單元雖然工作頻率較低,具有更多的內核數和并行計算能力,總體性能-芯片面積比和性能-功耗比都很高,卻遠遠沒有得到充分利用。云和邊緣計算的數據中心、自動駕駛等超級終端領域都是典型的復雜計算場景,這類型場景的計算平臺都采用了大算力芯片,也是異構計算最重要的落地場景。2015年12月29日,英特爾公司宣布完成對Altera公司的收購,Altera公司是FPGA(可編程邏輯陣列)技術的領先提供商。2022年2月14日,AMD宣布以全股份交易(all-stocktransaction)方式完成對賽靈思(Xilinx)的收購。英偉達自研CPU,在2022GTC大會上,NVIDIA宣布推出首款面向AI基礎設施和高性能計算的基于ArmNeoverse架構的數據中心專屬CPU——GraceCPU超級芯片。面向未來,海外大廠橫向布局不斷。大算力芯片走向異構超異構的三大要素資料:極術社區,華金證券研究所繪制資料:《AI計算邁入超異構時代》宋繼強,華金證券研究所繪制目錄02由專用走向通用,GPU賽道壁壘高筑產業化路徑顯現,全球AI競賽再加速?????????2.1AI技術賦能實體經濟面臨的瓶頸2.2ChatGPT的破圈?????????2.10生成式AI、邊緣AI技術即將步入成熟期2.11大模型是大算力和強算法結合的產物2.12AI芯片三劍客?2.19自動駕駛具備廣闊市場前景2.3ChatGPT的成功離不開預訓練大模型2.4預訓練模型的發展歷程2.13訓練端GPU擔綱2.5Transformer架構成主流2.14數據中心邁入“高算力”時代,兵家必爭2.15英偉達數據中心業務快速增長2.16自動駕駛研發兩大商業路線2.17自動駕駛實現的兩種技術路線2.18單車智能化推動算力升級加速2.6自監督學習與Transformer的結合2.7大模型的突現能力2.8參數量爆發式增長的ChatGPT2.9預訓練大模型,第三波AI發展的重大拐點全維智能化大時代,國產算力行則必至建議關注產業相關風險提示2.產業化路徑顯現,全球AI競賽再加速2.1AI技術賦能實體經濟面臨的瓶頸?

過去,絕大部分人工智能企業和研究機構遵循算法、算力和數據三位一體的研究范式,即以一定的算力和數據為基礎,使用開源算法框架訓練智能模型。而這也導致了當前大部分人工智能處于“手工作坊式”階段,面對各類行業的下游應用,AI逐漸展現出碎片化、多樣化的特點,也出現了模型通用性不高的缺陷。這不僅是AI技術面臨的挑戰,也限制了AI的產業化進程。隨著人工智能賦能實體經濟進入深水區,企業通常面臨數據資源有限、算力投資難度大、模型泛化能力差、高水平人才稀缺的發展瓶頸。人工智能發展的瓶頸問題資料:《人工智能:天使還是魔鬼》譚鐵牛,華金證券研究所2.

產業化路徑顯現,全球AI競賽再加速2.2

ChatGPT的破圈?

聊天生成型預訓練變換模型(ChatGenerativePre-trainedTransformer)簡稱ChatGPT,是OpenAI開發的人工智慧聊天機器人程序,于2022年11月推出,上線兩個月后已有上億用戶。?

ChatGPT目前仍以文字方式互動,而除了可以用人類自然對話方式來互動,還可以用于甚為復雜的語言工作,包括自動生成文本、自動問答、自動摘要等多種任務。ChatGPT突破1億用戶數所需時間對比ChatGPT介紹資料:滿投財經,華金證券研究所資料:cnbeta,華金證券研究所2.

產業化路徑顯現,全球AI競賽再加速2.3

ChatGPT的成功離不開預訓練大模型?

人工智能需要用大量的數據對其進行訓練,理論上來講,投喂數據越多、數據質量越高,模型效果就會越好。而預訓練

(Pre-trained

Models,PTMs),就是預先訓練好的模型,可以幫助人們降低模型創建和訓練的成本。預訓練大模型需要深度學習的算法,也需要大的數據、大的算力,做自監督學習(模型直接從無標簽數據中自行學習,無需標注數據),再面向不同的任務、在不同的應用場景里做少量任務數據進行遷移學習,進而應用于很多場景。?

ChatGPT能夠實現當前的交互,離不開OpenAI在AI預訓練大模型領域的積累。NLP模型開發領域的標準范式“pretrain+finetune”預訓練的起源與發展資料tawhale,華金證券研究所資料:阿里云開發者社區,華金證券研究所2.

產業化路徑顯現,全球AI競賽再加速2.4

預訓練模型的發展歷程預訓練模型的分類?

預訓練的研究最早起源于遷移學習。遷移學習的核心思想,即運用已有的知識來學習新的知識,通俗來說就是將一個預訓練的模型被重新用在另一個任務中。早期的預訓練模型主要基于有標簽數據。而在NLP領域,由于下游任務的多樣性以及數據標注的復雜性,導致無法獲得一個像ImageNet這樣大規模的有標簽數據,所以NLP領域嘗試使用自監督學習的方法來獲取預訓練模型,自監督學習的主要思想就是利用文本間的內在聯系為監督信號。?

2017年出現的Transformer結構,給NLP領域預訓練模型的發展帶來了絕大的突破。Transformer的成功,也誘使CV領域加入了自監督預訓練模型的賽道。如今,自監督預訓練已經成為當前人工智能研究的重點,幾乎所有的最新的PTM都是采用類Transformer結構與自監督學習的方法。資料:CSDN,華金證券研究所2.

產業化路徑顯現,全球AI競賽再加速2.5Transformer架構成主流?

2017年,谷歌團隊首先提出Transformer模型。該團隊將Transformer概括為一句話:“AttentionisAllYouNeed.”目前Transformer已經成為自然語言處理領域的主流模型,基于Transformer的預訓練語言模型更是成為主流。除了NLP

之外,Transformer

也逐漸成為很多基于序列的語音應用的主流AI模型,在很多場景中已取代RNN/LSTM,比如自動語音識別、語音合成等等?

Transformer受歡迎的主要原因是其架構引入了并行化,它利用了強大的TPU和并行訓練,從而減少了訓練時間。基于Transformer架構的應用基于Transformer架構的NLP模型規模資料:新浪,華金證券研究所資料:新浪,華金證券研究所2.

產業化路徑顯現,全球AI競賽再加速2.6

自監督學習與Transformer的結合?

自監督學習是從無標注數據中提取知識的一種手段,它能夠利用數據本身的隱藏信息作為監督,和無監督有非常相似的設置。由于自然語言很難標注且又存在大量未標注的句子,所以NLP領域的預訓練模型主要致力于自監督學習,進而大大促進了NLP領域的發展。?

預訓練模型成功的關鍵是自監督學習與Transformer的結合,具有代表性的工作是GPT和BERT系列模型。后續的其他預訓練模型都是這兩個經典模型的變體。近年來的預訓練模型家族資料:搜狐網,華金證券研究所2.

產業化路徑顯現,全球AI競賽再加速2.7

大模型的突現能力?

當擴展大型語言模型時,偶爾會出現一些較小模型沒有的新能力,這種類似于「創造力」的屬性被稱作「突現」能力。GPT-3的論文表明,語言模型執行多位數加法的能力對于從100M到13B參數的模型具有平坦的縮放曲線,近似隨機,但會在一個節點造成性能的飛升。?

初代GPT-3展示了三個重要能力:語言生成、上下文學習、世界知識。基本上三種能力都來自于大規模預訓練:在有3000億單詞的語料上預訓練擁有1750億參數的模型。GPT-3.5

的進化樹大模型的「突現」能力資料:《EmergentAbilitiesofLargeLanguageModels》JeffDean等,華金證券研究所資料:《拆解追溯GPT-3.5各項能力的起源》符堯,華金證券研究所2.

產業化路徑顯現,全球AI競賽再加速2.8

參數量爆發式增長的ChatGPT?

GPT模型的訓練需要超大的訓練語料,超多的模型參數以及超強的計算資源。2018年,OpenAI發布了生成式預訓練語言模型GPT,可用于生成文章、代碼、機器翻譯、問答等各類內容。GPT的參數量1.17億,預訓練數據量約5GB;2019年2月份發布的GPT-2的參數量15億,預訓練數據量40GB;2020年5月發布的GPU-3的參數量高達1,750億,預訓練數據量高達45TB。圖:ChatGPT與GPT

1-3的技術對比資料:ofweek,華金證券研究所2.

產業化路徑顯現,全球AI競賽再加速2.9

預訓練大模型,第三波AI發展的重大拐點?

深度學習時代,為了充分訓練深層模型參數并防止過擬合,通常需要更多標注數據喂養。在NLP領域,標注數據更是一個昂貴資源。預訓練從大量無標注數據中進行預訓練使許多NLP任務獲得顯著的性能提升。?

大模型通常是在大規模無標注數據上進行訓練,學習出一種特征和規則。基于AI大模型進行應用開發時,將大模型進行微調(在下游特定任務上的小規模有標注數據進行二次訓練)或者不進行微調,就可以完成多個應用場景的任務,實現通用的智能能力。預訓練大模型在海量數據的學習訓練后具有良好的通用性和泛化性,用戶基于大模型通過零樣本、小樣本學習即可獲得領先的效果,同時“預訓練+精調”等開發范式,讓研發過程更加標準化,顯著降低了人工智能應用門檻,成為AI走向工程化應用落地的重要手段。訓練大模型“預訓練+精調”模式預訓練大模型的基本原理資料:IDC,華金證券研究所資料:百度大腦,華金證券研究所2.

產業化路徑顯現,全球AI競賽再加速2.10

生成式AI、邊緣AI技術即將步入成熟期?

根據Gartner發布的2022年Gartner人工智能(AI)技術成熟度曲線(HypeCycle?)顯示,在多項人工智能技術中,生成式AI、合成數據、邊緣AI等當下均處于期望膨脹期,預計2-5年達到高峰期。人工智能發展歷程人工智能技術成熟度曲線資料:《人工智能標準化白皮書》,華金證券研究所資料:Gartner,華金證券研究所2.

產業化路徑顯現,全球AI競賽再加速2.11

大模型是大算力和強算法結合的產物?

ChatGPT等AI應用需要基于大量模型訓練,以GPT-3模型為例,其存儲知識的能力

于1750億參數,訓練所需的算力高達3650PFLOPS-day。據Lambda實驗室測算,如果采用英偉達V100GPU和當時最便宜的云服務進行計算,GPT-3訓練一次需要355個GPU年(一塊GPU運行355年的運算量)、花費460萬美元。?

美國市場研究機構TrendForce在2023年3月1日的報告中測算稱,處理1800億個參數的GPT-3.5大模型,需要的GPU芯片數量高達2萬枚。未來GPT大模型商業化所需的GPU芯片數量甚至超過3萬枚。在2022年11月,英偉達在官網公告中提到,微軟Azure上部署了數萬枚A100/H100高性能芯片。這是第一個采用英偉達高端GPU構建的大規模AI算力集群。資料:騰訊云,華金證券研究所2.

產業化路徑顯現,全球AI競賽再加速2.12AI芯片三劍客?

AI芯片(GPU/FPGA/ASIC)在云端同時承擔人工智能“訓練”和“推斷”過程,在終端主要承擔“推斷”過程,從性能與成本來看ASIC最優。ASIC作為專用芯片,算力與功耗在通用芯片GPU具有絕對優勢,但開發周期較長,落地較慢,需一定規模后才能體現成本優勢。FPGA可以看做從GPU到ASIC重點過渡方案。相對于GPU可深入到硬件級優化,相比ASIC在算法不斷迭代演進情況下更具靈活性,且開發時間更短。圖:AI芯片三劍客GPUFPGAASIC特性圖形處理器,圖像和圖形相關運算工作

現場可編程門陣列,可以重構電路的芯

專用集成電路,應特定用戶要求和特定的微處理器片,一種硬件可重構的體系結構電子系統需要而設計制造的集成電路性能靈活性成本較高較低較高高較低高較高低低高低低功耗較低較高同構性優點較低可以支撐大量數據的并行計算,適合對

可無限次編程,延時性比較低,同時擁

功耗低,適合量產數據密集型的應用進行計算和處理

有流水線并行和數據并行、靈活性高缺點功耗高,管理控制能力弱,不具備可編

開發難度大、只適合定點運算、價格比

研發成本高昂,開發周期長,靈活性低程性

較昂貴資料:華金證券研究所整理2.

產業化路徑顯現,全球AI競賽再加速2.13

訓練端GPU擔綱?

雖然AI芯片目前看有三大類,但是基于幾點原因,我們判斷GPU仍將是主流:1、Transformer架構是最近幾年的主流,該架構最大的特點之一就是能夠利用分布式GPU進行并行訓練,提升模型訓練效率;2、ASIC的算力與功耗雖然看似有優勢,但考慮到AI算法還是處于一個不斷發展演進的過程,用專用芯片部署會面臨著未來算法更迭導致芯片不適配的巨大風險;3、英偉達強大的芯片支撐、生態、算法開源支持。不同場景對于不同類型AI芯片的占比預測2018年全球AI芯片市場結構云端訓練芯片49%終端推理芯片30%云端推理芯片21%資料:賽迪顧問,華金證券研究所資料:賽迪顧問,華金證券研究所2.

產業化路徑顯現,全球AI競賽再加速2.14

數據中心邁入“高算力”時代,兵家必爭?

工信部發布的《新型數據中心發展三年行動計劃(2021-2023年)》明確了算力內涵并引入測算指標FLOPS,對數據中心發展質量進行評價,指出到2023年底,總算力規模將超過200EFLOPS,高性能算力占比將達到10%,到2025年,總算力規模將超過300EFLOPS。?

由于GPU比CPU更適合處理企業數據中心和超大規模網絡中AI和機器學習所需的許多計算,數據中心對GPU的需求是一個不斷增長的機會。2020-2025年全球AI服務器行業市場規模及增速(單位:億美元)2016-2020中國算力結構變化資料:信通院,華金證券研究所資料:華經產業研究院,華金證券研究所2.

產業化路徑顯現,全球AI競賽再加速2.15

英偉達數據中心業務快速增長?

英偉達有四大產品線平臺,包括游戲業務、數據中心、專業顯示和汽車業務。2023財年第一季度,英偉達游戲業務收入較上年同比增長31%,環比增長6%;數據中心收入同比增長83%,環比增長15%,主要是由用于訓練和推理的GPU銷售所驅動的;專業顯示的收入同比增長67%,環比下降3%;汽車收入同比下降10%,環比增長10%,同比下降由于汽車制造商供應限制等因素導致。圖:英偉達按下游市場劃分銷售占比(百萬美元)100%2985057006315361,1625667676413587775586984877833207503391,11890%80%70%60%50%40%30%20%10%0%1,0532,11111301,21293483583019326,696293210,6132,9837,556406020162818201555132017624620185,51820197,759202012,46220215,6622022H1Gaming

Data?Center

Pro?Visualization

Automotive

OEM?&?Other資料:wind,華金證券研究所2.

產業化路徑顯現,全球AI競賽再加速2.16

自動駕駛研發兩大商業路線?

自動駕駛研發有兩大路線:以傳統車企為代表的漸進式路線,從L1逐步升級到L5;以科技公司為代表的跨越式路線,跳過駕駛輔助系統,直接從高度自動駕駛L4系統切入,首先會在一些相對較易的商用場景率先落地。汽車制造商和互聯網企業的自動駕駛技術發展路徑資料:亞洲新能源汽車網,華金證券研究所2.

產業化路徑顯現,全球AI競賽再加速2.17

自動駕駛實現的兩種技術路線?

從商業場景來看,實現的自動駕駛的路徑主要有兩條,一是單車智能,即通過攝像頭、

等傳感器以及高效準確的算法,賦予車輛自動駕駛的能力;二是車路協同,即主要通過5G、高精地圖,來感知路況從而具備無人駕駛功能。?

從當下技術角度來看,無論單車智能還是車路協同都存在不足之處,兩者結合可以提升自動駕駛安全。但是從商業角度,車路協同需要大量的、長期的基礎設施建設,車企目前主要還是選擇單車智能的技術路線,而且這樣也能滿足對于自動駕駛技術的自主可控。車路協同系統架構資料:中國新通信,華金證券研究所2.

產業化路徑顯現,全球AI競賽再加速2.18

單車智能化推動算力升級加速?

自動駕駛的完整流程包括感知、決策、控制,自動駕駛域的算法一般也被劃分感知算法、融合算法和執行算法三種。隨著車輛自動駕駛等級的提升,對于車輛的主動性要求也大幅度提升,自動駕駛算法的難度就在于在所面對場景的多樣性和復雜性。?

由于不依賴人工智能算法實現基于機器的環境感知和規劃決策,L1-L2級傳統汽車不需要太大的車載算力,因此多采用小算力、微控制器的解決方案。從L2級開始,尤其是L3級以上的自動駕駛汽車需要裝備大算力芯片支撐感知、決策算法的高效運行。根據地平線公司的預測,自動駕駛每提高一級,算力就增加一個數量級。L2級別大概需要2個TOPS的算力,L3需要24個TOPS,L4為320TOPS,L5為4000+TOPS。自動駕駛核心技術不同等級自動駕駛對于算力的需求資料:51CTO,華金證券研究所資料:地平線,華金證券研究所2.

產業化路徑顯現,全球AI競賽再加速2.19

自動駕駛具備廣闊市場前景?

IDC最新發布的《全球自動駕駛汽車預測報告(2020-2024)》數據顯示,2024年全球L1-L5級自動駕駛汽車出貨量預計將達到約5425萬輛,2020至2024年的年均復合增長率(CAGR)達到18.3%;L1和L2級自動駕駛在2024年的市場份額預計分別為64.4%和34.0%。中國仍將是全球汽車工業的主要市場,ICV的報告預計,到2026年中國汽車銷售市場約占到全球的40.12%。全球自動駕駛汽車出貨量及增長率預測(2020-2024)全球自動駕駛汽車出貨量及增長率預測(2020-2024)資料:IDC,華金證券研究所資料:ICV,華金證券研究所目錄03由專用走向通用,GPU賽道壁壘高筑產業化路徑顯現,全球AI競賽再加速全維智能化大時代,國產算力行則必至??????????3.1全球數據中心負載任務量快速增長3.2全球計算產業投資空間巨大3.3預訓練大模型對于GPU的需求3.4國內市場需求將保持高增長3.5云計算及云部署方式??????????3.11云計算產業鏈?????????3.21摩爾定律發展趨緩3.12集成顯卡與獨立顯卡市場份額3.13獨立顯卡英偉達一家獨大3.22Chiplet技術潛力大3.23Chiplet技術發展歷程3.14性能強大的H1003.24行業巨頭推動,產業加速落地3.25采用Chiplet技術的產品不斷出現3.26算力兩大演進方向:更大算力&更多樣化應用3.27存量替代與增量成長并存3.28高吞吐量離不開高速傳輸3.29光通信前景可期3.15國產廠商兩條發展路徑:GPU和GPGPU3.16先求有,再求好3.6不同云部署方式的市場占比3.7企業上云持續向細分行業滲透3.8從“資源上云”邁入“深度用云”3.9信創從試點走向推廣3.17生態先兼容主流,未來將走向自建3.18國產之路已開啟,部分國產GPU設計廠商列表3.19GPU發展離不開全球產業鏈的支撐3.20制程升級對于算力芯片性能提升具有較高貢獻度3.10公有云主要參與廠商建議關注產業相關風險提示3.全維智能化大時代,國產算力行則必至3.1

全球數據中心負載任務量快速增長?

大規模張量運算、矩陣運算是人工智能在計算層面的突出需求,高并行度的深度學習算法在視覺、語音和自然語言處理等領域上的廣泛應用使得計算能力需求呈現指數級增長。根據IDC的預測,從2018年至2025年,全球的數據增長量達到5倍以上,將從2018年的32ZB增至2025年的175ZB。中國將在2025年以48.6ZB的數據量及27.8%的占比成為全球最大的數據匯集地。?

根據Cisco的預計,2021年全球數據中心負載任務量將超過2016年的兩倍,從2016年的不到250萬個負載任務量增長到2021年的近570萬個負載任務量。2010年至2025年全球數據量增長情況2016年-2021年數據中心負載任務量變化資料:IDC,華金證券研究所資料::CiscoGlobalCloudIndex,華金證券研究所3.全維智能化大時代,國產算力行則必至3.2

全球計算產業投資空間巨大?

根據《鯤鵬計算產業發展白皮書》內容顯示,數字化浪潮正重塑世界經濟格局,數字經濟正在成為全球可持續增長的引擎。IDC預測,到2023年數字經濟產值將占到全球GDP的62%,全球進入數字經濟時代。新的計算產業鏈將推動全球計算產業快速發展,帶動全球數字經濟走向繁榮。?

IDC預測,到2023年,全球計算產業投資空間1.14萬億美元。中國計算產業投資空間1043億美元,接近全球的10%,是全球計算產業發展的主要推動力和增長引擎。鯤鵬計算產業定義2023年全球計算產業投資額(美元)資料:鯤鵬計算產業發展白皮書,華金證券研究所資料:鯤鵬計算產業發展白皮書,華金證券研究所3.全維智能化大時代,國產算力行則必至3.3

預訓練大模型對于GPU的需求?

根據TrendForce的估計,2020年,GPT模型處理訓練數據所需的GPU數量達到了20000左右。展望未來,GPT模型(或ChatGPT)商業化所需的GPU數量預計將達到30000個以上。這些均使用英偉達的A100GPU作為計算基礎。?

根據中關村在線的新聞顯示,目前英偉達A100顯卡的售價在1.00~1.50萬美元之間。英偉達還將A100作為DGXA100系統的一部分進行銷售,該系統具有八塊A100,兩塊AMDRome7742CPU,售價高達199,000美元。英偉達數據中心GPU對比DGXA100組件資料:cnbeta,華金證券研究所資料:foresine,華金證券研究所3.全維智能化大時代,國產算力行則必至3.4

國內市場需求將保持高增長?

人工智能領域的應用目前處于技術和需求融合的高速發展階段,在運算加速方面逐漸形成了以GPGPU解決方案為主的局面。根據前瞻產業研究院的數據,未來幾年內,中國人工智能芯片市場規模將保持年均40%至50%的增長速度,到2024年,市場規模將達到785億元。?

聚集強大人工智能算力的智算中心是中國數字經濟高速發展的產物,是一種新型的公共基礎設施。國家已經出臺了相關政策,并把智算中心列為“新基建”。東數西算樞紐節點區域特點及布局思路中國人工智能芯片市場規模(億元)資料:海光信息招股書,華金證券研究所資料:前瞻產業研究院,華金證券研究所3.全維智能化大時代,國產算力行則必至3.5

云計算及云部署方式?

云計算廣義的來說是廠商通過

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論