人工智能行業市場前景及投資研究報告:GenAIAI云計算新范式規模效應AIInfraASIC芯片_第1頁
人工智能行業市場前景及投資研究報告:GenAIAI云計算新范式規模效應AIInfraASIC芯片_第2頁
人工智能行業市場前景及投資研究報告:GenAIAI云計算新范式規模效應AIInfraASIC芯片_第3頁
人工智能行業市場前景及投資研究報告:GenAIAI云計算新范式規模效應AIInfraASIC芯片_第4頁
人工智能行業市場前景及投資研究報告:GenAIAI云計算新范式規模效應AIInfraASIC芯片_第5頁
已閱讀5頁,還剩52頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

告AI云計算新范式:規模效應+AI

Infra+ASIC芯片——GenAI系列報告之五十四2025.03.281重點報告回顧?

我們近期已發布多篇深度報告,圍繞重點標的AI布局及進展,從底層硬件至上層應用進行全方位梳理:1.

騰訊AI詳細梳理:《騰訊控股(00700)點評:AI應用+云業務有望迎來價值重估》2.

阿里云深度:《阿里巴巴-W(09988)深度:AI開啟阿里云新成長(阿里巴巴深度之三暨GenAI系列報告之39)》3.

字節AI詳細梳理:《豆包大模型升級,字節AI產業鏈梳理——

GenAI之四十四》4.

金山云深度:《金山小米生態核心云廠,AI+智駕乘風而上》5.

美股云行業季度總結:《云廠Capex指引仍樂觀,AI應用ROI路線清晰或將迎來催化——美股云計算和互聯網巨頭24Q4總結》、《北美云廠Capex加速,AI降本增效初步體現——

美股云計算和互聯網巨頭24Q3總結》6.

谷歌深度:《谷歌:AI征途換檔提速,云業務驅動成長》7.

META深度:《Meta

Platforms

(META):廣告推薦應用+開源模型+算力,AI布局解析》8.

博通深度:《博通:軟硬一體的AI賣鏟人》9.

AI應用深度:2024年總結-《AI應用:商業化初露鋒芒——AI應用深度之二暨GenAI系列報告之三十九》、2023年總結-《AI應用:從生產力工具到交互體驗升級——生成式AI2024年投資策略》

證券研究報告2核心觀點:???AI云計算新范式:規模效應+AI

Infra能力+算力自主化。云計算在AI收入拉動下營收增速回暖、Capex增長加速已成為市場共識。(詳見此前相關報告總結。)但對于AI云時代競爭格局以及云廠利潤率還有分歧,也是本報告的重點。1)更強的規模效應;2)AI

infra能力;3)算力自主化為云廠中長期降本方向。規模效應:更高的初始投入,更高的算力利用率。(1)AI云更高的資本密集度。(2)AI服務器/網絡設備使用年限更短、成本占比明顯提升。多租戶+多場景(含自有場景)+自有模型平抑需求峰谷,降低產能空置率、攤薄單位計算成本,實現更高的ROI。以騰訊、阿里、谷歌等為代表的大型云廠商/互聯網巨頭具備龐大的內部工作負載稟賦+AI大模型的優勢,有望降低單位計算成本。AI

Infra:實現計算性能挖潛。AI

Infra定位于算力與應用之間的“橋梁”角色的基礎軟件設施層,體現在:1)硬件集群的組網構建、算力調度系統;2)大模型+AI開發工具,增強大模型對于算力計算效率的挖潛;3)針對應用的定向優化等工作。盡管模型開源,但針對特定模型推理的優化能力、AI工具豐富度差異仍會放大云廠對同一開源模型優化后的推理成本差距。以谷歌、字節火山引擎、阿里云、DeepSeek等為代表的廠商已在AI

Infra領域發布訓練/推理側工具。?算力自主化:海外ASIC芯片趨勢啟示。強大的工程能力或有望彌補ASIC和GPU硬件生態差距。ASIC架構:基于脈動陣列的定制架構為重要路線;ASIC開發生態:谷歌和AWS均基于XLA,Meta

MTIA

v2軟件堆棧基于Triton。ASIC芯片的確定性來自:(1)供給端,芯片設計制造專業分工:降低ASIC與GPU在代工制造、后端封裝設計上的差距,ASIC輔助設計博通、邁威爾等崛起。(2)需求端:牧本擺動,有望從標準化到定制化:架構創新,催生新的定制化芯片,并再度基于新的芯片進行算法創新升級,以實現芯片性價比優勢;商業上可行:具備龐大算力需求的云廠可覆蓋開發定制化芯片的成本。ASIC制造模式:云廠前端設計+IC輔助設計支持。??推薦(1)互聯網云計算:騰訊控股,阿里巴巴,金山云;谷歌、微軟、META、亞馬遜;(2)ASIC輔助設計:博通。風險提示:內容和互聯網平臺監管環境變化風險;大模型性能進步不及預期;AI應用落地進展不及預期風險

證券研究報告3主要內容1.

AI云計算新范式:規模效應+AI

Infra能力+算力自主化2.

規模效應:資本密集度+多租戶+內部負載的削峰填谷3.

AIInfra:實現計算性能挖潛4.

算力自主化:海外ASIC芯片趨勢啟示5.

重點標的:互聯網云廠+ASIC芯片6.

重點公司估值表及風險提示41.1

云計算:計算資源公共化,AI云聚焦于AI算力+工具?

云計算是將計算資源變成可租用的公共服務,強調集中管理和動態分配虛擬化計算資源,以按需自助服務、彈性擴展和按使用量計費為核心特征的標準化服務模式,實現相對企業自建數據中心的性價比優勢。?

傳統云計算指基于CPU服務器,主要為傳統工作負載提供支持。AI云的區別在于,硬件平臺基于GPU服務器,主要提供包括MaaS層在內的各環節AI工具及服務。圖:云計算按服務方式的分層基礎設施即服務平臺即服務大模型即服務MaaS(AI云提供)軟件即服務IaaSPaaSSaaS應用程序數據信息應用程序數據信息應用程序數據信息應用程序數據信息云用戶管理大模型API/開源模型大模型API/開源模型運行環境中間件運行環境中間件運行環境中間件運行環境中間件云服務商全棧管理操作系統數據庫操作系統數據庫操作系統數據庫操作系統數據庫虛擬化軟件服務器虛擬化軟件服務器虛擬化軟件服務器虛擬化軟件服務器云服務商提供網絡設備網絡設備網絡設備網絡設備存儲設備存儲設備存儲設備存儲設備機房基礎設施機房基礎設施機房基礎設施機房基礎設施

證券研究報告

資料:CSDN,申萬宏源研究51.1

云計算:AI時代云需求明確提升,重點關注未來競爭?

AI對于算力基礎設施的需求明確提升,各云廠在AI云收入拉動下營收增速回暖、Capex將增長加速已成為市場共識。?

本報告則旨在聚焦于未來的AI云競爭,在規模效應、AI

Infra能力、算力自主化三大層面討論AI云競爭格局變化和未來利潤率趨勢。表:國內及海外主要云廠商營收增速回暖(單位:美股標的為億美元,其他標的為億人民幣)公司2023年云收入2023年YoY云收入占比

2024年云收入

2024年YoY云收入占比

云經營利潤率亞馬遜微軟智能云谷歌阿里巴巴金山云中國移動中國聯通中國電信9087973319947083351097213%16%35%11%11%100%8%1,0769564321,135781,00468619%20%31%8%10%20%17%17%17%37%17%12%100%10%18%22%37%40%以上14%26%2%-14%66%42%68%9%-6%14%19%1,139表:國內及海外主要云廠商Capex同比增速大幅提升公司23Q323Q424Q124Q224Q324Q4微軟亞馬遜Meta70%-24%-30%11%-57%237%61%69%-12%-15%45%28%33%90%79%5%-2%91%221%226%57%78%54%36%91%75%121%-22%79%81%41%97%91%94%谷歌62%30%阿里巴巴騰訊控股百度240%114%-53%259%386%-36%

證券研究報告資料:各公司財報,申萬宏源研究61.2

AI云新范式:更多競爭要素,看好互聯網云/大型云?

對于云計算而言,云服務工具/資源的豐富度、計算資源的利用率為云廠商盈利核心。?

相對傳統云,AI云計算出現新范式:云技術重新進入快速迭代階段、資本更為密集,對云廠商的資本密集度、產能利用率、云基礎設施能力、工具和生態的豐富度、自研芯片布局等維度均提出新要求。?

AI云實現盈利的門檻將進一步提升,看好擁有技術能力、云多租戶、內部負載規模效應的互聯網云/大型云。圖:AI云相對傳統云,在資本開支、產能利用率、技術能力等方面提出更高要求核心競爭要素傳統云計算AI云計算資本密集型,以CPU服務器為主2023年海外大型云/互聯網巨頭Capex總和為1534億美元以GPU服務器為主,單集群Capex更龐大2024年海外大型云/互聯網巨頭Capex總和為2504億美元規模效應-資本密集度IT設備成本占比約為40%-50%,基建、運維占比相對高,對產能空置有一定容忍度IT設備成本占比約為60%-70%,折舊壓力更大,對產能空置容忍度很低,擁有內部負載/自研大模型/云多租戶十分重要規模效應-產能利用率AI云的基礎設施能力仍在快速迭代,且各廠商能力差異大,體現在大模型推理成本等領域AIInfra-云基礎設施能力傳統云基礎設施強調穩定性及服務,虛擬化、容器等技術已趨于成熟AI

Infra-工具/生態豐富度主要提供數據分析工具、Devops平臺等除傳統工具外,競爭格局還受到云廠商提供的AI工具豐富度影響服務,工具豐富度算力自主化自研ASIC芯片主要云廠商亞馬遜、阿里巴巴、谷歌等均主要云廠商谷歌、亞馬遜、阿里巴巴等均在針對特定工作負載自研AI

ASIC芯片在自研CPU等芯片資料:申萬宏源研究

證券研究報告7注:本表內海外大型云/互聯網巨頭包括微軟、亞馬遜、谷歌、META1.2

AI云ROI:更強的規模效應、AI

Infra能力、算力自主化?

AI云利潤率將由三大方向影響,不同能力、規模間的AI云利潤率或將拉開較為明顯的差距。?

1)需求側-規模效應提升算力利用率:增加工作負載保證集群滿負載、實現算力需求削峰填谷;?

2)供給側-AI

Infra能力提升硬件計算效能:對應用程序/大模型至硬件間的組網、軟件算法進行優化;?

3)長期供給側-算力自主化降低硬件成本:中長期維度降本途徑。圖:AI云的ROI主要由規模效應、AI

Infra優化、算力自主化帶來應用程序-AI云工程棧規模效應AIInfra能力算力自主化應用程序-算力負載前提條件

軟件技術、業務運營導向軟硬件技術、研發導向硬件技術、研發導向規模效應:提升產能利用率?

自研/投資大模型?

云多租戶需求量MaaS/PaaS算力平臺?

ASIC芯片設計能力?

開發生態構建能力核心因素降本方式?

AIInfra工程能力?

龐大而穩定的AI內部工作負載AI

Infra能力:計算效能挖潛提升產能利用率:削峰填谷,平穩地工作負載,攤薄折舊成本提升計算效能,提升同等芯片在單位時間內可完成的訓練/推理任務量降低硬件采購成本,提升單位資本開支可獲取的算力GPU/ASIC硬件平臺算力自主化:自研ASIC芯片

證券研究報告資料:申萬宏源研究8主要內容1.

AI云計算新范式:規模效應+AI

Infra能力+算力自主化2.

規模效應:資本密集度+多租戶+內部負載的削峰填谷3.

AIInfra:實現計算性能挖潛4.

算力自主化:海外ASIC芯片趨勢啟示5.

重點標的:互聯網云廠+ASIC芯片6.

重點公司估值表及風險提示92.1

資本密集度:構建AI云集群的支出量級仍在不斷擴大?

海外:根據各企業指引,2024年谷歌、微軟、亞馬遜、META的Capex總計2504億美元;若假設2025年(即FY25Q3-FY26Q2)微軟保持FY25Q2的資本開支水平,則四家巨頭的Capex預計將接近3400億美元,同比增速有望達到35%。隨著各家Capex已達到較高基數水平,預計26年增速或有所放緩。?

國內:阿里巴巴指引25-27年資本開支將達到3800億元,年均將接近1300億元;騰訊指引Capex將占營收的低兩位數百分比(Low

Teens)。圖:海外主要互聯網云巨頭資本開支快速增長圖:國內主要互聯網云巨頭資本開支快速增長(億美元)微軟AmazonMetaGoogle合計同比(億人民幣)阿里騰訊百度30090%80%70%60%50%4003503002502502001501005040%

20030%20%10%0%1501005000-10%18Q1

18Q3

19Q1

19Q3

20Q1

20Q3

21Q1

21Q3

22Q1

22Q3

23Q1

23Q3

24Q1

24Q3CY2022Q3CY2023Q1CY2023Q3CY2024Q1CY2024Q3

證券研究報告資料:谷歌、微軟、亞馬遜、META財報,Bloomberg,申萬宏源研究102.1

資本密集度:AI視頻/Agent到來將提升算力需求量級?

AI應用即將走向AI

Agent、視頻、3D等模態,對算力的消耗量級將進一步提升:文字交互的推理單次請求目前僅為數百Tokens的計算量,但AI

Agent的復雜任務規劃、多步推理,以及視頻和3D工具的單次推理,消耗Tokens的量級將相對文字交互明確提升。?

此外,AI有望拉動國內企業上云需求,進一步帶動云計算Capex提升。表:圖片/視頻生成及AIAgent預計將帶來更高量級算力需求功能文字對話圖片生成視頻生成模型價格具體消耗谷歌輸入:0.1美元/百萬Tokens;4字符/Token,100Tokens大約相當于60-80英文單詞,每輪對話生成300個單詞,則消耗大約500TokensGemini2.0Flash

輸出:0.4美元/百萬Tokens谷歌

Imagen3谷歌

Veo2生成圖片:0.04美元/圖片生成視頻:0.5美元/s按同等價格算約等同于10萬Tokens文字輸出算力8s視頻價格為4美元,按同等價格算約等同于1000萬Tokens文字輸出算力越復雜的任務需要的大模型推理步數更多。AI

Agent完成某一簡單代碼開發需要約20步,則算力消耗為單步推理的20倍以上(多步推理還需考慮狀態維持開銷、動態規劃損耗等算力消耗),復雜代碼開發則需要更多推理步數。AI

Agent基于基礎大模型參照文字對話消耗3D模型生成Meshy生成模型+紋理:0.4美元/個按同等價格算,約等同于100萬Tokens文字輸出算力

證券研究報告資料:谷歌、Meshy官網,申萬宏源研究112.2

產能利用率:AI云IT設備折舊壓力大,空置容忍度更低?

對比傳統云計算,AI云廠將面臨更大的折舊壓力,利潤率將對產能利用率更為敏感,將形成更強規模效應。?

1)AI云的IT設備在建設成本的占比提升:AI服務器+網絡設備折舊周期更短,通常折舊年限在5-6年,而基礎設施折舊年限通常超過15年;短折舊項占比更高,AI云廠面臨更大的折舊壓力。?

2)AI服務器實際折舊周期更短:不同于發展成熟的CPU,GPU/ASIC仍處于高速更新迭代階段,可能加速折舊。以亞馬遜FY24Q4財報為例,重新將部分IT設備折舊年限從6年縮短至5年。表

:折舊期限更短的IT設備在自建AIDC成本占比重中更高,產能空置的容忍度大幅降低典型傳統數據中心建設成本占比30%-40%典型AI數據中心建設成本占比25%-35%基礎設施IT設備40%-50%60%-70%服務器/IT設備:存儲及網絡/IT設備:運維及人工60%-70%30%-40%80%-90%10%-20%10%-20%5%-10%表

:FY24Q4亞馬遜縮短部分服務器及網絡設備折舊年限至5年,季度折舊攤銷成本環比加速增加單位:百萬美元

3Q22A4Q22A1Q23A2Q23A3Q23A4Q23A1Q24A2Q24A3Q24A4Q24A亞馬遜QoQ谷歌103273933279021301208117.0%360211123-7.9%2635115894.2%28247.2%38749.2%26233.9%121314.7%317112.3%39211.2%28589.0%131148.1%33164.6%595952.0%31349.7%11684-10.9%34132.9%120383.0%37088.6%63805.9%36377.8%1344211.7%3,9857.5%1563116.3%4205QoQ微軟-8.4%3648-26.8%35495.5%60271.1%73836827QoQMETAQoQ30.8%2329-2.7%252415.7%4027-7.5%446033747.7%9.3%8.4%10.7%10.8%資料:谷歌、微軟、亞馬遜、META財報,Bloomberg,申萬宏源研究

證券研究報告12注:微軟的折舊中包含收購暴雪動視后的無形資產折舊等2.2

產能利用率:短期GPU供不應求利潤率向好,供需平衡后產能利用率影響將凸顯?

AI云計算需求供不應求,拉動云廠營業利潤率自23Q3后明確回暖。H100等GPU租賃價格保持在較高水平,為核心云廠帶來了較為豐厚的投資回報率;此外北美云廠疊加北美宏觀經濟從23Q3后從悲觀預期中逐漸修復。?

盡管當前云廠營業利潤率對折舊成本抬升仍不敏感,但仍需關注,隨著臺積電COWOS產能逐漸釋放,GPU將從緊缺逐漸轉向平衡,GPU租賃價格或有所回落,屆時云廠AI算力產能利用率對利潤率影響將更明確體現。表

:AI算力供不應求+需求回暖,主要云廠利潤率持續提升后仍保持較高水平單位:億美元CY23Q174.54CY23Q280.31CY23Q384.11CY23Q491.92CY24Q195.74CY24Q2103.4728.8%11.3%262.8118.7%35.5%35.0%237.8519.6%CY24Q3113.5335.0%17.1%274.5219.1%38.1%34.0%240.9220.4%43.6%CY24Q4119.5530.1%17.5%287.8618.9%36.9%31.0%255.4418.7%42.5%營收同比增速營業利潤率營收谷歌云28.1%2.6%28.0%4.9%22.5%3.2%25.7%9.4%28.4%9.4%213.5415.8%24.0%221.4012.2%24.2%230.5912.3%30.3%30.0%200.1318.5%44.5%242.0413.2%29.6%31.0%215.2520.1%250.3717.2%37.6%35.0%221.4121.4%亞馬遜AWSAzure同比增速營業利潤率營收增速營收182.44198.89微軟智能云同比增速營業利潤率營收(億人民幣)185.82251.23276.48280.66255.95265.49296.10317.42阿里云營收YoY-2.1%2.1%4.1%1.5%2.3%5.1%2.6%8.4%3.4%5.6%5.9%8.8%7.1%9.0%13.1%9.9%EBITAMargin資料:谷歌、微軟、亞馬遜、阿里巴巴財報,Bloomberg,申萬宏源研究

證券研究報告13注:微軟智能云業務在Azure之外還包括服務器產品等其他業務2.3

如何實現規模效應?多租戶+內部負載均衡算力需求?

對于大模型/云廠商而言,應用訪問需求在日內呈現明顯周期性和波動性:1)日間算力需求高峰期:盡可能實現訪問請求量相對穩定減少波動性,避免峰值需求過高偏離可服務量,擁有云多租戶/大規模用戶的AI應用至關重要。2)夜間算力需求低谷期:盡可能增加時效性要求偏低的任務負載,平抑需求周期性。圖:DeepSeek應用推理節點數量按需彈性變化,日間需求平穩并跑滿產能,夜間實現彈性調整夜間算力彈性調整:DeepSeek動態調整節點數量降低夜間GPU使用量日內需求穩定并發:龐大的用戶體量保持實際訪問量接近峰值可服務訪問量,減少波動性

證券研究報告資料:知乎@DeepSeek,申萬宏源研究142.3

如何實現規模效應?多租戶+內部負載均衡算力需求?

云多租戶/大規模AI應用平抑波動性:以互聯網云為代表的云廠,對AI布局較早并已吸引眾多AI初創公司客戶,旗下擁有用戶規模較大的AI應用(豆包、騰訊元寶)以及內部AI負載,可實現日內需求的穩定性。?

內部負載調度均衡平抑周期性:互聯網云廠擁有較為旺盛的非實時算力需求,包括大模型/多模態工具/推薦系統的訓練迭代需求、數據分析處理需求等,可以運行于算力需求低谷期,可平抑需求的周期性。表:多租戶/應用+非實時內部負載將幫助AI云算力實現削峰填谷整體需求日間需求波動夜間需求填補較長時間維度內對客戶需求的準確估算擁有云多租戶、自有業務的非實時AI算力需求對AI云的要求擁有云多租戶、大規模AI應用由于夜間推理訪問量較少,1)可運行時效性要求較低的AI工作負載,包括模型訓練、離線推理、推薦系統訓練等,填補夜間算力空閑時間。2)可通過大幅降價吸引云租戶業績運行工作負載。實際滿足算力需求的大數定律,擁有云多租戶、應用用戶數量大的AI應用,可以保持在大部分時間段的負載相對穩定,而租戶、應用用戶少的情況下更可能出現的需求波動性,導致算力空載。根據云客戶或自身需提升產能利用率

求設計集群規模,減方式少因租戶不足而帶來的產能空置

證券研究報告

資料:申萬宏源研究152.4

互聯網云:閉源大模型將影響云競爭格局、算力需求量?

閉源模型仍為主要模式,云廠商可通過自研大模型+投資大模型廠商形成模型獨占,獲取更大市場份額,增加云客戶數量、提升對于云廠的算力需求量。海外TOP3閉源廠商(OpenAI-微軟+甲骨文、谷歌、Anthropic-亞馬遜)+以阿里為代表國內大模型云廠。?

但開源模型亦逐漸走向繁榮,一定程度上縮小大模型能力差距對云廠競爭格局的影響力。DeepSeek接力META的Llama系列大模型,領導開源生態逐漸走向繁榮,此外阿里、谷歌等廠商也開源部分模型構建開發者生態,預計閉源與開源兩大路徑將共存。表

:主要大模型性能排名Arena

Score排名模型Grok-3-Preview-02-24GPT-4.5-PreviewArena分數1412141114021384138013771363135713521336131813111309130512711269模型廠商xAIOpenAIxAI谷歌谷歌OpenAIDeepSeek谷歌OpenAI阿里巴巴DeepSeek智譜AIAnthropic階躍星辰騰訊是否開源閉源閉源閉源閉源閉源閉源開源閉源閉源閉源開源閉源閉源閉源閉源開源12345678910131416182834chocolate

(EarlyGrok-3)Gemini-2.0-Flash-Thinking-Exp-01-21Gemini-2.0-Pro-Exp-02-05ChatGPT-4o-latest

(2025-01-29)DeepSeek-R1Gemini-2.0-Flash-001o1-2024-12-17Qwen2.5-MaxDeepSeek-V3GLM-4-Plus-0111Claude3.7SonnetStep-2-16K-ExpHunyuan-Large-2025-02-10Meta-Llama-3.1-405B-Instruct-bf16Meta資料:Hugging

Face,申萬宏源研究

證券研究報告16注:時間截止2025年3月,并未包括字節跳動與百度等公司的大模型2.4

互聯網云:龐大的工作負載+潛在AI應用將攤薄成本?

互聯網云公司擁有龐大的可遷移至AI芯片的內部工作負載,以META為例,2022年開始將推薦系統負載轉移至GPU服務器上,此外搜索引擎、大模型訓練推理、潛在爆款AI應用均可運行于AI芯片,具備規模效應。?

內部負載/全球性應用可調節算力芯片工作峰谷。1)任務調整:將時效性要求更低的負載(例如大模型/推薦系統訓練迭代、數據分析處理)用于閑時。2)全球布局的企業,日間與夜間工作負載的時差可以被平抑。表:國內互聯網云廠商擁有龐大工作負載,可有效攤薄成本AI芯片布局大模型及AI開發框架已推出的核心AI應用可在AI芯片上運行的內部工作負載??云計算:火山引擎推薦系統:應用矩陣抖音、TikTok、剪映、今日頭條等的AI推薦算法??大模型:豆包;多模態BuboGPT開發平臺:Coze

AI平臺???AI視頻工具:即夢外購:根據Omdia,2024年公司購買了23萬片H100字節跳動阿里巴巴騰訊AIChatbot:豆包AIAgent平臺:小悟空??云計算:阿里云外購:采購英偉達芯片自研AI芯片:12nm

含光800(推理)等??AIChatbot:通義??大模型:24年5月發布通義千問2.5推薦系統:電商平臺淘寶、阿里國際站等的AI推薦算法電商助手:淘寶問問(ToC)、AI生意助手(ToB)開發平臺:百煉AI平臺?AI助手:承擔Apple

Intelligence的大模型/算力支持自研CPU:倚天系列?開源大模型社區:魔塔社區??大模型:24年11月推出Huanyuan

large

389B

MoE開源模型????AIChatbot:混元助手、騰訊元寶AI視頻平臺:騰訊智影AIAgent平臺:騰訊元器AI筆記:Ima

copilot??云計算:騰訊云外購:根據Omdia,2024年公司購買了23萬片H100自研AI芯片:紫霄(推理)等推薦系統:微信視頻號、騰訊視頻等的AI推薦算法開發平臺:騰訊云AI平臺?搜索引擎:微信搜一搜的AI搜索算法?大模型:24年6月發布文心4.0

Turbo深度學習框架:飛槳開發平臺:千帆????AI搜索:百度AI智能問答AIChatbot:文心一言AIAgent平臺:文心智能體自動駕駛:蘿卜快跑???云計算:百度云外購:采購英偉達芯片自研AI芯片:7nm

昆侖芯二代搜索引擎:百度搜索的AI搜索算法推薦系統:應用矩陣百度地圖、等的AI推薦算法百度??

證券研究報告資料:字節跳動、阿里巴巴、騰訊、百度官網及財報,Omdia,申萬宏源研究172.4

互聯網云:龐大的工作負載+潛在AI應用將攤薄成本表:海外互聯網巨頭/大型云廠商擁有多租戶/龐大內部工作負載,可有效攤薄成本AI芯片布局大模型及開發框架AI研發布局模式已推出的核心AI應用現有業務生態協同大模型:OpenAI推出GPT系列模型,2023年3月推出GPT-4,24年5月推出GPT-4o,24年9月推出GPT-o1開發平臺:Azure

AIStudio,包括GPT系列獨家模型及第三方大模型大比例持股體外公司+深度合作。辦公:推出Microsoft

3652023年向OpenAI投資100億美

Copilot云計算:Microsoft

Azure辦公軟件:Microsoft

365、Office外購:根據Omdia,24年購買約48.5萬張H100芯片元,為OpenAI主要的算力提供

CRM/ERP:推出Dynamic微軟谷歌自研:2023年11月發布Maia100芯片商365

copilot操作系統:Windows瀏覽器:Edge自研:招攬Inflection

AI核心團

編程工具:Github

Copilot隊,布局大模型搜索引擎:必應集成ChatGPT

搜索引擎:Bing外購:根據Omdia,24年購買約16.9萬張H100;辦公:推出Duet

AI,定價30

云計算:Google

Cloud大模型:2023年12月推出首個旗下部門自研:此前有Google

美元/月辦公軟件:Workspace操作系統:安卓自研:2016年推出第一代TPU,

多模態大模型Gemini,24年底TPUv6

Trilium已上線谷歌云,性

開始發布Gemini

2.0系列能出色。TPU芯片可基本支撐自研

深度學習框架:TensorFlowBrain、Deepmind等多個AI研

搜索:AI搜索功能AI發部門/全資子公司,分立運營;

Overview,至24年10月,已

瀏覽器:Chrome2023年4月起整合為單一AI研發

覆蓋10億用戶部門Google

Deepmind

應用:NotebookLM搜索引擎:Google應用矩陣:谷歌地圖、Youtube、大模型的訓練和推理(兩大主流框架之一)、JAX通信:自研OCS通信系統,通信性

開發平臺:Vertex

AI其他:編程工具Alphacode等

Play

store、Gmail能出色AI推薦系統升級:截至24年10月,AI全年已提升外購:根據Omdia,2024年購買

大模型(開源):2023年7月開約22.4萬張H100芯片;計劃在25

源Llama2,2024年推出Llama3,Facebook

/Ins使用時長社交應用:Facebook、Instagram等元宇宙:旗下VR設備品牌Quest以及內容平臺旗下部門自研:AI業務均由旗下

8%/6%AI部門進行研發,為直屬部門模

METAAI助手:已集成于社交年底擁有130萬塊GPULlama4正在10萬卡集群上訓練,Meta自研:2024年發布MTIA

v2芯片,

Llama4

mini已完成訓練陸續應用于推薦系統等的推理負載

深度學習框架:Pytorch(兩大中,26年將應用于訓練及推理負載

主流框架之一)式軟件中,至24Q4

MAU超7億廣告創意及投放:推出輔助廣告內容生成工具、AI廣告投放工具電商:為電商運營提供一系列外購:根據Omdia,2024年購買

自研大模型:2023年12月推出

旗下部門自研+持股重點公司:

AI功能支持,以及導購助手約19.6萬張H100Titan系列AI模型旗下AI部門完成自研大模型研發;Rufus;自研:2020年推出Trainium,23

大模型(Anthropic):24年開

重點投資Anthropic,2023-24

生成式助手:面向企業端的云計算:AWS電商平臺:亞馬遜商城亞馬遜年推出Trainium2,Rainier項目正

始持續更新Claude3.5系列構建數十萬卡Tranium2集群;Tranium3將于25年底發布年投資80億美元,并提供算力支

AmazonQ;開發平臺:Bedrock

AI搭載自研

持;谷歌也參與Anthropic多輪

廣告:輔助廣告內容生成工具;及第三方模型投資通過AI實現廣告智能投放提升效率

證券研究報告

資料:谷歌、亞馬遜、微軟、Meta、蘋果公司官網,Omdia,申萬宏源研究18主要內容1.

AI云計算新范式:規模效應+AI

Infra能力+算力自主化2.

規模效應:資本密集度+多租戶+內部負載的削峰填谷3.

AIInfra:實現計算性能挖潛4.

算力自主化:海外ASIC芯片趨勢啟示5.

重點標的:互聯網云廠+ASIC芯片6.

重點公司估值表及風險提示193.1

AIInfra:從算力到應用的基礎設施軟件/工具?

AI

Infra定位于算力與應用之間的“橋梁”角色的基礎軟件設施層,包括:1)算力硬件層面的組網、算力資源調度等,實現集群高效率;2)模型層面提供的工具庫、框架庫的豐富度及有效性,幫助云客戶實現高效資源調用;3)針對具體應用的定向優化。?

各廠商間AI

Infra能力有較大差距。不同于開發生態十分成熟、潛能已充分挖掘的CPU,GPU/ASIC硬件的開發生態仍在不斷迭代豐富中,不同AI

Infra工程能力的團隊對于算力硬件的利用率有較明顯差距。表:AIInfra從硬件平臺到軟件工具應用程序-AI云工程棧AI

Infra能力層所處層次主要工作AI

Infra具體能力/實現方式以谷歌/DeepSeek為例的典型工作應用程序-算力負載提供資源管理、運營管理、運維管理等運營能力?

谷歌:根據具體使用場景,基于大模型能力開發AI

Agent、AI應用(NotebookLM)等針對具體的應用進行定向優化,降低推理成本等應用管理層主要為軟件、算法能力。1)提供AI框架庫、開發資源庫、工具庫;2)針對大模型進行計算效率的算力優化、負載均衡、擁塞控制等?

谷歌:1)提供Tensorflow深度學習框架庫以及眾多工具;2)針對大模型進行定制化優化。?

DeepSeek:針對大模型進行專家并行、數據并行等方面的優化提供模型開發和應用所需的各種基礎工具和組件MaaS/PaaS模型管理層算力管理層算力平臺?

谷歌:1)組網:通過OCS組建TPU集群;2)通過Pathway實現異構計算資源大規模編排調度;?

DeepSeek:構建Fire-Flyer

AI-HPC集群,在組網、通信方面定向優化;主要為通信優化、算力資源調度、提供計算、存儲、網絡、

管理能力。安全等基礎資源和服務包括通信組網、異構計算協調、容器管理、彈性部署等GPU/ASIC硬件平臺

證券研究報告資料:谷歌、DeepSeek官網,申萬宏源研究203.1

AIInfra:優化主要由云廠/互聯網/大模型廠商完成?

具體看,從硬件到大模型的訓練推理仍有AI框架庫、AI資源庫、底層算子等生態層次,英偉達CUDA生態提供眾多AI

Infra工具,能夠提供較好的計算利用率,但以出售硬件產品為目的的英偉達,在AI

Infra優化上進一步算力挖潛的動機略顯不足。因此云廠商/互聯網/大模型廠商將承擔主要的AI

Infra優化、計算效能挖潛任務。圖:基于英偉達GPU的開發工程棧,DeepSeek自PTX層定制算子優化算法工程?高級封裝的算子易開發性計算利用率相對低應用/模型層:應用程序/大模型AI框架庫基于下游用戶場景設計特定算法,并向用戶提供相應服務??AI框架庫(高維抽象):從數學表達到計算圖:1)張量計算引擎,2)高層算子,例如全連接、卷積、optimizer等谷歌:TensorFlow、JAXMETA:PyTorch基本計算資源庫(低維抽象):例如cuDNN最基礎庫,包含前向、后向卷積、激活函數、歸一化、張量變換等深度學習庫:cuDNN、CUTLASS、TensorRT機器學習庫:cuML、cuDF等CUDA-XLibraries底層硬件算子庫(Kernel)驅動GPU計算單元執行Kernel核函數功能,完成計算CUDA

工具包:CUDA驅動:CUDACUDA編譯器、開發者工具等存儲管理等???底層的算法撰寫高開發維護難度PTX(并行線程執行):英偉達GPU中間指令集架構更精細地算力利用低級機器代碼:流處理匯編或英偉達SASS(Stream

Assembly

Code)GPU硬件

證券研究報告

資料:英偉達官網,申萬宏源研究213.2

DeepSeek啟示:AI

Infra能力對推理成本影響重大?

AI

Infra能力正拉開AI應用/大模型API的單次推理成本差距。英偉達GPU提供的開發工具適用于標準化通用需求,易開發性出色,但大模型至硬件調用間仍有多個步驟可實現成本優化,優化與否將拉開成本差距。?

DeepSeek測算的應用理論利潤率出色,一大核心在于其針對特定DeepSeek

R1大模型進行充分優化。而同為DeepSeek

R1模型搭載于第三方大模型平臺,若未進行充分優化,則其推理成本仍將相對較高。例如大模型平臺公司潞晨科技停用DeepSeekR1API接口,或為成本側難以復制DeepSeek的優化措施,成本仍較高。圖:DeepSeek列舉的DeepSeek應用理論收入及成本對比,可實現利潤/成本=545%的理論比例資料:《DeepSeek-V3/R1推理系統概覽》,申萬宏源研究

證券研究報告22注:僅為理論測算,未考慮收費服務的折扣以及實際收費Tokens占比,實際場景中比例將低于此3.2

DeepSeek:AI

Infra優化深入AI工程棧全環節?

從算力硬件到大模型的API調用,其中的眾多環節可均有較大優化空間,AI

Infra能力體現在針對改善存儲瓶頸、提升通信效率、提升計算單元效率等方面,實際上是對已有GPU性能的進一步發掘:1)讓大模型推理/訓練中計算、通信、存取方式更簡潔,減少算法粗糙下的算力浪費;2)根據具體的GPU(如英偉達H100)的微架構設計,針對性實現優化。圖:DeepSeek開源周發布了各環節算法工程優化的工具

證券研究報告資料:DeepSeek官網,中存算,申萬宏源研究233.3

互聯網云:在AI

Infra領域已有較深技術積累?

AI

Infra能力的積累通常需要具備前沿大模型開發經驗,即完成了構建AI算力集群→基于集群的大模型訓練→提供大模型API推理服務→構建上層AI應用的全工作棧。?

大模型廠商/互聯網云已積累較強的AI

Infra能力,發布較多AI

Infra成果,包括實現萬卡集群的高利用率、提供豐富的大模型訓練和推理工具提升開發效率等,已具備較為明確的優勢。表:字節、騰訊、阿里巴巴、DeepSeek在AI

Infra上的主要工作平臺IaaS重要AI

Infra工作MaaS/PaaS重要AI

Infra工作MegaScale大模型訓練框架G?del實現萬卡集群的資源調度字節跳動

自2022年開始在字節跳動內部各數據中心批量部署,火山引擎

G?del

調度器已經被驗證可以在高峰期提供

>60%的CPU

利用率和

>95%的GPU利用率。MegaScale系統在12,288個GPU上訓練175BLLM模型時,模型FLOPs利用率(MFU)達到了55.2%,比起英偉達的Megatron-LM,提升了1.34倍。高性能網絡IHNTACO大模型推理加速套件單集群支持萬卡規模,單機支持3.2T大帶寬,通信占比低

同樣以

Llama-3.170B為例,使用

TACO-LLM

部署的騰訊騰訊云平臺至6%,訓練效率提升

20%。成本低至

<$0.5/1Mtokens,相比直接調用

MaaSAPI的成本節約超過60%+,且使用方式、調用接口保持一致,支持無縫切換。靈駿計算集群+HPN

7.0組網架構訓練框架PAI-ChatLearn靈駿計算集群提供可擴容到

10萬張GPU卡規模的能力,相比于當前的SOTA

系統,ChatLearn在

7B+7B規模有阿里巴巴阿里云同時在萬卡的規模下性能線性增長率達到了

96%,性能網115%的加速,在

70B+70B規模有

208%的加速。同時絡吞吐的有效使用率也達到了99%。Fire-Flyer

AI-HPC集群ChatLearn可以擴展到更大規模,如:300B+300B(Policy+Reward)。HAI

LLM訓練框架在DL訓練中部署含1萬個PCIeA100GPU的Fire-Flyer

2,包括HAI

Scale算子庫等,針對專家并行、流水線并行、DeepSeek

實現了接近NVIDIA

DGX-A100的性能,同時將成本降低

張量并行等領域的通信、計算能力進行大量優化。近一半,能源消耗降低了40%。

證券研究報告資料:阿里云、火山引擎、騰訊云、DeepSeek官網,申萬宏源研究243.3

字節:MegaScale針對萬卡集群訓練大幅提升MFU?

模型訓練兩大挑戰:1)實現高訓練效率:體現在MFU(模型計算利用率),即實際吞吐量/理論最大吞吐量,與集合通信、算法優化、數據預處理等相關,2)保持高訓練效率:體現在降低初始化時間和容錯修復能力。?

字節算法優化:Transformer

Block

并行、滑動窗口的Attention、LAMB優化器。實現初始化時間大幅優化,2048卡GPU集群初始化時間從1047秒下降到5秒以下。實現高效容錯管理:自動檢測故障并實現快速恢復工作。?

網絡優化:1)基于博通Tomahawk

4的交換機,優化網絡拓撲結構;2)降低ECMP哈希沖突:將數據密集型節點都安排在一個ToR交換機上;3)擁塞控制:將往返時延精確測量與顯式擁塞通知的快速擁塞響應能力結合。圖:字節在2024年2月提出的MegaScale訓練框架的MFU相對英偉達的Megatron-LM大幅優化,萬卡集群MFU達到55.2%

證券研究報告資料:《MegaScale:

Scaling

Large

Language

Model

Training

toMore

Than2510,000

GPUs》,申萬宏源研究3.3

阿里云:PAI-ChatLearn實現RLHF訓練效率提升?

PAI-ChatLearn

是阿里云

PAI

團隊自研的、靈活易用的、支持大規模

Alignment

高效訓練的框架。?

ChatLearn通過對

Alignment

訓練流程進行合理的抽象和解耦,提供靈活的資源分配和并行調度策略。ChatLearn提供了RLHF、DPO、OnlineDPO、GRPO等對齊訓練,同時也支持用戶自定義大模型訓練流程。相比于當時的SOTA

系統,ChatLearn在7B+7B規模有115%的加速,在70B+70B規模有208%

的加速。圖:阿里巴巴2024年8月開源的大規模對齊訓練框架PAI-ChatLearn在Llama2模型

RLHF訓練中實現更高效率

證券研究報告

資料:GitHub,阿里云官網,申萬宏源研究26主要內容1.

AI云計算新范式:規模效應+AI

Infra能力+算力自主化2.

規模效應:資本密集度+多租戶+內部負載的削峰填谷3.

AIInfra:實現計算性能挖潛4.

算力自主化:海外ASIC芯片趨勢啟示5.

重點標的:互聯網云廠+ASIC芯片6.

重點公司估值表及風險提示274.1

ASIC

VS

GPU:架構、生態、成本對比?

從IC設計思路來看,GPU為自下而上,即基于已設計的硬件平臺作工具豐富、生態適配工作支持上層應用;ASIC(專用集成電路)則是自上而下,基于現有應用/工作負載進行芯片架構設計,通過更定制化、針對性的架構設計匹配算法提升計算效能,但將犧牲通用性,完成非特定任務的效率較差。?

但云客戶更傾向于使用開發生態成熟、具備易開發性的英偉達GPU,預計在較長時間內仍將為云服務的首選。有望形成英偉達GPU仍占據公有云市場、ASIC芯片在巨頭內部負載形成替代的并行格局。圖:主要的AI算力芯片分類通用性CPUGPUFPGAASIC??馮諾依曼架構,串行計算為主計算單元占比較低,重在控制??馮諾依曼架構,并行計算為主計算單元占比很高??哈佛架構,無須共享內存可重構邏輯單元??非馮諾依曼架構計算單元占比高芯片架構標準化硬件,用戶基于架構固定的標準化硬件,用戶基于架構固定的可編程硬件,可靈活根據應用/工定制化硬件,根據應用/工作負載特應用構建開發生態硬件構建應用/工作負載硬件構建應用/工作負載作負載在使用過程中改變硬件架構點設計硬件架構僅英偉達的CUDA較成熟,其他GPU廠商生態成熟度較低十分成熟可適用主流編程語言生態成熟度相對較低??通用性較強,并行計算能力出色適用于AI功耗較高,編程難度中等??計算效能出眾功耗低,成本更低僅在特定類別的工作負載表現出色,靈活性差,編程難度高??通用性最強,編程難度低計算能力弱,不適用于AI計算??靈活性好,多用于推理環節峰值計算能力較弱相對優劣勢

證券研究報告

資料:寒武紀招股說明書,申萬宏源研究284.2

ASIC:架構+生態大相徑庭,將成為GPU的有力補充?

GPU與ASIC在架構及開發生態上有著明確差異:?架構存在差異:GPU基于通用并行計算向AI轉變,內部設計通常為大量并行計算核+小型AI加速單元TensorCore;TPU等則為僅針對AI算力需求場景直接設計內部架構,代表架構有大型脈動陣列等。?開發生態存在差異:英偉達具備完整成熟的CUDA開發生態,AMD

GPU/ASIC廠商開發生態均不完善。圖:各家GPU/ASIC芯片對比NVIDIA

H100

NVIDIA

B200

NVIDIA

B300AMDMI325xTPUv5pTPUv6eTrainium2

METAMTIA

v2

微軟

Maia100推出時間芯片制程20224nm20244nm20244nm20245nm20235nm20244nm20235nm20245nm20235nm峰值計算性能-BF/FP16(TFlops)990225033751300459926431177800功耗700WHBM3801000WHBM3e1921200WHBM3e2881000WHBM3e256---90WLPDDR5128860WHBM3e64存儲類型存儲(GB)內存帶寬HBM2e96HBM332HBM3963.35TB/s8TB/s8TB/s6TB/s2765GB/s1640GB/s4000GB/s204.8GB/s1600GB/sNVLink900GB/sNVLink1800GB/sNVLink1800GB/sInfinity

FabricLink896GB/sICILinks600GB/sICILinks3584GB/sNeuronLink768GB/s卡間通信帶寬-600GB/s計算強度-FP16峰值性能/存儲12.411.711.75.14.828.94.51.412.5(Flops/GB)芯片架構+開發生態ComputeDie數量HBMStacks數量162828481612241414大量并行大量并行CUDA大量并行CUDA

大量并行運算核

少量大型脈動陣

少量大型脈動

少量大型脈動陣

多核CPU+多核計算單元微架構CUDA核核多核AI加速單元核+TensorCore

+MatrixCore列單元陣列單元列單元AI加速單元+TensorCore

+TensorCore開發生態CUDACUDACUDARocmXLAXLAXLATritonTriton

證券研究報告

資料:英偉達、谷歌、AMD、亞馬遜、META、微軟官網,申萬宏源研究294.2

ASIC架構:基于脈動陣列的定制架構為重要路線?

GPU為馮諾依曼架構,運算中與寄存器需要高頻數據交換,對存儲容量要求較高。GPU主要是針對數據并行執行,

控制單元較小,

執行單元眾多,

同時有大量的寄存器文件用于在多個執行線程上隱藏延遲。?

谷歌TPU、AWS

Tranium2均基于脈動陣列架構,專為矩陣計算設計,計算結果可以直接向下一個計算單元遞推,直到該維度的矩陣結果計算完畢,再與寄存器作數據存取,減少不必要的全局數據交換等。圖:脈動陣列架構專用于大型矩陣計算,可降低存儲消耗

證券研究報告資料:亞馬遜官網,申萬宏源研究304.2

ASIC開發生態:谷歌和AWS均基于脈動陣列+XLA?

開發生態應在硬件架構/計算架構ROI提升的方向逐漸成熟,國內AI算力+海外云廠ASIC芯片等均具備潛力。DeepSeek實際證明擁有強大的工程團隊,有能力為其他AI芯片構建相對可用的開發生態(但易開發性預計仍有明顯差距。?

XLA為谷歌為TPU構建的編譯器,并陸續結合JAX等AI框架形成開發生態,逐漸走向成熟,同為脈動陣列架構的AWS

Tranium2同樣采用XLA,將加速相關生態更新迭代。圖:谷歌TPU/亞馬遜Trainuim基于XLA的開發生態棧JAXTraining

StackPyTorchTraining

StackLLM

ReferenceImplementationMaxTextJAX

Core

LibrariesPyTorch

&

Hugging

FaceLibraries核心資源庫OptaxAQTOrbaxFlaxJAXXLATPUPyTorch/PyTorch

XLAXLAAI框架庫編譯器硬件TPU/Trainium

證券研究報告資料:谷歌官網,申萬宏源研究314.2

ASIC開發生態:META

MTIA

v2軟件堆棧基于Triton?

Triton為OpenAI于2021年7月推出的類似Python的開源編程語言,旨在降低GPU的編程難度,但Triton并不非常依賴單一廠商的GPU,可拓展至MTIA

v2等非GPU硬件架構。?

Pytorch正致力于推廣Triton,已經在英偉達GPU上實現無CUDA條件下較高的硬件效率。MTIA

v2基于Triton,并提供Triton-MTIA編譯器進一步優化軟件堆棧。圖:MTIA

v2軟件堆棧主要基于Triton編程語言圖:Pytorch使用無CUDA的Triton編譯語言實現較高的GPU調用效率資料:Pytorch官網,申萬宏源研究

證券研究報告32注:LLM模型選用Meta的Llama3-8B和IBM的Granite-8B代碼模型,推理計算使用FP164.2

ASIC成本:具備性價比,但使用范圍相對局限?

我們簡單測算各家芯片的制造成本,主要根據各芯片具體的存儲容量、晶圓尺寸等進行測算,并根據英偉達、博通、Marvell/AIChip大致的毛利率進行估計,大致推測各家芯片的價格。?

ASIC芯片在特定任務部署中實際具備性價比,但受限于開發生態:1)開發過程中,生態不成熟存在開發效率損失,一定程度提升隱性成本。2)場景限于云廠內部負載,云客戶基于其開發的難度較大。表:各家GPU/ASIC芯片預計的成本拆分對比測算單位:美元H100B200TPUv5p

TPUv6eTrainium2亞馬遜-AIChip/Marvell廠商英偉達英偉達谷歌-博通

谷歌-博通制程4nm9904nm22505nm4594nm9265nm峰值計算性能-BF16/FP16(TFlops)431存儲(GB)96192963296存儲類型HBM3HBM3eHBM2eHBM3HBM3預計存儲成本1150135027002150100080040055011501000預計制造、封測等成本總成本250048501800950215047%~53%4400預計業務毛利率估算的各家芯片單價85%~90%

85%~90%

65%~70%

65%~70%18000

33000

6000

3100資料:英偉達、谷歌、AMD、亞馬遜、META、微軟官網,申萬宏源研究

證券研究報告33注:成本及單價僅為估算,實際價格與成本為動態變化4.2

ASIC成本:典型訓練場景具備性價比芯片產品NVIDIA

H100NVIDIA

B200GPUNVIDIA

GB200SuperchipGoogle/博通

TPUAWS/MarvellTrainium2v5p訓練LLama3

405B模型所需的FP16算力總量

(ZFLOPS)單卡FP16峰值性能(TOPS)計算性能使用效率(%)平均計算性能(TFLOPS)單卡單日算力(PFLPOS)1800099040%396342148212218000225040%9007776018661018000500040%2000172800414741800045940%18415863381471800065040%2602246453933集群單日算力(ZFLOPS)大模型訓練所需的運行天數(24000卡集群)算力芯片硬件成本AIAI芯片數量-算力集群芯片數量-每臺服務器24000824000824000362400082400016服務器數量-算力集群30001800014430003300026466770000252430006000481500440071AIAI芯片價格(美元/片)芯片+CPU價格(萬美元)-每臺服務器AI折舊年限芯片+CPU的成本(億美元)-算力集群43.3479.34168.3414.5410.64算力集群中AI算力硬件年折舊費用(億美元)10.819.842.13.62.7能源成本AI設計功耗700W1.46.21000W2.38.62400W2.197.21.2700W0.76.2700W0.911.81.5每瓦特AI計算性能

(TFLOPS/Watt)服務器中AI計算單元功耗(千瓦)電源使用效率(PUE)1.51.41.3AI服務器電力功耗(千瓦)AI集群電力功耗(千千瓦)9.327.912.036.1116.677.88.124.217.726.6AI算力集群運行成本

(不包括網絡和基建等)電價(千瓦時/美元)耗電量(萬千瓦時)0.10587590.10334330.10324320.1010971100.1085185能源成本(萬美元)集群算力硬件折舊成本(萬美元)AI計算總成本(萬美元)650708524557500533468578243328資料:《Scaling

Lawsfor

NeuralLanguageModels》,英偉達、谷歌、亞馬遜官網,申萬宏源研究34

證券研究報告注:標紅為非官方公布的假設數據,僅用以本表格進行計算4.3

為什么ASIC增長趨勢明顯?從供需兩端出發?

上游供給:芯片設計制造分工化:全球芯片設計制造分工化以及ASIC輔助設計的成熟,大幅降低了ASIC與GPU之間在代工制造、后端封裝設計等領域的差距,差異集中在前端設計和軟件開發生態。?

云廠需求:1)技術/架構演進:牧本擺動本質為針對通用芯片的算法演進迭代陷入停滯后,需要在架構上進行創新,催生新的定制化芯片,并再度基于新的芯片進行算法創新升級,以實現芯片性價比優勢。當前正處于重要節點。2)商業化驅動:算力需求量級提升,具備龐大算力需求的廠商足以覆蓋開發定制化芯片的成本。圖:云廠開發自研ASIC芯片已具備商業化、技術驅動力牧本擺動:按需定制化設計算力的端到端方案在算力上游供給:芯片設計制造行業的分工化云廠需求:技術/架構演進驅動中的效能、利用率正體現優勢推理側對算力芯片要求或更低:大模型推理算法相對訓練更固定,對于芯片性能、開發生態靈活性要求可略降低芯片制造與IC設計的分工:半導體產業正從Sharing

foundry到Sharing

design

house轉變,共享代工廠+后端設計封裝等鏈路。算力開支量級上升:AIASIC輔助設計企業逐漸成熟:博通、AIChip為代表的企業已經在TPU、Trainium的設計和制造中積累了豐富經驗和制造流程管理能力。達到重新設計一款芯片的綜合成本臨界點。云廠需求:商業化驅動單芯片的價格更低:成本側后續有望實現量產爬坡。

證券研究報告資料:申萬宏源研究354.4

如何設計制造ASIC?云廠前端設計+IC輔助設計支持?

云廠:僅維持相對精簡的IC設計團隊,無須困擾于龐雜的芯片制造流程。云廠可根據自有業務場景的算力需求進行前端設計(邏輯設計、仿真驗證等)等環節,并避免在主業之外形成龐大半導體業務部門。?

IC輔助設計:提供后端設計、制造流片等環節支持。博通、Marvell、AIChip通常提供IC設計所需的IP核等,并完成后端設計、封裝測試設計等,全流程跟蹤、優化晶圓廠代工流片的制造流程,最終向云廠交付。圖:ASIC芯片設計流程,輔助設計廠商可輔助完成后端設計到流片管理等環節應用公司完成ASIC輔助設計廠商完成:根據客戶的設計,提供IP核支持、封裝設計、流片等生產環節管理后端設計前端設計流片封裝測試量產??????工藝選型?????封裝設計仿真可靠性方案工程批設計系統級分裝封裝量產管理??????晶圓測試成品測試測試工程開發測試量產管理ATE設備研發產品認證分析??????訂單管理質量管控計劃管理DPPM優化良

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論