DeepSeek對國產芯片的影響報告_第1頁
DeepSeek對國產芯片的影響報告_第2頁
DeepSeek對國產芯片的影響報告_第3頁
DeepSeek對國產芯片的影響報告_第4頁
DeepSeek對國產芯片的影響報告_第5頁
已閱讀5頁,還剩14頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

DeepSeek對國產芯片的影響科智咨詢云網研究事業部蘇長飛2025年4月01

DeepSeek技術創新02DeepSeek對國產芯片的影響03國產芯片面臨的挑戰和發展機遇目錄2DeepSeek出現的影響DeepSeek的出現標志著我國在生成式AI領域達到世界領先級別DeepSeek與ChatGPT移動端全球DAU對比情況全球APP增長1億用戶所需時間?2025科智咨詢.Allrightsreserved.數據來源:

公開信息3?

無輔助損失負載平衡的DeepSeekMoEDeepSeek-V3提出了一種無輔助損失的負載均衡策略(Loss-FreeBalancing),

通過動態調整每個專家的偏差來控制負載平衡,

而不引入干擾梯度。

減少因鼓勵負載均衡而對模型性能產生的負面影響。?Multi-Head

LatentAttention(MLA)MLA的核心在于通過低秩聯合壓縮來減少注意力鍵(keys)

和值(values)

在推理過程中的緩存,

從而提高推理效率數據來源:

DeepSeek論文

?2025科智咨詢.All

rights

reserved.DeepSeek主要技術創新點架構創新4?多

to

ke

n

(M

u

lti-To

ke

nP

redictio

n

,

MT

P

)主流大模型token-by-token生成序列,

而每次token生成需要頻繁與訪存交互,

從而因為訪存效率形成訓練或推理的瓶頸。MTP方法主要將單token

的生成,

變成多token

的生成,

提升訓練和推理的性能

DeepSeek主要對傳統MTP算法

進行了一定優化,

順序預測額外token,

并在每個預測深度保持完整的因果鏈。?

FP8混合精度訓練框架

在DeepSeek的訓練過程中,

絕大多數核心計算核(即通用矩陣乘法GEMM操

作)

均以FP8精度實現

。這些GEMM操作接受FP8張量作為輸入,

并輸出BF16

或FP32格式的結果。

如下圖所示,

與線性算子(Linearoperator)

相關的三個

GEMM運算——前向傳播(Fprop)

激活梯度反向傳播(Dgrad)

和權重梯

度反向傳播(Wgrad)——都采用FP8精度執行。

對以下模塊維持原有精度(如BF16或FP32):

嵌入模塊(embeddingmodule

)、

輸出頭(

output

head)

混合專家門控模塊(MoEgating

modules)

標準化算子(normalizationoperators)

以及注意力算子(

attentionoperators

)

。(盡管FP8格式具有計算效率優勢,

但由于部分算子對低精度計算較為敏

感,

仍需保持更高計算精度)DeepSeek主要技術創新點軟硬協同工程優化1/2數據來源:

DeepSeek論文

?2025科智咨詢.All

rights

reserved.5?

計算-通信重疊(DualPipe調度策略)DeepSeek-V3設計了DualPipe算法,

用于高效的流水線并行計算。

該算法通過重

疊計算和通信,

減少了流水線氣泡,

并在跨節點的專家并行訓練中實現了近乎完

全的計算-通信重疊,

顯著提升了訓練效率。?

通過PTX手動優化跨芯片通信

英偉達

H800

芯片互聯帶寬相比

H100被閹割,為彌補這一缺陷,

DeepSeek

借助PTX手動優化跨芯片通信,

保障數據傳輸效率。

PTX是CUDA編譯的中間代碼,

處于高級編程語言(如CUDAC/C++)

和底層

機器碼(SASS)

之間,

起到在CUDA和最終機器碼之間的橋梁作用。

借助PTX,

開發者能夠直接對GPU

的寄存器分配

線程調度等硬件級操作進行控制,

實現細粒度的性能優化

在多GPU

協同訓練場景中,

可通過

PTX

手動調整跨芯片通信效率,

提升整體訓練效能。DeepSeek主要技術創新點軟硬協同工程優化2/2數據來源:

DeepSeek論文

、公開信息

?2025科智咨詢.All

rights

reserved.601

DeepSeek技術創新02DeepSeek對國產芯片的影響03國產芯片面臨的挑戰和發展機遇目錄7刺激算力總需求持續增長?算力總需求持續增長:

根據科智咨詢發布的中國智能算力市場規

模研究報告,

2024-2028年,中國智能算力規模仍將保持近40%的

高速增長?推理側需求爆發:

推理側需求占比將爆發式增長,

至2027年將從

目前的65%增長至72%/

2020-2028年中國AIDC算力供給規模

(PFLOPS)市場影響開源生態打開國產算力需求空間?“

杰文斯悖論”指出

,技術進步導致資源使用效率的

提高

,反而可能增加資源

的總體消費量。?

在圖中

成本下降

20%(從100美元到80美

元),旅行量增加了40%

(從10單位到14單位)65%

67%

70%

72%35%

33%

30%

28%數據來源:

科智咨詢

、公開信息

?2025科智咨詢.Allrightsreserved.41%

58%59%

42%/中國人工智能服務器工作負載及預測2022

2023

2024

2025

2026

2027

推理

訓練杰文斯悖論8算法創新驅動算力效率提升:通過MLA

MOE

無模型輕量化降低算力門檻:

通過輕量化模型和知識蒸輔助損失負載均衡等技術,

顯著優化模型訓練效率,餾技術,

DeepSeek能夠在國產芯片上實現高性能推理。在同等模型效果的基礎上,

訓練成本僅為海外領先例如,

天數

沐曦等眾多國產廠商在極短的時間內完模型成本的1/10成模型適配DeepSeek-V3和R1模型不僅性能出

色,

訓練成本也極低

V3模型僅用

2048塊H800

GPU訓練2個月,消耗278

.8萬GPU小時

相比之下,Llama3-405B消耗了3080萬GPU小時,

是V3的11倍

按H800GPU每小

時2美金計算,

V3的訓練成本僅為557.6萬美金,而同等性能的模型通常

需要0.6-1億美金

R1模型在V3基礎上,

通過引入大規模強化學習和多

階段訓練,

進一步提升了推理能力,

成本可能更低。蒸餾DeepSeek模型訓練僅需要557.6萬美元技術突破降低算力依賴,

激活國產芯片潛力DeepSeek

R1(671B)數據來源:

DeepSeek論文

、公開信息?2025科智咨詢.Allrightsreserved.9關鍵技術突破進度實現難度FP8混合精度運算目前200多家芯片企業中僅有的2-3家支持FP8精度的均為初創企業

,對于大型芯片企

業來說需要從算子、架構等底層做出大量改動

,其決策、研發周期會很久,

需要等到下一代、下下一代的產品PTX指令集優化大

使

PT

X

Mira指

(Me

mory

AccessOptimizationforRemoteAccess

,一種遠端內存訪問優化技術),這需要對芯片底層指令集有非常深刻的認知,對于大部分國產芯片廠商來說都是非常困難的PD分離一種在大規模推理場景中將Prefill階段和Decode階段分別在不同的資源上運行的技術,目前國產廠商普遍支持效果一般MTP(Multi-TokenPrediction)多Token預測技術會快速在推理場景得到普及

,理論上性能可以提升50%以上,

多款國產芯片已經可以支持該技術DualPipe算法是一種更細粒度的計算過程劃分,

實現難度相對小,但只適用于DeepSeek一種類型

的模型

,不適用于其他類型的大模型技術突破倒逼國產芯片在關鍵技術上進行突破與創新?2025科智咨詢.Allrightsreserved.數據來源:

科智咨詢10持續增長適配企業達到25家首批15家適配R1發布?DeepSeek采用寬松的MIT協議和強可復現性,

得到廣泛的應用?DeepSeek

的開源策略吸引眾多開發者和企業的參與。

國產算力

芯片廠商可以圍繞DeepSeek建立相關的軟件生態,

開發適配的

驅動程序

開發工具

優化庫等,

吸引更多開發者基于國產芯

片和DeepSeek進行應用開發,

豐富軟件生態資源,

提升國產算

力芯片的易用性和競爭力產業鏈協同構建自主AI生態閉環:促進國產芯片硬件的適配落地和軟件生態的繁榮芯片廠商加速適配與落地

繁榮國產軟件生態開源平臺數據來源:

科智咨詢

中國開放指令生態聯盟

?

2025

科智咨詢.

All

rights

reserved.開源開放國產芯片生態開源IP與SoC設計芯片及系統EDA工具系統軟件與開發環境開

驗證

臺4035302520151050/國產芯片廠商與DeepSeek適配情況2

5

.12

5

.

22

5

.

3未

來推動ASIC的芯片技術路線發展DeepSeek的算法優化創新

帶動模型成本急速降低

軟硬件協同成為下

一步發展的關鍵

未來ASIC將成為行業主導

逐步取代或替代類似于CPU的通用器件

,GPU的需求會縮量

,ASIC的需求會增多/

不同架構AI芯片的區別形成模型-芯片-系統的完整閉環國產模型

極致國產生態國產芯片統

納管和調度異構算力AI芯片種類GPU

FPGAASIC?

全定制(專為特定算法設計)?

算法迭代期/邊緣計算?

開發成本:低?

量產成本:

中等?

能效比極高?

量產成本極低?

靈活性差?

研發周期長典型企業產業鏈協同構建自主AI生態閉環:推動ASIC技術實質性發展,

形成模型-芯片-系統的全國產閉環?

算法穩定的大規模

特定推理場景?

半定制(可編程重構硬件)?

開發成本:

中等?

量產成本

:高?

開發成本:極高?

量產成本:極低?

硬件可重構?

低延遲?

開發門檻高?

量產門檻高?

生態成熟?

通用性強?

通用芯片(無定制)功耗高冗余計算多適用場景

?

通用計算?2025科智咨詢.Allrightsreserved.數據來源:

科智咨詢定制程度國產系統優點缺點成本12??01

DeepSeek技術創新02DeepSeek對國產芯片的影響03國產芯片面臨的挑戰和發展機遇目錄13技術壁壘短時間內難突破?受限于光刻機等的限制,中國大陸7nm以下制程工

藝遲遲無法

突破、

7nm規格的芯片良品率也有待提升?作為中國大陸典型的晶圓廠商,中芯國際(SMIC)

市占率僅

為6%,

不及臺積電的1/10,

供貨量緊缺/全球主要晶圓廠商芯片制程工

藝迭代路線圖2019202020212022202320242025CUDA生態壁壘需要多方協同、

長期攻克?英偉達CUDA生態開發者基數是國產方案的6.5倍:

CUDA生態

并非簡單的軟件工具集,

而是“

開發者—工具鏈—AI開發框

架—企業利益

”的閉環系統?國產AI生態需要從“

開發者-工具鏈-主流AI框架

等多個角度

努力補功課/

Github上全球軟件開發者數量對比

(萬)Intel10nm10nm+

10nm++7nm4nm3nm3nm+Samsung7nm5nm4nm3nm2nmTSMC7nm+5nm5nm+4nm3nm3nm+2nmSMIC14nm12nm8-10nm7nm面臨的挑戰國芯在制程技術、

國產開發生態等領域面臨嚴峻挑戰others,31%數據來源:

各公司官網

、Github、科智咨詢制圖

?

2025

科智咨詢.

All

rights

reserved./國際/國內典型晶圓廠商市占比

(收入)國

態CUDA

態6

5XTSMC,63%

SMIC,6%

4006214國產AI芯片在工業質檢領域表現出色

,如基于國產存算一體芯片的類腦計算技術在圖像識別能效比上有

顯著提升,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論