deepseek對算力產(chǎn)業(yè)的影響_第1頁
deepseek對算力產(chǎn)業(yè)的影響_第2頁
deepseek對算力產(chǎn)業(yè)的影響_第3頁
deepseek對算力產(chǎn)業(yè)的影響_第4頁
deepseek對算力產(chǎn)業(yè)的影響_第5頁
已閱讀5頁,還剩22頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

CONFIDENTIAL科智咨詢Deepseek

對中國算力產(chǎn)業(yè)的影響2025年2月DeepSeek

的技術(shù)突破與市場定位目錄CONTENT科智咨詢—2—增長1億用戶花費時間7天2

月9個月10個月1年2個月2

6

月3年6個月3年8個月4年6個月5年1個月5年5個月萬維網(wǎng)DeepSeek爆火--C

端:Deepseek全球破圈,成為用戶規(guī)模增長最快的移動AI應(yīng)用超級app增長1億用戶所用時間

App

上線后同樣天數(shù)DeepSeek

與ChatGPT

移動端全球DAU對比情況Tiktok拼多多微信Instagram⑨

Whatsapp是

SnapchatFacebookTelegram產(chǎn)品DeepSeekChatGPT掃碼解讀7年A

i嚴(yán)品輛—3—◎微軟、英偉達(dá)、亞馬遜、英特爾、AMD

等科技巨頭陸續(xù)上線DeepSeek模型服務(wù)。√

1)1月30日,英偉達(dá)宣布DeepSeek-R1

可作為NVIDIA

NIM微服務(wù)預(yù)覽版使用。√

2

)1月

,DeepSeek-R1模型被納入微軟平臺AzureAlFoundry和

GitHub

的模型目錄,開發(fā)者將可以在Copilot+PC上本地運行DeepSeek-R1精簡模型,以及在Windows

上的GPU生態(tài)系統(tǒng)中運行,此外還宣布將DeepSeek-R1

部署在云服務(wù)Azure

上。√3)AWS

(亞馬遜云科技)宣布,用戶可以在Amazon

Bedrock和Amazon

SageMaker

Al兩大AI服務(wù)平臺上部署DeepSeek-R1模型。√4)Perplexity

宣布接入了DeepSeek

模型,將其與OpenAl

的GPT-01和Anthropic

的Claude-3.5并列作為高性能選項。√5)華為:已上線基于其云服務(wù)的DeepSeek-R1

相關(guān)服務(wù);√

6

)

:DeepSeek-R1

大模型可一鍵部署至騰訊云‘HAI’

上,開發(fā)者僅需3分鐘就能接入調(diào)用。√

7

)

:DeepSeek-R1和DeepSeek-V3

模型已在百度智能云千帆平臺上架;√

8)阿里:阿里云PAI

Model

Gallery支持云上一鍵部署DeepSeek-R1和DeepSeek-V3模型。圖:微軟宣布接入DeepSeekMicrosoftAzureDeepSeekR1isnowliveon

Azure

AlFoundryand@GitHub.Experienceof

advanced

reasoning

on

a

trusted,scalable

Al

platform

withinimalinfrastructureinvestment.Learnmore:

msft.it/6016UVP9a臺上進(jìn)行高級推理的強(qiáng)大功能,基礎(chǔ)設(shè)施投資最小。了解更多:mstt.it/6016UVP9aDeepSeek

爆火--B

端:科技巨頭積極擁抱DeepSeek

—4—科智咨詢我是DeepSeek,

很高興見到你!我可以幫你寫代碼、讀文件、寫作各種創(chuàng)意內(nèi)容,請把你的任務(wù)交給我吧~給

DeepSeek發(fā)運消息0DeepSeek

明星產(chǎn)品:DeepSeek

的LLM模型分為三個版本:基座模型V3

、強(qiáng)化推理版R1-

Zero、

泛化推理版R1冷啟動SFTR1-Zero生成自動/人工改寫面向推理的

強(qiáng)化學(xué)習(xí)準(zhǔn)確率獎勵可讀性獎勵

泛化規(guī)則驅(qū)動的大規(guī)模強(qiáng)化學(xué)習(xí)準(zhǔn)確率獎勵格式獎勵DeepSeek-R1-Zero強(qiáng)推理模型強(qiáng)化我是

DeepSeek,

很高興見到你!我可以幫你寫代碼、讀文件、寫作各種創(chuàng)意內(nèi)容,請把你的任務(wù)交給我吧-給

DeepSeek

息8深度思考(R1)DeepSeek-V3

基座模型DeepSeek-V3

基座模型階段一模型生成推理SFT數(shù)據(jù)通用SFT數(shù)據(jù)規(guī)則驅(qū)動的獎勵獎勵模型驅(qū)動的獎勵科智咨詢階段二:增強(qiáng)面向通用指令的推理能力DeepSeek-R1

強(qiáng)推理模型階段一:增強(qiáng)推理過程可讀性全場景CoT

增強(qiáng)SFT全場景

強(qiáng)化學(xué)習(xí)—5—DeepSeek

爆火的原因:一流的性能表現(xiàn)、大幅降低的算力成本、開源模式高性能模型架構(gòu)創(chuàng)新DeepSeek的模型架構(gòu)創(chuàng)新,如MoE和FP8混合精度訓(xùn)練,大幅提升模型性能和訓(xùn)練效率。開源策略推動技術(shù)普及DeepSeek

采用開源策略,降低AI技術(shù)門檻,促進(jìn)全球開發(fā)者參與,推動技術(shù)快速普及和迭代。低成本實現(xiàn)高性能通過算法創(chuàng)新和硬件優(yōu)化,DeepSeek以低成本實現(xiàn)高性能,改變AI領(lǐng)域的競爭規(guī)則。

—6—科智咨詢圖:DeepSeek-V3在英文、代碼、數(shù)學(xué)領(lǐng)域表現(xiàn)優(yōu)異測試集DeepSeek-V3Qwen2.572B-Inst.Llama3.1Claude-3.5-405B-Inst.Sonnet-1022GPT-400513模型架構(gòu)MoEDenseDense激活參數(shù)37B72B405B總參數(shù)671B72B405BMMLU

(EM)88.585.388.688.3

87.2MMLU-Redux

(EM)89.185.686.288.9

88MMLU-Pro

(EM)75.971.673.378

72.6DROP(3-hot

FI91.676.788.788.3

83.7英文

IF-Eval(Prompt

Stric)86.184.18686.5

84.3GPQA-Diamond

Pas@159.14951.165

49,9SimpleQAfCorect)24.99.117.128.4

38.2FRAMES(Aec)73.369.87072.5

80.5LongBenchv2(AccJ48.739.436.141

48.1HumanEval-Mul(Pas@1)82.677.377.281.7

80.5LiveCodeBench/Pas@1-com)40.531.128.436.3

33.4LiveCodeBench

(Pas@137.628.730.132.8

34.2代碼Codeforces(Percentile)51.624.825.320.3

23.6SWEVerified(Resphed4223.824.550.8

38.8Aider-Edit(Aac)79.765.463.984.2

72.9Aider

Polyglot

(Acc)49.67.65.845.3

16AIME

2024(Pa@1)39.223.323.316

9.3數(shù)學(xué)MATH-500(EM)90.28073.878.3

74.6CNMO

2024(Pan@1)43.215.96.813.1

10.8CLUEWSC

EM)90.991.484.785.4

87.9中文C-Eval(EM)86.586.161.576.7

7650.451.3

59.3圖

:DeepSeek-V3

對比領(lǐng)域開源/閉源模型10004020一流的性能表現(xiàn):DeepSeek-V3

性能對齊海外領(lǐng)軍閉源模型●DeepSeek-V3為自研

MoE模型,671B參數(shù),激活37B,在14.8Ttoken

上進(jìn)行了預(yù)訓(xùn)練。

V3多項評測成績超越了Qwen2.5-72B

Llama-3.1-405B等其他開源模型,并在性能上和世界頂

尖的閉源模型GPT-4o

以及Claude-3.5-Sonnet

不分伯仲。在具體的測試集上,DeepSeek-V3現(xiàn)最好的模型Claude-3.5-Sonnet-1022;

文能力上均處于世界一流模型位置。在知識類任務(wù)上接近當(dāng)前表長文本/代碼/數(shù)學(xué)/中科智咨詢a

n

y

/

F

r

e

i

l

h

已—7—Claude-3.5-GPT40

DeepSeekSonnet-10220513V3OpenAI

OpenAIol-mini

o1-1217DeepSeek

R1ArchitectureMoEMoE#Activated

Params37B37B#Total

Params671B671BMMLU

(Pas@1)MMLU-Redux

EMDMMLU-Pro

(EMDROPshotF)88.3

87.2

88.585.2

91.890.888.9

88.0

89.186.792.978.0

72.6

75.980.384.088.3

83.7

91.683,9

90.292.2IF-Eval

Pnmpiric)Past)86.5

84.3

86.184.883.365.0

49.9

59.160.0

75.771.5SimpleQA

Ciumdt)

FRAMES

(Acc)AlpacaEval2.0(LCwinrih)ArenaHard

(cP4110028.4

38.2

24.97.0

47.030.172.5

80.5

73.352.0

51.1

70.076.957.8·82.587.685.2

80.4

85.592.092.3LiveCodeBench

PaaLconCodeforces

Perennle

CodeCodeforces

Rating)SWEVerified

(Rasoled)Aider-Polyglot

(e)38.9

32.9

36253.8

63.465.920.323.6

58.793.4

96.696.3717

75911341820

2061202950.838.8

42041.6

48.949245.3

16.0

49.632.9

61.753.3AIME

2024

(Pasda)

Math

MATH-500

(Pasw1)CNMO

2024

pamin)16.0

9.339.263.6

79.279.878.3

74.6

90.290.0

96.497.313.1

10.843.267.678.885.476.755.487.976.058.790.986.568.089.968.940.3OpenAI-o1-mini

DeepSeek-V390.090.290.8918.7.

88.585.249.248.941.642.036.8CLUEWSC

js0Chinese

C-Eval

EMCSimpleQA

Cnmst)一流的性能表現(xiàn):DeepSeek-R1

性能對標(biāo)OpenAl-01

正式版·DeepSeek-R1性能比肩OpenAl-01。DeepSeek-R1在后訓(xùn)練階段大規(guī)模使用了強(qiáng)化學(xué)習(xí)

技術(shù),在僅有極少標(biāo)注數(shù)據(jù)的情況下,極大提升了模型推理能力。在數(shù)學(xué)、代碼、自然語言推理等任務(wù)上,性能比肩OpenAlo1正式版。·R1在2024年AIME

測試中取得了79.8%的成績,與OpenAl

o1的79.2%水平相當(dāng)。

MATH-500基準(zhǔn)測試中,DeepSeek-R1以97.3%的成績略微超越了o1的96.4%。

在編程領(lǐng)域,該模型在Codeforces平臺上表現(xiàn)優(yōu)異。圖:DeepSeek

R1與其他模型的性能對比Benchmark

Metnd92.891.8

63.7EnglishGPQA

Diamond=V訓(xùn)

算力(petaFLOPs)Gemini

UltranVIDIAMegatron-Turing

NLG

530BGPT-3175B(davinci)GLM-130BBERT-LargeTransformerDeepSeek-R1-Distill-Qwen-1.5B1.E+022011

201220132014

2015

2016

201720182019

2020

2021大幅降低的算力成本:訓(xùn)練算力下降90%DeepSeek-V3和R1模型不僅性能出色,訓(xùn)練成本也極低。V3模型僅用2048塊H800GPU訓(xùn)練2個月,消耗278.8萬GPU小時。相比之下,

Llama3-405B消耗了3080萬GPU

小時,是V3的11倍。按H800GPU每小時2美金計算,V3的訓(xùn)練成本僅為557

.

6萬美金,而同等性能的模型通常需要0

.

6

-

1億美金。R1模型在V3基礎(chǔ)上,通過引入大

規(guī)

強(qiáng)

學(xué)習(xí)

訓(xùn)

練,

進(jìn)

升了

低。Training

CostsPre-Training

Context

Extension

Post-TrainingTotalin

H800

GPUHours2664K119K5K2788Kin

USD$5.328M$0.238MS0.01M$5.576M

—9—GPT

01Claude

2

GPT-4o00Llama

2-70BJliBaichuan2-13BBaichuan2-7BDeepSeek-R1-671BDeepSeek-R1-Distill-Qwen-32B1.E+121.E+101.E+081.E+061.E+04Table1|Training

costs

of

DeepSeek-V3,assuming

the

rental

price

of

H800is$2

per

GPU

hour.圖

7

:

DeepSeek-V3

模型訓(xùn)練僅需要278

.

8萬GPU

小時訓(xùn)練資源2022

202320242025科智咨詢gTORONTOAlexNetPalM(540B)2026API定價下降89%

(V3)

、96%(R1)輸入API價相

科智咨詢出API價格

—10—NetworkWeak

CopyleftLGPL2.1LGPL2.1+LGPL3orLGPL3+MPL

1.1GPT-4o-0513AIME2024pa@19.3AIME2024cons@6413.4MATH-500pass@174.6GPQADiamondpass@149.9LiveCodeBench

CodeForces

pas@1rating32.9

759.0Claude-3.5-Sonnet-102216.026.778.365.038.9717.0o1-mini63.680.090.060.053.81820.0QwQ-32BDeepSeek-R1-Distill-Qwen-1.5B44.028.960.052.790.683.954.533.841.916.91316.0954.0DeepSeek-R1-Distil-Qwen-7B55.583.392.849.137.61189.0DeepScek-R1-Distill-Qwen-14B69.780.093.959.153.11481.0DeepSeek-R1-Distill-Qwen-32B72.683.394.362.157.21691.0DeepSeek-R1-Distil-Llama-8B50.480.089.149.039.61205.0DeepScck-R1-Distill-Lam-70B70.086.794.565.257.51633.0DeepSeekV3與R1模型實現(xiàn)了開源,采用MIT協(xié)議。這產(chǎn)生多方面影響:·對大模型發(fā)展:這提升了世界對中國Al大模型能力的認(rèn)知,一定程度打破了OpenAl與

Anthropic

等高級閉源模型的封閉生態(tài)。DeepSeek

R1在多個測試指標(biāo)中對標(biāo)OpenAl01,通過模型開源,也將大模型平均水平提升至類OpenAl

o1等級。·對下游生態(tài):優(yōu)質(zhì)的開源模型可更好用于垂類場景,即使用戶針對自身需求蒸餾,或用

自有數(shù)據(jù)訓(xùn)練,從而適合具體下游場景;此外,模型訓(xùn)推成本降低,將帶來使用場景的

普及,帶動AIGC、

端側(cè)等供給和需求。開源大模型:打破OpenAI

等閉源模型生態(tài)DeepSeek不僅開源了R1-Zero和

R1兩個671B模型,還通過DeepSeek-R1的輸出,蒸餾了6個小模型開源給社區(qū),其中32B

和70B模型在多項能力上實

現(xiàn)了對標(biāo)OpenAl

o1-mini的效果。同時,DeepSeek

還修改了產(chǎn)品協(xié)議,支持用戶進(jìn)行“模型蒸餾”,即允許用戶無限制商用,鼓勵蒸餾(用R1輸出結(jié)

果訓(xùn)練其他模型),盡可能降低用戶使用壁壘,全球范圍出圈和更容易建立

起廣泛繁榮的用戶生態(tài)。

—11—基于R1

蒸餾的小模型性能超越OpenAl

o1-mini科智咨詢圖:開源許可證協(xié)議標(biāo)準(zhǔn)Strong

CopyleftPermissiveApache2.0ProtectiveGPL3or

GPL3+Public

DomainBSD-NewMIT/X11GPL

2+AGPL3GPL2目錄CONTENT

pSeek

的技術(shù)突破與市場定位

DeepSeek

驅(qū)動算力需求變革

算力產(chǎn)業(yè)鏈的重構(gòu)科智咨詢—12—中國智能算力規(guī)模及預(yù)測,

(FP16)2,020+41%1,4601,03772541726020242025智能算力100%90%80%70%60%50%40%30%20%10%0%41%58%65%59%42%35%2024推理67%33%2025訓(xùn)練70%30%202672%28%2027中國智能算力市場規(guī)模持續(xù)增長,算力中心從訓(xùn)練側(cè)向推理側(cè)轉(zhuǎn)移中國人工智能服務(wù)器工作負(fù)載預(yù)測,2022-2027科智咨詢2026

20272022

2023—13—20232022訓(xùn)練算力仍有空間和前景√頭部企業(yè)會持續(xù)進(jìn)行教師模型的訓(xùn)練:模型蒸餾的前提是有一個好的教師模型,字節(jié)、阿里、百度等已經(jīng)明確會持續(xù)加大投入;24年H2

有些停滯的大模型訓(xùn)練近期已經(jīng)重啟√

各模型廠商會借鑒deepseek的優(yōu)化方法如FP8精度訓(xùn)練、跨節(jié)點通信等,與自身模型訓(xùn)練結(jié)合,探索更高效的模型訓(xùn)練方法√

多模態(tài)的模型對算力的消耗會是近十倍的增長推理算力爆發(fā)式增長:

杰文斯悖論在推理側(cè)上演,開源模型和較低的推理成本,有助于應(yīng)用的繁榮,助推推理算力增長頭部企業(yè)仍持續(xù)加碼大模型訓(xùn)練,追求更高性能的AGI

目標(biāo)。·

阿里:未來3年的Al

infra投資,超過去10年的infra投資·

字節(jié):24年資本開支800億元,接近百度、阿里、騰訊三家的總和(約1000億元)。

25年,字節(jié)資本開支有望達(dá)到1600億元,其中約900億元將用于AI

算力的采購,700億元用于

IDC

基建以及網(wǎng)絡(luò)設(shè)備。·

百度:在2月11日的阿聯(lián)酋迪拜World

Governments

Summit2025峰會上,百度創(chuàng)始人李彥

宏提到,百度需要繼續(xù)在芯片、數(shù)據(jù)中心和云基礎(chǔ)設(shè)施上加大投入,目的是為了開發(fā)下一

代模型。·

硅谷四大科技巨頭(谷歌、微軟、Meta、

亞馬遜)2025年合計資本開支超3,000億美元

,重點投向Al數(shù)據(jù)中心建設(shè)。訓(xùn)練算力頭部集中,推理算力爆發(fā)式增長246315323503626964600-65080010061163652775018623231427235239224455711110711094“杰文斯悖論”指出成本下降將刺激資源需求更大增長Costof

Fuelefficiency

causes

a40%increase

in

travel.Fuelconsumption

increases

and

the

Jevonsparadox

occurs.FY21

FY22

FY23

FY24

FY25

Elastic

Demand.A

20%increase

in億美元谷歌亞馬遜

Meta微軟蘋果A$100$80科智咨詢BElasticDemand圖表:海外大廠各年度資本開支(億美元)0

10—14—Travel14數(shù)據(jù)安全與隱私計算剛需·

本地化部署需求(如醫(yī)療數(shù)據(jù)脫敏處理)

推動隱私計算技術(shù)發(fā)展,2024年數(shù)據(jù)治理

市場規(guī)模超50億元。一體機(jī)等端側(cè)算力市場擴(kuò)容·

國產(chǎn)deepseek—

體機(jī)瘋狂上新:三大電

信運營商、浪潮、壁仞、京東云、聯(lián)想、

優(yōu)刻得、寶德、華鯤振宇、超聚變等均推

出基于不同國產(chǎn)芯片的deepseek—

體機(jī)·工業(yè)質(zhì)檢、自動駕駛等場景需求推動邊緣

AI服務(wù)器出貨量增長,2025年市場規(guī)模預(yù)

計突破200億元。蒸餾后得到的“新模型”DeepSeek-R1-Distill-Qwen-1.5BDeepSeek-R1-Distil-Qwen-7BDeepSeek-R1-Distil-Llama-8BDeepSeek-R1-Distil-Qwen-14BDeepSeek-R1-Distill-Qwen-32BDeepSeek-R1-Distill-Lama-70B模型輕量化催生端側(cè)算力的崛起DeepSeek通過知識蒸餾技術(shù),將大模型壓縮至輕量化版本,使其能夠在端側(cè)設(shè)備上高效運行。

—15—知識濃縮液小模型科智咨詢一

」大模型從“算力堆砌”到“算效優(yōu)化”的產(chǎn)業(yè)轉(zhuǎn)型·

2022年:算法創(chuàng)新為主,ChatGPT

發(fā)布,引發(fā)

Transformer架構(gòu)的風(fēng)潮迭起·

2023年:數(shù)據(jù)創(chuàng)新為主,數(shù)據(jù)合成、數(shù)據(jù)標(biāo)注等

成為高質(zhì)量數(shù)據(jù)集建設(shè)的熱點方向·

2024年:算力創(chuàng)新為主,算力邁向超萬卡時代,算力運營商等產(chǎn)業(yè)新物種誕生·

2025年:再次進(jìn)入算法創(chuàng)新階段?算法創(chuàng)新時間DeepSeek

提出的“四兩撥千斤”的技術(shù)路徑推翻了統(tǒng)治了2023年-2024年的全球大模型產(chǎn)業(yè)的“暴力美學(xué)”邏輯,2025年再次進(jìn)入算法創(chuàng)新階段算力、數(shù)據(jù)、算法的三角創(chuàng)新體系,在動態(tài)循環(huán)中

再次進(jìn)入算法創(chuàng)新階段:圖:每年AI技術(shù)創(chuàng)新發(fā)展的方向圍繞三要素迭代展開AI技術(shù)成熟度大模型訓(xùn)練和應(yīng)用依賴于大規(guī)模的算

力堆砌,通過不斷增加硬件資源來滿

足算力需求隨著技術(shù)發(fā)展和應(yīng)用深化,算效優(yōu)化

成為產(chǎn)業(yè)轉(zhuǎn)型的關(guān)鍵方向,通過提高

算力的利用效率,降低能耗和成本2022年

2023年

2024年

2025年

未來算力堆砌的傳統(tǒng)模式科智咨詢算效優(yōu)化的必要性算力

創(chuàng)新算法

創(chuàng)新數(shù)據(jù)

創(chuàng)新—16—

Seek

的技術(shù)突破與市場定位

pSeek

驅(qū)動算力需求變革

算力產(chǎn)業(yè)鏈的重構(gòu)目錄CONTENT科智咨詢—17—C/C++andCUDAcodeNVIDIA

CUDA

Complier(NVCC).C

ptxDevice

Just-in-TimeCompilerDeviceAssembly(SASS)CPU

GPUDeepSee

k通過PTX

優(yōu)化等創(chuàng)新技術(shù),降低了模型訓(xùn)練對NV

芯片的依賴,推動國產(chǎn)算力的應(yīng)用落地

,實現(xiàn)細(xì)粒度的性能優(yōu)化。在多

GPU

協(xié)同訓(xùn)練場景中,可通過

PTX

手動調(diào)整跨芯片通信效率,提升整體訓(xùn)練效能。

—18—截

2

0

2

5

2

1

8日

,DeepSeek

已與18家國產(chǎn)AI

芯片企業(yè)完成適配,包括華為昇騰、沐曦、天數(shù)智芯、摩爾線程、海光信息、壁仞科技、太初元碁、云天勵飛、燧原科技、昆侖芯、靈汐科技、鯤云科技、希姆計算、算能、清微智能和芯動力等CUDA

生態(tài)的封閉性導(dǎo)致其跨硬件平臺兼容性差,對國產(chǎn)GPU的適配存在較大困難。PTX算力優(yōu)化經(jīng)驗大幅降低了對高端GPU的依賴

,對國產(chǎn)GPU的底層接口適配有一定幫助

(

需要重新設(shè)計工具鏈,

短期內(nèi)難以實現(xiàn)無縫遷移)私有化部署及端側(cè)小模型大量涌現(xiàn),為國產(chǎn)芯片在實際場景的應(yīng)用及試錯提供了大量機(jī)會,為國產(chǎn)芯片的設(shè)計、性能提升等提供空間·

英偉達(dá)

H800

芯片互聯(lián)帶寬相比

H100

被閹割,為彌補(bǔ)這一缺陷,DeepSeek

PTX

手動優(yōu)化跨芯片通信,保障數(shù)據(jù)傳輸效率。·

PTX

CUDA

編譯的中間代碼,處于高級編程語言(如

CUDA

C/C++)

和底層機(jī)器碼

(SASS)之間,起到在CUDA

和最終機(jī)器碼之間的橋梁作用。·

借助

PTX,開發(fā)者能夠直接對

GPU

的寄存器分配、線程調(diào)度等硬件級操作進(jìn)行控制DeepSeek通過PTX手動優(yōu)化跨芯片通信科智咨詢芯片Host

C/C++CompilerHostAssembly

(x86,Power,ARM).cu·

在DeepSeek

的訓(xùn)練過程中,絕大多數(shù)核心計算核(即通用矩陣乘法GEMM

操作)

均以FP8

精度實現(xiàn)

。這些GEMM操作接受FP8張量作為輸入,并輸出BF16

或FP32格式的結(jié)果。如下圖所示,與線性算

子(Linear

operator)相關(guān)的三個GEMM運算——前向傳播

(Fprop)、

激活梯度反向傳播(Dgrad)

和權(quán)重梯度反向傳播(Wgrad)——

都采用FP8精度執(zhí)行。·

對以下模塊維持原有精度(如BF16或FP32):

嵌入模塊

(embedding

module)、輸出頭

(outputhead)、

混合專家門控模塊(MoE

gating

modules)、標(biāo)準(zhǔn)化算子

(normalization

operators)

注意力算子

(attention

operators)

。(盡管FP8格式具有計算效率優(yōu)勢,但由于部分算子對低精度計

算較為敏感,仍需保持更高計算精度)ToFPTo

BF16OutputFP32BF16To

FP87o

FPB

OutputGradientBF16國內(nèi)AI芯片企業(yè)200多家原生支持FP8的3家同時原生支持FP8、BF16、FP32的1家DeepSeek

采用FP8混合精度訓(xùn)練取得較好效果,國內(nèi)芯片企業(yè)亟待增強(qiáng)對原生FP8支持目前DS原生訓(xùn)練和推理用的是FP32、BF16和FP8,三種格式,也是DS團(tuán)隊探索出來效率最高的計算方式。如果不是原生支持FP8,而是需要通過其他計算精

度的轉(zhuǎn)譯,至少損失30%性能和20%的智商目前國內(nèi)有200多家AI芯片公司,原生支持FP8計算格式的AI芯片只有3款,同時支持三種計算格式的國產(chǎn)AI芯片公司只有1款。DeepSeek

采用FP8

混合精度訓(xùn)練取得較好效果:·GPU

訓(xùn)練時間減少40%·

預(yù)訓(xùn)練成本降至僅278.8萬H800GPU小時·

訓(xùn)練總費用為557.6萬美元,比同類模式便宜約10倍WeightGradientFP32Optimizer

States科智咨詢采

用FP8數(shù)據(jù)格式的整體混合精度框架Al應(yīng)用大模型智算中心芯片國內(nèi)芯片對三種計算精度的支持情況T加BF16

②FP32InputGradientMasterWeight支

WgradInputBF162FP32—19—Weight∑To

FPBFpropToFP32ToFP9DgradTo

芯片

智算中心

大模型

AI應(yīng)用智算中心分為三類A類B類科智咨詢定位

功能

規(guī)模

芯片推理用于推理的算力中心,針對模型在企業(yè)端現(xiàn)實場景的實際應(yīng)用大小不等利舊原有設(shè)備或者經(jīng)營不善的B類3090/4090或910A、910B及其他國產(chǎn)卡預(yù)訓(xùn)練用于訓(xùn)練超大參數(shù)量的原創(chuàng)教師大模型,如移動的九天大模型、阿里的通義千問等萬卡以上H200、B200等最先

進(jìn)的芯片或國產(chǎn)高端芯片(針對有強(qiáng)信創(chuàng)需求的企業(yè))后訓(xùn)練用于學(xué)生大模型的調(diào)優(yōu),訓(xùn)練行業(yè)化、客制化大模型幾十臺到幾百臺為主A100/A800、H100/H800,或者采購部分高端國產(chǎn)卡

—20—智算中心市場影響A類建設(shè)速度不減:頭部科技大廠仍計劃大量投資;超前建設(shè)的需要;下一輪Al技術(shù)的涌現(xiàn)(如多模態(tài)等)仍需要十倍左右的算力支撐;中美博弈(美國“星際之門”、歐洲“Invest

Al計劃”等)B類結(jié)構(gòu)性過剩,建設(shè)減緩:規(guī)模小、位置偏僻、型號舊&性價比低、國產(chǎn)算力等類型的智算中心閑置狀況嚴(yán)重新建要看是不是有強(qiáng)主體包銷,如果有強(qiáng)主題的3-5年包銷合同,依然可以正常建設(shè);如果是弱主體的客戶,甚至沒有客戶的前提下,

建設(shè)可能會暫緩或者停滯C類爆發(fā)式增長:推理算力需求大幅增加,端側(cè)、邊緣側(cè)分布式算力部署快速增長,私有化部署1~10臺GPU服務(wù)器的小規(guī)模集群需求在內(nèi)部部署中爆發(fā)。算力包銷合同主題分強(qiáng)、弱兩類,市場上更多的是弱主體:·

強(qiáng)主體:各個參與方資質(zhì)和信譽(yù)主題都很強(qiáng)。央國企、A股上市公司承建、金融機(jī)構(gòu)墊資、互聯(lián)網(wǎng)大廠包銷,這種主要是H

系列為主,風(fēng)險相對可控,互聯(lián)網(wǎng)大廠

可以用來做B類或C類。·弱主體:相對于強(qiáng)主體,出資方、承建方、包銷方相對來說資質(zhì)弱一些,比如包銷方是一些AI大模型創(chuàng)業(yè)公司、創(chuàng)新型實驗室或者,這類24年下半年已經(jīng)開始?xì)Ъs,

風(fēng)險非常高,H系列租金每個月6~8w/臺。這類的算力中心風(fēng)險非堂大

需要注意

這類算力使用方

未來多轉(zhuǎn)向c類算力租憑推理類智算中心爆發(fā)增長,超大規(guī)模智算中心建設(shè)加快科智咨詢AI應(yīng)用芯片大模型智算中心—21—中國大模型主要有兩類玩家科技大廠Al創(chuàng)業(yè)公司企業(yè)類型

典型玩家E

LAlibabaTencenf

騰訊智譜

·AI

MINIMAX字節(jié)跳動Bai

du

百度HUAWEI科智咨詢MoonshotAl零一萬物階躍星辰大模型玩家智算中心AI應(yīng)用芯片大模型ByteDance—22—公司時間動作概況阿里1月29日·

阿里云PAIModelGallery支持一鍵部署DeepSeek-

V3和DeepSeek-R1·

阿里云發(fā)布開源的通用千問Qwen2.5-MaxMoE(混合專家模型),它使用了與DeepSeek-R1類似的技術(shù)路線百度2月14日·

百度搜索全面接入DeepSeek。百度宣布文心一言4月1日起開源免費,并計劃推出文

心大模型4.5系列,于6月30日起正式開源騰訊/·從云平臺騰訊云、騰訊云旗下大模型知識應(yīng)用開發(fā)平臺

知識引擎、國民應(yīng)用微信、AI智能工作臺ima、主力Al

應(yīng)用元寶全方位擁抱DeepSeek,紛紛宣布接入R1模型華為/·鴻蒙系統(tǒng)的小藝助手接入DeepSeek-R1;與硅基流動

合作,基于昇騰云服務(wù)推出DeepSeek-R1/V3推理服務(wù)Deepseek

發(fā)布后科技大廠:擁抱DeepSeek,

同時跟進(jìn)類似的自研產(chǎn)品

OpenAI泰

@OpenAI·Feb

13Twoupdatesyou'll

like—OpenAl

o1

and

o3-mini

now

support

both

file

&image

uploads

in

ChatGPT

—23—OpenAI

連續(xù)官宣GPT-4.5

在幾周內(nèi)上線,

GPT-5在幾個月內(nèi)上線,

及模型路線規(guī)模的調(diào)整·

投資加大:前文已論述·產(chǎn)品:科技大廠一方面擁抱DeepSeek,一

方面跟進(jìn)類似的自研產(chǎn)品We

raisedo3-mini-high

limits

by7xforPlususers

to

up

to

50

per

day科智咨詢國際大廠也加快了產(chǎn)品的推陳出新大模型X1

…公司時間動作概況零一萬物2月14日與蘇州高新區(qū)聯(lián)合成立的產(chǎn)業(yè)大模型基地正式授牌百川智能1月25日發(fā)布新模型Baichuan-M1-preview階躍星辰2月1

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論