




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
CONFIDENTIAL科智咨詢Deepseek
對中國算力產(chǎn)業(yè)的影響2025年2月DeepSeek
的技術(shù)突破與市場定位目錄CONTENT科智咨詢—2—增長1億用戶花費時間7天2
個
月9個月10個月1年2個月2
年
6
個
月3年6個月3年8個月4年6個月5年1個月5年5個月萬維網(wǎng)DeepSeek爆火--C
端:Deepseek全球破圈,成為用戶規(guī)模增長最快的移動AI應(yīng)用超級app增長1億用戶所用時間
App
上線后同樣天數(shù)DeepSeek
與ChatGPT
移動端全球DAU對比情況Tiktok拼多多微信Instagram⑨
Whatsapp是
SnapchatFacebookTelegram產(chǎn)品DeepSeekChatGPT掃碼解讀7年A
i嚴(yán)品輛—3—◎微軟、英偉達(dá)、亞馬遜、英特爾、AMD
等科技巨頭陸續(xù)上線DeepSeek模型服務(wù)。√
1)1月30日,英偉達(dá)宣布DeepSeek-R1
可作為NVIDIA
NIM微服務(wù)預(yù)覽版使用。√
2
)1月
,DeepSeek-R1模型被納入微軟平臺AzureAlFoundry和
GitHub
的模型目錄,開發(fā)者將可以在Copilot+PC上本地運行DeepSeek-R1精簡模型,以及在Windows
上的GPU生態(tài)系統(tǒng)中運行,此外還宣布將DeepSeek-R1
部署在云服務(wù)Azure
上。√3)AWS
(亞馬遜云科技)宣布,用戶可以在Amazon
Bedrock和Amazon
SageMaker
Al兩大AI服務(wù)平臺上部署DeepSeek-R1模型。√4)Perplexity
宣布接入了DeepSeek
模型,將其與OpenAl
的GPT-01和Anthropic
的Claude-3.5并列作為高性能選項。√5)華為:已上線基于其云服務(wù)的DeepSeek-R1
相關(guān)服務(wù);√
6
)
騰
訊
:DeepSeek-R1
大模型可一鍵部署至騰訊云‘HAI’
上,開發(fā)者僅需3分鐘就能接入調(diào)用。√
7
)
百
度
:DeepSeek-R1和DeepSeek-V3
模型已在百度智能云千帆平臺上架;√
8)阿里:阿里云PAI
Model
Gallery支持云上一鍵部署DeepSeek-R1和DeepSeek-V3模型。圖:微軟宣布接入DeepSeekMicrosoftAzureDeepSeekR1isnowliveon
Azure
AlFoundryand@GitHub.Experienceof
advanced
reasoning
on
a
trusted,scalable
Al
platform
withinimalinfrastructureinvestment.Learnmore:
msft.it/6016UVP9a臺上進(jìn)行高級推理的強(qiáng)大功能,基礎(chǔ)設(shè)施投資最小。了解更多:mstt.it/6016UVP9aDeepSeek
爆火--B
端:科技巨頭積極擁抱DeepSeek
—4—科智咨詢我是DeepSeek,
很高興見到你!我可以幫你寫代碼、讀文件、寫作各種創(chuàng)意內(nèi)容,請把你的任務(wù)交給我吧~給
DeepSeek發(fā)運消息0DeepSeek
明星產(chǎn)品:DeepSeek
的LLM模型分為三個版本:基座模型V3
、強(qiáng)化推理版R1-
Zero、
泛化推理版R1冷啟動SFTR1-Zero生成自動/人工改寫面向推理的
強(qiáng)化學(xué)習(xí)準(zhǔn)確率獎勵可讀性獎勵
泛化規(guī)則驅(qū)動的大規(guī)模強(qiáng)化學(xué)習(xí)準(zhǔn)確率獎勵格式獎勵DeepSeek-R1-Zero強(qiáng)推理模型強(qiáng)化我是
DeepSeek,
很高興見到你!我可以幫你寫代碼、讀文件、寫作各種創(chuàng)意內(nèi)容,請把你的任務(wù)交給我吧-給
DeepSeek
麥
消
息8深度思考(R1)DeepSeek-V3
基座模型DeepSeek-V3
基座模型階段一模型生成推理SFT數(shù)據(jù)通用SFT數(shù)據(jù)規(guī)則驅(qū)動的獎勵獎勵模型驅(qū)動的獎勵科智咨詢階段二:增強(qiáng)面向通用指令的推理能力DeepSeek-R1
強(qiáng)推理模型階段一:增強(qiáng)推理過程可讀性全場景CoT
增強(qiáng)SFT全場景
強(qiáng)化學(xué)習(xí)—5—DeepSeek
爆火的原因:一流的性能表現(xiàn)、大幅降低的算力成本、開源模式高性能模型架構(gòu)創(chuàng)新DeepSeek的模型架構(gòu)創(chuàng)新,如MoE和FP8混合精度訓(xùn)練,大幅提升模型性能和訓(xùn)練效率。開源策略推動技術(shù)普及DeepSeek
采用開源策略,降低AI技術(shù)門檻,促進(jìn)全球開發(fā)者參與,推動技術(shù)快速普及和迭代。低成本實現(xiàn)高性能通過算法創(chuàng)新和硬件優(yōu)化,DeepSeek以低成本實現(xiàn)高性能,改變AI領(lǐng)域的競爭規(guī)則。
—6—科智咨詢圖:DeepSeek-V3在英文、代碼、數(shù)學(xué)領(lǐng)域表現(xiàn)優(yōu)異測試集DeepSeek-V3Qwen2.572B-Inst.Llama3.1Claude-3.5-405B-Inst.Sonnet-1022GPT-400513模型架構(gòu)MoEDenseDense激活參數(shù)37B72B405B總參數(shù)671B72B405BMMLU
(EM)88.585.388.688.3
87.2MMLU-Redux
(EM)89.185.686.288.9
88MMLU-Pro
(EM)75.971.673.378
72.6DROP(3-hot
FI91.676.788.788.3
83.7英文
IF-Eval(Prompt
Stric)86.184.18686.5
84.3GPQA-Diamond
Pas@159.14951.165
49,9SimpleQAfCorect)24.99.117.128.4
38.2FRAMES(Aec)73.369.87072.5
80.5LongBenchv2(AccJ48.739.436.141
48.1HumanEval-Mul(Pas@1)82.677.377.281.7
80.5LiveCodeBench/Pas@1-com)40.531.128.436.3
33.4LiveCodeBench
(Pas@137.628.730.132.8
34.2代碼Codeforces(Percentile)51.624.825.320.3
23.6SWEVerified(Resphed4223.824.550.8
38.8Aider-Edit(Aac)79.765.463.984.2
72.9Aider
Polyglot
(Acc)49.67.65.845.3
16AIME
2024(Pa@1)39.223.323.316
9.3數(shù)學(xué)MATH-500(EM)90.28073.878.3
74.6CNMO
2024(Pan@1)43.215.96.813.1
10.8CLUEWSC
EM)90.991.484.785.4
87.9中文C-Eval(EM)86.586.161.576.7
7650.451.3
59.3圖
:DeepSeek-V3
對比領(lǐng)域開源/閉源模型10004020一流的性能表現(xiàn):DeepSeek-V3
性能對齊海外領(lǐng)軍閉源模型●DeepSeek-V3為自研
MoE模型,671B參數(shù),激活37B,在14.8Ttoken
上進(jìn)行了預(yù)訓(xùn)練。
V3多項評測成績超越了Qwen2.5-72B
和
Llama-3.1-405B等其他開源模型,并在性能上和世界頂
尖的閉源模型GPT-4o
以及Claude-3.5-Sonnet
不分伯仲。在具體的測試集上,DeepSeek-V3現(xiàn)最好的模型Claude-3.5-Sonnet-1022;
文能力上均處于世界一流模型位置。在知識類任務(wù)上接近當(dāng)前表長文本/代碼/數(shù)學(xué)/中科智咨詢a
n
y
/
F
r
e
i
l
h
已—7—Claude-3.5-GPT40
DeepSeekSonnet-10220513V3OpenAI
OpenAIol-mini
o1-1217DeepSeek
R1ArchitectureMoEMoE#Activated
Params37B37B#Total
Params671B671BMMLU
(Pas@1)MMLU-Redux
EMDMMLU-Pro
(EMDROPshotF)88.3
87.2
88.585.2
91.890.888.9
88.0
89.186.792.978.0
72.6
75.980.384.088.3
83.7
91.683,9
90.292.2IF-Eval
Pnmpiric)Past)86.5
84.3
86.184.883.365.0
49.9
59.160.0
75.771.5SimpleQA
Ciumdt)
FRAMES
(Acc)AlpacaEval2.0(LCwinrih)ArenaHard
(cP4110028.4
38.2
24.97.0
47.030.172.5
80.5
73.352.0
51.1
70.076.957.8·82.587.685.2
80.4
85.592.092.3LiveCodeBench
PaaLconCodeforces
Perennle
CodeCodeforces
Rating)SWEVerified
(Rasoled)Aider-Polyglot
(e)38.9
32.9
36253.8
63.465.920.323.6
58.793.4
96.696.3717
75911341820
2061202950.838.8
42041.6
48.949245.3
16.0
49.632.9
61.753.3AIME
2024
(Pasda)
Math
MATH-500
(Pasw1)CNMO
2024
pamin)16.0
9.339.263.6
79.279.878.3
74.6
90.290.0
96.497.313.1
10.843.267.678.885.476.755.487.976.058.790.986.568.089.968.940.3OpenAI-o1-mini
DeepSeek-V390.090.290.8918.7.
88.585.249.248.941.642.036.8CLUEWSC
js0Chinese
C-Eval
EMCSimpleQA
Cnmst)一流的性能表現(xiàn):DeepSeek-R1
性能對標(biāo)OpenAl-01
正式版·DeepSeek-R1性能比肩OpenAl-01。DeepSeek-R1在后訓(xùn)練階段大規(guī)模使用了強(qiáng)化學(xué)習(xí)
技術(shù),在僅有極少標(biāo)注數(shù)據(jù)的情況下,極大提升了模型推理能力。在數(shù)學(xué)、代碼、自然語言推理等任務(wù)上,性能比肩OpenAlo1正式版。·R1在2024年AIME
測試中取得了79.8%的成績,與OpenAl
o1的79.2%水平相當(dāng)。
在
MATH-500基準(zhǔn)測試中,DeepSeek-R1以97.3%的成績略微超越了o1的96.4%。
在編程領(lǐng)域,該模型在Codeforces平臺上表現(xiàn)優(yōu)異。圖:DeepSeek
R1與其他模型的性能對比Benchmark
Metnd92.891.8
63.7EnglishGPQA
Diamond=V訓(xùn)
練
算力(petaFLOPs)Gemini
UltranVIDIAMegatron-Turing
NLG
530BGPT-3175B(davinci)GLM-130BBERT-LargeTransformerDeepSeek-R1-Distill-Qwen-1.5B1.E+022011
201220132014
2015
2016
201720182019
2020
2021大幅降低的算力成本:訓(xùn)練算力下降90%DeepSeek-V3和R1模型不僅性能出色,訓(xùn)練成本也極低。V3模型僅用2048塊H800GPU訓(xùn)練2個月,消耗278.8萬GPU小時。相比之下,
Llama3-405B消耗了3080萬GPU
小時,是V3的11倍。按H800GPU每小時2美金計算,V3的訓(xùn)練成本僅為557
.
6萬美金,而同等性能的模型通常需要0
.
6
-
1億美金。R1模型在V3基礎(chǔ)上,通過引入大
規(guī)
模
強(qiáng)
化
學(xué)習(xí)
和
多
階
段
訓(xùn)
練,
進(jìn)
一
步
提
升了
推
理
能
力
,
成
本
可
能
更
低。Training
CostsPre-Training
Context
Extension
Post-TrainingTotalin
H800
GPUHours2664K119K5K2788Kin
USD$5.328M$0.238MS0.01M$5.576M
—9—GPT
01Claude
2
GPT-4o00Llama
2-70BJliBaichuan2-13BBaichuan2-7BDeepSeek-R1-671BDeepSeek-R1-Distill-Qwen-32B1.E+121.E+101.E+081.E+061.E+04Table1|Training
costs
of
DeepSeek-V3,assuming
the
rental
price
of
H800is$2
per
GPU
hour.圖
7
:
DeepSeek-V3
模型訓(xùn)練僅需要278
.
8萬GPU
小時訓(xùn)練資源2022
202320242025科智咨詢gTORONTOAlexNetPalM(540B)2026API定價下降89%
(V3)
、96%(R1)輸入API價相
科智咨詢出API價格
—10—NetworkWeak
CopyleftLGPL2.1LGPL2.1+LGPL3orLGPL3+MPL
1.1GPT-4o-0513AIME2024pa@19.3AIME2024cons@6413.4MATH-500pass@174.6GPQADiamondpass@149.9LiveCodeBench
CodeForces
pas@1rating32.9
759.0Claude-3.5-Sonnet-102216.026.778.365.038.9717.0o1-mini63.680.090.060.053.81820.0QwQ-32BDeepSeek-R1-Distill-Qwen-1.5B44.028.960.052.790.683.954.533.841.916.91316.0954.0DeepSeek-R1-Distil-Qwen-7B55.583.392.849.137.61189.0DeepScek-R1-Distill-Qwen-14B69.780.093.959.153.11481.0DeepSeek-R1-Distill-Qwen-32B72.683.394.362.157.21691.0DeepSeek-R1-Distil-Llama-8B50.480.089.149.039.61205.0DeepScck-R1-Distill-Lam-70B70.086.794.565.257.51633.0DeepSeekV3與R1模型實現(xiàn)了開源,采用MIT協(xié)議。這產(chǎn)生多方面影響:·對大模型發(fā)展:這提升了世界對中國Al大模型能力的認(rèn)知,一定程度打破了OpenAl與
Anthropic
等高級閉源模型的封閉生態(tài)。DeepSeek
R1在多個測試指標(biāo)中對標(biāo)OpenAl01,通過模型開源,也將大模型平均水平提升至類OpenAl
o1等級。·對下游生態(tài):優(yōu)質(zhì)的開源模型可更好用于垂類場景,即使用戶針對自身需求蒸餾,或用
自有數(shù)據(jù)訓(xùn)練,從而適合具體下游場景;此外,模型訓(xùn)推成本降低,將帶來使用場景的
普及,帶動AIGC、
端側(cè)等供給和需求。開源大模型:打破OpenAI
等閉源模型生態(tài)DeepSeek不僅開源了R1-Zero和
R1兩個671B模型,還通過DeepSeek-R1的輸出,蒸餾了6個小模型開源給社區(qū),其中32B
和70B模型在多項能力上實
現(xiàn)了對標(biāo)OpenAl
o1-mini的效果。同時,DeepSeek
還修改了產(chǎn)品協(xié)議,支持用戶進(jìn)行“模型蒸餾”,即允許用戶無限制商用,鼓勵蒸餾(用R1輸出結(jié)
果訓(xùn)練其他模型),盡可能降低用戶使用壁壘,全球范圍出圈和更容易建立
起廣泛繁榮的用戶生態(tài)。
—11—基于R1
蒸餾的小模型性能超越OpenAl
o1-mini科智咨詢圖:開源許可證協(xié)議標(biāo)準(zhǔn)Strong
CopyleftPermissiveApache2.0ProtectiveGPL3or
GPL3+Public
DomainBSD-NewMIT/X11GPL
2+AGPL3GPL2目錄CONTENT
pSeek
的技術(shù)突破與市場定位
DeepSeek
驅(qū)動算力需求變革
算力產(chǎn)業(yè)鏈的重構(gòu)科智咨詢—12—中國智能算力規(guī)模及預(yù)測,
(FP16)2,020+41%1,4601,03772541726020242025智能算力100%90%80%70%60%50%40%30%20%10%0%41%58%65%59%42%35%2024推理67%33%2025訓(xùn)練70%30%202672%28%2027中國智能算力市場規(guī)模持續(xù)增長,算力中心從訓(xùn)練側(cè)向推理側(cè)轉(zhuǎn)移中國人工智能服務(wù)器工作負(fù)載預(yù)測,2022-2027科智咨詢2026
20272022
2023—13—20232022訓(xùn)練算力仍有空間和前景√頭部企業(yè)會持續(xù)進(jìn)行教師模型的訓(xùn)練:模型蒸餾的前提是有一個好的教師模型,字節(jié)、阿里、百度等已經(jīng)明確會持續(xù)加大投入;24年H2
有些停滯的大模型訓(xùn)練近期已經(jīng)重啟√
各模型廠商會借鑒deepseek的優(yōu)化方法如FP8精度訓(xùn)練、跨節(jié)點通信等,與自身模型訓(xùn)練結(jié)合,探索更高效的模型訓(xùn)練方法√
多模態(tài)的模型對算力的消耗會是近十倍的增長推理算力爆發(fā)式增長:
杰文斯悖論在推理側(cè)上演,開源模型和較低的推理成本,有助于應(yīng)用的繁榮,助推推理算力增長頭部企業(yè)仍持續(xù)加碼大模型訓(xùn)練,追求更高性能的AGI
目標(biāo)。·
阿里:未來3年的Al
infra投資,超過去10年的infra投資·
字節(jié):24年資本開支800億元,接近百度、阿里、騰訊三家的總和(約1000億元)。
25年,字節(jié)資本開支有望達(dá)到1600億元,其中約900億元將用于AI
算力的采購,700億元用于
IDC
基建以及網(wǎng)絡(luò)設(shè)備。·
百度:在2月11日的阿聯(lián)酋迪拜World
Governments
Summit2025峰會上,百度創(chuàng)始人李彥
宏提到,百度需要繼續(xù)在芯片、數(shù)據(jù)中心和云基礎(chǔ)設(shè)施上加大投入,目的是為了開發(fā)下一
代模型。·
硅谷四大科技巨頭(谷歌、微軟、Meta、
亞馬遜)2025年合計資本開支超3,000億美元
,重點投向Al數(shù)據(jù)中心建設(shè)。訓(xùn)練算力頭部集中,推理算力爆發(fā)式增長246315323503626964600-65080010061163652775018623231427235239224455711110711094“杰文斯悖論”指出成本下降將刺激資源需求更大增長Costof
Fuelefficiency
causes
a40%increase
in
travel.Fuelconsumption
increases
and
the
Jevonsparadox
occurs.FY21
FY22
FY23
FY24
FY25
Elastic
Demand.A
20%increase
in億美元谷歌亞馬遜
Meta微軟蘋果A$100$80科智咨詢BElasticDemand圖表:海外大廠各年度資本開支(億美元)0
10—14—Travel14數(shù)據(jù)安全與隱私計算剛需·
本地化部署需求(如醫(yī)療數(shù)據(jù)脫敏處理)
推動隱私計算技術(shù)發(fā)展,2024年數(shù)據(jù)治理
市場規(guī)模超50億元。一體機(jī)等端側(cè)算力市場擴(kuò)容·
國產(chǎn)deepseek—
體機(jī)瘋狂上新:三大電
信運營商、浪潮、壁仞、京東云、聯(lián)想、
優(yōu)刻得、寶德、華鯤振宇、超聚變等均推
出基于不同國產(chǎn)芯片的deepseek—
體機(jī)·工業(yè)質(zhì)檢、自動駕駛等場景需求推動邊緣
AI服務(wù)器出貨量增長,2025年市場規(guī)模預(yù)
計突破200億元。蒸餾后得到的“新模型”DeepSeek-R1-Distill-Qwen-1.5BDeepSeek-R1-Distil-Qwen-7BDeepSeek-R1-Distil-Llama-8BDeepSeek-R1-Distil-Qwen-14BDeepSeek-R1-Distill-Qwen-32BDeepSeek-R1-Distill-Lama-70B模型輕量化催生端側(cè)算力的崛起DeepSeek通過知識蒸餾技術(shù),將大模型壓縮至輕量化版本,使其能夠在端側(cè)設(shè)備上高效運行。
—15—知識濃縮液小模型科智咨詢一
張
圖
看
懂
「
模
型
蒸
餾
」大模型從“算力堆砌”到“算效優(yōu)化”的產(chǎn)業(yè)轉(zhuǎn)型·
2022年:算法創(chuàng)新為主,ChatGPT
發(fā)布,引發(fā)
Transformer架構(gòu)的風(fēng)潮迭起·
2023年:數(shù)據(jù)創(chuàng)新為主,數(shù)據(jù)合成、數(shù)據(jù)標(biāo)注等
成為高質(zhì)量數(shù)據(jù)集建設(shè)的熱點方向·
2024年:算力創(chuàng)新為主,算力邁向超萬卡時代,算力運營商等產(chǎn)業(yè)新物種誕生·
2025年:再次進(jìn)入算法創(chuàng)新階段?算法創(chuàng)新時間DeepSeek
提出的“四兩撥千斤”的技術(shù)路徑推翻了統(tǒng)治了2023年-2024年的全球大模型產(chǎn)業(yè)的“暴力美學(xué)”邏輯,2025年再次進(jìn)入算法創(chuàng)新階段算力、數(shù)據(jù)、算法的三角創(chuàng)新體系,在動態(tài)循環(huán)中
再次進(jìn)入算法創(chuàng)新階段:圖:每年AI技術(shù)創(chuàng)新發(fā)展的方向圍繞三要素迭代展開AI技術(shù)成熟度大模型訓(xùn)練和應(yīng)用依賴于大規(guī)模的算
力堆砌,通過不斷增加硬件資源來滿
足算力需求隨著技術(shù)發(fā)展和應(yīng)用深化,算效優(yōu)化
成為產(chǎn)業(yè)轉(zhuǎn)型的關(guān)鍵方向,通過提高
算力的利用效率,降低能耗和成本2022年
2023年
2024年
2025年
未來算力堆砌的傳統(tǒng)模式科智咨詢算效優(yōu)化的必要性算力
創(chuàng)新算法
創(chuàng)新數(shù)據(jù)
創(chuàng)新—16—
Seek
的技術(shù)突破與市場定位
pSeek
驅(qū)動算力需求變革
算力產(chǎn)業(yè)鏈的重構(gòu)目錄CONTENT科智咨詢—17—C/C++andCUDAcodeNVIDIA
CUDA
Complier(NVCC).C
ptxDevice
Just-in-TimeCompilerDeviceAssembly(SASS)CPU
GPUDeepSee
k通過PTX
優(yōu)化等創(chuàng)新技術(shù),降低了模型訓(xùn)練對NV
芯片的依賴,推動國產(chǎn)算力的應(yīng)用落地
,實現(xiàn)細(xì)粒度的性能優(yōu)化。在多
GPU
協(xié)同訓(xùn)練場景中,可通過
PTX
手動調(diào)整跨芯片通信效率,提升整體訓(xùn)練效能。
—18—截
至
2
0
2
5
年
2
月
1
8日
,DeepSeek
已與18家國產(chǎn)AI
芯片企業(yè)完成適配,包括華為昇騰、沐曦、天數(shù)智芯、摩爾線程、海光信息、壁仞科技、太初元碁、云天勵飛、燧原科技、昆侖芯、靈汐科技、鯤云科技、希姆計算、算能、清微智能和芯動力等CUDA
生態(tài)的封閉性導(dǎo)致其跨硬件平臺兼容性差,對國產(chǎn)GPU的適配存在較大困難。PTX算力優(yōu)化經(jīng)驗大幅降低了對高端GPU的依賴
,對國產(chǎn)GPU的底層接口適配有一定幫助
(
需要重新設(shè)計工具鏈,
短期內(nèi)難以實現(xiàn)無縫遷移)私有化部署及端側(cè)小模型大量涌現(xiàn),為國產(chǎn)芯片在實際場景的應(yīng)用及試錯提供了大量機(jī)會,為國產(chǎn)芯片的設(shè)計、性能提升等提供空間·
英偉達(dá)
H800
芯片互聯(lián)帶寬相比
H100
被閹割,為彌補(bǔ)這一缺陷,DeepSeek
借
助
PTX
手動優(yōu)化跨芯片通信,保障數(shù)據(jù)傳輸效率。·
PTX
是
CUDA
編譯的中間代碼,處于高級編程語言(如
CUDA
C/C++)
和底層機(jī)器碼
(SASS)之間,起到在CUDA
和最終機(jī)器碼之間的橋梁作用。·
借助
PTX,開發(fā)者能夠直接對
GPU
的寄存器分配、線程調(diào)度等硬件級操作進(jìn)行控制DeepSeek通過PTX手動優(yōu)化跨芯片通信科智咨詢芯片Host
C/C++CompilerHostAssembly
(x86,Power,ARM).cu·
在DeepSeek
的訓(xùn)練過程中,絕大多數(shù)核心計算核(即通用矩陣乘法GEMM
操作)
均以FP8
精度實現(xiàn)
。這些GEMM操作接受FP8張量作為輸入,并輸出BF16
或FP32格式的結(jié)果。如下圖所示,與線性算
子(Linear
operator)相關(guān)的三個GEMM運算——前向傳播
(Fprop)、
激活梯度反向傳播(Dgrad)
和權(quán)重梯度反向傳播(Wgrad)——
都采用FP8精度執(zhí)行。·
對以下模塊維持原有精度(如BF16或FP32):
嵌入模塊
(embedding
module)、輸出頭
(outputhead)、
混合專家門控模塊(MoE
gating
modules)、標(biāo)準(zhǔn)化算子
(normalization
operators)
以
及
注意力算子
(attention
operators)
。(盡管FP8格式具有計算效率優(yōu)勢,但由于部分算子對低精度計
算較為敏感,仍需保持更高計算精度)ToFPTo
BF16OutputFP32BF16To
FP87o
FPB
OutputGradientBF16國內(nèi)AI芯片企業(yè)200多家原生支持FP8的3家同時原生支持FP8、BF16、FP32的1家DeepSeek
采用FP8混合精度訓(xùn)練取得較好效果,國內(nèi)芯片企業(yè)亟待增強(qiáng)對原生FP8支持目前DS原生訓(xùn)練和推理用的是FP32、BF16和FP8,三種格式,也是DS團(tuán)隊探索出來效率最高的計算方式。如果不是原生支持FP8,而是需要通過其他計算精
度的轉(zhuǎn)譯,至少損失30%性能和20%的智商目前國內(nèi)有200多家AI芯片公司,原生支持FP8計算格式的AI芯片只有3款,同時支持三種計算格式的國產(chǎn)AI芯片公司只有1款。DeepSeek
采用FP8
混合精度訓(xùn)練取得較好效果:·GPU
訓(xùn)練時間減少40%·
預(yù)訓(xùn)練成本降至僅278.8萬H800GPU小時·
訓(xùn)練總費用為557.6萬美元,比同類模式便宜約10倍WeightGradientFP32Optimizer
States科智咨詢采
用FP8數(shù)據(jù)格式的整體混合精度框架Al應(yīng)用大模型智算中心芯片國內(nèi)芯片對三種計算精度的支持情況T加BF16
②FP32InputGradientMasterWeight支
WgradInputBF162FP32—19—Weight∑To
FPBFpropToFP32ToFP9DgradTo
芯片
智算中心
大模型
AI應(yīng)用智算中心分為三類A類B類科智咨詢定位
功能
規(guī)模
芯片推理用于推理的算力中心,針對模型在企業(yè)端現(xiàn)實場景的實際應(yīng)用大小不等利舊原有設(shè)備或者經(jīng)營不善的B類3090/4090或910A、910B及其他國產(chǎn)卡預(yù)訓(xùn)練用于訓(xùn)練超大參數(shù)量的原創(chuàng)教師大模型,如移動的九天大模型、阿里的通義千問等萬卡以上H200、B200等最先
進(jìn)的芯片或國產(chǎn)高端芯片(針對有強(qiáng)信創(chuàng)需求的企業(yè))后訓(xùn)練用于學(xué)生大模型的調(diào)優(yōu),訓(xùn)練行業(yè)化、客制化大模型幾十臺到幾百臺為主A100/A800、H100/H800,或者采購部分高端國產(chǎn)卡
—20—智算中心市場影響A類建設(shè)速度不減:頭部科技大廠仍計劃大量投資;超前建設(shè)的需要;下一輪Al技術(shù)的涌現(xiàn)(如多模態(tài)等)仍需要十倍左右的算力支撐;中美博弈(美國“星際之門”、歐洲“Invest
Al計劃”等)B類結(jié)構(gòu)性過剩,建設(shè)減緩:規(guī)模小、位置偏僻、型號舊&性價比低、國產(chǎn)算力等類型的智算中心閑置狀況嚴(yán)重新建要看是不是有強(qiáng)主體包銷,如果有強(qiáng)主題的3-5年包銷合同,依然可以正常建設(shè);如果是弱主體的客戶,甚至沒有客戶的前提下,
建設(shè)可能會暫緩或者停滯C類爆發(fā)式增長:推理算力需求大幅增加,端側(cè)、邊緣側(cè)分布式算力部署快速增長,私有化部署1~10臺GPU服務(wù)器的小規(guī)模集群需求在內(nèi)部部署中爆發(fā)。算力包銷合同主題分強(qiáng)、弱兩類,市場上更多的是弱主體:·
強(qiáng)主體:各個參與方資質(zhì)和信譽(yù)主題都很強(qiáng)。央國企、A股上市公司承建、金融機(jī)構(gòu)墊資、互聯(lián)網(wǎng)大廠包銷,這種主要是H
系列為主,風(fēng)險相對可控,互聯(lián)網(wǎng)大廠
可以用來做B類或C類。·弱主體:相對于強(qiáng)主體,出資方、承建方、包銷方相對來說資質(zhì)弱一些,比如包銷方是一些AI大模型創(chuàng)業(yè)公司、創(chuàng)新型實驗室或者,這類24年下半年已經(jīng)開始?xì)Ъs,
風(fēng)險非常高,H系列租金每個月6~8w/臺。這類的算力中心風(fēng)險非堂大
需要注意
這類算力使用方
未來多轉(zhuǎn)向c類算力租憑推理類智算中心爆發(fā)增長,超大規(guī)模智算中心建設(shè)加快科智咨詢AI應(yīng)用芯片大模型智算中心—21—中國大模型主要有兩類玩家科技大廠Al創(chuàng)業(yè)公司企業(yè)類型
典型玩家E
LAlibabaTencenf
騰訊智譜
·AI
MINIMAX字節(jié)跳動Bai
du
百度HUAWEI科智咨詢MoonshotAl零一萬物階躍星辰大模型玩家智算中心AI應(yīng)用芯片大模型ByteDance—22—公司時間動作概況阿里1月29日·
阿里云PAIModelGallery支持一鍵部署DeepSeek-
V3和DeepSeek-R1·
阿里云發(fā)布開源的通用千問Qwen2.5-MaxMoE(混合專家模型),它使用了與DeepSeek-R1類似的技術(shù)路線百度2月14日·
百度搜索全面接入DeepSeek。百度宣布文心一言4月1日起開源免費,并計劃推出文
心大模型4.5系列,于6月30日起正式開源騰訊/·從云平臺騰訊云、騰訊云旗下大模型知識應(yīng)用開發(fā)平臺
知識引擎、國民應(yīng)用微信、AI智能工作臺ima、主力Al
應(yīng)用元寶全方位擁抱DeepSeek,紛紛宣布接入R1模型華為/·鴻蒙系統(tǒng)的小藝助手接入DeepSeek-R1;與硅基流動
合作,基于昇騰云服務(wù)推出DeepSeek-R1/V3推理服務(wù)Deepseek
發(fā)布后科技大廠:擁抱DeepSeek,
同時跟進(jìn)類似的自研產(chǎn)品
OpenAI泰
@OpenAI·Feb
13Twoupdatesyou'll
like—OpenAl
o1
and
o3-mini
now
support
both
file
&image
uploads
in
ChatGPT
—23—OpenAI
連續(xù)官宣GPT-4.5
在幾周內(nèi)上線,
GPT-5在幾個月內(nèi)上線,
及模型路線規(guī)模的調(diào)整·
投資加大:前文已論述·產(chǎn)品:科技大廠一方面擁抱DeepSeek,一
方面跟進(jìn)類似的自研產(chǎn)品We
raisedo3-mini-high
limits
by7xforPlususers
to
up
to
50
per
day科智咨詢國際大廠也加快了產(chǎn)品的推陳出新大模型X1
…公司時間動作概況零一萬物2月14日與蘇州高新區(qū)聯(lián)合成立的產(chǎn)業(yè)大模型基地正式授牌百川智能1月25日發(fā)布新模型Baichuan-M1-preview階躍星辰2月1
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- CJ/T 225-2011埋地排水用鋼帶增強(qiáng)聚乙烯(PE)螺旋波紋管
- 明確目標(biāo)的多媒體應(yīng)用設(shè)計師考試試題及答案
- 學(xué)習(xí)評估標(biāo)準(zhǔn)初級社會工作者試題及答案
- 社會服務(wù)設(shè)計與評估試題及答案
- 2025年設(shè)計師考試新規(guī)解讀試題及答案
- 煙葉分級考試試題及答案
- 最行食安法測試題及答案
- 2025年軟件評測師考試的知識面擴(kuò)展建議試題及答案
- 房山嚴(yán)守卡口管理制度
- 杭州小學(xué)封閉管理制度
- 戶外雙語課程設(shè)計
- 2024滲透檢測工藝規(guī)程
- 重慶市2024年中考生物試卷
- 2024年河南省機(jī)關(guān)單位工勤技能人員培訓(xùn)考核高級工技師《職業(yè)道德》題庫
- 初中生物教學(xué)課例2.3.1《植物細(xì)胞的結(jié)構(gòu)和功能》課程思政核心素養(yǎng)教學(xué)設(shè)計及總結(jié)反思
- 2024年廣州市中考語文試卷真題(含官方答案及解析)
- 2024年湖南省中考道德與法治試題卷(含答案解析)
- 鉗工實訓(xùn)活頁式教材(非機(jī)類)中職全套教學(xué)課件
- 2024年湖南省高考政治試卷真題(含答案)
- 2023年《畜牧獸醫(yī)綜合知識復(fù)習(xí)題及答案》
- 村干部薪酬管理制度
評論
0/150
提交評論