




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
面向國產(chǎn)智能算力軟件生態(tài)翟季冬清華大學>
1<2累計融資規(guī)模
1600+億470+億計算力指數(shù)7770AI頂尖人才(AI2000榜單學者數(shù)量)
1146人次232人次AI頂尖機構(gòu)(AI2000榜單全球前20強)15家2家AI人才規(guī)模16萬+
18萬+AI專利數(shù)量(近10年累計)116萬+
191萬+數(shù)據(jù)量規(guī)模(2025年預計)30.6ZB
48.6ZB人工智能全球市場規(guī)模及預測(單位:億元人民幣)11455482651+38.2%596864314022598
31209118792021202220232024E2025E2026E2027E2028E2029E2030E(單位:億元人民幣)+30.6%37622800213720232024E2025E新一代人工智能拉開新一輪科技競賽中美人工智能產(chǎn)業(yè)發(fā)展情況對比81102028E2020-2028年中國人工智能產(chǎn)業(yè)規(guī)模衡量指標累計企業(yè)數(shù)量62512027E數(shù)據(jù)來源:
Precedence
Research、艾瑞咨詢49322026E美國4100+中國1200+17062022162120211389202016377862462673?微軟Office產(chǎn)品全面接入ChatGPT
;Google用大模型技術(shù)推動搜索引擎升級;蘋果推出VR終端AppleVision
Pro?百度、阿里、華為等企業(yè)都制定相應的戰(zhàn)略,全面布局AI產(chǎn)業(yè)排名企業(yè)名稱國家人工智能業(yè)務營收(億美元)營收占比1Alphabet(谷歌母公司)美國115.86.2%2Amazon美國55.33.0%3Microsoft美國40.82.2%4Apple美國34.11.8%5Meta(臉書母公司)美國31.91.7%6IBM美國26.01.4%7阿里巴巴中國17.50.9%8Salesforce美國14.80.8%9百度中國13.20.7%10華為中國7.50.4%全球科技企業(yè)AI業(yè)務收入情況數(shù)據(jù)來源:賽迪顧問,2023年科技企業(yè)全面開啟AI轉(zhuǎn)型4AI2.0帶來的平臺型機會將比移動互聯(lián)網(wǎng)大十倍,這也是中國第一次迎來平臺競逐的機會。新平臺上所有用戶入口和界面都將被重寫,能夠建立下一代平臺的公司將會取得巨大的優(yōu)勢和話語權(quán)。人工智能技術(shù)和產(chǎn)業(yè)同步步入爆發(fā)期眾多行業(yè)將被改變、重塑、顛覆DeepSeek開源推動AI應用發(fā)展人工智能被廣泛應用到很多重要領(lǐng)域人工智能模型當前在
諸多領(lǐng)域有著廣泛應用具身智能科學計算公共安全自動駕駛>
5
<模型推理實時處理用戶請求
需要穩(wěn)定可靠算力實時的用戶請求對算力需求強勁模型預訓練數(shù)據(jù)經(jīng)過模型
需要海量算力訓練GPT4:一萬塊A100x
11月模型后訓練采用強化學習需要配套算力涉及多個模型交互
算力需求龐大模型微調(diào)精調(diào)垂域模型
需要可控算力垂域模型:基座模型精調(diào)需要算力大模型對算力產(chǎn)生爆發(fā)式需求算力存在于大模型生命周期的每一環(huán)>
6
<10%人力20%數(shù)據(jù)一萬塊
A100萬美元/每天ChatGPT推理開銷70%算力人工智能領(lǐng)域算力成本居高不下>算力是大模型產(chǎn)業(yè)的主要開銷,百億級的算力成本投入3%
人力95%
萬美元/每月模型研發(fā)成本億美元+GPT4訓練開銷以上算力成本占
大模型企業(yè)開銷2%
800塊
A100數(shù)據(jù)算力>
7
<國產(chǎn)AI算力總量和占比快速提升2025
2030國產(chǎn)算力
非國產(chǎn)算力國家力量推動智算中心建設(shè),引導國產(chǎn)算力發(fā)展?上海:到2025年新建智算中心國產(chǎn)算力使用占比超50%?北京:智算基礎(chǔ)設(shè)施2027年實現(xiàn)100%國產(chǎn)算力覆蓋?江蘇:要求新建算力中心國產(chǎn)算力使用占比達70%以上?其他:在建的杭州人工智能計算中心、貴安人工智能計算中心等均
采用100%國產(chǎn)算力部署外部限制強化,中國AI內(nèi)循環(huán)加速到來管制范圍20182024時間AI要素全面進入本地化時代++外部限制增強,算力國產(chǎn)化勢在必行半導體設(shè)備
算力上限算力密度上限AI模型HBM數(shù)據(jù)來源:國家智能算力規(guī)劃,公開資料整理數(shù)據(jù)屬地化算法主權(quán)化算力國產(chǎn)化>90%>50%>
8
<>
在智能產(chǎn)業(yè)飛速發(fā)展大背景下,各個省市大力建設(shè)智算、超算中心,但利用率普遍偏低中國超算、智算中心以國產(chǎn)算力為主“神威-太湖之光”超算天數(shù)智芯算力集群寒武紀珠海橫琴算力集群摩爾線程“夸娥”智算集群沐曦智算中心國防科大天津超算曙光成都超算華為鵬城云腦國產(chǎn)算力持續(xù)增長>
9
<Hugging
FacePyTorchCUBLAS/CUDNNNVCC/CUDANVIDIAGPUHugging
Face??
PyTorch??算子庫??編譯器
/運行時組件國產(chǎn)芯片深度學習需要多層軟件棧?編程語言、編譯器、算子庫等國產(chǎn)智能算力軟件生態(tài)有待提高國產(chǎn)智能算力面臨軟件生態(tài)的挑戰(zhàn)國產(chǎn)智能算力軟件能以與上下游
軟件更新保持及時同步國產(chǎn)智能算力軟件生態(tài)國產(chǎn)算力易得、軟件生態(tài)欠缺10>
<要改變國產(chǎn)大模型的生態(tài)系統(tǒng)不好的局面
—需要做好10個軟件>
11
<one
AP工調(diào)度器
內(nèi)存管理容錯系統(tǒng)存儲系統(tǒng)并行系統(tǒng)編程框架AI編譯器編程語言底層系統(tǒng)智能算力10個核心關(guān)鍵基礎(chǔ)軟件Deep
speedPY
Torch通信庫cuBLASNCCLcuDNN智能算力
10個關(guān)鍵基礎(chǔ)軟件Megatron-LM算子庫>
12
<
基于用戶熟悉的編程框架
提供高效的訓練&推理服務
讓用戶專注于模型開發(fā)
無需感知底層硬件深度學習框架可擴展并行智能編譯器智能算力
支持典型的國產(chǎn)AI芯片
支持英偉達國外AI芯片
提供共性優(yōu)化+特性優(yōu)化可擴展并行+智能編譯器統(tǒng)一中間表示編譯器&
高性能推理系統(tǒng)大規(guī)模并行訓練解決思路+
+>
13
<算子庫cuBLAS
cuDNN
AI
編譯器EinNet
PET編程語言
one
API底層系統(tǒng)
Spread-n-Share內(nèi)存管理
Self
Checkpoint
存儲系統(tǒng)冠Deep
speedMegatron-LMNCCL清華大學相關(guān)研究成果SmartMoE編程框架并行加速通信庫
團隊自研系統(tǒng)>
14
<廠八卦爐-智能算力核心基礎(chǔ)軟件
國產(chǎn)神威超算平臺實現(xiàn)>
15
<神威新一代超算系統(tǒng)神威超算:10萬節(jié)點,F(xiàn)P64性能
1.4
EFLOPS,F(xiàn)P16性能
5.6
EFLOPS,相當于
1.8萬塊英偉
達A100
例如:GPT-4在
2.5萬張英偉達A100上訓練100天b大模型訓練對系統(tǒng)的硬件峰值性能提出要求國產(chǎn)算力基礎(chǔ)設(shè)施>
16
<在神威新一代超級計算機上研制了
大模型訓練加速系統(tǒng):八卦爐擴展到全機規(guī)模(10萬臺服務器)目前正適配八卦爐系統(tǒng)支持更多國
產(chǎn)芯片八卦爐支撐多個大模型的訓練任務:北京智源研究院悟道2.0、阿里巴巴
M6大模型等支撐多個AIforScience應用程序:跨尺度大氣預測模型:swMPAS-A第一性原理大模型:乾坤Net八卦爐:支撐國產(chǎn)AI算力的基礎(chǔ)軟件集
PowerFusion:面向國產(chǎn)AI芯片智能編譯器
FastMoE:MOE大模型并行加速系統(tǒng)
Einet:圖算融合智能編譯器
FreeTensor:面向不規(guī)則智能程序編程語言FastDecode:高吞吐大模型推理系統(tǒng)實現(xiàn)百萬億參數(shù)量預訓練模型加速
模型規(guī)模:174萬億參數(shù)量(世界最大)
訓練性能:1.18EFLOPS(世界最快)
運行規(guī)模:3700萬處理器核“八卦爐”:智能算力核心基礎(chǔ)軟件在神威平臺實現(xiàn)并行層計算層底層系統(tǒng)國產(chǎn)算力基礎(chǔ)軟件層
八卦爐+
國產(chǎn)超算編譯器加速庫神威E級超級計算機
(算力等效1.8萬塊
A100)編程語言存儲系統(tǒng)并行加速通信庫容錯系統(tǒng)調(diào)度系統(tǒng)內(nèi)存系統(tǒng)“八卦爐”基礎(chǔ)軟件系統(tǒng)>
17
<b精度驗證:國產(chǎn)超算與其它平臺一致Baichuan-7b精調(diào)任務:精度與百川公司實現(xiàn)對齊LLaMA-7b預訓練任務:與NVIDIA實現(xiàn)loss
曲線對齊b目前“八卦爐”已經(jīng)在國產(chǎn)超算系統(tǒng)成功移植百川、
LLAMA等大模型八卦爐支持更多大模型訓練>
18
<廠八卦爐-燧原芯片適配
大模型推理加速>
19
<
容量挑戰(zhàn):GPU顯存容量難以滿足大模型推理的需求
為節(jié)省算力,必需保存
kv-cache
,即推理過程的歷史中間結(jié)果
隨著生成序列越來越長,kv-cache
大小線性增加
以萬億模型為例:?模型大小2TB,至少需26張顯卡
?KV-Cache大小為7TB,還需要
86張顯卡
5
4
3216789挑戰(zhàn):如何為
kv-cache設(shè)計高容量、高帶寬的存儲系統(tǒng)?02048
8192
32768131072序列長度
模型參數(shù)
ukv-cache
a其它大模型推理對顯存的壓力假設(shè)顯存大小為
80GB,
batchsize
為
8,序列長度
128k所需顯存大小/TB>20
<10
傳統(tǒng)解碼方案計算加速卡QKVCore-AttentionFFNWA分離推理方案(FastDecode)計算加速卡
CPUQKVBatchsize
大,計算效率高Batchsize
大,計算效率高Batchsize
小,計算效率低顯存占用量大Batchsize
小,計算效率低FastDecode:高吞吐推理優(yōu)化Core-AttentionCore-Attention主存空間充足釋放顯存
壓力順序計算交替計算QKVFFN>21
<FastDecode
高吞吐推理軟件系統(tǒng)Attention加速服務器(純CPU)Attention加速服務器(純CPU)Attention加速服務器(純CPU)清程pro
推理服務器FastDecode:高吞吐推理優(yōu)化燧原
清程pro推理服務器
清程max推理機柜CPU存
大容量主存FastDecode
高吞吐推理軟件系統(tǒng)推理
加速卡高速本地網(wǎng)絡(luò)大容量主存大容量主大容量主S60存>22
< Llama-13b模型 清程Pro相比云燧S60+vLLM提升
1.7倍吞吐
清程Max提升
5.4倍吞吐 清程Pro比英偉達A10+vLLM提升
1.3倍
某國產(chǎn)130b模型 清程Max相比原有方案吞吐量提升7.6倍吞吐258.814.983205.79510推理加速提供高達7倍吞吐提升能力130b模型均使用四塊燧原加速卡+W8量化數(shù)值為生成長度1-1024的平均吞吐量。>23
<13b模型均使用單燧原加速卡數(shù)值為生成長度1-1024的平均吞吐量。NVIDIAA10
+vLLM云燧S60直接推理云燧S60直接推理云燧S60
+vLLM云燧S60
+vLLM150012009006003000300250200150100500清程Max清程Max清程Pro清程Pro1394.092450.29775.77227.585350廠八卦爐-摩爾芯片適配主流大模型移植與優(yōu)化
混合專家模型(MoE)已成為擴展模型規(guī)模的主流手段
傳統(tǒng)的MoE模型訓練采用數(shù)據(jù)并行或?qū)<也⑿蟹绞?,難以解決顯存容量不足、網(wǎng)絡(luò)通信量過
大、集群負載不均衡等問題 FastMoE采用新的并行策略,解決了上述問題b經(jīng)移植,已在摩爾線程
MCCX-D8008卡機取得
1.32倍加速比加速比(以MEGATRON為基準)1.32Megatron(專家并行)混合專家模型并行訓練加速>25
<1
基礎(chǔ)算子性能是制約AI大模型性能的主要因素之一 IntelliGen編譯器擅長為Attention等訪存密集型算子自動生成高性能執(zhí)行代碼
b經(jīng)移植,已能在摩爾線程
S4000上取得
2.95倍加速1.9611高性能圖算融合編譯器GP
T
BERT
VIT1.43
1(以
PyTorch
為基準)PyTorch
IntelliGen加速比>26
<2.95大模型推理引擎-赤兔關(guān)鍵技術(shù)編譯優(yōu)化、
FP8推理優(yōu)化、并行調(diào)優(yōu)、混合精度等多元算力不僅支持英偉達GPU、也為國產(chǎn)芯片提供優(yōu)化支持可擴展從純CPU
部署、單GPU
部署、大規(guī)模集群部署可擴展穩(wěn)定運行可用于實際生產(chǎn)環(huán)境,穩(wěn)定性足以承載大量并發(fā)用戶請求開源地址
https://github.com/thu-pacman/chitu大模型推理引擎-赤兔>28
<b開源大模型推理引擎-赤兔:
/thu-pacman/chitu
在A800集群上,用赤兔引擎部署
DeepSeek-671B滿血版,相比于vLLM,使用GPU
數(shù)量減少
50%,而且輸出速度提升了
3.15倍開源大模型推理引擎-赤兔赤兔開源網(wǎng)站>29
<DeepSeek-R1-671B
vllm
BF16
-
四機赤兔
FP8
-兩機outputtoken/s20.79
(bs=1),194.6
(bs=16)20.89
(bs=1),
113.13
(bs=16)QwQ-32B模型
赤兔支持混合精度量化
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 《機械設(shè)計基礎(chǔ)》課件-第8章 鏈傳動
- 預防夏季疾病班會課件
- 陶瓷地磚銷售培訓
- 培訓小組匯報展示
- 音樂課件背景圖片
- 電網(wǎng)側(cè)獨立儲能示范項目風險管理方案(參考范文)
- 汽車配套產(chǎn)業(yè)基地項目資金申請報告
- 物流業(yè)貨物運輸安全預案
- 2025年動物炭黑、動物膠及其衍生物合作協(xié)議書
- 2025年射頻同軸電纜組件項目合作計劃書
- 改進維持性血液透析患者貧血狀況PDCA
- 公司崗位職級管理制度
- D500-D505 2016年合訂本防雷與接地圖集
- 漏肩風(肩周炎)中醫(yī)臨床路徑及入院標準2020版
- 光面爆破知識講座課件
- 高鐵站裝飾裝修方案
- DB4401-T 112.1-2021 城市道路占道施工交通組織和安全措施設(shè)置+第1部分:交通安全設(shè)施設(shè)置-(高清現(xiàn)行)
- 質(zhì)量整改通知單(樣板)
- 杭州市高級中學2022年高一新生素質(zhì)測試(分班考)模擬試卷
- 《碳纖維片材加固混凝土結(jié)構(gòu)技術(shù)規(guī)程》(2022年版)
- 短視頻:策劃+拍攝+制作+運營課件(完整版)
評論
0/150
提交評論