數(shù)字智慧方案大模型場景下智算平臺的設計與優(yōu)化實踐_第1頁
數(shù)字智慧方案大模型場景下智算平臺的設計與優(yōu)化實踐_第2頁
數(shù)字智慧方案大模型場景下智算平臺的設計與優(yōu)化實踐_第3頁
數(shù)字智慧方案大模型場景下智算平臺的設計與優(yōu)化實踐_第4頁
數(shù)字智慧方案大模型場景下智算平臺的設計與優(yōu)化實踐_第5頁
已閱讀5頁,還剩22頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

大模型場景下智算平臺的設計與優(yōu)化實踐肖松2024.06.14j百度智能云國產卡怎么用?

能否與

NV

卡一起使用?我資源比較少,

幾十卡的規(guī)模,如何提升卡的利用率?我的模型跑起來耗時長,

能加速嗎?我想跑大模型,

需要多少資源?

網(wǎng)絡如何構建?

多長時間能跑完?引言不同時期對智算平臺的需求20182024客戶A客戶B客戶C客戶Dj百度智能云201大模型時代,

智算平臺新特點402智算平臺需解決的問題603大模型場景技術實踐804對于智算平臺發(fā)展的未來思考25目錄j百度智能云01大模型時代,

智算平臺新特點小模型vs.大模型j百度智能云訓練時長訓練成本參數(shù)1800B算力8192塊

H100大模型時代,

智算平臺新特點小模型vs.大模型數(shù)據(jù)

13T*數(shù)據(jù)來源:非官方數(shù)據(jù)

,為業(yè)界推測增強:

參數(shù)爆炸突破顯存墻,

多機多卡成為常態(tài)增強:

卡間和機間高性能通信愈發(fā)重要維持:

GPU切分在小模型和推理場景依然存在新增:

新卡適配和芯片利舊,

多芯混合調度增強:

耗時長凸顯大模型訓推加速需求新增:

成本高帶來穩(wěn)定性需求,

減少資源閑置新增:

數(shù)據(jù)集處理加速新增:

數(shù)據(jù)湖存儲和高性能存儲55天158秒$2150萬$15參數(shù)

25M(

0.025B)ResNet50(小模型)算力

128

V100GPT-4(大模型)數(shù)據(jù)167G(ImageNet)j百度智能云訓練時長

訓練成本工程問題新要求vs

.502智算平臺需解決的問題基礎設施、調度、應用、運維j百度智能云任務管理?

多種AI框架和并行策略支持?

AI

任務調度和任務流管理?

云原生容器化運維資源管理?

大規(guī)模異構算力高效調度和分配?

算力虛擬化算力?

適配多種異構芯片?固件、

OS內核、

驅動兼容?

混合多芯存儲?

優(yōu)化存儲讀寫性能?

鏡像加速、

鏡像預鋪網(wǎng)絡?

搭建和調試高性能網(wǎng)絡智算平臺需解決的問題調度應用基礎設施?

訓練任務的性能優(yōu)化?

任務的監(jiān)控和容錯?

Flash

Checkpoint?

數(shù)據(jù)集下載和轉儲加速?

數(shù)據(jù)集的清洗和加工處理?

推理任務的性能優(yōu)化?

在線服務的監(jiān)控告警基礎設施、調度、應用、運維推理數(shù)據(jù)訓練百度智能云703大模型場景技術實踐基礎設施層j百度智能云基礎設施——混合多芯國產卡能否與NV卡一起使用?擬合性能系數(shù)

統(tǒng)一并行策略j百度智能云AI效能矩陣圖譜通信整合9TCP鏡像加速超大鏡像預加載P2P鏡像分發(fā)流式鏡像拉取訓練數(shù)據(jù)加速高性能并行文件系統(tǒng)全SSD閃存RDMA鏈路加速模型加速大吞吐數(shù)據(jù)湖存儲分布式緩存加速托管

BCC/BBC集群如何實現(xiàn)數(shù)據(jù)集加速?如何I/O加速?

鏡像服務

流式讀取

P2P加速對象存儲

BOS標準存儲

低頻存儲

冷存儲

歸檔存儲基礎設施——高性能存儲分布式緩存加速存儲

RapidFS并行文件存儲

PFSTCP/Infin

i

Band/RoCEj百度智能云M

E

MD

I

SKE

ME

MKD

I

S

KD

I

S

KD

ISM

E

MMM103層無收斂RDMA網(wǎng)絡Up

to

Up

to512

512Up

to

16K+Tor拓撲感知調度NCCL通信拓撲感知基礎設施——高性能網(wǎng)絡如何實現(xiàn)通信庫加速?j百度智能云03大模型場景技術實踐調度層j百度智能云用戶態(tài)方案CUDAdriverAPI,提供顯存限制,算力時分復用CUDAruntimeAPI,提供遠程調用,顯存限制,算力時分復用內核態(tài)方案內核模塊修改,提供顯存限制,算力時分復用Full/para-虛擬化,

內核模塊修改,MMIO攔截,顯存劃分,算力時分復用NV官方,硬件劃分,提供顯存劃分、算力劃分、編解碼劃分(1/7)SR-IOV,硬件劃分,提供顯存劃分、算力劃分(1/3、

1/2)調度——GPU虛擬化如何提高單卡資源利用率?Nvidia

MIG昆侖2

SR-IOVj百度智能云硬件方案13調度——GPU虛擬化雙引擎GPU

虛擬化優(yōu)勢:

性能好,

長尾延遲低缺點:

故障隔離差優(yōu)勢:

故障隔離好缺點:

有一定性能損耗j百度智能云用戶態(tài)內核態(tài)14調度——資源管理和調度邏輯如何調度資源?PodGroup

P

d

d

配額管理資源調度RDMA異構芯片(獨占/共享)CPU/MEM自定義資源調度會話

插件集合Gang調度GPU拓撲親和性調度混部調度Tor架構感知Binpack/Spread調

度Gang搶占

多租戶資源管理集群資源視圖入

隊資源回收資源分配回填j百度智能云資源搶占選擇最優(yōu)調度1503大模型場景技術實踐應用層j百度智能云品并行優(yōu)化顯存優(yōu)化算子優(yōu)化和推理性能?

兼容Llama2、

ChatGLM2等20余種開源模型,

一鍵部署,

透明加速應用——如何優(yōu)化訓練訓練性能提升30%+

推理性能提升60%+大模型推理加速鏡像大模型訓練加速鏡像背靠背

GEMM

融合細粒度顯存切分量化/剪枝/蒸餾數(shù)學等價代換/死代碼移除流水線并行優(yōu)化AIAK訓推加速算子融合GEMM/Conv

長尾

運算融合數(shù)據(jù)并行優(yōu)化行優(yōu)化顯存卸載注意力機制優(yōu)化顯存重算訪存密集型算子

融合模板化優(yōu)化訪存優(yōu)化調度優(yōu)化品圖精簡j百度智能云算子優(yōu)化算子融合17PytorchDeepspeedMegatronPaddlePaddle…任務無效訓練時間

=

故障中斷次數(shù)寫Ckpt總時長?降低節(jié)點故障率?提升故障感知召回率應如何任務異常快速感知重調度容錯鏡像/數(shù)據(jù)緩存加速硬件故障快速感知硬件端到端上線預檢測節(jié)點熱維修/秒級冷遷移恢復降低Ckpt時長,縮短Ckpt間隔周期?提升調度效率?降低節(jié)點MTTR用——訓練容錯框架容錯代價調度容錯效率基礎設施穩(wěn)定性+任務故障重算時長)

+

任務常態(tài)Ckpt

存儲加速異步Ckpt加速分布式Ckpt加速主流框架/分布式庫,打開開關即可容錯提升訓練穩(wěn)定性?×

(任務故障恢復時長矢百18FlashCK

PT

行內

成checkpoint操作,提升整體有效訓練時長。

業(yè)務可制定更細粒度的檢查點策略,

而降低故障恢復時間應用——Flash

Checkpoint如何降低Checkpoint

時間?分布式,

異步寫3每日節(jié)省有效訓練時長1千億大模型CKPT

寫入小時級CKPT,容錯恢復時間長

秒級CKPT,更細粒度的打點恢復Checkpoint

容錯機制帶來了計算時間片浪費

Memory

NVME

SSD

有效訓練時間

有效訓練時間Checkpoint

等待Checkpoint等待訓練框架訓練框架j百度智能云

Memory

FlashCKPT傳統(tǒng)方案并行文件存儲PFS同步寫

Memory加速層同步寫

Memory加速層遠端對象存儲等待

lastpart流式分塊上傳異步

close同步

close小時秒1903大模型場景技術實踐運維j百度智能云

運維目標

!

容量管理&優(yōu)化

分階段指標(診斷訓練分階段耗時,助力訓練性能

調優(yōu))任務性能大盤(訓推吞吐指標,任務并行策略、性能

關聯(lián)參數(shù))任務收斂監(jiān)控&告警(監(jiān)控任務loss收斂情況

,異常報警)集群資源視圖(集群資源概覽,利用率、分配率變化&趨勢,任務資源概覽)任務資源視圖(任務資源詳情

、GPU使用分析、Pod分配情況)節(jié)點資源視圖(節(jié)點資源詳情

、GPU分配/利用分析)運維目標可觀測能力故障定位時間小時級->分鐘級

發(fā)現(xiàn)資源瓶頸提升分配/利用率

發(fā)現(xiàn)任務性能瓶頸,

避免空跑任務告警(變更告警

、故障告警

、閾值告警)智能排障建議(基于大模型的智能故障分析)根因排查(集群、任務事件,任務運行日志)任務穩(wěn)定性大盤(任務關聯(lián)的節(jié)點、組件,配套服務健康情況)任務性能調優(yōu)故障處理發(fā)現(xiàn)快速

定位根因

排查輔助

止損j百度智能云2103大模型場景技術實踐百度百舸架構和演進j百度智能云大模型任

務增強百舸組件百舸資源

池穩(wěn)定性&容錯大模型訓推任務加速鏡像開源大模型定制優(yōu)化大模型IO加速方案FlashCheckpoint大鏡像預加載大規(guī)模鏡像P2P加速CCE

K8S集群A

I基礎組件智算平臺架構百度百舸30%訓練吞吐提升98.8%有效訓練時長60%推理吞吐提升95%帶寬有效性A800/H800/昆侖/升騰異構算

力高性能分布式存儲PFS萬卡RDMA網(wǎng)絡高性能算子高效并行策略高效顯存利用高性能訓推框架高性能網(wǎng)絡插件高性能存儲插件異構資源調度深度學習框架A

I任務編排任務工作流管理性能監(jiān)控&調優(yōu)任務穩(wěn)定性大盤集群資源視圖通信測試工具自動任務容錯多維故障感知j百度智能云A

I編排調度可觀測大盤23AI硬核能力積累百舸1

.0AI基礎設施產品化百舸3

.0一站式大模型算力平臺百度十年AI實踐

20212022百舸2

.0AI基礎設施云原生化支撐百度核心業(yè)務發(fā)展視覺&自然語言處理AI可觀測大盤通信&算子加速大模型新業(yè)態(tài)AIAK大模型訓推加速工具包智能故障診斷百度百舸發(fā)展歷程自動駕駛&生命科學孔明超級計算集群

AI容器服務j百度智能云X-MAN

超級AI服務器RDMA高性能網(wǎng)絡滄海

.高性

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論