




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
B400G以太網助力智算中心光互聯程偉強中國移動研究院-基礎網絡技術研究所算力成為數字經濟時代的核心競爭力AI大模型帶動算力成為數字經濟時代的核心競爭力。到2025年,我國算力規模將超過300
EFLOPS,智能算力占比達到35%;算力基礎設施將成為推動我國經濟轉型升級和培育新動能的重要力量2022年12月2022年中國移動全球合作伙伴大會發布《新一代智算中心網絡技術白皮書》2023年8月2023年中國算力(基礎設施)大會發布《中國移動NICC新型智算中心技術體系白皮書2023年5月2023云網智聯大會發布《面向AI大模型的智算中心網絡演進白皮書》智算中心將成為支撐和引領數字經濟發展的關鍵信息基礎設施,將有效促進AI產業化、產業AI化的進程國家發改委:《全國一體化大數據中心協同創新體系算力樞紐實施方案》2021年5月2022年7月工信部:加速推進高端芯片、新型數據中心等領域研發突破2022年1月國家發改委:我國將布局八大算力網絡國家樞紐節點
加快數字經濟發展2023年5月中央網信辦:以算力、賦能、產業發展互動
走出數字經濟特色化發展道路2023年10月工信部等六部門聯合印發《算力基礎設施高質量發展行動計劃》2單個流量:數量多、帶寬小、異步累積流量:抖動幅度較小,具有隨機性單個流量:數量少、帶寬大、同步累積流量:波峰、波谷效應明顯,具有周期性單個流量3累積流量單個流量累積流量傳統DC流量模型智算中心大模型(All-to-all)流量模型GPU停工等待其他GPU完成工作傳統DC與智算中心流量模型區別面向大模型訓練,網絡成為AI算力瓶頸AI大模型以GPU集群分布式訓練為基礎,帶來大量節點間通信消耗,網絡成為AI算力“瓶頸”當前業界主流智算中心網絡技術被國外廠商壟斷,網絡芯片存在代際差距,網絡可能成為我國AI發展的“新卡點”集群有效算力∝{GPU單卡算力*總卡數*線性加速比*有效運行時}網絡設備能力決定GPU集群組網規模
網絡性能決定GPU集群算力加速比
網絡可用性決定GPU集群穩定性芯片容量提升2倍,組網規模提高4倍 GPU集群性能
≠
單GPU性能*N 2%的丟包就會使RDMA吞吐率下降為0隨著GPU單卡算力受限,以網強算成為提升大模型訓練效率的關鍵,探索以太網的新調度機制、新接口速率和新安全方案,提升智算中心網絡性能和整體算力水平4目錄以太網新調度機制—GSE以太網新接口速率—B400GE以太網新安全方案—PHYSec56GSE技術體系---核心理念中國移動提出全調度以太網(GSE)技術架構,最大限度兼容以太網生態,創新基于報文容器(PKTC)的轉發及調度機制,構建無阻塞、高帶寬、低時延的新型智算中心網絡,形成標準開放的技術體系,助力AI產業發展創新以太網轉發機制,實現三大核心機制轉變從“局部”決策到“全局”調度從“流”分發到“報文”分發從盲發+被動控制到感知+主動控制將業務流拆分到不同“報文容器”轉發,提供逐“報文容器”負載均衡機制,提升帶寬利用率從被動擁塞控制,到基于“授權請求和響應機制”的主動流控,最大限度避免網絡擁塞產生全局視野的轉發調度機制,實現集中式管理運維、分布式控制轉發,提高網絡可用性當前:逐流負載,鏈路利用率低、發生擁塞被動降速未來:逐報文容器轉發,鏈路負載均衡,全局調度,避免擁塞SpineSpineSpine目的leaf32
1321321源leaf321321321擁塞3 2 13 2 12 1丟包報文容器以太報文以太報文報文1長度報文2長度報文2GSEHeader報文1GSEHeader源節點根據報文容器長度以及已經占用的字節數為到達該節點的報文分配相應的容器ID,并記錄其歸屬的報文容器編號及在該容器占用的字節數Packet報文容器是區別于CELL轉發的一種核心轉發機制,該機制下以太網報文根據最終設備或者設備出端口被邏輯分配并組裝成”邏輯等長”的虛擬報文容器,并以該”容器”為最小單元在交換網絡中傳輸基于確定長度的容器轉發提升多鏈路均衡性報文容器1早期
鏈路速率低長短包轉發差異性大切CellCell1Cell2Cell3報文容器將來鏈路速率高
總轉發帶寬增大Cell相應增大組容器Packet1Packet27DGSQ+調度在輸入端口將發送到不同端口(或者優先級)的數據包虛擬成不同的隊列,并且彼此互不影響,解決HOL從Send-based到Receive-based,避免網絡入向流量大于網絡容量,從源頭避免網絡擁塞GSE報文信令請求獲取信道資源INOUT無阻塞低時延 無損高帶寬vs逐流負載均衡
→
高時延
甚至
丟包容器負載均衡
→
長尾時延低,網絡利用率高低時延1000流量負載(%)報文時延非均勻到達模型下時延vs負載8負載均衡和重排序負載均衡方式
輪詢 隨機 基于擁塞感知每個轉發節點根據自身負載情況對PKTC進行負載均衡,且同PKTC內的報文轉發路徑相同,高精度負載均衡方式,消除網絡微突發,獲得轉發低延遲目的節點依照PKTC為單位進行容器間解亂序,同PKTC內報文嚴格保序容器間排序
大大降低排序壓力...GSFGSFGSPGSPGSP...容器1容器29目錄以太網新調度機制—GSE以太網新接口速率—B400GE以太網新安全方案—PHYSec10IEEE802.3
B400GE標準目標演進IEEE
P802.3df&dj
800GE和1.6TE規范目標電通道以太速率信號速率50m
MMF100m
MMF500m
SMF2km
SMF10km
SMF40km
SMFAUIBPCu800Gb/s100Gb/s800GAUI-8800GBASE-KR8800GBASE-CR88pairs800GE-VR88pairs800GE-SR88pairs800GE-DR88pairs800GE-DR8-2200Gb/s800GAUI-4800GBASE-KR4800GBASE-CR44pairs800GE-DR44pairs
800GE-DR4-24λ
800GE-FR44λ800GBASE-LR4800Gb/s1pair800GE-LR11pair800GE-ER11.6Tb/s100Gb/s1.6TAUI-16200Gb/s1.6TAUI-81.6TBASE-KR81.6TBASE-CR81.6TBASE-DR81.6TBASE-DR8-2802.3df802.3dj802.3dj智算中心內光互聯智算中心間光互聯潛在繼續分化出子項目200G/lane光
+電BaselineD1.0D2.0D3.0802.3dj2022202420232026+800GE(4×200G)1.6TbE(8x200G)20252021D1.0D2.0D3.0100G/lane光+電800GE(8x100G)802.3df200G/lane電800G單波相干D1.0?/D2.0?800GE(1×800G)1.6TE(2×800G)?800GE(4×200G)1.6TbE(8x200G)B400GE標準演進時間線11B400G以太網技術標準化進展800Gbps以太網標準802.3df:單通道100Gb/s的800G以太網標準,目前已完成TaskForceReview形成D3.1版本草案“IEEEP802.3df?/D3.1,14Nov.2023”,正在進行標準協會(SA)范圍審查802.3dj:單通道200Gb/s
FEC采用低復雜度Hamming(128,120)內碼級聯RS(544,514)外碼;PMA邏輯層方案已確定,光層Baseline目前還未確定,仍處于技術討論階段,需要更長的時間完成方案收斂802.3dj:面向10km和40km場景的單波800Gbps相干標準進展緩慢,800GE
LR1已確定采用KP4+BCH的FEC方案,但O波動和C波段之爭逐漸白熱化;800G
ER1采用相干已獲得業界共識,FEC和光層PMD方案尚未明確1.6Tbps以太網標準802.3dj:1.6TEPCS/FEC方案已確定,電接口形態包括16通道100Gbps(16AUI-16)和8通道200Gbps(1.6TAUI-8);1.6T
500m/2km
PMD子層方案尚未明確,2km采用相干技術可行性更高1.6TbpsLPO和CPO等技術已出現商用產品形態,在智算中心場景也將具有廣泛的應用潛力12推動800G
10km目標立項,確立相干技術路線中國移動積極參與并推動IEEE802.3df&dj工作組完成800G
10km目標立項,完成800G10km相干技術路線確立,提交10余篇標準文稿需求文稿ApplicationRequirementforBeyond400GEfromTelecomOperators’
Perspective分析文稿提出B400GE需求,引領技術方向Towardsconsensusonacoherentbased800G10/40kmspecification800G
10km方案對比分析,凸顯相干方案優勢Considerationon800Gb/scoherentsolutionsfor
10km800G-LR1/ER1的GMP
bypass方案分析標準文稿提出800G
10/40km發射和接收標準規范建議提出基于oFEC的800G
10km/40km規范建議提出800G-LR1/ER1與800ZR一致性規范建議標準文稿分析文稿ConsiderationsonGMPbypassfor
800G-LR1/ER1UpdatetooFEC-basedsinglelambdabaselinefor10kmand40km
objectives標準文稿Alignmentof800GBASE-LR1and800GBASE-ER1withOIF800ZRImplementations-abaseline
proposal1314800GE(8×100G)
500m/2km高速接口測試本次測試800GE短距光模塊性能整體較為穩定,模塊功耗在15w左右和工作溫度在50~60℃范圍仍有待優化空間;800GE光模塊與路由器設備和測試儀適配性能良好,業界支持800GE設備廠家還較為單一測試拓撲:可插拔光模塊插入測試儀表進行環回測試測試內容:非成幀誤碼率、FEC功能、發射機頻率偏移、收發傳輸時延、通道時延偏差、固件功能等光模塊性能測試800GE光模塊性能測試800GE光模塊與路由器設備適配測試模塊類型A廠商B廠商500m500m2km500m500m非成幀誤碼率通道11.0e-096.5e-103.3e-091.1e-073.3e-06通道23.9e-101.6e-103.8e-082.3e-074.9e-06通道31.4e-109.6e-101.7e-084.3e-081.6e-06通道46.9e-118.4e-112.5e-084.9e-083.8e-06通道52.7e-092.4e-092.3e-084.8e-082.3e-06通道66.5e-106.0e-103.4e-086.1e-081.7e-06通道72.0e-084.5e-093.6e-084.6e-093.0e-07通道81.1e-101.0e-093.4e-086.9e-081.8e-06模塊時延傳輸時延51ns52ns43ns92ns90ns時延抖動3ns3ns4ns4ns3ns測試拓撲:路由器設備800G接口對接測試儀表進行互通測試測試內容:包括流量轉發功能、業務功能等設備能力測試注:802.3df規定的非成幀誤碼率BER≤2.4e–4目錄以太網新調度機制—GSE以太網新接口速率—B400GE以太網新安全方案—PHYSec15PHYSec:物理層加密,更低時延、更低開銷、協議透明19951994 2006NowL5L4L3L2物理層TimeMACSecPHYSecSoftware+
hardwareHardwareHardwareTLS/DTLS MAC IP TCPsoftwareMAC IPMACMACCipher
textCipher
textCipher
textCipher
textRDMASecHardware2022UDPCipher
textMAC IPIPSec?智算中心基礎設施承載大量數據傳輸處理,安全訴求極高;RDMASec、MACSec等安全方案在加解密帶寬開銷、時延、硬件支持等方面存在性能瓶頸,暴露的幀頭部信息仍存在安全漏洞PacketMACPCSPMAPMAPMDxAUIPHYSec光模塊加密接口芯片加密PacketMACPCSPMAPMA PMDxAUIPHYSec16or探索新層次:將傳統密碼學思想應用到以太網物理層—PHYSec,解決現有技術方案的安全漏洞與性能瓶頸,具有極低開銷、時延以及低功耗和成本等優勢L1.5層PHYSec:基于“64B/66B碼塊”的PHY芯片實現MAC(Preamble+Padding+FCS)RSAMDeskewAM
LockRS-FECSymboldistributionReorderPMAEn/Decode(64B/66B)256B/257B(De)ScrambleDistribution/InterleaveMAC(Preamble+Padding+FCS)RSAMDeskewAM
LockRS-FECSymboldistributionReorderPMAEn/Decode(64B/66B)256B/257B(De)ScrambleDistribution/InterleavePMDPMAPMDPMADencryptionEncryption技術優勢:安全功能硬化,高吞量安全加密能力不占用設備CPU資源,安全能力卸載實現底層光通道不感知(OTN/SPN)的端到端數據加密加密后的64B/66B400GE400GE400GE400G
OTN64B/66B
GMP
OTUOTU
GMP
64B/66BL1.5-PHYSecPHY芯片Serdes光模塊光模塊PHY芯片Serdes17400GEL1.5-PHYSecL1層PHYSec:基于“比特流”的光模塊實現MAC(Preamble+Padding+FCS)RSDeskewAM
LockRS-FECSymboldistributionReorderPMAEn/Decode(
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 原煤銷售合同管理制度
- 美妝活動視覺設計合同
- 監管設備采購協議
- 高端定制家具買賣協議
- 零食鋪經營合同履約金條款
- 購房者信息披露協議
- 農村分布式太陽能光伏項目合作合同
- 場地監管廉政責任與賠償協議
- 車輛掛靠新能源汽車充電服務合同范本
- 柴油運輸車輛維護與保養合同
- 課題申報參考:數智時代大學生網絡社會心態形成發展規律及引導策略研究
- FIDIC標準合同范本
- 船舶與海洋工程原理(上)知到智慧樹章節測試課后答案2024年秋哈爾濱工程大學
- 《核電廠實物保護系統定期試驗規范》
- 江蘇卷2024年高考語文第一次模擬考試一(原卷版+解析版)
- 【MOOC】應用光學實驗-浙江大學 中國大學慕課MOOC答案
- 【MOOC】臺灣歷史與文化-福建師范大學 中國大學慕課MOOC答案
- 【MOOC】軟件工程與實踐導論-四川大學 中國大學慕課MOOC答案
- 轉體施工案例
- 深圳2020-2024年中考英語真題復習專題01 語法填空(解析版)
- 臨床執業助理醫師技能考試試題及答案
評論
0/150
提交評論