




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
在2024年最后一個月,我們可以來簡單回顧一下今年對數據中心行業的意AI相關基礎設施的研究與創新。2023年12月,中國電信集團太地區為代表的國際智算基礎設施發展情況,特別是液冷技術在AIDC的應用情素材,并通過CTG專家團隊和深知社研究員團隊精心梳理和編寫,最終形成了第一章、智算產業發展與液冷技術應用的機遇與挑 GPU芯片快速發展帶來的能耗與散熱挑 規模部署給機柜散熱帶來新的挑 智算中心用電規模及能效的挑 智算中心水資源利用率WUE的挑 液冷技術應用的機遇與挑 亞太地區數據中心產業現狀及重點地區分 亞太地區智算中心發展遇到的氣候挑 亞太地區智算中心液冷應用現狀與發展趨 第三章、液冷主流技術路線及架構分 液冷通用架 熱捕 熱交 冷 液冷架構分 第四章、風液混合制冷架構的特點分 風液融合是智算中心液冷應用的必由之 常見的風液融合架 不同風液融合架構下WUE、PUE、TCO對比分 架構選擇建 第五章、典型智算中心液冷應用場景的選擇分 大型智算中心的液冷架 中小型智算中心的液冷架 第六章、液冷系統的預制 數據中心產品預制化發展的趨勢與價 冷源預制化方 一體化液冷機柜及液冷微模 冷板式液冷集裝 第七章、傳統風冷數據中心的液冷改 冷凍水系統的液冷改 直膨式空調系 第八章、典型智算中心液冷系統運行挑 冷板系統可靠性驗 冷板液冷服務器適配性驗 冷板液冷系統運維界面劃 冷板液冷系統的運行與維 第九章、智算中心新技術展 數據中心制冷技術的演進分 未來熱門的液冷技術應用前 第十章、總 附:名詞解 隨著CPU、GPU、NPU、TPU(詳見名詞解釋)等芯片的發展,基于大模2024年GTC大會上公布的數據(模型時,每token所消耗的能源下降了45,000倍。1-1B100GPU較P100Token的能耗減少了450001-1P100到B100各項指標參數(GPT4-MOE-1.8T10天基準測試為參考V100到GB200的芯片散熱功率的變化值,以及未來1-2TDP按照英偉達最新的計劃,采用最新芯片架構的GB200算力模組,模組的散5400W(兩塊GB200)GPU服務器的Blackwell系列開始大規模部署開始,從芯片到服務器再到數據中心的散熱技術需要快速迭代,以適配AI攀升,GPU間需要大量的交換數據。因此,GPU通信性能成為了非常重要的指AI集群中進行分布式訓練時,通信是必要環節,同時也是相比于單機訓練AIGPU的大規模集群為基礎來實現的。在模型訓練的過GPU單卡算力乘以卡數量就能獲得。集兩層網絡架構下,GPU最大拓展數量=P2/4(P為交換機端口數)有效運行時間:網絡可靠性決定GPU集群有效運行時間。長時訓練網絡不穩定影響較大。網絡故障后輕則回退到上個斷點重訓,重則整個任務從0和有效運行時間共同決定的。為實現GPU大規模部署從而產生更高的算力,GPU專用組網體系,并盡量縮短網絡布線距離,來減GPU服務器機柜由于部署了更多的設備,其功率密度不斷走18576張GPUSuperPod,其功率達到升13倍)也給數據中心的基礎設施散熱提出了前所未有的挑戰。的增長。根據高盛研究的預測(1-3),20232030年間,人工智能將圖1-3150MW1.59TWh0.078USD/kWh的電力成本計算,總電力支出為1.239億美金。H100GPU700W,構成服務器的CPU、網絡接口卡(NIC)、電源單元(PSU)總功率為575W,一般為8H100服務器外,AI集群還需要存儲服務器、網絡交換機、CPU節點、光收發器和許多其他輔助產品,加起來用電功率占IT總功率的10%10萬張H100的智算集群,IT150MW。6000萬美金。可見,在未來的一段時間內,總電力規模的需求和單位能耗比PUE將成為制約智算中心建設的關鍵。而其中制冷系統的能耗占比為70%智算中心水資源利用率WUE以亞太地區典型市場新加坡為例,2021(即上一年凈用水量至少為60,000m3)的WUE中位值為2.2m3/MWh。據此數據,新加坡公共事業局(PUB)提出,幫助新建和現有數據中心降低WUE據中心增長的主要推動力。而由于技術的需要,高性能的GPU芯片會帶來更高大于300W,機柜功率密度大于40kW以上時推薦使用液冷制冷技術。同時液冷PUE和WUE。因此智算的快速發展給液冷技術在數據60多年、云數據中心發展的20多年歷史來看,空氣冷卻型制冷(業內也稱風冷Hyperscale和Colocation規模下的大范圍商用還未根據咨詢機構CUSHMAN&WAKEFIELD的市場調研報告《AsiaPacific2.8GW。在亞太地區的14個市場中,主要的成熟市場是:中國大陸(4.2GW)、日日本——202314%。截止到2023年底,該市場還額外吸收了44MW的Hyper和Colocation的容量,平均的9MW,并計劃持續增容,達到平均40MW的規模。心的建設有所延誤。例如小田園數據中心的開發,在已確保了2025年可以獲得京西部(相模原集群的一部分)的300,000平方英尺(27,870平方米)永久產權專用數據中心,該數據中心將于2027年竣工,成為吉寶在日本的首個數據中心圖2-1總IT容量為1347MW,其中已經投運的有965MW占比71.64%;在建的有自用業務占比44.77%,目前的空置率僅為8MW。特別是以AI為主要驅動的智算中心基礎設施的建設和運行需要消耗大量的土地、馬來西亞及印度尼隨著2019年新加坡暫停建設本土數據中心以后,最具地理優勢的馬來西亞成為了亞太地區最熱門的數據中心投資區域。據《第一數據:FirstBigData》CSFGroup、BasisBay和VADS等公司是大吉隆坡地區市場的先行者。第一數據2018BridgeDataCenters從CSF集團手中收購了其余份額領先的公司包括NTT、AIMS、BridgeDataCenters和VADS。圖2-2集群二:柔佛和巴淡島。根據STRCTURERESEARCH20244《DCIREPORTSERIESMARTET:JOHOR&BATAM》披露的數據(2-圖2-3柔佛及巴淡島地區2024新加坡位于北緯1°18′103°51′,馬來西亞半島的南端。新加坡地處熱23-33℃65%到90%之間。12圖2-4ASHRAE的氣象數據(見圖2-4),10年的極端高溫為根據OMDIA的研究報告,馬來西亞數據中心最多的三個地區為:吉隆坡、3°08',東經101°42',馬來西亞半島的西海岸。吉隆坡為熱帶左右。5月是一年中最熱的月份,平均氣溫29℃左右。圖圖2-521.3℃,極端濕球31.3℃。6°09′,東經106°49′29-32℃之間,雨季(114月)28℃左右。圖2-619.2℃,極端濕球29.3℃。時間非常有限,最終導致PUE偏高。1234而即將大規劃商用化部署的面向AI業務的智算中心更多的會采用冷板式液冷的方式。當前全球規模化部署冷板式液冷的數據中心并不多,我們以特斯拉xAIColossus數據中心為例,來了解智算中心液冷規模化部署的現狀。特斯拉包含8個GPU864個GPU。再由8個近200個陣列(見圖2-7)。2-7xAIColossus特斯拉xAIColossus集群的液冷技術采用液冷整機柜設計,每個機柜含一CDU(CoolingDistributionUnit)。為保證液冷系統支持在線維護(見圖2-8)。圖2-8特斯拉xAIExchange(圖2-9xAI在亞太區(除中國外),區是馬來西亞。近兩年,以秦淮數據海外公司BridgeDataCenter和萬國數據為首的中國數據中心運營商,以及東南亞本地的NTT、STT等成熟運營商都在積極部署液冷數據中心,當前馬來地區的液冷數據中心規模也達到了150MW以上。2025GB200NVL液冷整機柜業務的大量部署,亞太地區的液的算力大會上,中國電信研究院發布的《智算產業發展研究報告(2024)已建成的有40多個。圖2-10量超5EFLOPS,能夠支持萬億參數大模型訓練。這一成就不僅為科研院校、大模型公司等企業機構在AI計算、深度學習、訓練推理等研究中提供了澎湃的算圖2-11自2023年9月投入運營以來,建設大規模商用液冷資源池,通過“兩彈一優”8kW到48kW之間RDMA128、512卡30KM對比驗證,訓練效率可達單集群的95%5家大模型訓練性能測試,支撐星辰115B等基礎大模型平穩訓練,集群可用率達到90%以上。圖3-1液冷的熱捕獲指的是使用液體從IT組件中帶走熱量。根據熱捕獲的方式不在發熱元件(CPU/GPU等大功耗部件)上的冷板(通常為銅鋁等導熱金圖3-2冷卻液的對比如下表3-表3-1會導致換熱效率大幅下降,同時也可能造成泄漏,損壞服務器。推薦選擇25%然后進入CDU中散熱,整個過程中冷卻液不會發生相變。實物圖和原理圖如下圖3-3汽上升到達冷凝器盤管會變成液體并落下。實物圖和原理圖如下圖3-4:圖3-4入CDU中。兩者的對比如下表3-表3-234噴淋式液冷是用低溫冷卻液直接噴淋IT組件的發熱元件,吸熱后的高溫冷噴淋式液冷的實物圖及原理圖如下圖3-圖3-5比較,見表3-3:表3-3CDU(CoolantDistributionUnit)即冷量分配單元來實現。作為連接一次側和二次側的“橋梁”,CDU中包含熱交換模塊、泵模塊、1、一/23、冷卻液監測&CDU的類型,可以從以下兩個方面具CDUCDUCDUCDU3-3-4CDUCDU兩者的原理圖如下圖3-3-6CDUCDU3-3-5CDU度,ASHRAETC9.9定義了一次側冷水的溫度等級,如下表3-6:3-6ASHRAE需要在冷塔的出水口增加板換和泵組,避免CDU板換結垢。系統原理圖如下圖3-圖3-7閉的系統,所以水質比較好,不需要增加板換,WUE也會低于開式冷卻塔。缺系統原理圖如下圖3-圖3-8有消耗水。優點是WUE為0(或非常低),價格便宜。缺點是換熱效率較低,系統原理圖如下圖3-9:圖3-9WUE0,系統原理圖如下圖3-圖3-10可以分為風冷冷水機+水側自然冷系統,水冷冷水機+水側自然冷系統,磁懸浮相變+氟泵自然冷系統。風冷冷水機+系統原理圖如下圖3-圖3-11風冷冷水機+風冷冷水機+3-7:表3-7水冷冷水機+系統原理圖如下圖3-圖3-12水冷冷水機+1-4的狀態,可以分別實現機械冷、部分自然冷、完全自然冷。3-8:表3-8磁懸浮相變+可選擇干冷器或者蒸發式冷凝器,前者WUE低,后者能效高。系統原理圖如下圖3-圖3-13CDUL2A原理圖如下圖3-圖3-1412、氣候條件(溫度、濕度、氣溫變化范圍等3、水資源情況及WUE4、技術因素(能效、可靠性、冷卻介質等5、經濟因素(初投資&運行成本本文中所涉及的冷源選擇建議如下圖3-15:圖3-15表3-93-10選擇合適的液冷架表3-10量的50%-85%,其余部分的散熱仍要依靠傳統的風冷形式。圖4-1冷卻塔+架構模型如下圖4-圖4-2冷卻塔+冷水主機+架構模型如下圖4-圖4-3冷機+冷卻塔+集成板換的水冷冷機,室內側風冷部分使用水冷DX空調,由冷卻塔散4-4冷機+水冷DXTDPOCP的研究,見圖4-52030年,GPUTDP1.5kW。更高的發熱量需要更低的冷卻液溫度,1.5kW20-40℃,為了應對芯片的快速迭代并保證制冷設備可長期使用,合理的冷卻液溫度是30℃,對應的一次30℃。4-5OCP磁懸浮相變系統+該架構的室外側冷源使用帶有氟泵自然冷的磁懸浮相變系統,見圖4-6。二背板等。CDU的換熱類型為L2R。圖4-6磁懸浮相變+到CDU和末端空調,這樣可以減少換熱次數從而帶來更高的能效。同時也和冷100%的制冷量。并且冷源可以與二次側末端一起調節,實現不風冷部分使用冷凍水系統架構模型,圖4-圖4-7風冷部分使用間接蒸發冷架構模型,圖4-圖4-84層。該系統的WUE會比較高,因此在缺水地區也可以使用傳統的精密空調。風冷部分使用精密空調架構模型,圖4-圖4-9風冷部分采用CRAC4-1進行比較:表4-1不同風液融合架構下WUE、PUE、TCO進行對比,見表4-2液冷占比為50%-85%表4-2表4-3馬來西亞數據中心PUE4-10進行圖4-10AI領域外,還廣泛應用于物聯網、工業互聯網等新興領由于高性能計算設備(如GPU和AI加速器)產生的熱量遠超傳統服務器,參考第三章和第四章的內容,液冷架構分為熱捕獲、DU、冷源三個部分,步驟一,見圖5-圖5-1步驟二,圖5-圖5-2圖5-3圖5-4次側供液溫度35℃。步驟一,見圖5-圖5-5將CDU內置,工程現場只需要一些簡單的操作。圖5-65-7:冷板式液冷應用在中小型智算中心時,為了實圖5-7UPS、模塊化溫控、模塊化母線等數據中心部件到迪顧問發布的《2023-20242023連續三年保持20%以上的高速增長。預計到2026年,中國液冷數據中心市場規模將達到180.1億元,同比增長將達29.1%。針對液冷系統預制化,現階段冷源單元式預制集裝箱集成冷站(見圖6-1)一般可根據不同的冷量將其劃分為圖6-1組合式預制集裝箱模式(見圖6-2)一般可分為三種類型,類型一:冷機模圖6-2方艙式具體可以分為室內方艙及室外方艙,室內方艙(見圖6-3)是由管路外方艙(見圖6-4)是由冷源模組、水力模組、蓄冷罐、冷站控制室等組成。圖6-3圖6-4架構動態雙冷源系統(見圖6-5)中有較好的應用。現階段維諦技術、曙光數創圖6-5冷板式液冷一體化冷源(動態雙冷源)對于間接蒸發冷卻一體化冷源(見圖6-6)是利用間接蒸發冷卻技術產出低于20-22℃以下冷卻水,滿足液冷機房氣通道供水溫度要求。目前,均有實現全年圖6-6一體化冷板式液冷機柜(見圖6-7)以單個機柜為單位,采用模塊化設計理念,高集成、高標準設計,整合IT機柜、配電單元、封閉組件、制冷單元、布線、綜合運維等功能獨立的單元,由機柜、Manifold管路、液冷服務器、液冷CDU構成。單柜內全部組件在工廠預制安裝、調試,可圖6-7一體化單項浸沒式液冷機柜(見圖6-8),采用單項浸沒式液冷技術,將發CDU供液采用集中供液方案,滿足集中換熱的同時又可單獨于運維;圖6-8液冷微模塊產品(見圖6-9)集成風冷、液冷、供配電、機柜、氣流遏制、圖6-9冷板式液冷集裝箱(見圖6-10)是一種采用液冷制冷系統+輔助風冷制冷系制化設計。以某品牌45尺冷板式集裝箱為例進行構成剖析,此款產品尺寸13716*3000*3600mm(W*D*H),單機柜平均功耗20kW,單模塊可放置6個液N+1冗余備份,采用環形管路的形式,一次側循環泵(1+1)備份模式,液冷CDU(1+1)40℃供水(去離子水),二次側采用環圖6-10冷板式液冷集裝箱(45尺2PUE的要求越來越嚴格,而液冷相比傳統風能節省約20%-30%的能源,有效降低PUE,助力實現節能減碳目標。仍然以東南亞地區為例,一次側供液溫度35℃。方案模型如下圖7-圖7-1方案模型如下圖7-圖7-2L2AL2LL2A量傳遞給機房內的空氣,然后再由原有的風冷空調將熱量排到室外。CDU使用L2A型,它與新增的液冷機柜并排布置并用管路進行連接。方案模型如下圖7-7-3L2A但低于L2L方案;冗余性較差;CDU占用較多空間,不適合大規模部署。L2R該方案采用分體式冷水機,它可以用原有的精密空調進行改造,并與CDU7-4,如果是在寒冷地區,可以考慮增加氟泵自圖7-4方案模型如下圖7-圖7-5L2R續性;能效顯著提高,優于L2A方案。缺點是改造量大且成本高。系統聯調及故障模擬階段驗證系統是否能夠在不同的機房設計負載率工況的響應是否滿足設計要求。系統聯調及故障模擬階段包含以下內容在冷板液冷機房模塊內的所有液冷機柜布置相應設計功率的液冷假負載和風冷假負載。通過開啟風液冷假負載,使得測試機房模塊通道內的風液冷熱負荷達到100%,驗證冷板液冷系統的100%50%、75%、100%表8-11、IT2、IT側交付液冷服務器+3、IT側交付液冷服務器+液冷機柜+CDU+ 根據不同的液冷系統交付模式,確定相應的運維界面,通過制定并執行IT側和機房側的SLA,共同保障液冷系統的安全穩定運行。同時,由于冷卻工質進CDU液冷系統CDU水箱自帶補水定壓功能,非緊急情況下,可通過CDU自帶CDU內補液與外補液同時補液。對外置補水小車的水9?th 下表9-1圖9-1超過30kW/R時,建議優先考慮液冷方案。9-2是OCPCPU&GPU熱阻的趨勢研究,可以總結兩點:GPU是圖9-2原理圖如下圖9-圖9-3被動兩相式原理圖圖9-4原理圖如下圖9-圖9-59-6是維諦技術(Vertiv)與IntelVertivCDUIntel圖9-6(P2P17-45℃。機柜式R2L型CDU+兩相冷板。這兩種架構也對應芯片功率的發展趨勢。如前該技術目前有兩條技術路線:單相浸沒+兩相冷板和單相浸沒+單相浸沒+該混合液冷方案由NVIDIA團隊構建,以應對未來GPU芯片更高的散熱需求。作為先進的液體冷卻系統,得到了美國能源部COOLERCHIPS計劃500萬美元的NVIDIA的混合液冷結合了芯片的兩相冷板冷卻和其余組件的單相浸沒冷卻。據NVIDIA介紹,該系統有如下優點:1、服務器機架功率高達200kW,是目前的252、與風冷相比,成本至少降低3、與風冷相比,冷卻效率提高該系統原理圖如下圖9-9-7混合液冷原理圖下圖9-8是NVIDIA官方博客發布的圖片:9-8NV該系統目前還處于開發階段,只有相關的概念,但該技術是NVIDIA提出,單相浸沒+它的原理是:向密封的刀片服務器中注入冷卻液,給芯片以外的IT組件提原理圖如下圖9-圖9-9后直接進入到換熱銅管中,通過換熱銅管給冷卻液降溫,從而為其他IT組件散下圖9-10是使用該混合液冷技術的服務器和機柜實物圖:該機柜共安裝個服務器,功率≥48kW圖9-10模塊化CDU的開發提供了兩條思路:CDUORV3標準機柜,按照這種設計理念,Rittal的模塊化CDU以ORV3機架為基礎,所有的模塊都可以直接安裝在標準的ORV3機架內;泵模塊采用分布式小顆粒度的N+1設計,高可用性,并且可以按需開啟;所有模塊支持熱插拔,并采用DC48V供電。機柜的實物照片及布局如下圖9-9-11模塊化CDU該CDU4+1冗余配置,每個
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年二手電商信用風險管理策略深度研究報告
- 零食與糖果區企業制定與實施新質生產力項目商業計劃書
- 高效合成方法行業跨境出海項目商業計劃書
- 袋鼠數學比賽題目及答案
- 大學知覺心理題目及答案
- 泉港一中自主招生考試試題及答案
- 【欽州】2025年廣西欽州市產業園區改革發展辦公室公開招聘工作人員8人筆試歷年典型考題及考點剖析附帶答案詳解
- 【湛江】2025年中國熱帶農業科學院南亞熱帶作物研究所第一批招聘工作人員23人(第1號)筆試歷年典型考題及考點剖析附帶答案詳解
- 2025年福建武夷旅游集團有限公司人才教育板塊自主招聘17人筆試參考題庫附帶答案詳解
- 2025年安徽省蚌埠市懷遠縣事業單位公開招聘工作人員筆試歷年典型考題及考點剖析附帶答案詳解
- 秀場內外-走進服裝表演藝術智慧樹知到答案2024年武漢紡織大學
- 川民版《勞動教育》六下 第7課《制作皮影》教學設計
- 業財一體信息化智慧樹知到答案2024年海南經貿職業技術學院、海口經濟學院、河南財政金融學院、麗水職業技術學院、新道科技股份有限公司
- 2024年北京英語考試專題考題及詳細答案
- 禮品行業供應鏈管理研究
- 《學前兒童健康教育》6-3學前兒童安全教育活動的組織與實施課件
- 大學生創業基礎智慧樹知到期末考試答案章節答案2024年湖北工業大學
- 2025年高考歷史一輪復習復習學案(中外歷史綱要上下冊)11綱要下冊第一單元:古代文明的產生與發展(解析版)
- 新人教小學四年級數學下冊第6單元小數的加法和減法第1課時《小數的加減法(一)》示范教學設計
- 七年級語文下冊第六單元《帶上她的眼睛》課件
- 貝雷梁支架結構計算書
評論
0/150
提交評論