2022浸沒液冷服務器可靠性白皮書_第1頁
2022浸沒液冷服務器可靠性白皮書_第2頁
2022浸沒液冷服務器可靠性白皮書_第3頁
2022浸沒液冷服務器可靠性白皮書_第4頁
2022浸沒液冷服務器可靠性白皮書_第5頁
已閱讀5頁,還剩15頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

浸沒液冷服務器可靠性白皮書2022PAGE\*romanPAGE\*romani目錄浸沒液服務靠性白書 1引言 1傳統風數據心故障況 2溫誘發的機理 2振誘發的機理 3濕誘發的機理 4灰誘發的機理 4空氣冷與浸液冷下電子的環境力差析 6濕對比 6振對比 6灰對比 6阿里云沒式冷服務運行分析 6浸液冷器運行效率析 7服器各失效率計結果 8阿里云沒式冷服務長期后可靠評估 8服器系行穩定及性析 8服器主理特性析 9服器主號完整分析 服器主源完整分析 12服器電塊PSU可靠性析 13服器機構件可性分析 14冷液長靠性分析 156.總結 16浸沒液冷服務器可靠性白皮書浸沒液冷服務器可靠性白皮書PAGEPAGE10浸沒液冷服務器可靠性白皮書引言01題,很好的解決了這兩個挑戰。(以下簡稱“白皮書代背景下,傳統制冷系統逐步面臨瓶頸,液冷技術生態化正在加速形成。性、操作性的參考資料,希望能夠在從風冷到液冷服務器轉型過程中提供有效賦能。傳統風冷數據中心故障情況溫度誘發故障的機理(20℃-25℃)高溫激發出的主要的故障模式如下:不同材料膨脹系數不一致使零件粘結在一起;潤滑劑粘度降低。潤滑劑外流使連接處損失潤滑能力;故障或破壞完整性;(溫度不均勻性(即循環次數)越少。溫度循環激發出的主要故障模式如下:使涂層、材料或線頭上各種微觀裂紋擴大;使粘接不好的接頭松弛;使螺釘連接或鉚接不當的接頭松弛;使機械張力不足的壓配接頭松弛;使質量差的釬焊接觸電阻加大或造成開路;振動誘發故障的機理振動激發出的主要的故障模式如下:電纜磨損,如在松弛的電纜結處存在類似于尖緣那樣的缺陷時;制造不當的螺釘接頭松弛;安裝加工不當的集成電路片離開插座;失效;損壞,例如電路板前板的發光二極管或在背板散熱箱的功率晶體管;已損壞或安裝不當的脆性絕緣材料中出現裂紋。濕度誘發故障的機理又會影響表面電阻下降,這些都會影響產品工作性能。濕度激發出的故障模式主要有:要的。毛細凝露。當隱患與斷裂、縫隙和細孔有關時,毛細凝露是故障的主出現故障。很少有關。灰塵誘發故障的機理15μm2.5~15μm0.1μm~2.5μm“懸浮顆粒狀物質”TSP。灰塵激發出的故障模式主要有:0.5μmMOS電路的重要失效緣由。絕緣性灰塵附著在連接器和接點的接觸部分后,會引起接觸不良。當有導電性灰塵附著時,會造成信號短路。電氣元件散熱,造成芯片和其它元器件更快損壞。電子設備故障統計數據結果分析(1USAirForceAvionicsintegrity在導致電子設備失效的因素中,55%(6%,19%,20%)。1空氣冷卻與浸沒液冷下對電子設備的環境應力差別分析濕度對比影響因素。振動對比由于浸沒液冷完全浸入不導電的液體中,不在需要高速風扇來進行散熱,故浸沒液冷消除了風扇全速振動帶來的可靠性影響。灰塵對比由于浸沒液冷完全浸入不導電的液體中,與空氣完全隔離,故浸沒液冷消除了灰塵帶來的可靠性影響。ITITIT設備的可靠性。阿里云浸沒式液冷服務器運行狀態分析2016年首次推出浸沒液冷系統;20186月位于河北省張家口市建成了全球互tank2千多臺液冷服務器,包括通用計算型、SSD/HDD存儲型液冷服務器,已成功支撐阿里巴巴20182020的雙十一活動。20209PUE達1.09的綠色節能型單相全浸沒式液冷數據中心在阿里云浙江云計算數據中心正式揭幕并5A6年的研發及規模化落2202163證液冷服務器能持續滿足業務需求,需要關注液冷服務器本身的長期可靠性。浸沒液冷服務器運行失效率分析阿里云浸沒液冷數據中心于2018年6月完成并投入使用,分別選取液冷服20182021服務器各部件累計失效率。(1U)(1U機(1U)(1U機頭+4U機尾)34服務器各部件失效率統計結果部件SAS/Raid部件SAS/RaidSSDHD CPUDMemory主板 PSU 網卡 網線 風扇風冷失效率1.00 0.87 0.77 0.28 0.22 0.64 0.26 0.11 0.80 0.0200* 24* 59* 87* 61* 86* 77* 79* 19* X X X X X X X X X X液冷失效率0.64 0.48 0.61 0.17 0.11 0.35 0.04 0.00 0.17988* 52* 87* 94* 98* 88* 67* 00* X X X X X X X X X0.0000*X加權分析液冷改善液冷vs冷失效率改善35.0 44.3 20.2 37.8 46.9 44.6 82.5 100. 77.6 100. 52.2% 8% 6% 7% 9% 9% 6% 00% 3% 00% 9%53%,整體服務器可靠性符合預期。阿里云浸沒式液冷服務器長期運行后可靠性評估-部件-器件-料層面的物理特性&電氣特性進行了的可靠性的評估分析。服務器系統運行穩定性及性能分析3次風冷服務器的系統運行數據,得到液冷服務器的系統運行可靠性分析結果。2測試項目測試內容風冷結果液冷結果測試結論穩定性整機壓力測試+healthcheck整機壓力測試pass整機壓力測試pass風冷和液冷的系統運行穩定性均滿足金剛基線要求,無異常。DCcycle測試+hwqc+healthcheck運行DC500次pass運行DC500次passOSreboot測試+hwqc+healthcheck運行reboot500次pass運行reboot500次pass性能CPU性能(金剛基線)滿足基線要求滿足基線要求液冷改善小于1%,無顯著差異內存性能(金剛基線)copy,add,scale,triad滿足基線要求滿足基線要求液冷差異小于2%,無顯著差異SSD性能-順序讀128kreadbw/MB/s滿足基線要求滿足基線要求液冷改善小于1%,無顯著差異SSD性能-順序寫128kwritebw/MB/s滿足基線要求滿足基線要求液冷改善小于3%,無顯著差異SSD性能-隨機寫4krandreadiops滿足基線要求滿足基線要求液冷差異小于3%,無顯著差異SSD性能-隨機讀4krandwriteiops滿足基線要求滿足基線要求液冷差異小于3%,無顯著差異&vs液冷服務器,CPU性能、SSD讀寫性能測試結果差異較小,性能無顯著差異。服務器主板物理特性分析為了評估液冷環境對主板物理特性是否有影響,本文對液冷環境PCBA物理特性層面可靠性進行了分析,同時對比風冷和液冷PCBA的物理特性可靠性的差異。隨機選取已經運行近3年的的阿里云浸沒式液冷服務器,評估其PCBA物體層面可靠性。3測試項目測試內容風冷結果液冷結果風vs液測試結論PCBA物理特性PCBA外觀檢查外觀檢視ok,未見顯著異常外觀檢視ok,未見顯著異常液冷PCBA老化不明顯;其他無明顯差異PCBA上關鍵器件外觀檢查檢視ok,未見顯著異常未見顯著異常無明顯差異焊盤或露銅檢查無腐蝕、變色、剝離現象無腐蝕、變色、剝離現象無明顯差異過孔和螺釘孔外觀分析無腐蝕、變色、孔盤剝離現象無腐蝕、變色、孔盤剝離現象無明顯差異焊點外觀分析無腐蝕、變色、開裂現象無腐蝕、變色、開裂現象無明顯差異絲印和條形碼分析產品絲印、條碼均清晰、無變色脫落現象產品絲印、條碼均清晰、無變色脫落現象無明顯差異關鍵器件焊點X-ray分析無焊點異常無焊點異常無明顯差異密間距器件引腳間枝晶分析QFN器件焊點無短路異常QFN器件焊點無短路異常無明顯差異PTH焊接孔切片分析PTH孔無腐蝕異常,焊料填充正常PTH孔無腐蝕異常,焊料填充正常無明顯差異VIA孔切片分析Via孔無腐蝕異常,PCB結構完整Via孔無腐蝕異常,PCB結構完整無明顯差異PCB內層切片分析PCB內層無分層起泡現象PCB內層無分層起泡現象無明顯差異焊點切片分析無裂紋,IMC連續形貌正常無裂紋,IMC連續形貌正常滿足判定要求染色試驗檢測焊接無異常缺陷焊接無異常缺陷無明顯差異PCBAIPCPCBA射線分析、切片分析、染色試驗等結果風冷和液冷主板無顯著差異。服務器主板信號完整性分析浸沒式液冷對PCB的影響,主要是針對傳輸線影響即對走線的影響。傳輸線根據電磁場的理論,當高頻信號通過傳輸線時,各點電壓和電流是不相同的。各點分布參數(電阻、電感、電容、電導)存在于傳輸線的所有位置上,隨著頻率的提高,分布參數效應會帶來不同影響。3性進行對比分析,比較液冷主板信號與風冷主板信號的差異性。UPIDMIRMTPCIe-TXTDR等項目的測試分析,同時對高速連接器及線纜的電氣特性進行分析。測試結果匯總如下表:4測試項目測試內容風冷結果液冷結果測試結論信號完整性UPIMargin(CPU之間SI)滿足spec要求滿足spec要求均滿足spec要求,且余量較大DMIMargin(CPU與南橋間SI)滿足spec要求滿足spec要求均滿足spec要求,且余量較大RMTMargin(CPU與內存間SI)滿足spec要求滿足spec要求均滿足spec要求,且余量較大PCIe-TX/ps滿足spec要求滿足spec要求均滿足spec要求,且余量較大器件TDR阻抗測試/Ω滿足spec要求滿足spec要求TDR滿足spec要求高速連接器高速線纜外觀檢視&物理特性連接器&線纜外觀無異常連接器&線纜外觀無異常外觀無明顯差異電氣特性測試(IL/RL/TDR/CR等)電氣特性測試滿足spec要求;滿足+/-10%要求滿足+/-10%要求,長期工作特性無明顯變化均滿足使用要求SISPEC變化。服務器主板電源完整性分析針對液冷環境對板級pcb和電源器件(VRcontroller,Powerstage,POLconverter,LDO的長期可靠性和電氣特性影響進PIV測試結果的差異性,判斷標準是測試結果相差小于人為測試誤差(5-10mV),并滿足板級電源規格(IntelCPU、PCHmemory和基本上下電、環路、MOS應力、輸出過流過壓保護測試等)。5測試項目測試內容風冷結果液冷結果測試結論CPU/MemoryVR(多相)IntelCPU&MemoryVRTT(PVCCIN,PVCCSA,PVCCIO;PVDDQ,P0V6,P2V5)滿足IntelCPU和Memory電源規格要求滿足IntelCPU和Memory電源規格要求風冷和液冷均滿足Intel電源規格要求上下電/MOSVds/Jitter/ControlLoop/輸出保護(OCP/OVP),etc.滿足阿里服務器測試規范(PIV部分)滿足阿里服務器測試規范(PIV部分)風冷和液冷均滿足SPEC;其他SwitchingVR/LDO(單相)DCregulation/Transient/上下電/MOSVds/Jitter/ControlLoop/輸出保護(OCP/OVP),etc.滿足阿里服務器測試規范(PIV部分)滿足阿里服務器測試規范(PIV部分)風冷和液冷均滿足SPEC;EFUSE/HOTSWAP緩啟時間/過流保護/MOSSOA/熱插拔滿足阿里服務器測試規范(PIV部分)滿足阿里服務器測試規范(PIV部分)風冷和液冷均滿足SPEC;VRIC(Controller/Powerstage)單體外觀&物理特性外觀檢視無異常外觀檢視無異常無顯著差異電氣特性滿足器件規格要求滿足器件規格要求無顯著差異電感、電容、MOSFET、Diode(TVS,Schottky)單體外觀&物理特性外觀檢視無異常外觀檢視無異常無顯著差異電氣特性(感值,Rdc,Isat,容值,ESR,Rds_on,SOA,Qg等)滿足器件規格要求滿足器件規格要求無顯著差異PIintel范(PIV部分),vsPI電氣性能&SPEC&電氣特性無明顯變化。PSU可靠性分析多。PSU4PSUPSU液冷環境下電氣性能&氣性能差異。6測試項目測試內容出廠結果液冷結果測試結論PSU單機電氣特性HIPOT、EDVT、ATS測試符合電源SPEC符合電源SPEC,對比出廠性能無顯著差異均滿足SPEC,無顯著差異Ripple紋波測試;滿足SPEC滿足SPEC均滿足SPEC,無顯著差異Dynamic動態測試;滿足SPEC滿足SPEC均滿足SPEC,無顯著差異InrushCurrent浪涌電流測試;滿足SPEC滿足SPEC均滿足SPEC,無顯著差異Holduptime測試滿足SPEC滿足SPEC均滿足SPEC,無顯著差異iTHD&PF滿足SPEC滿足SPEC均滿足SPEC,無顯著差異電源關鍵器件電解電容,FUSE滿足器件出廠要求外觀檢視ok滿足器件SPEC要求外觀檢視ok滿足器SPEC使用要求壓敏電阻、PFC高壓采樣電阻、副邊低壓采樣電阻放電管,功率半導體器件磁性器件,MLCC結構件類(含PCB,COATING,PVC線材,TUBE,RTV等)外觀檢視ok對比出廠無顯著變化外觀檢視ok對比出廠無顯著變化PSU電氣性能及器件特性均能滿足SPEC器件的物理&特性無顯著變化。服務器機箱結構件可靠性分析果如下:7部件類別測試項目風冷結果液冷結果測試結論金屬結構件外觀檢視:變色、腐蝕外觀無異常,局部金屬易被氧化,局部有輕微生銹,積灰外觀無變色、腐蝕液冷和風冷均滿足要求無顯著差異五金件(螺絲、螺母、拉釘)外觀檢視:變色、腐蝕推拉力、扭力測試外觀檢視無異常;力矩滿足要求外觀檢視無異常;力矩滿足要求液冷和風冷均滿足要求無顯著差異烤漆件外觀檢視:變色、腐蝕百格測試外觀無異常烤漆滿足要求外觀無異常烤漆滿足要求液冷和風冷均滿足要求無顯著差異標簽、面膜外觀檢視:變色、腐蝕附著力測試色牢度檢視外觀無異常色牢度o

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論