




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
淺談ChatGPT技術背后的超算ChatGPT能成為如今火遍全球的頂流模型,少不了背后超強的算力。
數據顯示,ChatGPT的總算力消耗約為3640PF-days(即假如每秒計算一千萬億次,需要計算3640天)。
那么,作為依托的那臺微軟專為OpenAI打造的超級計算機,又是如何誕生的呢?
周一,微軟在官博上連發兩文,親自解密這臺超級昂貴的超級計算機,以及Azure的重磅升級——加入成千上萬張英偉達最強的H100顯卡以及更快的InfiniBand網絡互連技術。
基于此,微軟也官宣了最新的NDH100v5虛擬機,具體規格如下:
8個NVIDIAH100TensorCoreGPU通過下一代NVSwitch和NVLink4.0互聯每個GPU有400Gb/s的NVIDIAQuantum-2CX7InfiniBand,每個虛擬機有3.2Tb/s的無阻塞胖樹型網絡NVSwitch和NVLink4.0在每個虛擬機的8個本地GPU之間具有3.6TB/s的雙向帶寬第四代英特爾至強可擴展處理器PCIEGen5到GPU互連,每個GPU有64GB/s帶寬16通道4800MHzDDR5DIMM數億美元撐起來的算力大約五年前,OpenAI向微軟提出了一個大膽的想法——建立一個可以永遠改變人機交互方式的人工智能系統。
當時,沒人能想到,這將意味著AI可以用純語言創造出人類所描述的任何圖片,人類可以用聊天機器人來寫詩、寫歌詞、寫論文、寫郵件、寫菜單……
為了建立這個系統,OpenAI需要很多算力——可以真正支撐起超大規模計算的那種。
但問題是,微軟能做到嗎?
畢竟,當時既沒有能滿足OpenAI需要的硬件,也無法確定在Azure云服務中構建這樣龐大的超級計算機會不會直接把系統搞崩。
隨后,微軟便開啟了一段艱難的摸索。
為了構建支持OpenAI項目的超級計算機,它斥資數億美元,在Azure云計算平臺上將幾萬個NvidiaA100芯片連接在一起,并改造了服務器機架。
此外,為了給OpenAI量身打造這個超算平臺,微軟十分盡心,一直在密切關注著OpenAI的需求,隨時了解他們在訓練AI時最關鍵的需要。
這么一個大工程,成本究竟是多少呢?微軟負責云計算和人工智能的執行副總裁ScottGuthrie不愿透露具體數目,但他表示,「可能不止」幾億美元。
OpenAI出的難題微軟負責戰略合作伙伴關系的高管PhilWaymouth指出,OpenAI訓練模型所需要的云計算基礎設施規模,是業內前所未有的。
呈指數級增長的網絡GPU集群規模,超過了業內任何人試圖構建的程度。
微軟之所以下定決心與OpenAI合作,是因為堅信,這種前所未有的基礎設施規模將改變歷史,造出全新的AI,和全新的編程平臺,為客戶提供切實符合他們利益的產品和服務。
現在看來,這幾億美元顯然沒白花——寶押對了。
在這臺超算上,OpenAI能夠訓練的模型越來越強大,并且解鎖了AI工具令人驚嘆的功能,幾乎開啟人類第四次工業革命的ChatGPT,由此誕生。
非常滿意的微軟,在1月初又向OpenAI狂砸100億美元。
可以說,微軟突破AI超算界限的雄心,已經得到了回報。而這背后體現的,是從實驗室研究,到AI產業化的轉變。
目前,微軟的辦公軟件帝國已經初具規模。
ChatGPT版必應,可以幫我們搜索假期安排;VivaSales中的聊天機器人可以幫營銷人員寫郵件;GitHubCopilot可以幫開發者續寫代碼;AzureOpenAI服務可以讓我們訪問OpenAI的大語言模型,還能訪問Azure的企業級功能。
和英偉達聯手其實,在去年11月,微軟就曾官宣,要與Nvidia聯手構建「世界上最強大的AI超級計算機之一」,來處理訓練和擴展AI所需的巨大計算負載。
這臺超級計算機基于微軟的Azure云基礎設施,使用了數以萬計個NvidiaH100和A100TensorCoreGPU,及其Quantum-2InfiniBand網絡平臺。
Nvidia在一份聲明中表示,這臺超級計算機可用于研究和加速DALL-E和StableDiffusion等生成式AI模型。
隨著AI研究人員開始使用更強大的GPU來處理更復雜的AI工作負載,他們看到了AI模型更大的潛力,這些模型可以很好地理解細微差別,從而能夠同時處理許多不同的語言任務。
簡單來說,模型越大,你擁有的數據越多,你能訓練的時間越長,模型的準確性就越好。
但是這些更大的模型很快就會到達現有計算資源的邊界。而微軟明白,OpenAI需要的超級計算機是什么樣子,需要多大的規模。
這顯然不是說,單純地購買一大堆GPU并將它們連接在一起之后,就可以開始協同工作的東西。
微軟Azure高性能計算和人工智能產品負責人NidhiChappell表示:「我們需要讓更大的模型訓練更長的時間,這意味著你不僅需要擁有最大的基礎設施,你還必須讓它長期可靠地運行?!?/p>
Azure全球基礎設施總監AlistairSpeirs表示,微軟必須確保它能夠冷卻所有這些機器和芯片。比如,在較涼爽的氣候下使用外部空氣,在炎熱的氣候下使用高科技蒸發冷卻器等。
此外,由于所有的機器都是同時啟動的,所以微軟還不得不考慮它們和電源的擺放位置。就像你在廚房里同時打開微波爐、烤面包機和吸塵器時可能會發生的情況,只不過是數據中心的版本。
大規模AI訓練完成這些突破,關鍵在哪里?
難題就是,如何構建、操作和維護數萬個在高吞吐量、低延遲InfiniBand網絡上互連的共置GPU。
這個規模,已經遠遠超出了GPU和網絡設備供應商測試的范圍,完全是一片未知的領域。沒有任何人知道,在這種規模下,硬件會不會崩。
微軟Azure高性能計算和人工智能產品負責人NidhiChappell解釋道,在LLM的訓練過程中,涉及到的大規模計算通常會被劃分到一個集群中的數千個GPU上。
在被稱為allreduce的階段,GPU之間會互相交換它們所做工作的信息。此時就需要通過InfiniBand網絡進行加速,從而讓GPU在下一塊計算開始之前完成。
NidhiChappell表示,由于這些工作跨越了數千個GPU,因此除了要確保基礎設施的可靠外,還需要大量很多系統級優化才能實現最佳的性能,而這是經過許多代人的經驗總結出來的。
所謂系統級優化,其中就包括能夠有效利用GPU和網絡設備的軟件。
在過去的幾年里,微軟已經開發出了這種技術,在使訓練具有幾十萬億個參數的模型的能力得到增長的同時,降低了訓練和在生產中提供這些模型的資源要求和時間。
Waymouth指出,微軟和合作伙伴也一直在逐步增加GPU集群的容量,發展InfiniBand網絡,看看他們能在多大程度上推動保持GPU集群運行所需的數據中心基礎設施,包括冷卻系統、不間斷電源系統和備用發電機。
微軟AI平臺公司副總裁EricBoyd表示,這種為大型語言模型訓練和下一波AI創新而優化的超算能力,已經可以在Azure云服務中直接獲得。
并且微軟通過與OpenAI的合作,積累了大量經驗,當其他合作方找來、想要同樣的基礎設施時,微軟也可以提供。
現在,微軟的Azure數據中心已經覆蓋了全球60多個地區。
全新虛擬機:NDH100v5在上面這個基礎架構上,微軟一直在繼續改進。
今天,微軟就官宣了全新的可大規模擴展虛擬機,這
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 制造業戰略采購管理體系
- 特種玻璃生產線項目可行性研究報告(范文)
- 2025至2030年中國電動車喇叭行業投資前景及策略咨詢報告
- 2025至2030年中國珍珠鈣膠囊行業投資前景及策略咨詢報告
- 2025至2030年中國爬繩攀網行業投資前景及策略咨詢報告
- 對學生進行心理健康教育的意義或必要性在于
- 2025至2030年中國潤滑油空氣釋放值測定器行業投資前景及策略咨詢報告
- 2025至2030年中國法蘭式刀形閘閥行業投資前景及策略咨詢報告
- 2025至2030年中國模制西林瓶行業投資前景及策略咨詢報告
- 2025至2030年中國根雕藝術茶桌行業投資前景及策略咨詢報告
- 《環境保護產品技術要求 工業廢氣吸附凈化裝置》HJT 386-2007
- 2024年全國高考數學試題及解析答案(新課標Ⅱ卷)
- 2024年中考語文滿分作文6篇(含題目)
- DBJ04∕T 289-2020 建筑工程施工安全資料管理標準
- 工程造價咨詢服務投標方案(技術方案)
- 《孤獨的小螃蟹》整本書閱讀(教學設計)2024-2025學年統編版語文二年級上冊
- 2024至2030年根河市汽車租賃市場前景及投資機會研究報告
- 大學生計算機一級考試復習資料
- 公司車輛維修采購投標方案(技術標)
- 國家開放大學(浙江)《地域文化(本)》作業1-5參考答案
- 艾媒咨詢:2024年中國嬰幼兒全面營養奶粉消費需求報告
評論
0/150
提交評論