




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
構建萬物互聯的智能世界一份給CIO規劃建設智算數據中心的參考算力正成為新“黑金”十幾年前,美國《時代》周刊提到:網絡帶寬將成為石油之后,二十一世紀的新“黑金BlackGold”。那個時候,或許沒有人預見到,十年之后的人工智能會躍遷到今天的水平。大模型的瘋狂“涌現”,生成噴管”,全球人工智能產業正無限逼近“迸發”的狀態,人類社會將以遠超我們想象的速度,加速邁向智AI是趨勢,不是潮流從1956年人類首次提出“人工智能”的定義以來,AI的發展經歷了多次的起起伏伏,即使在AI持續占對人工智能的未來表示懷疑、擔憂和猶豫;但AI從應用從單點到多元化擴張、從通用場景向行業特定場景不斷深入。AI必將重構傳統產業,并將催生出諸ChatGPT的橫空出世,讓人類通往通用人工智能AGI之路從未像今天這樣清晰,AI已經是不可逆轉和信息(Information)為主的信息社會,到以產生知識(Knowledge)和智慧(Wisdom)為主的認知社會。未來幾十年,我們將迎來一場認知革命,今這是DC白皮書,不是AI白皮書當“百模千態”已然成型,當“千行萬業智能化”快速成勢,首先得到全行業重點關注的不是AI應用,條“路”修好,而數據中心恰恰是AI基礎設施的核數據中心的雛形從1940年前后就開始出現,隨后幾十年間,隨著互聯網、大數據和云計算的發展,數據存儲和數據處理變得越來越重要,數據中心也成為企業信息化、數字化的核心基礎設施。邁向智能時代,數據中心首先要提供的是算力,承載的主要是AI訓練和推理,支撐的是企業關鍵智能化應用,這類面向未來的數據中心我們稱之為智算數據中心AIDC。defined)的基礎設施,未來的數據中心基礎設施一定是AI定義的。AI帶給數據中心的挑戰也將是多維度的,如:算力密度、能源效率、AI-powered的強大而堅實的AI算力底座,是智能化轉型的基石。數據中心不斷演進,從存儲數據、支撐應用,到提供算力、承載AI訓練和推理,再到生產智慧、使能智能化,其重要性和行業價值不斷凸顯,值得產業鏈各方重點關注。希望這本白皮書能為全行業AIDC的——華為公司董事、ICT產品與解決方案總裁最近一段時間,圍繞企業AI落地、AI算力基礎設施建設,我與很多客戶伙伴、AI生態鏈的朋友們進行了溝通交流,大家基本有一個共識,都把建設作為企業智能化轉型的優先舉措;但AIDC與傳統數據中心別,在企業數智基礎設施中的定位變了、承載的業務變了、數據處理和算力提供的要求也變了,再加上技術還在不斷創新升級,如何高效高質量建設AIDC值得全行業深入思考。從實踐中進行復盤總結,匯聚全行業智慧,這就——華為公司高級副總裁、ICT銷售與服務總裁實現商業成功的基石。AIDC作為新一代數智基礎設施的核心,華為在過去幾年與客戶的建設實踐與創新探索中,有經驗、有教訓,也還存在許多新課題需要大家一起解決。這本白皮書只是一個開始,全行業需要協同創新,共同推動AIDC發展,千行萬業正在積極擁抱人工智能,把行業知識、創新升級與大模型能力相結合,以此改變傳統行業生產作業、組織方式。在如何用好人工電解鋁、高端鋁加工等領域持續實踐。這本白皮書提出了很多可供企業參考的觀點,特別是針對如何規劃建設企業數智基礎設施的核心--AIDC上,給出了方向性的建議和非常實用的評估指標,而這也是企生成式生成式AI為保險行業發展提供了新質生產力,場景落地和價值閉環是當前核心問題,不論是技術探索,還是大規模應用部署的效率和成本考量,對企業AIDC的建設和運營都提出了極高的要求。白皮書基于技術趨勢和產業實踐,系統性地闡述了AIGC產業應用的建設策略和實現路徑,并給出不同場景下的AIDC建設方案,具有重要參考價值,激發深入思智能時代,AI只有進入企業的核心生產場景才能發揮巨大價值,這勢必驅動企業業務系統從傳統的“構成式”變成“生成式”。企業智算數據中心作為數智基礎設施的核心,將從成本中心變成創新中心,技術架構也會發生顛覆式變化,傳統數據中心時代的建設模式、系統架構、運維運營等可能再適用。這本白皮書是對當前行業實踐的總結和復盤,面向未來我們還將持續探索和思考,就如何規劃建設好AIDC給出更多參考——華為公司副總裁、ICT產品組合管理與解決方案部人工智能應用繁榮的基礎是算力。作為提供算力的關鍵數智基礎設施,AIDC需要充分發揮計算、存儲、網絡、云、能源等技術領域的綜合優勢,以系統架構創新,持續突破規模算力瓶頸。從2019年發布AI戰略及解決方案開始,華為就廣泛參與到全球客戶AI算力基礎設施的建設實踐中,并不斷與產業鏈相關方開展聯合創新,打造有競爭力的產品與解決方案,為客戶創造價值。把這些有價值的客戶建設實踐與全行業的智慧匯聚在一起,形成了這本白皮書,希望幫助客戶更快更好地建設AIDC,加速千企業也不斷加快探索實踐步伐,推動AIDC向大規模、高質量和強應用的方向發展。本研究報告在規、建、管、用等多個維度,體系化梳理,立體化呈現AIDC最新態勢,有助于促進產業發展。型的數據中心存在很大的差異。當前的人工智能發展迅速,新技術新應用層出不窮。如何去構建一個堅實可靠的算力底座來滿足長遠未來的發展需求和應付人工智能應用的迭代演進是每AIWorld總體愿景及宏觀驅動力 AIforAll 理想主義與現實主義交相輝映邁向AGI AllinAI生成式業務系統 18 23 32 34數據中心走向智算數據中心AIDC 35AIDC主要承載AI模型的“訓推用” 37AIDC四大建設場景及三大類型 39AIDC五大特征變化 43 53 08AIDC白皮書典型AIDC規劃與建設 56超大型AIDC 大型AIDC 小型AIDC 88AIDC建設與發展倡議 94適度超前建設AIDC 95共同實現AIDC集約化建設和綠色發展 98 99 一份給CIO規劃建設智算數據中心的參考 AIWorld總體愿景及宏觀驅動力生成式AI日新月異的發展,讓人工智能如風卷殘云根據中國信息通信研究院的相關報告顯示,截止2024年7月,全球AI企業近3萬家,全球人工智能大模型有1328個,其中中國各類企業在不到2年人類社會發展帶來一個“天大的機會”。斯坦福大學年人工智能指數報告》顯示,從2023年到2024年第一季度,全球AI獨角獸已有234家,新增數量為37家,占新增獨角獸總量的40%;2023年,雖然全球AI投資總額有所下滑、降至1892億美元,但六十年的芯片技術發展,三十年的互聯網發展,Transformer架構的不斷突破,以及數據的極大豐富,讓AI技術不斷走深,AI應用不斷向實。繼OpenAI公司推出ChatGPT之后,2024年華為公司推出的盤古大模型5.0版本,以及Anthropic公司推出的大模型Claude3.5Sonnet版本,宣告大一份給CIO規劃建設智算數據中心的參考l11lAI是過去70年ICT產業發展的總成果1956年,時任達特矛斯學院助理教授的約翰·麥卡錫組織召集了達特矛斯討論,正是在這次會議上,第一次正式提出了“人工智能”的定義。從那以后,人工智能經歷了兩次發展的低谷,即所謂的“冬天”,自從1971年英特爾發布第一顆微處理器開始,摩爾定律見證了ICT產業的蓬勃發展。如果把AI產業和ICT產業這70年的發展軌跡畫到一起,我們發現,人工智能與ICT產業的總體發展水平密切相關,學術研究發現和工程技術發展相輔相成。而AI產業兩次“冬天”的出現,都是因為社會對AI的應用期望今天,我們再次進入了“收獲”的季節。這是70年來全球ICT學術界和工業界長期耕耘、協作創新的摩爾定律牽引下的ICT產業發展摩爾定律牽引下的ICT產業發展AI流行度A19561970s1990s2020s圖1-1AI是過去70年ICT產業圖1-1AI是過去70年ICT產業技術的準確定位是發揮其最大價值的前提。給人工智能技術進行合理的定位,是我們理解和應用此技術的以及20世紀的汽車、電腦、互聯網一樣,人工智能是一組技術集合,是一種新的通用目的技術。加拿大學者RichardGLipsey在其著作《經濟轉型:通用技術和長期經濟增長》一書中提出:社會經濟的持續發展是靠通用技術的不斷出現而持續推動的。所謂通用技術,簡單理解就是要有多種用途,應用到經濟的12AIDC白皮書面向未來,我們應該充分用好人工智能技術,抓緊收獲,努力擴大收獲成果,同時要讓收獲的季節持續的AI將引發百年未有之大變革縱觀人類社會發展史,通用目的技術的大規模應用歷來是社會變革的催化劑,而被彼得·戴曼迪斯在《未來呼嘯而來》一書中定義為“指數型技術”之首的人工智能,將引發一場百年未有之大變革。自十八世紀蒸汽機問世,科技創新將時代劃分為蒸汽時代、工業時代與信息時代,現今,智能時代正撲面而來,其背后的驅動力正是AI算力。這股力量不僅將為公眾生活注入個性化與便捷體驗,還將以創新邏輯推動各行各業效能提升與經驗革新,為科研開辟新路徑。AI的普及深化不僅會加速傳統產業智能化轉型,優化資源配置,提升決策質量,激發產品與服務創新,還將進一步優化社會經濟結構,推動全球經濟步入高質量AI引發的變革將是一場體驗革命、效率革命、經驗蒸汽時代信息時代通用算力智能時代Al算力可持續發展數字經濟新增長智慧城市建設場景化升級產業數字化轉型圖1-2人類進入智能時代圖1-2人類進入智能時代一份給CIO規劃建設智算數據中心的參考l13l當前,全球數字經濟保持持續快速發展。根據中國信德國、日本、韓國五個國家的數字經濟總量已逾33萬億美元,年增長率超過8%,數字經濟對GDP的更凸顯了其在全球經濟版圖中的核心角色。其中,人技術發展A技術發展1760-19901990-20172018-Future時間圖1-3智能經濟將成為全球經濟發展新引擎圖1-3智能經濟將成為全球經濟發展新引擎人工智能驅動的智能經濟將在人機交互、IT基礎設施與新業態三個層面帶來重大變革。首先是人機交互模式的優化,讓交流更加自然流暢;其次,它將重塑IT基礎設施,構建更高效、更智能的信息處理與傳輸體系;最后,智能經濟會催生一系列新業態,激發跨領域創新。這三個方面并非孤立存在,而是相互影過去四十年,信息化和數字化給ICT行業帶來了數萬億美元的戰略機會。展望潛力十足的智能時代,華為預測,至2030年,全球智能經濟規模將超過18.8萬億美元,將為ICT領域的未來發展開啟全新AIforAll一個組織和每個人的生活。專家和機構預測AI將深刻影響世界。那目前企業和個人對AI的接受度及應麥肯錫2023年的報告指出,55%的組織已在至少倍。Gartner在其《2024年重要戰略技術趨勢》報告中預測,到2026年,超80%的企業將運用生成式AI;到2028年,75%的企業軟件工程師將使用AI編碼助手,而2023年初這一比例不足在人工智能觸發的產業變革大潮中,所有行業重塑。今天我們已經可以清晰地預見一些行業將發生…智能監控智能監控...機場安防...可預測性維護...智能調度...智能藥物研發...礦業與農牧業鋼鐵建筑食品飲料零售汽車。媒資金融油氣教學和評分助手...地質圖像分析...教育。電力化工政務機場。公共安全軌道交通互聯網通信高低智能運維…數字化水平起步期爆發期引領期圖1-4AI正在改變千行萬業圖1-4AI正在改變千行萬業一份給CIO規劃建設智算數據中心的參考l15lAI重塑行業的速度確實遠超想象。2023年初,比亞動駕駛技術的迭代升級已經悄然發生,2024年中國新能源汽車市場中,自動駕駛功能的滲透率已超過51%。這一成就的背后是先進的感知系統、強大的印度IT服務外包業曾憑借人力成本和語言優勢成為全球中心。然而,AI技術的興起導致該行業面臨嚴峻挑戰。據統計,過去一年,印度五大IT服務公司裁員69,197人,創下20年新高。這一現象背后,是AI在服務領域的廣泛應用,高效接管了原本由人力完成的任務。由此可見,AI技術不僅僅能通過技生成式AI是革命性的跨越,有人稱之為AI2.0,它不是AI1.0的升級。AI2.0可以用無需人工標注的超級海量數據、去訓練一個具有跨領域知識的基礎大模型(FoundationModel它能夠從無到有,真正實現智慧的產生;AI2.0讓每個人都能創造,甚至可能讓每個人成為程序員,催生了數字分身等長期以來僅存于想象的產品。AI2.0的生成能力還能將創新AI2.0的創造能力和商業能力,讓智能時代的每個應進入生產系統使能行業核心軟件使能大量通用軟件網絡自治。使能大量通用軟件網絡自治。運營商智能客服智能風控。金融量化交易2C應用為主催生現象級應用文檔摘要。2C應用為主催生現象級應用文檔摘要。辦公文檔寫作視覺代碼開發網站制作智能對話語音社交編程短文創作醫療咨詢代碼開發網站制作智能對話語音社交編程短文創作海量離散小模型精準獲客海量離散小模型結構化感知大模型語義 模型基礎能力模型能力開放營銷行業知識結合城市調研報告城市大腦大模型語義少數大模型匯聚圖片生成少數大模型匯聚圖片生成設計搜索平面廣告商業文案。消費視頻生成內容推薦內容剪輯平面廣告商業文案。消費視頻生成內容推薦分子生成智能教學分子生成智能教學生物行業通用場景數據智能問答。教育理想主義與現實主義交相輝映邁向AGI類邁向通用人工智能(AGI)的一個新起點。隨后,2020年GPT-3的推出,以及ScalingLaw被確立為AGI的第一性原理,標志著人類向AGI目標的探索步伐大大加快。為了支撐AI能力的持續進化,旨在構建更加強大的算力基礎設施,預計2028年將發布一個由數百萬XPU算力卡互聯的集群數據中心。理想主義者們相信,跨越技術裂谷的人工智能將加速前行,他們致力于在未來10年內將深度學習的計算能力提升100萬倍。AI領域的新論文、新模型層出),數據來源從公開網絡擴展到合成數據,AI的技術發展讓所有人感受到了強烈的"推背感",人類終將走向AGI。然而,我們也看到,AI在面向消費者(ToC)的應用和面向企業(ToB)的行業落地中,依然面臨諸多挑戰。許多AI應用和項目仍處于起步階段或短暫出現后便消失,實現商業閉環成為業界關注的焦點。對于人工智能產業的發展戰略制定者來說,是選擇一路直沖,將ScalingLaw推向極致,無限接近AGI;還是"見好就收",盡快實現技術落地并盈利,快速大多數新興技術的發展都是從理想主義的美好愿景開始,同時受到現實主義的理性制約。如果能夠將理想我們認為,人工智能是一個不可逆轉的大趨勢。AI產業在垂直方向上,既需要科學家的理想主義,也需要與商業現實主義相結合,尋找技術驅動與商業落地理想主義者的代表是工程師和科學家,他們基于科技改變世界的理想化出發點,用探索精神和創新思維,致力于開發更智能、更自主的學習算法,追求更高的計算效率和更低的能耗。這些努力不斷拓展AI技術的可能性邊界,為現實應用提供了豐富的理論支撐和技術儲備。而現實主義者的代表是理性的市場經濟參與者,他們將AI技術視為推動商業變革和社會進步的關鍵力量,注重技術的實用性和經濟效益,主要將AI的商業化落地作為目標,使其融入金融服務、健康醫療、零售物流等行業場景。他們希望通過實踐驗證AI技術的市場價值,為持續發展提供應用場景和AI技術的演進歷程正是理想主義與現實主義辯證關系的生動體現,二者相輔相成、交相輝映,共同塑造人工智能的未來。理想主義與現實主義產生了奇妙的雙輪效應,每一次技術飛躍都會帶動商業應用的創新與拓展,而商業成功又會以更多的研究資金和資源反哺科研領域,推動技術的進一步成熟和完善。這種正向循環一旦建立,就能夠幫助企業在采用新技術時實現新的價值鏈閉環。成功的案例將加速AI技術在各行業核心生產環節的滲透,推動一系列高效、智能的一份給CIO規劃建設智算數據中心的參考l17l AllinAI生成式業務系統企業發展AI的不確定性和確定性根據麥肯錫的調研,超過70%的企業領導者預見AI將在接下來的五年內深刻改變其業務格局。同業發展AI有著相當大的不確定性,據德勤的數據顯示,90%的大型企業計劃投資AI,但真正能夠成功這是因為生成式AI的革命性創新和內在局限性兼而一方面,ChatGPT對奧林匹克數學競賽題可以給出優雅的證明;另一方面,在回答13.11和13.8比大小的試題中輸給小學生。一方面,自動駕駛顛覆汽車行業,改變大眾的出行服務;另一方升輔助影像診斷的醫療專用模型仍舊在創新研究階巨大的AI投資換來寫作助手是否值得?模型回答質對于企業來說,是追逐潮頭引領行業革新、還ChatGPT等大語言模型帶來的革命性變化,源于其匯聚世界知識帶來的泛化能力,本質是顯性知識的壓縮和隱性經驗的沉淀,是基于結構化數據發現內在規律的概率模型。各行各業尤其是頭部企業,往往蘊藏著海量的數據、沉淀的業務知識和內化于業務流程的經驗等寶貴資源,當它們被用于語料來訓練AI模型時,模型自然就記憶了這些知識與經驗。企業通過引入基礎模型、行業模型并構建自己的私有化場景模型時,相當于“一杯咖啡吸收宇宙能量”,可以更高效的傳承和利用企業內部經驗、行業經驗、世界知識,能客服到海量高可信代碼的生成等。華為AI2.0的目標是實現“1個頂級專家+AI能力增強型數字員一份給CIO規劃建設智算數據中心的參考l19l從海量數據中發現未知規律。越來越多企業希望AI能夠基于核心生產場景,創造企業產品和服務的核心競爭力,先行者可以建立領先能力。比如特種鋼的誤差要求嚴苛,液面波動是煉鋼的關鍵參數之一,結晶器液面波動與液面高度、水量、溫度、壓力、原材料批次等200多種參數相關,超過專家的經驗和科學公式計算的適用范圍。鋼鐵企業在思考如何利用AI優化生產制造工藝,基于積累的高價值歷史數據訓練場景模型,并在實時生產過程中不斷反饋增強,找到企業發展AI需要構建企業級綜合智能體。如同一個并貫穿感知、預測到決策全流程。當AI的視野從語建議企業戰略上要明確發展AI的確定性,戰術上要應對好AI的不確定性。從現在開始、著眼未來,以20AIDC白皮書簡單的幾何圖形:啞鈴型的非穩定性結構和行業大模架構挑戰之一:啞鈴型的非穩定性結構。企業傳統IT架構是穩定的正三角,基礎設施和技術平臺穩定,變化頻率低;數據和應用使能平臺按照產品化、版本化的方式迭代,變化可預期;應用受用戶體驗驅動,更而模型因處于快速發展迭代期,變化幅度和升級頻率均超過應用。如何規劃設計IT架構,實現“在行駛架構挑戰之二:行業大模型的不可能三角。大模型在泛化性、專業性、經濟性三方面很難兼得,泛化性強調基于小樣本的場景化學習能力,專業性強調監督學習能力強,經濟性強調模型規模適中。同時,不同類算力高,經濟性要求高;產品質檢視頻類負樣本少,泛化性要求高;風險預警類對精度要求苛刻而專業性要求高。由于行業數據的稀缺性,行業模型追求泛化企業發展AI的核心理念是:以架構的確定性應對模型的不確定性,形成具備持續開發態模型層的非常規小步迭代,基礎設施和AI技術平臺保持穩定,震蕩模型多源:算力底座封裝軟硬件的復雜性,彈性資源調度解決算力效率,服務化的標準接三重進化:模型能力進行API封裝,應用與模型解耦,形成可替換的“發動機”;L0基礎大模型隨產業進化,L1行業模型隨行業模型市應用編排:業務從邊緣、支撐型應用到核心生產應用,按需組合交互理解(NLP)、感知API輕量式嵌入或助手型接入業務流程。一份給CIO規劃建設智算數據中心的參考l21l可大規模復制“生成式”AI系統:與各行業應用可大規模復制“生成式”AI系統:與各行業應用視頻質檢……污染源管理…人臉鑒權…銷售客服銷售客服…工藝控制……客戶服務客戶服務………水文監測水文監測…汛期預測…給排水優化…征信采集征信采集……………APIr行業進化r行業進化企業進化企業進化API模型組合:能力API一次封裝原子服務編排組合服務行業使能學習進化能力行業模型市場原子服務編排組合服務行業使能學習進化能力行業模型市場NLP大模型決策大模型圖2-2以架構開放支持進化中的百模千態圖2-2以架構開放支持進化中的百模千態可控的開放生態應對行業模型的不可能三角,構建按需組合的行業模型層。一方面擁抱標準和行業生態,保障按需融入與利用行業生態;另一方面建立企業的剛需應用、普通應用等,根據企業的競爭力策略、能力等,靈活選擇自主開發、戰略伙伴聯合攻關和生態伙伴供應等不同模式,實現自建和共建生態模22AIDC白皮書企業發展AI的初期容易以模型為綱,從技術出發,基于產業的基礎大模型能力去“臨摹”容易落地的應用,可應用場景為綱的實質是從解決問題的第一性原理出發,場景是起點也是終點,是價值的閉環。不要先關注大模型本身和模型參數量,而要看是否能夠解決過去解決不了、或解決不好的問題,是否能夠實現收益大于成本的正循環,是否具備廣泛的適用性常常采用AI模型與機理模型結合的方式。比如勘探中,AI模型優化鉆探位置的選擇,機理模型則確保用場景、數據、模型和算力四個要素缺一不可。場景是價值閉環的基礎,低業務價值而又消耗大量算技術三角以算力為基礎,實現數據的轉換、清洗和加工,加速大模型的訓練和推理,而包含知識與經驗的廣義數據支撐模型的訓練和能力增強;業務三角以應用場景為原點,進行知識管理和經驗結構萃取,不斷豐富企業數據集,數據與模型雙向交互,實現業務支撐和效果反饋,“非正常即異常”作為最典型的例子一份給CIO規劃建設智算數據中心的參考l23l從易到難,沿著企業價值流的方向,逐步深入核企業發展AI首先要梳理應用場景,建立“點線面”的場景地圖。而AI業務價值三角,則可作為識別場景業務價值的經驗范式和向導。其中,通過AI助手提升業務效率和用戶體驗,是企業AI應用最基礎和常見的方式,如辦公、HR、客服等;當AI深入生產環節后,常常能夠帶來生產力和競爭力的提升,如在線顧問、工藝優化、需求和供應預測等;最后是對黑天鵝式低概率風險的防范,如業務連續性風控、財務企業落地AI需要積微成著。繪制場景地圖時所謀者大、所思者遠,不用局限在已知的模型能力、已就緒行業發展趨勢的角度構思和規劃。制定實施路線圖則需要從小處著眼、近處著眼,從一個個具體場景作為基于具體場景做能力分解,組合感知、理解、預測、決策等模型能力。任務的分解讓問題的求解更容易,AIAI業務價值三角業務效率和體驗提升生產力和競爭力提升供采制智能丨財經智能丨辦公智能丨HR智能|…圖2-4場景選擇的價值三角圖2-4場景選擇的價值三角24AIDC白皮書場景落地選擇從三個維度入手:業務準備度、技術準備度和數據準備度。業務準備度衡量與場景相關的業務流程是否清晰、業務規則是否固化、業務組織是否算力等是否完備,是否匹配價值期望;數據準備度衡量場景所需的數據量、數據質量、數據分布、數據標場景選擇的總原則是先易后難,先在實現較簡單的高頻、剛需場景小切口啟動,快速找到智能化價值并同步培養人才,然后持續迭代、螺旋式發展。行業的引領型企業通常可以選擇已具備相對充足的數據積累的爐場景”、化工的“中試場景”等,聯合行業研究機構、AI科技公司、大模型公司等聯合攻關,一旦突AI場景實施框架 數據復雜性創新模式(加強創造與構思能力)·原創、創新工作 數據復雜性創新模式(加強創造與構思能力)·原創、創新工作A專家模式(充分利用專業知識)·高度依賴于專業知識和經驗 經驗復雜性>協同模式(支持無縫集成與協作)·廣泛延伸的互聯型工作活動·高度依賴協調與溝通·僅需少量人工判斷的日常工作·高度依賴于定義完善且容易理解的標準常規、可預測、基于規則圖2-5場景選擇由易到難的路徑圖2-5場景選擇由易到難的路徑一份給CIO規劃建設智算數據中心的參考l25l語言大模型表現出強大的“內容生成”能力,不僅僅是人機對話、知識問答,還包括看圖說話、情緒識別等非結構化信息生成結構數據的能力,工程設計、代碼設計等非結構化強規則的文本生成能力。圍繞知識密集型場景,在語言大模型的延長線上出現了大量數要將機理分析與AI模型結合起來,將感知、理解、3個維從度進行模型選擇3個維圖2-6模型選擇方法圖2-6模型選擇方法隨著行業逐步理解這些需求,"合適"成為了模型評估的新標準。“大”追求規模和參數數量,而是要根據實際需求做出權衡。大小模型各有所長,結合場景的多樣性和復雜性,靈活運用不同模型成為了未來的趨勢。模型的合適性與適用26AIDC白皮書數據之道延續,AIGC治理結構變革,價值最大化長遠看,隨著基礎模型的同質化和算力稀缺性緩解,個性化數據將決定企業AI的差異化能力。企業數據之道將過程的、多維的、海量的細微原始數據,以及頂端行業專家實踐中產生的業務判斷和執行結果成為最寶貴的資產。海量的歷史、過程數據的存儲不再是純粹的生成式AI導致數據安全治理結構發生體系性變革,模型記憶數據,模型生成數據,模型形成企業內外新的數據邊界。大模型將數據、知識沉淀在模型的參數中,并且生成文本、視頻、策略等數據,導致應用和整合行業數據和本企業數據成為重要課題。沿著原始以數據的原始保護等級為原則,在域間采用可溯源、數據不搞大而全,要“先易后難、以用促建”,從具體場景入手,基于具體場景模型效果不斷對數據反向提出要求,獲取更多數據,讓模型效果越來越好,由數據治理是數據質量的保障,最佳的治理是基于數據采集的源頭式治理。在智慧城市、礦山、油田、工廠等大量行業場景中,涉及的終端、傳感器、裝備數量大、類型多,特別是多主體的場景中,通過統一智能終端和數據采集的標準規范,能夠極大降低數據治理的成本。通過邊緣推理與中心訓練的協同,視頻感知場景的異常自動標注,或者將數據標注的工作集成在業務人員的執行操作流程中,低成本地獲得高質量的AI應用于全數據價值鏈,從數據再生產、數據標識一份給CIO規劃建設智算數據中心的參考l27l主數據在交易打通維度數據在報告打通基于主業務流的信息價值鏈綜合治理(數據、流程、IT):縱橫打通+數據清潔主數據在交易打通維度數據在報告打通基于主業務流的信息價值鏈綜合治理(數據、流程、IT):縱橫打通+數據清潔AIGC模型內部數據熱內部數據熱程文件、營銷知識庫...外部數據會外部數據會計準則、開源代碼、路測數據...原始數據與訓練環境訓練數據集與模型AIGC模型模型與用戶人機交互ChatBox文本生成視頻生成跨模態文本生成視頻生成跨模態生成音頻生成圖2-8圖2-8AIGC治理結構變革可信、精準的數據跨部門共享通過共享高階數據(如視頻中人或物的安全狀態)實現數據可用不可見,確保在充分利用數據價值的同時,嚴可信、精準的數據跨部門共享通過共享高階數據(如視頻中人或物的安全狀態)實現數據可用不可見,確保在充分利用數據價值的同時,嚴各主體基于自身和關聯主體的數據實現更準確的預測,能夠發現更多、更復雜的規 公司數據OwnerIT主數據管理平臺維度數據管理平臺元數據管理平臺數據質量管理工具圖2-7數據之道的延續海量、異構數據的處理及數AI能夠將各類異構數據(如圖紙、視頻監控、互聯網輿為數據分析和風險評估提供 圖2-9數據價值最大化圖2-9數據價值最大化2828AIDC白皮書>>API>>圖2-10大模型開發的工程難題圖2-10大模型開發的工程難題大模型的開發與應用是一個復雜的系統工程,需要高度集成、內部硬軟件高度耦合、外部提供標準化的接口的AI算力平臺來支撐,重點解決集群建設、模集群建設:如何實現超大集群的高性能長穩運行?如何構建參數面集群建設:如何實現超大集群的高性能長穩運行?如何構建參數面模型訓練:如何選擇最高效的并行組合策略?如何實現多任務可視化調優?如何實現斷點續訓?如何預測大模型的擴展性和性能?推理壓縮:如何實現分布式推理和推理加速?如何進行大模型的應用落地:如何搭建大規模推理集群調度系統?如何進行防攻擊30AIDC白皮書集群化AI集群化AI算力RDMA節點-1節點-2節點-N數據網絡平面存儲訓練數據(PB級)訓練加速數據網絡平面存儲訓練數據(PB級)訓練加速生態生態方案應用模型算法算子數據AI平臺應用對接SFTPrompt數據管理模型開發與訓練分布式訓練框架分布式訓練框架AIAI框架異構計算架構異構計算架構算力的選擇也是技術路線的選擇。AI算力供應鏈的可持續是路線選擇的前提,不僅要考慮硬件的長期可獲得性,還要考慮軟件棧的可持續性。大模型訓練與推理過程中,模型參數規模從數十億到萬億,這不僅要求算力平臺具備強大的并行計算能力,也要求算子(執行基本運算任務的軟件模塊)具備高效的執行效率,從而最大程度釋放硬件計算、內存訪問、卡間通信的潛力。比如,華為NPU針對AI負載的矩陣計算框架進行了專門設計,更適用于卷積神經網絡等類型的模型加速。值得注意的是,AI算力芯片的支持不僅僅是硬件層面的問題,還需要有相應的開發者生態作為支撐,包括開發工具鏈、軟件庫、框架支持以及開發者社區等。最后,算力路線選擇需要兼顧訓練一份給CIO規劃建設智算數據中心的參考l31l信息時代,網絡是主角,聯接企業IT系統及萬物;數字時代,云是主角,使能敏捷的應用開發;進入智其效率成為企業AI效能的基礎。數據中心不再是單DX4000>DX4000>2020年2030年“花錢”圖2-12從成本中心到創新中心圖2-12從成本中心到創新中心數據中心的規模性、算力效率和開發效率成為企業在算力供給受限和投資約束的情況下,數據中心的規模性、集群的有效算力、節能水平等成為企業模型開期價值閉環不是個別殺手級模型的低頻次推理,而是32AIDC白皮書的高頻使用。當一次普通的交互需要背后百億次的運練和推理成為最復雜的IT工程,數據中心正在成為企業數智基礎設施的核心,成為企業AI商業價值閉多模態交互知識檢索多模態交互知識檢索基礎大模型基礎大模型L0(CV,NLP,多模態…)企業云企業云DC企業邊緣企業邊緣DC行業行業DC公共公共DC數據中心將被AI重新定義,提供多樣性澎湃算力、使能百模千態和AI原生應用創新成為愿景目標。算力類型不再被機房基礎設施限定、集群規模不再被通信網絡限定、任務可以低約束地調度、算力資源可以跨數據中心共享,使算力跟上大模型擴展的步幅;支持開放的模型生態,針對不同業務場景,提供靈活的模型挑選與組合服務,確保每項任務都能匹配到最適配的算法模型組合;基于Agent的任務設計模式,融合企業和行業的知識資產、數據資產和模型資產,一份給CIO規劃建設智算數據中心的參考l33l 數據中心走向智算數據中心AIDC數據中心走向智算數據中心AIDC1940-19901940-1990DC云DCAIDC2010-20201990-20102020~智算數據中心:以xPU為中心傳統數據中心:以CPU為中心數據中心的發展與變化智算數據中心:以xPU為中心傳統數據中心:以CPU為中心內存(DRAM)內存(DRAM)內存(DRAM)NPUCPUSSDPCIePCIexPUDDRNPUCPUSSDPCIePCIexPUCPUDPUSSDPCIeDPUSSDNIC·馮·馮·諾依曼主從架構圖3-1數據中心走向智算數據中心AIDC圖3-1數據中心走向智算數據中心AIDC隨著互聯網的興起,數據中心作為IT基礎設施的核心載體開始規模出現。從2010年開始,隨著大數據和云服務的迅猛發展,數據中心的架構隨之發生變人工智能的快速發展加速智能時代的到來,對算力的需求爆發式增長。智算數據中心應運而生,專注于提供AI模型訓練和推理所需的高性能計算能力。如谷34AIDC白皮書一份給CIO34AIDC白皮書如Web服務、數據庫管理和文件存儲等常規AIDC:主要承載AI模型的訓練與推理,高傳統DC:采用馮·諾依曼的主從架構,其中CPU扮演指揮官的角色,負責分配任務給其他部件。這種架構在面對大規模并行計算任務時存在“計算墻”、“內存墻”和“I/O墻”AIDC:采用更加先進的全互聯對等架構,允許處理器之間,以及處理器到內存、網卡等直接通信,減少了中心化控制帶來的延遲,突破主從架構的算力瓶頸,實現了高效的分布式傳統DC:以CPU為中心,適用于一般性AIDC:以xPU為中心,提供并行計算,傳統DC:單機柜功率密度通常在3~8千瓦之間,可裝載的服務器設備數量有限,算力密AIDC:單機柜功率密度通常在20~100千液冷能夠更有效地帶走熱量,保證高性能計算36AIDC白皮書AIDC主要承載AI模型的“訓推用”AIDC最主要的是要圍繞AI模型訓練、推理和應用來規(ToC推理、中心推理、邊緣推理)......能源終端......HR政策問答投標SOC答復HR企業應用企業應用>人質檢場景模型營銷客服辦公財務......質檢人> 行業模型廣告游戲傳媒文旅金融醫療教育法律出行制造......>人CV科學計算預測...... CV科學計算預測......NLPNLP圖3-2典型大模型應用之旅圖3-2典型大模型應用之旅一份給CIO規劃建設智算數據中心的參考l37lAI模型分為基礎模型、行業模型以及場景模型。其中,基礎模型具備廣泛的適用性,能夠在多種任務深入地理解該領域的專業術語和業務流程;場景模型針對具體的業務場景或問題進行定制化設計,精確地解決特定任務的需求,全面提升模型的專業化水平和服務能力。AI模型的全面應用,是從訓練到推理多環節緊密協作的過程。這個過程包括基礎模型預訓練、行業或企業模型的二次訓練以及場景模型的微調,最終實現模型在實際環境中的部署與推理應用。每一步都對數據訓練-推理預訓練二次訓練全參微調局部微調ToC推理ToB中心ToB邊緣業務主體行業頭部企業大中型企業大中小企業超大規模大規模較小規模小規模超大規模大規模數百卡~算力需求超大規模大規模較小規模小規模超大規模大規模數百卡~算力需求小規模數十卡工程難度很高TP/DP/PP并行,海量數據高基模選擇,高質量數據較高很高TP/DP/PP并行,海量數據高基模選擇,高質量數據較高十萬~百萬條指令集一般<萬條指令集很高極致性能高融合高效較高靈快輕易圖3-3不同場景訓練推理的算力需求及工程難度圖3-3不同場景訓練推理的算力需求及工程難度大型互聯網企業和專注于大模型訓練的模型公司,其AIDC規劃建設目標明確,即支撐基礎模型預訓練。還需要收集和處理萬億級別的Token數據,以確保模型能夠學習足夠的知識和技能。這種規模的訓練不僅僅是技術上的挑戰,更是對資源調配和系統運維管行業頭部企業在AIDC規劃時,重點是行業模型的二次訓練。行業模型是基于基礎模型,通過疊加大量特定行業數據進行增量訓練而產生的。相比基礎模型的訓練,復雜程度有所降低,但仍需要數百到數千張NPU/GPU的算力卡支持,并需要處理數億級Token數據量。38AIDC白皮書對于多數企業而言,AIDC的建設重點在于承載AI模型的微調、推理及應用。鑒于AI應用的高度場景化特性,企業通常需要基于行業模型或基礎模型,結合自身特有的場景化數據進行進一步的微調,從而使模型具備特定場景下的理解和生成能力,進而達到在實際業務環境中部署應用的標準。AI推理的關鍵指標包括延遲(Latency)、準確性(Accuracy)、并發處理能力(Concurrency)以及算力使用效率(Efficiency)。根據推理服務的目標用戶數量,如面向廣大個人消費者的2C服務、面向眾多企業的2B服務或是僅限企業內部使用的應用,AIDC的規劃建設標準和技術要求也會有所不同。AIDC四大建設場景及三大類型根據不同需求,企業規劃建設AIDC主要涵蓋四大典型場景及用途。頭部互聯網公司、通信運營商及大模型廠商等,金融、電力等國計民生的重要行業頭部企業,正在一些集團化運營的企業中,其總部通常會建立時,在各個分支機構或靠近生產的地方,也會設與企業整體組織結構相匹配的中心+邊緣相互協同的架構,這種架構不僅能夠充分利用資源,還場景4:輕量化推理場景4:輕量化推理但考慮到數據安全性和隱私保護的重要性,這些機構通常選擇自建小型AIDC,用于輕量化的推理任務及模型微調。例如,某三甲醫院利用AI技術進行醫學影像分析,幫助醫生更快速準確地場景3場景場景3場景4ToC海量推理三類AIDC超大型超大型AIDC大型大型AIDC小型小型AIDC圖3-4圖3-4AIDC建設場景及類型綜上所述,業界典型的AIDC主要有三大類:超大型AIDC、大型AIDC以及小型AIDC。一份給CIO規劃建設智算數據中心的參考l39l一、超大型一、超大型AIDC隨著隨著AIDC計算、存儲和網絡設備的規模不斷擴大,如何高效地整合這些資源以實現算力的最大化,成為了業界研究熱點。首先,要實現大規模設備的有效互聯,就需要解決網絡架構、通信協議以及數據傳輸效率等多個方面的問題。這要求在網絡設計上更加注重可擴展性、靈活性和可靠性,以確保設備之間能夠高效、穩定地進行數據傳輸和通信。其次,簡單的設備堆疊并不能實現算力的線性增長,需要采用更加智能化的調度和管理策略,實現集群內計算、存儲和網絡資源之間的緊密協同。從當前業界的數據來看,即使是業界頂尖的千卡智算集群,其算力利用率不超過60%,萬卡40%,這進一步說明了提高超大規模集群有效超大規模AIDC的耗電量極為驚人。例如,一),相當于7.5萬戶普通美國家庭的用電超大規模集群由成百上千萬的器件構成,大模型的訓練一般需要集群上百天7x24小時滿負荷運轉,導致光模塊、NPU/GPU、HBM內存等器件極易發生故障,而訓練的同步性質使其對故障的容忍度較低,任何單點故障都可能導致訓練任務中斷,造成巨大經濟損失。業界在其16K集群訓練Llama3405B模型時,54天內發生了466次作業中斷。故障恢復常為應對上述挑戰,業界領先的超大型AIDC需要具備極致能效和極致算效的能力。I二、大型二、大型AIDC大型AIDC通常由行業頭部企業規劃建設,既要承擔多種模型的訓練及微調任務,又要承擔較大規模的中心推對于金融、政府、電力等國計民生行業,某些場景有嚴格的AI輸出要求,需要確保生成式DC建設使用的瓶頸。降低AIDC運維難度一方面可幫助企業更快的將智能應用部署到實際生產環境中,縮短開發周期,從而在競爭激烈的市場中保持領先優勢;另一方面可以節省建一個大型的AIDC,企業往往需巨額的資金04一份給CIO規劃建設智算數據中心的參考l41l4242AIDC白皮書AIDC五大特征變化三、小型三、小型AIDC小型AIDC主要承擔輕量級的推理及AI業務應用,有些還要求提供模型微調能力,一般建在貼近生產小型AIDC主要承擔輕量級的推理及AI業務應用,有些還要求提供模型微調能力,一般建在貼近生產或靠近典型典型AIDC關鍵挑戰5大技術方向超大規模:萬卡/十萬卡大規模集群系統構建大型AIDC小型AIDC系統摩爾極致算效:極致的算力效率,加速訓練推理長穩運行:千萬級器件、故障點多,如何長穩運行能基木桶故障定位:智算平臺中斷損失大,需快速故障定位修復供電制冷:供電、制冷、承重、布線等機房環境準備系統摩爾極致算效:極致的算力效率,加速訓練推理長穩運行:千萬級器件、故障點多,如何長穩運行能基木桶故障定位:智算平臺中斷損失大,需快速故障定位修復供電制冷:供電、制冷、承重、布線等機房環境準備迭代式平臺極致能效:超高功率供電下,極致的能源效率資源高效:大規模高效任務調度,提升算力資源利用率編排式應用持續演進:傳統流程,無法適應Al能力快速、持續迭代的要求模型應用:模型迭代快,如何和應用有效隔離生成式安全多模編排:大小模型、多模型組合編排,快速應用創新Al安全:大模型黑盒無法解釋,內容合規、提示注入、模型竊取等對于小型AIDC,企業一般配備較少、甚至沒DC故障要少、日常運維極簡,在出故障時,04如何確保小型AIDC的安全,也是必須解決的小型AIDC受環境限制,所能提供的算力資源有些小型AIDC的位置相對較偏,甚至遠離城署,交付人員最好只跑一趟就能完成AIDC的圖3-5典型圖3-5典型AIDC的關鍵挑戰及技術方向算力大小決定了模型能力上限。當前,大模型的能力上限尚未觸及,ScalingLaw尺寸定律依然有效。預如此大規模的模型訓練需要算力規模和能力的進一步突破,而當前主導算力發展的傳統通算摩爾定律正遭遇物理學和經濟學雙重限制,致使傳統的硅基電子技術臨近發展極限,算力增長速度遠遠慢于算力需求的增長速度,算力裂谷越來越大,業界迫切需要新的算一份給CIO規劃建設智算數據中心的參考l43lPFlopsPFlops/每天Neural●1e-1VGG1e-2AlexNetGoogleNetvirtualMachineAI算力增長速度·understandingConv20122013201420152016201720192020AlphaGoZero●DeepSpeech2ResNetMachineTranslationAlphaGo●Tl7Dota1e-31e-4巨大的GAPSEQ2SEQXceptionGPT-3圖3-6智能時代加速而來,算力裂谷越來越大圖3-6智能時代加速而來,算力裂谷越來越大系統摩爾是華為最初在《數據中心2030》報告中提出的概念,它定義為一種新的算力提升方法,主要依賴系統級架構創新、算存網深度協同、軟硬深度協同來提升算力,滿5大創新5大創新圖3-7圍繞系統摩爾的5大創新圖3-7圍繞系統摩爾的5大創新44AIDC白皮書過去70年,計算機一直遵循馮·諾依曼架構設計,運行時數據需要在處理器和內存之間來回傳輸。在人工智能等高并發計算場景中,這種傳輸方式會產生巨大的通信延遲,從而導致“通信墻”;而且目前內存系統的性能提升速度大幅落后于處理器的性能提升速度,有限的內存帶寬無法保證數據高速傳輸,帶來了“內存墻”。在此背景下,全互聯的對等計算架構應運而生,它能夠讓NPU、DPU、CPU、內存以及其他異構芯片之間實現高效的數據交換,打破傳統計算架構的“通信墻”和“內存墻”等瓶頸,支持AI等場景對跨主機高帶寬、低時延的訴求,實現DCasaComputer,算網存深度協同,通過系統級架首先,計算類型的演變。從以CPU為中心的通用計算,向以GPU和NPU為中心的智能計算轉變。這種轉變不僅適應了AI算法所需的大量并行處理能力,還大幅提升了計算效率和靈活性。并行計算技術,如同千軍萬馬并駕齊驅,能夠同時處理多個計提高了計算資源的利用率和整體計算效率。通過并行計算,不僅能夠縮短計算時間,還在更短的時間內完成更復雜的計算任務,從而更有力地推動了人工智能領域的發展。其次,芯片技術的進步。首先是Chiplet技術,不僅且這種方法可以根據不同的產品規格需求靈活調整,實現更高水平的芯片性能。此外,與傳統的封裝板級互連方案相比,2.5D封裝技術能夠將每比特的能耗在“新存儲”領域,隨著大模型的廣泛應用,對高性在訓練階段,需要從存儲系統快速加載樣本數據到U/GPU,并定期將Checkpoint/GPU寫回到存儲系統中保存。因此,提升存儲I/O性能,縮短數據讀寫時間,成為了提高訓練效率的重要手段之一。為此,NPU/GPU直通存儲技術應運而生。這種技術為NPU/GPU與存儲之間提供了一條直接的內存訪問傳輸路徑,消除了原先涉及的CPU內存緩沖和復制過程,從而大幅縮短了數據讀在推理階段,尤其是在面對高并發、長序列的推理場景時,業界提出了以KVCache(鍵值緩存)為中心的多級緩存加速技術。這一技術能夠顯著提升大規模推理系統的吞吐性能,通過優化數據訪問路徑,確保總之,無論是訓練過程中的NPU/GPU直通存儲技術,還是推理過程中的KVCache多級緩存加速技術,都是為了在大數據量和高并發場景下,提升系統的整體性能和響應速度,從而更好地滿足大模型應用一份給CIO規劃建設智算數據中心的參考l45l網絡作為連接計算和存儲的關鍵紐帶,在滿足大規模計算集群的連接需求方面,正迅速向十萬乃至數十萬xPU(如GPU、NPU等)的互聯演進。隨著網絡技術的發展,參數面網絡的接入速率已從200GE提升至400GE乃至800GE。大模型本身也在不斷發展,從早期的張量并行、數據并行和流水線并行等分割方式,快速演進到MOE(MixtureofExperts,專家混合)等更高級別的并行方法。這一演進對網絡級負載均衡技術提出了更高的要求。為應對這一挑戰,各大廠商紛紛推出各自的負載均衡解決方案。例如,華為推出了與昇騰平臺配套的動態NSLB(全局負載均衡)技術。據測試結果顯示,在512卡規模內,該技術能夠提升Llama2總之,隨著網絡技術的不斷進步和大模型的演進,網絡架構和負載均衡技術也在不斷創新,以滿足更高性I新的管理模式必須具備跨域協同管理的端到端系統運控制以及分析等全生命周期運維管理。具體包括以下全鏈路可視化監控:通過實時監控整個系統的運行跨域故障快速定位:利用先進的故障檢測技術,快速準確定位故障點,減少故障排查時間,避免訓練任保一旦發生故障,能夠迅速采取措施恢復系統正常運通過這些措施,可以顯著提升訓練效率、降低訓練成這種全方位的系統運維管理能力是未來大型乃至超大AIDC算力密度增長帶來功率密度的急劇攀升,給供電、散熱及布局等帶來極大挑戰,正在重塑數據中心能源DC云DCAIDC圖3-8不同時代數據中心機柜的典型功率圖3-8不同時代數據中心機柜的典型功率隨著數據中心用電量的飆升,尤其是當單個數據中心用電量躍升至200MW乃至500MW以上時,城市現有電力基礎設施的瓶頸日益凸顯。如OpenAI的“星際之門”項目所預計的高達數千兆瓦的電力需求,已迫使數據中心選擇跨越地域界限的電力供給解決方案。因此,如何高效、穩定地獲取并匹配如此龐大的電力資源,成為了制約算力規模進一步提升的首要難題。高功率密度帶來的不僅僅是電力挑戰,更對散熱技術提出了嚴苛要求。液冷技術雖已成為行業共識,但面對未來更高功率密度的挑戰,如何在確保可靠性和易維護的同時,提升散熱效率,仍是亟待解決一份給CIO規劃建設智算數據中心的參考l47lAIDC的設計需兼顧IT機房、制冷設施與電力供應區域的復雜需求,打破傳統設計模式,采用更為前瞻性的布局思路。這包括降低IT設施與機電設施的耦合度、實現機電設施的模塊化與室外化布置、以及結為避免能源基礎設施成為數據中心發展的瓶頸,并減優化數據中心布局:通過科學合理的規劃與設計,確保電力供應、冷卻系統與算力需求之提升能源使用效率:采用先進的節能技術與管理手段,降低能耗水平,實現綠色算力的發發展可再生能源與儲能技術:積極利用太陽能、風能等可再生能源資源,并配套建設儲能設施,提升數據中心的電力供給能力與抗風險升級供電與制冷設備:緊跟技術發展步伐,不斷引入更高效、更可靠的供電與制冷設備,前瞻的視角,積極探索并實踐上述應對策略,在保障48AIDC白皮書相比于傳統DC,AIDC規模更大、業務更為復雜且技術更新更快。因此,提供資源管理調度、支撐模型AI算力資源的高效利用:AI服務器采購價力資源,讓單位算力產出更大,就成了企業用AI開發的高門檻和高成本:傳統AI模型的泛化能力較差,面對不同的用戶或數據源時,性能容易下降。缺少算法專家的企業難以完成模型的調試和優化,而即便大模型的泛化能力有所改進,但面對廣泛的應用需求,算法專家務于企業業務的各個領域。此外,模型維護也AIDC運維運營難度大:AIDC作為一種新以及高性能網絡和存儲設備經驗的運維人員,他們面臨的問題包括合理的資源分配、變更管不僅需要運維人員個人能力提升,還需要有完為了應對上述挑戰,需要一個能夠持續迭代的AI平臺,不斷整合新技術和架構,以成熟的方式提供給用戶,朝戶提升性能并降低成本。數據并行、網絡優化等技術有助于提高訓練效率;量化壓縮則提升了推理效率;PD分離技術增強了長序列輸出的性能;提示工程優化則能低成本地提升推理關重要。通過優化存儲方案和通信算法,可以克服并行訓練中的瓶頸,提高數據傳輸效率,縮短訓練時間。對于以交互為主的推理應用,平臺應支持動態調度,如API、定時及按負載擴縮容,以釋放閑置資源。夜間空閑資源可用于微調訓練,另外,平臺還需提供安全隔離和靈活調度支持,確保業務連續性和資源的有效大規模NPU/GPU和光模塊使AI集群運維復雜化。新一代運維系統應具備全面監控、故障預測、智能分析等功能,提升硬件的無故障運行時間和集群效率。在推理環節,運維系統需監控硬件利用率等關鍵指標,識別低效作業并方向04大模型應用開發已有多種模式,如RAG和Agent。AI平臺應提供相應的支持工具,比如數據工程模塊簡化數據預處理,模型開發模塊降低訓練門檻,Agent開發模塊則簡化服務構一份給CIO規劃建設智算數據中心的參考l49l隨著數字化進程的加速,許多領先企業已擁有從幾十到數百個應用不等。在過去的一年多時間里,AI技術的快速發展推動了“所有行業、所有應用、所有軟件都值得用AI重做一遍”的理念。與此同時,大模型的應用極大地改變了軟件開發的方式,催生了一種新的編排式應用開發模式。面向未來,企業在智能化轉型的過程中,將擁有成千上萬的各種模型,如此龐大的模型庫,導致未來企業必須通過編排式應用開發,才能快速響應企業的智能化改造需求,以促進業務創新。編排式應用的構建與傳統應用構建方式在構建主體、流程分解、實現形式以及處理形態等方面存在根本性的區別。在基于大模型的編排式應用構建中,業務工程師和系統工程師可以根據具體的業務邏輯,通然語言提示的方式引導大模型對業務流程進行分解規劃。這種流程處理依據大模型的規劃結果進行實施,其形態也從固定的靜態流程轉變為更具靈活性的動態流程。未來的應用構建方式將更多地依賴于業務人員而非專業的開發人員,編排式應用模式的轉變使得業務人員乃至最終用戶自主構建智能體(Agent)應用以開發人員為主系統工程師人工分解,依賴代碼化實現和擴展固定流程以業務人員為主業務工程師&系統工程師以開發人員為主系統工程師人工分解,依賴代碼化實現和擴展固定流程以業務人員為主業務工程師&系統工程師大模型分解、自動編排,零編碼動態流程ASIS:傳統應用TOBe:編排式應用走向零編碼,讓業務人員自主構建應用成為可能圖3-9從傳統應用到編排式應用圖3-9從傳統應用到編排式應用在編排式應用開發中,重要的是要充分利用大模型在理解和生成方面的能力,以及小模型在感知和執行上的專長,通過合理編排這兩種模型,實現能力互補,共同支撐應用的功能。通過對多個行業中實際AI應用案例的分析,我們總結了四種主要的應用50AIDC白皮書模式模式A首先由一系列的小模型進行感知層面的數據收首先由一系列的小模型進行感知層面的數據收集與初步分析,隨后將這些數據輸入到大模型中進行深入的理解和生成。例如,在智慧城市管理中,可以通過人臉識別、車輛識別、異常行為檢測等視頻分析算法獲取結構化數據,再將這些數據輸入到自然語言處理(NLP)大模型中進行綜合分析,幫助識別城市中的潛在風模式B......首先由NLP大模型理解并分發任務,然后由......首先由NLP大模型理解并分發任務,然后由NLP大模型可以理解醫生提供的患者病歷資料,并據此規劃出診斷流程,再將具體的眼部圖像分析任務分配給計算機視覺(CV)模型來執行,從而生成診斷報告,形成一個高效的模式C模式C..................大模型與小模型共同協作完成任務,先是大模型理解問題并生成具體的任務列表,接著調用實際上是對模式A和模式C的綜合運用,即先由小模型進行感知層面的工作,再由大模型進行理解和生成任務,最后由多個小模型和大圖3-10圖3-10四種應用編排模式一份給CIO規劃建設智算數據中心的參考l51l除了傳統數據中心面臨的安全風險,AIDC還要面臨新的安全挑戰。一是AI內容生產過程的“黑盒”特性,導致其輸出內容具有很大的不確定性和不可解釋性,帶來較大的應用風險,尤其是一些對輸出內容要求比較嚴格的場景。二是AI系統面臨新型安全攻擊的威脅,大模型基于統計和語言規則的預測機制使得它很難區分是合法的指令還是惡意的輸入,攻擊者可以通過精心設計的提示詞來操縱大模型,如在2023年中針對ChatGPT的“奶奶講故事”漏洞,誘導AI執行本應禁止的操作。三是潛在引入新的數據安全風險,大模型在訓練過程中可能會接觸到大量的用戶數據,并加以記憶存儲,而在推理階段可能會無意泄露客戶的隱私信息,如三星電子半導體員工在使用ChatGPT的過程中,無意中泄露了半導體設備測量資料和產品良率等敏感信息,競爭對手可通過ChatGPT問答來獲取相關信息,對三星的市場地位和競爭力造成了極大的負面影響。為此,全球權威的OWASP(OpenWebApplicationSecurityProject)在線社區集合了全球500+安全專家,在1不安全輸出(InsecureOutput1不安全輸出(InsecureOutputHanding)276不安全的插件設計(InsecurePluginDesign)訓練數據投毒(TrainingDataPoisoning)38Top10for訓練數據投毒(TrainingDataPoisoning)38Top10forLLM模型拒絕服務(ModelDenialofservice)49過度代理(ExcessiveAgency)過度依賴(Overreliance)供應鏈漏洞(SupplyChain供應鏈漏洞(SupplyChainVulnerability)5模型竊取(ModelTheft)圖3-11圖3-11OWASP發布的大語言模型10大安全風險針對上述安全風險,需要構建立體、多元的系統性安全防御,從源頭上控制風險,確保大模型安全做事。首先需要保證訓練數據集的安全,重點加強數據版權保護,隱私合規,確保數據可追溯;其次在模型訓練52AIDC白皮書階段,要增強模型的內生安全能力,通過教會大模型各類安全知識,提升大模型自身的健壯性;最后通過構建大模型安全護欄,確保大模型從容應對各種安全運維管理安全防護運維管理安全防護傳統數據中
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- T/CSBME 049-2022超聲探頭可靠性試驗方法
- T/CQAP 3003-2023大興安嶺地產中藥材赤芍質量規范
- T/CNPPA 3025-2023藥包材質量協議管理指南
- T/CNFA 021-2023綠色設計產品評價技術規范竹藤家具
- T/CIMA 0041-2021氨氮快速測定儀
- T/CIE 167-2023企業級固態硬盤測試規范第3部分:可靠性測試
- T/CHTS 10119-2023雄安新區高速公路建設環境管理導則
- T/CECS 10335-2023新風系統集中采購通用要求
- T/CECS 10254-2022綠色建材評價防火涂料
- T/CECS 10222-2022液動下開式堰門
- 大學生新材料項目創業計劃書
- 2025年蘇教版科學小學四年級下冊期末檢測題附答案(二)
- 汽車定點洗車協議書
- 內蒙古鑫元硅材料科技有限公司年產10萬噸顆粒硅綠色升級項報告書
- 2025年青海西寧事業單位(行測)考試筆試試題(含答案)
- 小學生安全知識單選題100道及答案
- 雨季監理實施細則
- 分層審核檢查表LPA全套案例
- 柔版印刷常見故障及解決辦法
- 三標一體文件編寫指南
- WC28E鏟板式搬運車使用維護說明書
評論
0/150
提交評論