從訓練到推理:算力芯片需求的華麗轉身2024_第1頁
從訓練到推理:算力芯片需求的華麗轉身2024_第2頁
從訓練到推理:算力芯片需求的華麗轉身2024_第3頁
從訓練到推理:算力芯片需求的華麗轉身2024_第4頁
從訓練到推理:算力芯片需求的華麗轉身2024_第5頁
已閱讀5頁,還剩15頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

從訓練到推理:算力芯片需求的華麗轉身——算力專題研究二推理算力:算力芯片行業的第二重驅動力強于大市(維持評級)一年內行業相對大盤走勢團隊成員chj30590@xx30511@lyw30508@相關報告我們在此前外發報告《如何測算文本大模型AI 從訓練到推理:算力芯片需求的華麗轉身——算力專題研究二推理算力:算力芯片行業的第二重驅動力強于大市(維持評級)一年內行業相對大盤走勢團隊成員chj30590@xx30511@lyw30508@相關報告1、AMD宣布收購服務器供應商,英偉達強力加持“黑神話”游戲體驗1、AMD宣布收購服務器供應商,英偉達強力加持“黑神話”游戲體驗-算力周跟蹤——2024.08.222、蘋果領軍AI端側創新,消費電子長期量價上行空間打開——2024.08.213、20240818周報:關注折疊屏手機形態演進及新機發布——2024.08.19根據OpenAI《ScalingLawsforNeuralLanguageModels》,并結合我們對于推理算力的理解,我們拆解出云端AI推理算力需求≈2×模型參數量×數據規模×峰值倍數。由ScalingLaws驅動的參數量爆發是訓練&推理算力需求共同的影響因素;而對于推理需求,更為復雜的是對數據規模的量化。我們將數據規模(tokens)拆解為一段時間內用戶對于大模型的訪問量與單次訪問產生的數據規模(tokens)的乘積,其中,單次訪問產生的數據規模(tokens)可以進一步拆解為單次提問的問題與答案所包含的token數總和乘以單次訪問提出的問題數。通過層層拆解,我們發現單次問答所包含的token數是模型中的重要影響因素,其或多或少會受到大模型上下文窗口(ContextWindow)的限制。而隨著上下文窗口瓶頸的快速突破,長文本趨勢成為主流,有望驅動推理算力需求再上新臺階。結論:證券研究報告我們首先根據前述邏輯測算得到AI大模型推理所需要的計算量,隨后通過單GPU算力供給能力、算力利用率等數值的假設,逐步倒推得到GPU需求數量。若以英偉達當代&前代GPU卡供給各占50%計算,我們認為2024-2026年OpenAI云端AI推理GPU合計需求量為148/559/1341萬張。證券研究報告建議關注-算力芯片:寒武紀海光信息龍芯中科-服務器產業鏈:工業富聯滬電股份深南電路勝宏科技風險提示AI需求不及預期風險、ScalingLaw失效風險、長文本趨勢發展不及預期風險、GPU技術升級不及預期的風險、測算模型假設存在偏差風險。誠信專業發現價值1誠信專業發現價值2請務必閱讀報告末頁的 1如何測算文本大模型AI推理端算力需求? 32ScalingLaws&長文本趨勢:推理需求的核心驅動力 42.1關于模型參數量:ScalingLaws仍為核心 42.2關于數據規模(tokens長文本趨勢已確立 53文本大模型云端AI推理對GPU的需求量如何求解? 84風險提示 圖表1:英偉達FY2024數據中心推理與訓練占比 3圖表2:中國人工智能服務器負載及預測 3圖表3:文本大模型云端AI推理算力供給需求公式 3圖表4:云端AI推理需求公式拆解 4圖表5:大模型訓練的ScalingLaw 4圖表6:海外主流AI大模型訓練側算力供給需求情況 5圖表7:國內主流AI大模型訓練側算力供給需求情況 5圖表8:云端AI推理需求公式進一步拆解 5圖表9:文本大模型網站訪問量周度數據(單位:萬次) 6圖表10:文本大模型網站訪問量周度數據(單位:萬次) 6圖表11:圖片大模型網站訪問量周度數據(單位:萬次) 6圖表12:視頻大模型網站訪問量周度數據(單位:萬次) 6圖表13:OpenAIPlatformTokenizer 7圖表14:OpenAI云端AI推理算力需求-供給測算 9 我們在此前外發報告《如何測算文本大模型AI訓練端算力需求?》中,對未來三年AI訓練卡需求持樂觀態度,經過測算,以英偉達Hopper/Blackwell/下一代GPU卡FP16算力衡量,我們認為2024-2026年全球文本大模型AI訓練側GPU需求量為271/592/1244萬張。由此我們認為,推理側算力對訓練側算力需求的承接不意味著訓練需求的趨緩,而是為算力芯片行業貢獻第二重驅動力。推理算力市場已然興起,24年AI推理需求成為焦點。據Wind轉引英偉達FY24Q4業績會紀要,公司2024財年數據中心有40%的收入來自推理業務。放眼國內,IDC數據顯示,我國23H1訓練工作負載的服務器占比達到49.4%,預計全年的占比將達到58.7%。隨著訓練模型的完善與成熟,模型和應用產品逐步投入生產,推理端的人工智能服務器占比將隨之攀升,預計到2027年,用于推理的工作負載將達到72.6%。圖表1:英偉達FY2024數據中心推理與訓練占比來源:英偉達財報電話會議紀要,Wind,華福證券研究所注:按銷售收入口徑圖表2:中國人工智能服務器負載及預測來源:IDC,《2023-2024中國人工智能計算力發展評估報告》,華福證券研究所如何量化推理算力需求?與訓練算力相比,推理側是否具備更大的發展潛力?我們整理出AI推理側算力供給需求公式,并分類討論公式中的核心參數變化趨勢,以此給出我們的判斷。需要說明的是,本文將視角聚焦于云端AI推理算力,端側AI算力主要由本地設備自帶的算力芯片承載。基于初步分析,我們認為核心需要解決的問題聚焦于需求側——推理消耗的數據規模如何測算?而供給側,GPU性能提升速度、算力利用率等,我們認為與AI訓練大致無異。圖表3:文本大模型云端AI推理算力供給需求公式來源:OpenAI《ScalingLawsforNeuralLanguageModels》,NVIDIA&StanfordUniversity&MicrosoftResearch《EfficientLarge-ScaleLanguageModelTraining onGPUClustersUsingMegatron-LM》,新智元,CIBA新經濟,思瀚產業研究院,極市平臺,華福證券研究所 誠信專業發現價值3請務必閱讀報告末頁的誠信專業發現價值4請務必閱讀報告末頁的 2Scaling根據OpenAI《ScalingLawsforNeuralLanguageModels》,并結合我們對于推理算力的理解,我們拆解出云端AI推理算力需求≈2×模型參數量×數據規模×峰值倍數。圖表4:云端AI推理需求公式拆解來源:OpenAI《ScalingLawsforNeuralLanguageModels》,思瀚產業研究院,極市平臺,華福證券研究所2.1關于模型參數量:ScalingLaws仍為核心我們在此前外發報告《如何測算文本大模型AI訓練端算力需求?》中已詳細介紹過ScalingLaw的基本原理及其對大模型參數量的影響,主要觀點為:模型的最終性能主要與計算量、模型參數量和數據大小三者相關,而與模型的具體結構(層數/深度/寬度)基本無關。如下圖所示,對于計算量、模型參數量和數據規模1)當不受其他兩個因素制約時,模型性能與每個因素都呈現冪律關系。(2)如模型的參數固定,無限堆數據并不能無限提升模型的性能,模型最終性能會慢慢趨向一個固仍然是當下驅動行業發展的重要標準。圖表5:大模型訓練的ScalingLaw來源:OpenAI《ScalingLawsforNeuralLanguageModels》,PaperWeekly,ExparaAcademy,華福證券研究所我們也詳細統計了海內外主流AI大模型訓練情況,過去幾年來AI大模型參數量呈現快速增長。以OpenAI為例,GPT-3到GPT-4歷時三年從175B參數快速提升到1.8T參數(提升9倍)。目前國內主流AI大模型也逐步突破了千億參數大關,乃至采用萬億參數進行預訓練。圖表6:海外主流AI大模型訓練側算力供給需求情況來源:OpenAI《LanguageModelsareFew-ShotLearners》,Google《PaLM:ScalingLanguageModelingwithPathways》,英偉達,谷歌研究院,騰訊科技,機器之心,中關村在線,河北省科學技術廳,華福證券研究所注1:由于各公司對于大模型的訓練數據披露口徑不一,以上為本文非完全統計注2:GPT4算力利用率在32-36%區間,本文取中值粗略計算注3:英偉達V100理論峰值為官網所示“深度學習|NVLink版本”性能圖表7:國內主流AI大模型訓練側算力供給需求情況來源:騰訊云,通義千問公眾號&GitHub網頁,新聞晨報,市界,IT之家,華爾街見聞,新浪科技,鈦媒體,華福證券研究所注1:由于各公司對于大模型的訓練數據披露口徑不一,以上為本文非完全統計注2:騰訊混元參數量披露口徑較為模糊,分別為超千億參數/萬億參數,在本圖中不涉及左側第二列單位2.2關于數據規模(tokens長文本趨勢已確立根據公式,云端AI推理需求公式中的數據規模(tokens可以拆解為一段時間內用戶對于大模型的訪問量與單次訪問產生的數據規模(tokens)的乘積。圖表8:云端AI推理需求公式進一步拆解來源:OpenAI《ScalingLawsforNeuralLanguageModels》,思瀚產業研究院,極市平臺,華福證券研究所誠信專業發現價值5請務必閱讀報告末頁的 1、從大模型訪問量來看,我們認為需要覆蓋到不同流量入口的訪問量之和,包括(1)桌面端2)移動端。由于Similarweb數據統計了桌面端+移動端所有流量之和,我們以此為基礎測算推理應用產生的token數據規模。圖表9:文本大模型網站訪問量周度數據(單位:萬次)來源:Similarweb,華福證券研究所注:受網頁改版影響,OpenAI統計口徑為和之和圖表11:圖片大模型網站訪問量周度數據(單位:萬來源:Similarweb,華福證券研究所圖表10:文本大模型網站訪問量周度數據(單位:萬來源:Similarweb,華福證券研究所圖表12:視頻大模型網站訪問量周度數據(單位:萬來源:Similarweb,華福證券研究所2、從單次訪問產生的數據規模來看,運算公式可以拆解為單次提問的問題與答案所包含的token數總和乘以單次訪問提出的問題數,其中單次問答所包含的token數取決于字數&每個字對應的token數。(1)字數:單次問答所包含的字數或多或少會受到大模型上下文窗口(ContextWindow)的限制。隨著上下文窗口瓶頸的快速突破,長文本趨勢成為主流。以O為例,從GPT-3.5升級至GPT-3.5-Turbo,上下文窗口從4k升級為16k;而GPT-4版本時隔一年后升級為GPT-4-Turbo,也將上下文窗口從32k提升至128k。而以長文本能力成為“頂流”的Kimi,2023年10月上線時支持無損上下文長度最多為20萬漢字,24年3月已支持200萬字超長無損上下文,長文本能力提高10倍。按照AI領域的計算標準,200萬漢字的長度大約為400萬token,在全球范圍內也屬于領先的標準。(2)每個字對應的token數:不同的大模型均有各自的分詞器設計,以OpenAI為例,1000個token通常代表750個英文單詞或500個漢字。以其官網Tokenizer計算工具結果來看,基本與此結論相契合。誠信專業發現價值6請務必閱讀報告末頁的 圖表13:OpenAIPlatformTokenizer來源:OpenAIPlatform,華福證券研究所注:以上文字為測試語句,來自該網頁下方原文誠信專業發現價值7請務必閱讀報告末頁的 本文按第一章所示“文本大模型云端AI推理算力供給需求公式”,逐步拆解計算過程。首先,測算AI大模型推理所需計算量,隨后通過對單GPU算力供給能力的假設,逐步倒推得到GPU需求數量。需要說明的是,根據圖9-12中Similarweb統計數據,我們發現當前OpenAI在全球范圍內的訪問量仍然斷層領先,由此我們推斷OpenAI在全球推理算力需求中占據較大比重,因此本文測算以OpenAI為例。一、云端AI推理算力需求1、每參數每token所需計算量:根據OpenAI《ScalingLawsforNeuralLanguageModels》,并結合我們對于推理算力的理解,我們拆解出云端AI推理算力需求≈2×模型參數量×數據規模×峰值倍數,即每參數每token推理所需計算量為2Flops。2、大模型參數量:根據我們此前外發報告《如何測算文本大模型AI訓練端算力需求?》,我們認為ScalingLaw仍將持續存在,大模型或將持續通過提升參數量、預訓練數據規模(token數)帶動計算量提升,進而提升大模型性能,我們按過往提升速度大致推斷未來增長情況。3、數據規模(tokens從大模型訪問量來看,我們以Similarweb統計的訪問量數據為測算基礎,通過趨勢的判斷,以及對AI推理能力提升帶動AI應用滲透趨勢的信心,我們預計24-26年OpenAI訪問量有望同比增長60%/50%/30%。需要說明的是,由于OpenAI在Similarweb統計的訪問量數據中以斷層優勢處于領先地位,我們認為OpenAI在全球AI推理需求中占據相當大的比重。從單次訪問產生的數據規模來看,運算公式可以拆解為單次提問的問題與答案所包含的token數總和乘以單次訪問提出的問題數,其中單次問答所包含的token數取決于字數&每個字對應的token數。(1)首先,我們假設23年大模型單次訪問的問答次數為5次,隨著大模型的使用頻率提高,用戶粘性增強,該次數有望穩步提升。(2)我們假設單次提問一般對應30tokens左右,另外我們取23年一次問答實驗中12次回答的平均字數(523個漢字)作為假設,基于1:2的換算比例,得到23年單次問答產生的token數為1077字節。我們假設24-26年單次問答產生的token數有望跟隨大模型上下文窗口的長文本化趨勢,而呈現爆發式增長。4、峰值倍數:我們假設1)推理需求在一日之內存在峰谷,算力儲備比實際需求高,2)隨算力應用的進一步泛化,峰值倍數有望逐漸下降。二、云端AI推理算力供給1、GPU計算性能:根據我們此前外發報告《如何測算文本大模型AI訓練端算力需求?》,我們假設未來英偉達新產品的FP16算力在Blackwell架構的基礎上延續過往倍增趨勢。此外,我們假設訓練卡供不應求,由此推斷推理需求的實現相較于訓練需求的實現或延遲半代,AI推理側或以英偉達新一代及次新一代GPU為主,我誠信專業發現價值8請務必閱讀報告末頁的 們假設二者各占50%,以其平均FP16算力作為計算基準。2、訓練時間&算力利用率:我們假設推理應用需求在全年365天是持續存在的,由此假設全年推理時間為365天。根據我們此前外發報告《如何測算文本大模型AI訓練端算力需求?》,我們假設算力利用率在30-42%區間,逐年提升。三、結論:若以英偉達當代&前代GPU卡供給各年OpenAI云端AI推理GPU合計需求量為148/559/1341萬張。圖表14:OpenAI云端AI推理算力需求-供給測算來源:英偉達,Similarweb,OpenAIPlatform,OpenAI《LanguageModelsareFew-ShotLearners》,OpenAI《ScalingLawsforNeuralLangu

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論