計算機行業AIGC系列之七:國產AI芯片的百倍算力需求_第1頁
計算機行業AIGC系列之七:國產AI芯片的百倍算力需求_第2頁
計算機行業AIGC系列之七:國產AI芯片的百倍算力需求_第3頁
計算機行業AIGC系列之七:國產AI芯片的百倍算力需求_第4頁
計算機行業AIGC系列之七:國產AI芯片的百倍算力需求_第5頁
已閱讀5頁,還剩33頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

計算機03月24日計算機03月24日AIGC系列之七研究!-計算機行業周報日系列之六"2023年3月17日本期投資提示:AI芯片是大模型的基礎。AI芯片主要分為訓練和推理兩類芯片,云和端對訓練和推理芯C四大AI芯片技術路線,均圍繞打破英偉達CUDA生態壟斷展開。英偉達憑借CUDA、cuDNN和TensorRT等軟件工具鏈以及和Tensorflow的深度綁定構筑了極高的生態壁 (從當前主流的A100升級至H100),仍然需要巨量的額外增量投資。AIAI有成長空間。由于AIGC、類GPT倍算力需求。而英偉達等供給解決需求有瓶頸(根據IDC咨詢,GPUBMWWFPTFLops試階重點推薦:1)直接受益AI芯片需求崛起的寒武紀(思元590將是最早實現商業應用的接近英偉達A100性能的國產AI訓練芯片)、海光信息(預計2023年底量產的DCU3性能與NVDIAH100性能持平)。2)AI服務器供應商:浪潮信息、中科曙光、中興通訊(通訊)、工業富聯(電子)。TMT領域算力基建邏輯,也建議關注通信、電子相關公司。通信——天孚通信、中際旭創、紫光股份、銳捷網絡、新易盛等。此外也持續關注流量基的數據中心等環節供需變化,包括奧飛數據、潤澤科技等,以及伴隨算力增長的溫PCB析師黃忠煌A0230519110001huangzh@洪依真A0230519060003hongyz@李國盛A0230521080003ligs@劉洋A0230513050006liuyang2@人cuihang@必仔細閱讀正文之后的各項信息披露與聲明行業及產業證券研究報證券研究報告行業深度請務必仔細閱讀正文之后的各項信息披露與聲明請務必仔細閱讀正文之后的各項信息披露與聲明第2頁共23頁簡單金融成就夢想件結論和投資分析意見預計中國互聯網大廠即將進入大模型“軍備競賽”期,國產AI芯片需求進入爆發期,帶動AI服務器進入快速成長期。原因及邏輯AI芯片+AI服務器,受益于AIGC+類GPT等應用的鯰魚效應。原有英偉達等供給有限,所以國產AI芯片有理論上的爆發彈性,AI服務器有成長空間。由于AIGC、類GPT有鯰魚效應,帶來約百倍算力需求。而英偉達等供給解決需求有瓶頸(根據IDC咨詢,預測2025年AI服務器市場空間僅僅318億美元,預計21-25年CAGR僅僅19.5%),因此國產AI芯片在邏輯上有爆發彈性,此外AI服務器也有成長空間。有別于大眾的認識市場認為,英偉達GPU生態難以突破,我們認為,國產AIAISC性能在主流大模型算法中已能畢竟英偉達主流GPU計算能力水平。市場認為,國產AIASIC水平競爭格局較差,我們認為,當前AIASIC芯片供應商較多,但主要互聯網產商AI芯片采購較為集中。請務必仔細閱讀正文之后的各項信息披露與聲明請務必仔細閱讀正文之后的各項信息披露與聲明第3頁共23頁簡單金融成就夢想1.AI芯片:大模型的基礎 52.AI芯片四大技術路線,寒武紀復制英偉達 7 3.中國ASIC芯片格局:寒武紀卡位最優 154.AIGC傳導至潛在的百倍算力需求! 17重點關注公司 206.風險提示 21請務必仔細閱讀正文之后的各項信息披露與聲明請務必仔細閱讀正文之后的各項信息披露與聲明第4頁共23頁簡單金融成就夢想圖1:云端訓練、云端推理、設備端推理三個細分市場的AI芯片競爭格局.......7圖2:寒武紀針對原生TensorFlow的修改(深灰色部分) 10圖3:寒武紀的端云一體軟件棧架構 10圖4:AMD的ROCm是和英偉達CUDA對等的智能編程語言 11圖5:AMD的HIPify工具可以將英偉達CUDA代碼轉換為ROCm代碼.....11達的CUDA棧 12圖7:AMD的ROCm棧 12圖8:華為在AI領域全棧自研:從底層芯片到智能編程語言再到深度學習框架14圖9:MindSpore和Pytorch結合各類芯片訓練速度(單位:張/秒)........14圖10:OpenAI首席執行官SamAltman談ChatGPT每次聊天的成本.......18圖11:GPT-3訓練成本估算 18圖12:主流LLM模型訓練成本估算 19圖13:LLM訓練/推理成本測算框架 19圖14:過去5年中,LLM模型參數呈指數增長 20表1:“端-邊-云”對AI芯片的算力和功耗、延時性有不同的要求 5表2:國內外主流深度學習框架以及支持的硬件設備 8表3:英偉達發布A800、H800實現向中國合法出口 9表4:英偉達AI推理芯片參數一覽 9表5:寒武紀AI芯片性能參數 10表6:谷歌歷代推理和訓練芯片性能參數 13表7:華為主流推理和訓練芯片性能參數 14表8:訓練端芯片已有較多參與者 16表9:推理端芯片華為/阿里/寒武紀等布局較早 16表10:重點公司估值表(單位:億元) 22請務必仔細閱讀正文之后的各項信息披露與聲明請務必仔細閱讀正文之后的各項信息披露與聲明第5頁共23頁簡單金融成就夢想人工智能芯片主要分為“訓練(Training)”芯片和“推理(Inference)”芯片。“訓練芯片”主要用于人工智能算法訓練,即在云端將一系列經過標記的數據輸入算法模型進行計算,不斷調整優化算法參數,直至算法識別準確率達到較高水平。“推理芯片”主要用于人工智能算法推理,即將在云端訓練好的算法模型進行裁剪優化變“輕”之后,進入“實戰”階段,輸入數據直接得出準確的識別結果。不同用途(訓練or推理)、不同應用場景(端-邊-云)對AI芯片有著不同的要求。首先,訓練芯片追求的是高計算性能(高吞吐率)、低功耗,但是推理芯片主要追求的是低延時(完成推理過程所需要的時間盡可能短)、低功耗。其次,“端-邊-云”三個環節對AI芯片的不同要求見下表——其中端和邊上進行的大部分是AI“推理”,因此用于端和邊的AI芯片性能要求和上述推理芯片一致;大部分的訓練過程是在云和數據中心進行,訓練過程對時延沒有什么要求,因此需要保證AI芯片在盡可能保證較高算力的情況下,功耗盡可能低,另外許多推理過程也是在云端進行。端邊云耳機電話智能手機個人電腦網絡攝像機IPC邊緣服務器數據中心大小推理訓練系列20MOPS100GOPS1-10TOPS10-20TOPS10-20TOPS大小推理訓練系列1mW10mW1-2W3-10W3-10W10-300W200+W10KB100KB10MB10-100MB10-100MB100+MB300+MB<10ms~10ms10-100ms10-500ms10-500msms~sms~sYYYYYYYNNYYYYYNanoTinyLiteMiniMiniMulti-MiniorMaxMaxorMultiMini目前用于人工智能深度/機器學習的芯片主要有GPU、FPGA、ASIC三類芯片。三類芯片用于深度學習時各有優缺點:(1)通用性:GPU>FPGA>ASIC,通用性越低,代表其適合支持的算法類型約少。(2)性能功耗比:GPU<FPGA<ASIC,性能功耗比越高越好,意味著相同功耗下運算次數越多,訓練相同算法所需要的時間越短。在不同的應用場景之下,已經形成了不同的AI芯片競爭格局。1.在云和數據中心AI芯片市場,“訓練”和“推理”兩個環節都是英偉達GPU一家獨大,幾乎占據90%以上份額,包括AWS、微軟Azure、谷歌云、阿里云、華為云、騰訊云在內的大部分公有云廠商上線的AI加速計算公有云服務絕大部分都是基于英偉達Tesla系列GPU。請務必仔細閱讀正文之后的各項信息披露與聲明請務必仔細閱讀正文之后的各項信息披露與聲明第6頁共23頁簡單金融成就夢想 (1)云端訓練用的幾乎全部是英偉達GPU,公有云廠商中僅谷歌云一家除了提供以英偉達GPU為主的云計算加速服務之外,還推出了基于自研AI芯片TPU的深度學習訓練服務; (2)云端推理目前出現了基于GPU、FPGA、ASIC三種不同芯片云計算服務,但是市場份額仍然以英偉達GPU為主,其中AWS、阿里云、騰訊云、華為云等公有云廠商均推出了FPGA加速計算云服務,另外AWS推出了基于自研AI芯片Inferentia的ASIC加速計算服務,華為云推出了基于自研AI芯片昇騰310的ASIC加速計算服務。2.在設備端和邊緣計算“推理”市場,各類型芯片各自為陣,尚無絕對優勢地位的芯片廠商出現——手機市場以高通、華為、蘋果原主控芯片廠商為主,自動駕駛、安防IPC領域英偉達暫時領先。 (1)手機:高通從驍龍820開始,就已經具備第一代人工智能引擎AIEngine;高通從第三代AIEngine開始引入異構計算CPU、GPU和DSP的異構并行計算;目前高通已經迭代至第四代,驍龍855是第一個搭載第四代AIEngine的SoC。華為麒麟970、980分別引入寒武紀IP(1A/1H),使得手機SoC開始具備AI能力,在2019年6月華為發布麒麟810,華為與寒武紀合作終止,華為采用了自研AI芯片達芬奇架構(華為在2018年推出了達芬奇架構,對標寒武紀智能處理器IP——Cambricon-1A/1H/1M)。蘋果2017年發布的A11芯片也具備了AI能力,附帶NeuralEngine和開發平臺CoreML用于機器學習。 (2)安防IPC:仍然以采用英偉達Jetson系列GPU為主。例如海康采用了英偉達JetsonTX1,大華睿智系列人臉網絡攝像機采用的是英偉達TeslaP4GPU。另外國內三大安防廠商也在陸續采用ASIC芯片,例如海康、大華、宇視在前端智能化攝像機中采用Movidious的Myriad系列芯片,大華自研AI芯片用于新款睿智人臉攝像機。 (3)智能駕駛:L3級別以上自動駕駛芯片以英偉達Drive平臺為主(包括Xavier和Orin兩款SoC);華為將昇騰310用于自動駕駛域控制器MDC上,2020年已經通過車規級認證;英特爾Mobileye的EyeQ4-5被用在L3-5智能駕駛。但是目前整車廠和Tier1實際采用得最多仍然是以英偉達GPU為主。(在低級別的L1-L2輔助駕駛上,采用的是NXP、瑞薩等廠商的MCU芯片,不涉及深度學習。) (4)智能音箱:目前智能音箱的語音語義識別均在云端完成推理計算,終端上請務必仔細閱讀正文之后的各項信息披露與聲明請務必仔細閱讀正文之后的各項信息披露與聲明第7頁共23頁簡單金融成就夢想圖1:云端訓練、云端推理、設備端推理三個細分市場的AI芯片競爭格局:雷鋒網,申萬宏源研究2.AI芯片四大技術路線,寒武紀復制英偉達由于AIGC、類GPT應用有鯰魚效應,帶來約百倍算力需求(下文)。而英偉達等供給解決需求有瓶頸,因此國產AI芯片有邏輯上需求彈性,AI服務器也有空間。根據IDC數據,2021年全球AI服務器市場規模為156億美元,預計到2025年全球AI服務器市場將達到318億美元,預計21-25年CAGR僅僅19.5%。AI服務器的增長和規模總額恐怕無法滿足類GPT類應用的百倍需求(例如生產地域、供應商產能、工人等限制),因此AI芯片可能會大量爆發,其次是AI服務器。近期的行業領袖創業潮,會加速這種趨勢。2012-2014年AI創業潮,造就2015-2017目前AI芯片主要玩家應對英偉達塑造的AI生態壁壘,選取了不同的商業策略: (1)英偉達AI芯片依然是AI訓練和推理最佳選擇; (2)寒武紀在走英偉達的路線; (3)AMD在走部分兼容CUDA的路線; (4)谷歌、華為、百度走的是“深度學習框架+AI芯片”自研路線。請務必仔細閱讀正文之后的各項信息披露與聲明請務必仔細閱讀正文之后的各項信息披露與聲明第8頁共23頁簡單金融成就夢想2.1英偉達:通用芯片GPU英偉達目前在深度學習訓練芯片市場占據絕對壟斷地位,憑借的是: (1)CUDA及cuDNN、TensorRT等一系列專為深度學習打造的軟件工具鏈。CUDA是實現CPU和GPU分工的編程工具;cuDNN針對深度學習訓練,將深度學習模型中對各層(Layer)的常見的操作(例如卷積convolution、池化pooling)以方便理解和使用的接口暴露給開發人員,從而使得開發人員可以快速搭建training的庫;TensorRT針對推理環節,幫助模型自動減值和優化;由于開發者對于這些工具已經非常熟悉,由于學習成本的存在不會輕易遷移; (2)深度學習框架和英偉達AI芯片的高度耦合。由于各家AI芯片廠商編程語言無法兼容,而深度學習框架廠商僅支持一家AI芯片就要投入巨大工程量,因此導致其最終只選擇市占率最大的1-2家進行深度支持,英偉達在AI訓練和推理上實現了軟硬件高度耦合而構筑了極高的生態壁壘。學習框架時間TensorfloTensorflowFacFacebook2015年22016年2016年CPU/GPU(英偉達CUDA)/TPU(谷歌)CPUCPU/GPU(英偉達CUDA)CPU/GPU(英偉達CUDA+AMDROCm)/昆侖XPU(百度)/海光DCU昇騰PaddlePaddle(飛槳)Jittor(計圖)2020年CPU/GPU(英偉達CUDA)/寒武紀Mindspore2020年CPU/GPU(英偉達CUDA)/華為昇騰MegEngine(天元)2020年CPU(ARM+x86)/GPU(英偉達CUDA)英偉達高性能訓練和推理芯片產品主要包括V100、A100、H100以及3月21日GTC2023發布的H100NVL(2張H100通過外部接口以600GB/s的速度連接,每張卡顯存為94GB合計為188GB),預計2024年將推出基于下代Blackwell架構的B100產品。除上文提到的軟件及生態壁壘外,英偉達芯片的主要優勢在于大片上內存、高顯存帶寬以及片間互聯方案。大片上內存是支撐最高達上千億參數(GPT-31750億、GPT-3.52000億)的大模型在芯片上運行的必需,高顯存帶寬能夠實現更高的數據傳輸速率從而減少訓練時間、提升效率;NVSwitch片間互聯方案則大大提升多GPU互聯的運行效率,由于大模型的訓練對算力要求非常高,chatGPT模型訓練一次消耗算力達3640p,需要上萬張A100芯片支持,英偉達NVSwitch能夠實現高速多對多全GPU通信,能夠更大程度發揮GPU集群的算力潛力。22年9月起,美國禁止峰值性能等于或大于A100閾值的英偉達芯片向中國出口,合法版本A800、H800已在國內應用。由于中國高性能計算市場對英偉達來說是一個不可放請務必仔細閱讀正文之后的各項信息披露與聲明請務必仔細閱讀正文之后的各項信息披露與聲明第9頁共23頁簡單金融成就夢想棄的巨大市場,英偉達分別于22年11月、23年3月發布A100、H100的“閹割”版本A800、H800,通過降低數據傳輸速率(顯存帶寬)至400GB/s、450GB/s避開美國限制,從而合法出口到中國,根據CEO黃仁勛在GTC2023演講,H800已在國內BAT的云計算NVL700W功700W96GBHBM3e7.8TB/sAA00300WBs202022年12月2TFLOPSTF7nm銷售700WGBHBM3TB/s20222022年3月4000TFOPs60TFLOPs4nm許可AA00400W440GBHBM220202020年5月624TFOPS/1248TFLOPS*7nm可V100(NVLiV100(NVLi300W332/16GB2nm銷售V100(PCIEV100(PCIE)250W332/16GB900GB/sl2nm銷售V100V100S250W332GB月2nm銷售70W320+2018年3月S2nm銷售上市時間上市時間2023年下半年(預計)FPFP162×990TFLOPSFP322×67FPFP642×344952495FPFP64Tensor2×64CoreTFLOPS?工藝4nm中國供應情況還未發行型號A8nm制程8nm4nmx4x8nm制程8nm4nmx4x250W7nm4nmTOPS300W330TOPS|661299.3TOPS|F|FP16Tensor125TFLOPS||TFLOPS*300W300W顯4個16G顯4個16G的24GBHBM2顯存、48GB顯存,696GB/s帶糾錯碼的48GB4*200GB4*200GB/s帶寬¥24,150¥32,430GDDR¥36,570¥52,440售價¥36,570¥52,440e請務必仔細閱讀正文之后的各項信息披露與聲明請務必仔細閱讀正文之后的各項信息披露與聲明第10頁共23頁簡單金融成就夢想2.2寒武紀:復制英偉達成長之路我們認為寒武紀芯片硬件性能相比于英偉達還有追趕空間,上層軟件堆棧與英偉達相似,全自研不是兼容路線;不同之處在于寒武紀需要自己對原生深度學習框架進行修改以支持思元芯片,而英偉達有谷歌原廠支持。硬件方面,從一些表觀的性能參數對比來看,寒武紀訓練芯片思元290和英偉達A100、昇騰910相比性能還有追趕的空間。軟件方面,寒武紀是自己對原生的Tensorflow和Pytorch深度學習框架去針對自己的思元芯片去做修改而非像華為一樣自研深度學習框架去進行優化,也不想英偉達一樣因為芯片市占率高,有Pytorch/Tensorflow原廠去做GPU算子的優化和設備的支持。另外寒武紀相比英偉達的算子庫豐富程度以及軟件工具鏈的完善程度還有一定差距,需要時間去追趕。型號型號思元590發布年份2023年元元3702021年arch77nm256TOPS(INT8)775W元2902021年77nm512TOPS(INT8)TOPSINT)64TOPS(CINT32)3350W--元2702019年T770W思思元1002018年32TOPS(INT8)16TOPS16TOPS(FP16)775W元2202019年算8TOPS(INT8)44TOPS(INT16)-94.8mm2架構性能77nmTFLOSFP)功耗功耗350-550W芯芯片面積800mm2圖2:寒武紀針對原生TensorFlow的修改(深灰色部分)請務必仔細閱讀正文之后的各項信息披露與聲明請務必仔細閱讀正文之后的各項信息披露與聲明第11頁共23頁簡單金融成就夢想AMD:部分兼容英偉達CUDAAMD選擇了部分兼容英偉達CUDA,借力英偉達生態的路線。AMD在2016年全球超算大會上推出了ROCm,也就是對標英偉達CUDA一樣的智能編程語言,ROCm軟件堆棧的結構設計與CUDA相似度很高;對標英偉達深度學習庫cuDNN,AMD推出了MIOpen;對標英偉達深度學習推理框架TensorRT,AMD推出了Tensile;對標英偉達編譯器NVCC,AMD推出了HCC。ROCm中包含的HIPify工具,可以把CUDA代碼一鍵轉換成ROCm棧的API,減少用戶移植成本。我們認為走兼容英偉達CUDA的路線其難點在于其更新迭代速度永遠跟不上CUDA并且很難做到完全兼容。(1)迭代永遠慢一步:英偉達GPU在微架構和指令集上迭代很快,在上層軟件堆棧上很多地方也要做相應的功能更新;但是AMD不可能知道英偉達的產品路線圖,軟件更新永遠會慢英偉達一步(例如AMD有可能剛宣布支持了CUDA11,但是英偉達已經推出CUDA12了)。(2)難以完全兼容反而會增加開發者的工作量:像CUDA這樣的大型軟件本身架構很復雜,AMD需要投入大量人力物力用幾年甚至十幾年才能追趕上;因為難免存在功能差異,如果兼容做不好反而會影響性能(雖然99%相似了,但是解決剩下來的1%不同之處可能會消耗開發者99%的時間)。程語言圖5:AMD的HIPify工具可以將英偉達CUDA代碼轉換為ROCm代碼請務必仔細閱讀正文之后的各項信息披露與聲明請務必仔細閱讀正文之后的各項信息披露與聲明第12頁共23頁簡單金融成就夢想谷歌憑借Tensorflow去做TPU相對而言不存在太多生態壁壘問題,但是仍然無法撼動英偉達,我們認為其原因在于TPU本身性能還有進一步提升空間以及過于專用的問題。理論上谷歌憑借Tensorflow在深度學習框架領域實現了壟斷地位,是具備絕對的生態掌控力的,會投入大量的Tensorflow工程師針對自家TPU去做支持和優化,因此TPU去挑戰英偉達GPU其實不存在所謂生態壁壘的問題。但是自谷歌自2016年推出第一代TPUv1至今已經到第四代TPUv4(2021年5月發布),仍然無法從英偉達手中搶走明顯份額,其原因主要在于TPU本身性能相比于英偉達同時期GPU而言還有一定差距,另外其芯片設計過于專用所以在卷積之外的算法表現上并不算好: (1)谷歌在芯片設計上的實力和英偉達相比還有一定差距,谷歌在TPU論文中也明確提到由于項目時間比較緊,所以很多優化只能放棄。從性能參數來看谷歌TPUv2和英偉達同年推出的V100相比,性能功耗比、顯存帶寬等指標有著明著差距,即使是谷歌在2018年推出了第三代TPU,其性能(FP32)、功耗等指標仍然和英偉達V100相比存在一定差 (2)谷歌采用的是傳統脈動陣列機架構,芯片設計上過于專用。TPU的主要創新在于片上內存、脈動式內存訪問、8位低精度運算。脈動陣列機做卷積時效果不錯,但是做其他類型神經網絡運算效果不是很好,在一定程度上犧牲了通用性來換取特定場景的高性能。TPU在芯片設計上只能完成“乘+加+乘+加......”規則的運算,無法高效實現“復數乘法、求倒、求平方根倒數”等常見算法。現在AI芯片的行業趨勢是:GPU在通用性的基礎上逐漸增加專用計算單元;而類似TPU的ASIC芯片在專用性的基礎上逐漸增加通用計算單元——兩類芯片有逐漸收斂的趨勢。英偉達在用于深度學習領域的GPU上的設計思路是“在通用的基礎上增加專用運算單元”,例如在Volta架構上開始增加TensorCore(專門用于深度學習加速)、在Turing架構上開始增加RTCore(專門用于光線追蹤加速),犧牲通用性為特殊的計算或者算法實現特殊架構的硬件以達到更快的速度。而AI芯片一開始走專用路線,但是現在在專用性之請務必仔細閱讀正文之后的各項信息披露與聲明請務必仔細閱讀正文之后的各項信息披露與聲明第13頁共23頁簡單金融成就夢想年份2021年份2021年*7nm(估計)外也在架構設計上也增加了通用計算單元(例如谷歌TPUv1主要是矩陣乘法運算單元占了24%芯片面積,但是TPUv2也開始增加浮點ALU做SIMD)。2016年28nm9292TOPS(INT8)23TOPS(INT16)2017年訓練20nm(估計)4545TOPS(FP16)3TOPS(FP32)2018年訓練16nm/12nm(估計)123123TOPS(FP16)4TOPS(FP32)500500W(估計)詳詳450W648280W75W331華為在2019年8月發布的昇騰910與英偉達在2020年5月發布的A100性能相當,但是我們認為華為的主要問題在于不具備深度學習框架生態掌控力。即使其芯片性能與英偉達水平差不多,但是由于Tensorflow/Pytorch兩大主流深度學習訓練框架沒有基于華為昇騰910做特定的優化,所以算法結合上述兩大訓練框架在昇騰910上實際跑出來的性能其實不如英偉達A100;目前僅華為自研的深度學習框架MindSpore對昇騰910和昇騰310做了特別優化,由于華為MindSpore大部分精力都是放在對昇騰芯片的算子支持和優化上,對英偉達GPU的支持還不夠(見下圖,英偉達的GTX2080Ti結合MindSpore的訓練速度明顯不如GTX2080Ti結合Pytorch1.5的訓練速度),所以只有同時使用華為的深度學習框架和昇騰芯片才能同時發揮出兩者的最佳性能。上述我們提到要想在深度學習訓練框架要想打破Tensorflow和Pytorch的壟斷必須要靠原始創新,而目前包括華為MindSpore在內的國產深度學習框架尚未很好解決上述兩大訓練框架的痛點。Caffe之所以能夠在早期獲得開發者歡迎是因為解決了深度學習框架從0到1的過程,Tensorflow之所以可以取代Caffe是因為解決了其不夠靈活、不能自動求導、對非計算機視覺任務支持不好等問題,Pytorch之所以明顯搶奪Tensorflow的份額是因為Pytorch引入了動態圖解決了Tensorflow是靜態圖設計調試困難的問題。但是目前國產的三個深度學習框架百度PaddlePaddle、曠視Megengine、華為MindSpore還沒有完美解決開發者在用Tensorflow和Pytorch所遇到的痛點。我們認為Tensorflow和Pytorch目前共同的痛點在于對海量算子和各種AI芯片支持的難度,華為正在探索靠AI編譯器的技術來解決上述問題,但是目前編譯技術仍然還達不到人工優化的效果。華為全面布局了三個層次的AI編譯器,包括圖靈完備的圖層IR設計、使用poly技術的圖算融合/算子自動生成技術(以TVM編譯器的設計思想推出算子開發工具TBE來解決算子開發自動優化的問題)。請務必仔細閱讀正文之后的各項信息披露與聲明請務必仔細閱讀正文之后的各項信息披露與聲明第14頁共23頁簡單金融成就夢想年份年份9106102020年(研發中)2019年奇7nm2019年奇7nm640TOPS(INT8)320TOPS(FP16)310W456--100+TOPS(INT8)50+TOPS(FP16)算奇-6TOPS(INT8)-8TOPS(FP16)W--------AI能編程語言再到深度學習框架圖9:MindSpore和Pytorch結合各類芯片訓練速度(單位:張/秒)請務必仔細閱讀正文之后的各項信息披露與聲明請務必仔細閱讀正文之后的各項信息披露與聲明第15頁共23頁簡單金融成就夢想算力精度門檻下,ASIC和GPGPU是最適合大模型的架構。大模型云端訓練多數情況下都在FP32計算精度上,推理端則以FP16和混合精度為主。算力越強,模型效率越高。FPGA和GPU對比,雖然FPGA吞吐率、性能功耗比優于GPU,但是FPGA存在兩個天然缺陷,FPGA只適合做定點運算,不適合做浮點運算,如果用來做浮點運算耗費邏輯很大,而且有些FPGA不能直接對浮點數進行操作的,只能采用定點數進行數值運算。其二,FPGA可以理解成某種“芯片半成品”,需要開發人員做大量二次開發設計芯片,因此開發使用門檻較高。ASIC和GPU則能夠滿足大模型的入門門檻。國內視角下,華為、百度昆侖芯、阿里、寒武紀、海光信息及一眾初創企業(燧原、天數、壁仞、沐曦)均推出云端訓練和推理芯片。架構選擇上,華為、百度、阿里、寒武紀選擇ASIC路線。華為、百度、阿里自家業務場景對AI芯片存在天然需求,選擇ASIC在量產制造供應鏈上的難度顯著低于GPU。初創企業則押注通用型GPGPU架構,壁仞、沐曦等初創企業多創立于2018年前后,團隊一般來自出走英偉達、AMD的技術專家,因此技術路線多選擇他們所熟悉的通用型GPU。AI大模型讓ASIC和GPU之間的邊界愈發模糊,國內GPU初創企業或在競爭中落后。英偉達在過去很長的一段時間內堅持用統一的硬件,即通用型GPU同時支持DeepLearning和圖像需求。但高性能計算迭代到H100產品后,其計算卡和圖像卡分開,在技術路線上也愈發靠近ASIC。初創企業為了實現通用性,選擇了在芯片設計和制造供應鏈存在較多困難的GPU路線,暫未推出真正具備量產成熟度的產品。國產ASIC廠商中,寒武紀是為數不多能夠較為開放支持中游AI算法和模型商。1)華為選擇部署端到端的完整生態,例如使用昇騰910必須搭配華為的大模型支持框架MindSpore、盤古大模型。第三方開源模型無法在華為上運行,若要運營必須依賴華為提供的工具做深度定制和優化,開放程度低。2)阿里在該方面的定位是系統集成商和服務商,運用自身芯片產品搭建加速平臺3)百度昆侖芯主要在自身智算集群和服務器上用,以及國內企業、研究所、政府中使用。且由于百度自身AI算法商的商業定位,與其他AI廠商之間存在競爭關系,昆侖芯未必能夠在其他AI算法商中鋪開。請務必仔細閱讀正文之后的各項信息披露與聲明請務必仔細閱讀正文之后的各項信息披露與聲明第16頁共23頁簡單金融成就夢想INT8(TOPS)62429106403207nm紀元2903350WGBHBMssGB22021年5151277nm技元570350-550W2023年7nmBR100300W32GB819GB/s2567nm號300W32GB300GB/s256300300332GB512GB/s月202021年8月25622564m77nm紀等布局較早理S)242310WWLPDDR4x2*64bit@37332019年8紀80022019年9月8282075WGBGB2018年5月27070W2019年6月37075W24GBLPDDR5月7nm英偉達A800、H800對國產廠商存在一定的威脅,但在大模型趨勢下,英偉達的優勢有所弱化。過去,機器學習訓練時間的主導因素是計算時間,等待矩陣乘法,通過張量核心和降低浮點精度,這個問題很快被解決。現在大型模型訓練/推理中的大部分時間都是在等待數據到達計算資源。內存帶寬和容量的限制不斷出現在NvidiaA100GPU,如果不進行大量優化,A100往往具有非常低的FLOPS利用率。而800系列降低了數據傳輸速率,弱化了英偉達高算力的優勢。此外,大模型AI芯片更需要片間互聯、HBM,英偉達CUDA這種標準化平臺的優勢同樣有所弱化。請務必仔細閱讀正文之后的各項信息披露與聲明請務必仔細閱讀正文之后的各項信息披露與聲明第17頁共23頁簡單金融成就夢想寒武紀的優勢在于各種深度學習框架,合作經驗豐富。寒武紀思元系列產品適配TensorFlow、Pytorch、Caffe深度學習框架。2019年開始適配海康,峰值時刻合作開發團隊有70-80人(公司派出20-30人),思元290與商湯在CV層面深度合作,NLP領域在訊飛、百度語音都有出貨。寒武紀思元590將是最早實現商業應用的接近英偉達A100性能的國產AI訓練芯片。目前華為昇騰910性能超越英偉達V100,但未達到A100水平,壁仞科技7nm通用GPU芯片BR100稱其可與被禁售的英偉達H100一較高下,但尚未量產上市。寒武紀思源590芯片面積800mm^2,和A100一樣。內存帶寬2.7T,是A1001.8T的1.5倍。HBM2使用海力士,功耗達350W-550W,FP32算力到80TFLops,目前已經客戶送樣測試階段,在高性能國產AI芯片中進程最快,最有機會承接國內AI算法商對英偉達A100、H100的4.AIGC傳導至潛在的百倍算力需求!當前市場關注AIGC所拉動的增量算力需求及相應投資機會。此前我們指出,AI必然伴隨海量計算,算力是完成數據運算的基礎,chatGPT一共有1750億個參數,訓練過程中消耗大量算力,其訓練模型中就已導入至少1萬顆英偉達GPU。AI發展的基礎是算力提升,AI應用的拓展反向推動算力基建的部署。此前ChatGPT宣布因滿負荷運行暫停服務,算力基建部署值得關注。推理側,ChatGPT海量的訪問需求帶來了巨大的計算成本。我們根據公開數據對此進行估計:根據OpenAI首席執行官SamAltman提供的信息,ChatGPT單次聊天的成本約為0.01美元。ChatGPT目前有超過2000萬日活且在持續上行,假設未來日活數量達到5000萬、平均每個日活進行10條對話,則每日消耗的成本為500萬美元,推測其中大部分為AI服務器成本(折舊、維護等)及對應的電費。請務必仔細閱讀正文之后的各項信息披露與聲明請務必仔細閱讀正文之后的各項信息披露與聲明第18頁共23頁簡單金融成就夢想圖10:OpenAI首席執行官SamAltman談ChatGPT每次聊天的成本訓練側,由于大型語言模型(LLM)參數量極高,訓練成本與參數量正相關,因此大模型路線勢必帶動大量額外的算力需求。參考海外最新研究《TheEconomicsofLargeLanguageModels》1,可以有如下估計:每個token(1000token約等于750個單詞)的訓練成本通常約為6N(而推理成本約為2N),其中N是LLM的參數數量;假設在訓練過程中,模型的FLOPS利用率為46.2%,與在TPUv4芯片上進行訓練的PaLM模型(擁有5400億參數)一致;1750億參數模型的GPT-3是在3000億token上進行訓練的,成本參考谷歌在GCPTPUv4芯片上訓練PaLM模型。計算結果:GPT-3訓練成本為140萬美元左右。GPT練成本估算將上述計算框架應用于其他的LLM模型中,可以估算出對應的訓練成本。其中參數量最大的谷歌PaLM模型,訓練成本超過1000萬美元。models請務必仔細閱讀正文之后的各項信息披露與聲明請務必仔細閱讀正文之后的各項信息披露與聲明第19頁共23頁簡單金融成就夢想考慮到未來LLM不斷升級演進,訓練/推理成本將持續上行。相應的成本估算框架如下圖所示。可見成本與模型參數數量、模型訓練數據集大小、Cost/FLOP效率成正比,并與計算資源和硬件利用率成反比。:LLM訓練/推理成本測算框架超越“安迪-比爾”定律2的算力需求爆發!模型參數量每年10倍增長,即使AI芯片的性能提升仍然遵從摩爾定律3,計算資源仍然可能難以滿足需求。過去5年中,LLM模型參數呈現指數增長態勢。2018年,OpenAI推出了1.17億參數的GPT-1,谷歌推出了3億參數的BERT;接下來的兩年(2019、2020年),OpenAI陸續推出參數更大的迭代版本GPT-2、GPT-3,前者有15億參數,后者有1750億參數。GPT-4參數量高達100萬億,是GPT-3的500倍以上!即使考慮到AI芯片能力的提升(從當前主流的A100升級至H100),仍然需要巨量的額外增量投資。請務必仔細閱讀正文之后的各項信息披露與聲明請務必仔細閱讀正文之后的各項信息披露與聲明第20頁共23頁簡單金融成就夢想5.重點關注公司目前,國內BAT、字節、京東等大廠均投入AIGC大模型研發,模型的應用場景也從文字對話進一步擴展至繪畫、視頻等。多玩家、多場景、豐富的下游應用帶來百倍的增量AI算力需求,算力基建直接受益!計算機行業核心關注AI芯片、服務器等環節。AI芯片建議關注:寒武紀:寒武紀思元系列產品適配TensorFlow、Pytorch、Caffe深度學習框架。2019年開始適配海康,峰值時刻合作開發團隊有70-80人(公司派出20-30人),思元290與商湯在CV層面深度合作,NLP領域在訊飛、百度語音都有出貨。寒武紀思元590將是最早實現商業應用的接近英偉達A100性能的國產AI訓練芯片。海光信息:作為AI服務器中的核心,海光的DCU是GPGPU的一種。根據公司公開發布會,海光DCU同時支持全精度和半精度訓練,有稀缺性。預計2023年底量產的DCU3性能與NVDIAH100性能持平。已量產的DCU2約等于70%NVDIAA100,雙方在模擬效率和精度都處于同一代際。算力需求提升疊加國產替代要求,共同構成催化。AI服務器建議關注:浪潮信息:國內最大的AI、邊緣和云服務器供貨商,根據IDC數據,浪潮AI服務器出貨量基本占據國內一半的市場份額,并且多年穩定。chatGPT為代表的AIGC大模型風靡,對于算力的要求會明顯提升,AI服務器作為算力的基礎、核心基建,深度受益。浪潮信息的主要客戶也是互聯網和A

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論