




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
海外科技海外科技qinheping027734@gtj投資建議:ASIC針對特定場景設計,有配套的通信互聯和軟件生態,雖然目前單顆ASIC算力相比最先進的GP數據中心加速計算芯片的16%,其規模約數據中心定制加速計算芯片規模有望超400故而在推理場景呈現更高的性價比;ASIC的芯片互聯以PCIe協議主導,ASIC軟件生態有望逐步完善。云廠商普遍具備較強的能力,均為AIASIC研發了配套的全棧軟件生態,開發了一系列的請務必閱讀正文之后的免責條款部分3of41 海外專題研究(美國)用效率可能會優于可比的GPU。此外ASIC還有明顯-------384----注:紅色字體表示該未經官方確認,為預測值;*表示采用稀疏技術下的算力;Maia100第三行為MxInt8性能界但由于其成本較低,在推理常用精度下,ASIC展現出了更高的性價比更高的性價比。而中國廠商AIASIC仍處于相對早期的發展階段,百度昆請務必閱讀正文之后的免責條款部分4of41 海外專題研究(美國)本,提升ROI。指標有所不同。AIASIC主要采用HBM作為片外內存,容量及帶寬持平略看,AIASIC普遍設計了較大的片上容量有助于降低時延,提高計算效率。有望高速增長。我們看好ASIC的大規模應用帶來云廠商ROI提升,同時請務必閱讀正文之后的免責條款部分5of41 海外專題研究(美國)積計算性能(TFLOPS/mm^2)提升緩慢,其性能提升主要依靠面積變大。請務必閱讀正文之后的免責條款部分6of41 海外專題研究(美國)非Transformer架構,試圖提高計算效率、降低計算成本。目前主要分為究資源、軟硬件生態角度看,Transformer架構具備較高的護城河,非請務必閱讀正文之后的免責條款部分7of41 海外專題研究(美國)增長,是英偉達的重要客戶,谷歌、微軟、亞馬遜、Meta和廠商預計貢獻了FY2025英偉達GPU六成以上的收入,預計接近500億美計70億美元左右,MarvellFY202450圖11:Marvell預計數據中心定制加速計算芯片市自研廠商往往需要與IP設計廠商合作,獲得授權,此外,部分艱深的結構請務必閱讀正文之后的免責條款部分8of41 海外專題研究(美國)加量產至少小20億美金。處于產能爬坡期,A客戶的AI推理芯片、C客戶的AI芯片預計分別2025將為谷歌提供AI服務器芯片的串行器和解串器(SerDes)方案,并協助整合請務必閱讀正文之后的免責條款部分9of41 海外專題研究(美國)MachineLearningwithHardwareSuppoMachineLearningwithHardwareSuppo3.云廠商積極布局ASIC,打造軟硬件全棧生態于加速機器學習工作負載的集成電路(ASIC),可以快速處理神經網絡中使的考慮,選擇搭建團隊自研芯片,谷歌招募了DavidPatterson——RI片的集群規模,此外,借助Multislice訓練技術,TPUv5e可以實現5萬卡--Search等內部項目和蘋果等外部客戶工作負載提供支持。蘋果披露其云側 海外專題研究(美國)TPU在矩陣乘法過程中,不需要訪問內存。引擎、執行銀行交易,或利用神易加載到饋出隊列中。然后,TPU主機從饋出隊列讀取結果并將其存儲在主機的內存中。 海外專題研究(美國)3.1.3.創新引入3Dtorus架構和光交換v4芯片組成4x4x4的立方體,4顆TPUv4搭配一顆CPU,64顆TPUv4和MachineLearningwithHardwareSuppoMachineLearningwithHardwareSuppo模塊結構。64個機柜共同組成4096顆芯片規模的算力 海外專題研究(美國)圖20:4096個TPUv4組成的集群換光信號,減少了光電轉換過程中的功耗損失,OC本、功耗等方面均具備顯著優勢。谷歌系統和服務基礎設施副總裁AminVahdat表示,平均而言,TPUv4集群在MLPerf測試中的表現比Nvidia 海外專題研究(美國)3.1.4.提供Mulislic行速度,而且可能完全不需要更改源代碼。 海外專題研究(美國)圖25:谷歌可基于JAX和PyTorch框3.2.1.MTIA快速迭代,目前主要用于AI推理InferenceAccelerator用于支持Meta的深度學習推薦模型,該模型是 海外專題研究(美國)對應百億美金以上的資本開支。據扎克伯格預計,Llama4的計算能力是708TFLOPS/s(sparsity)耗節約、成本方面具備明顯的優勢。MTIAv2在INT8精度下的GEMM計響了工作負載的表現。當前工作負載運行很大一部分時間都被網絡通信占 海外專題研究(美國)彼此互聯,可以作為一個整體運行任務,也可以獨立處理任務。3.2.3.MTIAv2單機架容納72 海外專題研究(美國)運行時堆棧,負責與驅動程序/固件接口,最后,運行時與驅動程序交互。于編寫ML計算內核,極大提高了開發人員效率。 海外專題研究(美國)第一代AI自研芯片的性能指標也較為領先,未來有望成為云廠商ASIC領 海外專題研究(美國)MXFP4數據格式下的性能達到3200TFLOPS,MXInt8下達到1600面的競爭有一席之地。Ares機架中,微軟配置了Sidekick液設備,冷液從副設備流向Maia100表面的冷板,副設備吸取液體中熱量后再請務必閱讀正文之后的免責條款部分20of41 海外專題研究(美國)數據來源:測的拓撲圖來看,在Y方向上,每片Maia100通過400Gb/s的帶寬連接到器內的4顆Maia100芯片通過Mesh連接,實現了1型的開發,微軟為Maia100提供軟件配套,集成Pytorch、ONNXRunti3.4.1.亞馬遜在公有云市場布局廣闊,請務必閱讀正文之后的免責條款部分21of41 海外專題研究(美國)供了底層的網絡支持。2015年,亞馬遜收購了為其長期設計芯片的的速率。據亞馬遜估計,客戶使用最新一代的Graviton4可將IT費用減少代性能提升4倍。中每個核心中的標量、矢量和張量引擎數量比上一代增加了一倍。另外,NeuronLink互連鏈路,是上一代芯片的2倍,總共能提供高達768GB/s的帶寬。NeuronLink-v2是AWS推出的最新一代芯片間互請務必閱讀正文之后的免責條款部分22of41 海外專題研究(美國)種高速互連的方式相互連接,在計算元素、網絡連接等層面上相較于存帶寬。據TheNextPlatform報道,含1NeuroCore-2NeuroCore-請務必閱讀正文之后的免責條款部分23of41 海外專題研究(美國)度學習模型進行訓練時,Trn1實例比NvidiaA100芯片支持的P4d實效率更高。EFA(ElasticFabricAdapt從而達到加快分布式訓練的目的。為實現高效的數據和模型并行性,每個在Trn1芯片互連中,Trn1實例支持最Trn1/Trn1n實例能部署在更大請務必閱讀正文之后的免責條款部分24of41 海外專題研究(美國)一項服務于機器學習的開發框架,方便開發者完成模型的訓練和推理等工上構建和部署可擴展的應用程序和服務。最頂層的是亞馬遜生成式人工智請務必閱讀正文之后的免責條款部分25of41 海外專題研究(美國)數據來源:Microsoft3.5.1.特斯拉自研Dojo計算平臺,用駛系統的人工智能模型。特斯拉在設計和生產過程中與合作伙伴臺積電進自動駕駛技術FSD,使其獲得更多的學習經驗,推動機器人出租車和網絡請務必閱讀正文之后的免責條款部分26of41 海外專題研究(美國)特斯拉預計2024年年底前投資超過10億美元來開發自己的超級計算機斯拉節省大額的成本。3.5.2.采用近存計算架構,單重輸入陣列,計算矩陣乘法后直接在輸出進行累加。每個Dojo核心包括4請務必閱讀正文之后的免責條款部分27of41 海外專題研究(美國)存儲、供電和通信無縫集成。每個訓練板都配置了11GB的片上跨內核這種封裝技術不需要額外PCB載板,就能將相關芯片集成散熱模塊,加速供電相位。特斯拉的電源調節模塊和液冷板采取與芯片本身垂直的立體結(800GB/s存儲帶寬支持特斯拉傳輸協議TTP,請務必閱讀正文之后的免責條款部分28of41 海外專題研究(美國)Dojo采用TTP專有通信協議,提供高帶寬芯片間通信片設計了TTP作為通信協議,這是一種基于連接著超高速存儲系統:640GB運行內存可以提供超過18TB/s的帶寬,請務必閱讀正文之后的免責條款部分29of41 海外專題研究(美國)圖51:DIP是一種高帶寬內存的PCIe卡,支持特斯拉的TTPoE接口3.5.4.特斯拉為Dojo創建全棧軟件生態請務必閱讀正文之后的免責條款部分30of41 海外專題研究(美國)軟件棧。整個軟件生態的頂層是PyTo數據存儲、進行細粒度的并行計算并減少存儲占用。D用GDDR6顯存的通用AI芯片。昆侖芯2代于2021年量產,采用7nm制程,整數精度(INT8)算力達到256TeraOPS,半精度(FP16)性能為128請務必閱讀正文之后的免責條款部分31of41 海外專題研究(美國)據百度方面預測,蘿卜快跑有望在2024年底在武漢實現盈虧平衡,并在感知和規劃大模型并進,逐步實現端到端自動駕駛系統。蘿卜快跑的核心請務必閱讀正文之后的免責條款部分32of41 海外專題研究(美國)平頭哥半導體是阿里巴巴集團的全資半導體芯片業務主體。平頭哥擁有端過核間通信(XCORE-COMM)緊密協作以處理更大更復雜的任務(例如頻、調壓進一步平衡功耗和性能。請務必閱讀正文之后的免責條款部分33of41 海外專題研究(美國)平頭哥推出了HGAI(HanGuangArtihciallntelligence)軟件開發包,協同含光800芯片提升AI運算效率。HGAI主要包括模型的前端GraphIR轉換、量化、編譯和運行時等幾部分。目前HGAI支持的主流深度學習框架主要騰訊芯片自研主要由蓬萊實驗室負責。2021年,騰訊公布旗下三款自研請務必閱讀正文之后的免責條款部分34of41 海外專題研究(美國)內存帶寬有顯著優勢。推出了扣子,支持用戶定制基于AI模型的各類問答Bot,此外,字節跳動芯片相關研發人員。在大模型領域,字節跳動擁有英偉達動目前發布了數百個與半導體相關的職位,其中包括15個ASIC芯片設計師的職位。請務必閱讀正文之后的免責條款部分35of41 海外專題研究(美國)深度學習編程框架由深度學習算法的基本操作封裝成的學習組件構成,可00人工智能機器學習深度學習數據來源:騰訊云數據來源:前瞻產請務必閱讀正文之后的免責條款部分36of41 海外專題研究(美國)流圖被轉換為中間表示,可以支持jit的算子融合、內存操作消除等優化,CUDA架構的核心在于并行計算模型,通過線程塊和網格實現,這種層次的低級指令。核心開發包,是CUDA開發的基礎環境,包含編譯器(nvcc調試器(NsightSystems、Compute等性能分析工具(NsightGraphics、NsightP請務必閱讀正文之后的免責條款部分37of41 海外專題研究(美國)Thrust:C++模板庫,簡化了并行算其他包括cuSPARSE(稀疏矩陣運算庫),NVML(NVIDIA),許多第三方庫和工具構建于CUDA之上,CUDA有強大的社區支持,包括教程、論壇、博客文章和大學課程千個應用已部署到嵌入式系統、工作站、數據中心和云中的GPU。廣與大學、研究機構和主要計算機廠商合作,幫助C發人員的注意力,存在先發優勢。400350300250200150100500CUDA注冊開發者數(萬)1)CUDA可以最大限度地提高NVDIAGPU的性能。CUDA是專為成,CUDA代碼直接編譯到GPU的指令基準測試一致表明,CUDA的吞吐量領先于NVIDIA芯片上的執行效率通常高出60%;2)CUDA對深度學習的支持度高,CUDA為各種深度學習框架(如請務必閱讀正文之后的免責條款部分38of41 海外專題研究(美國)分析和調試工具等,程序員可以直接調用這些庫函數進行計算,如圖72:CUDA-XAI相對封閉的理念可能會導致其缺乏靈活性。決方案;請務必閱讀正文之后的免責條款部分39of41 海外專題研究(美國)圖73:AMD推出ROCm開源平臺圖73:AMD推出ROCm開源平臺PyTorch等,還提供Ascend云廠商持續迭代自研芯片及配套硬件的同時,也在積極培育相應的軟件生請務必閱讀正文之后的免責條款部分40of41 海外專題研究(美國)軟件生態是影響算力集群效率的重要因素,如果云廠商等不能推出有競爭力的ASIC配套軟件生態服務,那么用戶可能不愿意將工作任務遷移至持續進行研發投
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 護理年終考試練習試題及答案
- 嵌入式系統安全性問題試題及答案
- 未成年人保護宣傳月總結(19篇)
- 海外旅游行程及保險服務合同
- 家裝行業試題及答案
- 銷售分銷網絡管理規范合同書
- 服裝定制行業尺寸誤差免責合同
- 當陽話考試題及答案
- 行政組織理論的研究熱點試題及答案
- 量身定制2025年信息系統監理師考試試題及答案
- 2025棗莊事業單位筆試真題
- 2025年浙江省湖州市吳興區中考數學二模試卷
- 2025年電子循環水泵行業深度研究報告
- 2025年平面設計師專業能力測試卷:平面設計實踐與案例分析試題
- 2025-2030年中國藏藥行業市場深度調研及前景趨勢與投資研究報告
- 2021城市運行管理服務平臺數據標準
- 統計局招聘試題及答案
- 消防車駕駛員基本素質、車輛行車安全
- 行政輔助考試試題及答案
- 人工智能賦能中學英語教學的創新路徑探究
- x監理管理辦法
評論
0/150
提交評論