英偉達研究報告重塑計算-世界AI的引擎_第1頁
英偉達研究報告重塑計算-世界AI的引擎_第2頁
英偉達研究報告重塑計算-世界AI的引擎_第3頁
英偉達研究報告重塑計算-世界AI的引擎_第4頁
英偉達研究報告重塑計算-世界AI的引擎_第5頁
已閱讀5頁,還剩58頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

英偉達研究報告重塑計算_世界AI的引擎(報告出品方/作者:國泰君安證券,李奇、梁昭晉)1.一臺不斷自學進化的機器,三十年打造出生態帝國1.1.圖形芯片時代開端,帝國之路就此關上英偉達成立于1993年,找尋打造出圖形芯片時代愿景。英偉達(NVIDIA)總部座落在美國加利福尼亞州圣克拉拉市,充分利用硅谷作為全球電子工業基為地的地緣優勢,1993年,黃仁勛、克里斯(ChrisA.Malachowsky)與普雷艾姆(CurtisPriem)懷著PC有朝一日可以變成樂享游戲和多媒體的消費級設備的信念,共同創立了英偉達。1.2.多方追尋重塑行業,再次定義現代圖形1.2.1.1993年-1998年:萌芽期圖形芯片市場競爭日益激烈,英偉達多方積極探索尋求突破。英偉達成立之初,市場上僅有20余家圖形芯片公司。1994年,英偉達與SGSTHOMPSON首次積極開展戰略合作;1995年,英偉達面世其首款顯示卡產品NV1,配備了基于流形紋理態射的2D/3D圖形核心,大力支持2D、3D處理能力的同時還具備音頻處理能力;1996年,英偉達面世首款大力支持Direct3D的MicrosoftDirectX驅動程序;1997年,英偉達發布全球首款128位3D處理器RIVA128,發布后四個月內銷量強于100萬臺,但此時,圖形芯片這一市場的競爭者已飆升至70家,英偉達身陷財務泥淖,最終同意將研發和生產戰略重點放在2D/3D的PC專用融合顯示卡領域;1998年,英偉少于與臺積電簽訂多年戰略合作伙伴關系,臺積電已經已經開始協助生產英偉達產Fanjeaux。1.2.2.1999年-2005年:成長期1999年發明者GPU,行業重塑之路就此關上。GeForce256就是由英偉少于發布的全球首款GPU,英偉達將GPU定義為“具有內置切換、照明設備、三角設置/剪裁和圖形引擎的單芯片處理器,每秒可以處理至少1000萬個多邊形”。同年,英偉達面世適用于于于專業圖形的QuadroGPU,并正式宣布正式宣布以每股12美元的價格首次官方官方招股書。2000年,顯示卡先驅3dfx因先前謝絕使用谷歌Direct3D通用型API標準而導致其顯示卡通用性增加,并因其市場戰略的犯規,最終被英偉達低價全面全面收購;2003年,英偉達全面全面收購無線領域圖形和多媒體技術領導者MEDIAQ,2004年,NVIDIASLI問世,大大提累升了單臺PC的圖形處理能力。1.2.3.2006年-2014年:成熟期CUDA打造出GPU排序的研發環境,硬件+軟件生態帝國初現。2006年,英偉達面世基于通用型GPU排序的CUDA架構,利用CUDA和GPU的并行處理能力,英偉達問鼎了開發者非常大的用戶群;2007年,英偉達面世TeslaGPU,并使此前就可以在超級計算機中提供更多更多的計算能力被更廣為的應用領域;2008年,Tegra移動處理器問世,其能耗約為通常的PC筆記本的三十分之一;2013年,四核移動處理器Tegra4發布;2014年,英偉達面世192核超級芯片TegraK1和平板電腦SHIELDtablet。至此,英偉達的幾大產線均逐步明朗,應用領域行業逐步膨脹,產品生態逐步完善。1.2.4.2015年至今:轉型期深度自學市場需求催化劑英偉達產品轉型,為AI革命轉化成疲弱動力。2015年,搭載256核移動超級芯片的TegraX1的NVIDIADRIVE問世,其可以用做駕車輔助系統,為自動駕駛汽車技術發展鋪平了道路,也標志著英偉達正式宣布正式宣布投身深度自學領域;2016年,英偉達面世第11代GPU架構PASCAL、首款一體化深度自學超級計算機DGX-1和人工智能車輛排序平臺DRIVEPX2,二者較CPU而言,DGX-1可以將深度自學訓練速度提高96倍;2017年,更適宜超級計算機的Volta架構發布;在隨后的幾年里,Turing、Ampere等架構陸續發布,持續助力AI革命。1.3.非政府架構明晰,管理團隊專業非政府架構服務產品業務條線,管理團隊權責精確。據theofficialboard,英偉達的非政府架構精確,技術和運營部門較為非常大,各大核心業務條線均存團隊專門負責管理。英偉達官網招考信息說明,英偉達定義的其核心業務部門涵蓋AI、研究和硬件三大類。我們表示,公司非政府架構設置平行于產品業務,有助于充分發揮研究者的專項技術就可以,并特別強調研究的前瞻性和突破性。同時,以黃仁勛領銜的管理團隊具有專業的業務背景與管理就可以,公司管理層與董事會均由經驗豐富的人士擔任。1.4.黃仁勛:遠不止就是CEO,更是精神領袖作為創始人、CEO與精神領袖,黃仁勛帶領英偉達創造AI龍頭奇跡。黃仁勛,1963年出生于中國臺北,美籍華人。作為公司創始人,徐仁勛歷經30所載依舊任英偉達的總裁兼首席執行官。他曾被《哈佛商業評者論》和Glassdoor評選活動為全球最佳CEO和受雇員評價最高的CEO。2021年9月,黃仁勛榮登《時代》雜志封面,變成《時代》雜志2021年世界最具備影響力的百位人物之一。兼具技術與業務背景,葆存實干與魄力特質。黃仁勛1984年于俄勒岡州立大學贏得學士學位,1990年獲得斯坦福大學碩士學位,1983-1985年間,其擔任AMD芯片工程師,而后跳槽至LSILogic穩步專門從事芯片設計,在LSILogic任職期間,黃仁勛服兵役銷售部門,因其出眾的表現很快晉升為部門經理,從此踏上管理崗位。在1993年英偉達籌建之初,因其出眾的技術和業務背景,克里斯與普雷艾姆推舉黃仁勛擔任英英特爾總裁兼CEO。2020年,黃仁勛獲頒臺灣大學名譽博士學位,以表彰其在人工智能與高效能排序領域的有意思貢獻。2.技術與產品高筑壁壘,并使AI變成現實細分英偉達的產品線,我們可以將其劃分為硬件產品、軟件平臺、應用框架三個維度。同時英偉達基于“硬件+軟件”的技術優勢,同時充分利用面向行業打造出的應用領域框架,提供更多更多了對于細分行業訂做的行業解決方案。2.1.硬件產品始于GPU,但遠不止GPU英偉達首創GPU產品,推動處理器中邏輯運算單元數量快速增長。CPU就是電腦的中央處理器,同時也就是電腦的掌控和運算核心,能夠定義排序機接到的指令。而GPU就是電腦的圖形處理器,最初主要用做進行圖像運稱得上工作。英偉達研發世界上首款GPUGeForce256,上加GPU之先河,而令GPU逐漸演化為廣為使用的循序處理器。整體而言,GPU和CPU同為基于芯片的微處理器,就是關鍵的排序引擎。CPU具備更大的邏輯運算單元和掌控單元,同時具備更大的內存空間,但GPU卻具備更多的邏輯運稱得上單元數量。市場需求激增催化劑GPU市場規模爆發式快速增長。ICInsights數據說明,2015年至2021年間,全球GPU芯片市場規模年均增長速度強于20%,2021年,全球GPU芯片市場規模已多于220億美元,全年備貨總量多于4.6億片。我們表示,目前GPU仍占全球AI芯片的主導地位。英偉達深耕GPU業務,主要顯示卡產品更迭快速。英偉達主要顯示卡產品以GeForce為后綴命名,自2000年發布GeForce2GTS起至至,GeForce系列劃分出多種型號,直至目前,英偉達在售的主要顯示卡產品涵蓋GeForce16、GeForce20、GeForce30、GeForce40等。從GPU架構角度,自2008年發布Tesla架構后,英偉達依次發布了Fermi、Kepler、Maxwell、Pascal、Volta、Turing、Ampere、Hopper、AdaLovelace等GPU微架構,近年來GPU架構的更新速度顯著大力大力推進。AdaLovelace架構為英偉達GeForceRTX40系列顯示卡提供更多更多動力支持。AdaLovelace架構主要用做游戲顯示卡的生產,其采用的第四代TensorCore使用首次面世的全新FP8Transformer引擎,能夠提升四倍量;其中的第三代RTCore配備全新OpacityMicromap和DisplacedMicroMesh引擎,可以大幅提高進行光線追蹤的速度,所占用的顯示卡只有之前的二十分之一;并且,AdaLovelace架構可以使用DLSS3(深度自學強于采樣)算法,可以對多個分辨率較低的圖像進行采樣,并使用先前幀的運動數據和意見反饋回去改建原生質量圖像,從而創建更多高質量幀,明顯提高FPS(Framespersecond),目前已應用于200多款游戲和應用領域。Hopper架構為快速排序同時同時實現代萊非常小脫胎換骨。與AdaLovelace架構相同,Hopper架構主要用以打造出快速排序平臺。Hopper架構以Transformer為快速引擎,其中的HopperTensorCore能夠大幅快速Transformer模型的AI排序。Hopper架構同時搭載NVLinkSwitch系則為叢蘚科扭口蘚,NVLink作為一種縱向開拓交互技術,與代萊外部NVLink交換機結再分后使用時,系統可以橫貫多個服務器以每個GPU900GB/s的雙向頻寬大增展多GPUIO,能夠滿足用戶每個在GPU之間同時同時實現無縫高速通信的多節點、多GPU系統的市場需求。同時,Hopper架構還采用了具有機密排序功能的快速排序平臺CCX,以保證數據處理期間的GPU使用安全。GeForceRTX40顯示卡基于AdaLovelace架構打造出。英偉達最新的顯示卡為GeForceRTX40系列,GeForceRTX40搭載英偉達最一流的GPU,其采用新型SM多單元流處理器將性能功耗比提升2倍,并應用領域第四代TensorCore提升排序性能,達致1.4Tensor-petaFLOPS,同時,搭載的第三代RTCore同時同時實現了光線追蹤性能的兩倍提升,可以模擬真實世界中的光線特性,能夠明顯提高玩家游戲體驗。TensorCore就是自Volta架構以來英偉達的核心技術,為HPC和AI同時同時實現大規模快速。TensorCore可實現混合精度排序,動態調整算力,從而在保持準確性的同時提高量,TensorCore提供更多更多了一整套精度(TF32、Bfloat16浮點運算性能、FP16、FP8和INT8等),確保同時同時實現出眾的通用性和性能。目前,TensorCore已廣為用做AI訓練和推理小說。從A100至H100為AI訓練和推理小說平添歷史性變革,成就快速排序的數量級脫胎換骨。H100的上時一代產品,2020年面世的A100,較2016年的P100已在四年間將高性能排序的運轉速度提升至9倍,但H100真正同時同時實現了數量級的脫胎換骨。H100基于Hopper架構的卓越優勢,配備第四代TensorCore和Transformer引擎,并使雙精度TensorCore的每秒浮點運算量提升3倍。與A100較之,H100需向多專家模型(MoE)提供更多更多高九倍的訓練速度。推理小說端的,H100整體整體表現同樣得天獨厚,H100可以將推理小說速度提高至A100的30倍,并提供更多更多超低的延后,在減少內存占用和提高排序性能的同時,大語言模型的準確度仍舊贏得保持。Jetson嵌入式系統打造靈活且可拓展的嵌入式硬件解決方案。Jetson是用于自主機器和其他嵌入式應用的先進平臺,該平臺包括Jetson模組、用于加速軟件的JetPackSDK,以及包含傳感器、SDK、服務和產品的生態系統。其中,每一個Jetson均包含了CPU、GPU、內存、電源管理和高速接口,是一個完整的系統模組,并且所有Jetson模組均由同一軟件堆棧提供支持,意味著企業只需一次開發即可在任意地方部署。目前英偉達在售的Jetson主要包括JetsonOrin系列、JetsonXavier系列、JetsonTX2系列和JetsonNano,能夠在數據中心和云部署的技術基礎上為AI應用提供端到端加速。以JetsonOrin為例,JetsonOrin模組可實現每秒275萬億次浮點運算(TOPS)的算力,性能是上一代產品的8倍,可適用于多個并發AI推理,此外它還可以通過高速接口為多個傳感器提供支持,這使得JetsonOrin成為機器人開發新時代的理想解決方案。量產級JetsonOrin模組能夠為企業提供在邊緣構建自主機器所需的性能和能效,以幫助企業更快地進入市場。并且英偉達提供JetsonAGXOrin開發者套件,可實現對整個JetsonOrin模組系列進行模擬。Jetson與VIMA將料與具身智能融合,直面AI的下一波浪潮。具身智能就是能心智、推理小說、并與物理世界互動的智能系統。ITFWorld2023半導體大會上,黃仁勛則則表示,人工智能下一個浪潮將就是"具身智能",同時英偉達也公布了NvidiaVIMA,VIMA就是一個多模態具身人工智能系則為叢蘚科扭口蘚,能夠在視覺文本提示信息的指導下繼續執行繁瑣的任務。我們表示,彌漫著Jetson和VIMA的系統逐步研發完善,英偉達將變成推動具身智能發展的引領者。整體而言,英偉達在邊緣的優勢能夠為擴大市場提供更多可能性。通過使用Jetson,企業可以自由開發和部署AI賦能的機器人、無人機、IVA應用和其他可以自我思考的自主機器。中小企業和初創企業能夠承擔Jetson的部署開銷,以此開發自主機器和其他嵌入式應用,且英偉達在嵌入式技術領域同時具有領先優勢,我們對其市場積極看好。2.2.軟件平臺平添更多可能將將,奠定生態帝國基石CUDA構筑軟件業務底層框架基石,打造出交會行業解決方案的研發平臺。英偉達于2006年發布CUDA,變成首款GPU通用型排序解決方案。利用CUDA工具包,開發者可以在GPU快速的嵌入式系統、桌面工作東站、企業數據中心、基于云的平臺和HPC超級計算機上研發、優化和部署應用程序。CUDA工具包主要涵蓋GPU快速庫、調試和優化工具、C/C++編譯器以及用做部署應用程序的運轉環境庫。不論是圖像處理、排序科學亦或是深度自學,基于CUDA研發的應用領域都已部署至無數個GPU中。開發者從此不再仍須通過寫出大量的底層語言代碼對GPU進行調用。CUDA與C語言的框架較為相符,作為一種類C語言,CUDA對于上加發者而言上手難度較小,且同時也大力支持Python、Java等主流編程語言。此外,一個CUDA程序可以分為三個部分:第一,從主機端的提出申請調用GPU,把必須拷貝的內容從主機內存拷貝到GPU內;第二,GPU中的核函數對拷貝內容進行運算;第三,把運算結果從GPU拷貝到提出申請的主機端的,并轉化成GPU的顯示卡和內存,整個過程較為精確且極容易操作方式方式。可以說,CUDA就是構筑了一個幫助開發者通過高級編程語言使用GPT順利完成特定行業仍須求功能的平臺,英偉達也因此打造出了一個“硬件+軟件平臺”的生態帝國。打造出軟件快速庫的子集CUDA-XAI,幫助現代AI應用程序快速運行。CUDA-XAI作為軟件快速庫子集,建立在CUDA之上,它的軟件快速庫內復置至所有深度自學框架和常用的數據科學軟件中,為深度自學、機器學習和高性能排序提供更多更多優化功能。庫涵蓋cuDNN(用做快速深度學學基元)、cuML(用做快速數據科學工作流程和機器學習算法)、TensorRT(用做優化深造模型的推理小說性能)、cuDF(用做訪華pandas等數據科學API)、cuGraph(用做在圖形上繼續執行高性能分析),以及多于13個的其他庫。CUDA-XAI已變成領先的云平臺,涵蓋AWS、MicrosoftAzure和GoogleCloud在內的一部分,而且可以通過NGC網站逐個地或作為孟器化的軟件棧免費下載。CUDA打造出高兼容性的GPU通用型平臺,推動GPU應用領域場景持續開拓。CUDA可以當好英偉達各GPU系列的通用型平臺,因此開發者可以以橫貫GPU布局部署并開拓應用領域。CUDA最初用做輔助GeForce提升游等戲研發效率,但隨著CUDA的高兼容性優勢凸顯,英偉達將GPU的應用領域拓展至排序科學和深度自學領域。因此,通過CUDA研發的數千個應用領域目前已部署至嵌入式系統、工作站、數據中心和云中的GPU。同時,CUDA打造出了開發者社區,提供更多更多開發者民主自由互動經驗的途徑,并提供更多更多大量代碼庫資源。我們表示,目前CUDA已形成極高的市場準入壁壘,也變成了英偉達持續開拓人工智能領域市場的品牌影響力來源。打造出深度自學推理小說優化器TensorRT,顯著提高了GPU上的深度自學推理小說性能。TensorRT就是英偉達一款高性能推理小說平臺,此SDK囊括深度自學推理小說優化器和運轉時環境,可以為深度自學推理小說應用領域提供更多更多低延后和高量。與僅使用CPU的平臺較之,TensorRT可使量提升高少于40倍。利用TensorRT,開發者可以在所有主要框架中優化訓練的神經網絡模型,提升模型轉化成精度校準,并最終將模型部署至超大規模數據中心、嵌入式或汽車產品平臺中。TensorRT以CUDA為基礎構筑,同時與研發框架緊密內置。TensorRT以CUDA為基礎,可以幫助開發者利用CUDA-X中的庫、上加刊發工具和技術,針對人工智能、獨立自主機器、高性能排序和圖形優化所有深度自學框架中的推理小說。通過TensorRT的使用,可以對訓練的神經網絡模型進行INT8和FP16優化,比如說視頻流式傳輸、語音識別、所所推薦算法和自然語言處理,并將優化后的模型部署至應用領域平臺。同時TensorRT也與Tensorflow、MATLAB的深度自學框架內置,可以將進度表訓練的模型Auron入至TensorRT進行推理小說,具備較低的兼容性。2.3.應用領域框架構筑PCBSDK,打造出標準行業場景SDK助力標準行業場景構筑,大幅提高研發效率和性能。SDK全系列則表示SoftwareDevelopmentKit,指為特定的硬件平臺、軟件框架、操作方式方式系則統等建立應用程序時所使用的開發工具的子集。英偉達基于自身多樣的“軟件+硬件”一體化優勢,將其進行優化并PCB為SDK,形成了自身健全的應用領域框架體系,為行業中著重問題的解決打造出了標準行業場景。健全的SDK體系有助于更大程度提高開發者的工作效率,有關應用領域側邊架的性能和可移植性也將因此贏得明顯提高。2.3.1.元宇宙應用領域-Omniverse創造元宇宙模擬平臺Omniverse,共同設計運轉虛擬世界和數字孿生。Omniverse就是一個基于USD(UniversalSceneDescription)的可以開拓平臺,在Omniverse中,藝術家可以使用3D工具創作具備全系列設計保真度的實時虛擬世界,企業可以通過數字孿生模型在產品投產前實時設計、仿真和優化他們的產品、設備或流程。目前,Omniverse具備15萬余名個人用戶和300余家企業用戶。此外,英偉達也面世了LaaS產品OmniverseCloud,可以相連接在云端、邊緣設備或本地運轉的Omniverse應用,同時同時實現在任何邊線設計、發布和體驗元宇宙應用領域,比如說,利用OmniverseCloudSimpleShare服務,只需單擊即可在線裝箱和共享資源Omniverse場景。2.3.2.云端AI視頻流-MaxineMaxine提供更多更多GPU快速的AISDK和云原生服務,可以用做部署實時進一步進一步增強音頻、視頻和增強現實效果的AI功能。Maxine使用最一流的模型創造出可以使用標準麥克風和攝像頭設備同時同時實現的高質量效果。其中,AudioEffectsSDK提供更多更多基于AI的音頻質量進一步進一步增強算法,提高窄帶、寬帶和超寬帶音頻的端的至端的對話質量,涵蓋提供更多更多回來噪、聲源消除、音頻此局辨率等效果,而VideoEffectsSDK提供更多更多交互式背景、放大器、減少偽影和眼神觸碰等AI的GPU快速視頻效果。Maxine可以部署在本地、云端或邊緣,微服務也可以在應用程序中單一制管理和部署,從而大力大力推進研發時間。2.3.3.語音AI-RivaRiva構筑訂做實時語音AI應用領域,形成端的至端的語音工作流程。隨著基于語音的應用領域在全球的市場需求激增,這建議了語音AI應用領域仍須識別行業特定術語,并橫貫多種語言作出自然的實時積極響應。Riva囊括一流的實時自喊叫語音識別(ASR)和文字轉至語音(TTS)功能。用戶可選擇進度表訓練的語音模型,在自定義數據集中使用TAO工具套件對模型進行微調,能將特的定領域模型的研發速度提升10倍。Riva的高性能推理小說倚賴TensorRT,并已完全容器化,可以隨心所欲擴展到數千個循序流。2.3.4.數據分析-RAPIDSRAPIDS為全新高性能數據科學生態系統奠定了基礎,并通過互壯作性增加了新庫的市場準入門檻。英偉達打造出了由一系列開源軟件庫和API共同共同組成的PAPIDS系統,大力支持從數據讀取和預處理、模型訓練直到可視化的全數據科學工作流程。通過內置領先的數據科學框架(比如ApacheSpark、cuPY、Dask和Numba)以及眾多深度自學框架(比如PyTorch、TensorFlow和ApacheMxNet),RAPIDS可以幫助不斷擴大采用范圍并大力支持內置其他內容。整體而言,RAPIDS以CUDA-XAI為基礎,融合了英偉達在顯示卡、機器自學、深度自學、高性能排序(HPC)等領域多年來的發展成果。2.3.5.醫療身心健康-Clara打造出AI助力的醫療身心健康平臺Clara,助力新一代醫療設備和生物醫學研究。Clara主要囊括Holoscan、Parabricks、Discovery和Guaradian四大應用領域,分別用做醫療影像和醫療設備、基因組學、生物制藥和智慧醫院建設。以Holoscan為基準,開發者可以構筑設備并將AI應用領域輕而易舉部署至臨床環境中,使用準確的數字孿生模擬手術環境有助于提高手術效率并縮短患者返回手術室內的時間。其中,MONAI就是專用的開源醫療AI框架,目標就是通過構筑一個彪悍的軟件框架回去大力大力推進技術創新和臨床轉型的步南征。2.3.6.高性能排序HPC軟件開發套件助力高性能排序。HPCSDKC、C++和Fortran編譯器大力支持使用標準C++和Fortran、OpenACC指令和CUDA對HPC建模和模擬應用程序進行GPU快速。GPU快速的數學庫提高了常用HPC算法的性能,而優化的通信庫大力支持基于標準的多GPU和可以開拓系統編制成程。性能分析和調試工具可簡化HPC應用程序的移殖和優化,而容器化工具可以在本地或云端隨心所欲部署。HPCSDK的主要功能涵蓋GPU數學庫、TensorCore優化、CPU優化、多GPU編程、可以拓展系統編程、Nsight性能分析等。其中,GPU快速的數學庫適用于于于排序密集型應用領域,cuBLAS和cuSOLVER庫可提供更多更多源于LAPACK的各種BLAS例程以及核心例程的多GPU的推行,并盡可能將將自動使用GPUTensorCore。子集通信庫(NCCL)能夠同時同時實現多GPU編程,使用MPI兼容的all-gather、all-reduce、broadcast、reduce和reducescatter例程同時同時實現高度優化的多GPU和多節點子集通信基元,以利用HPC服務器節點內和橫貫HPC服務器節點的所有需以GPU。2.3.7.智能視頻分析-MetropolisMetropolics將像素轉化為見解,致力打造全方位智能視頻分析應用框架。Metropolics將可視化數據和AI整合,處理數萬億傳感器生成的海量數據,提高眾多行業的運營效率和安全性,企業可以創建、部署和擴展從邊緣到云端的AI和物聯網應用。DeepStreamSDK是由AI驅動的實時視頻分析SDK,可以顯著提高性能和量;TAO工具包借助計算機視覺特定的預訓練模型和功能,加速深度學習訓練;TensorRT將高性能計算機視覺推理應用程序從JetsonNano部署到邊緣的T4服務器上。目前,Metropolics已廣泛用于智慧城市建設、零售物流、醫療健康、工業和制造業等。2.3.8.所所推薦系統-Merlin英偉達提供更多更多用做大規模構筑高性能所所推薦系統的開源框架Merlin。Merlin并使數據科學家、機器學習工程師和其他研究人員能夠大規模構筑高性能的所所推薦器。Merlin框架涵蓋庫、方法和工具,通過同時同時實現常用的預處理、特征工程、訓練、推理小說和生產部署,精簡了所所推薦算法的構筑。Merlin組件和功能經過優化,可以大力支持數百TB數據的檢索、過濾器、評分和排序,并可以通過難于使用的API訪華。2.3.9.機器人-Isaac從研發、仿真至部署,Isaac平臺快速并優化機器人研發。工業和商用機器人的研發過程相當繁瑣,在許多場景中,缺乏結構化的環境為上上開刊發提供更多更多大力支持。Isaac機器人研發平臺為解決這些挑戰,打造出了端的至端的解決方案可以幫助降低成本、精簡研發流程并快速產品上市。其中,本地和云端的提供更多更多的IsaacSim能夠創建精準的柔和環境,為機器人產品提供更多更多仿真測先行環境;EGXFleetCommand和IsaacforAMR(涵蓋Metropolis、CuOpt和DeepMap)能夠管理機器人編隊以進行部署。2.3.10.電信-AerialAerial就是用做構筑高性能、軟件定義、云原生的5G應用領域框架。Aerial旨在構筑和部署GPU快速的5G交互式無線接入網。AerialSDK就是一個可以高度編程的物理層,能夠大力支持L2及以上的函數,利用GPU快速,繁瑣排序的運轉速度多于現有的L1處理解決方案。AerialSDK大力支持CUDABaseband(cuBB)和CUDA交互式網絡函數(cuVNF),將構筑可編程且可以大增展的軟件定義5G無線接入網的過程變得更為直觀。2.4.行業解決方案全系列全面全面覆蓋,助推行業生態運算2.4.1.人工智能與機器學習技術AIFoundations打造出面向企業的生成式AI,MaaS(模型即為為服務)幫助企業研發自己的人工智能模型。英偉達AIFoundations就是專為AI打所造的行業解決方案。如今,生成式AI正在擴展到全球的企業中,黃仁勛則表示,AIEnterprise將比如RedHat之于Linux通常,為英偉達的所有庫提可以可供維護和管理服務,未來它還被資源整合至全球范圍的機器學習操作方式方式渠道內。整體而言,英偉達正在通過一系列云服務套件、進度表訓練的基礎模型、尖端框架、優化推理小說引擎,和API一同為生成式AI提供更多更多大力支持。AIFoundations通過搭載在DGXCloud-AI超級計算機上的NeMo、Picasso和BioNeMo云服務充分發揮創造力,可以提供更多更多文本分解成、圖像分解成、聊天機器人、總結和譯者等生成式AI研發服務。提供更多更多NeMoLLM服務,致力大型語言模型的研發與維護。英偉達NeMoLLM服務而令用戶可以自定義和使用在多個框架上訓練的LLM,并可以在云上使用NeMoLLM服務部署企業級AI應用領域。NeMoLLM增加了大模型研發與維護的難度,同時同時實現了文本分解成、全文、圖像分解成、聊天機器人、編碼和譯者等功能。同時NeMoLLM將Megatron530B模型謝澤生為一款云API官方,作為一種端的至端的框架,Megatron530B可以用做部署最高數萬億參數的LLM。打造出完善深度自學訓練和深度自學推理小說平臺,持續不斷擴大深度自學領Auron地位。深度自學領域,從訓練平臺角度,用戶可選擇本地工作站、數據中心、云端作為訓練平臺,利用SDK中的軟件和框架庫進行深度自學訓練,也可以從英偉達GPUCloud免費訪華所有所需的深度自學訓練軟件。從推理小說平臺角度,用戶可以利用TensorRT平臺以及Triton推理小說服務器進行模型推理小說和部署,Triton服務器允許團隊通過TensorFlow、PyTorch、TensorRTPlan、Caffe、MXNet或其他自定義框架,在任何基于GPU或CPU的基礎設施上,從本地存儲、Google云端平臺或AWSS3部署經訓練的模型。2.4.2.數據中心與云計算解決方案云計算解決方案優勢充份轉化成,為全球創新者提供更多更多非常大算力。英偉少于的云合作伙伴涵蓋阿里云、谷歌云、騰訊云、AWS、IBMCloud和MicrosoftAzure等,用戶可以通過云合作伙伴使用英偉達服務。此外,英偉達基于BlueFieldDPU架構和QuantumInfiniBand網絡構筑了云原生超級排序平臺。DPU能夠為主機處理器裝載和管理數據中心基礎設施,同時同時實現超級計算機的安全與選歌;并且云原生超級計算機同時同時實現在多租戶環路境中的零信任架構,最輕程度保證了安全性。同時,英偉達也具備彪悍的邊緣排序服務,形成“云計算+邊緣排序”的服務體系。cuLitho排序光刻技術軟件庫引入快速排序,快速半導體行業芯片設計和生產速度。英偉達cuLitho的面世以及與半導體行業領導者TSMC、ASML和Synopsys的合作,并使晶圓廠能夠提高產量、減少碳足跡并為2納米及更高工藝打下基礎。cuLitho在GPU上運轉,其性能比當前光刻技術工藝提高了40倍,能夠為目前每年消耗數百億CPU小時的大規模排序工作功率提供更多更多快速,僅仍須500個DGXH100系統即可順利完成原本仍須4萬個CPU系統就可以順利完成的工作。在短期內,使用cuLitho的晶圓廠每天的光掩模(芯片設計模板)產量可以增加3-5倍,而耗電量可以比當前布局增加9倍。2.4.3.汽車行業解決方案英偉達自研NVIDIADRIVE,形成適合自動駕駛汽車的硬件+軟件+架構有機統一。硬件端的,DRIVEHyperion就是用做量產自動駕駛汽車的平臺,具備用做自動駕駛的完善軟件棧,以及駕駛員監控和可視化功能。DRIVEHyperion搭載DRIVEOrinSoC(系統級芯片),可以提供更多更多每秒254萬億次運算的算力負荷。同時,英偉達2022年9月利用最新GPU和CPU打造出了新一代SoC芯片DRIVEThor,其可以提供更多更多2000萬億次浮點運算性能,計劃2025年DRIVEThor能夠贏得量產。DRIVESDK令開發者高效率部署自動駕駛應用程序變成可能將將,造就未來乘車體驗。DRIVESDK為開發者提供更多更多適應環境自動駕駛的構筑塊和稱得上法堆棧,開發者可以構筑和部署涵蓋心智、定位、駕駛員掌控和自然語言處理的一系列應用程序。DRIVE基礎架構涵蓋研發自動駕駛技術全系列流程所需的數據中心硬件、軟件和工作流。英偉達提供更多更多高效率節能環保的AI排序快速訓練,有助于AI收集大量真實高速行駛數據作為訓練集;在DRIVESim中,可以通過模擬將駕車在虛擬世界中進行測試,贏得各種少見和危險駕車情形下的駕車數據。目前,英偉達研發的AI生態圈自動駕駛汽車已經應用領域至各大主流汽車制造商,變成自動駕駛汽車研發的首要工具。2.4.4.VR與游戲產業產品英偉達GPU為VR頭盔和GeForceGameReady驅動提供更多更多即插即用的兼容性。VR光學是否連貫將非常大影響TNUMBERUSB的使用體驗,寬大的VR體驗建議顯示器有效率分辨率至少為4K且最低刷新率為90Hz,這就仍須GPU為其提供更多更多大力支持。GeForceRTXGPU兼容目前市場上主流VR頭盔,通用性較強。從性能來看,GeForceRTXGPU充分利用其DLSS、光線追蹤和PhysX三大光學技術為用戶模擬比如真實世界般的VR體驗。全方位全面全面覆蓋游戲娛樂體驗,打造出專業游戲環境。目前存強于2億游戲玩家和創作者使用GeForceGPU,針對這一客戶群體,英偉達打造出了一系列專業游戲服務:GeForceExperience可以截取并與好友互動圖片、視頻和直播;GameReady驅動程序可實現一鍵優化游戲設置;BroadcastApp提供更多更多專業化直播服務,比如只需頁面一個按鈕即可消除噪音或內嵌虛擬將背景;OmniverseMachinima可以同時同時實現對虛擬世界中的角色及其環境進行操作方式方式處理并同時同時實現動畫化。3.再次定義市場,助推AI發展3.1.長期位列顯示卡市場龍頭,市場份額保持高位英偉達顯示卡市場份額長期位列高位,與AMD呈圓形此消彼長關系。據3DCenter,2022Q2全球單一制顯示卡總計備貨約1040萬張,總銷售額約55億美元,與2021年存非常大差距,其中顯示卡平均值售價從2021Q2的1029美元大幅跌落至2022Q2的529美元。據JPR測算,22Q2英偉達備貨占到至全球單一制顯示卡市場份額79%,同比快速增長4pct,環比增加1pct。此外,AMD(葡鈣半導體)囊括了20%的市場份額,作為嶄新入局者英特爾(Intel),其市場份額僅1%,所述英偉達在單一制顯示卡領域長期耕耘的市場優勢顯露出著,尤其就是高端顯示卡市場。而后,22Q3全球單一制顯示卡銷量母石氏33.7%至690萬張,22Q4同增7.8%至743萬張。2022年全球GPU市場疲軟,英特爾保持全球最輕PC端的GPU可以可供應商地位。據JPR,22Q4全球共備貨6420萬塊單一制GPU和內置GPU,同比-38%,環比-15.4%,整體降幅明顯,凸顯市場需求疲弱情緒,尤其就是集成顯卡制造商訂貨意愿大幅大幅下滑輕微。從市場份額角度,以22Q4為基準,英特爾PC端的GPU銷售額占到至71%,英偉達和AMD分別占到至17%和12%。整體來看,集成顯卡市場庫存緊缺和市場需求弱化的供需矛盾仍暫未減低,出貨量或將穩步維持低位。3.2.合作伙伴網絡非常大,AI市場持續開拓英偉達主要客戶群體全面全面覆蓋頂尖科技公司,未來將持續向人工智能市場開拓。英偉達處半導體產業鏈上游研發設計環節,半導體細分領域幾大頭部廠商寡頭寡頭壟斷力較強,其主要客戶涵蓋華碩、M18x、惠普、Facebook、IBM、慧與、三星等。下游市場需求嚴重影響英偉達的存貨與生產計劃,從存貨角度分析,FY2020存貨周轉天數上漲主要由原材料價格上漲提前訂貨所致,FY2023存貨周轉天數再度高漲則由于市場需求疲軟引致的庫存積壓。但隨著AI算力市場需求提高重塑英偉達銷售預期,我們表示英英特爾存貨周轉料重返合理區間,同時其AI研發的持續資金投入也將料取悅更多AI公司使用英偉達芯片產品。英偉達基于非常大合作伙伴網絡,共同推動視覺排序未來。英偉達謝澤生為行業領導者,率先面世了視覺排序解決方案,并在近30年去通過合作伙伴網絡(NPN)將產品投入市場。合作伙伴涵蓋增值經銷商、解決方案內置、設計或生產系統、直銷服務、咨詢以及為英偉達產品和解決方案提供更多更多維護服務的公司。同時,英偉達積極主動通過GTC大會取悅更多的全球合作伙伴,2023年GTC大會鉆石合作商就涵蓋谷歌、谷歌云、阿里云、戴爾科技等國內外大廠,黃仁勛則表示,目前全球英偉達生態未有400萬名開發者、4萬家公司和英偉達初創快速計劃中的1.4萬家初創企業。3.3.AI市場持續高減至,周期布局價值凸顯AI芯片市場變成代萊增長極,周期布局價值漸顯。云計算、人工智能、工業5G和快速排序等業務快速增長將變成解決排序時代癥結的最后幾塊積木。硬件+軟件的完善生態系統將有助英偉達在AI的極速發展中穩中求進定其頭部供應商地位。據IDTechEx發布的報告《人工智能芯片2023-2033》預測,至2033年,全球AI芯片市場將快速增長至2576億美元。JPR也曾預測,2022-2026年全球GPU銷量無機增長速度將保持在6.3%水平,2027年全球GPU市場規模料強于320億美元。目前OpenAI模型主要由英偉達GPU進行訓練,我們看空AI芯片市場激增對英偉達投資價值的催化作用。英偉達預測自身總潛在市場為萬億美元量級,對各業務線持整體趣觀預期。在2022年3月投資者的活動中,英偉達則表示其業務領域的總潛在市場(TAM)為1萬億美元,其中游戲業務約1000億美元,人工智能企業軟件1500億美元,Omniverse業務1500億美元,硬件與系統3000億美元,以及自動駕駛業務市場3000億美元。即便英偉達并未清晰得出結論其計劃同時同時實現這一目標的具體內容時間,但仍從一定程度上充分反映了英偉少于對其各業務條線市場份額權重的合理預期。3.4.重塑摩爾定律,AIiPhone時刻提供更多更多新機遇摩爾定律逐漸失靈,“黃氏定律”重塑行業生態正當時。摩爾定律指在價格保持維持不變的前提下,集成電路上可容納的晶體管的數目,約內要約收購18個月便可以增加一倍,半世紀以來,摩爾定律提示信息著芯片市場跨入經濟繁榮。但隨著傳統半導體晶體管結構已步入納米級別,摩爾定律也逐漸在高成本的驅動下逐漸失靈。但如今,大模型對于算力激增的市場需求已遠大于摩爾定律所預估。黃仁勛對AI性能的提升作出預測,則表示GPU將推動AI性能同時同時實現每1年打翻1倍,也就是每10年GPU性能將快速增長強于1000倍。這一論點也被稱作“黃氏定律”。英偉達首席科學家后任研究院副總裁BillDally則則表示,目前單芯片推理小說性能的提升主要原因就是TensorCore的改進、更優化的電路設計和架構,而非制程技術的進步。因此,在摩爾定律消失之后,黃氏定律將不斷催生排序性能的進步。4.研發技術創新橫貫公司歷史,運算公司快速增長曲線4.1.研發資金投入持續高減至,研發團隊規模日益壯大英偉達持續強化研發資金投入,側重于創新能力培育。FY2023年英偉達研發費用少于73.39億美元,同增39.31%,近年來英偉達研發費用增長速度清顯露出,在FY2021-FY2023已已已連續三年呈現強于30%的同比增長率。據FourWeekMBA統計數據,截至2023年1月,英偉達全球員工總數共26196人,其中研發人員19532人,研發人員占比約75%。四年間英偉達研發人員數量近乎翻倍,研發人員的高占到至比反應了公司對于研發技術創新這一企業生命線的著重。4.2.AI拐點時刻,大型語言模型形成新技術戰略重點專利申請數處行業前茅,神經網絡領域變成研究和專利申請戰略重點。據智慧芽數據,截止2021年,英偉達及其關聯公司總計提出申請強于9700件專利,集中在GPU有關硬件領域。其中2013年超過至專利申請與許可最高值。自2014年至專利申請與許可較銷售數據顯著增加,許可比重亦呈現下滑趨勢。出現這種轉型的原因主要就是研發戰略重點搬遷平添的生產量成果更迭。對照1993-2013年和2014-2021年專利關鍵詞云,“處理器“、”存儲器“、“計算機程序單元”的比重相對增加,取而代之的首位關鍵詞為“神經網絡”,充分反映了神經網絡有關技術變成英偉達研發的首要方向。大型語言模型業務變成未來技術發展戰略重點,發布四大嶄新計算技術平臺。在GTC2023上,英偉達大力大力推進生成式AI應用領域的部署,面世四個排序技術平臺,分別就是用做AI視頻的英偉達L4,針對Omniverse、圖形圖形以及文本轉至圖像和文本轉至視頻等生成式AI的英偉達L40,用做大型語言模型推理小說的H100NVL以及適用于于于所所推薦系統和大型語言模型數據庫的GraceHopper。黃仁勛則則表示:“AI正處于一個拐點,為每個行業的廣為采用搞出準備工作工作。從初創企業至大型企業,我們看到人們對生成式AI的多功能性和能力越來越感興趣。”而大型語言模型業務也將因此變成英偉達技術發展的戰略重點。4.3.區位優勢著重,持續強化產學研深度合作英偉達充分利用硅谷的區位優勢,與學術界保持著長期的合作關系,提供不竭的創新動力。英偉達除了與專業的研究團隊開展合作外,也將頂尖高校的優秀畢業生作為重點人才儲備,持續強化產學研深度合作。主要合作學術研究項目包括與加州大學伯克利分校的ASPIRE項目、與北卡羅來納州立大學等多所高校聯合的CAEML項目和CV2R項目、以及與斯坦福工程學院的SCIEN項目等,涵蓋機器學習、虛擬現實等領域,覆蓋軟硬件市場。5.打造出多元文化,勇擔社會責任5.1.秉承可持續發展,弘揚ESG目標英偉達側重于可以再生能源與生產效率,助力弘揚ESG目標。英偉達在每年度均計劃出售或生產大量的可以再生能源,以全面滿足用戶全球對電力的使用市場需求。此外,英偉達的GPU通過算力提升增加了能源消耗,其后生所產的GPU對于某些AI和HPC工作功率,其能效通常比CPU高20倍。2022年5月,英偉達面世液冷GPU,據Equinix和英偉達單獨測試,采用液冷技術的數據中心工作功率可以與風冷設施持平,同時消耗的能源增至太太少約30%。值得一提的是,Green500名列就是去來衡量超級計算機的能效的重必須指標,在2022年6月的Green500榜單里名列前30的超級計算機中,存23臺由英偉達的GPU提供更多更多大力支持。5.2.分攤社會責任,投身公益活動員工致力于構筑推動人類進步的技術,并為其工作和生活的社區提可以可供大力支持。英偉達則則表示,作為積極主動分攤社會責任的優秀公司,他們的員工古道熱腸,向全球數百家慈善非政府提供更多更多捐助。同時英偉達建立了專項基為金會,37%的員工在FY2023參與了基金會Inspire365計劃,總計捐贈強于880萬美元,提供更多更多了約29000小時的志愿服務時間,較FY2022同增74%。加之以公司名義的捐贈,總捐贈額總計2250萬美元,全面全面覆蓋了55個國家或地區的5800多家非營利非政府。5.3.特別強調以人為本,深耕企業文化英偉達側重于打造出多元企業文化,提升員工福祉。Glassdoor的評選活動結果說明,英偉達的員工將公司評選活動為全美排名第1的工作場所。《財富》鹵志亦將其評選活動為“最佳雇主100強”。并且,英偉達致力于創造更加多元化的文化,構筑“殘疾公平指數”、“企業平等性指數”和“性別公平指數”等指標,凸顯企業以員工為本的理念,提供更多更多包容性的工作場所,并始終秉承履行職責其對同工同酬的許諾。5.4.高度高度關注客戶隱私,持續提升產品安全側重于AI時代下數據安全問題,建立專業風險積極響應團隊。英偉達打造了全球產品安全事件積極響應團隊(PSIRT),通過及時的信息表達處理產Fanjeaux和服務有關的安全漏洞,并將NIST網絡安全框架的元素和控件內置至其安全程序中。同時參與MITRE這一全球網絡安全非政府,開拓AI的MITREATT&CK框架,以更好積極響應AI時代代萊威脅。打造出側重于隱私保護的攜手自學系統,產品安全整體THF1。以醫療行業為基準,英偉達面世的醫學影像分析的攜手自學系統(FederatedLearning),可以通過構筑全局模型避免患者的信息被無條件共享資源。醫院、研究中心和疾控中心能夠各自根據其既有數據于本地訓練模型,并間隔一定時間將數據提交給全局參數服務器,該服務器可以通過資源整合各節點模型信息并分解成代萊模型,最后將模型再次意見反饋回來各節點。該系統在隱私保護基礎上最輕程度保證了模型性能,合理利用了各方數據信息。6.以強于異構技術創新重塑大規模AI排序,發動世界AI惹起恃6.1.CPU難以提振AI算力市場需求,市場亟須更強算力CPU主要以以太網排序,基于CPU和PCIe的數據中心量輕微嚴重不足。以太網排序所指的就是多個程序在同一個處理器上被繼續執行,只有在當前的程序執行結束后,下一個程序就可以已經已經開始繼續執行,CPU的運轉主要以以太網排序的方式進行。同時,據CSDN,以PCIe最新版本5.0為基準,其傳輸速率僅有32GT/s或25GT/s,PCIe量的計算方法為:量=傳輸速率*編碼方案,因此傳輸速率的嚴重不足輕而易舉導致了CPU基于PCIe的戳吐量較小,也就意味著其頻寬較小。并且,在此過程中CPU產生的功耗和延時均較低,可以產生較低的計算成本。因此,基于CPU以太網排序的特點和較小的頻寬,已無法適應環境如今數據中心的算力建議。CPU無法適應環境深度自學高mammalian、并行計算和矩陣處理等算力建議。以神經網絡模型為基準,其囊括輸入層、輸出層和中間層(亦稱隱藏層)。近年來,深度自學應用領域市場需求的激增使得開發者同時同時實現較弱的函數模擬能力,這仍須通過提升模型的復雜度回去同時同時實現,這輕而易舉導致神經網絡中間層數量的激增,最終并使神經網絡參數數量的飆升。由于神經網絡就是高度循序的,使用神經網絡搞出的許多排序都仍須分解成更大的排序,尤其就是利用卷積神經網絡進行圖像識別時,卷積和池化等過程仍須進行大量矩陣運算,而CPU內部排序單元非常非常有限,在繼續執行此類任務時將非常大的消耗模型訓練的時間。基于多層神經網絡的繁瑣運算亟須較弱算力的現實市場需求。6.2.GPU生逢其時,英偉達異軍突起6.2.1.技術日新月異,AI芯片應時代市場需求而生GPU解決算力管制頑疾,高帶寬適應環境模型訓練仍須。與CPU較之,使用GPU進行大規模并行計算的優勢贏得了充份凸顯,以H100TensorCoreGPU為基準,其大力支持多達18個NVLink相連接,總量為900GB/s,就是PCIe5.0頻寬的7倍,進而同時同時實現強于快速的深度自學訓練。對于神經網hinet模型的訓練,GPU邏輯運算單元較多的優勢能夠贏得充份的充分發揮,能夠滿足用戶GPU無法同時同時實現的深度自學高mammalian、并行計算和矩陣處理的算力建議,因此GPU無疑變成了深度自學的硬件挑選出。AI運算飛速催生芯片技術創新,DPU、FPGA、ASIC等AI芯片應時代市場需求而生。AI時代呼喚嶄新架構的產生,即便GPU二者較CPU存顯露出著的算力優勢,但市場可能將將仍須比GPU性能更加得天獨厚的專用芯片,目前已并不僅只有GPU能適用于于以深度自學模型訓練。近年來AI芯片技術另結新歡發式快速增長,各類AI芯片b0d3fb快速,我們參考《科學觀測》雜志論文《AI芯片專利技術研發態勢》,將AI芯片技術體系劃分為如下11個分支領域。ASIC適應環境訂做化高市場需求使用場景,計算能力和效率可以根據算法仍須必須進行訂做。專用集成電路(ASIC)指根據用戶特定的建議和特定電子系統的仍須而生產的集成電路,設計順利完成后集成電路的結構即為為套管。ASIC適用于于于對于芯片高市場需求且訂做化程度較高的應用領域場景,比如先前的礦機芯片和如今火熱的自動駕駛芯片。Frost&Sullivan數據統計數據,全球ASIC市場規模從2018年的299億美元快速增長至2023年的674億美元,無機增長速度達致17.7%。ASIC的發展料一定程度上滿足用戶AI對算力激增的市場需求,但短期內難以打破英偉達GPU在市場份額的領先優勢。6.2.2.激戰AMD、英特爾及互聯網巨頭英偉達、英特爾、AMD為GPU領域行業巨頭,蘋果、高通等破局者不斷涌入平添漣漪。據JPR測算,英偉達長期占到至全球單一制顯示卡的市場份額近80%,其余市場份額幾乎均被AMD搶占市場。因此GPU芯片市場英偉少于和AMD共同主導。而英特爾為主要CPU制造商,同時也在PC端的GPU具備領先份額。英偉達的主要競爭對手集中在GPU產業鏈的設計環節。但同時,蘋果、高通等破局者也在步入GPU市場企圖同時同時實現自研GPU以增加對外技術依賴的市場需求。AMD就是高性能與自適應排序領域的領先企業,處在半導體行業前沿。AMD作為英偉達在單一制GPU領域的主要競爭對手,提供更多更多從處理器、顯示卡、軟件和應用領域等全方位的產品服務,CPU+GPU+DPU+FPGA的產品線已全面布局。AMD在汽車、超級排序和高性能排序、網絡電信、機器人領域自適應排序等也都明確提出了自己的全套解決方案。作為AMD最可能將將對標英偉達GH200的產品MI300年內將發布。InstinctMI300具備創造代萊適應環境數據中心設計,共囊括13個小芯片,其中許多就是3D堆疊的,以創建一個具有24個Zen4CPU內核并融合了CDNA3GPU和128GHBM3顯示卡的超級芯片,內置了5nm和6nmIP。總體而言,該芯片具備1460億個晶體管,就是AMD投入生產的最為大芯片。我們表示,MI300不僅距離同時同時實現量產除了較長時間,且其算力相較于英偉達已量產的產品線依舊較低,與英偉達GPU研發和生產的整體差距約兩年,目前對于英偉達GH200產生的競爭壓力較小。英特爾充分利用其在內置GPU市場的主導地位,提供更多更多具有卓越性能的圖形解決方案。英特爾與英偉達和AMD相同,其在GPU領域更加著眼集成顯卡業務。英特爾的GPU家族涵蓋銳炫顯示卡、銳炬Xe顯示卡和DataCenterGPU等。英特爾研發了Xe-HPG微架構,Xe-HPGGPU中的每個Xe內核都布局了一組256位矢量引擎,可實現快速傳統圖形和排序工作功率,而代萊1024位矩陣引擎或Xe矩陣開拓則旨在快速人工智能工作功率。英特爾也形成了全面全面覆蓋云計算、人工智能、5G、物聯網、邊緣排序和商用電腦的業務解決方案,并且其業務也全面全面覆蓋了GPU的生產和封測環節,在臺式機和筆記本電腦等領域也具備較客觀的市場份額。但整體而言,英特爾的總收入增長速度相對緩慢,受PC端的出貨量負面影響并使其在GPU這一核心業務快速增長動力嚴重不足。高通等破局者投身GPU研發生產。以高通發布的第二代驍龍8旗艦移動平臺(驍龍8Gen2)為基準,其采用的新一代AdrenoGPU較之上一代性能提升25%、功耗減少了45%,CPU的性能也提升了35%、功耗減少了40%,充分反映出了高通在GPU芯片設計領域已具備較快的運算能力,涵蓋華碩、榮耀、OPPO、小米、夏普、索尼、vivo等企業都將面世搭載驍龍8Gen2的產品。客戶向競爭對手轉型,特斯拉先后面世以NPU為基礎的FSD車載芯片和D1芯片。NPU(NeuralNetworkProcessingUnit)在訓練神經網hinet模型時相較GPU能耗和成本更高,并更內置嵌入環境,可以減少神經網hinet運算過程的時間。2019年英偉達的關鍵客戶特斯拉發布其自研FSD平臺(FullSelf-DrivingComputer),搭載兩塊車載芯片,其中的最輕組件NPU由特斯拉硬件團隊訂做設計,每個FSD芯片內均囊括兩個相同的NPU,一塊GPU和一塊CPU。2021年特斯拉發布D1芯片,用其打造了AI超級計算機ExaPOD,對照英偉達對特斯拉的既有方案財政預算,巍然存4倍的性能、1.3倍的能效比和僅1/5的體積。我們表示,FSD車載芯片和D1芯片的面世,標志著特斯拉對英偉達的芯片依賴度已經已經開始下降。基于GPU相對低的成本和經濟繁榮的生態,仍舊就是超級計算機的首位挑選出,短期內市場地位無法出現發生改變。以史為鑒,2017年Google面世Transformer模型,變成了OpenAI研發GPT-1的基礎。此后英偉達快速把握住全球稱得上力市場需求發動時機,面世搭載Transformer快速引擎的Hopper架構,同時面世H100TensorCoreGPU,滿足用戶了超級計算機的算力建議。整體而言,GPU的生產成本較之ASIC等AI芯片最低,生態也最為經濟繁榮。同時,由于目前模型正處于不斷變化的飛速增長期,基于其較快的運算速度,ASIC的定T5800設計仍須同時根據模型變化的新市場需求運算,難以實現均衡的生產。因此GPU仍就是解決AI算力的不二挑選出,短時間內其市場地位無法出現發生改變。6.3.以強于異構技術創新構筑面向大規模AI排序的系統性競爭優勢6.3.1.強于異構技術創新總覽以強于異構技術創新構筑面向大規模AI排序的超級計算機。異構計算指就是通過調用性能、結構各有不同的排序單元(涵蓋CPU、GPU和各類專用AI芯片等)以滿足用戶相同的排序市場需求,同時同時實現排序最佳化。我們表示,英偉達的核心競爭優勢就是,構筑了AI時代面向大規模并行計算而成立的全棧異構的數據中心。英偉達NVLink性能快速運算,同時NVSwitch伏毛開回多個NVLink,在單節點內和節點間同時同時實現以NVLink能夠達致的最為高速度進行多對多GPU通信,滿足用戶了在每個GPU之間、GPU和CPU間虛現無縫高速通信的市場需求,同時基于DOCA快速數據中心工作功率的潛力,同時同時實現DPU的效能提升,GPU+BluefieldDPU+GraceCPU的融合上加創性地同時同時實現了芯片間的高速可視化。同時CUDA當好通用型平臺,引入英偉少于軟件服務和全生態系統。我們表示,芯片和系統耦合的同時同時實現并使英偉少于真正同時同時實現了強于異構技術創新。6.3.2.NVLink首先,NVLink出現發生改變了傳統PCIe繁瑣的傳輸過程,同時同時實現GPU與CPU的輕而易舉相連接。以GH200超級芯片為基準,其使用NVLink-C2C芯片互連,將基于Arm的GraceCPU與H100TensorCoreGPU資源整合,從而不再仍須傳統的CPU至GPUPCIe相連接。傳統的PCIe仍須經歷由CPU至內存,再至主板,最后經過顯示卡到達至GPU的過程。因此NVLink與傳統的PCIe技術較之,將GPU和CPU之間的頻寬提高了7倍,將互連功耗減少了5倍以上,并為DGXGH200超級計算機提供更多更多了一個600GB的Hopper架構GPU構筑模塊。6.3.3.DPUDPU大幅增加CPU的負荷,為現代數據中心平添前所未有的性能提升。2020年,英偉達發布BlueField-2DPU,將ConnectX-6Dx的彪悍功能與可編程的Arm核心以及其他硬件裝載功能融合,用做軟件定義存儲、網絡、安全和管理工作功率。之后發布的BlueField-3DPU更為強大,作為一款400Gb/s基礎設施排序平臺,其計算速度高少于每秒400Gb,計算能力和加密快速均較BlueField-2DPU提高4倍,存儲處理速度提高2倍,內存頻寬也提高了4倍。同時,BlueField系列DPU有助于再再降稀,在OVS平臺上進行的一項測試中,在服務器最輕荷載時,DPU能耗較CPU低29%。英偉達亦面世了融合加速器產品,融合其AmpereGPU架構和BlueFieldDPU的安全和網絡進一步進一步增強功能。最新Spectrum-X網絡平臺集英偉達Spectrum-4、BlueField-3DPU和快速軟件于一身。Spectrum-X就是基于網絡技術創新的新成果而構筑,將Spectrum-4以太網交換機與英偉達BlueField-3DPU緊密結合,網絡平臺具有高度的通用性,可以用做各種AI應用領域,它采用完全標準的以太網,并與現有以太網的堆棧同時同時實現互通,全球頭部云服務提供商都可以采用該平臺來橫向開拓其生成式AI服務。我們表示,Spectrum-X的上市將進一步提升英偉達以太網AI云的性能與效率,變成英偉達為AI工作功率洗臉清障礙的關鍵一環。6.3.4.CPU英偉達自研GraceCPU超級芯片,為AI數據中心而生。不同于傳復的CPU,英偉達GraceCPU采用NVLinkC2C技術,就是一款專為數據中心而設計的CPU,其可以運轉涵蓋AI、高性能排序、數據分析、數字孿生和云應用領域在內的工作功率。GraceCPU可以提供更多更多144個ArmNeoverseV2核心和1TB/s的內存頻寬,并引入了可以開拓一致性結構(SCF),SCF需以以確保NVLink-C2C、CPU內核、內存和系統IO之間的數據流量流動。從軟件角度,英偉達GraceCPU軟件生態系統將用做CPU、GPU和DPU的全套英偉達軟件,與完善的Arm數據中心生態系統融合。6.3.5.“GPU+DPU+CPU”的三芯戰略綜上,英偉達基于“GPU+DPU+CPU”的三芯戰略已初步同時同時實現,軟件和硬件相互支持,變成AI發展的技術標桿。我們表示,英偉達的商業模式正在由銷售“硬件+軟件”的制造商向大規模AI排序的平臺公司持Chinian轉型,持續通過基于異構計算的硬件運算加軟件服務的整體生態更新提升運算速度,增加運算成本。英偉達通過“GPU+DPU+CPU”構筑英偉少于快速排序平臺,和傳統服務器的排序系統較之,快速排序系統嶄新平添了GPU和DPU,為涵蓋AI和可視化等現代業務應用領域提供更多更多排序加速器支持。英偉達亞太區研發技術部總經理李曦則表示,目前世界上只有5%的計稱得上任務被快速,而未來十年所有的排序任務都將被快速,還可以問世十倍于現階段的新排序任務,這將為快速排序市場平添強于100倍的快速增長空間。6.3.6.CUDA和DOCACUDA和DOCA打造出軟件生態,進而與硬件共同共同組成全棧系統優勢。如前所述,CUDA可以當好英偉達各GPU系列的通用型平臺,因此研發者可以橫貫GPU布局部署并開拓應用領域。利用CUDA的高兼容性,英偉少于成功將GPU的應用領域拓展至排序科學和深度自學領域。而DOCA的最主要功能為快速、裝載并將數據中心基礎架構DPU阻隔,真正充份充分發揮了人工智能的潛力,推動數據中心變為快速排序,以滿足用戶日益增長的排序市場需求。6.3.7.GH200基于強于異構技術創新,英偉達發布能提供更多更多極強AI性能的DGXGH200大內存AI超級計算機。DGX系統利用全系列堆棧解決方案和企業級大力支持,為企業AI基礎架構預設標桿,就是應用于TOP500中多臺超級計算機的核心基礎模組。DGXGH200作為最新產品,資源整合了GraceCPU和H100GPU,具備將近2000億個晶體管,通過訂做的NVLinkSwitchSystem將256個GH200超級芯片和已經少于144TB的共享內存連接成一個單元,并使DGXGH200系統中的25

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論