




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、制約AI產(chǎn)業(yè)發(fā)展的硬件瓶頸制約AI產(chǎn)業(yè)發(fā)展的硬件瓶頸陳怡然杜克大學(xué)電子與計(jì)算機(jī)工程系副教授杜克進(jìn)化智能中心聯(lián)合主任美國(guó)自然科學(xué)基金委新型可持續(xù)智能計(jì)算中心主任制約AI產(chǎn)業(yè)發(fā)展的硬件瓶頸The Hardware Bottlenecks Hindering Development of AI Industry陳怡然杜克大學(xué)電子與計(jì)算機(jī)工程系副教授制約AI產(chǎn)業(yè)發(fā)展的硬件人工智能發(fā)展的三次浪潮ENIACUNIVAC IIBM 7090Pentium IVIBM 360/75CDC 7600SDS 920DEC-CK-10Apple IISun-2Sun-3AT&T Globalyst 600Power
2、 Tower 180eFijitsu SPARC64 VIIIfxGateway-486DX2/66IBM PCMAC IIfxIBM PS/2 90PowerMac 8100/80AMD Athlon FX-57Mac G4DELL 340/2GMac G3Intel Core 2 QX9770第一次興起Perception, 1957 第二次興起MLP, 19862012 AlexNet2014 GoogleNet2014 VGG192015 ResNet1522016 DenseNet2502012,GTX 5802013,GTX780Ti2014,GTX9802015,GTX98020
3、16,GTX1080第三次興起CNN, 2012GPU相對(duì)性能相對(duì)網(wǎng)絡(luò)深度/1/533/533492.html人工智能發(fā)展的三次浪潮ENIACUNIVAC IIBM 70人工智能應(yīng)用的硬件要求人工智能應(yīng)用的硬件要求圖靈機(jī)和馮諾依曼體系結(jié)構(gòu)HeadTape內(nèi)存計(jì)算邏輯單元控制單元計(jì)算、存儲(chǔ)分離串行計(jì)算計(jì)算精度高單線程性能受限于所運(yùn)行指令之間的數(shù)據(jù)依賴關(guān)系內(nèi)存帶寬瓶頸片上功率密度上限圖靈機(jī)和馮諾依曼體系結(jié)構(gòu)HeadTape內(nèi)存計(jì)算邏輯單元控現(xiàn)有AI計(jì)算芯片2014-2018硬件神經(jīng)元高速存儲(chǔ),高速互聯(lián)經(jīng)典機(jī)器學(xué)習(xí)算法寒武紀(jì)2014-2017SP:流式處理器SM:流式多處理器SFU:特殊函數(shù)處理器英
4、偉達(dá)GPU2014-2017基于算法優(yōu)化的FPGA神經(jīng)網(wǎng)絡(luò)硬件加速器賽靈思深鑒科技2016-2018TPU脈沖陣列混合精度計(jì)算部件加速神經(jīng)網(wǎng)絡(luò)推斷和訓(xùn)練谷歌云TPU服務(wù)谷歌TPU現(xiàn)有AI計(jì)算芯片2014-2018寒武紀(jì)2014-2017英一:大容量存儲(chǔ)和高密度計(jì)算ILSVRC12 : AlexNet8 層/1.4G 操作ILSVRC15: ResNet34152 層/3.9G 操作ILSVRC14: VGG1619 層/ 15.5G操作模型復(fù)雜度越來(lái)越高一:大容量存儲(chǔ)和高密度計(jì)算ILSVRC12 : AlexN剪枝(Pruning)非結(jié)構(gòu)化剪枝結(jié)構(gòu)化剪枝盡可能減少權(quán)重?cái)?shù)量極大減小存儲(chǔ)空間在Al
5、exNet等網(wǎng)絡(luò)上壓縮10 x以上剪枝同時(shí)維持結(jié)構(gòu)化的存儲(chǔ)訪問(wèn)減小存儲(chǔ)的同時(shí)提高運(yùn)算速度達(dá)到3x左右的速度提升非0值0值無(wú)效訪問(wèn)有效訪問(wèn)剪枝(Pruning)非結(jié)構(gòu)化剪枝結(jié)構(gòu)化剪枝盡可能減少權(quán)重?cái)?shù)結(jié)構(gòu)化剪枝CNN: 剪除部分通道,縮小卷積核,剪除整層(W. Wen et al., 2016)5.17倍加速結(jié)構(gòu)化剪枝CNN: 剪除部分通道,縮小卷積核,剪除整層(W.低精度量化低精度量化低精度量化最小化目標(biāo):概率正則化a = b = 0.5零偏差最大化偏差低精度量化最小化目標(biāo):概率正則化a = b = 0.5零偏低精度神經(jīng)網(wǎng)絡(luò)訓(xùn)練參數(shù)服務(wù)器p=p+p降低通信開(kāi)銷DistBelief by Goog
6、le低精度神經(jīng)網(wǎng)絡(luò)訓(xùn)練參數(shù)服務(wù)器p=p+p降低通信開(kāi)銷Dis三值量化降低通信開(kāi)銷Wei Wen et al., CEI NIPS,2017截取前截?cái)嗪笕盗炕罱K結(jié)果三值量化降低通信開(kāi)銷Wei Wen et al., CEI 降低訓(xùn)練的通信開(kāi)銷Wei Wen et al., CEI NIPS,2017降低梯度的精度訓(xùn)練加速保證網(wǎng)絡(luò)模型的精確性生產(chǎn)環(huán)境測(cè)試:128節(jié)點(diǎn)GPU集群;高速互連網(wǎng)絡(luò)參數(shù)服務(wù)器計(jì)算節(jié)點(diǎn)TernGrad3x 訓(xùn)練加速,2%精確性降低降低訓(xùn)練的通信開(kāi)銷Wei Wen et al., CEI N手勢(shì)識(shí)別醫(yī)療診斷自動(dòng)駕駛目標(biāo)定位機(jī)器翻譯語(yǔ)音識(shí)別二:面向特定領(lǐng)域的架構(gòu)設(shè)計(jì)應(yīng)用場(chǎng)景越
7、來(lái)越豐富手勢(shì)識(shí)別醫(yī)療診斷自動(dòng)駕駛目標(biāo)定位機(jī)器翻譯語(yǔ)音識(shí)別二:面向特定面向RNN的優(yōu)化CE隱藏CE 輸出CE輸出CE 輸出CE輸出多功能管理單元(TMU)數(shù)據(jù)重用內(nèi)存效率內(nèi)在并行數(shù)據(jù)模式轉(zhuǎn)換激活函數(shù)近似資源利用定制化PE設(shè)計(jì)可擴(kuò)展性相比CPU平臺(tái)(Intel Xeon E5-2630),性能提高16倍,能耗降低60.7倍面向RNN的優(yōu)化CE隱藏CE 輸出CE輸出CE 輸出CE輸出面向LSTM的優(yōu)化藍(lán)色條帶:LSTM中的隱藏結(jié)構(gòu)結(jié)構(gòu)化稀疏LSTM中的隱藏結(jié)構(gòu)下一層權(quán)重xhhWei Wen et al., CEI ICLR,2018優(yōu)化后模型性能提升10.59倍面向LSTM的優(yōu)化藍(lán)色條帶:LSTM中
8、的隱藏結(jié)構(gòu)結(jié)構(gòu)化稀疏L面向GAN的優(yōu)化GANFan Chen et. al, CEI, ASPDAC,2018相比于GPU平臺(tái),性能提升240倍能效提升94倍面向GAN的優(yōu)化GANFan Chen et. al, CE三:“云-終端”平臺(tái)特點(diǎn)不同高安全性低能耗低延遲數(shù)據(jù)采集終端推理終端訓(xùn)練海量數(shù)據(jù)存儲(chǔ)海量數(shù)據(jù)處理云端訓(xùn)練及推斷高并行高帶寬高存儲(chǔ)高時(shí)延傳輸安全性三:“云-終端”平臺(tái)特點(diǎn)不同高安全性數(shù)據(jù)采集海量數(shù)據(jù)存儲(chǔ)高并移動(dòng)平臺(tái)的神經(jīng)網(wǎng)絡(luò)訓(xùn)練分布式訓(xùn)練架構(gòu)傳輸優(yōu)化TernGrad1-Bit Quantization梯度量化:并行性優(yōu)化針對(duì)不同手機(jī)計(jì)算能力的查找表移動(dòng)平臺(tái)的神經(jīng)網(wǎng)絡(luò)訓(xùn)練分布式訓(xùn)練架
9、構(gòu)傳輸優(yōu)化TernGrad移動(dòng)平臺(tái)的神經(jīng)網(wǎng)絡(luò)推斷卷積層優(yōu)化全連接層優(yōu)化卷積層計(jì)算量巨大全連接層參數(shù)巨大系統(tǒng)性能隨節(jié)點(diǎn)數(shù)呈線性提升MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications MoDNN: Local distributed mobile computing system for Deep Neural Network移動(dòng)平臺(tái)的神經(jīng)網(wǎng)絡(luò)推斷卷積層全連接層卷積層全連接層系統(tǒng)性能隨四:芯片設(shè)計(jì)要求高,周期長(zhǎng),成本昂貴/verification-validation-testing-
10、asicsoc-designs-differences/四:芯片設(shè)計(jì)要求高,周期長(zhǎng),成本昂貴https:/anysAI加速EDA設(shè)計(jì)片上系統(tǒng)印刷電路板PCB系統(tǒng)級(jí)封裝DARPA:24小時(shí)無(wú)人值守規(guī)則檢測(cè)熱點(diǎn)Zhiyao Xie et al. CEI, ICCAD 18AI加速EDA設(shè)計(jì)片上系統(tǒng)印刷電路板PCB系統(tǒng)級(jí)封裝DARP架構(gòu)及工藝面臨挑戰(zhàn)架構(gòu)及工藝面臨挑戰(zhàn)摩爾定律放緩摩爾定律放緩憶阻器(memristor)是一種被動(dòng)電子元件,被認(rèn)為是電路的第四種基本元件。憶阻器的特性與神經(jīng)元突觸類似憶阻器單元“三明治” 結(jié)構(gòu)上電極金屬氧化層下電極矩陣乘運(yùn)算新型器件憶阻器交叉開(kāi)關(guān)陣列HP lab, 201
11、2神經(jīng)元突觸神經(jīng)網(wǎng)絡(luò)憶阻器(memristor)是一種被動(dòng)電子元件,被認(rèn)為是電路憶阻器人工智能芯片20152016.022016.052016.102017.02Test keys脈沖憶阻器700 x700 m2脈沖憶阻器3152x3152 m2ML1SL1SL2TestML2BSBMCLF1LF2脈沖憶阻器2520 x2520 m2脈沖憶阻器2520 x2520m2電壓憶阻器2847x2471 m2憶阻器人工智能芯片20152016.022016.05201基于憶阻器的加速芯片CNN加速器圖加速器相比于GPU平臺(tái),性能提升42.5倍能效提升7.17倍相比于GPU平臺(tái),性能提升16.01倍能效
12、提升33.82倍Linghao song et. al, CEI, HPCA,2017Linghao song et. al, CEI, HPCA,2018基于憶阻器的加速芯片CNN加速器圖加速器相比于GPU平臺(tái),相適應(yīng)性(AD)性能(PE)功效(PO)可編程(PR)擴(kuò)展性(SC)通用硬件平臺(tái)P. J. Fox, Tech. Report, 2013 Graf et al, NIPS, 2009 ASICMisra et al, Neurocomputing, 2010 可編程硬件Graf et al, NIPS, 2009 Misra et al, Neurocomputing, 2010
13、基于新型器件的可編程設(shè)計(jì)H. Li, HPEC, 2010 4, DAC, 2015適應(yīng)性(AD)性能(PE)功效(PO)可編程(PR)擴(kuò)展性(NSF IUCRC ASIC CenterMembers include faculty across three research sites:Yiran ChenCenter/Site DirectorHai Helen LiCenter/Site Co-DirectorRobert CalderbankKrish ChakrabartyXin LiMiroslav PajicChaoli WangPatrick J. FlynnYiyu ShiS
14、ite DirectorSharon HuSite Co-DirectorDanny ChenWalter ScheirerMichael NiemierSite Co-DirectorQinru QiuSite DirectorYanzhi WangSite Co-DirectorChilukuri MohanJae OhVir PhohaPramod VashneySenem VelipasalarBei YuBenjamin LeeCenter/Site Co-DirectorIndustry partners:The Alternative Sustainable and Intelligent Comp
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 學(xué)校蒸飯柜管理制度
- 學(xué)生激勵(lì)與管理制度
- 孵化器財(cái)務(wù)管理制度
- 安全穿透式管理制度
- 安檢科獎(jiǎng)懲管理制度
- 官方工作群管理制度
- 實(shí)驗(yàn)高中園管理制度
- 客房質(zhì)檢部管理制度
- 室外吸煙點(diǎn)管理制度
- 應(yīng)屆畢業(yè)生管理制度
- 2024年甘肅省西部計(jì)劃真題
- 2024北京重點(diǎn)校八年級(jí)(下)期末道德與法治匯編:人民當(dāng)家作主章節(jié)綜合
- 保潔員三級(jí)安全教育試題及答案
- CJ/T 189-2007鋼絲網(wǎng)骨架塑料(聚乙烯)復(fù)合管材及管件
- 2025年文物保護(hù)工程師職業(yè)資格考試試題及答案
- 2025年智慧農(nóng)業(yè)與可持續(xù)發(fā)展考試題及答案
- 2025年北京市各區(qū)高三語(yǔ)文二模卷《論語(yǔ)》《紅樓夢(mèng)》試題匯集附答案
- 《ICF康復(fù)工具》課件 - 以ICF為核心的專業(yè)康復(fù)指導(dǎo)手冊(cè)
- 高企財(cái)務(wù)培訓(xùn)課件
- DB36T 2111-2024 柄用芋生產(chǎn)技術(shù)規(guī)程
- 2025年山東省職教高考《數(shù)學(xué)》高頻必練考試題庫(kù)400題(含答案)
評(píng)論
0/150
提交評(píng)論