




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、ARM上的OpenBLAS性能優(yōu)化技術(shù)什么是BLAS?lBasic Linear Algebra Subprogramsl基本線性代數(shù)子程序BLAS3級(jí):矩陣-矩陣BLAS2級(jí):矩陣-向量BLAS1級(jí):向量-向量BLAS與深度學(xué)習(xí)lAlexnetOpenBLASl2011年,forked from Gotoblas2l全球最好的開(kāi)源矩陣計(jì)算庫(kù)l2016 中國(guó)計(jì)算機(jī)學(xué)會(huì)科技進(jìn)步二等獎(jiǎng)l進(jìn)入主流Linux發(fā)行版l進(jìn)入OpenHPC套件OpenBLASl支持主流CPU處理器Intel,AMDARM,AArch64MIPS,龍芯IBM Powerl支持常見(jiàn)操作系統(tǒng)LinuxWindowsMac OSX
2、FreeBSDAndroidOpenBLAS用戶OpenBLAS性能lIntel Sandy BridgeOpenBLAS性能l龍芯3AGEMM算法GEMM算法GEMM算法GEMM算法GEMM算法GEMM算法GEMM算法GEMM算法GEMM算法l核心匯編代碼寄存器分塊指令流水線SIMD,循環(huán)展開(kāi),預(yù)取BLAS性能優(yōu)化流派l自動(dòng)調(diào)優(yōu) Auto- tuningATLAS快速開(kāi)發(fā)和移植性能一般l手工核心匯編GotoBLAS/Ope nBLAS性能好新架構(gòu)?Auto-tuning生存高效代碼?AUGEMlAutomatically Generate Efficient Matrix kernell目標(biāo)
3、:自動(dòng)生成BLAS中高效匯編l支持x86 ISASSE,AVX,AVX 2.0l支持ARMv7 ISANeonAUGEMl輸入類似C代碼片段l輸出高性能匯編l基于模版Template隱含手工優(yōu)化知識(shí)C級(jí)別Kernel優(yōu)化Input simple C code of gemm kernelOutput Optimized C code of gemm kernelTemplate識(shí)別Output Optimized C code of gemm kernelLoad: Load:tmp0 = ptr_A0; tmp1 = ptr_B0;Multiply: tmp2 = tmp0 * tmp1;
4、Add:res0 = res0 + tmp2;Load: tmp0 = Cj*LDC+i; Add:res0 = res0 + tmp0; Store: Cj*LDC+i = res0;Template識(shí)別l預(yù)定義6種Template2組Template優(yōu)化lSIMD向量化mmUnrolledCOMP(ptr_A,0,2,ptr_B,0,2,(res0,res1,res2,res3) mmCOMP(ptr_A,0,ptr_B,0,res0)1.tmp0 = ptr_A0; 2.tmp1 = ptr_B0; 3.tmp2 = tmp0 * tmp1; 4.res0 = res0 + tmp2;m
5、mCOMP(ptr_A,1,ptr_B,0,res1) 1.tmp0 = ptr_A1;2.tmp1 = ptr_B0; 3.tmp2 = tmp1 * tmp1; 4.res1 = res1 + tmp2;mmCOMP(ptr_A,0,ptr_B,1,res2) 1.tmp0 = ptr_A0;2.tmp1 = ptr_B1; 3.tmp2 = tmp0 * tmp1; 4.res2 = res2 + tmp2;mmCOMP(ptr_A,1,ptr_B,1,res3) 1.tmp0 = ptr_A1;2.tmp1 = ptr_B1; 3.tmp2 = tmp0 * tmp1; 4.res3
6、= res3 + tmp2;Vld ptr_A, 0, vec0Vdup ptr_B, 0, vec1Vmul vec0, vec1, vec2Vadd vec2, vec3, vec3Vld ptr_A, 0, vec4Vdup ptr_B, 1, vec5Vmul vec4, vec5, vec6Vadd vec6, vec7, vec7Template優(yōu)化l寄存器分配根據(jù)用途分組ABC中間結(jié)果不考慮寄存器溢出臨時(shí)保存到堆棧 XVld ptr_A, 0, vec0Vdup ptr_B, 0, vec1Vmul vec0, vec1, vec2Vadd vec2, vec3, vec3Vld
7、 ptr_A, 0, vec4Vdup ptr_B, 1, vec5Vmul vec4, vec5, vec6Vadd vec6, vec7, vec7Template優(yōu)化l匯編指令映射Vld ptr_A, 0, reg0Vdup ptr_B, 0, reg1Vmul reg0, reg1, reg2Vadd reg2, reg3, reg3Vld ptr_A, 0, reg4Vdup ptr_B, 1, reg5Vmul reg4, reg5, reg6Vadd reg6, reg7, reg7InstructionsSSEAVXVld array, offset, regVld offse
8、t(array),regVld offset(array),regVst reg, array, offsetVst offset(array),regVst offset(array),regVmul reg0,reg1,reg2Vadd reg2,reg3,reg3Vmov reg1,reg2Vmul reg0,reg1 Vadd reg1,reg3Vmul reg0,reg1,reg2Vadd reg2,reg3,reg3Vld 0(ptr_A), reg0Vdup 0(ptr_B), reg1Vmov reg1,reg2Vmul reg0, reg1Vadd reg1, reg3 6.
9、Vld 0(ptr_A), reg0Vdup 0(ptr_B), reg1Vmul reg0, reg1, reg2Vadd reg2, reg3, reg3 5.匯編生成l將剩余代碼生成匯編循環(huán)控制l保持寄存器分配的一致性引入reg_table全局記錄表Algorithm of Template OptimizerAUGEM性能測(cè)試AUGEM性能測(cè)試lDGEMM on Intel Sandy BridgeAUGEM性能測(cè)試lDGEMM on AMD PiledriverAUGEM性能測(cè)試lDGEMV (BLAS2級(jí))AUGEM性能測(cè)試lDAXPY (BLAS1級(jí))PerfSGEMM on ARMl單精度SGEMMNeon SIMD指令與IEEE 754標(biāo)準(zhǔn)不一致Round mode (Flush to Zero)不影響深度學(xué)習(xí)的精度l AUGEM生成匯編代碼支持ARM特殊指令vmla.f32c, a, bdPerfSGEMM on
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 家牛基因組短串聯(lián)重復(fù)變異研究
- 人教版八年級(jí)上冊(cè)地理知識(shí)復(fù)習(xí)計(jì)劃
- 綠色產(chǎn)品物流服務(wù)合同(2篇)
- 標(biāo)準(zhǔn)化果園環(huán)境下蘋(píng)果智能采收關(guān)鍵技術(shù)研究
- 陜旅版五年級(jí)下冊(cè)英語(yǔ)教學(xué)計(jì)劃家長(zhǎng)溝通指南
- 人教版小學(xué)四年級(jí)上冊(cè)語(yǔ)文復(fù)習(xí)計(jì)劃
- 2025年度人事專員職業(yè)規(guī)劃咨詢計(jì)劃
- 建筑施工安全責(zé)任落實(shí)計(jì)劃
- 在線美術(shù)興趣小組活動(dòng)計(jì)劃
- 重組人腫瘤壞死因子(TNF)項(xiàng)目深度研究分析報(bào)告
- 【綏化】2025年黑龍江綏化市“市委書(shū)記進(jìn)校園”事業(yè)單位引進(jìn)人才287人筆試歷年典型考題及考點(diǎn)剖析附帶答案詳解
- 粉筆協(xié)議班電子合同
- 2025-2030顯微鏡行業(yè)市場(chǎng)深度分析及發(fā)展策略研究報(bào)告
- 張家界2025年張家界市公安局招聘360名警務(wù)輔助人員筆試歷年參考題庫(kù)附帶答案詳解
- 【大數(shù)跨境】2025年保溫杯出海市場(chǎng)洞察報(bào)告
- 《掌握專利申請(qǐng)流程》課件
- 腎內(nèi)科健康科普護(hù)理
- 礦業(yè)技術(shù)服務(wù)合同協(xié)議
- 第1課 中華文明的起源與早期國(guó)家 課件 人教版必修上冊(cè)中外歷史綱要
- 小學(xué)男生生理衛(wèi)生健康教育講座
- 2025-2030中國(guó)核電用鋼行業(yè)市場(chǎng)發(fā)展分析及發(fā)展前景與投資戰(zhàn)略研究報(bào)告
評(píng)論
0/150
提交評(píng)論