




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1信息技術人工智能服務器系統性能測試規范本文件規定了人工智能服務器系統,完成深度學習訓練及推理任務的性能(運行時間、能耗、實際吞吐率、能效、效率、彈性、承壓能力等)測試方法。本文件適用于人工智能服務器系統的性能評估。被測系統systemundertest一次測試中,處理測試者給出的測試作業,并返回結果的系統。被測者testedparty一次測試中,籌備、操作被測系統實施測試,并按測試協議的規定享有測試結果使用權的機構或個3.3參考模型referecemmdel用于定義系統測試要求的標準化的模型。3.4計時timing獲取并返回被測系統當前時間戳。2含有專為人工智能計算設計的計算機構,能夠為人工智能應用提供專用加速計算能力的服務器。人工智能服務器集群artificialintelligenceservercluster遵循統一控制的,人工智能計算功能單元的集合。人工智能服務器系統artificialintelligenceserversystem由人工智能服務器及其他必要的計算、存儲設備組成,承擔人工智能運算任務的計算系統。測試數據testdata用于測試最終機器學習模型功能的數據。組織、開展測試的機構或個人。注:測試者使用測試系統實施測試,它向被測系統(3.10)發送作業(3.11),接收輸出,計算性能(3.12)指標。執行測試所使用的硬件、軟件及數據。3T/CESA1169—20213.11作業job注:性能可基于一個或多個參數(如運行時間、能耗、實際吞吐率、能效、效率、彈性、承壓能力等)的測量或計[參考:ISO/IEC20000.10—2018,3.1.16和ISO13372—2012,2.3]4縮略語AUC曲線下面積(AreaUnderCurve)AUTOML自動機器學習(AutomatedMachineLearning)BFLOAT16腦半精度浮點數(BrainFloating-point)FP16半精度浮點數(Half-precisionFloating-pointformat)FP32單精度浮點數(Single-precisionFloating-pointformat)FP64雙精度浮點數(Double-precisionFloating-pointformat)INT44位整型數INT88位整型數4MAP平均準確率均值(MeanAveragePrecision)MIOU平均交并比(MeanIntersectionOverUnion)NFS網絡文件系統OCR光學字符識別(NetworkFileSystem)(OpticalCharacterRecognition)SUT被測系統(SystemUnderTeTF32張量單精度浮點數(TensorFloating-point)UINT44位無符號整型數(4-bitUnsigUINT88位無符號整型數(8-bitUnsignedInteger)5.1封閉模式5.1.1封閉式訓練給定訓練集和目標模型結構、精度,利用受測AI服務器系統,運行建模、優化算法得到目標模型,應符合給定測試集上的準確率門限。51.2封閉式推理給定模型(參考實現)、精度、測試集,利用受測AI服務器系統,運行模型定義的推理過程,輸出推理結果,結果應符合精度及給定測試集上的準確率要求。5.2開放模式5.2.1開放式訓練給定訓練集,利用受測AI服務器系統實施訓練模型,結果模型應符合精度及給定測試集上的準確率5.2.2開放式推理給定測試集,被測者提供已訓練好的模型,利用AI服務器系統,運算輸出推理結果,結果應符合精度及給定測試集上的準確率要求。5.3場景a)通用:針對共性問題,參考或使用公共可獲得的模型和數據集,完成訓練、推理任務;b)專用:針對行業領域問題,使用專用模型和數據集,完成訓練、推理任務;5訓練過程中數據預處理(訓√√√√√√√√√√√√√√√√√√5.4測試信息b)測試ID(用于標識測試);c)是否開放(0-封閉、1-開放);d)是否專用(0-通用、1-專用);e)是否訓練(0-推理、1-訓練);f)模型編號(對封閉模式有效,開放模式為模型名);g)提交時間(格式[yyyy:MM:ddHH:mm:ss]);h)測試對象類型(0-單機、1-集群/計算中心);6i)節點數(當“測試對象類型”不為“0”時有效);j)每節點信息[節點型號、節點標稱計算能力、節點芯片數];1)節點間組織關系(0-單節點、1-主從、2-環形、3-樹狀、4-其他);m)操作系統標識(名稱、內核版本號);In)機器學習框架標識(名稱、版本號);o)是否應用虛擬化技術(0-不使用、1-使用);p)虛擬化組件標識(名稱、版本號);q)批(minibatch)大小(batchsize)可變標識(0-不可變、1-可變);r)批(minibatch)大小的值(正整數,僅當q)為0時有效];s)優化器聲明(算法名);t)是否混合精度訓練(僅對訓練有效,0-不使用、1-使用,附加精度列表);u)是否使用AUTOML完成測試(0-不使用、1-使用,附加AUTOML算法名稱);v)是否使用并行訓練完成測試(0-不使用、1-模型并行、2-數據并行、3-混合并行、4-其他并行算法并附加算法名稱);w)并行訓練時,是否采用異步參數更新[0-不使用(即同步更新)、1-使用];x)是否使用稀疏化(對推理有效,0-不使用、1-使用,附加方法名稱);y)是否使用量化(對推理有效,0-不使用、1-使用,附加量化方法名稱)。6.1測試流程6.1.1基本要求訓練測試過程,應符合以下要求:a)在一次測試中,訓練測試對象包含以下AI服務器系統硬件及配套軟件(不含模型或算法負載):2)AI服務器集群(含云化的AI服務器集群);·被測者于測試前,取得測試集;·如需要,被測者可對數據進行必要的格式轉化或封裝;·被測者按測試內容,編寫并運行必要的訓練代碼(包含數據預處理、數據讀入、訓練、(結果模型格式轉化與持久化),得到結果模型;·訓練期間,記錄過程數據、計算指標值、記錄日志、生成結果數據;3)結果報送:7a)訓練測試,不應實施以下操作:1)在測試過程中進行硬件或軟件改配;2)使用本文件規定之外的訓練集進行模型訓練,也不應實施模型預訓練及遷移學習策略;3)訓練測試過程中,對已實現的指標測量函數或測試流程控制函數實施改動、繼承或重載(要求被測者實現的方法除外);4)在數據準備過程中:·減少數據集中的樣本(封閉模式有效,除不足1batch的殘余數據之外);·除b)2)規定的操作生成的樣本外,增加數據集中的樣本(封閉模式有效);·分析數據規律或預先提取、編碼、保存樣本特征(封閉模式有效);·對數據做排序、索引或拆分操作(封閉模式有效);5)在訓練過程中改變指定的優化方法(封閉模式有效);6)使用AUTOML完成訓練任務時,在整個訓練過程中變更模型變異算法;1)應編制并運行的訓練測試代碼:·使用測試工具提供的日志記錄方法(對工具的要求見6.4);2)數據準備時:·訓練數據尺寸不同或不符合模型需要時,可實施尺寸調整操作;·在不改變輸入圖像(對視覺類場景)像素值的情況下,可實施插值操作,包含但不限于:線性插值、雙線性插值、區域插值等;·訓練集、驗證集、測試集的劃分比例,默認為75%、10%及15%,特殊的劃分應符合表3的規定(封閉模式有效);3)訓練過程中:·試驗次數應符合場景要求(封閉模式見表3,開放模式在測試時統一確定);4)實施基于AUTOML的訓練時:·應按6.1.2b)1)-6.1.2b)3)的要求執行(除6.1.2b)2)中注明為“封閉模式有效”的規定外];·應區分模型結構生成(變異)階段和訓練(針對某一代變異調整模型參數)階段,至少在模型結構生成(變異)過程執行前后、訓練開始前后,分別記錄時點;5)實施分布式訓練時:8T/CESA1169—2021·并行訓練,方式可包含但不限于模型并行、數據并行及混合并行;·可使用分布式文件系統(如NFS)或存儲服務器存放、使用訓練數據。6.1.3訓練結果a)訓練結果模型與參考模型一致,符合以下要求:1)訓練結果模型精度應符合表3及表5的規定;2)封閉模式下,訓練模型腳本與參考腳本(見表3及表5)應定義一致的網絡結構,訓練模型·改變的激勵函數(對應層之間);·改變的池化方法(對應層之間);b)訓練過程應符合6.1.2的規定;2)場景要求的指標值(見表3及表5);3)訓練程序源代碼,符合附錄A的要求;4)訓練日志:·對非AUTOML訓練,日志按每個epoch輸出。每個epoch對應的格式為:“[yyyy:MM:dd出時的時間戳,第二項為訓練次數(正整數),第三項為epoch數(正整數),第四項為當前測試集上的準確率(依照場景要求的指標定義);·對AUTOML訓練,日志按每次模型變異及對應訓練過程輸出。每次模型變異后,輸出變[generation_number]-[number_of_nodes]”。其中,第一項為變異開始時間,第二項為變異完成時間,第三項為變異代次計數,第四項為當前變異結果模型的節點數(對初始化模型的訓練,變異起止時間為空,代次記為0);對變異后模型的訓練,日志按每個epoch輸出,格式符合4中“對非AUTOML訓練”規定;5)結果模型文件(含權重和結構信息;AUTOML訓練,為最終結果模型文件);6)規則檢查結果(對AUTOML訓練,6.1.2中關于AUTOML的規則有效)。6.2場景6.2.1通用測試場景B6.2.1.1封閉測試場景應符合表3的要求,場景說明見附錄B9T/CESA1169—2021分割12111優化方法試驗次數結果模型精度數據集優化方法結果模型精度損失函數試驗次數結果模型精度損失函數優化方法結果模型精度損失函數模型數據集優化方法試驗次數結果模型精度損失函數AI服務器Topl-準確率>75%5Top1-準確率>74%5555AI服務器集群Topl-準確率>75%7Topl-準確率>74%7777T/CESA1169—2021數據集1損失函數2數據集2優化方法損失函數數據集優化方法試驗次數損失函數數據集22損失函數表3通用訓練性能測試場景(封閉)f5f75cn-wiki/en-wiki5WMT18英-德、英-中5dgcn-wiki/en-wiki5T/CESA1169—2021表3通用訓練性能測試場景(封閉)(續)改變數據的值(如圖像像素值),數據格式轉換過程不計時。Np*——ground-truth的標簽;6.2.1.2開放測試場景應符合表4的要求,場景說明見附錄B。表4通用訓練性能測試場景(開放)類型11FP16/FP32·pascalvoc2012推薦1112AI服務器MIOU>85%criteocn-wikiMIOU>85%criteocn-wiki6.2.2專用測試場景6.2.2.1封閉測試場景應符合表5的要求,場景說明見附錄B。表5專用訓練性能測試場景(封閉)AI服務器EAST5LFW5EAST7LFW7T/CESA1169—2021表5專用訓練性能測試場景(封閉)(續)技術要素優化方法試驗次數結果模型精度AI服務器集群797注:表中的“/”符號,表示“或”。訓練數據的格式,沒有嚴格的限定,被測者可以根據本地框架進行格式轉換,格式轉換過程不應改變數據的值(如圖像像素值),數據格式轉換過程不計時。bE表中未確定的模型及數據集,可在具體測試前,由測試者按專用系統的要求統一確定。AST和FaceNet的損失函數的定義與實現分別見[8]和[9]6.2.2.2開放測試場景應符合表6的要求,場景說明見附錄B表6專用訓練性能測試場景(開放)技術要素數據集結果模型精度數據集結果模型精度金融行業測試集LFW金融行業測試集LFW注:表中的“/”符號,表示“或”。訓練數據的格式,沒有嚴格的限定,被測者可以根據本地框架進行格式轉換,格式轉換過程不應改變數據的值(如圖像像素值),數據格式轉換過程不計時。b表中未確定的模型及數據集,可在具體測試前,由測試者按專用系統的要求統一確定。b6.3.1時間時間單位為毫秒(ms)。訓練相關用時及測量方法,應符合表7及圖1的規定:總體訓練用從訓練開始讀入數據,到模型訓練完畢、完成在非電易失性存儲器上的持久化,所使用的總時長a)在讀入訓練數據命令前,緊鄰該命令計時,獲得時間點ts;b)在輸出模型持久化完成后,串行并緊鄰調用計時命令,獲得表7訓練時間測量方法(續)數據讀入用訓練啟動用第j次(j為正整數)驗模型格式轉模型持久化節點間通信為訓練目的,訓練數據被讀入加速器內存(使用通用計算環境、加速器缺少或不配置存儲時,可為主存),達至可用狀態,所使用的時間多加速器訓練時,從訓練開始指令到所有加速器都被分配并開始執行訓練任務所經歷的時長出之間的時間間隔訓練過程第i次遍歷(使用)訓練集所用的時間第j次使用驗證數據集試運行當前模型,得出當前模型準確率等指標值的過程訓練完畢后,將結果模型轉化為要求格式所耗費的時間并完整寫入非電易失性存儲所用的視覺源節點開始發送數據至目標節點完全接收數據的用時測量方法b)在訓練數據讀取完成時,串行并緊鄰調用計時命令,獲得時間點b)在每個加速器進入訓練狀態時,取時間點,直到最后一個加速器a)模型格式轉化前,串行并緊鄰調用計時命令,獲得時間tvi;c)模型持久化用時:Tp=t?-t?c)節點間通信時延Tc=tc?-t注:假設訓練數據已封裝為機器學習框架能夠處理的格式。訓練退出可有多種充分條件。正常結束訓練退出條件,如測試集準確率門限等。訓練任務的用時包含數據預處理用時。d表中受測系統無法統計的時間,不作要求。d數據讀入過程可伴隨訓練同步發生,時間計入訓練用時。久化用時久化用時tsu2twitvig-2…e1102tovltwtvig-2第次1證圖1訓練時間序6.3.2功耗訓練功耗單位為瓦(W)。訓練相關功耗及測量方法,應符合表8的規定:單臺AI服務器在某次訓練單臺AI服務器在某次訓練全程(T)中,服務器各部件處于(接近)滿負載壓力b)空載600s,采樣100次以上,測得時整機的空載平均負載功率c)在訓練用時中(見圖1),周期性測量整機的負載功率,并求d)求得Pπmax=PrMax-PrE2)按單機訓練平均功率測量方法實施,測得每節點i(i為正整數)實際吞吐率代表人工智能服務器系統對特定訓練作業的有效計算能力,提升有效計算能力可達到硬件系統擴容的同樣效果。對視覺類測試,單位為圖片數每秒(images/s),對自然語言處理類測試,單位為句數每秒(sentences/s)。訓練相關實際吞吐率及測量方法,應符合表9的規定:T/CESA1169—2021表9訓練吞吐率測量方法指標AI服務器訓練實際吞吐率AI服務器集群訓練實際吞吐率訓練有效計算能力(AI服務器系統訓練吞吐率綜合加速AI服務器系統在訓練過程中,每個epoch處理的數據量與時間的比值AI服務器系統在給定任務集合S上,實際吞吐率與每任務基線吞吐率之比的加測量方法a)統計每個epochi(i為正整數)所使用的時間Tp(1);b)基于1)的結果,統計每epoch平均Tp;a)在集群每個節點n(n為正整數)上,計算該節點訓練吞吐率Th。;c)計算AI服務器集群訓練綜合相對吞吐率(見上4))a)對于給定的訓練場景集合S,對每個場景負載s∈S,使用某特定參照計算系統,在s上測得吞吐率Ths,作為基線;b)設SUT在s上測得的訓練實際吞吐率為Ths,則訓練綜合相對吞吐ThsThZThZTs注1:如測得場景resnet50_v1.5及bert-large的實際吞吐率Thrn,ThBL,訓練吞吐率綜合加速比可由下式計算:Thg*——resnet50_v1.5對應的基線吞吐率;Thu*——bert-large對應的基線吞吐率;Tpv——resnet50_v1.5對應TBL——bert-large對應的權值。注2:AI服務器系統訓練吞吐率綜合加速比參考[15]。6.3.4資源利用率資源利用率包含加速器利用率,單位為百分率(%)。訓練相關資源利用率及測量方法,應符合表T/CESA1169—2021AI服務器集群表10訓練期間(Tm),服務器上所有指定參與訓練任務的加速芯片的平均利集群上所有指定參與訓練任務的加速芯片的平訓練過程資源利用率測量方法a)在每個epochi內(假設一趟訓練過程有I個epochs),對每個確到0.01);c)對每個epochi,求出多芯片平均利用率(如K=1,本步驟忽略):KK6.3.5能效訓練能效是AI服務器系統在單位時間,消耗單位功耗,消化的訓練數據量,單位為兆字節每秒瓦表11訓練過程能效測量方法指標說明測量方法b)測量每個epoch的平均用時Tp;AI服務器單位時間內消c)計算AI服務器訓練能效:AI服務器訓數據量Epa)算出每臺AI服務器,每epoch的平均功率Pp;(i為正整數)和用時AI服務器集群單位時間Tpp;AI服務器集內消耗單位功耗消化的b)計算AI服務器集群訓練能效a:訓練效率是AI服務器系統訓練得到某模型,其預測準確率與訓練代價的比值,單位為每秒千瓦時[1a)訓練結束時,記錄模型在測試集上的實際準確率(具體指標參見場景列表);b)記錄訓練時長Tπ;TTR*Psa)訓練結束時,記錄模型在測試集上的實際準確率(具體指標參見場景列表);b)記錄訓練時長Tn;TTR*Ps6.4訓練用測試系統要求6.4.1功能要求測試系統符合以下規定,包含但不限于:a)應能自動檢測服務器或接收手動填表的被測系統軟、硬件信息,符合5.4的規定;b)應能使用機器學習框架,AI服務器系統提供的使能軟件函數庫及其他必要信息,完成6.3規定c)應至少能實施6.2.1規定的場景的測試;d)應至少支持以下計算精度中的一種:2)FP32;4)FP16;5)BFLOAT16;T/CESA1169—20216)INT8;7)UNIT8;8)INT4;9)UINT4;e)應支持配置了容器或使用虛擬化組件的AI服務器系統的性能測試;f)測試完成后應能完全卸載,不殘留任何測試組件(不含測試數據);g)應提供日志函數,日志所含內容及格式符合6.1.3c)的規定;h)應支持測試者對測試過程的管理和監測,包含但不限于:1)訓練過程子階段開始或完成事件,包含:2)訓練結果數據,符合6.1.3c)的規定;4)能提供證據輔助測試者實施測試結果的有效性判定,或自動判定;i)在提前獲得測試項目授權后,應支持被測者在測試期內的任意時間發起測試;j)應能在測試者,為不同測試項維護獨立的結果數據目錄;k)應能支持本地測試(測試者不介入的測試,如預測試、系統調試等)及遠程測試(測試者介入)。6.4.2公平性保障要求應提供策略及實現,支持以下公平性保障功能,包含但不限于:a)防止對指標計算函數的修改;b)防止測試時對指標計算函數的替代使用;c)防止在測試結果上傳前對測試結果數據的修改,結果的規定見6.1.3;d)防止在測試開始后,結果上傳完畢之前對測試代碼的修改;e)防止除測試系統外的其他進程向被測者傳輸過程及結果數據;g)測試過程中測試者與被測者通信的加密,信息完整性檢查。7推理過程7.1測試流程推理測試過程,應符合以下規定:2)AI服務器集群(包含云化的AI服務器集群)。b)推理測試過程,包含以下步驟:·被測者按測試內容,載入模型(可預先準備好)和數據集;7.1.2規則1)推理測試源碼:·應實現必要接口(數據準備、輸入、輸出);·不應對已實現的指標測量函數或測試流程控制函數實施改動、繼承或重載(要求被測者實現的函數或接口除外)。·模型編譯、部署時,不應使用其他模型替換測試模型;·測試前,除數據集封裝格式轉化外,不應瀏覽或記錄數據、修改數據(非預處理)、瀏覽數據、拷貝數據,以及分析、提取、緩存數據特征;·測試過程中,不應實施以下操作:以推理測試進程之外的任何進程,修改、記錄日志;以推理測試進程之外的任何進程,存取測試輸入、輸出數據;緩存、復用輸入、輸出及過程(預處理結果、后處理輸入)數據;修改內存中模型參數;保存、緩存后處理過程輸入數據;記錄、分析或使用作業到達模式來預測某時段內的作業量;根據過程b)封閉模式推理時,模型壓縮,不應實施如下操作:2)使用剪枝或其他改變模型結構的方法;3)實施模型蒸餾。c)封閉模式推理時,模型量化,符合以下要求:1)不同場景下量化的模型對象應與表15一致;2)量化結果不應出現6.1.3a)2)列出的情況。d)推理精度應符合7.2.3,7.2.4中按場景的要求;T/CESA1169—2021e)應聲明推理所用批大小的信息,符合5.4的規定。7.1.3推理結果b)推理結果包含如下信息:2)推理作業到達模式序號(見表14);3)推理使用的實際精度;4)場景要求的指標值(具體指標,符合“通用推理性能測試場景(封閉)”表及“專用推理性能測試場景(封閉)”的要求);·第二項為當前累計的準確率(具體指標的選取,符合“通用推理性能測試場景(封閉)”表及“專用推理性能測試場景(封閉)”的要求);·第三項為當前已返回結果的作業數;·第五項為當前未能在超時范圍內處理的樣本數,即丟失樣本數;7)合規性檢查結果。7.2場景7.2.1推理作業a)作業從測試系統發往被測系統,結果從被測系統發送回測試系統;b)每個樣本僅含有推理模塊要求的必要(輸入)參數,不含有額外信息;c)推理作業遵循特定的到達模式,符合7.2.2的要求;d)作業丟失指被測系統無法在超時控制門限內返回結果的情況;e)超時控制門限指測試者從發送作業到收到對應結果之間允許的最大時間間隔。7.2.2作業到達模式推理作業到達模式,應符合表13的定義:T/CESA1169—2021表13推理作業到達模式表02345第i(i為正整數)個作業在第(i-1)個作業完成后P(X=k)=λ(λ為正整數)是單位時間(如每秒)作業平均到個作業/s),短周期內的作業到達,符合固定周期在連續到達、固定周期到達、泊松分布到達、高峰到達、離線到達模式中,加入與當前測試場景不同運行趟數運行趟數2否214是1414是14是是是是117.2.3通用測試場景7.2.3.1封閉測試場景應符合表14的要求,場景說明見附錄B。12Top1-準確率>74%表14通用推理性能測試場景(封閉)(續)111121模型作業到達模式及參數3bGNMTv2BLEU>24%(適用于兩種翻譯)布到達、離線到達、高峰到達7.2.3.2開放測試場景應符合表15的要求,場景說明見附錄B。T/CESA1169—20211111121作業到達模式及作業到達模式及作業到達模式及作業到達模式及作業到達模式及Topl-準確率>75%Topl-準確率>75%連續單一、固定周期到達(500ms)、泊松分布到達(λ=5)、離線到達、高連續單一、固定周期到達(500ms)、泊松分布到達(λ=5)、離線到達、高連續單一、固定周期到達(500ms)、泊松分布到達(λ=5)、離線到達、高連續單一、固定周期到達(500ms)、泊松分布到達(λ=5)、離線到達、高cn-wiki連續單一、固定周期到達(500ms)、泊松分布到達(λ=5)、離線到達、高BLEU>24%(適用于兩種翻譯)連續單一、固定周期到達(500ms)、泊松分布到達(λ=5)、離線到達、高連續單一、固定周期到達(500ms)、泊松分布到達(λ=5)、離線到達、高泊松分布到達(λ=20)、離線到達、泊松分布到達(λ=20)、離線到達、泊松分布到達(λ=20)、離線到達、cn-wiki泊松分布到達(λ=20)、離線到達、泊松分布到達(λ=20)、離線到達、T/CESA1169—20217.2.4專用測試場景7.2.4.1封閉測試場景符合表16的要求,場景說明見附錄B。表16專用推理性能場景(封閉)作業到達模式及參數2作業到達模式及參數金融行業測試集LFW金融行業測試集6泊松分布到達(λ=20)、離線到達、LFW泊松分布到達(λ=20)、離線到達、泊松分布到達(λ=20)、離線到達、推理數據的格式,沒有嚴格的限定,被測者可以根據本地框架進行格式轉換,格式轉換過程不應改變數據的值(如圖像像素值),數據格式轉換過程不計時。作業到達模式及參數AI服務器LFW金融行業測試集泊松分布到達(λ=20),離線到達,LFW泊松分布到達(λ=20),離線到達,推理數據的格式,沒有嚴格的限定,被測者可以根據本地框架進行格式轉換,格式轉換過程不應改變數據的值(如圖像像素值),數據格式轉換過程不計時。7.3.1時間時間單位為毫秒(ms)。說明a推理總延推理總延總延時延時T?延時T&推理延時TiN分派處理延時Tppp測試者發送樣本時間與收到結果時間的差測試者發送樣本時間與被測者收到樣本時被測者發送結果時間與測試者收到結果時被測者收到樣本時間到處理前時間的差被測者對某樣本預處理的開始時間與結束時間的差被測者對某樣本推理的開始時間與結束時被測者對某樣本后處理的開始時間與結束時間的差被測者處理樣本的開始時間與結束時間的差。處理延時約是預處理、推理、后處理時間的總和被測者完整收到樣本的時間與處理結束時推理相關用時及測量方法,應符合表18及圖2的規定:表18推理時間測量方法測量方法a)測試者在發送第1個樣本的第1字節前,緊鄰計時,得到時間點tis;b)測試者在接收到所有樣本的最后1字節后,緊鄰或在最后一個處理超時時間點計時,得到時間點tīt;c)計算得到推理總延時T?=tie-tisa)測試者在發送某樣本第1字節前,緊鄰計時,得到時間點tns;b)測試者在接收完該樣本返回結果的最后1字節后,緊鄰計時,得到時間點t;a)測試者在發送某樣本第1字節前,緊鄰計時,得到時間點tns(tns=tis);b)被測者在收到樣本最后1字節后,緊鄰計時,得到時間點tm;a)被測者在發送結果第1字節前,緊鄰計時,得到時間點tns;b)測試者在收到結果最后1字節后,緊鄰計時,得到時間點tim(tn=tm);a)被測者收到樣本最后1字節后,緊鄰計時,得到時間點tniss;b)被測者開始處理前,緊鄰計時,得到時間點tns;a)被測者對某樣本的預處理開始前,緊鄰計時,得到時間點trps;b)被測者對某樣本的預處理結束后,緊鄰計時,得到時間點tip;a)被測者針對某樣本推理開始前,緊鄰計時,得到時間點tins;b)被測者針對某樣本推理結束后,緊鄰計時,得到時間點tive;a)被測者對某樣本的后處理開始前,緊鄰計時,得到時間點tipos;b)被測者對某樣本的后處理結束后,緊鄰計時,得到時間點tipo;a)被測者對某樣本的處理開始前,緊鄰計時,得到時間點tis(tips=tips);b)被測者對某樣本的處理結束后,緊鄰計時,得到時間點tie(tm=tip);a)被測者收到樣本最后1字節后,緊鄰計時,得到時間點tirs(tnps=tnss);b)被測者對某樣本的處理結束后,緊鄰計時,得到時間點tp(tp=tip);Tor測試者從發送樣本到的最大時間間隔T/CESA1169—2021表18推理時間測量方法(續)b處理時間的計法為:存在預處理時,以預處理開始時間計;如不存在,以推理開始時間計。tour為常量。…樣本IPR推理延時(TW)處理延時(IP)端到端推理時間第1個樣本端到端推理用時分派處理延時(Ipip)第j個樣本端到端推理用時注2:推理的中間結果,可在AI服務器系統內部轉移或拷貝,以便處理。圖2推理時間序7.3.2功耗推理功耗以功率計算,單位為瓦(W)。推理功耗及測量方法,應符合表19的規定:表19推理功耗測量方法AI服務器單機推理平均測量方法測量方法單臺AI服務器在某次推理全程中的平均功率c)求均值AI服務器數據預處理平表表單臺單臺AI服務器在某次推理全程中,數據預處理階段的a)在SUT,配套使用功率計;均功率AI服務器推理峰值功率單臺AI服務器在某次推理全程中,服務器各部件處于(接近)滿負載壓力狀態下的最大瞬時功率a)在SUT,配套使用功率計;b)在數據預處理延時(T)期間,周期性測量整機的負載功率;c)取最大值a)在SUT各節點配套使用功率計;AI服務器集群,在某次推理b)在相同時間點,周期性測量每個節點服務器的負載功率;功率d)求均值7.3.3實際吞吐率實際吞吐率代表人工智能服務器系統對特定推理作業的有效計算能力,提升有效計算能力可達到硬件系統擴容的同樣效果。對視覺類測試,單位是images/s,對自然語言處理類測試,單位是sentences/s。推理相關實際吞吐率及測量方法,應符合表20的規定:表20推理吞吐率測量方法AI服務器系統AI服務器系統在單位時間a)在整個推理測試過程中(T內),累計所有實際發送的樣本,及實率完整處理的樣本數量b)計算其與實際分派處理推理延時總覆蓋時間的比值集合S上,實際吞吐率與每率,作為基線;權幾何平均c)使用表9“AI服務器系統訓練吞吐率綜合加速比”的公式計算率綜合加速比)7.3.4能效T/CESA1169—2021表21推理能效比測量方法測量方法視覺任務能效比自然語言任務能效比語音任務能效比單位為每秒瓦處理的圖像單位為每秒瓦處理的單詞數單位為每秒瓦處理的句數a)被測者在整個推理測試過程中(T內),在每個端到端推理時間內,周期性讀取功率計測量值,求出平均功率P?;b)測試者累計返回結果的任務圖像(幀)數N;c)測試者累計實際分派處理延時總覆蓋時間Tpp;NPa)在整個推理測試過程中(T內),在每個端到端推理時間內,周期性讀取功率計測量值,求出平均功率Pr;b)累計返回結果的單詞數W;c)累計實際分派處理延時總覆蓋時間Tnp;WPa)在整個推理測試過程中(T?內),在每個端到端推理時間內,周期性讀取功率計測量值,求出平均功率P?;b)累計返回結果的句子數S;c)累計實際分派處理延時總覆蓋時間Tpp;d)計算語音任務能效比SP行業任務能效比按視覺、自然語言任務能效參考本表中視覺任務能效比及自然語言任務能效比7.3.5效率推理效率是AI服務器系統完成推理任務與代價的比值,單位為每秒千瓦時[1/(s·kWh)]。推理效率及測量方法,應符合表22的規定:AI服務器推理AI服務器實際推理準確率3與推理能耗的比值a)b)表22推理效率測量方法測量方法推理結束時,記錄模型在測試集上的實際準確率(具體指標參見場景列表);記錄實際分派處理延時總覆蓋時間Tpp;準確率指標值TDlpXPsTE1169-2021AI服務器推理說明測量方法f)記錄實際分派處理延時總覆蓋時間Tmp;AI服務器實際推理準確率?與推AI服務器實際推理準確率?與推當準確率指標(設值為a,a≥0且a≤1)為負向指標(如WER)時,則以(1-a)計。7.3.6彈性推理彈性單位是百分率每兆字節(%/MB)。推理彈性指標及測量方法,應符合表23的規定:表23推理彈性測量方法指標說明測量方法b)被測者記錄,每單位時間內,收到的樣本數據總量及對應的最大AI服務器系統(T-max;EL=N7.3.7承壓力推理承壓力的單位為兆字節每秒(MB/s)。推理承壓力指標及測量方法,應符合表24的定義:表24推理承壓力測量方法AI服務器或集群推理承壓力被測AI服務器系統在并發壓力門AI服務器或集群推理承壓力T/CESA1169—2021b)被測者周期性獲取并發度,記錄其大7.3.8視頻分析最大路數視頻分析最大路數,單位是“路”,指標及測量方法,應符合表25的定義:表25推理視頻分析最大路數測量方法指標說明測量方法說明用解碼器(軟件或硬件實現);初始值為1,每個作業含有1幀(1個圖像樣本);被測AI服務器系統,在給定響應超能承受的最大路數f能承受的最大路數Td)如被測系統能按表13規定的超時門限輸出處理結果,則將n的值調整為(n+1);定的超時門限返回處理結果為止,則視頻分析7.4推理用測試系統要求7.4.1功能要求a)應能自動檢測服務器或接收手動填表的被測系統軟、硬件信息,符合5.4的要求;b)應符合7.2.2要求的模式發生推理作業;c)應能接收推理結果并為完成計算指標實現必要的功能,包含:2)作業超時(丟失)率門限檢查;d)應能使用機器學習框架,AI服務器系統提供的使能軟件函數庫及其他必要信息,完成7.3規定e)應至少能實施7.2.3規定的場景的測試;f)應支持數據類型,符合6.4.ld)的規定;g)應支持配置了容器或使用虛擬化組件的AI服務器系統的性能測試;h)測試完成后應能完全卸載,不殘留任何測試組件(不含測試數據);i)應提供日志函數,日志所含內容及格式符合7.1.3b)6)的規定;j)應支持測試者對測試過程的管理和監測,包含但不限于:1)推理過程子階段的開始或完成事件,包含:2)推理結果數據,符合7.1.3b)的規定;3)測試者對重測的允許及次數控制;4)能提供證據輔助測試者實施測試結果的有效性判定,或自動判定;k)在提前獲得測試項目授權后,應支持被測者在測試期內的任意時間發起測試;l)應能在測試者,為不同測試項維護獨立的結果數據目錄;m)應能支持本地測試(測試者不介入的測試,如預測試、系統調試等)及遠程測試(測試者介入)。7.4.2公平性保障要求應提供策略及實現,包含但不限于6.4.2規定的項目。其中,對推理結果的要求符合7.1.3b)。T/CESA1169—2021附錄A(規范性)A.1通則1)公開條件檢查:測試者確認測試結果有效性,應符合6.1.3及7.1.3的規定;2)公開協議檢查:代碼公開前,按協議檢查并實施公開事項。未簽署協議的,按本文件的規注:測試者與被測者宜在測試前或測試后簽訂的代碼公開協議。3)代碼公開:公布于測試者與被測者商定的場所或網絡媒體;4)結束公開:在規定的公開周期后,結束公開,原公開場所、媒體上,代碼將不可訪問。代碼結束公開時,代碼公開協議即告結束。1)測試代碼可向測試者及組織成員公開。具備合法訪問權限時,組織、成員應能瀏覽、下載;2)被測者不負責向測試者及組織成員之外的機構、團體、企業及個人解釋、講解代碼原理或3)已達成協議的不公開部分,不應公開;4)測試代碼公開,可不包含:——被測者私有的工具源碼(如模型格式轉
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 桉樹種植基地投資合作購銷合同書
- 商場治安防范管理制度
- 團隊應該怎樣管理制度
- 城鎮道路保潔管理制度
- 小學學生論文
- 二胎車展活動方案
- 云南酒會活動策劃方案
- 云龍燒烤活動策劃方案
- 五一企業聯誼活動方案
- 五一去青島活動方案
- 農村網格化管理制度
- 公交站牌制作合同協議書
- 旅行社之間旅游合作合同范本
- 湖南省岳陽市湘陰縣長侖四校2024-2025學年下學期 5月聯考八年級數學試題
- 2025年中考語文7-9年級上冊必背課文【現代文+古詩文】66篇(打印版)
- 鄉鎮養老院建設年度工作規劃
- 2025年中國煤炭裝備制造行業分析與發展策略咨詢報告(定制版)
- 2025-2030年中國微電網行業市場深度調研及發展前景與投資研究報告
- 2025山東濟南先行投資集團有限責任公司及權屬公司社會招聘169人筆試參考題庫附帶答案詳解
- 項目總工面試試題及答案
- 聯創合伙人協議合同協議
評論
0/150
提交評論