




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
ICS35.240CCSL70團(tuán) 體 標(biāo) 準(zhǔn)T/CESA1197—2022人工智能深度合成圖像系統(tǒng)技術(shù)規(guī)范Artificialintelligence—Technicalspecificationfordeepsyntheticimagesystem2022-06-30發(fā)布 2022-06-30實(shí)施中國電子工業(yè)標(biāo)準(zhǔn)化技術(shù)協(xié)會(huì) 發(fā)布T/CESA1197—2022版權(quán)保護(hù)文件IT/CESA1197—2022目??次前言 III范圍 1規(guī)范性引用文件 1術(shù)語和定義 1縮略語 2深度合成圖像系統(tǒng)框架 3深度合成圖像系統(tǒng)技術(shù)要求 4深度合成圖像系統(tǒng)通用要求 4深度合成2D人像系統(tǒng)要求 12深度合成3D人像系統(tǒng)要求 19深度合成人像防偽檢測(cè)性能要求 22深度合成圖像系統(tǒng)測(cè)試評(píng)價(jià)方法 24深度合成圖像系統(tǒng)通用測(cè)試 24深度合成2D人像系統(tǒng)測(cè)試 28深度合成3D人像系統(tǒng)測(cè)試 31深度合成人像防偽檢測(cè)方法 33II鏈 鏈T/CESA1197—2022前??言本文件按照GB/T 《標(biāo)準(zhǔn)化工作導(dǎo)則 第1部分標(biāo)準(zhǔn)化文件的結(jié)構(gòu)和起草規(guī)則的規(guī)定起草。請(qǐng)注意本文件的某些內(nèi)容可能涉及專利。本文件的發(fā)布機(jī)構(gòu)不承擔(dān)識(shí)別專利的責(zé)任。本文件由中國電子技術(shù)標(biāo)準(zhǔn)化研究院提出。本文件由中國電子技術(shù)標(biāo)準(zhǔn)化研究院、中國電子工業(yè)標(biāo)準(zhǔn)化技術(shù)協(xié)會(huì)歸口。(北京(上海III鏈 鏈T/CESA1197—2022人工智能深度合成圖像系統(tǒng)技術(shù)規(guī)范范圍(含視頻本文件適用于深度合成圖像系統(tǒng)的設(shè)計(jì)、開發(fā)、測(cè)試、評(píng)估、管理等。規(guī)范性引用文件(包括所有的修改單適用于本文件。GB/T5271.29—2000信息技術(shù)詞匯第29部分:人工智能語音識(shí)別與合成GB/T21023—2007中文語音識(shí)別系統(tǒng)通用技術(shù)規(guī)范GB/T36464.3—2018信息技術(shù)智能語音交互系統(tǒng)第3部分:智能客服3 術(shù)語和定義GB/T5271.29—2000界定的以及下列術(shù)語和定義適用于本文件。3.1深度合成技術(shù) deepsynthesistechnology注:深度合成技術(shù)應(yīng)用場(chǎng)景包括包括語音合成、人臉再現(xiàn)、全身合成、數(shù)字虛擬人、虛擬現(xiàn)實(shí)等。3.2深度合成圖像系統(tǒng) deepsyntheticimage system采用AI注:深度合成圖像系統(tǒng)的應(yīng)用場(chǎng)景包括AI人像、美顏、換臉、影視動(dòng)畫制作等。3.3圖像生成 imagegeneration從現(xiàn)有數(shù)據(jù)集生成圖像的過程。1鏈 鏈T/CESA1197—20223.4圖像合成 imagecomposition注:圖像生成和圖形合成的區(qū)別,圖像生成負(fù)責(zé)由無到有,圖像合成負(fù)責(zé)從有到優(yōu)。3.5語音合成 speechsynthesis人工語音的生成。[來源:GB/T5271.29—2000,12.01.53]3.6深度合成2D人像 deepsynthesisof2Dportraits基于深度合成技術(shù)生成的二維人像,包括圖像、視頻和語音。3.7深度合成3D人像 deepsynthesisof3Dportraits基于深度合成技術(shù)生成的三維人像,包括圖像、視頻和語音。4 縮略語下列縮略語適用于本文件。AI:人工智能(Artificial Intelligence)API:應(yīng)用程序編程接口(ApplicationProgrammingInterface)DS:深度合成(DeepSynthesis)EAO:平均重疊期望(Expectedaverageoverlap)FID:距離得分(FrechetInceptionDistancescore)GAN:對(duì)抗式生成網(wǎng)絡(luò)(GenerativeAdversarialNetwork)IoU:交并比(IntersectionoverUnion)mAP:平均精確度均值(meanAveragePrecision)MIoU:平均交并比(MeanIntersectionoverUnion)NeRF:神經(jīng)輻射場(chǎng)(NeuralRadianceFields)NLP:自然語言理解(NatureLanguageProcess)PGAN:漸進(jìn)式增長(zhǎng)生成對(duì)抗網(wǎng)絡(luò)(ProgressiveGenerativeAdversarialNetwork)PSNR:峰值信噪比(PeakSignal-to-NoiseRatio)SDK:軟件開發(fā)工具包(SoftwareDevelopmentKit)SSIM:結(jié)構(gòu)相似性(StructuralSimilarityIndexMeasure)StarGAN:星型生成對(duì)抗網(wǎng)絡(luò)(StarGenerativeAdversarialNetwork)StyleGAN:風(fēng)格生成對(duì)抗網(wǎng)絡(luò)(StyleGenerativeAdversarialNetwork)TTS:從文本到語音(TextToSpeech)VAE(VariationalAuto-Encoder)2D:二維(2-Dimensional)3D:三維(3-Dimensional)2鏈 鏈T/CESA1197—20225 深度合成圖像系統(tǒng)框架深度合成圖像系統(tǒng)框架包括AI能力層、管理層和接入層,見圖1。圖圖1 深度合成圖像系統(tǒng)框架圖1中各層組成模塊如下:AI2D/3DNLP2D/3DTTSNLP(真實(shí)性、完整性和原始性。管理層:主要是對(duì)深度合成圖像系統(tǒng)的媒體資源和人像進(jìn)行管理與調(diào)度。媒體資源管理平臺(tái):用以提供視頻超分和老片修復(fù)等功能;NLPNLP接入層:深度合成系統(tǒng)框架主要以三種方式接入目標(biāo)系統(tǒng):API、小程序插件、SDK。API3鏈 鏈T/CESA1197—2022SDK深度合成圖像系統(tǒng)技術(shù)要求深度合成圖像系統(tǒng)通用要求功能圖像生成(生成對(duì)應(yīng)圖像,生成的圖像應(yīng)符合場(chǎng)景要求。圖像合成目標(biāo)檢測(cè)(以方框形式給出目標(biāo)輪廓及其類型,用以分析該圖像是否能與其他圖像的內(nèi)容進(jìn)行融合。目標(biāo)分割目標(biāo)分割功能應(yīng)支持給出圖像中常見物體和特定目標(biāo)的精細(xì)化邊緣(像素級(jí)別區(qū)分度)及其類型,用以分離特定目標(biāo)以及處理融合過程中出現(xiàn)的物體間遮擋的情況,使得融合后圖像更加合理。位置跟蹤圖像和諧化圖像和諧化功能應(yīng)支持調(diào)節(jié)多個(gè)融合部分的亮度、顏色、光線等特征,使得融合后的圖像作為一個(gè)整體的觀感更加自然。圖像修復(fù)圖像缺陷修復(fù)4鏈 鏈T/CESA1197—2022圖像內(nèi)容缺失補(bǔ)全功能圖像內(nèi)容缺失補(bǔ)全功能應(yīng)支持修復(fù)圖像部分內(nèi)容缺失的問題或修復(fù)因去除非必要遮擋而造成的圖圖像顏色缺失補(bǔ)全及修復(fù)對(duì)圖像顏色缺失補(bǔ)全及修復(fù)功能要求如下:圖像增強(qiáng)圖像分辨率提升(目標(biāo)分辨率),并且提升后圖像較提升前具有更豐富的細(xì)節(jié)信息,在視覺觀感的清晰度上有明顯提升。視頻幀率提升視頻幀率提升功能應(yīng)支持將視頻幀率提升至原先的數(shù)倍,即單位時(shí)間內(nèi)的幀數(shù)較提升前有明顯增加,播放時(shí)單幀畫面視覺停留時(shí)間減少,能提升用戶視覺觀感的流暢度。圖像動(dòng)態(tài)范圍擴(kuò)大性能圖像生成場(chǎng)景匹配度5鏈 鏈T/CESA1197—2022表1 場(chǎng)景匹配度主觀評(píng)分規(guī)則評(píng)測(cè)維度描述 得分54321目標(biāo)匹配度生成圖像中的物體與場(chǎng)景要求中物體的匹配程度十分匹配比較匹配基本匹配不匹配十分不匹配主題匹配度生成圖像的主題與場(chǎng)景要求中主題的匹配程度十分匹配比較匹配基本匹配不匹配十分不匹配風(fēng)格匹配度生成圖像的風(fēng)格與場(chǎng)景要求中風(fēng)格的匹配程度十分匹配比較匹配基本匹配不匹配十分不匹配視覺自然度表2 視覺自然度主觀評(píng)分規(guī)則評(píng)測(cè)維度描述 得分54321整體自然度該圖片整體觀感是否自然十分自然比較自然基本自然不太自然十分不自然局部自然度該圖片局部是否有偽紋理完全沒有偽紋理少紋理偽紋理較多偽紋理很多圖像合成目標(biāo)檢測(cè)性能mAP是在不同召回率下的最高精確率的均值(一般會(huì)對(duì)各類別分別計(jì)算各自的AP)。在包含常用類別及特定類別的自定義數(shù)據(jù)集上目標(biāo)檢測(cè)平均精確率均值mAP應(yīng)大于0.5。召回率和精確率定義如下:IOU:真實(shí)框與預(yù)測(cè)框之間交集面積與并集面積的比值;真陽性(TP):正確的檢測(cè),即預(yù)測(cè)的邊界框中分類正確且邊界框坐標(biāo)正確的數(shù)量,檢測(cè)的IOU≥threshold(0.5);是預(yù)測(cè)出的所有邊界框中除去預(yù)測(cè)正確的邊界框,剩下的邊界框的數(shù)量,檢測(cè)的IOU<threshold(一般取0.5);召回率:TP/(TP+FN):模型給出的預(yù)測(cè)結(jié)果最多能覆蓋多少真實(shí)目標(biāo);精確率:TP/(TP+FP):模型給出的所有預(yù)測(cè)結(jié)果中命中真實(shí)目標(biāo)的比例。實(shí)例分割性能MIoU6鏈 鏈T/CESA1197—2022式中:i——真實(shí)值;j——預(yù)測(cè)值;——將i預(yù)測(cè)為j。在包含常用類別及特定類別的自定義數(shù)據(jù)集上實(shí)例分割MIoU應(yīng)大于0.5。目標(biāo)跟蹤EAO考慮一個(gè)用于目標(biāo)追蹤的視頻,其包含幀,待測(cè)試的跟蹤器在此序列的開始處初始化,并一直跟蹤至最后一幀。如果跟蹤器在某幀預(yù)測(cè)的矩形框偏離目標(biāo),則追蹤停止。每一幀的準(zhǔn)確率定義為:式中:——第t幀的真實(shí)框;——跟蹤器對(duì)第t幀的預(yù)測(cè)框。之后進(jìn)行平均,得到該序列上的準(zhǔn)確率 ,在長(zhǎng)度為 的多個(gè)序列上求平均值 ,這樣就得到了跟蹤器在長(zhǎng)度為 序列上的EAO值在自定義視頻數(shù)據(jù)集上位置跟蹤EAO應(yīng)大于0.4。和諧化.4.1 融合視覺合理性表3 融合視覺合理性主觀評(píng)分規(guī)則評(píng)測(cè)維度描述 得分54321融合合理性該圖片內(nèi)容融合是否合理十分合理比較合理基本合理不太合理十分不合理.4.2 融合視覺自然度融合視覺自然度指系統(tǒng)融合得到的圖像或視頻讓用戶視覺上感到自然和諧的程度,該指標(biāo)為主觀性評(píng)估指標(biāo)。考融合視覺自然度主觀評(píng)分規(guī)則見表4。融合視覺自然度應(yīng)達(dá)到讓用戶感到比較自然的程度。7T/CESA1197—2022表4 融合視覺自然度主觀評(píng)分規(guī)則評(píng)測(cè)維度描述 得分54321視頻整體自然度以正常幀率播放融合視頻,判斷視頻自然度十分自然比較自然基本自然不太自然十分不自然圖像整體自然度融合圖片整體觀感是否自然十分自然比較自然基本自然不太自然十分不自然圖像局部自然度融合圖片局部過渡是否自然十分自然比較自然基本自然不太自然十分不自然圖像修復(fù).1.1 PSNR.1.1 PSNR作為待評(píng)測(cè)圖像,3:PSNR(dB)定義為式4:式中:——圖片可能的最大像素值。以上為針對(duì)灰度圖的PNSRRGB三個(gè)通道的PSNR。.1.2 SSIM給定一張正常無缺陷圖像x作為參考圖像,與之相對(duì)應(yīng)的有缺陷圖像y作為待評(píng)測(cè)圖像,SSIM基于x和y之間的三個(gè)比較衡量:亮度(luminance)、對(duì)比度(contrast)和結(jié)構(gòu)(structure)。,,,一般取為x的均值,為y的均值,為x的方差,為y的方差,為x和y的協(xié)方差,為兩個(gè)常數(shù),避免除零,為像素值的范圍,為默認(rèn)值,則8T/CESA1197—2022將設(shè)為1,則得到式5:.1.3 視覺缺陷程度.2 圖像內(nèi)容缺失補(bǔ)全.2.1 量化指標(biāo)PSNR、SSIM.2 圖像內(nèi)容缺失補(bǔ)全.2.1 量化指標(biāo)PSNR、SSIM(如10%~60%)置為全黑,作為內(nèi)容缺失圖像;將內(nèi)容缺失圖像送入系統(tǒng)進(jìn)行圖像內(nèi)容補(bǔ)全,得到補(bǔ)全后圖像。量化指標(biāo)計(jì)算同.1.1 .1.2 中的量化指標(biāo)參考圖像選取為內(nèi)容完整的原圖像,缺陷維度描述 得分54321劃痕對(duì)比劃痕參考圖像評(píng)估圖像的劃痕程度劃痕十分嚴(yán)重劃痕比較嚴(yán)重劃痕程度一般輕微劃痕無劃痕噪聲對(duì)比噪聲參考圖像評(píng)估圖像的噪聲程度噪聲十分嚴(yán)重噪聲比較嚴(yán)重噪聲程度一般輕微噪聲無噪聲橫紋對(duì)比橫紋參考圖像評(píng)估圖像的橫紋程度橫紋十分嚴(yán)重橫紋比較嚴(yán)重橫紋程度一般輕微橫紋無橫紋模糊對(duì)比模糊參考圖像評(píng)估圖像的模糊程度模糊十分嚴(yán)重模糊比較嚴(yán)重模糊程度一般輕微模糊圖像清晰待評(píng)測(cè)圖像選取為經(jīng)系統(tǒng)修復(fù)的補(bǔ)全后圖像。.2.2 視覺自然度2所示。視覺自然度應(yīng)達(dá)到讓用戶感到自然、基本無偽紋理的程度。.3 圖像顏色缺失補(bǔ)全及修.3.1 量化指標(biāo)FIDFID距離是一種用于評(píng)估生成模型(如生成對(duì)抗網(wǎng)絡(luò))生成圖片的度量。其衡量生成圖片的分布和真實(shí)圖片分布之間的差異性。9T/CESA1197—2022FID計(jì)算兩個(gè)多維高斯分布之間的平方Wasserstein距離給定顏色缺失補(bǔ)全后的圖像集合經(jīng)神經(jīng)網(wǎng)絡(luò)提取出來特征的多維高斯分布和真實(shí)彩色圖像集合經(jīng)同一神經(jīng)網(wǎng)絡(luò)得到特征的多維高斯分布,該神經(jīng)網(wǎng)絡(luò)一般是在ImageNet數(shù)據(jù)集上訓(xùn)練的Inceptionv3網(wǎng)絡(luò)。FID具體計(jì)算方式為式5:PSRR、SSIM量化指標(biāo)PSNR和SSIM的計(jì)算同.1.1 PSRR、SSIM量化指標(biāo)PSNR和SSIM的計(jì)算同.1.1 .1.2 中的量化指標(biāo)其中參考圖像選取有正常顏色的原圖像,待評(píng)測(cè)圖像選取為經(jīng)系統(tǒng)補(bǔ)全顏色后的圖像。注:量化指標(biāo)FID、PSNR和SSIM僅適用于圖像顏色缺失補(bǔ)全功能的測(cè)試,不適用于顏色修復(fù)功能的測(cè)試。顏色視覺合理性表6 顏色視覺合理性主觀評(píng)分規(guī)則評(píng)測(cè)維度描述 得分54321顏色語義合理性物體顏色的合理性十分合理比較合理基本合理不太合理十分不合理顏色區(qū)域準(zhǔn)確度顏色填充區(qū)域的準(zhǔn)確度十分準(zhǔn)確比較準(zhǔn)確基本準(zhǔn)確不太準(zhǔn)確十分不準(zhǔn)確.3.4 顏色視覺舒適度表7 顏色視覺舒適度主觀評(píng)分規(guī)則評(píng)測(cè)維度描述 得分54321顏色舒適度畫面顏色的整體舒適度十分舒適比較舒適基本舒適不太舒適十分不舒適10T/CESA1197—2022圖像增強(qiáng)圖像分辨率提升.1.1 量化指標(biāo)PSNR、SSIM(如4k分辨率(如2k分辨率量化指標(biāo)PSNTR和SSIM的計(jì)算同.1.1、.1.2中的量化指標(biāo),其中參考圖像選取為高分辨率的原圖像,待評(píng)測(cè)圖像選取為經(jīng)系統(tǒng)提升分辨率后的圖像。.1.2 視覺清晰度表8 視覺清晰度有參考主觀評(píng)分規(guī)則.1.3 視覺自然度表8 視覺清晰度有參考主觀評(píng)分規(guī)則.1.3 視覺自然度視覺自然度指系統(tǒng)將分辨率提升后讓用戶視覺上感到自然和諧的程度。該指標(biāo)為主觀性評(píng)估指標(biāo)。評(píng)分規(guī)則如.2 表2所示。視覺自然度應(yīng)達(dá)到讓用戶感到比較自然的程度。.2 視頻幀率提升性能.2.1 量化指標(biāo)PSNR、SSIM選取一組高幀率(如120fps)的視頻作為原視頻;將原視頻的幀率進(jìn)行下采樣,得到的低幀率(如30fps)視頻作為待提升幀率的視頻;將待提升幀率的視頻送入系統(tǒng)進(jìn)行幀率提升,得到幀率提升后的視頻。評(píng)測(cè)維度描述 得分54321視覺清晰度該圖片是否清晰十分清晰比較清晰基本清晰不太清晰十分不清晰量化指標(biāo)PSNR和SSIM的計(jì)算同.1.1 .1.2中的量化指標(biāo)其中參考圖像選取為在原視頻中存在,而待提升幀率視頻中不存在的幀,待評(píng)測(cè)圖像選取為經(jīng)系統(tǒng)提升幀率所生成的圖像。視覺流暢度表9 視覺流暢度有參考主觀評(píng)分規(guī)則評(píng)測(cè)維度描述 得分54321視覺流暢度該視頻是否流暢十分流暢比較流暢基本流暢比較卡頓十分卡頓視覺自然度11T/CESA1197—20222所示。視覺自然度應(yīng)達(dá)到讓用戶感到比較自然的程度。.3 圖像動(dòng)態(tài)范圍提升.3.1 量化指標(biāo)PSNR、選取一組高動(dòng)態(tài)范圍(如10bit)的視頻作為原視頻;將原視頻的動(dòng)態(tài)范圍進(jìn)行下采樣,得到的低(如量化指標(biāo)PSNR和SSIM的計(jì)算同.1.1、.1.2中的量化指標(biāo),其中參考圖像選取為原視頻中的圖像,待評(píng)測(cè)圖像選取為經(jīng)系統(tǒng)提升動(dòng)態(tài)范圍所生成的對(duì)應(yīng)圖像。.3.2 視覺豐富度觀性評(píng)估指標(biāo)。視覺豐富度應(yīng)達(dá)到讓用戶感到比較豐富的程度。評(píng)分規(guī)則見表10。表觀性評(píng)估指標(biāo)。視覺豐富度應(yīng)達(dá)到讓用戶感到比較豐富的程度。評(píng)分規(guī)則見表10。表10 視覺豐富度有參考主觀評(píng)分規(guī)則2D功能評(píng)估維度描述 得分54321細(xì)節(jié)請(qǐng)對(duì)比“細(xì)節(jié)參考視頻”評(píng)估視頻的細(xì)節(jié)豐富程度細(xì)節(jié)十分豐富細(xì)節(jié)比較豐富細(xì)節(jié)一般細(xì)節(jié)比較缺少細(xì)節(jié)十分缺少對(duì)比度請(qǐng)對(duì)比“對(duì)比度參考視頻”評(píng)估視頻的對(duì)比度對(duì)比度十分高對(duì)比度較高對(duì)比度一般對(duì)比度較低對(duì)比度十分低色彩豐富度請(qǐng)對(duì)比“色彩參考視頻”評(píng)估視頻的色彩豐富度色彩十分豐富色彩比較豐富色彩一般豐富色彩比較單調(diào)色彩十分單調(diào)感知語音識(shí)別識(shí)別出輸入的語音音頻內(nèi)容,轉(zhuǎn)寫成文本。根據(jù)使用場(chǎng)景,應(yīng)具備:注:語音識(shí)別:參考語音識(shí)別標(biāo)準(zhǔn)GB/T21023-2007。聲紋識(shí)別&聲紋確認(rèn)12T/CESA1197—2022根據(jù)輸入的人聲音頻,辨別人的身份,應(yīng)包括:聲紋識(shí)別能力:從注冊(cè)的聲紋庫中,識(shí)別出輸入的人聲音頻對(duì)應(yīng)的聲紋;聲紋辨別能力:辨別兩段人聲音頻是否屬于同一個(gè)人聲。人臉檢測(cè)追蹤定位單模態(tài)追蹤定位能力:僅根據(jù)視頻文件返回說話人在圖像中的位置坐標(biāo);多模態(tài)追蹤定位能力:根據(jù)視頻及音頻陣列,返回說話人在圖像中的位置坐標(biāo)。面部表情及頭部動(dòng)作識(shí)別面部表情及頭部動(dòng)作識(shí)別手勢(shì)識(shí)別根據(jù)輸入的視頻,返回視頻中人像手勢(shì)的動(dòng)作,手勢(shì)范圍根據(jù)使用場(chǎng)景定義。認(rèn)知自然語言理解(單輪)支持按照廠商擬定的業(yè)務(wù)流程通過單輪對(duì)話方式,完成用戶需求或任務(wù)。.2 自然語言理解(多輪)表達(dá)形象深度合成2D圖像系統(tǒng)的渲染風(fēng)格包括2D卡通風(fēng)格和2D寫實(shí)風(fēng)格,形象表達(dá)功能應(yīng)包括:形象合成:支持人像、配飾、背景等圖像合成;形象編輯:支持人臉、軀干等圖像參數(shù)編輯;形象定制:支持個(gè)性化形象定制。13T/CESA1197—2022語音深度合成2D圖像系統(tǒng)的語音表達(dá)功能應(yīng)包括:語音合成:支持多情感、多語種、多方言、唱歌、變聲等;語音編輯:支持語速、音色、音量、情感、發(fā)音等;語音定制:宜支持定制化語音音頻實(shí)時(shí)轉(zhuǎn)換。動(dòng)作深度合成2D圖像系統(tǒng)的動(dòng)作表達(dá)功能應(yīng)包括:動(dòng)作驅(qū)動(dòng)方式:支持文本、語音、視頻、動(dòng)作捕捉設(shè)備等多種動(dòng)作驅(qū)動(dòng)方式;動(dòng)作驅(qū)動(dòng)范圍:支持披露口型、面部表情、肢體動(dòng)作等動(dòng)作驅(qū)動(dòng)范圍。情感2D2D感知語音識(shí)別指系統(tǒng)對(duì)用戶進(jìn)行語音識(shí)別的性能表現(xiàn)。其性能表現(xiàn)依據(jù)系統(tǒng)中語音識(shí)別用途的不同,分別按照GB/T21023-2007中的5.2.1、5.2.2、5.2.3進(jìn)行評(píng)估。聲紋識(shí)別及聲紋辨別聲紋辨別按照以下指標(biāo)進(jìn)行評(píng)估:錯(cuò)誤拒絕率(FalseRejectionRateFRR):若兩個(gè)樣本為同類(同一個(gè)人),卻被系統(tǒng)誤(非同一個(gè)人FRR錯(cuò)誤接受率(FalseAcceptanceRateFAR(非同一個(gè)人),卻被系統(tǒng)(同一個(gè)人FAR例;等錯(cuò)誤率(EqualErrorRate,EER):調(diào)整閾值,使得誤拒絕率(FalseRejectionRate,F(xiàn)RR)等于誤接受率(FalseAcceptanceRate,F(xiàn)ARFARFRREER;FAR+FRRACC=1–min(FAR+FRR)。人臉檢測(cè)人臉檢測(cè)的評(píng)估分為兩個(gè)步驟:IOUIOUIOU0.5IOUF1追蹤定位14T/CESA1197—2022追蹤定位的評(píng)估方式參考.3中人臉檢測(cè)的評(píng)測(cè)方式,以視頻中的每一幀作為圖像進(jìn)行評(píng)估。面部表情及頭部動(dòng)作識(shí)別Preisin(Real、F1macro-F1以及micro-F1(Precision)(Recall)定義參見.1,其它指標(biāo)定義如式7:式中:
……(公式7)macro-F1——分別計(jì)算每個(gè)類比的precision和recall,以此計(jì)算相應(yīng)的F1,然后再用類別數(shù)平均一下F1,即為macro-F1;micro-F1——以樣本為基本單位,直接計(jì)算全局的precision和recall。手勢(shì)識(shí)別F1macro-F1以及micro-F1,詳細(xì)定義見.5。認(rèn)知性能自然語言處理(單輪)意圖識(shí)別率:指系統(tǒng)在單輪會(huì)話過程中領(lǐng)域意圖槽位的精確識(shí)別能力。精確識(shí)別:領(lǐng)域/意圖識(shí)別正確;參數(shù)/槽位識(shí)別正確;回復(fù)正確。意圖識(shí)別率:精確識(shí)別正確的測(cè)試數(shù)量/總的測(cè)試數(shù)量自然語言理解(多輪)3D人像系統(tǒng)的自然語言理解(多輪)性能依據(jù)具體的用途應(yīng)符合GB/T36464.3—2018中5.6.4的要求。表達(dá)形象.1.1 完好性完好性指系統(tǒng)提供圖像的完好程度。若出現(xiàn)下列情況中任意一種或幾種則視為不完好:——存在嚴(yán)重的扭曲;——存在嚴(yán)重的馬賽克;——其他破損情況。形象舒適度形象舒適度指系統(tǒng)提供的數(shù)字圖像形象讓用戶生理上感到舒適的程度。形象舒適度應(yīng)包括以下信息:形象好感度:3D人像的形象設(shè)計(jì)應(yīng)基本滿足主流用戶需求,用戶基本接受;15T/CESA1197—2022形象自然度:形象語音、動(dòng)作交互自然,整體自然度良好,與目標(biāo)人設(shè)相符;形象使用愿景:形象設(shè)計(jì)應(yīng)考慮用戶的使用愿意,用戶基本愿意使用形象所服務(wù)的業(yè)務(wù)。表11 形象舒適度主觀評(píng)分表評(píng)測(cè)維度描述 得分54321好感度你喜歡該形象嗎?十分喜歡比較喜歡一般不太喜歡十分不喜歡自然度該形象是否自然?十分自然比較自然基本自然不太自然十分不自然使用愿景你愿意使用該形象為你服務(wù)嗎?非常愿意比較愿意一般不太愿意十分不愿意語音.2.1 發(fā)音錯(cuò)誤假設(shè)WN代表文本總字?jǐn)?shù),EN代表發(fā)音錯(cuò)誤句數(shù),N代表文本總句數(shù),PE代表發(fā)音錯(cuò)誤字?jǐn)?shù)(多種發(fā)音錯(cuò)誤字?jǐn)?shù)之和)。則:——發(fā)音字錯(cuò)率:——發(fā)音句錯(cuò)率:——準(zhǔn)確率總分:韻律準(zhǔn)確率假設(shè)N代表總用例數(shù),CN代表停頓正確用例數(shù)。則:——韻律準(zhǔn)確率=(CN/N)*100%語音舒適性16T/CESA1197—2022表12 語音舒適性主觀評(píng)分規(guī)則評(píng)測(cè)維度描述 得分54321語音語調(diào)整體發(fā)音是否標(biāo)準(zhǔn)?十分標(biāo)準(zhǔn)比較標(biāo)準(zhǔn)基本標(biāo)準(zhǔn)個(gè)別標(biāo)準(zhǔn)十分不標(biāo)準(zhǔn)發(fā)音吐字是否清晰?十分清晰比較清晰基本清晰不太清晰十分不清晰斷詞斷句、停頓是否恰當(dāng)?十分恰當(dāng)比較恰當(dāng)基本恰當(dāng)不太恰當(dāng)很不恰當(dāng)語氣語調(diào)是否自然?十分自然比較自然基本自然不太自然十分不自然重讀發(fā)音是否得當(dāng)?十分恰當(dāng)比較恰當(dāng)基本恰當(dāng)不太恰當(dāng)很不恰當(dāng)語速表達(dá)是否恰當(dāng)?十分恰當(dāng)比較恰當(dāng)基本恰當(dāng)不太恰當(dāng)很不恰當(dāng)流暢連貫度語音表達(dá)是否流利?十分自然比較自然基本自然不太自然十分不自然情緒飽滿度按照文本語義和內(nèi)容,情緒表達(dá)是否恰當(dāng)?十分恰當(dāng)比較恰當(dāng)基本恰當(dāng)不太恰當(dāng)很不恰當(dāng)擬人舒適度聲音擬人程度是否和真人一樣?完全無法區(qū)分比較相似,與真人語音有細(xì)微區(qū)別基本相似不太一樣完全不一樣聆聽該聲音時(shí),感受是否愉悅?十分愉悅比較愉悅一般不太愉悅十分不愉悅你愿意使用該聲音為你服務(wù)嗎?十分愿意比較愿意一般不太愿意十分不愿意動(dòng)作.3.1 動(dòng)作契合度動(dòng)作契合度指系統(tǒng)中數(shù)字人動(dòng)作與當(dāng)下語境的契合度。數(shù)字人動(dòng)作類型及其契合度體現(xiàn)見表13所示。17T/CESA1197—2022表13 數(shù)字人動(dòng)作類型及契合度體現(xiàn)序號(hào)動(dòng)作類型契合度體現(xiàn)1嘴唇動(dòng)作(語音或文本自動(dòng)生成嘴唇動(dòng)畫參數(shù)。口型準(zhǔn)確度:?jiǎn)螏瑫r(shí)刻嘴形滿足對(duì)應(yīng)音素的幾何形狀。口型匹配度:?jiǎn)螏瑫r(shí)刻嘴形契合對(duì)應(yīng)音素的時(shí)間節(jié)點(diǎn)。(性)。張嘴和吸唇2眉毛與眼皮動(dòng)作(如);在數(shù)字人說話時(shí),眉毛與眼皮動(dòng)作符合語音的時(shí)序韻律特征。1)涉及眉毛與眼皮的基礎(chǔ)表情動(dòng)作單元包括內(nèi)眉毛上揚(yáng)、內(nèi)眉毛下降和皺眉;2)涉及眼皮的基礎(chǔ)表情動(dòng)作單元包括上眼瞼上揚(yáng)、臉頰提升并眼輪外圈收緊、眼輪內(nèi)圈收緊、閉眼、眨眼和單眼眨眼3眼球動(dòng)作作為生理需求,眼球能自主地模仿真實(shí)人類的眼球旋轉(zhuǎn)。作為語義表達(dá)渠道,眼球動(dòng)作能自主地反映出內(nèi)心狀態(tài)(比如:情緒或意圖)4頭旋轉(zhuǎn)動(dòng)作作為非語義表達(dá)渠道,頭的旋轉(zhuǎn)動(dòng)作能自主地表達(dá)模仿真實(shí)人類的生理動(dòng)作;在數(shù)字人說話時(shí),頭的旋轉(zhuǎn)動(dòng)作符合語音的時(shí)序韻律特征。傾斜、頭右傾斜、頭前傾、頭后仰、頭上下擺動(dòng)、頭左右擺動(dòng)、頭上揚(yáng)再左/右傾5上身肢體動(dòng)作(包括軀干關(guān)節(jié)(旋轉(zhuǎn))動(dòng)作、大臂、小臂和手掌)a)作為韻律節(jié)奏動(dòng)作,在數(shù)字人說話時(shí),上身肢體動(dòng)作符合語音的時(shí)序韻律特征。b)作為指示功能性動(dòng)作,數(shù)字人能自主地通過上身肢體動(dòng)作表達(dá)人物關(guān)系、空間位置、時(shí)間順序、抽象概念等的作用。作為符號(hào)功能性動(dòng)作,數(shù)字人能自主地通過上身肢體動(dòng)作比劃出實(shí)體的屬性或行為,來描繪對(duì)應(yīng)的實(shí)體或動(dòng)作。一個(gè)抽象性的概念。模擬真實(shí)人類進(jìn)行相關(guān)生產(chǎn)生活6下身肢體動(dòng)作(包括大腿、小腿和腳掌)作為平衡功能性動(dòng)作,數(shù)字人能模擬真實(shí)人類下半身肌肉對(duì)抗地球重力,有效且自然地維持身體的平衡。作為位移功能性動(dòng)作,數(shù)字人能模擬真實(shí)人類下半身肢體動(dòng)作(如:走、跑、跳等方式的情緒狀態(tài)(如:不同情緒狀態(tài)下,走路/跑步姿態(tài)略有區(qū)別)7全身動(dòng)作多模態(tài)動(dòng)作協(xié)調(diào)一致,全身(包括嘴唇、眉毛與眼皮、眼球、頭旋轉(zhuǎn)、上身肢體和下身肢體)共同協(xié)作完成表達(dá)功能或履行某種功能.3.2 動(dòng)作舒適性18T/CESA1197—20.4 情感.4 情感表15 情感表達(dá)主觀評(píng)分規(guī)則3D功能評(píng)測(cè)維度描述 得分54321口型自然度口型是否自然?十分自然比較自然基本自然不太自然完全不自然面部表情自然度面部表情是否自然?十分自然比較自然基本自然不太自然十分不自然肢體動(dòng)作自然度肢體動(dòng)作是否自然?十分自然比較自然基本自然不太自然十分不自然評(píng)測(cè)維度描述 得分54321形象匹配度整體情感與形象人設(shè)是否匹配?十分匹配比較匹配基本匹配不太匹配十分不匹配語意匹配度整體情感與當(dāng)前文本或語音是否匹配?十分匹配比較匹配基本匹配不太匹配十分不匹配感知語音識(shí)別3D人像系統(tǒng)的語音交互功能應(yīng)包括:?jiǎn)屋唽?duì)話:支持按照廠商擬定的業(yè)務(wù)流程通過單輪對(duì)話方式,引導(dǎo)用戶完成任務(wù);多輪對(duì)話:支持按照廠商擬定的業(yè)務(wù)流程通過多輪對(duì)話方式,引導(dǎo)用戶完成任務(wù);全雙工語音交互:支持系統(tǒng)與用戶進(jìn)行全雙工語音交互,模擬人與人自然交流方式;視覺識(shí)別3D人像系統(tǒng)宜支持人臉檢測(cè)交互功能,其視覺識(shí)別功能應(yīng)包括:主動(dòng)招攬交互:當(dāng)檢測(cè)到人體時(shí),可主動(dòng)招攬用戶,獲得關(guān)注;19T/CESA1197—2022動(dòng)作表情配置:可通過語義配置系統(tǒng)形象作出對(duì)應(yīng)的動(dòng)作,如揮手,鞠躬等;手勢(shì)交互:當(dāng)檢測(cè)到特定手勢(shì)時(shí),系統(tǒng)可對(duì)應(yīng)語音或動(dòng)作反饋。認(rèn)知自然語言理解3D人像系統(tǒng)的自然語言理解功能應(yīng)包括:內(nèi)容理解:應(yīng)支持簡(jiǎn)稱、別稱、代碼、數(shù)字理解;容錯(cuò)理解:應(yīng)支持對(duì)典型錯(cuò)別詞的容錯(cuò)理解;概念間語義理解:應(yīng)支持概念間語義理解、部分整體關(guān)系理解、地理位置關(guān)系理解、因果關(guān)系理解、時(shí)序關(guān)系理解、近義關(guān)系理解。表達(dá)3D人像系統(tǒng)的渲染風(fēng)格包括3D3D寫實(shí)風(fēng)格與3D3D人像系統(tǒng)的渲染風(fēng)格包括3D3D寫實(shí)風(fēng)格與3D3D3D寫實(shí)系統(tǒng)為用戶提供近似真人比例的渲染形象。3D超寫實(shí)系統(tǒng)為用戶提供嚴(yán)格參照真人比例的渲染形象。語音3D人像系統(tǒng)的語音表達(dá)功能應(yīng)包括:語音合成能力:支持多情感、多語種、多方言、唱歌、變聲等語音合成能力;語音編輯能力:支持語速、音色、音量、情感、發(fā)音等多項(xiàng)語音編輯能力;語音轉(zhuǎn)換能力:宜支持定制化語音音頻實(shí)時(shí)轉(zhuǎn)換的能力。動(dòng)作3D人像系統(tǒng)的動(dòng)作表達(dá)功能應(yīng)包括:動(dòng)作驅(qū)動(dòng)方式:支持文本、語音、視頻、動(dòng)作捕捉設(shè)備等多種動(dòng)作驅(qū)動(dòng)方式;動(dòng)作驅(qū)動(dòng)范圍:支持披露口型、面部表情、肢體動(dòng)作等動(dòng)作驅(qū)動(dòng)范圍。情感3D人像系統(tǒng)的情感表達(dá)功能應(yīng)支持面部情感,包括喜,怒,哀,樂等情感表達(dá)方式。性能感知語音識(shí)別3D人像系統(tǒng)的語音識(shí)別性能應(yīng)依據(jù)具體的語音識(shí)別用途符合GB/T21023-2007中5.4的要求。視覺識(shí)別3D人像系統(tǒng)的人臉檢測(cè)性能應(yīng)符合以下要求:人臉檢出率應(yīng)不低于90%;人臉誤檢率應(yīng)不高于5%。注1:人臉檢出率為人臉檢測(cè)結(jié)果中正確檢測(cè)為人臉圖像的數(shù)量占人臉圖像總數(shù)量的比例。20T/CESA1197—2022注2:人臉誤檢率為人臉檢測(cè)結(jié)果中非人臉圖像數(shù)占檢出圖像總數(shù)的比例。認(rèn)知自然語言理解3D人像系統(tǒng)的自然語言理解性能應(yīng)符合GB/T36464.3—2018中的要求。表達(dá)形象.1.1 完好性3D人像系統(tǒng)中3D人像若出現(xiàn)下列情況中任意一種或幾種則視為不完好。——存在嚴(yán)重的變形;——存在沒焊接的點(diǎn);————存在沒焊接的點(diǎn);——存在破面;——其他破損情況。.1.2 形象舒適3D人像形象舒適度應(yīng)包括以下信息:形象好感度:3D形象自然度:形象語音、動(dòng)作交互自然,整體自然度良好;形象使用愿景:形象設(shè)計(jì)應(yīng)考慮用戶的使用愿意,用戶基本愿意使用形象所服務(wù)的業(yè)務(wù)。精細(xì)度3D人像精細(xì)度應(yīng)包括以下信息:人物模型的面數(shù);人物面部細(xì)節(jié)建模情況,如眼球,晶狀體,睫毛,口腔內(nèi)部結(jié)構(gòu)及毛發(fā)等;人物面部布線結(jié)構(gòu);人物貼圖分辨率;人物身體及服飾綁定層級(jí)和復(fù)雜度;人物身體、面部及服飾的模型點(diǎn)數(shù);人物身體、面部及服飾的骨骼數(shù)量。語音.2.1 發(fā)音準(zhǔn)確率3D人像系統(tǒng)的文本發(fā)音準(zhǔn)確率應(yīng)不低于95%,包括漢字、英文字母、數(shù)字等。韻律準(zhǔn)確率3D人像系統(tǒng)的韻律準(zhǔn)確率應(yīng)不低于90%,包括但不限于標(biāo)點(diǎn)停頓、語氣停頓等。語音舒適性21T/CESA1197—2022系統(tǒng)合成語音應(yīng)讓用戶生理行感到舒適;其中,語音語調(diào)應(yīng)基本標(biāo)準(zhǔn)、表達(dá)自然連貫、情緒比較自然。動(dòng)作.3.1 動(dòng)作契合系統(tǒng)的動(dòng)作應(yīng)與語境基本契合,動(dòng)作契合度類型和指標(biāo)見表16。表16 動(dòng)作契合度類型和指標(biāo)序號(hào)動(dòng)作類型契合度指標(biāo)1嘴唇動(dòng)作(語音或文本自動(dòng)生成嘴唇動(dòng)畫參數(shù)。作為語義表達(dá)渠道,嘴唇動(dòng)作能自主地根據(jù)內(nèi)心表達(dá)需要(比如:情緒或意圖)生成合理的嘴型2眉毛與眼皮動(dòng)作作為非語義表達(dá)渠道,眉毛與眼皮動(dòng)作能自主地展示模仿真實(shí)人類的生理需求(如:眨眼);在系統(tǒng)形象說話時(shí),眉毛與眼皮動(dòng)作符合語音的時(shí)序韻律特征。作為語義表達(dá)渠道,眉毛與眼皮動(dòng)作能自主地展示與內(nèi)心狀態(tài)一致的情緒或意圖3眼球動(dòng)作作為生理需求,眼球能自主地模仿真實(shí)人類的眼球旋轉(zhuǎn)。作為語義表達(dá)渠道,眼球動(dòng)作能自主地反映出內(nèi)心狀態(tài)(比如:情緒或意圖)4頭部動(dòng)作a)作為非語義表達(dá)渠道,頭的旋轉(zhuǎn)動(dòng)作能自主地表達(dá)模仿真實(shí)人類的生理動(dòng)作;在數(shù)字人說話時(shí),頭的旋轉(zhuǎn)動(dòng)作符合語音的時(shí)序韻律特征。作為語義表達(dá)渠道,頭的旋轉(zhuǎn)動(dòng)作能夠自主地表達(dá)符合場(chǎng)景需求的語義信息,比如:點(diǎn)頭和搖頭5上身肢體動(dòng)作a)作為韻律節(jié)奏動(dòng)作,在系統(tǒng)形象說話時(shí),上身肢體動(dòng)作符合語音的時(shí)序韻律特征。b)作為指示功能性動(dòng)作,系統(tǒng)形象能自主地通過上身肢體動(dòng)作表達(dá)人物關(guān)系、空間位置、時(shí)間順序、抽象概念等的作用。為,來描繪對(duì)應(yīng)的實(shí)體或動(dòng)作。作為比喻功能性動(dòng)作, 系統(tǒng)形象能自主地通過上身肢體動(dòng)作構(gòu)建一個(gè)空間來示一個(gè)抽象性的概念。作為操作功能性動(dòng)作,系統(tǒng)形象能自主地通過上身肢體動(dòng)作有效且自然地操作物體,模擬真實(shí)人類進(jìn)行相關(guān)生產(chǎn)生活6下身肢體動(dòng)作自然地維持身體的平衡。作為位移功能性動(dòng)作,系統(tǒng)形象能模擬真實(shí)人類下半身肢體動(dòng)作(如:走、跑、跳等方式的情緒狀態(tài)(如:不同情緒狀態(tài)下,走路/跑步姿態(tài)略有區(qū)別).3.2 動(dòng)作舒適性14。深度合成人像防偽檢測(cè)性能要求檢測(cè)結(jié)果22T/CESA1197—2022真陽性(TP):將合成媒體文件檢測(cè)為合成文件的數(shù)量;真陰性(TN):將真實(shí)媒體文件檢測(cè)為真實(shí)文件的數(shù)量;假陽性(FP):將真實(shí)媒體文件檢測(cè)為合成文件的數(shù)量;假陰性(FN):將合成媒體文件檢測(cè)為真實(shí)文件的數(shù)量。正確率檢測(cè)分類正確的圖像文件占全部輸入圖像文件的比例。計(jì)算公式為式8:…………………(公式8)錯(cuò)誤率檢測(cè)分類錯(cuò)誤的圖像文件占全部輸入圖像文件的比例。計(jì)算公式為式9:…………………..(公式9)召回率正確檢測(cè)出的合成圖像文件占全部正確檢測(cè)文件的比例。計(jì)算公式為式10:………………….(公式10)精確率正確檢測(cè)出的合成圖像文件占全部被檢測(cè)分類為合成圖像文件的比例。計(jì)算公式為式11:……………….(公式11)合成區(qū)域精度預(yù)測(cè)合成區(qū)域與真實(shí)合成區(qū)域之間的交并比。計(jì)算公式為式12:……………………..(公式12)式中:A——預(yù)測(cè)合成的區(qū)域;B——真實(shí)合成的區(qū)域。平均檢測(cè)時(shí)間13:
針對(duì)輸入的多個(gè)媒體文件,統(tǒng)計(jì)每個(gè)文件的檢測(cè)時(shí)長(zhǎng),計(jì)算平均檢測(cè)時(shí)間。計(jì)算公式為式…………..(13)…………….(14)23T/CESA1197—2022式中:——第i條數(shù)據(jù)的檢測(cè)時(shí)間;——i條數(shù)據(jù)輸入結(jié)束的時(shí)間點(diǎn);——i條數(shù)據(jù)輸出檢測(cè)結(jié)果的時(shí)間點(diǎn);N——輸入數(shù)據(jù)的總條數(shù);——測(cè)試集上所有數(shù)據(jù)的平均檢測(cè)時(shí)間。F1衡量二分類模型精確度的一種指標(biāo),是模型精確率和召回率的一種調(diào)和平均。計(jì)算公式為式15:…………(公式15)式中:式中:precision——準(zhǔn)確率;recall——召回率。6.4.9 穩(wěn)定性7天(云端)/3天(嵌入式)后:物理內(nèi)存:應(yīng)平穩(wěn)無明顯增長(zhǎng);虛擬內(nèi)存:應(yīng)平穩(wěn)無明顯增長(zhǎng);CPU占用:應(yīng)平穩(wěn)無明顯增長(zhǎng);句柄數(shù):應(yīng)平穩(wěn)無明顯增長(zhǎng);GPU占用:應(yīng)平穩(wěn)無明顯增長(zhǎng)。7 深度合成圖像系統(tǒng)測(cè)試評(píng)價(jià)方法深度合成圖像系統(tǒng)通用測(cè)試圖像生成性能場(chǎng)景匹配度測(cè)試方法:主要通過技術(shù)測(cè)試的方法進(jìn)行評(píng)估。將系統(tǒng)生成后的圖像統(tǒng)一分配給K(K≥15位測(cè)試人員,依據(jù).1表1進(jìn)行主觀打分,最后取均值。評(píng)價(jià)方法:場(chǎng)景匹配度達(dá)到讓用戶感到比較匹配的程度。視覺自然度指系統(tǒng)生成的圖像讓用戶視覺上感到自然和諧的程度。該指標(biāo)為主觀性評(píng)估指標(biāo)。測(cè)試對(duì)象:系統(tǒng)生成的圖像內(nèi)容;測(cè)試方法:主要通過技術(shù)測(cè)試的方法進(jìn)行評(píng)估。將系統(tǒng)生成后的圖像統(tǒng)一分配給K(K≥15)位測(cè)試人員,依據(jù).22進(jìn)行主觀打分,最后取均值。24T/CESA1197—2022評(píng)價(jià)方法:視覺自然度達(dá)到讓用戶感到比較自然的程度。圖像合成性能目標(biāo)檢測(cè)性能MAP測(cè)試方法:對(duì)數(shù)據(jù)集進(jìn)行標(biāo)注得到其各個(gè)類別物體的真實(shí)框,通過系統(tǒng)預(yù)測(cè)得到預(yù)測(cè)框,按照.1中的方法計(jì)算系統(tǒng)的MAP。實(shí)例分割性能MIoU測(cè)試方法:對(duì)數(shù)據(jù)集進(jìn)行標(biāo)注得到其各個(gè)類別物體的真實(shí)邊緣,通過系統(tǒng)預(yù)測(cè)得到預(yù)測(cè)邊緣,按照.2中的方法計(jì)算系統(tǒng)的MIoU。位置跟蹤性能目標(biāo)的跟蹤結(jié)果,根據(jù).3中的方法計(jì)算系統(tǒng)的EAO值。和諧化性能目標(biāo)的跟蹤結(jié)果,根據(jù).3中的方法計(jì)算系統(tǒng)的EAO值。和諧化性能融合視覺合理性測(cè)試對(duì)象:系統(tǒng)融合不同圖像內(nèi)容后得到的圖像測(cè)試方法:主要通過技術(shù)測(cè)試的方式進(jìn)行評(píng)估。將系統(tǒng)融合后的圖像統(tǒng)一分配給K(K≥15)位測(cè)試人員,依據(jù).4.13進(jìn)行主觀打分,最后取均值作為融合后圖像的合理性得分。評(píng)價(jià)方法:視覺合理性達(dá)到讓用戶感到比較合理的程度。融合視覺自然度測(cè)試對(duì)象:系統(tǒng)融合不同圖像內(nèi)容后得到的圖像測(cè)試方法:主要通過技術(shù)測(cè)試的方式進(jìn)行評(píng)估。將系統(tǒng)融合后的圖像統(tǒng)一分配給K(K≥15)位測(cè)試人員,依據(jù).4.24進(jìn)行主觀打分,最后取均值作為融合后圖像的自然度得分。評(píng)價(jià)方法:視覺自然度達(dá)到讓用戶感到比較自然的程度。7.1.3 圖像修復(fù)性能圖像缺陷修復(fù)PSNR、SSIM根據(jù)..3.1.2提出的計(jì)算方式計(jì)算PSNR和應(yīng)高于指標(biāo)應(yīng)高于0.7。視覺缺陷程度指系統(tǒng)對(duì)圖像修復(fù)前后,用戶判斷缺陷的程度。該指標(biāo)為有參考主觀性評(píng)估指標(biāo)。測(cè)試對(duì)象:深度合成通用圖像系統(tǒng)對(duì)有缺陷圖片修復(fù)前后的圖像。(均準(zhǔn)備一組不同程度(缺陷程度由弱到強(qiáng)劃分為5檔,最弱為無缺陷,最強(qiáng)為缺陷很嚴(yán)重)的缺陷圖像,提供給K(K≥15)位測(cè)試人員作為參考圖像。另提供一組有不同程度、不同缺陷的圖像及其對(duì)應(yīng)的通過系25T/CESA1197—2022統(tǒng)修復(fù)后的圖像,由測(cè)試人員依據(jù).2表5所示評(píng)分標(biāo)準(zhǔn)相互獨(dú)立地對(duì)修復(fù)前后的缺陷程度進(jìn)行有參考主觀打分,最后取平均值作為修復(fù)前后的缺陷程度。圖像內(nèi)容缺失補(bǔ)全性能PSNR、SSIM測(cè)試對(duì)象:系統(tǒng)修復(fù)的補(bǔ)全后圖像。測(cè)試評(píng)價(jià)方法:根據(jù).1.1部分計(jì)算PSNR和SSIM指標(biāo),PSNR應(yīng)高于25dB,SSIM應(yīng)高于0.5。視覺自然度測(cè)試對(duì)象:系統(tǒng)對(duì)內(nèi)容缺失圖像補(bǔ)全后的圖像測(cè)試評(píng)價(jià)方法:主要通過技術(shù)測(cè)試的方式進(jìn)行評(píng)估。將系統(tǒng)補(bǔ)全后的圖像統(tǒng)一分配給K(K≥15)位測(cè)試人員,依據(jù)表2進(jìn)行主觀打分進(jìn)行主觀打分,最后取均值。圖像顏色缺失補(bǔ)全及修復(fù)性能FID、PSNR、SSIM測(cè)試對(duì)象:經(jīng)系統(tǒng)補(bǔ)全顏色后的圖像,其中參考圖像選取為有正常顏色的原圖像。測(cè)試方法:根據(jù).1.1部分計(jì)算PSNR和SSIM指標(biāo),根據(jù).1(a)部分計(jì)算FID指標(biāo),系統(tǒng)補(bǔ)全顏色后的圖像集與imagenet數(shù)據(jù)集的FID應(yīng)低于3,PSNR應(yīng)高于21dB,SSIM應(yīng)高于0.5。顏色視覺合理性測(cè)試對(duì)象:對(duì)不合理顏色進(jìn)行修復(fù)前后的圖像測(cè)試評(píng)價(jià)方法:主要通過技術(shù)測(cè)試的方式進(jìn)行評(píng)估。將系統(tǒng)修復(fù)前后的彩色圖片統(tǒng)一分配給K(K≥15)位測(cè)試人員,依據(jù).3.3表6進(jìn)行主觀打分,最后分別取修復(fù)前后的均值作為修復(fù)前后的得分,修復(fù)后得分減去修復(fù)前得分即為修復(fù)帶來的主觀合理性提升。顏色視覺舒適度測(cè)試對(duì)象:系統(tǒng)對(duì)顏色缺失圖像補(bǔ)全后的圖像。測(cè)試方法:主要通過技術(shù)測(cè)試的方式進(jìn)行評(píng)估。將系統(tǒng)補(bǔ)全顏色后的圖像統(tǒng)一分配給K(K≥15)位測(cè)試人員,依據(jù).3.4表7進(jìn)行主觀打分,最后取均值作為補(bǔ)全后的舒適度得分。測(cè)試對(duì)象:對(duì)不合理顏色進(jìn)行修復(fù)前后的圖像。測(cè)試評(píng)價(jià)方法:將系統(tǒng)修復(fù)前后的彩色圖片統(tǒng)一分配給K(K≥15)位測(cè)試人員,依據(jù).3表7進(jìn)行主觀打分,最后分別取修復(fù)前后的均值作為修復(fù)前后的舒適度得分,修復(fù)后得分減去修復(fù)前得分即為修復(fù)帶來的主觀舒適度提升。圖像增強(qiáng)性能圖像分辨率提升性能PSNR、SSIM測(cè)試對(duì)象:經(jīng)系統(tǒng)提升分辨率后的圖像,其中參考圖像選取為高分辨率的原圖像。26T/CESA1197—2022(如4k分辨率(如2k分辨率.1.1計(jì)算PSNR和SSIMPSNR應(yīng)高于應(yīng)高于0.7。視覺清晰度測(cè)試對(duì)象:深度合成通用圖像系統(tǒng)提升分辨率前后的圖像。.3 視覺自然度測(cè)試對(duì)象:系統(tǒng)對(duì)圖像進(jìn)行分辨率提升后的圖像測(cè)試評(píng)價(jià)方法:由測(cè)試人員依據(jù).2表2相互獨(dú)立地對(duì)提升分辨率后的圖像自然度進(jìn)行有參考主觀打分,最后取平均值作為提升分辨率后的圖像自然度。視頻幀率提升性能PSNR、SSIM(如PSNR應(yīng)高于29dB,SSIM應(yīng)高于0.6。視覺流暢度測(cè)試對(duì)象:深度合成通用圖像系統(tǒng)提升幀率前后的視頻。.3 視覺自然度測(cè)試對(duì)象:系統(tǒng)對(duì)圖像進(jìn)行分辨率提升后的圖像測(cè)試評(píng)價(jià)方法:由測(cè)試人員依據(jù).2表2相互獨(dú)立地對(duì)提升分辨率后的圖像自然度進(jìn)行有參考主觀打分,最后取平均值作為提升分辨率后的圖像自然度。視頻幀率提升性能PSNR、SSIM(如PSNR應(yīng)高于29dB,SSIM應(yīng)高于0.6。視覺流暢度測(cè)試對(duì)象:深度合成通用圖像系統(tǒng)提升幀率前后的視頻。(流暢程度由弱到強(qiáng)劃分為多檔,最弱為十分卡頓,最強(qiáng)為十分流暢,此處以5檔為例)的圖像,提供給K(K≥15)位測(cè)試人9相互獨(dú)立地對(duì)提升幀率前后的流暢程度進(jìn)行有參考主觀打分,最后取平均值作為.3 視覺自然度測(cè)試對(duì)象:系統(tǒng)對(duì)視頻進(jìn)行幀率提升后的視頻2相互獨(dú)立地對(duì)提升幀率前后的自然度進(jìn)行有參27T/CESA1197—2022圖像動(dòng)態(tài)范圍提升性能PSNR、SSIM測(cè)試對(duì)象:經(jīng)系統(tǒng)提升動(dòng)態(tài)范圍所生成的對(duì)應(yīng)圖像,其中參考圖像選取為原視頻中的圖像。測(cè)試評(píng)價(jià)方法:選取一組高動(dòng)態(tài)范圍(如10bit)的視頻作為原視頻;將原視頻的動(dòng)態(tài)范圍進(jìn)行下(如.1.1計(jì)算PSNR和SSIMPSNR應(yīng)高于應(yīng)高于0.6。視覺豐富度測(cè)試對(duì)象:深度合成通用圖像系統(tǒng)提升幀率前后的視頻。一組不同程度(程度由弱到強(qiáng)劃分為多檔,最弱為無缺陷,最強(qiáng)為缺陷很嚴(yán)重,此處以5檔為例)的高動(dòng)態(tài)范圍視頻,提供給K(K一組不同程度(程度由弱到強(qiáng)劃分為多檔,最弱為無缺陷,最強(qiáng)為缺陷很嚴(yán)重,此處以5檔為例)的高動(dòng)態(tài)范圍視頻,提供給K(K≥15)位測(cè)試人員作為參考視頻。另提供一組由系統(tǒng)提升動(dòng)態(tài)范圍前后的視頻,由測(cè)試人員依據(jù).3.210在HDR顯示器上相互獨(dú)立地對(duì)動(dòng)態(tài)范圍提升前后的視覺豐富度進(jìn)2D測(cè)試方法概述針對(duì)2D真人形象類虛擬數(shù)字人應(yīng)用系統(tǒng)的評(píng)估方法包括材料檢查和技術(shù)測(cè)試兩類測(cè)評(píng)方法,具體如下:材料檢查:對(duì)指標(biāo)的說明文檔或證明文檔進(jìn)行查看;技術(shù)測(cè)試:指使用預(yù)定的方法/工具使測(cè)評(píng)對(duì)象產(chǎn)生特定的結(jié)果,將運(yùn)行結(jié)果與預(yù)期的結(jié)果進(jìn)行比對(duì)驗(yàn)證的過程。感知 語音識(shí)別指系統(tǒng)對(duì)用戶進(jìn)行語音識(shí)別的性能表現(xiàn)。其性能表現(xiàn)依據(jù)系統(tǒng)中語音識(shí)別用途的不同,分別按照GB/T21023—2007中的5.2.1、5.2.2、5.2.3進(jìn)行評(píng)估。聲紋識(shí)別及聲紋辨別測(cè)試方法:.2(兩條音頻屬于同一聲紋(兩條音頻不屬于同一聲紋).2人臉檢測(cè)測(cè)試方法:建立人臉評(píng)測(cè)集,取得模型檢測(cè)結(jié)果,分別計(jì)算每張圖片的IOU值,再計(jì)算準(zhǔn)確率、召回率及F1。28T/CESA1197—2022追蹤定位測(cè)試方法:建立視頻或視頻+音頻的評(píng)測(cè)集,取得模型追蹤定位結(jié)果,計(jì)算準(zhǔn)確率、召回率及F1。面部表情及頭部動(dòng)作識(shí)別測(cè)試方法:建立評(píng)測(cè)集,取得模型識(shí)別結(jié)果,計(jì)算精確率、召回率、F1、macro-F1以及micro-F1。手勢(shì)識(shí)別測(cè)試方法:建立評(píng)測(cè)集,取得模型識(shí)別結(jié)果,計(jì)算精確率、召回率、F1、macro-F1以及micro-F1。認(rèn)知自然語言理解(單輪)自然語言理解(多輪)表達(dá)形象完好性測(cè)試對(duì)象:2D真人形象類虛擬數(shù)字人應(yīng)用系統(tǒng)中數(shù)字人的形象完好性。.1.1測(cè)試對(duì)象:2D真人形象類虛擬數(shù)字人應(yīng)用系統(tǒng)中數(shù)字人的形象舒適性。評(píng)價(jià)方法:形象上達(dá)到讓用戶生理上感到舒適的程度。語音發(fā)音準(zhǔn)確率真人形象類虛擬數(shù)字人應(yīng)用系統(tǒng)中數(shù)字人的發(fā)音準(zhǔn)確性。(英文記錄發(fā)音錯(cuò)誤的單詞數(shù)注1:普通文本數(shù)據(jù)是指除了常見字以外,不存在多音字、數(shù)字、符號(hào)、聲調(diào)發(fā)音等特殊情況的文本數(shù)據(jù)。29T/CESA1197—2022注2:特殊文本數(shù)據(jù)是指存在多音字、數(shù)字、符號(hào)、聲調(diào)發(fā)音等特殊情況的文本數(shù)據(jù)。韻律準(zhǔn)確率測(cè)試對(duì)象:2D真人形象類虛擬數(shù)字人應(yīng)用系統(tǒng)中數(shù)字人的韻律準(zhǔn)確性。語音舒適性測(cè)試方法:主要通過技術(shù)測(cè)試的方式進(jìn)行評(píng)估,考察數(shù)字人形象是否滿足.2.3的要求。將系統(tǒng)生成的視頻統(tǒng)一分配給K(K≥15)位有專業(yè)背景知識(shí)的測(cè)試人員,依據(jù)表12進(jìn)行主觀打分,最后取均值。動(dòng)作測(cè)試方法:主要通過技術(shù)測(cè)試的方式進(jìn)行評(píng)估,考察數(shù)字人形象是否滿足.2.3的要求。將系統(tǒng)生成的視頻統(tǒng)一分配給K(K≥15)位有專業(yè)背景知識(shí)的測(cè)試人員,依據(jù)表12進(jìn)行主觀打分,最后取均值。動(dòng)作動(dòng)作契合度指系統(tǒng)中數(shù)字人動(dòng)作與當(dāng)下語境的契合度。該指標(biāo)為主觀性評(píng)估指標(biāo)。測(cè)試對(duì)象:2D真人形象類虛擬數(shù)字人應(yīng)用系統(tǒng)中數(shù)字人的動(dòng)作契合度。測(cè)試方法:主要通過技術(shù)測(cè)試的方式進(jìn)行評(píng)估,考察數(shù)字人形象是否滿足.3.1的要求。將系統(tǒng)生成的視頻統(tǒng)一分配給17評(píng)分規(guī)則對(duì)不同動(dòng)作類型進(jìn)行主觀打分,最后取均值。評(píng)價(jià)方法:動(dòng)作契合度達(dá)到讓用戶生理上感到舒適的程度。表17 動(dòng)作契合度主觀評(píng)分規(guī)則評(píng)測(cè)維度描述 得分54321嘴唇動(dòng)作嘴唇動(dòng)作是否與語音或文本契合?十分契合比較契合一般不太契合十分不契合眉毛與眼皮動(dòng)作眉毛與眼皮的動(dòng)作是否與語音契合?十分契合比較契合一般不太契合十分不契合眼球動(dòng)作眼球動(dòng)作是否自然?能夠自然反應(yīng)語義表達(dá)意圖?十分自然比較自然一般不太自然十分不自然頭部動(dòng)作頭部動(dòng)作是否自然?能夠自然反應(yīng)語義表達(dá)意圖?十分自然比較自然一般不太自然十分不自然上身肢體動(dòng)作上身肢體動(dòng)作能否與語音契合?十分契合比較契合一般不太契合十分不契合下身肢體動(dòng)作下身肢體動(dòng)作能否與語音契合?十分契合比較契合一般不太契合十分不契合.2 動(dòng)作舒適性指系統(tǒng)中的數(shù)字人動(dòng)作讓用戶生理上感到舒適的程度。該指標(biāo)為主觀性評(píng)估指標(biāo)。30T/CESA1197—2022測(cè)試對(duì)象:2D真人形象類虛擬數(shù)字人應(yīng)用系統(tǒng)中數(shù)字人的動(dòng)作舒適性。測(cè)試方法:主要通過技術(shù)測(cè)試的方式進(jìn)行評(píng)估,考察數(shù)字人形象是否滿足.3.2的要求。將系統(tǒng)生成的視頻統(tǒng)一分配給K(K≥15)位有專業(yè)背景知識(shí)的測(cè)試人員,通過參考表14評(píng)分規(guī)則對(duì)舒適度進(jìn)行主觀打分,最后取均值。評(píng)價(jià)方法:動(dòng)作舒適性達(dá)到讓用戶生理上感到舒適的程度。 情感指系統(tǒng)中的數(shù)字人面部表情與當(dāng)前場(chǎng)景的匹配程度。該指標(biāo)為主觀性評(píng)估指標(biāo)。測(cè)試對(duì)象:2D真人形象類虛擬數(shù)字人應(yīng)用系統(tǒng)中數(shù)字人的情感匹配度。測(cè)試方法:主要通過技術(shù)測(cè)試的方式進(jìn)行評(píng)估,考察數(shù)字人形象是否滿足.4的要求。將系統(tǒng)生成的視頻統(tǒng)一分配給K(K≥15)位有專業(yè)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 小學(xué)學(xué)生志愿服務(wù)活動(dòng)計(jì)劃
- 職業(yè)院校勞動(dòng)教育課程設(shè)計(jì)計(jì)劃
- 買賣合同范本-補(bǔ)償貿(mào)易購銷合同5篇
- 規(guī)范勞務(wù)派遣合同6篇
- 無錫市職工勞動(dòng)合同6篇
- 聘用貨車駕駛員合同書8篇
- 商業(yè)房租賃協(xié)議書與商業(yè)技術(shù)保密合同5篇
- 2025年電影劇本委托創(chuàng)作合同6篇
- 砂石料加工合同7篇
- 利害關(guān)系代理合同7篇
- 課題申報(bào)書:大學(xué)中學(xué)融通視域下拔尖創(chuàng)新人才早期培養(yǎng)評(píng)價(jià)標(biāo)準(zhǔn)體系構(gòu)建的實(shí)證研究
- 腦出血臨床管理指南2023課件
- 《初中數(shù)學(xué)家長(zhǎng)會(huì)》課件
- 西安市自來水有限公司招聘筆試沖刺題2025
- 交通出行共享單車管理優(yōu)化策略
- 手術(shù)室外來手術(shù)器械管理
- 員工手冊(cè)-沃爾瑪
- 全球視野下商業(yè)長(zhǎng)期護(hù)理保險(xiǎn)發(fā)展研究報(bào)告-中再壽20241214
- 學(xué)校領(lǐng)導(dǎo)班子素質(zhì)培訓(xùn)計(jì)劃和措施
- 《礦漿管道施工組織設(shè)計(jì)》
- 2024年河北高中學(xué)業(yè)水平合格性考試生物試卷真題(含答案詳解)
評(píng)論
0/150
提交評(píng)論