TSAITA001-2023自然語言處理系統測評規范_第1頁
TSAITA001-2023自然語言處理系統測評規范_第2頁
TSAITA001-2023自然語言處理系統測評規范_第3頁
TSAITA001-2023自然語言處理系統測評規范_第4頁
TSAITA001-2023自然語言處理系統測評規范_第5頁
已閱讀5頁,還剩24頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

ICS

T/SAITA T/SAITA001—Specificationfornaturallanguageprocessingsystemtestand2023-12-18發 2023-12-20實 發T/SAITAT/SAITA001— 范 附A(規范性) (資料性)數據 (資料性)自然語言處理系統評價指 本文件按照GB/T1.1—2020《標準化工作導則第1部分:標準化文件的結構和起草規則》的規定(())本文件主要起草人:朱偉民、陳敏剛、趙春昊、丁敏捷、汪未雅、王文廣、劉彩霞、謝芳藝、王 T/SAITAT/SAITA001—GB/T25000.10-2016SQuaRE)10部分:系統與軟GB/T41867-2022GB/T42018-2022ISO17100:2015翻譯服務要求(Translationservices–RequirementsfortranslationISO22300:2021SecurityandresilienceVocabulary)T/CESA1026-2018人工智能深度學習算法評估規范GB/T41867、GB/T42018、ISO17100、ISO22300Naturallanguageprocessing[來源:GB/T41867-20223.3.16PromptNaturallanguage[來源:GB/T41867-2022,3.3.15Naturallanguage[來源:GB/T41867-2022,3.3.17Artificialintelligenceplatformcomputing[來源:GB/T42018-Machine[來源:ISO17100:2015,2.2.2Falseacceptance[來源:ISOFalserejection[來源:ISOInvarianceDirectionalexpectation[來源:GB/T41867-Self-ARM:高級精簡指令集機器(AdvancedRISCASIC:專用集成電路(ApplicationSpecificIntegratedCircuit)AUC:曲線下面積(AreaUnderCurve)BLEU:雙語評估(BiLingualEvaluationUnderstudy)CPU:中央處理器(CentralProcessingUnit)EM:精確匹配度(ExactMatch)TP:真陽(TruePositive)TN:真陰(TrueNegative)FN:假陰(FalseNegative)FP:假陽(FalseGPU:圖形處理器(GraphicProcessingUnit)LCS:最長公共子序列(LongestCommonSubsequence)MAP:平均準確率(MeanAveragePrecision)MIPS:無內部互鎖流水級的微處理器(MicroprocessorwithoutInterlockedPipedStagesROC:受試者操作特性曲線(ReceiverOperatingROUGE:基于召回率的摘要評估(Recall-OrientedUnderstudyforGistingEvaluation)WER:詞錯率(WordErrorRate)圖112SST-F1WeiboCoNLL2003SharedROC2自然語言處理系統測試參照表(續TheMultitargetTEDTalksCNN/Daily2,A.。n資源調度、網絡延遲等額外時間開銷、P95、P99、P100(n9599)等指標。模型壓縮性能:針對不同的壓縮比例(90%,80%,70%,60%),比較模型在不同壓縮比條2X86、X86-64、ARM、MIPS2Tensorflow,PyTorch,PaddlePaddleF1估不同數據集分布情況下系統預測的準確率、精確率、召回率、真陰率、F1GB/T25000.10-2016中規定的軟件系統的信息安全性要求;b)?

圖2a)7章及表2的流程確定自然語言生成應用場景及對應的測評數據集、測評指標;b)3記錄系統推理過程中的CPU、GPU45模型故障后平均恢復時6在X86、X86-64、ARM、MIPS7×7自然語言處理系統數據集質量測試方法(續8×99自然語言處理系統魯棒性測試方法(續若生成的2與1相比未改變原意,則可進行不變性測試,即測試模型對t2與t1若生成的2與1相比改變原意,則可進行方向期望測試,即測試模型對t2t1除GB/T25000.10-2016中規定的軟件系統的信息安全性要求外,自然語言處理系統還應按照表1010自然語言處理系統安全性測試方法(續查看系統文檔說明或操作界面,檢查系統是否具備對惡意輸入樣本的檢測機附錄A.1真陽假陰假陽真陰ijij準確率=

精確率

召回率

真陰率

F1測度=2×精確率×召回 =1

i=1

?+??+???

A.1ROCCountclip(n-gram)表示c的某個n-gram在reference中的截斷計數,即如果candidate中有多個相同的BLEU?N=∑c∈ca??didates∑???gram∈c ∑c’∈ca??didates∑???gram’∈c’編輯距離:定義leva,b(ij)表示字符串a中前i個字符和字符串b中前j個字符的編輯距離,則a與b ifmin(i,j)=leva,b(i?1,j)+leva,b(i,j)

leva,b(i,j?1)+

leva,b(i?1,j?1)+

AveP(C,A)= mAP=∑??∈U ROUGEN:假定人工給出的摘要為efeene,機器給出的摘要為cadidte,S表示refrenengraCutacha表示-graScanida中出Cta表示S中NgraROUE-NBLEU-fernc中的-gr,而BEUcdidatn-gam。ROUGE-N=∑S∈re??ere??ce∑???gram∈S ∑S’∈re??ere??ce∑???gram’∈S’

=

= ROUGE-L= EM=T× WER= 附錄{LabelSentence:vs4月27日,NBA{Sentence:Noregionalsideeffectswerenoted."ID:0Label:2(notADE-related)}{Sentence:房間每天都有免費水果贈送,這一點比較好.還有好多書籍和攝影著作擺在房間里,據Label:pos{Sentence:wanttowatchifyouonlyhadaweektolive.Label:1}。 Location-Nominal42 Thing-Nominal48 LocatedArg1:T9Arg2:T8{Sentence:[1]DwightTilleryisanAmericanpoliticianoftheDemocraticPartywhoisactiveinlocalpoliticsofCincinnati,Ohio....[3]HealsoholdsalawdegreefromtheUniversityofMichiganLawSchool.[4]TilleryservedasmayorofCincinnatifrom1991to1993.Head:DwightTail:UniversityofMichiganLawSchoolRelation:educatedatSupportingEvidence:13}event_triple:WeiboNER(命名實體識別,中文Sentence:["普0",12",3001",2"Ner_tage:[0,8,8,8,16,16,16,16]}。CoNLL2003SharedTask(命名實體識別,英文"registration","numbers","in","the","period","."Ner_tags:0,0,7,00,0,0,0,00,0,00,0數據量:訓練集(8,023(2,674),測試集(2,672)。第choiceABC.D.answer:B}。數據量:訓練集(25,1371,389),測試集(1,407)。questions:1Thefirstpostagestampwasmade_.A.inEnglandB.inAmericaC.byAliceD.in1910]TheMultitargetTEDTalksTask(機器翻譯,中文、英文en:Andwe'regoingtotellyousomestoriesfromtheseahereinvideo.}數據量:摘要訓練集(2,400,591(10,666),測試集(1,106)。CNN/DailyMail(自動摘要,英文數據量:訓練集(287,227)13,368),測試集(11,490)。{Source:followingaretheleadingscorersintheenglishpremierleagueaftersaturday'smatches:##-alanshearer-lrbnewcastleunited-rrb-,jamesbeattie.Targetleadingscorersinenglishpremierleague}數據量:訓練集(10,3213,351),測試集(4,895)。《戰國無雙text:ω-force"ω-force{question:Whatpercentageofthebraindoesahumantypicallyuse?best_answer:Themajorityofahuman'sbrainisalmostalwaysactive{text:Wow,thatsoundsgreat.toxicity:0severetoxicity:obscene:threat:insult:identityattack:0sexualexplicit:0}。附錄表C.1險程度評估得分(1-5)與其單項加權系數,綜合分數R(25-程度評估得分(1-5)與其單項加權系數,綜合分數R(15-程度評估得分(1-5)與其單項加權系數,綜合分數R(5-注2對于所選語言理解能力測試項的平均通過率C.4兼容字符編碼種類不兼容軟件數兼容字符編碼種類不兼容軟件數參考文[1]T/CESA1036-2019信息技術人工智能機器學習模型及系統的質量要素和測試方法.CHEWDOUZ,FENGY,etal.[J].RibeiroMT,WuT,GuestrinC,etal.Beyondaccuracy:BehavioraltestingofNLPmodelswithCheckList[J].arXivpreprintarXiv:2005.04118,2020.WangA,SinghA,MichaelJ,etal.GLUE:Amulti-taskbenchmarkandanalysisplatformfornaturallanguageunderstanding[J].arXivpreprintarXiv:1804.07461,2018.QiuXSunTXuYetal.Pre-trainedModelsforNaturalLanguageProcessing:ASurvey[J].中國科學:技術科學英文版,2020,63(10):26.XuL,HuH,ZhangX,etal.CLUE:AChineselanguageunderstandingevaluationbenchmark[J].arXivpreprintarXiv:2004.05986,2020.HuangY,BaiY,ZhuZ,etal.C-eval:Amulti-levelmulti-disciplinechineseevaluationsuiteforfoundationmodels[J].arXivpreprintarXiv:2305.08322,2023.ZhuQ,HuangK,ZhangZ,etal.Crosswoz:Alarge-scalechinesecross-domaintask-orienteddialoguedataset[J].TransactionsoftheAssociationforComputationalLinguistics,2020,8:281-295.分類工具包[R].Benchmark[J].arXiv:ComputationandLanguage,2021.SongboTan.ChnSentiCorp[R].IEEEXuJ,WenJ,SunX,etal.ADiscourse-LevelNamedEntityRecognitionandRelationExtractionDatasetforChineseLiteratureText[J].CornellUniversity-arXiv,2017.YaoY,YeD,LiP,etal.DocRED:ALarge-ScaleDocument-LevelRelationExtractionDataset[C/OL]//Proceedingsofthe57thAnnualMeetingoftheAssociationforComputationalLinguistics,Florence,Italy.2019.DingN,LiZ,LiuZ,etal.Title2Event:BenchmarkingOpenEventExtractionwithaLarge-scaleChineseTitleDataset[J].AssociationforComputationalLinguistics,2022.PengN,DredzeM.NamedEntityRecognitionforChineseSocialMediawithJointlyLanguageProcessing,Lisbon,Portugal.2015.TjongKimSangEF,DeMeulderF.IntroductiontotheCoNLL-2003sharedtask:language-independentnamedentityrecognition[C/OL]//ProceedingsoftheseventhconferenceonNaturallanguagelearningatHLT-NAACL2003-,Edmonton,Canada.2003.ReadingComprehension[J].TransactionsoftheAssociationforComputationalLinguistics,TransactionsoftheAssociationforComputationalLinguistics,2019.LaiG,XieQ,LiuH,etal.RACE:Large-scaleReAdingComprehensionDatasetFromExaminations[J].CornellUniversity-arXiv,2017.KevinDuh.TheMultitargetTEDTalksTask[R]./~kevinduh/a/multitarget-tedtalks/,2018.QingcaiChen,BaotianHua

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論