




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
『弈衡』多模態大模型評測體系白皮書(2024) ...................................................................................................................................................1 ..............................................................................................................3多模態大模型發展現狀 3評測需求 4評測問題與挑戰 5主要評測方式 7典型評測維度 7常見評測指標 81013整體框架 13評測場景 14評測要素 16評測維度 222017年初,GPT-4[1術首次進入公眾視野[2]。GPT-4Vision、Gemini,國內的文心一言、訊飛星火、智譜清言等[3AI中國移動技術能力評測中心作為中國移動的第三方專業評測機構,聯合業界權威機構、 多模態大模型發展現狀行業 領域 應用行業 領域 應用企業應用內容創作與審核領域用于圖片創作、圖片內容理解、圖形合成修改等任務。教育科技領域利用圖文數據為教育領域提供智能化支持。金融風控領域根據簽字等圖像數據輔助金融機構提高決策效率。醫療健康領域利用內置攝像頭進行輔助診斷,協助醫生提高醫療效率。智能制造領域進行缺陷圖片檢測,助力工廠實現智能化生產、降本增效。軟件開發領域根據現有圖形界面,輔助提升開發人員的軟件開發效率。市場分析領域幫助企業洞察市場動態,優化產品、提供更加安全的服務。法律領域用于文書識別等法律相關任務,降低法律服務成本。媒體與娛樂領域為畫師、視頻創作者等相關從業者提供創意靈感,提高創作效率。人力資源領域實現人臉識別等人力資源智能管理功能。客服領域應用于智能客服助手等任務,實現圖形理解,提高客服效率。公共服務領域利用攝像頭等終端識別提高政府服務效率,優化公共資源配置。個人應用旅游領域提供景點照片匹配等個性化的旅行建議和服務。個人金融業務領域用戶人臉識別、收支明細預測等個人金融業務。教育輔導領域針對題目進行智能搜索、解答等教育輔導工作。數據搜索領域實現拍圖識別、搜索等智能搜索功能。圖像修復領域針對老照片、不完整照片等圖像進行智能修復與補全。評測需求創作類任務主要是指通過給定的文字或圖像提示信息進行圖片創作或圖像需著重關注模型的生成質量、內容匹配度、多樣性和創新性等各項指標。評測問題與挑戰首先,圖文大模型的高泛化性對評測任務選取提出挑戰。其次,圖文大模型的高復雜度對評測數據構建提出更高要求。再者,圖文大模型評價結果的客觀性也需要重點考慮。5AI主要評測方式圖文大模型的評測方式主要包括客觀評測和主觀評測兩種。典型評測維度AI模型性能評測是圖文大模型的核心維度,主要評測圖文大模型對圖像和文字的識別能力、模型泛化能力評測模型魯棒性評測模型一致性評測常見評測指標F1BLEUISCLIPPSNRSOACIDErmAPIoUFIDSSIM、RP、碳足跡等[9]。指標 描述準確率Accuracy,計算圖文問答題目中預測結果正確的比例,是最常用的客觀指標F1值F1corPreisioRecll,兼顧圖文大模型預測結果的正確樣本比例和查全比例BLEU評價圖生文的文本質量,比較生成文本與真實答案間的重疊程度IS指標InceptionScore,利用分類模型評測生成圖片的類別確定性和類別多樣性CLIP相似度利用CLIP大模型的文本和圖像編碼器針對圖片中關鍵物體進行質量判定PSNR峰值信噪比,評價圖文大模型生成圖片的像素質量和清晰度SOA衡量生成的圖像中是否符合文本描述中的各對象類別,考察文本類別還原度CIDEr針對圖像描述任務,評價描述結果與人類真實描述間的相似度mAPmeanAveragePrecision,反映圖文問答題目中,預測結果在所有召回率水平下的平均準確率IoUIntersectionoverUnion,衡量圖像中指定物體的預測框與實際邊界框的重合程度FIDFréchetInceptionDistance,用于評估文生圖任務中生成圖像和真實圖像之間的相似性的指標SSIM結構相似度,評價文生圖任務中生成圖片與標準正確圖片之間的相似度RP全稱R-precision,衡量文生圖任務中文本描述和生成圖像之間的視覺語義相似度碳足跡計算模型訓練、推理階段消耗電力的二氧化碳排放量除以上提到的各類常用指標外,部分評測還針對圖文大模型在業務中的實際應用場景,選取更有針對性更能反映業務性能的其他指標,如召回率、多輪對話輪次等。AI實驗室的MMBenchOCRBenchLLaVA-BenchVisIT-BenchSEED-BenchMMBench[10]MMBench20238逐漸rurEBench從三評測方式上,針對當前大模型指令跟隨性不完善的問題,利用ChatGPT進行輔助評測,并將問題選項進行環狀重排,從而更好地反映大模型的真實性能。OCRBench[11]OCRBench是華中科技大學聯合其它機構于20242該體系針對OCR領域的常見任務和典型數據集,對Gemini、GPT-4V等十四個多模態大模型進行了評測。具體來說,OCRBench聚焦于多模態大模型的OCR能力,針對文字識別、、STVQA等二十七個主流開源數據集進行測試驗證。智源評測體系[12]20245的理解和生成能力。在評測數據選取上,該體系選取了COCO、Flickr30k等主流開源數據FID、CLIPScore等常見指標,主觀指標則采取人工打分的形式進行模型評價。LLaVA-Bench[13]LLaVA-Bench20234GPT-4輔助進行評定,綜合評測圖文大模型在室內場景和室外場景下的性能。VisIT-Bench[14]VisIT-Bench是希伯來大學、谷歌等研究團體于2023年8月提出的圖文大模型評測基59270VIT-Bench利用GPT-4SEED-Bench[15]SEED-Bench是騰訊人工智能實驗室于2023年7月提出的多模態大模型評測基準,包19000SEED-Bench采用自通過計算模型對各個人工標注選項的困惑度來獲取模型最佳預測結生成圖像與各人工標注選項之間的CLIP相似度來獲取模型最佳預測結果,再通過最佳預測結果和正確選項計算模型準確率。ConBench[16]ConBench20245從四個高質量的多模態基準數據集中手動1KSeedBenchMMBench和題(判斷題、選擇題與限制性問答題),以及圍繞相同知識點的生成式prompt,評測知 整體框架2-4-6”層級246評測場景務和應用任務兩類。基礎任務任務 描述識別實例識別識別圖像中的特定實例,包括特定對象的存在或類別,評估模型的對象識別能力。實例計數計算圖像中特定對象的數量,理解所有對象并成功計數所引用對象的實例。情緒識別側重于識別和解釋圖像中人臉所表達的情緒,評估模型理解面部表情并將其與相應情緒狀態相關聯的能力。手勢識別根據輸入圖像識別手勢含義,評估模型對人手特征的理解。文字識別回答關于圖像中文本元素的相關問題,考察多模態模型對各種類型文本的識別及上下文理解。理解場景理解強調圖像中的全局信息,需要整體理解來回答有關整個場景的問題。字幕匹配針對圖片,選擇最符合圖片內容的文字描述,考察文字及圖片內容理解。圖像質量分析根據圖片是否模糊、光照是否正常、是否存在遮擋等因素分析圖像質量創作圖像生成根據給定提示生成逼真且視覺連貫的圖像的能力,要求模型理解創建可信圖像所需的視覺元素、關系和組合規則。圖像風格轉換針對文字要求,對指定圖片進行風格變換,要求模型把握圖片內容及風格特點。圖像合成根據文字要求,對多張圖像進行融合后生成新圖像推理代碼編寫理解圖片中代碼內容并回答相關問題,考察模型對代碼的理解和編寫能力。下一張圖像預測根據給定的圖像序列,判斷缺失圖片內容。應用任務任務 描述識別人流量統計對特定區域或場景內的人員數量進行實時統計品牌LOGO識別根據品牌的LOGO圖片進行識別,判斷所屬企業并給出企業的相關信息。垃圾滿溢判斷圖片中的垃圾桶是否存在垃圾桶,以及垃圾桶是否存在滿溢。智慧養殖針對豬、雞等各類家畜進行識別與計數,輔助進行養殖管理。廚師帽檢測對后廚是否有人未正確佩戴廚師帽進行識別,以規范商家衛生安全。外賣員檢測針對各類場景下是否存在外賣員進行檢測,服務于小區安防、外來人員管控等。通信設備識別針對圖片中的各類通信設備進行識別,服務于硬件廠商及運營商等管理人員。道路安全識別對車輛違停、路面塌陷等相關情況進行識別,從而保障交通安全。理解活體檢測根據輸入的真實人臉圖片,以及翻拍、面具、高清屏、3D頭模等偽造活體進行判斷,以檢驗多模態大模型在人臉安全方面的識別能力。人像屬性口罩檢測判斷圖片中是否有人未正確佩戴口罩,檢驗模型對人臉及口罩佩戴的識別能力。推理數學推理針對圖片中描述的圖形、邏輯等數學問題進行回答,檢驗模型對數學圖形和邏輯的理解推導能力。創作藝術創作根據圖文提示進行藝術創作,探索新的藝術風格和表現形式,拓展藝術創作的邊界。游戲角色設計根據圖文輸入提示,輔助或自動化完成游戲角色的設計過程,包括角色的外觀、動作、服飾、武器等等。與基礎任務相比,應用任務場景更加固定,但其難度更大,涉及更高層次的技術能力,可以反映圖文大模型面向具體領域和特定行業場景的泛化能力。評測要素本(zero-shot)、單樣本(one-shot)、少樣本(few-shot)以及提示工程(promptengineering)測試樣本構造方式17],這就要求圖文大模型在零樣本學習的條件下依零樣本任務是指模型在訓練階段完全沒有接觸過測試場景及測試任務相關的圖文數據,模型需要針對全新場景完成預測任務。這類任務設置不需要模型進行針對性調優,直接考察了圖文大模型對新知識的理解和泛化能力,具有極高的應用價值。少樣本:少樣本任務是指圖文大模型在訓練階段可以接觸到少量目標任務的圖文樣本,測試結果判斷方式標進行評測,如準確率、F1mAP、BLEU等,這些指標能夠比對模型預測結果與真實評價各大模型性能。客觀類LOGO(Accuracy)(Precision)(Recall)、CIDEr除準確性外,實時性、連續性等功能指標也是評價圖文大模型的重要維度。其中,實時主觀類數據集構造原則準確性:在構建評測數據時必須確保準確性。題目設計應避免歧義,確保其邏輯嚴密,數據集構造方法為了更加客觀全面地構建評測數據,以真實反映圖文大模型的實際應用能力,“弈衡”數據與模型管理評測流程管理評測任
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 信息處理項目實踐題及答案
- 橋下易燃物火災應急預案(3篇)
- 2025年信息處理技術員備考指南試題及答案
- 機場小型火災應急預案(3篇)
- 班級活動火災應急預案(3篇)
- 2025年游戲開發程序員考試試題及答案
- 涼庫發生火災應急預案(3篇)
- 2025年計算機VB考試課程大綱試題及答案
- 2025年軟考設計師學習資源試題及答案
- 2025年軟考網絡管理員新法試題及答案
- 第6課 我國國家機構(教學設計)2023-2024學年八年級道德與法治下冊同步教學(河北專版)
- 靜脈輸血相關制度及流程
- 統編版初中必背 文言文 古詩文
- DB33T 628.1-2021 交通建設工程工程量清單計價規范 第1部分:公路工程
- 生產安全質量培訓
- 醫院培訓課件:《麻精藥品規范化管理和使用》
- 數列-2020-2024年高考數學試題分類匯編(原卷版)
- 國開電大《商務英語4》單元自測1-8參考答案
- 2024年經濟師考試旅游經濟(中級)專業知識和實務試卷及解答參考
- 《管道用消氣過濾器》
- 初級應急救援員理論考試復習題及答案
評論
0/150
提交評論