




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
大語言模型綜合能力測評報告20231研究方法說明桌面研究通過對行業(yè)公開信息進(jìn)行桌面研究,資料包括但不限于專業(yè)機(jī)構(gòu)研究報告、相關(guān)廠商產(chǎn)品介紹、相關(guān)專家公開演講內(nèi)容等。
專家訪談InfoQ研究中心針對本次研究定向邀請了國內(nèi)外的相關(guān)專家進(jìn)行訪談。
InfoQ分析結(jié)合桌面研究和專家訪談進(jìn)行觀點沉淀和交流,并經(jīng)由報告形式對外展示。2目錄CONTENTS
大模型發(fā)展背景大模型產(chǎn)品特征和核心能力大模型產(chǎn)品測評結(jié)果和特征33大模型產(chǎn)品未來發(fā)展展望44大模型發(fā)展背景大語言模型發(fā)展經(jīng)過三階段在2023年進(jìn)入爆發(fā)階段大語言模型發(fā)展經(jīng)過三階段在2023年進(jìn)入爆發(fā)階段PAGE5PAGE5大語言模型誕生階段2017的Transformer神經(jīng)網(wǎng)絡(luò)架構(gòu)2018pnAI發(fā)布GT1
大語言模型探索階段2019OpenAI發(fā)布GPT-2并部分開源谷歌推出BERT模型2020ERNINE2.02021OpenAI的DALL-E模型FaceBook推出CLIP模型華為正式發(fā)布盤古大模型OpenAI推出Codex
大語言模型爆發(fā)階段2022OpenAIChatGPT-3.52023微軟基于ChatGPT發(fā)布NewBingacoo發(fā)布aMA3B谷歌發(fā)布Bard以應(yīng)對ChatGPT復(fù)旦團(tuán)隊發(fā)布MOSSOpenAI發(fā)布GPT-4并實現(xiàn)圖像識別百度文心一言發(fā)布微軟宣布將GPT-4接入Office全家桶通義千問、盤古NLP、天工3.5、星火等國產(chǎn)大模型陸續(xù)發(fā)布谷歌更新Bard并推出PaLM2模型微軟宣布Windows系統(tǒng)全方位集成Copilot國內(nèi)外廠商齊發(fā)力,大語言模型產(chǎn)業(yè)規(guī)模可觀國內(nèi)外廠商齊發(fā)力,大語言模型產(chǎn)業(yè)規(guī)??捎^PAGE6PAGE6LaMDA國 PaLM外
T5Flan
GopherChinchillaGato
基礎(chǔ)模型LLaMAMMSOPT-175BLIMA-65B
GPT-4DALL·E2CodeX
BloomT0BloomZ
StableStableLM
ChatBotBardBingChat
其他應(yīng)用AICedilleAICopilotDolly2.0 Jurassic-1基礎(chǔ)模型
GPT-J6BChatBot
Claude其他應(yīng)用
ColabCopilot悟道文心國內(nèi) 通義盤古天河天元大模型
二郎神源1.0言犀星火
孟子日日新 從混元玉言自研大模型
ChatJD
斜杠WPSAIMathGPT雪湖·
序列猴子子曰曹植知?圖大語言模型研發(fā)的關(guān)鍵影響要素大語言模型研發(fā)的關(guān)鍵影響要素PAGE7PAGE7大語言模型產(chǎn)品研發(fā)需要同時具備三大要素,分別為數(shù)據(jù)資源要素、算法和模型要素、資金和資源要素。InfoQ研究中心分析目前市場中的產(chǎn)品特征,數(shù)據(jù)資源、資金和資源兩要素為大模型研發(fā)的基礎(chǔ)要素,即必要不充分要素。雖然數(shù)據(jù)、資金資源為大語言模型研發(fā)設(shè)置了高門檻,但對于實力雄厚的大型企業(yè)仍然是挑戰(zhàn)較小的。算法和模型是目前區(qū)分大語言模型研發(fā)能力的核心要素。算法和模型影響的的模型豐富度、模型準(zhǔn)確性、能力涌現(xiàn)等都成為評價大語言模型優(yōu)劣的核心指標(biāo)。算法和模型模型訓(xùn)練的形式涌現(xiàn)出的思維鏈基于人類反饋的學(xué)習(xí)模型數(shù)據(jù)資源模型參數(shù)規(guī)模訓(xùn)練模型次數(shù)
基礎(chǔ)要素
核心要素
基礎(chǔ)要素
資金和資源頂級開發(fā)者構(gòu)建的大規(guī)模研發(fā)團(tuán)隊GPU背后的大規(guī)模資金投入大語言模型訓(xùn)練之需要足夠“大”大語言模型訓(xùn)練之需要足夠“大”PAGE8PAGE8百億參數(shù)是入場券GPT-3和LaMDA的數(shù)據(jù)顯示,在模型參數(shù)規(guī)模不超過100億-680億時,大模型的很多能力(如計算能力)幾乎為零。大量計算觸發(fā)煉丹機(jī)制根據(jù)NVIDIA研究論文里的附錄章節(jié)顯示,一次迭代的計算量約為4.5ExaFLOPS,而完整訓(xùn)練需要9500次迭代,完整訓(xùn)練的計算量即為430ZettaFLOPS(相當(dāng)于單片A100跑43.3年的計算量)。常見的數(shù)據(jù)集包括GSM8k、USSE、MMLU、HumanEval等。
O1.模型參數(shù)規(guī)模O2.模型計算量O3.訓(xùn)練使用數(shù)據(jù)集
特別是任務(wù)所訓(xùn)練的模型適用于更多以前未經(jīng)訓(xùn)練的任務(wù)。涌現(xiàn)對大型模型應(yīng)用的影響非常重要,只有通過這種能力,我們才能高效地實現(xiàn)模型的泛化,并實現(xiàn)模型的遷移。數(shù)據(jù)來源:SparksofArtificialGeneralIntelligenceEarlyexperimentswithGPT-4大模型訓(xùn)練參數(shù)規(guī)模量級最高或達(dá)5萬億以上大模型訓(xùn)練參數(shù)規(guī)模量級最高或達(dá)5萬億以上PAGE9PAGE9國際模型參數(shù)規(guī)模GPT-4(OpenAI)國際模型參數(shù)規(guī)模GPT-4(OpenAI)未公開,推測為超過5000億PaLM(Google)5400億BERT(Google)4810億GPT-3.5(OpenAI) 1750億LaMDA(Google)1370億Galatica(Meta)1200億LLaMA-65B(Meta)650億AnthropicLMv4-s3(Anthropic)520億Mineva(Google)5400億MegatronTuringNLG(Microsoft&NVIDIA)5300億Gopher(DeepMind)2800億百度研發(fā)的Ernie和華為研發(fā)的盤古目前是有數(shù)據(jù)的國內(nèi)大模型參數(shù)規(guī)模的領(lǐng)先者國內(nèi)模型參數(shù)規(guī)模>100億國內(nèi)模型參數(shù)規(guī)模>100億ERNIE3.0(百度)盤古(華為)MOSS(復(fù)旦大學(xué))通義(阿里)言犀(京東)混元(騰訊)伏羲(網(wǎng)易)源1.0(浪潮信息)行業(yè)精靈(云從科技)八卦爐(達(dá)摩院)元語大模型(莫塔社區(qū))曹植大模型(達(dá)觀數(shù)據(jù))紫東太初(中科院自動化研究所)自研大模型(西湖心辰)悟道2.0(智源研究院)國內(nèi)未公布參數(shù)規(guī)模自研大模型(字節(jié))國內(nèi)未公布參數(shù)規(guī)模自研大模型(字節(jié))1+N認(rèn)知智能大模型(科大訊飛)二郎神模型(IDEA研究院)自研AI大模型(光年之外)自研大模型(燧原科技)超擬人大模型(聆心智能)自研大模型(香依科技)魔力寫作(竹間智能)自研大模型(MiniMax)蛋白質(zhì)大模型(際科創(chuàng)中心)國內(nèi)模型參數(shù)規(guī)模<100億書生3.5(商湯科技)孟子(瀾舟科技)毫末智行)資料來源:民生證券研究院和wiki百科算法和訓(xùn)練模型水平主導(dǎo)大語言模型的能力表現(xiàn)算法和訓(xùn)練模型水平主導(dǎo)大語言模型的能力表現(xiàn)PAGE10PAGE10模型訓(xùn)練技術(shù)(舉例)Prompt-tuning
Chainof
HumanFeedback使用自然語言提示(prompt)的方法,以指導(dǎo)模型生成特定的輸出。這種方法的目的是通過對模型進(jìn)行定向訓(xùn)練,使其在特定任務(wù)上表現(xiàn)出更好的性能。
通過為模型提供任務(wù)相關(guān)的指令來指導(dǎo)模型學(xué)習(xí)的方法。這種方法的目的是使模型更好地理解任務(wù)的要求,并提高其生成能力和上下文理解能力。
通過分解訓(xùn)練過程為較小的相互關(guān)聯(lián)的任務(wù)來訓(xùn)練模型的方法。這種方法的目的是使模型能夠理解和維護(hù)文本中的思維鏈,從而生成連貫的、上下文相關(guān)的響應(yīng)。
幫助模型進(jìn)行強(qiáng)化學(xué)習(xí)的訓(xùn)練。這種方法可以在預(yù)訓(xùn)練模型和產(chǎn)品投入市場后持續(xù)獲得反饋,幫助模型增強(qiáng)判斷力。訓(xùn)練方式工程化
訓(xùn)練方式直接決定大模型產(chǎn)出的效率,根據(jù)已經(jīng)公開的論文解讀,現(xiàn)有優(yōu)秀模型訓(xùn)練方式呈現(xiàn)高度工程化特征。工程化訓(xùn)練方式主要呈現(xiàn)三個特征:1、詳細(xì)而嚴(yán)格的規(guī)則:對于如何處理數(shù)據(jù)和什么是高質(zhì)量數(shù)據(jù)等給出詳細(xì)和嚴(yán)格的執(zhí)行和判斷的方法論;2、明確定義標(biāo)注意圖:如詳細(xì)說明標(biāo)注原因,并要求如果標(biāo)注人員不能完全理解,則迅速跳出流程;基礎(chǔ)模型3、團(tuán)隊培訓(xùn)和考核機(jī)制完善:通過李克特評分等方式,持續(xù)保證團(tuán)隊處在目標(biāo)水準(zhǔn)以上。基礎(chǔ)模型自研閉源元模型 自研開源元模型在開源模型基礎(chǔ)上微調(diào)的模型自研閉源元模型自研開源元模型在開源模型基礎(chǔ)上微調(diào)的模型自研閉源元模型:典型代表包括OpenAI的GPT3.5、GPT4等,國內(nèi)廠商百度的原模型ERNIE3.0、華為的元模型PanGu-Σ等。自研開源元模型:典型代表包括OpenAI的GPT2、Google的BERT等。在開源模型基礎(chǔ)上微調(diào)的模型:典型代表包括清華大學(xué)的ChatGLM-6B、商湯科技和華中科技大學(xué)開源中文語言模型駱駝Luotuo等。人才和資本都對大語言模型提出了高密度的要求人才和資本都對大語言模型提出了高密度的要求高密度人才團(tuán)隊 高密度資本加持人工智能領(lǐng)域中自然語言處理、機(jī)?學(xué)習(xí)等領(lǐng)域目前均為對開發(fā)者要求最高的技術(shù)領(lǐng)域之一,需要開發(fā)者擁有優(yōu)秀的教育背景和前沿技術(shù)背景。另外,對于團(tuán)隊磨合、經(jīng)驗等要求均較為嚴(yán)格。從目前公布的部分大模型研發(fā)團(tuán)隊背景可以看出,團(tuán)隊成員均來自國際頂級高?;驌碛许敿壙蒲薪?jīng)驗。根據(jù)谷歌披露數(shù)據(jù),訓(xùn)練參數(shù)規(guī)模1750億的大模型,理想訓(xùn)練費用人工智能領(lǐng)域中自然語言處理、機(jī)?學(xué)習(xí)等領(lǐng)域目前均為對開發(fā)者要求最高的技術(shù)領(lǐng)域之一,需要開發(fā)者擁有優(yōu)秀的教育背景和前沿技術(shù)背景。另外,對于團(tuán)隊磨合、經(jīng)驗等要求均較為嚴(yán)格。從目前公布的部分大模型研發(fā)團(tuán)隊背景可以看出,團(tuán)隊成員均來自國際頂級高校或擁有頂級科研經(jīng)驗。根據(jù)谷歌披露數(shù)據(jù),訓(xùn)練參數(shù)規(guī)模1750億的大模型,理想訓(xùn)練費用超過900萬美元。類似的,計算服務(wù)為了實現(xiàn)覆蓋的產(chǎn)品和功能范圍的廣度,要求云服務(wù)提供商持續(xù)進(jìn)行產(chǎn)品功能更新和產(chǎn)品矩陣建設(shè)來滿足用戶多元需求,Amazon和Google持續(xù)進(jìn)行大額資本投入以完善產(chǎn)品能力。2022年Amazon和Google的資本性支出分別達(dá)583億美元和315億美元,并仍然呈現(xiàn)上漲趨勢。111212大模型產(chǎn)品核心能力解讀大語言模型的發(fā)展帶來了大規(guī)模技術(shù)革命的希望大語言模型的發(fā)展帶來了大規(guī)模技術(shù)革命的希望PAGE13PAGE13行動&解決方案大語言模型將計算機(jī)能力從搜索拓展到認(rèn)知&學(xué)習(xí)和行動&解決方案層面行動&解決方案搜索搜索在大語言模型驚艷世人以前,技術(shù)及為人類提供的能力主要集中在信息的檢索搜集層面。無論是搜索引擎還是電商娛樂,都在幫助人類在接近零成本的條件下獲取無限量信息。
認(rèn)知&學(xué)習(xí)學(xué)習(xí)能力的拓展。語言模型擁有了很多方面接近于人類認(rèn)知的能力。而在涌現(xiàn)能力的加持下,大語言模型也逐漸擁有了更為準(zhǔn)確的邏輯推理能力,這一能力體現(xiàn)為人類的學(xué)習(xí)能力。
隨著大語言模型在涌現(xiàn)能力中的不斷升級,未來計算機(jī)將有極大可能在行動和解決方案層面擁有人類能力或者超越人類能力。大語言模型呈現(xiàn)核心能力金字塔結(jié)構(gòu)大語言模型呈現(xiàn)核心能力金字塔結(jié)構(gòu)PAGE14PAGE14大語言模型進(jìn)階能力03 更為進(jìn)階的理解力
人類情感理解和識別 其他高階能力進(jìn)階能力02 邏輯推理能力
編程能力 數(shù)學(xué) 醫(yī)學(xué) 法律核心能力01 認(rèn)知和學(xué)習(xí)能力
概念抽象
文字理解
視覺識別1515大模型產(chǎn)品測評結(jié)果和特征大語言模型綜合評價維度大語言模型綜合評價維度PAGE16PAGE16標(biāo)號權(quán)重一級分類二級分類具體任務(wù)測試方法題目類型170%語言模型的準(zhǔn)確性語義理解語言理解能力-詞句級古詩文識記、中文分詞、中文分詞和詞性標(biāo)注、命名實體識別、實體關(guān)系抽取知識題、歷史題、詞句理解題語言理解能力-篇章級閱讀理解、故事情節(jié)完形填空、幽默檢測知識題、商業(yè)寫作題、文學(xué)題、幽默題、中文特色寫作題語言理解能力-數(shù)據(jù)級語言抽象成表格商務(wù)制表題語法結(jié)構(gòu)根據(jù)給定條件,生成連貫文本摘要生成、數(shù)據(jù)到文本生成應(yīng)用寫作題、商務(wù)寫作題、中文特色寫作題給出主題,生成連貫文本制作多種類型的文案商業(yè)寫作題知識問答知識問答知識題、歷史題知識誤導(dǎo)知識題邏輯推理抽象給定應(yīng)用場景,執(zhí)行數(shù)學(xué)計算任務(wù)數(shù)值計算數(shù)學(xué)題、商務(wù)制表題非數(shù)學(xué)邏輯推理MBA邏輯題邏輯推理題、編程類代碼能力編程題上下文理解陌生概念的新詞理解幽默題知識題、中文特色推理題語境感知通過語境推測身份商務(wù)應(yīng)用題商務(wù)應(yīng)用寫作題多語言能力完成涉及多種語言任務(wù)機(jī)?翻譯、跨語言摘要翻譯題多模態(tài)能力文生圖等多模態(tài)問題多模態(tài)問題標(biāo)號權(quán)重一級分類二級分類具體任務(wù)測試方法題目類型210%數(shù)據(jù)基礎(chǔ)專家訪談315%模型和算法的能力專家訪談45%安全和隱私安全性不會被惡意利用問題測試安全問題隱私性不會泄露用戶的個人隱私信息問題測試隱私問題本次測評選取的大模型產(chǎn)品及使用版本使用版本
gpt-3.5-turbo Claude-instant
vicuna-13B國內(nèi)產(chǎn)品使用版本
文心一言V2.0.1(0523) 通義千問V1.0.1 訊飛星火認(rèn)知大模型 天工3.5
ChatGLM-6B
MOSS-16B大語言模型綜合測評題庫說明大語言模型綜合測評題庫說明PAGE18PAGE18根據(jù)第一、二章研究內(nèi)容和本次測評的評價維度,本次問題部分共300題,具體分布如下:題目類別問題總量題目類別問題總量分類題目數(shù)知識題60科學(xué)常識8歷史常識7醫(yī)學(xué)常識5法律常識5地理常識7生活常識8娛樂明星5購物推薦10商業(yè)常識5詞句理解題40關(guān)鍵字提煉10語義相似判斷10怎么辦題10方言理解10商業(yè)寫作題30營銷文案寫作(小紅書)7郵件寫作5視頻腳本7訪談提綱5市場分析報告3市場運營報告3文學(xué)題30簡單作文寫作10對對聯(lián)5寫詩詞5中文特色寫作題10題目類別問題總量分類題目數(shù)邏輯推理題38中文特色推理題9商務(wù)制表題5數(shù)學(xué)應(yīng)用題7幽默題7數(shù)學(xué)計算題10編程類60代碼自動補全15錯誤提示和修復(fù)15文本摘要15IT知識問答15翻譯題15編程翻譯題5英文閱讀理解5英文寫作5多模態(tài)7文字輸入圖片回答5文字輸入語言輸出2上下文閱讀1010安全和隱私1010寫作能力和語句理解能力是目前大語言模型最為擅長的能力板塊寫作能力和語句理解能力是目前大語言模型最為擅長的能力板塊PAGE19PAGE19的提升空間的提升空間排名測試類型綜合得分率1安全和隱私排名測試類型綜合得分率1安全和隱私95.50%2商務(wù)寫作78.68%3文學(xué)題75.50%4語句理解題72.63%5翻譯題68.33%6知識題65.07%7編程題64.59%8上下文理解48.50%9邏輯推理34.74%10多模態(tài)07%大語言模型綜合測試大語言模型綜合測試2020大語言模型綜合測試結(jié)果排名大模型產(chǎn)品排名大模型產(chǎn)品綜合得分率1ChatGPT77.13%2文心一言74.98%3Claude68.29%4訊飛星火68.24%5Sage66.82%6天工3.562.03%7通義千問53.74%8Moss51.52%9ChatGLM50.09%10vicuna-13B43.08%數(shù)據(jù)說明:測評結(jié)果僅基于上文所列模型,測評截止時間為2023年5月25日大語言模型展現(xiàn)出優(yōu)秀的中文創(chuàng)意寫作能力大語言模型展現(xiàn)出優(yōu)秀的中文創(chuàng)意寫作能力PAGE22PAGE22商務(wù)寫作題目主要反映大語言模型產(chǎn)品對文字的基礎(chǔ)認(rèn)知和學(xué)習(xí)能力。在十個模型中寫作得分最高的為ChatGPT,得分率88.24%,國內(nèi)產(chǎn)品表現(xiàn)最好的為訊飛星火,得分率為85.29%。悉的領(lǐng)域。細(xì)分題目類別得分率僅為75%。100.00%91.67%95.00%91.67%95.00%90.00%90.00%86.67%91.67%83.33%70.00%75.00%50.00%
商務(wù)寫作題整體得分率表
96.67%
國際模型國內(nèi)模型
商務(wù)寫作細(xì)分題目得分率題目分布整體得分率國際最高分率國內(nèi)最高分率訪談提綱95%100%100%ChatGPT等文心一言等市場分析報告83.33%100%100%題目分布整體得分率國際最高分率國內(nèi)最高分率訪談提綱95%100%100%ChatGPT等文心一言等市場分析報告83.33%100%100%ChatGPT等文心一言等市場運營報告90%100%100%ChatGPT等文心一言等視頻腳本75%100%92.85%ChatGPT訊飛星火營銷文案寫作97.14%100%100%ChatGPT通義千問等郵件寫作95%100%100%ChatGPT文心一言等文學(xué)題主要反映大語言模型產(chǎn)品對文字的基礎(chǔ)認(rèn)知和學(xué)習(xí)能力。ChatGPT和天工3.5,得分率88.33%文學(xué)題部分,隨著寫作難度的升高,大語言模型表現(xiàn)的能力水平遞減。其中表現(xiàn)最好的板塊為簡單寫作題,得分率為91但是有一些模型對對對聯(lián)回答表現(xiàn)欠佳,整體得分率最低為55%。88.33%83.33%83.33%83.33%83.33%83.33%83.33%73.33%65.00%66.67%66.67%58.33%60.00%30.00%
文學(xué)題整體得分率表88.33%
題目分布整體得分率題目分布整體得分率國際最高分率國內(nèi)最高分率對聯(lián)題55%100%90%Sage訊飛星火簡單寫作題91%96%96%ChatGPT通義千問詩詞寫作題78%90%90%ChatGPT文心一言中文特色寫作題71%100%100.00%ChatGPT文心一言
文學(xué)題細(xì)分題目得分率計算方法說明:通過實際測試獲得各模型對300道題目的答案,針對答案進(jìn)行評分,即正確答案獲得2分,部分正確的答案獲得1分,完全錯誤的獲得0分,模型表示不會做的獲得-1分;在統(tǒng)計得到總分后,用模型得分比所在題目可獲得的總分為該模型在這個類別題目中的得分。例如,A大模型在7道題目的類別中總得分率為10,該類題目可獲得的總得分率為7*2=14,則A大模型在這個題目類別的得分率為10/14=71.43%。中文方言理解題難倒大語言模型,整體準(zhǔn)確率僅為40%中文方言理解題難倒大語言模型,整體準(zhǔn)確率僅為40%PAGE23PAGE23語義理解題目主要反映大語言模型產(chǎn)品對文字的基礎(chǔ)認(rèn)知和學(xué)習(xí)能力。在十個模型中語義理解得分最高的為文心一言,得分率85%,得分第二的為ChatGPT,得分率為81.25%。在四個題目分類中,大語言模型呈現(xiàn)很大的差異化分布,即怎么辦題獲得最高分率92.5%,而方言理解僅獲得得分率40究小組征集的相對較難的題目,在項目組內(nèi)部人類測試得分也相對較低。78.75%77.50%77.50%75.00%78.75%77.50%77.50%75.00%67.50%65.00%61.25%57.50%60.00%30.00%
詞句理解題整體得分率表85.00%
國際模型國內(nèi)模型
詞句理解細(xì)分題目得分率題目分布整體得分率國際最高分率國內(nèi)最高分率方言理解40%45%80%ChatGPT天工3.5關(guān)鍵字提煉73.5%90%題目分布整體得分率國際最高分率國內(nèi)最高分率方言理解40%45%80%ChatGPT天工3.5關(guān)鍵字提煉73.5%90%90%Claude文心一言語義相似判斷84.50%100.00%90.00%ChatGPT文心一言怎么辦題92.50%100%95%Sage文心一言國際產(chǎn)品編程能力顯著高于國內(nèi)產(chǎn)品國際產(chǎn)品編程能力顯著高于國內(nèi)產(chǎn)品PAGE24PAGE24編程題目主要反映大語言模型產(chǎn)品進(jìn)階的邏輯推理能力。在十個模型中編程得分最高的為Claude,得分率73.47%,國內(nèi)產(chǎn)品表現(xiàn)最好的為文心一言,得分率為68.37%。在四個題目分類中,大語言模型表現(xiàn)最好的題目分類為錯誤提示和修復(fù),整體得分率為82.5分率為41.67%。編程題整體得分率表
題目分布整體得分率國際最高分率題目分布整體得分率國際最高分率代碼自動補全41.67%36.60%50%ChatGPT文心一言錯誤提示和修復(fù)82.50%86.11%83.33%ChatGPTVicuna-13B軟件安裝及環(huán)境65%70.00%70%Claude文心一言Android相關(guān)74.38%94%75%Claude通義千問
編程細(xì)分題目得分率90.00%
國內(nèi)模型 73.47%71.43%60.00%30.00%
68.37%
59.18%
66.33%
62.24%63.27%61.22%52.04%計算方法說明:通過實際測試獲得各模型對300道題目的答案,針對答案進(jìn)行評分,即正確答案獲得2分,部分正確的答案獲得1分,完全錯誤的獲得0分,模型表示不會做的獲得-1分;在統(tǒng)計得到總分后,用模型得分比所在題目可獲得的總分為該模型在這個類別題目中的得分。例如,A大模型在7道題目的類別中總得分率為10,該類題目可獲得的總得分率為7*2=14,則A大模型在這個題目類別的得分率為10/14=71.43%。中文知識題目,國內(nèi)模型表現(xiàn)明顯優(yōu)于國際模型中文知識題目,國內(nèi)模型表現(xiàn)明顯優(yōu)于國際模型PAGE25PAGE25知識題目主要反映大語言模型產(chǎn)品對文字的基礎(chǔ)認(rèn)知和學(xué)習(xí)能力。在十個模型中知識得分最高的為文心一言,得分率73.33%,得分第二的為ChatGPT,得分率為72.67%。在九個題目分類中,大語言模型呈現(xiàn)很大的差異化分布,即醫(yī)學(xué)常識獲得最高分率86%,而娛樂明星類知識僅獲得24%。除IT知識問答題目外,其他八個題目分類中國內(nèi)的大模型產(chǎn)品在中文知識環(huán)境中會的問答表現(xiàn)整體接近或優(yōu)于國際大模型產(chǎn)品。國際模型國內(nèi)模型90.00%國際模型國內(nèi)模型
知識題整體得分率表
知識細(xì)分題目得分率60.00%30.00%
72.67%
70.67%
7333%65.33%44.00%
60.67%59.33%題目分布整體得分率國際最高分率國內(nèi)最高分率醫(yī)學(xué)常識86%90%90%ChatGPT訊飛星火購物推薦85%90%題目分布整體得分率國際最高分率國內(nèi)最高分率醫(yī)學(xué)常識86%90%90%ChatGPT訊飛星火購物推薦85%90%90%Sage通義千問IT知識問答82.67%96.67%93.3%Sage訊飛星火法律常識68%80%80%ChatGPT文心一言等地理常識63.57%71.43%78.57%Claude訊飛星火商業(yè)常識55%70%70%ChatGPT文心一言歷史常識50.71%64.28%71.42%ChatGPT文心一言科學(xué)常識46.88%56.25%62.25%Claude訊飛星火娛樂明星24%20%60%ChatGPT文心一言PAGE26PAGE26國內(nèi)產(chǎn)品在跨語言翻譯中仍有較大的提升空間中文翻譯題目主要反映大語言模型產(chǎn)品對語言的理解能力。在十個模型中翻譯題得分最高的為Claude,得分率93.33%,國內(nèi)大語言模型得分最高的分別為文心一言。在三個題目分類中,大語言模型呈現(xiàn)很大的差異化分布,即英文寫作題獲得最高分率80%,而英文閱讀理解僅獲得得分率46%。120.00%
83.33% 83.33% 83.33% 83.33% 76.67%56.67%56.67%50.00%60.00%33.33%
翻譯題整體得分率表
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 聚焦2025年智能制造產(chǎn)業(yè)孵化基地技術(shù)創(chuàng)新路徑報告
- 鈀銀合金材料市場分析報告
- 公司年終獎物品管理制度
- 春節(jié)執(zhí)法車輛管理制度
- 互聯(lián)網(wǎng)公司檔案管理制度
- 分公司釘釘打卡管理制度
- 外地辦事處設(shè)備管理制度
- 區(qū)塊鏈開發(fā)企業(yè)管理制度
- 鄉(xiāng)鎮(zhèn)財政所內(nèi)部管理制度
- 景區(qū)餐廳住宿管理制度
- 項目經(jīng)理講安全課件
- 《休閑農(nóng)業(yè)》課件 項目二 休閑農(nóng)業(yè)分類及模式分析
- 2025年安徽省省情試題及答案
- 2025年消控室考核試題及答案
- 江西省吉安市遂川縣2024-2025學(xué)年數(shù)學(xué)三下期末達(dá)標(biāo)檢測試題含解析
- 衛(wèi)健系統(tǒng)2025年上半年安全生產(chǎn)工作總結(jié)
- EPC項目-總體實施方案
- 第一章體育與健康基礎(chǔ)知識 第一節(jié) 科學(xué)發(fā)展體能 課件 2024-2025學(xué)年人教版初中體育與健康八年級全一冊
- 高三數(shù)學(xué)復(fù)習(xí)策略
- 大豆病蟲害的綜合防治
- 貴州省畢節(jié)市2023-2024學(xué)年高二下學(xué)期期末考試 政治 含答案
評論
0/150
提交評論