




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
大語言模型綜合能力測評報告20231研究方法說明1
2
3InfoQ
分析專家訪談桌面研究結(jié)合桌?研究和專家訪談進?觀點沉淀和交流,并經(jīng)由報告形式對外展示。InfoQ
研究中?針對本次研究定向邀請了國內(nèi)外的相關(guān)專家進?訪談。通過對?業(yè)公開信息進?桌?研究,資料包括但不限于專業(yè)機構(gòu)學(xué)術(shù)論?、?章資料、論壇討論、研究報告、相關(guān)?商產(chǎn)品介紹、相關(guān)專家公開演講內(nèi)容等。2目
錄01
?模型發(fā)展背景CONTENTS02
?模型產(chǎn)品特征和核?能??模型產(chǎn)品測評結(jié)果和特征?模型產(chǎn)品未來發(fā)展展望03043?模型發(fā)展背景4?語?模型發(fā)展經(jīng)過三階段在2023年進?爆發(fā)階段?語?模型誕?階段?語?模型探索階段?語?模型爆發(fā)階段201720192022?
?歌推出?于處理?然語?任務(wù)的Transformer神經(jīng)?絡(luò)架構(gòu)?
OpenAI發(fā)布GPT-2并部分開源?
OpenAI推出ChatGPT-3.5?
?歌推出BERT模型20232020?
微軟基于ChatGPT發(fā)布NewBing?
百度推出可以準(zhǔn)確理解語義的?
FaceBook發(fā)布LLaMA-13BERNINE2.02018?
?歌發(fā)布Bard以應(yīng)對ChatGPT?
OpenAI發(fā)布GPT-1?
復(fù)旦團隊發(fā)布MOSS2021?
OpenAI發(fā)布GPT-4并實現(xiàn)圖像識別?
百度????發(fā)布?
OpenAI推出能實現(xiàn)?本?成圖像的DALL-E模型?
微軟宣布將GPT-4接?Office全家桶?
通義千問、盤古NLP、天?3.5、星?等國產(chǎn)?模型陸續(xù)發(fā)布?
?歌更新Bard并推出PaLM
2模型?
微軟宣布Windows系統(tǒng)全?位集成Copilot?
FaceBook推出CLIP模型?
華為正式發(fā)布盤古?模型?
OpenAI推出Codex5國內(nèi)外?商?發(fā)?,?語?模型產(chǎn)業(yè)規(guī)模可觀基礎(chǔ)模型ChatBot其他應(yīng)?AIBardLaMDAPaLM
ImagenPaLM-ET5GopherChinchillaGatoLLaMAMMSOPT-175BLIMA-65BStableDiffusionStableLMGPT-4DALL·E2CodeXBloomT0BloomZCedille
AICopilotColab國外BingChatFlanChatGPTClaudeDolly2.0Jurassic-1JumboGPT-J
6BClaudevicuna-13bCopilot基礎(chǔ)模型?郎神源1.0ChatBot其他應(yīng)?斜杠序列猴?悟道??通義盤古孟?ChatJDWPS
AI從容??新混元國內(nèi)??曹植?犀MathGPT雪湖·海若基礎(chǔ)模型???研?模型知海圖AI星?天河天元?模型6?語?模型研發(fā)的關(guān)鍵影響要素?語?模型產(chǎn)品研發(fā)需要同時具備三?要素,分別為數(shù)據(jù)資源要素、算法和模型要素、資?和資源要素。InfoQ研究中?分析?前市場中的產(chǎn)品特征,數(shù)據(jù)資源、資?和資源兩要素為?模型研發(fā)的基礎(chǔ)要素,即必要不充分要素。雖然數(shù)據(jù)、資?資源為?語?模型研發(fā)設(shè)置了??檻,但對于實?雄厚的?型企業(yè)仍然是挑戰(zhàn)較?的。算法和模型是?前區(qū)分?語?模型研發(fā)能?的核?要素。算法和模型影響的的模型豐富度、模型準(zhǔn)確性、能?涌現(xiàn)等都成為評價?語?模型優(yōu)劣的核?指標(biāo)。算法和模型?
模型訓(xùn)練的形式?
涌現(xiàn)出的思維鏈?
基于?類反饋的學(xué)習(xí)模型數(shù)據(jù)資源資?和資源核?要素?
模型參數(shù)規(guī)模?
訓(xùn)練模型次數(shù)?
訓(xùn)練使?的數(shù)據(jù)集?
頂級開發(fā)者構(gòu)建的?規(guī)模研發(fā)團隊?
昂貴的GPU背后的?規(guī)模資?投?基礎(chǔ)要素基礎(chǔ)要素7?語?模型訓(xùn)練之需要?夠“?”?
模型在參數(shù)規(guī)模達到?定程度后,性能?先得到急劇提升,同時涌現(xiàn)許多新的能?。特別是任務(wù)所訓(xùn)練的模型適?于更多以前未經(jīng)訓(xùn)練的任務(wù)。涌現(xiàn)對?型模型應(yīng)?的影響?常重要,只有通過這種能?,我們才能?效地實現(xiàn)模型的泛化,并實現(xiàn)模型的遷移。百億參數(shù)是?場券GPT-3和LaMDA的數(shù)據(jù)顯示,在模型參數(shù)規(guī)模不超O1.
模型參數(shù)規(guī)模O2.
模型計算量過100億-680億時,?模型的很多能?(如計算能?)?乎為零。?量計算觸發(fā)煉丹機制根據(jù)NVIDIA
研究論??的附錄章節(jié)顯示,?次迭代的計算量約為4.5ExaFLOPS,?完整訓(xùn)練需要9500次迭代,完整訓(xùn)練的計算量即為430ZettaFLOPS(相當(dāng)于單?A100跑43.3年的計算量)。O3.
訓(xùn)練使?數(shù)據(jù)集常?的數(shù)據(jù)集包括GSM8k、USSE、MMLU、HumanEval等。數(shù)據(jù)來源:SparksofArtificialGeneralIntelligenceEarlyexperimentswithGPT-48?模型訓(xùn)練參數(shù)規(guī)模量級最?或達5萬億以上?
國內(nèi)?模型出現(xiàn)?量參數(shù)規(guī)模?于100億的模型?
百度研發(fā)的Ernie和華為研發(fā)的盤古?前是有數(shù)據(jù)的國內(nèi)?模型參數(shù)規(guī)模的領(lǐng)先者?
國際領(lǐng)先的?模型GPT-4據(jù)推測參數(shù)規(guī)模量級可達5萬億以上國際模型參數(shù)規(guī)模國內(nèi)模型參數(shù)規(guī)模>100億?
GPT-4(OpenAI)未公開,推測為超過50000億?
PaLM(Google)5400億?
BERT(Google)4810億?
GPT-3.5(OpenAI)
1750億?
LaMDA(Google)1370億?
Galatica(Meta)1200億?
LLaMDA(Meta)650億?
Chinchilla(DeepMind)700億國內(nèi)模型參數(shù)規(guī)模<100億國內(nèi)未公布參數(shù)規(guī)模?
ERNIE3.0(百度)?
盤古(華為)?
MOSS(復(fù)旦?學(xué))?
遵義(阿?)?
?犀(京東)?
混元(騰訊)?
?研?模型(字節(jié))?
1+N認知智能?模型(科?訊?)?
?郎神模型(IDEA研究院)?
?研AI?模型(光年之外)?
?研?模型(燧原科技)?
超擬??模型(聆?智能)?
?研?模型(?依科技)?
魔?寫作(?間智能)?
?研?模型(MiniMax)?
蛋?質(zhì)?模型(浙江?學(xué)杭州國際科創(chuàng)中?)?
書?3.5(商湯科技)?
孟?(瀾?科技)?
DriveGPT(毫末智?)?
ChatGLM(清華?學(xué))?
伏羲(?易)?
源1.0(浪潮信息)?
?業(yè)精靈(云從科技)?
?卦爐(達摩院)?
元語?模型(莫塔社區(qū))?
曹植?模型(達觀數(shù)據(jù))?
紫東太初(中科院?動化研究所)?
?研?模型(?湖星?)?
悟道2.0(智源研究院)?
Claude(Anthropic)520億?
Mineva(Google)5400億資料來源:??證券研究院和wiki百科9算法和訓(xùn)練模型?平主導(dǎo)?語?模型的能?表現(xiàn)模型訓(xùn)練技術(shù)(舉例)Prompt-tuningInstruction-tuningChain
of
ThoughtHuman
Feedback通過為模型提供任務(wù)相關(guān)的指令來指導(dǎo)模型學(xué)習(xí)的?法。這種?法的?的是使模型更好地理解任務(wù)的要求,并提?其?成能?和上下?理解能?。通過分解訓(xùn)練過程為較?的相互關(guān)聯(lián)的任務(wù)來訓(xùn)練模型的?法。這種?法的?的是使模型能夠理解和維護?本中的思維鏈,從??成連貫的、上下?相關(guān)的響應(yīng)。使??然語?提示(prompt)的?法,以指導(dǎo)模型?成特定的輸出。這種?法的?的是通過對模型進?定向訓(xùn)練,使其在特定任務(wù)上表現(xiàn)出更好的性能。通過?類給予反饋對模型形成獎勵機制,幫助模型進?強化學(xué)習(xí)的訓(xùn)練。這種?法可以在預(yù)訓(xùn)練模型和產(chǎn)品投?市場后持續(xù)獲得反饋,幫助模型增強判斷?。訓(xùn)練?式直接決定?模型產(chǎn)出的效率,根據(jù)已經(jīng)公開的論?解讀,現(xiàn)有優(yōu)秀模型訓(xùn)練?式呈現(xiàn)?度?程化特征。?程化訓(xùn)練?式主要呈現(xiàn)三個特征:訓(xùn)練?式?程化1、詳細?嚴格的規(guī)則:對于如何處理數(shù)據(jù)和什么是?質(zhì)量數(shù)據(jù)等給出詳細和嚴格的執(zhí)?和判斷的?法論;2、明確定義標(biāo)注意圖:如詳細說明標(biāo)注原因,并要求如果標(biāo)注?員不能完全理解,則迅速跳出流程;3、團隊培訓(xùn)和考核機制完善:通過李克特評分等?式,持續(xù)保證團隊處在?標(biāo)?準(zhǔn)以上。?研閉源元模型?研開源元模型在開源模型基礎(chǔ)上微調(diào)的模型基礎(chǔ)模型?研閉源元模型:典型代表包括OpenAI的GPT3.5、GPT
4等,國內(nèi)?商百度的原模型ERNIE3.0、華為的元模型PanGu-Σ等。?研開源元模型:典型代表包括OpenAI的GPT2、Google的BERT等。在開源模型基礎(chǔ)上微調(diào)的模型:典型代表包括清華?學(xué)的ChatGLM-6B、商湯科技和華中科技?學(xué)開源中?語?模型駱駝Luotuo等。10?才和資本都對?語?模型提出了?密度的要求?密度?才團隊?密度資本加持根據(jù)?歌披露數(shù)據(jù),訓(xùn)練參數(shù)規(guī)模1750億的?模型,理想訓(xùn)練費?超過900萬美元。類似的,計算服務(wù)為了實現(xiàn)覆蓋的產(chǎn)品和功能范圍的?度,要求云服務(wù)提供商持續(xù)進?產(chǎn)品功能更新和產(chǎn)品矩陣建設(shè)來滿??戶多元需求,Amazon和Google持續(xù)進??額資本投?以完善產(chǎn)品能?。2022年Amazon和Google的資本性?出分別達583億美元和315億美元,并仍然呈現(xiàn)上漲趨勢。??智能領(lǐng)域中?然語?處理、機器學(xué)習(xí)等領(lǐng)域?前均為對開發(fā)者要求最?的技術(shù)領(lǐng)域之?,需要開發(fā)者擁有優(yōu)秀的教育背景和前沿技術(shù)背景。另外,對于團隊磨合、經(jīng)驗等要求均較為嚴格。從?前公布的部分?模型研發(fā)團隊背景可以看出,團隊成員均來?國際頂級?校或擁有頂級科研經(jīng)驗。11?模型產(chǎn)品核?能?解讀12?語?模型的發(fā)展帶來了?規(guī)模技術(shù)?命的希望?語?模型將計算機能?從搜索拓展到認知
&
學(xué)習(xí)和?動?動&解決?案&
解決?案層?隨著?語?模型在涌現(xiàn)能?中的不斷升級,未來計算機將有極?可能在?動和解決?案層?擁有?類能?或者超越?類能?。認知&學(xué)習(xí)?語?模型推動了計算機認知和學(xué)習(xí)能?的拓展。搜索通過海量數(shù)據(jù)的預(yù)訓(xùn)練模型,?語?模型擁有了很多??接近于?類認知的能?。在?語?模型驚艷世?以前,技術(shù)及為?類提供的能?主要集中在信息的檢索搜集層?。?在涌現(xiàn)能?的加持下,?語?模型也逐漸擁有了更為準(zhǔn)確的邏輯推理能?,這?能?體現(xiàn)為?類的學(xué)習(xí)能?。?論是搜索引擎還是電商娛樂,都在幫助?類在接近零成本的條件下獲取?限量信息。13?語?模型呈現(xiàn)核?能??字塔結(jié)構(gòu)?語?模型進階能?更為進階的理解?03?類情感理解和識別其他?階能?進階能?邏輯推理能?編程能?數(shù)學(xué)醫(yī)學(xué)法律0201概念抽象視覺識別核?能?認知和學(xué)習(xí)能??字理解14?模型產(chǎn)品測評結(jié)果和特征15?語?模型綜合評價維度標(biāo)號權(quán)重一級分類二級分類具體任務(wù)測試方法題目類型古詩?識記、中?分詞、中?分詞和詞性標(biāo)注、命名實體識別、實體關(guān)系抽取語?理解能?-詞句級知識題、歷史題、詞句理解題語義理解閱讀理解、故事情節(jié)完形填空、幽
知識題、商業(yè)寫作題、?學(xué)題、幽默語?理解能?-篇章級語?理解能?-數(shù)據(jù)級默檢測題、中?特?寫作題語?抽象成表格商務(wù)制表題應(yīng)?寫作題、商務(wù)寫作題、中?特?寫作題根據(jù)給定條件,?成連貫?本摘要?成、數(shù)據(jù)到?本?成制作多種類型的?案語法結(jié)構(gòu)知識問答邏輯推理給出主題,?成連貫?本知識問答商業(yè)寫作題知識題、歷史題知識題語?模型的準(zhǔn)確性170%知識誤導(dǎo)抽象給定應(yīng)?場景,執(zhí)?數(shù)學(xué)計算任務(wù)數(shù)值計算數(shù)學(xué)題、商務(wù)制表題邏輯推理題、編程類?數(shù)學(xué)邏輯推理MBA邏輯題編程題幽默題商務(wù)應(yīng)?題代碼能?上下?理解語境感知陌?概念的新詞理解通過語境推測身份知識題、中?特?推理題商務(wù)應(yīng)?寫作題多語?能?多模態(tài)能?完成涉及多種語?任務(wù)??圖等機器翻譯、跨語?摘要多模態(tài)問題翻譯題多模態(tài)問題16?語?模型綜合評價維度標(biāo)號權(quán)重一級分類二級分類具體任務(wù)測試方法題目類型210%數(shù)據(jù)基礎(chǔ)專家訪談315%模型和算法的能?專家訪談問題測試問題測試安全性隱私性不會被惡意利?安全問題隱私問題45%安全和隱私不會泄露?戶的個?隱私信息本次測評選取的?模型產(chǎn)品及使?版本海外產(chǎn)品使?版本gpt-3.5-turboClaude-instantgpt-3.5-turbovicuna-13B天?3.5國內(nèi)產(chǎn)品使?版本????V2.0.1(0523)通義千問V1.0.1訊?星?認知?模型ChatGLM-6BMOSS-16B17?語?模型綜合測評題庫說明?
根據(jù)第?、?章研究內(nèi)容和本次測評的評價維度,
本次問題部分共300題,具體分布如下:題?類別問題總量分類題?數(shù)題?類別問題總量分類中?特?推理題商務(wù)制表題題?數(shù)科學(xué)常識歷史常識醫(yī)學(xué)常識87595法律常識5邏輯推理題38數(shù)學(xué)應(yīng)?題7知識題60地理常識?活常識78幽默題7娛樂明星購物推薦商業(yè)常識關(guān)鍵字提煉語義相似判斷怎么辦題510510101010757533105510數(shù)學(xué)計算題10151515155代碼?動補全錯誤提示和修復(fù)?本摘要編程類60詞句理解題商業(yè)寫作題?學(xué)題403030IT知識問答??理解營銷?案寫作(?紅書)郵件寫作編程翻譯題翻譯題多模態(tài)157英?閱讀理解英?寫作5視頻腳本訪談提綱市場分析報告市場運營報告簡單作?寫作對對聯(lián)5?字輸?圖?回答?字輸?語?輸出52上下?閱讀安全和隱私10101010寫詩詞中?特?寫作題18寫作能?和語句理解能?是?前?語?模型最為擅?的能?板塊排名測試類型安全和隱私商務(wù)寫作?學(xué)題綜合得分率95.50%78.68%75.50%72.63%??語?模型的基礎(chǔ)能?整體表現(xiàn)均排名更為靠前1234語句理解題5翻譯題68.33%67知識題編程題65.07%64.59%48.50%34.74%-0.71%?
邏輯推理相關(guān)的編程、推理和上下?理解?前整體表現(xiàn)仍有較?的提升空間8上下?理解邏輯推理多模態(tài)91019?語?模型綜合測試?語?模型綜合測試結(jié)果排名?模型產(chǎn)品ChatGPT????Claude綜合得分率77.13%123456774.98%68.29%68.24%66.82%62.03%53.74%51.52%50.09%43.08%訊?星火Sage天?3.5通義千問Moss8910ChatGLMvicuna-13B數(shù)據(jù)說明:測評結(jié)果僅基于上?所列模型,測評截?時間為2023年5?25?20?語?模型展現(xiàn)出優(yōu)秀的中?創(chuàng)意寫作能??
商務(wù)寫作題?主要反映?語?模型產(chǎn)品對?字的基礎(chǔ)認知和學(xué)習(xí)能?。?
在?個模型中寫作得分最?的為ChatGPT,得分率88.24%,國內(nèi)產(chǎn)品表現(xiàn)最好的為訊?星?,得分率為85.29%。?
商務(wù)寫作題部分,?語?模型表現(xiàn)均較為突出,其中訪談提綱和郵件寫作都獲得了接近滿分的成績,??較之下視頻腳本的寫作仍然是?語?模型產(chǎn)品較不熟悉的領(lǐng)域。細分題?類別得分率僅為75%。商務(wù)寫作細分題?得分率商務(wù)寫作題整體得分率表國際模型國內(nèi)模型100.00%題目分布整體得分率國際最高分率
國內(nèi)最高分率96.67%100%100%100.00%95.00%91.67%90.00%90.00%86.67%91.67%訪談提綱95%ChatGPT等????等83.33%100%ChatGPT等100%100%????等100%市場分析報告市場運營報告83.33%90%75.00%50.00%70.00%ChatGPT等????等100%ChatGPT100%ChatGPT100%92.85%訊?星?100%通義千問等100%視頻腳本營銷?案寫作郵件寫作75%97.14%95%ChatGPT????等計算?法說明:通過實際測試獲得各模型對300道題?的答案,針對答案進?評分,
即正確答案獲得2分,部分正確的答案獲得1分,
完全錯誤的獲得0分,
模型表示不會做的獲得-1分;在統(tǒng)計得到總分后,
?模型得分?所在題?可獲得的總分為該模型在這個類別題?中的得分。例如,A?模型在7道題?的類別中總得分率為10,該類題?可獲得的總得分率為7*2=14,則A?模型在這個題?類別的得分率為10/14=71.43%。21?語?模型展現(xiàn)出優(yōu)秀的中?創(chuàng)意寫作能??
?學(xué)題主要反映?語?模型產(chǎn)品對?字的基礎(chǔ)認知和學(xué)習(xí)能?。?
在?個模型中寫作得分最?的為ChatGPT和天?3.5,得分率88.33%?
?學(xué)題部分,隨著寫作難度的升?,?語?模型表現(xiàn)的能??平遞減。其中表現(xiàn)最好的板塊為簡單寫作題,得分率為91%;對聯(lián)題雖然很多模型表現(xiàn)的較好,但是有?些模型對對對聯(lián)回答表現(xiàn)?佳,整體得分率最低為55%。?學(xué)題細分題?得分率?學(xué)題整體得分率表國際模型國內(nèi)模型88.33%88.33%83.33%題?分布整體得分率國際最?分率國內(nèi)最?分率90.00%60.00%30.00%83.33%83.33%100%90%73.33%對聯(lián)題55%65.00%Sage96%訊?星火96%66.67%
66.67%58.33%簡單寫作題詩詞寫作題91%78%71%ChatGPT90%通義千問90%ChatGPT100%????100.00%????中?特?寫作題ChatGPT計算?法說明:通過實際測試獲得各模型對300道題?的答案,針對答案進?評分,
即正確答案獲得2分,部分正確的答案獲得1分,
完全錯誤的獲得0分,
模型表示不會做的獲得-1分;在統(tǒng)計得到總分后,
?模型得分?所在題?可獲得的總分為該模型在這個類別題?中的得分。例如,A?模型在7道題?的類別中總得分率為10,該類題?可獲得的總得分率為7*2=14,則A?模型在這個題?類別的得分率為10/14=71.43%。22中???理解題難倒?語?模型,整體準(zhǔn)確率僅為40%?
語義理解題?主要反映?語?模型產(chǎn)品對?字的基礎(chǔ)認知和學(xué)習(xí)能?。?
在?個模型中語義理解得分最?的為????,得分率85%,得分第?的為ChatGPT,得分率為81.25%。?
在四個題?分類中,?語?模型呈現(xiàn)很?的差異化分布,即怎么辦題獲得最?分率92.5%,???理解僅獲得得分率40%。當(dāng)然,本次測試的??內(nèi)容為研究?組征集的相對較難的題?,在項?組內(nèi)部?類測試得分也相對較低。詞句理解細分題?得分率詞句理解題整體得分率表國際模型90.00%81.25%85.00%77.50%國內(nèi)模型題?分布整體得分率國際最?分率45%國內(nèi)最?分率80%78.75%77.50%75.00%??理解40%ChatGPT90%天?3.590%67.50%65.00%57.50%61.25%60.00%30.00%關(guān)鍵字提煉語義相似判斷怎么辦題73.5%84.50%92.50%Claude100.00%ChatGPT100%????90.00%????95%Sage????計算?法說明:通過實際測試獲得各模型對300道題?的答案,針對答案進?評分,
即正確答案獲得2分,部分正確的答案獲得1分,
完全錯誤的獲得0分,
模型表示不會做的獲得-1分;在統(tǒng)計得到總分后,
?模型得分?所在題?可獲得的總分為該模型在這個類別題?中的得分。例如,A?模型在7道題?的類別中總得分率為10,該類題?可獲得的總得分率為7*2=14,則A?模型在這個題?類別的得分率為10/14=71.43%。23國際產(chǎn)品編程能?顯著?于國內(nèi)產(chǎn)品?
編程題?主要反映?語?模型產(chǎn)品進階的邏輯推理能?。?
在?個模型中編程得分最?的為Claude,得分率73.47%,國內(nèi)產(chǎn)品表現(xiàn)最好的為????,得分率為68.37%。?
在四個題?分類中,?語?模型表現(xiàn)最好的題?分類為錯誤提示和修復(fù),整體得分率為82.5%,?表現(xiàn)最差的是難度相對較?的代碼?動補全類題?,整體得分率為41.67%。編程細分題?得分率編程題整體得分率表國際模型90.00%60.00%30.00%國內(nèi)模型題?分布整體得分率國際最?分率國內(nèi)最?分率73.47%36.60%ChatGPT86.11%50%71.43%68.37%68.37%代碼?動補全41.67%66.33%????83.33%63.27%62.24%61.22%59.18%52.04%錯誤提示和修復(fù)82.50%ChatGPTVicuna-13B70.00%Claude94%70%????75%軟件安裝及環(huán)境Android相關(guān)65%74.38%Claude通義千問計算?法說明:通過實際測試獲得各模型對300道題?的答案,針對答案進?評分,
即正確答案獲得2分,部分正確的答案獲得1分,
完全錯誤的獲得0分,
模型表示不會做的獲得-1分;在統(tǒng)計得到總分后,
?模型得分?所在題?可獲得的總分為該模型在這個類別題?中的得分。例如,A?模型在7道題?的類別中總得分率為10,該類題?可獲得的總得分率為7*2=14,則A?模型在這個題?類別的得分率為10/14=71.43%。24中?知識題?,國內(nèi)模型表現(xiàn)明顯優(yōu)于國際模型?
知識題?主要反映?語?模型產(chǎn)品對?字的基礎(chǔ)認知和學(xué)習(xí)能?。?
在?個模型中知識得分最?的為????,得分率73.33%,得分第?的為ChatGPT,得分率為72.67%。?
在九個題?分類中,?語?模型呈現(xiàn)很?的差異化分布,即醫(yī)學(xué)常識獲得最?分率86%,?娛樂明星類知識僅獲得24%。?
除IT知識問答題?外,其他?個題?分類中國內(nèi)的?模型產(chǎn)品在中?知識環(huán)境中會的問答表現(xiàn)整體接近或優(yōu)于國際?模型產(chǎn)品。知識細分題?得分率知識題整體得分率表國際模型國內(nèi)模型題目分布整體得分率國際最高分率國內(nèi)最高分率90.00%60.00%30.00%90%ChatGPT90%Sage96.67%Sage90%訊?星火90%通義千問93.3%訊?星火80%????等78.57%訊?星火70%????71.42%????62.25%訊?星火60%醫(yī)學(xué)常識86%72.67%73.33%購物推薦IT知識問答法律常識地理常識商業(yè)常識歷史常識科學(xué)常識娛樂明星85%82.67%68%71.33%70.67%66.00%67.33%65.33%60.67%59.33%80%ChatGPT71.43%Claude70%ChatGPT64.28%ChatGPT56.25%Claude20%63.57%55%44.00%50.71%46.88%24%ChatGPT????計算?法說明:通過實際測試獲得各模型對300道題?的答案,針對答案進?評分,
即正確答案獲得2分,部分正確的答案獲得1分,
完全錯誤的獲得0分,
模型表示不會做的獲得-1分;在統(tǒng)計得到總分后,
?模型得分?所在題?可獲得的總分為該模型在這個類別題?中的得分。例如,A?模型在7道題?的類別中總得分率為10,該類題?可獲得的總得分率為7*2=14,則A?模型在這個題?類別的得分率為10/14=71.43%。25國內(nèi)產(chǎn)品在跨語?翻譯中仍有較?的提升空間?
中?翻譯題?主要反映?語?模型產(chǎn)品對語?的理解能?。?
在?個模型中翻譯題得分最?的為Claude,得分率93.33%,國內(nèi)?語?模型得分最?的分別為????。?
在三個題?分類中,?語?模型呈現(xiàn)很?的差異化分布,即英?寫作題獲得最?分率80%,?英?閱讀理解僅獲得得分率46%。翻譯細分題?得分率翻譯題整體得分率表120.00%90.00%60.00%30.00%題目分布整體得分率國際最高分率國內(nèi)最高分率90%國際模型國內(nèi)模型90.00%93.33%100%ChatGPT100%83.33%83.33%編程翻譯題79%76.67%????80%60.00%56.67%
56.67%50.00%英?寫作80.00%46.00%ChatGPT90.00%Claude????80.00%訊?星火33.33%英?閱讀理解計算?法說明:通過實際測試獲得各模型對300道題?的答案,針對答案進?評分,
即正確答案獲得2分,部分正確的答案獲得1分,
完全錯誤的獲得0分,
模型表示不會做的獲得-1分;在統(tǒng)計得到總分后,
?模型得分?所在題?可獲得的總分為該模型在這個類別題?中的得分。例如,A?模型在7道題?的類別中總得分率為10,該類題?可獲得的總得分率為7*2=14,則A?模型在這個題?類別的得分率為10/14=71.43%。26邏輯推理能?挑戰(zhàn)整體較?,
國內(nèi)部分產(chǎn)品表現(xiàn)接近GPT3.5?
邏輯推理題主要反映?語?模型產(chǎn)品的進階能?,也是?語?模型最重要的理解?和判斷?。?
在?個模型中邏輯推理題得分最?的為ChatGPT得分率61.43%,國內(nèi)產(chǎn)品????和訊?星?,得分率60%。?
在五個題?分類中,?語?模型整體得分都低于基礎(chǔ)能?,得分最?的為幽默題,?得分最低的為商務(wù)制表題。分析原因,商務(wù)制表題不但需要搜集和識別內(nèi)容還需要在內(nèi)容的基礎(chǔ)上做邏輯分類和排序,整體難度較?。?
值得?提的是中?特?推理題中,國內(nèi)模型領(lǐng)先國際模型得分較多,分析師認為對中?內(nèi)容和邏輯的熟悉是核?原因。邏輯推理細分題?得分率邏輯推理題整體得分率國際模型國內(nèi)模型90.00%題目分布整體得分率國際最高分50.00%國內(nèi)最高分50%61.43%商務(wù)制表題26.00%60.00%60.00%ChatGPT????60.00%30.00%0.
00%52.86%55.00%45.00%數(shù)學(xué)計算題數(shù)學(xué)應(yīng)?題幽默題26.50%39%40.00%ChatGPT訊?星火30.00%21.43%25.71%85.71%Sage86%訊?星火75%15.71%15.71%79%55.00%31.67%ChatGPT44.44%ChatGPT訊?星火61.11%中?特?推理題????計算?法說明:通過實際測試獲得各模型對300道題?的答案,針對答案進?評分,
即正確答案獲得2分,部分正確的答案獲得1分,
完全錯誤的獲得0分,
模型表示不會做的獲得-1分;在統(tǒng)計得到總分后,
?模型得分?所在題?可獲得的總分為該模型在這個類別題?中的得分。例如,A?模型在7道題?的類別中總得分率為10,該類題?可獲得的總得分率為7*2=14,則A?模型在這個題?類別的得分率為10/14=71.43%。27?語?模型產(chǎn)品未來發(fā)展展望28國內(nèi)?語?模型發(fā)展挑戰(zhàn)仍然巨?,需要時間來突破?
國內(nèi)?語?模型能?接近GPT3.5?平,但是與GPT4能?仍存在巨?差距數(shù)據(jù)和語料門檻74.29%GPT4邏輯題?得分率研發(fā)時間所積累的經(jīng)驗門檻60%國內(nèi)產(chǎn)品邏輯題?最?得分率芯片門檻29更為接近和超越?類的思維?式鍛造,是未
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 苗木移植方案
- 超前小導(dǎo)管施工工藝流程圖
- Brand KPIs for neobanking C24 Bank in Germany-英文培訓(xùn)課件2025.4
- 敦煌吐魯番文獻所見回鶻古代歷法
- 培訓(xùn)學(xué)校樓梯管理制度
- 介紹家人活動方案
- 物理中考一輪復(fù)習(xí)教案 第十八講《液體壓強、大氣壓強》
- 倉儲公司年會策劃方案
- 倉庫安全宣傳月活動方案
- 倉鼠活動策劃方案
- 2025-2030全球自組網(wǎng)芯片行業(yè)調(diào)研及趨勢分析報告
- 基于區(qū)塊鏈技術(shù)的跨境電子商務(wù)智能配送系統(tǒng)方案
- DB3301T 0442-2024 非物質(zhì)文化遺產(chǎn)西湖綢傘制作技藝
- 《社會保障概論》期末考試復(fù)習(xí)題庫(含答案)
- 人工智能與產(chǎn)業(yè)鏈供應(yīng)鏈安全
- 飛行簽派員定期復(fù)訓(xùn):簽派資源管理
- 安徽工程大學(xué)畢業(yè)生就業(yè)協(xié)議書
- 輸血技術(shù)8:治療性血液成分單采和置換術(shù)管理程序
- 新能源汽車充電樁項目可行性研究報告模板及范文
- 2024年【初中歷史】中考歷史試題(附答案)電子版可打印
- 工程設(shè)計重點難點分析及應(yīng)對措施
評論
0/150
提交評論