




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
大語言模型綜合能力測評報告20231桌面研究通過對行業公開信息進行桌面研
究,資料包括但不限于專業機構學術論文、文章資料、論壇討論、研究報告、相關廠商產品介紹、
相關專家公開演講內容等。
研究方法說明結合桌面研究和專家訪談進行觀
點沉淀和交流,并經由報告形式InfoQ研究中心針對本次研究
定向邀請了國內外的相關專家2專家訪談進行訪談。3InfoQ
分析對外展示。目錄CONTENTS02大模型產品特征和核心能力03大模型產品測評結果和特征大模型產品未來發展展望大模型發展背景0104大模型發展背景2019?
OpenAI發布GPT-2并部分開源?
谷歌推出
BERT模型2020?
百度推出可以準確理解語義的ERNINE2.02023?
某著名企業基于ChatGPT發布New
Bing?FaceBook發布LLaMA-13B?
谷歌發布Bard以應對ChatGPT?復旦團隊發布MOSS
大語言模型發展經過三階段在2023年進入爆發階段2021?
OpenAI推出能實現文本生成圖像
的DALL-E模型?
FaceBook推出CLIP模型?
華為正式發布盤古大模型?
OpenAI推出Codex?
通義千問、盤古NLP、天工3.5、星火等國產大模型陸續發布?
谷歌更新Bard并推出PaLM
2模型?
某著名企業宣布Windows系統全方位集成Copilot?
OpenAI發布GPT-4并實現圖像識別?
百度文心一言發布?
某著名企業宣布將GPT-4接入Office全家桶2017?
谷歌推出用于處理自然語言任務
的Transformer
神經網絡架構2022?
OpenAI
推出
ChatGPT-3.52018?
OpenAI
發布
GPT-1大語言模型爆發階段大語言模型誕生階段大語言模型探索階段Google
)GoogleDeepMind
OMeta
BloomT0BloomZstability.aiStable
Diffusion
StableLMLaMDAPaLMPaLM-ET5ImagenFlanGopherChinchillaGatoLLaMAMMSOPT-175BGPT-4DALL·E2CodeXstanforduniversityDolly
2.0LIMA-65BAl21studioJurassic-1JumboClaudeGPT-J
6Bvicuna-13bG
Bard
BingChat
ChatGPTAN
Claude斜杠
門出門間間序列猴子
WPSAI
有道youdao
??
曹植
雪湖
·海若
知海圖AIN寫作貓
ChatJD
從容
其他應用
悟道
文心
通義icea
二郎神inspur浪潮
源1.0言犀
日日新Tencen↑騰訊
混元基礎模型
星火基礎模型ChatBot
國內外廠商齊發力,大語言模型產業規模可觀其他應用Noton
AI
Cedille
AI
9
CopilotColab
Copilot為云盤古天河天元大模型
玉言自研大模型基礎模型MathGPTChatBot國
外國
內大語言模型產品研發需要同時具備三大要素,
分別為數據資源要素、算法和模型要素、資金和資源要素。InfoQ研究中心分某省市場中的產品特征,
數據
資源、資金和資源兩要素為大模型研發的基礎要素,
即必要不充分要素。雖然數據、資金資源為大語言模型研發設置了高門檻,
但對于實力雄厚的大型企業仍然是挑戰較小的。算法和模型是目前區分大語言模型研發能力的核心要素。算法和模型影響的的模型豐富度、模型準確性、能力涌現等都成為評價大語言模型優劣的核心指標。算法和模型?模型訓練的形式?涌現出的思維鏈?基于人類反饋的學習模型
大語言模型研發的關鍵影響要素資金和資源?頂級開發者構建的大規模研發團隊?昂貴的GPU背后的大規模資金投入數據資源?模型參數規模?訓練模型次數?訓練使用的數據集核心要素基礎要素基礎要素百億參數是入場券GPT-3和LaMDA的數據顯示,在模型參數規模不超過100億-680億時,大模型的很多能力(如計算能力)幾乎為零。大量計算觸發煉丹機制根據NVIDIA
研究論文里的附錄章節顯示,一次迭代的計算量約為4.5
ExaFLOPS
,而完整訓練需要9500次迭代,完整訓練的計算量即為430ZettaFLOPS(相當于單片A100跑43.3年的計算量)。大量且豐富的數據集常見的數據集包括GSM8k
、USSE
、MMLU
、HumanEval等。O1.
模型參數規模O2.
模型計算量O3.
訓練使用數據集?
模型在參數規模達到一定程度后,性能首先得到急劇提升,同時涌現的能力。特別是任務所訓練的模型適用于更多以前訓練的任務。涌現對大型模型應用的影響非常重要,只有通過這種能力,我們才能高效地實現模型的泛化,并實現模型的遷移。
大語言模型訓練之需要足夠“?”數據來源:
Sparks
ofArtificial
General
Intelligence
Early
experimentswith
GPT-4國內未公布參數規模?
自研大模型(字節)?
1+N認知智能大模型(科大訊飛)?
二郎神模型(
IDEA研究院)?自研AI大模型(光年之外)?
自研大模型(燧原科技)?
超擬人大模型(聆心智能)?
自研大模型(香依科技)?
魔力寫作(竹間智能)?自研大模型(MiniMax)?
蛋白質大模型(浙江大學杭州國
際科創中心)?書生3.5
(商)?(瀾舟科技)?DriveGPT
(毫末智行)?ChatGLM
(某著名企業)國內模型參數規模
>100億?ERNIE
3.0
(百度)?盤古(華為)?MOSS(某著名企業)?遵義(阿里)?言犀(京東)?混元(騰訊)?伏羲(網易)?源1.0(某著名企業)?
行業精靈(云從科技)?八卦爐(達摩院)?
元語大模型(莫塔社區)?
曹植大模型(達觀數據)?
紫東太初(中科院自動化研究所)?
自研大模型(西湖星辰)?悟道2.0
(智源研究院)?
GPT-4(OpenAI)未公開,推測為超過50000億?
PaLM(Google)
5400億?
BERT(Google)
4810億?
GPT-3.5(OpenAI)
1750億?
LaMDA(Google)1370億?
Galatica(Meta)1200億?
LLaMDA(Meta)
650億?
Chinchilla(DeepMind)700
億?
Claude
(Anthropic)
520億?
Mineva
(Google)
5400億?國內大模型出現大量參數規模大于100億的模型?百度研發的Ernie和華為研發的盤古目前是有數據的國內大模型參數規模的領先者?國際領先的大模型GPT-4據推測參數規模量級可達5萬億以上
大模型訓練參數規模量級最高或達5萬億以上國內模型參數規模
<100億國際模型參數規模資料來源:民生證券研究院和wiki百科訓練方式直接決定大模型產出的效率,
根據已經公開的論文解讀,現有優秀模型訓練方式呈現高度工程化特征。
工程化訓練方式主要呈現三個特征:1
、詳細而嚴格的規則:對于如何處理數據和什么是高質量數據等給出詳細和嚴格的執行和判斷的方法論;2
、明確定義標注意圖:如詳細說明標注原因,
并要求如果標注人員不能完全理解,則迅速跳出流程;3、團隊培訓和考核機制完善:通過評分等方式,持續保證團隊處在目標水準以上。模型訓練技術(舉例)Chain
of
Thought通過分解訓練過程為較小的相互關聯的
任務來訓練模型的方法。這種方法的目
的是使模型能夠理解和維護文本中的思維鏈,從而生成連貫的、上下文相關的
響應。自研閉源元模型:典型代表包括OpenAI的GPT3.5
、GPT4等,國內廠商百度的原模型ERNIE3.0、華為的元模型PanGu-Σ等
。自研開源元模型:典型代表包括OpenAI的GPT2
、Google的BERT等。在開源模型基礎上微調的模型:典型代表包括某著名企業的ChatGLM-6B、商和某著名企業開源中文語言模型駱駝
Luotuo等。
算法和訓練模型水平主導大語言模型的能力表現Human
Feedback通過人類給予反饋對模型形成獎勵機制,
幫助模型進行強化學習的訓練。這種方
法可以在預訓練模型和產某省市場后持續獲得反饋,幫助模型增強判斷力。Instruction-tuning通過為模型提供任務相關的指令來指導模型學習的方法。這種方法的目的是使模型更好地理解任務的要求,并提高其
生成能力和上下文理解能力。Prompt-tuning使用自然語言提示(prompt)
的
方法,以指導模型生成特定的輸出。這種方法的目的是通過對模型進行定向訓練,使其在特定任務上表現出更好的性能。在開源模型基礎上微調的模型自研閉源元模型自研開源元模型訓練方式
工程化基礎模型人工智能領域中自然語言處理、機器學習等領域目前均為對開發者要求最高的技術領域之一,
需要開發者擁有優秀的教育背景和前沿技術背景。另外,
對于團隊磨合、經驗等要求均較為嚴格。從目前公布的部分大模型研發團隊背景可以看出,團隊成員均來自國際頂級高校或擁有頂級科研經驗。根據谷歌披露數據,訓練參數規模
1750
億的大模型,理想訓練費用超過
900
萬美元。類似的,計算服務為了實現覆蓋的產品和功能范圍的廣度,要求云服務提供商持續進行產品功能更新和產品矩陣建設來滿足用戶多元需求,
Amazon
和
持續進行大額資本
投入以完善產品能力。2022
年Amazon
和
的資本性支出分別達
583
億美元和
315
億美元,并仍然呈現上漲趨勢。人才和資本都對大語言模型提出了高密度的要求高密度人才團隊
高密度資本加持大模型產品核心能力解讀搜索大語言模型將計算機能力從搜索拓展到認知
&
學習和行動
&
解決方案層面
大語言模型的發展帶來了大規模技術革命的希望通過海量數據的預訓練模型,大
語言模型擁有了很多方面接近于人類認知的能力。而在涌現能力的加持下,大語言
模型也逐漸擁有了更為準確的邏輯推理能力,這—能力體現為人
類的學習能力。在大語言模型驚艷世人以前,
技術
及為人類提供的能力主要集中在信息的檢索搜集層面。無論是搜索引擎還是電商娛樂,
都在幫助人類在接近零成本的條件下獲取無限量信息。隨著大語言模型在涌現能力中的不斷升級,未來計
算機將有極大可能在行動
和解決方案層面擁有人類
能力或者超越人類能力。認知&學習行動&解決方案大語言模型推動了計算機認知和
學習能力的拓展。
大語言模型呈現核心能力金字塔結構進階能力更為進階的理解力核心能力認知和學習能力進階能力邏輯推理能力人類情感理解和識別030102其他高階能力大語言模型概念抽象視覺識別文字理解編程能力數學法律醫學大模型產品測評結果和特征標號權重一級分類二級分類具體任務測試方法題目類型170%語言模型的
準確性語義理解語言理解能力
-詞句級古詩文識記、中文分詞、中文分詞和詞性標注、命名實體識別、實體關系抽取知識題、歷史題、詞句理解題語言理解能力
-篇章級閱讀理解、故事情節完形填空、幽默檢測知識題、商業寫作題、文學題、幽默
題、中文特色寫作題語言理解能力
-數據級語言抽象成表格商務制表題語法結構根據給定條件,生成連貫文本摘要生成、數據到文本生成應用寫作題、商務寫作題、中文特色寫作題給出主題,
生成連貫文本制作多種類型的文案商業寫作題知識問答知識問答知識題、歷史題知識誤導知識題邏輯推理抽象給定應用場景,執行數學
計算任務數值計算數學題、商務制表題非數學邏輯推理MBA邏輯題邏輯推理題、編程類代碼能力編程題上下文理解陌生概念的新詞理解幽默題知識題、中文特色推理題語境感知通過語境推測身份商務應用題商務應用寫作題多語言能力完成涉及多種語言任務機器翻譯、跨語言摘要翻譯題多模態能力文生圖等多模態問題多模態問題
大語言模型綜合評價維度標號權重一級分類二級分類具體任務測試方法題目類型210%數據基礎專家訪談315%模型和算法的能力專家訪談45%安全和隱私安全性不會被惡意利用問題測試安全問題隱私性不會用戶的個人隱私信息問題測試隱私問題gpt-3.5-turboclaudeClaude-instantsosegpt-3.5-turbovicuna-13Bvicuna-13B文心一言V2.0.1(0523)通義千問V1.0.1訊飛星火認知大模型天工3.5
大語言模型綜合評價維度本次測評選取的大模型產品及使用版本海外產品使用版本國內產品使用版本ChatGLM-6BMOSS-16B題目類別問題總量分類題目數知識題60科學常識8歷史常識7醫學常識5法律常識5地理常識7生活常識8娛樂明星5購物推薦10商業常識5詞句理解題40關鍵字提煉10語義相似判斷10怎么辦題10方言理解10商業寫作題30營銷文案寫作(小紅書)7郵件寫作5視頻腳本7訪談提綱5市場分析報告3市場運營報告3文學題30簡單作文寫作10對對聯5寫詩詞5中文特色寫作題10題目類別問題總量分類題目數邏輯推理題38中文特色推理題9商務制表題5數學應用題7幽默題7數學計算題10編程類60代碼自動補全15錯誤提示和修復15文本摘要15lT知識問答15翻譯題15編程翻譯題5英文閱讀理解5英文寫作5多模態7文字輸入圖片回答5文字輸入語言輸出2上下文閱讀1010安全和隱私1010
大語言模型綜合測評題庫說明.
根據第一、二章研究內容和本次測評的評價維度,本次問題部分共300題,具體分布如下:排名測試類型綜合得分率1安全和隱私95.50%2商務寫作78.68%3文學題75.50%4語句理解題72.63%5翻譯題68.33%6知識題65.07%7編程題64.59%8上下文理解48.50%9邏輯推理34.74%10多模態-0.71%
寫作能力和語句理解能力是目前大語言模型最為擅長的能力板塊?
邏輯推理相關的
編程、推理和上下文理解目前整體表現仍有較大
的提升空間
多模態仍然是少數大語言模型的獨特優勢大語言模型的基
礎能力整體表現
均排名更為靠前?排名大模型產品綜合得分率1ChatGPT77.13%2????74.98%3Claude68.29%4訊飛星火68.24%5Sage66.82%6天工3.562.03%7通義千問53.74%8Moss51.52%9ChatGLM50.09%10vicuna-13B43.08%20
大語言模型綜合測試大語言模型綜合測試結果數據說明:測評結果僅基于上文所列模型,測評截止時間為2023年5月25日題目分布整體得分率國際最高分率國內最高分率訪談提綱95%100%100%ChatGPT等文心一言等市場分析報告83.33%100%100%ChatGPT等文心一言等市場運營報告90%100%100%ChatGPT等文心一言等視頻腳本75%100%92.85%ChatGPT訊飛星火營銷文案寫作97.14%100%100%ChatGPT通義千問等郵件寫作95%100%100%ChatGPT文心一言等?商務寫作題目主要反映大語言模型產品對文字的基礎認知和學習能力。?在十個模型中寫作得分最高的為ChatGPT,得分率88.24%,國內產品表現最好的為訊飛星火,
得分率為85.29%。?商務寫作題部分,大語言模型表現均較為突出,其中訪談提綱和郵件寫作都獲得了接近滿分的成績,而比較之下視頻腳本的寫作仍然是大語言模型產品較不熟悉的領域。細分題目類別得分率僅為75%。91.67%90.00%95.00%90.00%86.67%91.67%83.33%70.00%
大語言模型展現出優秀的中文創意寫作能力計算方法說明:通過實際測試獲得各模型對300道題目的答案,針對答案進行評分,
即正確答案獲得2分,部分正確的答案獲得1分,
完全錯誤的獲得0分,
模型表示不會做的獲得-1分;在統計得到總分后,
用模型得分比所在題目可獲得的
總分為該模型在這個類別題目中的得分。例如,
A大模型在7道題目的類別中總得分率為10,該類題目可獲得的總得分率為7*2=14,則A大模型在這個題目類別的得分率為10/14=71.43%。100.00%75.00%50.00%商務寫作題整體得分率表
商務寫作細分題目得分率Sagevicuna-13BChatGLM通義千問訊飛星火????ChatGPT天工3.5100.00%Claude國際模型國內模型96.67%Moss題目分布整體得分率國際最高分率國內最高分率對聯題55%100%90%Sage訊飛星火簡單寫作題91%96%96%ChatGPT通義千問詩詞寫作題78%90%90%ChatGPT????中文特色寫作題71%100%100.00%ChatGPT?????文學題主要反映大語言模型產品對文字的基礎認知和學習能力。?
在十個模型中寫作得分最高的為ChatGPT和天工3.5,得分率88.33%?文學題部分,隨著寫作難度的升高,
大語言模型表現的能力水平遞減。其中表現最好的板塊為簡單寫作題,得分率為91%;對聯題雖然很多模型表現的較好,
但是有一些模型對對對聯回答表現欠佳,
整體得分率最低為55%。83.33%73.33%58.33%83.33%83.33%65.00%66.67%
66.67%
大語言模型展現出優秀的中文創意寫作能力計算方法說明:通過實際測試獲得各模型對300道題目的答案,針對答案進行評分,
即正確答案獲得2分,部分正確的答案獲得1分,
完全錯誤的獲得0分,
模型表示不會做的獲得-1分;在統計得到總分后,
用模型得分比所在題目可獲得的
總分為該模型在這個類別題目中的得分。例如,
A大模型在7道題目的類別中總得分率為10,該類題目可獲得的總得分率為7*2=14,則A大模型在這個題目類別的得分率為10/14=71.43%。文學題整體得分率表
88.33%90.00%60.00%30.00%文學題細分題目得分率Sagevicuna-13BChatGLM通義千問訊飛星火????ChatGPT天工3.5Claude88.33%國際模型國內模型Moss題目分布整體得分率國際最高分率國內最高分率方言理解40%45%80%ChatGPT天工3.5關鍵字提煉73.5%90%90%Claude????語義相似判斷84.50%100.00%90.00%ChatGPT????怎么辦題92.50%100%95%Sage?????語義理解題目主要反映大語言模型產品對文字的基礎認知和學習能力。?
在十個模型中語義理解得分最高的為文心一言,得分率85%,得分第二的為ChatGPT,得分率為81.25%。?在四個題目分類中,大語言模型呈現很大的差異化分布,即怎么辦題獲得最高分率92.5%,而方言理解僅獲得得分率40%。當然,本次測試的方言內容為研究小組征集的相對較難的題目,在項目組人類測試得分也相對較低。
中文方言理解題難倒大語言模型,整體準確率僅為40%計算方法說明:通過實際測試獲得各模型對300道題目的答案,針對答案進行評分,
即正確答案獲得2分,部分正確的答案獲得1分,
完全錯誤的獲得0分,
模型表示不會做的獲得-1分;在統計得到總分后,
用模型得分比所在題目可獲得的
總分為該模型在這個類別題目中的得分。例如,
A大模型在7道題目的類別中總得分率為10,該類題目可獲得的總得分率為7*2=14,則A大模型在這個題目類別的得分率為10/14=71.43%。75.00%67.50%65.00%81.25
.75%77.50%詞句理解細分題目得分率詞句理解題整體得分率表Sagevicuna-13BMossChatGLM????通義千問訊飛星火ChatGPT天工3.5Claude國際模型國內模型57.50%85.00%60.00%30.00%90.00%77.50%61.25%題目分布整體得分率國際最高分率國內最高分率代碼自動補全41.67%36.60%50%ChatGPT????錯誤提示和修復82.50%86.11%83.33%ChatGPTVicuna-13B軟件安裝及環境65%70.00%70%Claude????Android相關74.38%94%75%Claude通義千問?編程題目主要反映大語言模型產品進階的邏輯推理能力。?
在十個模型中編程得分最高的為Claude,得分率73.47%,國內產品表現最好的為文心一言,得分率為68.37%。?
在四個題目分類中,大語言模型表現最好的題目分類為錯誤提示和修復,整體得分率為82.5%,而表現最差的是難度相對較高的代碼自動補全類題目,整體得
分率為41.67%。71.43
3.47%68.37%66.33%62.24%63.27%59.18%%7
國際產品編程能力顯著高于國內產品計算方法說明:通過實際測試獲得各模型對300道題目的答案,針對答案進行評分,
即正確答案獲得2分,部分正確的答案獲得1分,
完全錯誤的獲得0分,
模型表示不會做的獲得-1分;在統計得到總分后,
用模型得分比所在題目可獲得的
總分為該模型在這個類別題目中的得分。例如,
A大模型在7道題目的類別中總得分率為10,該類題目可獲得的總得分率為7*2=14,則A大模型在這個題目類別的得分率為10/14=71.43%。90.00%60.00%30.00%編程細分題目得分率編程題整體得分率表MOSSChatGLM-6BSageVicuna-13B通義千問訊飛星火????ChatGPT天工3.5Claude52.04%國際模型國內模型68.37%61.22%題目分布整體得分率國際最高分率國內最高分率醫學常識86%90%90%ChatGPT訊飛星火購物推薦85%90%90%Sage通義千問IT知識問答82.67%96.67%93.3%Sage訊飛星火法律常識68%80%80%ChatGPT文心一言等地理常識63.57%71.43%78.57%Claude訊飛星火商業常識55%70%70%ChatGPT????歷史常識50.71%64.28%71.42%ChatGPT????科學常識46.88%56.25%62.25%Claude訊飛星火娛樂明星24%20%60%ChatGPT?????知識題目主要反映大語言模型產品對文字的基礎認知和學習能力。?
在十個模型中知識得分最高的為文心一言,得分率73.33%,得分第二的為ChatGPT,得分率為72.67%。?在九個題目分類中,大語言模型呈現很大的差異化分布,
即醫學常識獲得最高分率86%,而娛樂明星類知識僅獲得24%。?除IT知識問答題目外,其他八個題目分類中國內的大模型產品在中文知識環境中會的問答表現整體接近或優于國際大模型產品。60.00%
44.00%
中文知識題目,國內模型表現明顯優于國際模型計算方法說明:通過實際測試獲得各模型對300道題目的答案,針對答案進行評分,
即正確答案獲得2分,部分正確的答案獲得1分,
完全錯誤的獲得0分,
模型表示不會做的獲得-1分;在統計得到總分后,
用模型得分比所在題目可獲得的
總分為該模型在這個類別題目中的得分。例如,
A大模型在7道題目的類別中總得分率為10,該類題目可獲得的總得分率為7*2=14,則A大模型在這個題目類別的得分率為10/14=71.43%。知識題整體得分率表
國際模型73.33%
66.00
1.33%
65.33%
72.67%70.67%
67.33%30.00%
知識細分題目得分率Sagevicuna-13BChatGLM通義千問訊飛星火????ChatGPT60.67%59.33%天工3.5Claude
國內模型Moss90.00%題目分布整體得分率國際最高分率國內最高分率編程翻譯題79%100%90%ChatGPT????英文寫作80.00%100%80%ChatGPT????英文閱讀理解46.00%90.00%80.00%Claude訊飛星火90.00%93.33%國際模型國內模型.76.67%56.67%
56.67%60.00%50.00%33.33%?中文翻譯題目主要反映大語言模型產品對語言的理解能力。?在十個模型中翻譯題得分最高的為Claude,得分率93.33%,國內大語言模型得分最高的分別為文心—言。?在三個題目分類中,大語言模型呈現很大的差異化分布,即英文寫作題獲得最高分率80%,而英文閱讀理解僅獲得得分率46%。
國內產品在跨語言翻譯中仍有較大的提升空間計算方法說明:通過實際測試獲得各模型對300道題目的答案,針對答案進行評分,
即正確答案獲得2分,部分正確的答案獲得1分,
完全錯誤的獲得0分,
模型表示不會做的獲得-1分;在統計得到總分后,
用模型得分比所在題目可獲得的
總分為該模型在這個類別題目中的得分。例如,
A大模型在7道題目的類別中總得分率為10,該類題目可獲得的總得分率為7*2=14,則A大模型在這個題目類別的得分率為10/14=71.43%。120.00%90.00%60.00%30.00%翻譯細分題目得分率翻譯題整體得分率表Sagevicuna-13BChatGLM通義千問訊飛星火????ChatGPT天工3.5ClaudeMoss83.33%%8333?邏輯推理題主要反映大語言模型產品的進階能力,也是大語言模型最重要的理解力和判斷力。?
在十個模型中邏輯推理題得分最高的為ChatGPT得分率61.43%,國內產品文心一言和訊飛星火,得分率60%。?在五個題目分類中,大語言模型整體得分都低于基礎能力,得分最高的為幽默題,而得分最低的為商務制表題。分析原因,商務制表題不但需要搜集和識別內
容還需要在內容的基礎上做邏輯分類和排序,整體難度較大。?值得一提的是中文特色推理題中,國內模型領先國際模型得分較多,分析師認為對中文內容和邏輯的熟悉是核心原因。邏輯推理題整體得分率
邏輯推理細分題目得分率題目分布整體得分率國際最高分國內最高分商務制表題26.00%50.00%50%ChatGPT????數學計算題55.00%45.00%ChatGPT訊飛星火數學應用題39%85.71%86%Sage訊飛星火幽默題55.00%79%75%ChatGPT訊飛星火中文特色推理題31.67%44.44%61.11%ChatGPT????61.43%5286%
國內模型60.00%60.00%.40.00%30.00%
21.43%
25.71%15.71%15.71%
邏輯推理能力挑戰整體較大,
國分產品表現接近GPT3.5計算方法說明:通過實際測試獲得各模型對300道題目的答案,針對答案進行評分,
即正確答案獲得2分,部分正確的答案獲得1分,
完全錯誤的獲得0分,
模型表示不會做的獲得-1分;在統計得到總分后,
用模型得分比所在題目可獲得的
總分為該模型在這個類別題目中的得分。例如,
A大模型在7道題目的類別中總得分率為10,該類題目可獲得的總得分率為7*2=14,則A大模型在這個題目類別的得分率為10/14=71.43%。90.00%60.00%30.00%0.00%Sagevicuna-13BChatGLM通義千問訊飛星火????ChatGPT天工3.5Claude
國際模型Moss26.50%大語言模型產品未來發展展望
芯片門檻74.29%GPT4
邏輯題目得分率60%國內產品邏輯題目最高得分率
國內大語言模型發展挑戰仍然巨大,需要時間來突破
數據和語料門檻?國內大語言模型能
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 晨間鍛煉活動方案
- 建材商場分紅方案(3篇)
- 怎樣塑造健康心理
- 民宿文化課件模板設計圖
- 春節營銷活動方案
- 煤礦風泵檢修方案(3篇)
- 來賓擺攤抽簽活動方案
- 聘任鄉賢顧問方案(3篇)
- 民俗剪紙介紹
- 青少年健康與飲料
- 隧道居間合同協議書范本
- 對公客戶經理培訓課件
- 社會文物鑒定質檢服務機構執業能力認可管理體系(公開征求意見稿)
- 高標準農田建設監理規范與實施策略
- 鋼絲繩編接作業知識培訓
- 人教版八年級道德與法治下冊教學設計:4.1公民基本義務
- 接觸網電連接壓接工藝及壓接質量檢查課件
- 2025北京朝陽六年級(上)期末數學試卷(含答案)
- 肝硬化門靜脈高壓癥食管、胃底靜脈曲張破裂出血診治專家共識(2025版)解讀
- 青少年心理健康發展調研報告
- 交警交通安全培訓
評論
0/150
提交評論