AI大模型需要什么樣的數(shù)據(jù)_第1頁
AI大模型需要什么樣的數(shù)據(jù)_第2頁
AI大模型需要什么樣的數(shù)據(jù)_第3頁
AI大模型需要什么樣的數(shù)據(jù)_第4頁
AI大模型需要什么樣的數(shù)據(jù)_第5頁
已閱讀5頁,還剩36頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

正文目錄I大模型需要什么樣的數(shù)據(jù)集 5數(shù)據(jù)將是未來I大模型競爭的關(guān)鍵要素 5數(shù)據(jù)集如何產(chǎn)生 7他山之石:海外主要大語言模型數(shù)據(jù)集 9數(shù)據(jù)集:維基百科 9數(shù)據(jù)集:書籍 數(shù)據(jù)集:期刊 數(shù)據(jù)集Weex(來自Reddt鏈接) 數(shù)據(jù)集:Cmmoncra/C4 其他數(shù)據(jù)集 他山之石:海外主要多模態(tài)數(shù)據(jù)集 類別:語音文本 類別:圖像文本 類別:視頻圖像文本 類別:圖像語音文本 類別:視頻語音文本 他山之石:海外主要大模型數(shù)據(jù)集由何方發(fā)布 高質(zhì)量語言數(shù)據(jù)和圖像數(shù)據(jù)或?qū)⒑谋M,合成數(shù)據(jù)有望生成大模型數(shù)據(jù) 數(shù)字中國戰(zhàn)略助力中國I大模型數(shù)據(jù)基礎(chǔ)發(fā)展 中國I大模型數(shù)據(jù)集從哪里來 中國大模型如何構(gòu)建數(shù)據(jù)集: 中國大模型如何構(gòu)建數(shù)據(jù)集:多模態(tài)大模型 中國開源數(shù)據(jù)集:大語言模型數(shù)據(jù)集 中國開源數(shù)據(jù)集:多模態(tài)模型數(shù)據(jù)集 國內(nèi)數(shù)據(jù)要素市場建設(shè)逐步完善,助力優(yōu)質(zhì)數(shù)據(jù)集生產(chǎn)流通 數(shù)據(jù)交易環(huán)節(jié):數(shù)據(jù)交易所發(fā)展進入新階段,緩解中文數(shù)據(jù)集數(shù)量不足問題 數(shù)據(jù)加工環(huán)節(jié):數(shù)據(jù)服務(wù)產(chǎn)業(yè)加速發(fā)展,助力中文數(shù)據(jù)集質(zhì)量提升 I時代數(shù)據(jù)的監(jiān)管與隱私保護問題 數(shù)據(jù)產(chǎn)業(yè)鏈投資機會 數(shù)據(jù)生產(chǎn)環(huán)節(jié) 數(shù)據(jù)處理環(huán)節(jié) 風(fēng)險提示 圖表目錄圖表:更高質(zhì)量、更豐富的訓(xùn)練數(shù)據(jù)是GT模型成功的驅(qū)動力;而除模型權(quán)重變化之外,模型架構(gòu)保持相似 5圖表:以數(shù)據(jù)為中心的:模型不變,通過改進數(shù)據(jù)集質(zhì)量提升模型效果 5圖表:以數(shù)據(jù)為中心的:工作流拆解 6圖表:數(shù)據(jù)標(biāo)注基本流程 7圖表:數(shù)據(jù)采集三種常見方式 7圖表:缺失數(shù)據(jù)的處理方法 8圖表:三大類數(shù)據(jù)標(biāo)注 8圖表:各數(shù)據(jù)標(biāo)注質(zhì)量評估算法對比 9圖表:大語言模型數(shù)據(jù)集綜合分析 9圖表:英文維基百科數(shù)據(jù)集分類 圖表:okCorps分類 圖表:rx官網(wǎng) 圖表:美國國家衛(wèi)生研究院官網(wǎng) 圖表:Weext前0個域 圖表:C4前3個域名(不包括維基百科) 圖表:按有效尺寸劃分的Theie組成樹狀圖 圖表:其他常見NLP數(shù)據(jù)集 圖表:多模態(tài)大模型數(shù)據(jù)集介紹 圖表:MAIN——四個L角色化身 圖表:LION-M搜索“藍眼睛的貓”得出的結(jié)果示例 圖表:LION-B搜索“法國貓”得出的結(jié)果示例 圖表:OpnDia——兩個簡短對話中的視覺環(huán)境 圖表:FCC10M數(shù)據(jù)集中0萬張照片樣本的全球覆蓋 圖表:CH-IMS與其他數(shù)據(jù)集之間注釋差異的示例 圖表:IMOCA——有8個攝像頭的ICON運動捕捉系統(tǒng) 圖表:MLD數(shù)據(jù)集——對話中和對話前說話人情緒變化對比 圖表:常見大模型數(shù)據(jù)集發(fā)布方總結(jié) 圖表:低質(zhì)量語言數(shù)據(jù)集數(shù)據(jù)或?qū)⒂?年耗盡 圖表:高質(zhì)量語言數(shù)據(jù)集數(shù)據(jù)或?qū)⒂?年耗盡 圖表:圖像數(shù)據(jù)存量為8.112~23e 圖表:圖像數(shù)據(jù)集數(shù)據(jù)趨勢或?qū)⒂?32060年耗盡 圖表:G-4技術(shù)報告中對合成數(shù)據(jù)應(yīng)用的探討 圖表:到0年I模型中的合成數(shù)據(jù)將完全蓋過真實數(shù)據(jù) 圖表:NIDIAOmnerse——用戶可使用Pthon為自動駕駛車輛生成合成數(shù)據(jù) 圖表:-226中國數(shù)據(jù)量規(guī)模CGR達到%,位居全球第一 圖表:國內(nèi)各行業(yè)數(shù)據(jù)量分布及增長預(yù)測 圖表:數(shù)據(jù)集分布及發(fā)展趨勢 圖表:國內(nèi)缺乏高質(zhì)量數(shù)據(jù)集的主要原因 圖表:國內(nèi)科技互聯(lián)網(wǎng)廠商訓(xùn)練大模型基于的數(shù)據(jù)基礎(chǔ) 圖表:中國大語言模型數(shù)據(jù)集構(gòu)成 圖表:華為盤古大模型1.TB中文文本語料庫數(shù)據(jù)組成 圖表:WeM大模型訓(xùn)練語料庫統(tǒng)計 圖表:中國多模態(tài)模型數(shù)據(jù)集構(gòu)成 圖表:6預(yù)訓(xùn)練數(shù)據(jù)集構(gòu)成 圖表:Inerndeo預(yù)訓(xùn)練過程中使用的數(shù)據(jù)集統(tǒng)計 圖表:DuRedr漢語六種題型示例附英文注釋) 圖表:WuDaCorpra示例 圖表:CIL018示例 圖表:Mth3K和其他幾個公開數(shù)據(jù)集對比 圖表:p210K與現(xiàn)有數(shù)學(xué)應(yīng)用題數(shù)據(jù)集的比較 圖表:DRCD的問題類型 圖表:不同漢語語法糾錯語料庫的對比 圖表:-R與以往類比基準(zhǔn)的比較 圖表:豆瓣會話語料庫統(tǒng)計 圖表:ODQ、DRCD-TTS、DRCD-bktras的數(shù)據(jù)統(tǒng)計 圖表:MTINF中問題、描述和答案的平均字符數(shù)和單詞數(shù) 圖表:MUGE數(shù)據(jù)集——多模態(tài)數(shù)據(jù)示例 圖表:WuDaMM數(shù)據(jù)集——強相關(guān)性圖像文本對示例 圖表:NoaWkog數(shù)據(jù)集——模型概述 圖表:Zero數(shù)據(jù)集——示例 圖表:COCO-CN數(shù)據(jù)集——示例 圖表:Fckr3k-CN數(shù)據(jù)集——跨語言圖像字幕示例 圖表:rouct1M數(shù)據(jù)集——多模態(tài)實例級檢索 圖表:IChaener數(shù)據(jù)集——示例 圖表:數(shù)據(jù)要素是數(shù)字中國發(fā)展框架中的重要環(huán)節(jié)之一 圖表:我國數(shù)據(jù)要素相關(guān)政策 圖表:我國數(shù)據(jù)要素市場規(guī)模及預(yù)測 圖表:數(shù)據(jù)要素流通產(chǎn)業(yè)鏈 圖表:國內(nèi)大數(shù)據(jù)交易所建設(shè)歷程 圖表:GT3訓(xùn)練中各國語言占比 圖表:數(shù)據(jù)服務(wù)商在數(shù)據(jù)要素市場中的角色 圖表:國內(nèi)各類型數(shù)據(jù)服務(wù)商企業(yè)統(tǒng)計樣本數(shù)及占比 圖表:大模型數(shù)據(jù)隱私問題實例 圖表:各地區(qū)數(shù)據(jù)隱私相關(guān)法律 圖表:隱私保護計算的五大關(guān)鍵技術(shù) 圖表:國內(nèi)外數(shù)據(jù)處理相關(guān)公司 圖表:全文提及公司列表 I大模型需要什么樣的數(shù)據(jù)集數(shù)據(jù)將是未來I大模型競爭的關(guān)鍵要素人工智能發(fā)展的突破得益于高質(zhì)量數(shù)據(jù)的發(fā)展。例如,大型語言模型的最新進展依賴于更高質(zhì)量、更豐富的訓(xùn)練數(shù)據(jù)集:與G-2相比,G3對模型架構(gòu)只進行了微小的修改,但花費精力收集更大的高質(zhì)量數(shù)據(jù)集進行訓(xùn)練ChaGT與G-3的模型架構(gòu)類似并使用RLHF(來自人工反饋過程的強化學(xué)習(xí))來生成用于微調(diào)的高質(zhì)量標(biāo)記數(shù)據(jù)。圖表:更高質(zhì)量、更豐富的訓(xùn)練數(shù)據(jù)是PT模型成功的驅(qū)動力;而除模權(quán)重變化之外,模型架構(gòu)保持相似4.8GB(未過濾)數(shù)據(jù) ..ZZ容 40GB據(jù) 15*66是多少? 570GB過濾數(shù)據(jù),來自4TB原始數(shù)據(jù)模型固定數(shù)據(jù)規(guī)模數(shù)據(jù)質(zhì)量“飲料做好了”是中性人工示范和標(biāo)注“飲料做好了”是中性、負面還是正面?類似的:Dachnhatl.DtacticAtificialItlligece:ASuvey”23,基于此,人工智能領(lǐng)域的權(quán)威學(xué)者吳承恩發(fā)起了“以數(shù)據(jù)為中心的”運動,即在模型對固定的前提下,通過提升數(shù)據(jù)的質(zhì)量和數(shù)量來提升整個模型的訓(xùn)練效果。提升數(shù)據(jù)集質(zhì)量的方法主要有:添加數(shù)據(jù)標(biāo)記、清洗和轉(zhuǎn)換數(shù)據(jù)、數(shù)據(jù)縮減、增加數(shù)據(jù)多樣性、持續(xù)監(jiān)測和維護數(shù)據(jù)等。因此,我們認為未來數(shù)據(jù)成本在大模型開發(fā)中的成本占比或?qū)⑻嵘?,主要包括?shù)據(jù)采集,清洗,標(biāo)注等成本。圖表:以數(shù)據(jù)為中心的:模型不變,過改進數(shù)據(jù)集質(zhì)量提升模型效果Dachnhatl."DatacticAtificialItlligece:ASuve"23圖表:以數(shù)據(jù)為中心的:工作流拆解Dachnhatl."DatacticAtificialItlligece:ASuve"23我們認為I大模型需要高質(zhì)量、大規(guī)模、多樣性的數(shù)據(jù)集。高質(zhì)量:高質(zhì)量數(shù)據(jù)集能夠提高模型精度與可解釋性,并且減少收斂到最優(yōu)解的時間,即減少訓(xùn)練時長。大規(guī)模:OpnI在《cangasforNeuralLangageods》中提出M模型所遵循的“伸縮法則”(scanga,即獨立增加訓(xùn)練數(shù)據(jù)量、模型參數(shù)規(guī)模或者延長模型訓(xùn)練時間,預(yù)訓(xùn)練模型的效果會越來越好。豐富性數(shù)據(jù)豐富性能夠提高模型泛化能力過于單一的數(shù)據(jù)會非常容易讓模型過于合訓(xùn)練數(shù)據(jù)。數(shù)據(jù)集如何產(chǎn)生建立數(shù)據(jù)集的流程主要分為)數(shù)據(jù)采集;)數(shù)據(jù)清洗:由于采集到的數(shù)據(jù)可能存在缺值、噪聲數(shù)據(jù)、重復(fù)數(shù)據(jù)等質(zhì)量問題;)數(shù)據(jù)標(biāo)注:最重要的一個環(huán)節(jié);)模型訓(xùn)練:模型訓(xùn)練人員會利用標(biāo)注好的數(shù)據(jù)訓(xùn)練出需要的算法模型模型測試審核員進行模型測試并將測試結(jié)果反饋給模型訓(xùn)練人員,而模型訓(xùn)練人員通過不斷地調(diào)整參數(shù),以便獲得性能更好的算法模型;)產(chǎn)品評估:產(chǎn)品評估人員使用并進行上線前的最后評估。圖表:數(shù)據(jù)標(biāo)注基本流程:蔡莉等《數(shù)據(jù)標(biāo)注研究綜述》00,華泰研究流程1:數(shù)據(jù)采集。采集的對象包括視頻、圖片、音頻和文本等多種類型和多種格式的數(shù)據(jù)。數(shù)據(jù)采集目前常用的有三種方式,分別為:)系統(tǒng)日志采集方法;)網(wǎng)絡(luò)數(shù)據(jù)采集方法;)T。圖表:數(shù)據(jù)采集三種常見方式EEL構(gòu)建應(yīng)用系統(tǒng)和分析系統(tǒng)的橋梁,并將它們之間的關(guān)聯(lián)解耦;支持近實時的在線分析系統(tǒng)和分布式并發(fā)的離線分析系統(tǒng);具有高可擴展性,也就是說,當(dāng)數(shù)據(jù)量增加時,可以通過增加節(jié)點進行水平擴展;目前為止,運用較為廣泛的有Flume、Chukwa、Scrib和Kafk。

開I網(wǎng)絡(luò)爬蟲工具包括python爬蟲、分布式網(wǎng)絡(luò)爬蟲具、Java網(wǎng)絡(luò)爬蟲工具、非Java網(wǎng)絡(luò)爬蟲工具。分如Ntc。

即Extract-ransform-Load,描述將數(shù)據(jù)從來源端經(jīng)過抽取(extract)、轉(zhuǎn)換(transform)、加載(load)至目的端的過程;它是一個數(shù)據(jù)集成過程,將來自多個數(shù)據(jù)源的數(shù)據(jù)組合到一個單一的、一致的數(shù)據(jù)存儲中,該數(shù)據(jù)存儲加載到數(shù)據(jù)倉庫或其他目標(biāo)系統(tǒng)中。:CSDNAce,Scibl,Pton,GitHu,ScrpyIB,搜狗百科,華泰研究流程2:數(shù)據(jù)清洗是提高數(shù)據(jù)質(zhì)量的有效方法。由于采集到的數(shù)據(jù)可能存在缺失值、噪聲數(shù)據(jù)、重復(fù)數(shù)據(jù)等質(zhì)量問題,故需要執(zhí)行數(shù)據(jù)清洗任務(wù),數(shù)據(jù)清洗作為數(shù)據(jù)預(yù)處理中至關(guān)重要的環(huán)節(jié),清洗后數(shù)據(jù)的質(zhì)量很大程度上決定了I算法的有效性。圖表:缺失數(shù)據(jù)的處理方法:鄧建新等《缺失數(shù)據(jù)的處理方法及其發(fā)展趨勢》219流程3:數(shù)據(jù)標(biāo)注是流程中最重要的一個環(huán)節(jié)。管理員會根據(jù)不同的標(biāo)注需求,將待標(biāo)注的數(shù)據(jù)劃分為不同的標(biāo)注任務(wù)。每一個標(biāo)注任務(wù)都有不同的規(guī)范和標(biāo)注點要求,一個標(biāo)注任務(wù)將會分配給多個標(biāo)注員完成。注圖表:注實體標(biāo)注實體標(biāo)注注 注 :DevlShhASt-bStepieoTextAnottin”22CSDN,景聯(lián)文科技,華泰研究流程4:最終通過產(chǎn)品評估環(huán)節(jié)的數(shù)據(jù)才算是真正過關(guān)。產(chǎn)品評估人員需要反復(fù)驗證模型的標(biāo)注效果,并對模型是否滿足上線目標(biāo)進行評估。圖表:各數(shù)據(jù)標(biāo)注質(zhì)量評估算法對比缺點缺點優(yōu)點算法名稱分類圖像標(biāo)注質(zhì)量評估算法 V算法 簡單易用,常用作其他眾包質(zhì)量控制算法的基準(zhǔn)算法 沒有考慮到每個標(biāo)注任務(wù)、標(biāo)注者的不同可靠性EM算法 在一定意義下可以收斂到局部最大化 數(shù)據(jù)缺失比例較大時,收斂速度比較緩慢RY算法 將分類器與Godtth結(jié)合起來進行學(xué)習(xí) 需要對標(biāo)注專家的特異性和敏感性強加先文本標(biāo)注質(zhì)量評估算法 BEU算法 方便、快速、結(jié)果有參考價值 測評精度易受常用詞干擾ROUGE算法 參考標(biāo)注越多,待評估數(shù)據(jù)的相關(guān)性就越高 無法評價標(biāo)注數(shù)據(jù)的流暢度ETEOR算法評估時考慮了同義詞匹配,提高了評估的準(zhǔn)確率 長度懲罰,當(dāng)被評估的數(shù)據(jù)量小時,測量精度較高CDEr算法 從文本標(biāo)注質(zhì)量評估的相關(guān)性上升到質(zhì)量評估的相似性進 對所有匹配上的詞都同等對待會導(dǎo)致部分詞的重要性被削弱SPCE算法 從圖的語義層面對圖像標(biāo)注進行評估 圖的語義解析方面還有待進一步完善eCrod法

將算法匹配和人工匹配結(jié)合在一定程度上實現(xiàn)了標(biāo)注質(zhì)和效率的共同提高

無法自動為定實體選擇最佳數(shù)據(jù)集語音標(biāo)注質(zhì)量評估算法 WR算法 可以分?jǐn)?shù)字、英文、中文等情況分別來看 當(dāng)數(shù)據(jù)量大時,性能會特別差SER算法 對句子的整體性評估要優(yōu)于WER算法 句錯誤率較高,一般是詞錯誤率的2倍~3倍蔡莉等《數(shù)據(jù)標(biāo)注研究綜述》00,他山之石#:海外主要大語言模型數(shù)據(jù)集參數(shù)量和數(shù)據(jù)量是判斷大模型的重要參數(shù)8年以來大語言模型訓(xùn)練使用的數(shù)據(jù)集規(guī)模持續(xù)增長8年的G-1數(shù)據(jù)集約.6G0年的G-3數(shù)據(jù)集達到了5G,而到了1年的Gr,數(shù)據(jù)集規(guī)模已經(jīng)達到了0,50G??偨Y(jié)來說,從-1到LaMA的大語言模型數(shù)據(jù)集主要包含六類維基百科書籍期刊Redt鏈接CommnCrawl和其他數(shù)據(jù)集。圖表:大語言模型數(shù)據(jù)集綜合分析ddtnrlG-1.6.6G-2G-3.4hele16 7 gtrn-B.4.6-G.4Gphr.5.4A.2.2注:以B為單位,公開的數(shù)據(jù)以粗體表示,僅原始訓(xùn)練數(shù)據(jù)集大小:AlanD.ThmsonW’sinyA”0,HuoTovrntl.“LaA:OenadEfficietodtionLgaeols”22,數(shù)據(jù)集:維基百科維基百科是一個免費的多語言協(xié)作在線百科全書。維基百科致力于打造包含全世界所有語言的自由的百科全書由超三十萬名志愿者組成的社區(qū)編寫和維護截至3年3月維基百科擁有2種語言版本總計,0條目其中英文版維基百科中有超過萬篇文章,擁有超3萬個用戶。維基百科中的文本很有價值,因為它被嚴(yán)格引用,說明性文字形式寫成,并且跨越多種語言和領(lǐng)域。一般來說,重點研究實驗室會首先選取它的純英文過濾版作為數(shù)據(jù)集。圖表:英文維基百科數(shù)據(jù)集分類排名 類別占比大小(B)oe(百萬)1生物.%.12地理.%.93文化和藝術(shù).%.74歷史.9%.15生物、健康和醫(yī)學(xué).8%.96體育.5%.77商業(yè).8%.58其他社會.4%.59科學(xué)&數(shù)學(xué).5%.4教育.8%.2總計.400AlanD.ThmsonWtsinyA”2,數(shù)據(jù)集:書籍書籍主要用于訓(xùn)練模型的故事講述能力和反應(yīng)能力,包括小說和非小說兩大類。數(shù)據(jù)集包括rojectGutenerg和mashords(orontoookCorps/okCorps)等。rojectGutnberg是一個擁有7萬多本免費電子書的圖書館,包括世界上最偉大的文學(xué)作品,尤其是美國版權(quán)已經(jīng)過期的老作品okCorps以作家未出版的免費書籍為基礎(chǔ)這些書籍來自于世界上最大的獨立電子書分銷商之一的mashords。圖表:ookorpus分類序號類別書籍?dāng)?shù)量占比(書籍?dāng)?shù)量/3)1浪漫80.%2幻想02.%3科技小說.5%4新成人.9%5年輕成人.8%6驚悚.9%7神秘.6%8吸血鬼.4%9恐怖.1%青少年.9%冒險.5%其他.3%文學(xué).0%幽默.4%歷史.6%主題.5%總計080.%AlanD.ThmsonWtsinyA”2,數(shù)據(jù)集:期刊期刊可以從riv和美國國家衛(wèi)生研究院等官網(wǎng)獲取。預(yù)印本和已發(fā)表期刊中的論文為數(shù)據(jù)集提供了堅實而嚴(yán)謹(jǐn)?shù)幕A(chǔ)因為學(xué)術(shù)寫作通常來說更有條理理性和細致Xv是個免費的分發(fā)服務(wù)和開放獲取的檔案,包含物理、數(shù)學(xué)、計算機科學(xué)、定量生物學(xué)、定量金融學(xué)、統(tǒng)計學(xué)、電氣工程和系統(tǒng)科學(xué)以及經(jīng)濟學(xué)等領(lǐng)域的5447篇學(xué)術(shù)文章。美國國家衛(wèi)生研究院是美國政府負責(zé)生物醫(yī)學(xué)和公共衛(wèi)生研究的主要機構(gòu),支持各種生物醫(yī)學(xué)和行為研究領(lǐng)域的研究,從其官網(wǎng)的“研究培訓(xùn)”板塊能夠獲取最新的醫(yī)學(xué)研究論文。圖表:rVix官網(wǎng) 圖表:美國國家衛(wèi)生研究院官網(wǎng) :AiVix, :美國國家衛(wèi)生研究院官網(wǎng),數(shù)據(jù)集:eet(來自Reddit鏈接)Reddit鏈接代表流行內(nèi)容的風(fēng)向標(biāo)Redt是一個娛樂社交及新聞網(wǎng)站注冊用戶可以將文字或鏈接在網(wǎng)站上發(fā)布,使它成為了一個電子布告欄系統(tǒng)Wext是一個大型數(shù)集,它的數(shù)據(jù)是從社交媒體平臺Redt所有出站鏈接網(wǎng)絡(luò)中爬取的,每個鏈接至少有三個贊,代表了流行內(nèi)容的風(fēng)向標(biāo),對輸出優(yōu)質(zhì)鏈接和后續(xù)文本數(shù)據(jù)具有指導(dǎo)作用。Reddit宣布收取數(shù)據(jù)使用費3年4月Redt宣布將向使用其I訓(xùn)練I聊天機器人的公司收取數(shù)據(jù)使用費其中便包含微軟谷歌OeI等目前具體收費標(biāo)準(zhǔn)暫未布,但可能會根據(jù)不同使用者劃分不同等級收費標(biāo)準(zhǔn)。許多公司已經(jīng)意識到數(shù)據(jù)的價值,如圖片托管服務(wù)商httrstock已把圖像數(shù)據(jù)出售給pnI推特計劃針對I使用收取幾萬到幾十萬美元不等的費用。圖表:bt前0個域排名 域鏈接(百萬個)占比oe(百萬)1Gole.54.%2Acive.60.%3Blospt.46.%4GitHub.41.%5TeNYTims.33.%6WPss.32.%7WsintPost.32.%8Wkia.31.%9BBC.31.%TGurian.25.%Bay.21.%Pstein.21.%CNN.20.%aoo.20.%HufintoPst.19.%.19.%Rets.18.%IDb.18.%Go.16.%NH.14.%CBC.14.%Ale.13.%im.13.%Dailail.12.%StmPoweed.11.%Idedt.11.%Etsy.11.%Cigslist.10.%Bsinessnsider.09.%Tlerph.09.%Wis.09.%USAtay.08.%THill.08.%NHL.08.%oNes.08.%淘寶.08.%Blomeg.08.%NPR.08.%B.08.%ATims.08.%gloon.08.%ESPN.07.%KickSttr.07.%BitBat.07.%ABC.07.%NeEgg.07.%WWE.07.%MAimeist.07.%icrsft.07.%Buzfed.06.%總計.3.%AlanD.ThmsonWtsinyA”2,數(shù)據(jù)集:Commoncawl/C4Commoncawl是8年至今的一個網(wǎng)站抓取的大型數(shù)據(jù)集。CmmonCrawl是一家非盈利組織致力于為互聯(lián)網(wǎng)研究人員公司和個人免費提供互聯(lián)網(wǎng)副本用于研究和分析,它的數(shù)據(jù)包含原始網(wǎng)頁元數(shù)據(jù)和文本提取文本包含0多種語言和不同領(lǐng)域重點研實驗室一般會首先選取它的純英文過濾版(C)作為數(shù)據(jù)集。圖表:4前3個域名(不包括維基百科)排名域oe(百萬)占比1GolePtets.4%2TeNYTims.0%3sAglesTims.0%4TeGrian.0%5PS.0%6oes.0%7HufintoPst.0%8Ptntscm.0%9Scibd.0%WsintnPst.0%TetleyFl.0%PS.0%rtiseia.0%BsinessIsidr.0%ChicaoTiue.0%Bkin.cm.0%TeAtlatic.0%Sinerik.0%AlJaera.0%Kickstter.0%indawCaslaw.0%NCBI.0%NPR.0%總計19.4%AlanD.ThmsonWtsinyA”2,其他數(shù)據(jù)集Theile數(shù)據(jù)集一個85.8GB的英語文本數(shù)據(jù)集用于訓(xùn)練大規(guī)模語言模型Thee由上文提到的rXWeextWkpda等在內(nèi)的2個不同的高質(zhì)量數(shù)據(jù)集組成包括已經(jīng)建立的自然語言處理數(shù)據(jù)集和幾個新引入的數(shù)據(jù)集。除了訓(xùn)練大型語言模型外,Theie還可以作為語言模型跨領(lǐng)域知識和泛化能力的廣泛覆蓋基準(zhǔn)。圖表:按有效尺寸劃分的heile組樹狀圖:LoGot.TePil:An0GBDtstfDivseTextfornaeolig”220其他數(shù)據(jù)集包含了GtHub等代碼數(shù)據(jù)集、tackxchne等對話論壇和視頻字幕數(shù)據(jù)等。圖表:其他常見LP數(shù)據(jù)集簡介簡介數(shù)據(jù)集數(shù)據(jù)集分類代碼數(shù)據(jù)集

GitubCoSacNtStQCCoExp

一個大型的開源代碼庫,在多年以前的預(yù)訓(xùn)練語言模型例如BERT、GPT里幾乎沒有人用,該代碼數(shù)據(jù)的加對語言模型的邏輯推理能力有極大的幫助一個大型函數(shù)數(shù)據(jù)集其中包含來自GitHub上的開源項目的用JvaJvaSciptPHPPthn和Ruby編寫的相關(guān)文檔是迄今為止最大的數(shù)據(jù)集,大約有1KPton和2KSQL域問題代碼對,它們是使用BiViewHirrciclNerlNetok從StckOvflow中自動挖掘出來的其中包含1).3的大分區(qū)百萬原始代碼dcsting對,()一個介質(zhì)1,0對的分區(qū)從使用學(xué)習(xí)的過濾器的原始語料庫,以及()具有嚴(yán)格的人類,0對的分區(qū)注釋ETHP10Opn 來自GitHub的40萬個Pthn文件的大規(guī)模去重語料庫論壇數(shù)據(jù)集 StckEcne StckOvrflow的超集,包含有不限于計算機的各種各樣不同領(lǐng)域的高質(zhì)量問答數(shù)據(jù)由所有問題和答案的正文組成Body被解析成句子任何少于00個句子的用戶都會從數(shù)據(jù)中刪除最少視頻字幕數(shù)據(jù)集

ertedStckQUASARGFRelyDatstTVCTVsowCaptios)

的預(yù)處理如下進行:小寫文本,對HTML符號進行轉(zhuǎn)義,刪除非ASCII符號,單獨的標(biāo)點符號作為單獨的標(biāo)記(撇號和連字符除外),去除多余的空白,用特殊標(biāo)記替換URLS一個由QUASARS和QUASART組成的大規(guī)模數(shù)據(jù)集。這些數(shù)據(jù)集中的每一個都旨在專注于評估旨在理解自然語言查詢、大量文本語料庫并從語料庫中提取問題答案的系統(tǒng)。具體來說,QUASARS包含,12個填空題,這些問題是使用實體標(biāo)簽從流行的網(wǎng)站StackOvrflow收集的發(fā)布的GF回復(fù)數(shù)據(jù)集包含5,01次Titter上的真實文本-GIF對話在這些對話中使用了156個獨特的GF。元數(shù)據(jù)包括OCR提取的文本、帶注釋的標(biāo)簽和對象名稱,也可用于該數(shù)據(jù)集中的一些GIF電視節(jié)目Captin是一個大規(guī)模的多模態(tài)字幕數(shù)據(jù)集,包含640個字幕描述和095個短視頻片段。TVC是獨一無二的,因為它的字幕也可以描述對話字幕,而其他數(shù)據(jù)集中的字幕僅描述視覺內(nèi)容Huouvontl.“LaA:OpnndEficitFuatinLguels”0,OpDtaab他山之石#:海外主要多模態(tài)數(shù)據(jù)集模態(tài)是事物的一種表現(xiàn)形式,多模態(tài)通常包含兩個或者兩個以上的模態(tài)形式,包括文本、圖像、視頻、音頻等。多模態(tài)大模型需要更深層次的網(wǎng)絡(luò)和更大的數(shù)據(jù)集進行預(yù)訓(xùn)練。過去數(shù)年中多模態(tài)大模性參數(shù)量及數(shù)據(jù)量持續(xù)提升例如2年tabltyI發(fā)布的taeDfuson數(shù)據(jù)集包含4億圖文對圖像是1年OpnI發(fā)布的DL-E數(shù)據(jù)集的倍。圖表:多模態(tài)大模型數(shù)據(jù)集介紹公司 多模態(tài)大模型 發(fā)布時

最大參數(shù)量(B)數(shù)據(jù)集(M_圖文對/圖像數(shù)據(jù)集類別OI -E .1

2

CoclCios、CCMWiiiaMtaMk--sce.34-歌gce-Ei.4.4-OI-E2.4In.5據(jù)IO-rti.6M-OOIO-MIMJ-ttyteffsn.8IO-M-E.3-e:AitaRamsht.“e-StTet-o-mgeGertio”22,OanGfit.“kASce:SceneBsdTeto-maeGeetinithHuman.5.60a2Pios”0AitaRmshHirciclTextCnitiolmgeGertionithCLPatets”22CitanShaiat.“PtrlisticTextt-maeDiffsiondlsithDepaggeUestig”22,Jiaiut.ScligAtrgssiveolsfrCtntRichTextt-meGeetin”022,JayAlammrThellstrtedStaleDifusin”02,DanyDiesset.PaL-E:AnEmoiedltimdl.5.60a2類別:語音文本MINE數(shù)據(jù)集:創(chuàng)建了一個大型視聽數(shù)據(jù)庫,作為構(gòu)建敏感人工偵聽器(L)代理的迭代方法的一部分,該代理可以使人參與持續(xù)的、情緒化的對話。高質(zhì)量的錄音由五臺高分辨率、高幀率攝像機和四個同步錄制的麥克風(fēng)提供。錄音共有0個參與者,總共有個與單個L角色的對話,每個對話大約持續(xù)5分鐘。固體L錄音被轉(zhuǎn)錄和廣泛注釋每個剪輯-8個評分者追蹤5個情感維度和7個相關(guān)類別。圖表:SMI——四個SL角色化身GarycKownt.TheSEANEDtaas:AnttedltimolRecdsfEmotinllyColedCovrstistweenaPsnndaimitedAgt”21類別:圖像文本COCO數(shù)據(jù)集:MSCOO的全稱是McrosoftCmmonObjectsnContext,起源于微軟于4年出資標(biāo)注的McrosoftCOCO數(shù)據(jù)集,與mgNet競賽一樣,被視為是計算機視覺領(lǐng)域最受關(guān)注和最權(quán)威的比賽之一。COCO數(shù)據(jù)集是一個大型的、豐富的物體檢測分割和字幕數(shù)據(jù)集。圖像包括1類目標(biāo),0張圖像和0個abel。ConcptualCaptions數(shù)據(jù)集圖像標(biāo)題注釋數(shù)據(jù)集其中包含的圖像比-CCO數(shù)據(jù)集多一個數(shù)量級,并代表了更廣泛的圖像和圖像標(biāo)題風(fēng)格。通過從數(shù)十億個網(wǎng)頁中提取和過濾圖像標(biāo)題注釋來實現(xiàn)這一點。ImageNet數(shù)據(jù)集建立在WrdNet結(jié)構(gòu)主干之上的大規(guī)模圖像本體maeNet的目標(biāo)是用平均0張干凈的全分辨率圖像填充WordNet的0個同義詞集中的大多數(shù)。這將產(chǎn)生數(shù)千萬個由WrdNet語義層次結(jié)構(gòu)組織的注釋圖像。maeNet的當(dāng)前狀態(tài)有個子樹,7個同義詞集,總共0萬張圖像。LION-40M數(shù)據(jù)集:LON-M通過CmmoCrawl提取出隨機抓取-1年的網(wǎng)頁中的圖片、文本內(nèi)容。通過OpnI的Cp計算,去除了原始數(shù)據(jù)集中文本和圖片嵌入之間預(yù)先相似度低于03的內(nèi)容和文本,提供了4億個初篩后的圖像文本對樣本。LION-B數(shù)據(jù)集其包含5億個CLIP過濾的圖像文本對的數(shù)據(jù)集比LION-大4倍是世界第一大規(guī)模多模態(tài)的文本圖像數(shù)據(jù)集共T數(shù)據(jù)并提供了色情圖片過濾、水印圖片過濾、高分辨率圖片、美學(xué)圖片等子集和模型,供不同方向研究。圖表:LIONM搜索“藍眼睛的貓”得出的結(jié)果示例 圖表:LIONB搜索“法國貓”得出的結(jié)果示例 CistphSchmantl“AIN-0:OpnDtastfCLP-ilteed40illionmaeTetPis”21

AIN-B官網(wǎng),華泰研究Languageable數(shù)據(jù)集Lnguge-ae是一套人類收集的數(shù)據(jù)集,是開放詞匯視覺運動學(xué)習(xí)的多任務(wù)連續(xù)控制基準(zhǔn)。IPRTC-2數(shù)據(jù)集:IRTC-2基準(zhǔn)的圖像集合包括從世界各地拍攝的2萬張靜態(tài)自然圖像,包括各種靜態(tài)自然圖像的橫截面。這包括不同運動和動作的照片,人物、動物、城市、風(fēng)景和當(dāng)代生活的許多其他方面的照片。示例圖像可以在第2節(jié)中找到。每張圖片配有最多三種不同語言(英語、德語和西班牙語)的文本標(biāo)題。A數(shù)據(jù)集:A是美學(xué)質(zhì)量評估的數(shù)據(jù)庫,包括5萬張照片。每一張照片都有一系列的評分、語義級別的0類標(biāo)簽和4類照片風(fēng)格。OpeniDial數(shù)據(jù)集當(dāng)人們交談時說話者接下來要說什么在很大程度上取決于他看到了什么。OpnDal一個用于此目的的大型多模塊對話數(shù)據(jù)集。這些對話回合和視覺環(huán)境都是從電影和電視劇中提取出來的,其中每個對話回合都與發(fā)生的相應(yīng)視覺環(huán)境相匹配。版本1包含10萬個對話回合以及存儲在圖像中的10萬個視覺上下文。版本2要大得多,包含0萬個對話回合以及存儲在圖像中的0萬個視覺上下文。圖表:Opnii——兩個簡短對話的視覺環(huán)境:GitHb類別:視頻圖像文本YFCC100數(shù)據(jù)集FCC100M是一個包含1億媒體對象的數(shù)據(jù)集其中大約0萬是照片,0萬是視頻,所有這些都帶有創(chuàng)作共用許可。數(shù)據(jù)集中的每個媒體對象都由幾塊元數(shù)據(jù)表示例如Fkr標(biāo)識符所有者名稱相機標(biāo)題標(biāo)簽地理位置媒體源從年Fkr成立到4年初這些照片和視頻是如何被拍攝描述和分享的這個集合提供了一個全面的快照。圖表:FM數(shù)據(jù)集中0萬張照片樣本的全球覆蓋:BrtTmeetl.“YCC10:TeNewDatainltimiaResch”06類別:圖像語音文本-SIMS數(shù)據(jù)集-SIS是中文單模態(tài)和多模態(tài)情感分析數(shù)據(jù)集包含221個精細化的野外視頻片段既有多模態(tài)注釋也有獨立單模態(tài)注釋它允許研究人員研究模態(tài)之間的相互作用或使獨立的單模態(tài)注釋進行單模態(tài)情感分析。圖表:SMS與其他數(shù)據(jù)集之間注釋差異的示例WmgYutl.CH-SIS:AChinseltimolSetimntAlsisDtstithin-rinedAnttiosfdlit”220類別:視頻語音文本IMOCP數(shù)據(jù)集南加州大學(xué)語音分析與解釋實驗室(IL)收集的一種新語料庫名“交互式情感二元動作捕捉數(shù)據(jù)庫(IMOC)該數(shù)據(jù)庫記錄了0位演員在面部頭部和手上的二元會話,這些標(biāo)記提供了他們在腳本和自發(fā)口語交流場景中面部表情和手部動作的詳細信息語料庫包含大約2小時的數(shù)據(jù)詳細的動作捕捉信息激發(fā)真實情緒的交互置以及數(shù)據(jù)庫的大小使這個語料庫成為社區(qū)中現(xiàn)有數(shù)據(jù)庫的有價值的補充,用于研究和建模多模態(tài)和富有表現(xiàn)力的人類交流。MLD數(shù)據(jù)集:MLD收錄了《老友記》電視劇3個對話中的8個話語。MLD優(yōu)于其他對話式情緒識別數(shù)據(jù)集MINE和IEMOC,因為它由多方對話組成,并且MLD中的話語數(shù)量幾乎是這兩個數(shù)據(jù)集的兩倍。MLD中的話語是多模態(tài)的,包括音和視覺形式以及文本。圖表:IMOCP——有8個攝像頭的ON運動捕捉系統(tǒng) 圖表:MELD數(shù)據(jù)集——對話中和對話說話人情緒變化對比 :CalosBssoetl.“EOCAP:intactivemtinldaicmtinctredtas.agRsocs&Evluation”0,

:SjnaPoiatl.“ELD:AltimolltPtyDtstfrEmtinRcoitininCvstios”08,他山之石#:海外主要大模型數(shù)據(jù)集由何方發(fā)布海外主要開源大模型數(shù)據(jù)集發(fā)布方主要分為:非營利組織開源組織古騰堡文學(xué)檔案基金會發(fā)布的ojectGutnberg截至8年已收錄0部書籍平均每周新增0部CmmnCral抓取網(wǎng)絡(luò)并免費向公眾提供其檔案和數(shù)據(jù)集,一般每個月完成一次抓取。艾倫人工智能研究所分別于年8年和9年發(fā)布了基于維基百科的raQAQuCQurefeutherI發(fā)布了85GB多樣化文本數(shù)據(jù)集The。LAION201年發(fā)布包含4億圖文對的LION-40M數(shù)據(jù)集,2年發(fā)布包含5億圖文對的LION-B數(shù)據(jù)集;學(xué)術(shù)界:例如多倫多大學(xué)和麻省理工學(xué)院聯(lián)合發(fā)布了okCorps;互聯(lián)網(wǎng)巨頭研究部門:例如GogeReserch發(fā)布了C4文本數(shù)據(jù)集、A和ConcetualCaptios等等圖像數(shù)據(jù)集等;政府機構(gòu):政府機構(gòu)是一些常見的數(shù)據(jù)集發(fā)布方,通常包含關(guān)于經(jīng)濟和醫(yī)學(xué)等方面的數(shù)據(jù)美國國家衛(wèi)生研究院發(fā)布的MdQuD包括從2個NIH網(wǎng)站創(chuàng)建的4,457個醫(yī)學(xué)問答對;多種類型機構(gòu)合作:尤其是學(xué)術(shù)界與互聯(lián)網(wǎng)巨頭研究部門、開源組織之間的合作。例如Faceok、倫敦大學(xué)學(xué)院和DeeMnd聯(lián)合發(fā)布了rxPaer數(shù)據(jù)集??▋?nèi)基梅隆大學(xué)、雅虎研究院和InernatonalCompterSceceInsttute聯(lián)合發(fā)布了FCC10M。我們認為海外積累豐富的開源高質(zhì)量數(shù)據(jù)集得益于:)相對較好的開源互聯(lián)網(wǎng)生態(tài);)免費線上書籍期刊的資源積累學(xué)術(shù)界互聯(lián)網(wǎng)巨頭研究部門非盈利研究組織及背后的基金形成了開放數(shù)據(jù)集、發(fā)表論文被引用的開源氛圍。圖表:常見大模型數(shù)據(jù)集發(fā)布方總結(jié)類別類別 名稱數(shù)據(jù)來源發(fā)布方大語言模型數(shù)據(jù)集 維基百科 Ietifing ceaprePlaiaismBcmak for Nrl PDectin

維基媒體基金會 德國伍珀塔爾大學(xué)、布爾諾孟德爾大維基媒體基金會 德國伍珀塔爾大學(xué)QofQAC(QustinAseinginContet)維基媒體基金會-艾倫人工智能研究所、華盛頓大學(xué)艾倫人工智能研究所、華盛頓大學(xué)、斯坦福大學(xué)、馬薩諸塞大學(xué)阿默斯特分校書期TiviQAWkiQABkCopsPjectArivPpsdQADPmd維基媒體基金維基媒體基金Smshos古騰堡文學(xué)檔案基金會riv美國國家衛(wèi)生研究院Pbd華盛頓大學(xué)、艾倫人工智能研究微軟研究院多倫多大學(xué)、麻省理工學(xué)古騰堡文學(xué)檔案基金會cbk、倫敦大學(xué)學(xué)院、Depind美國國家衛(wèi)生研究馬里蘭大學(xué)PbdPprReaingDatstPbd伊利諾伊大學(xué)厄巴納香檳分校、滴滴實驗室、倫斯勒理工學(xué)院、北卡羅來納大學(xué)教堂山分校、華盛頓大學(xué)Reit鏈接PbdRCTPubd0kRCT)dHopariverivSmmaitinDatstSCCAPOeWTtPbdPbdrivrivrivReitAbeResech、麻省理工學(xué)院倫敦大學(xué)學(xué)院、BlmsbryAIKlsrheIstittefTcnlogyGogtownUivesit、AoeRsrch賓夕法尼亞州立大學(xué)華盛頓大學(xué)、cbkAIResachCommmCal綜合C4ClosslClanCraledCps)CommnCralTePileCommnCommn-GoleRsrch法國國家信息與自動化研究所、索邦大學(xué)ElethAI多模態(tài)數(shù)據(jù)集CoctlCYCC10MAVAAON-00MCOCOAON-nugeTale網(wǎng)絡(luò)lickr-CommnCral微軟CommnCral-GoleRsrch卡內(nèi)基梅隆大學(xué)、雅虎研究院、ComtrSciceIstitteGoleRsrch慕尼黑工業(yè)大學(xué)、EleuthA、A微軟AON-OnDatL,CSDN高質(zhì)量語言數(shù)據(jù)和圖像數(shù)據(jù)或?qū)⒑谋M,合成數(shù)據(jù)有望生成大模型數(shù)據(jù)高質(zhì)量語言數(shù)據(jù)或?qū)⒂?年耗盡數(shù)據(jù)存量的增長速度遠遠低于數(shù)據(jù)集規(guī)模的增長速度,如果當(dāng)前的趨勢繼續(xù)下去,數(shù)據(jù)集最終將由于數(shù)據(jù)耗盡而停止增長。在語言模型方面,語言數(shù)據(jù)的質(zhì)量有好壞,互聯(lián)網(wǎng)用戶生成的語言數(shù)據(jù)質(zhì)量往往低于書籍、科學(xué)論文等更專業(yè)的語言數(shù)據(jù)高質(zhì)量數(shù)據(jù)訓(xùn)練出的模型性能更好根《Wlerunoutofdta?naalssoftemtsofscangdtasetsnMchineLarnng》預(yù)測,語言數(shù)據(jù)將于23~240年耗盡,其中能訓(xùn)練出更好性能的高質(zhì)量語言數(shù)據(jù)將于06年耗盡。此外,視覺數(shù)據(jù)將于230200年耗盡。圖表:低質(zhì)量語言數(shù)據(jù)集數(shù)據(jù)或?qū)⒂?年耗盡 圖表:高質(zhì)量語言數(shù)據(jù)集數(shù)據(jù)或?qū)⒂?年耗盡 :PloVllbset.Willwernutfata?AnnlsisfthelimitsfsclingdtstsincineLeig”222,

:PloVllbset.Willwernutfata?AnnlsisfthelimitsfsclingdtstsincineLeig”22,圖表:圖像數(shù)據(jù)存量為.2~.e3 圖表:圖像數(shù)據(jù)集數(shù)據(jù)趨勢或?qū)⒂?年耗盡 :PloVllbset.Willwernutfata?AnnlsisfthelimitsfsclingdtstsincineLeig”222,

:PloVllbset.Willwernutfata?AnnlsisfthelimitsfsclingdtstsincineLeig”22,合成數(shù)據(jù)或?qū)浹a未來數(shù)據(jù)的不足合成數(shù)據(jù)是計算機模擬或算法生成的帶有注釋的信息可以替代真實數(shù)據(jù)。它可以用于模擬實際情況,補充真實數(shù)據(jù)的不足,提高數(shù)據(jù)質(zhì)量和數(shù)量,以及降低數(shù)據(jù)采集和處理的成本。OpnI在G-4的技術(shù)文檔中重點提到了合成數(shù)據(jù)的應(yīng)用,可見其對該領(lǐng)域的重視。根據(jù)Gartner的預(yù)測,4年用于訓(xùn)練大模型的數(shù)據(jù)中有%將是合成數(shù)據(jù),到0年大模型使用的絕大部分?jǐn)?shù)據(jù)將由人工智能合成。圖表:GP4技術(shù)報告中對合成數(shù)據(jù)應(yīng)的探討:OAI“GPT4TciclRot”0,圖表:到0年I模型中的合成數(shù)據(jù)完全蓋過真實數(shù)據(jù)未來的I于今天的I合成數(shù)據(jù)時間真數(shù)受成本、物流、隱人工生成的數(shù)據(jù)由簡單規(guī)則、統(tǒng)計模、仿真和其他技生成:Gtr,華泰研究合成數(shù)據(jù)有望首先在金融、醫(yī)療和汽車等諸多領(lǐng)域落地。在金融行業(yè),金融機構(gòu)可以在不提供敏感的歷史交易信息前提下,通過合成數(shù)據(jù)集訓(xùn)練量化交易模型提升獲利能力,也可以用來訓(xùn)練客服機器人以改善服務(wù)體驗;在生物醫(yī)藥行業(yè),可以通過合成數(shù)據(jù)集,在不提供患者隱私信息的條件下訓(xùn)練相關(guān)模型完成藥物研發(fā)工作;在自動駕駛領(lǐng)域,可以通過合成數(shù)據(jù)集模擬各種駕駛場景,在保障人員和設(shè)備安全的條件下提升自動駕駛能力。圖表:VIIAOmnir——用戶可使用Phon為自動駕駛車輛生成合成數(shù)據(jù)心器 后期處理內(nèi)容創(chuàng)建工具資產(chǎn)存儲GT存儲 資產(chǎn) 驅(qū)動SIM實例&驅(qū)動SIM編輯器例場景隨機處理的Python腳本:英偉達官網(wǎng),華泰研究數(shù)字中國戰(zhàn)略助力中國I大模型數(shù)據(jù)基礎(chǔ)發(fā)展數(shù)據(jù)將是I大模型的關(guān)鍵競爭要素之一,數(shù)字中國戰(zhàn)略有望助力我國I大模型訓(xùn)練數(shù)據(jù)集的發(fā)展近日中共中央國務(wù)院印發(fā)《數(shù)字中國建設(shè)整體布局規(guī)劃數(shù)據(jù)要素為數(shù)字中國建設(shè)戰(zhàn)略中的關(guān)鍵一環(huán)。我們認為當(dāng)前國內(nèi)雖然數(shù)據(jù)資源豐富,但優(yōu)質(zhì)的中文大模型訓(xùn)練語料仍然稀缺。數(shù)字中國戰(zhàn)略將極大促進我國數(shù)據(jù)要素市場的完善,從數(shù)量和質(zhì)量兩個維度助力中文大模型數(shù)據(jù)集的發(fā)展數(shù)量方面各地數(shù)據(jù)交易所設(shè)立并運營后數(shù)據(jù)資源將能夠在各行業(yè)各企業(yè)之間自由流通緩解大模型訓(xùn)練數(shù)據(jù)數(shù)量不足的問題量方面,國內(nèi)數(shù)據(jù)服務(wù)產(chǎn)業(yè)有望蓬勃發(fā)展,未來數(shù)據(jù)服務(wù)商將提供數(shù)據(jù)標(biāo)注、清洗、維護等服務(wù),大數(shù)據(jù)產(chǎn)業(yè)專業(yè)化分工將助力大模型訓(xùn)練數(shù)據(jù)集質(zhì)量提升。中國I大模型數(shù)據(jù)集從哪里來國內(nèi)各行業(yè)數(shù)據(jù)資源豐富-6年數(shù)據(jù)量規(guī)模GR高于全球數(shù)據(jù)主要來源于政府傳媒服務(wù)零售等行業(yè)。據(jù)IDC,-226年中國數(shù)據(jù)量規(guī)模將由ZB增長至6.1Z,CGR達到%,高于全球平均CGR。從數(shù)據(jù)來源看,國內(nèi)各行業(yè)數(shù)據(jù)差異化發(fā)展,1年政府、傳媒、專業(yè)服務(wù)、零售等行業(yè)數(shù)據(jù)量占比較高,分別為%、%、1.0%、%,其中接近%的數(shù)據(jù)為非結(jié)構(gòu)化數(shù)據(jù),這也要求了海量數(shù)據(jù)采集設(shè)備和軟件的互聯(lián)互通以及互動互控。另外隨著智能化轉(zhuǎn)型的深入,制造、交通運輸、批發(fā)、教育等行業(yè)數(shù)據(jù)規(guī)模在未來也擁有較大的增長潛力,-2026年數(shù)據(jù)量增長CGR將分別達到%、%、%、%。圖表:6中國數(shù)據(jù)量規(guī)模CGR達到.,位居全球第一B)中國 北美 全球其他地區(qū)50005000001

02

03E 04E 05E 06EDCGlolDtShr,202圖表:國內(nèi)各行業(yè)數(shù)據(jù)量分布及增長預(yù)測EB)5,000,005,000,005,000,00,000

5%010106CAGR右軸)5%0%5%0%5%0%中傳專地零醫(yī)銀消流離交批教公證銀資電建央媒業(yè)方售療行費 程散通發(fā)育共券 行源 信筑政服政者 制制運事投產(chǎn) 業(yè)業(yè)府務(wù)府服 造務(wù)造輸業(yè)資業(yè)DC盡管國內(nèi)數(shù)據(jù)資源豐富,但由于數(shù)據(jù)挖掘不足,數(shù)據(jù)無法自由在市場上流通等現(xiàn)狀,優(yōu)質(zhì)中文優(yōu)質(zhì)數(shù)據(jù)集仍然稀缺目前中文優(yōu)質(zhì)數(shù)據(jù)仍然稀缺如ChaGT訓(xùn)練數(shù)據(jù)中中文資比重不足千分之一為%而英文資料占比超過%據(jù)加利福尼亞大學(xué)和Goge研究機構(gòu)發(fā)現(xiàn),機器學(xué)習(xí)和自然語言處理模型使用的數(shù)據(jù)集%由2家op機構(gòu)提供,其中0家為美國機構(gòu),1家為德國機構(gòu),僅1家機構(gòu)來自中國為香港中文大學(xué)。值得提的是,數(shù)據(jù)集與數(shù)據(jù)機構(gòu)的基尼系數(shù)有升高的趨勢,即數(shù)據(jù)集被少數(shù)op機構(gòu)或特定據(jù)庫掌控的集中有所增加。圖表:數(shù)據(jù)集分布及發(fā)展趨勢注:左:截至21年6月,每個機構(gòu)的數(shù)據(jù)集使用情況圖。網(wǎng)點大小表示使用次數(shù)。藍點表示營利機構(gòu),橙點表示非營利機構(gòu)。機構(gòu)占使用量的5%以上。右圖:機構(gòu)和數(shù)據(jù)集在整個PaesWithCe數(shù)據(jù)集上使用集中度的基尼系數(shù)。圓點大小表示當(dāng)年的使用次數(shù)。BradKcht.Rec,RsdndRccl:TeifefaDtsetincieeigRsarch”0,我們認為國內(nèi)缺乏高質(zhì)量數(shù)據(jù)集主要有以下幾方面的原因高質(zhì)量數(shù)據(jù)集需要巨大資投入當(dāng)前國內(nèi)數(shù)據(jù)挖掘和數(shù)據(jù)治理的力度不足國內(nèi)相關(guān)公司不具有開源意識數(shù)據(jù)無法在市場上自由流通;)國內(nèi)相關(guān)公司成立較晚,數(shù)據(jù)積累相對國外公司更少;)學(xué)術(shù)領(lǐng)域中文數(shù)據(jù)集受重視程度低;5)國產(chǎn)數(shù)據(jù)集市場影響力及普及度較低等。圖表:國內(nèi)缺乏高質(zhì)量數(shù)據(jù)集的主要原因原原因 解釋高質(zhì)量數(shù)據(jù)集需要巨大資金投入 一個好的數(shù)據(jù)集應(yīng)該從頂層設(shè)計標(biāo)注規(guī)范標(biāo)注質(zhì)量把控以及發(fā)布后更新升級各個方面嚴(yán)格把關(guān)這個過程是需要經(jīng)費、人力等綜合因素的投入,一般是長期投入的企業(yè)或者自然基金項目才有動力開展這樣的工作國內(nèi)相關(guān)公司不具有開源意識 互聯(lián)網(wǎng)公司擁有服務(wù)自身應(yīng)用的數(shù)據(jù)集因競爭原因不愿公開工業(yè)界里一些公司因保密原因不愿公開數(shù)據(jù)傳統(tǒng)金融領(lǐng)域公司重視合規(guī)保護;同時開源政策及社區(qū)不活躍,開源支持不到位,后期服務(wù)跟不上國內(nèi)相關(guān)公司數(shù)據(jù)積累相比國外更少 國內(nèi)互聯(lián)網(wǎng)公司成立普遍晚于國(亞馬遜94年阿里巴巴99年成立谷歌98年百度20年成立,早年中國互聯(lián)網(wǎng)公司以模仿國外的業(yè)務(wù)為主,在數(shù)據(jù)上的沉淀和積累較少,特別是特有中文數(shù)據(jù)學(xué)術(shù)領(lǐng)域中文數(shù)據(jù)集受重視程度低 使用中文數(shù)據(jù)集的論文往往不好發(fā)表而高質(zhì)量受認可的中文會議期刊的數(shù)量不夠多從而使得學(xué)術(shù)界在發(fā)展中文數(shù)據(jù)集上的動力不足國產(chǎn)數(shù)據(jù)集市場影響力及普及度較低 目前國內(nèi)大部分?jǐn)?shù)據(jù)集產(chǎn)品僅限于企業(yè)內(nèi)部使用未經(jīng)過市場檢驗導(dǎo)致數(shù)據(jù)庫創(chuàng)新能力不足使得企業(yè)開發(fā)數(shù)據(jù)集的意愿較低,同時大模型訓(xùn)練普遍產(chǎn)學(xué)結(jié)合,學(xué)術(shù)界對中文數(shù)據(jù)集的忽視也會影響到業(yè)界Datahle目前國內(nèi)科技互聯(lián)網(wǎng)頭部企業(yè)主要基于公開數(shù)據(jù)及自身特有數(shù)據(jù)差異化訓(xùn)練大模型。具體而言,百度“文心”大模型訓(xùn)練特有數(shù)據(jù)主要包括萬億級的網(wǎng)頁數(shù)據(jù),數(shù)十億的搜索數(shù)據(jù)和圖片數(shù)據(jù)等。阿里“通義”大模型的訓(xùn)練數(shù)據(jù)主要來自阿里達摩院。騰訊“混元”大模型特有的訓(xùn)練數(shù)據(jù)主要來自微信公眾號,微信搜索等優(yōu)質(zhì)數(shù)據(jù)。華為“盤古”大模型的訓(xùn)練數(shù)據(jù)出公開數(shù)據(jù)外,還有B端行業(yè)數(shù)據(jù)加持,包括氣象,礦山,鐵路等行業(yè)數(shù)據(jù)。商“日日新”模型的訓(xùn)練數(shù)據(jù)中包括了自行生成的mniObjects3D多模態(tài)數(shù)據(jù)集。圖表:國內(nèi)科技互聯(lián)網(wǎng)廠商訓(xùn)練大模型于的數(shù)據(jù)基礎(chǔ)客戶集百度文心一言C端為主萬億級網(wǎng)頁數(shù)據(jù),數(shù)十億的搜索數(shù)據(jù)和圖片數(shù)據(jù),百億級的語音日均調(diào)用數(shù)據(jù)以及50億事實的知識圖譜等阿里通義C端+B端訓(xùn)練數(shù)據(jù)來自于阿里達摩院,包含了大量的語言和文本數(shù)據(jù),以及各類專業(yè)知識和技術(shù)文檔等騰訊混元C端+B端公開數(shù)據(jù)集+騰訊內(nèi)部數(shù)據(jù),如:微信公眾號內(nèi)容(優(yōu)質(zhì)數(shù)據(jù))、微信搜索、騰訊廣告數(shù)據(jù)等華為盤古B端為主B端行業(yè)數(shù)據(jù):氣象,礦山,鐵路等行業(yè)數(shù)據(jù)+公開數(shù)據(jù)集:400萬個多回合對話會話,1億個話商湯日日新C端+B端語和3億個tk(PANGUBOT基于的數(shù)據(jù))基于多模態(tài)數(shù)據(jù)集自行開發(fā)了OmiOjecsD數(shù)據(jù)(包含了90個類別超過600個物體,有大量的真實物體的掃描的數(shù)據(jù))資料來源:各公司官網(wǎng),華泰研究未來專業(yè)及垂直內(nèi)容平臺有望成為國內(nèi)優(yōu)質(zhì)中文數(shù)據(jù)集的重要來源專業(yè)內(nèi)容平臺乎作為問答知識平臺擁有超過0萬創(chuàng)作者產(chǎn)生的超過5億條優(yōu)質(zhì)中文問答內(nèi)容涉及政治,經(jīng)濟,文化,歷史,科技等幾乎全部門類。其問答的數(shù)據(jù)形式天然適合作為大語言類模型訓(xùn)練使用微信公眾號作為內(nèi)容分享平臺,背靠國民級應(yīng)用微信生態(tài)鏈,2公眾號產(chǎn)出超9億篇文章其中既有專業(yè)領(lǐng)域內(nèi)容分析也有時事熱點分析這些內(nèi)容對語言模型的訓(xùn)練迭代有重要作用。2)垂類內(nèi)容平臺:參考彭博基于金融垂類數(shù)據(jù)發(fā)布o(jì)ombrgGT案例,國內(nèi)在金融,醫(yī)療,生物等行業(yè)公司的數(shù)據(jù)可以作為細分領(lǐng)域大型精確訓(xùn)練的基礎(chǔ)。中國大模型如何構(gòu)建數(shù)據(jù)集:L我們選取了在其論文中詳細闡述如何構(gòu)建預(yù)訓(xùn)練數(shù)據(jù)集的三個大語言模型,研究中國大模型預(yù)訓(xùn)練數(shù)據(jù)集的來源我們發(fā)現(xiàn)類似海外大語言模型中國大語言模型的預(yù)訓(xùn)練據(jù)集也主要來自互聯(lián)網(wǎng)抓取數(shù)(如CmmonCra中文公共社交媒體抓取等網(wǎng)絡(luò)科全書(如百度百科、搜狗百科、書籍等等;2)充分借助已有的高質(zhì)量開源數(shù)據(jù)集,例如對CmmonCrawl等進行二次處理。公司大模型發(fā)布時間最大參數(shù)量(公司大模型發(fā)布時間最大參數(shù)量()數(shù)據(jù)集(T文本)數(shù)據(jù)來源t-L.91-:t.40、nrwM.90nrw:SiqiBot.“PATO-:Exloigthere-scleP-triningfDilogeGetin”21Wiegtl.PaGuα:rescleAtoessivePtrindCinseagaeolsithAto-alllCmptatin”22,HiSut.WL:AWllReadPr-tindagaeolfrCise”22,華泰研究百度lato-L大模型度于1年發(fā)布LO-X包括中英文2個對話模型預(yù)訓(xùn)練語料規(guī)模達千億級tke模型規(guī)模高達10億參數(shù)預(yù)訓(xùn)練語料庫分為英語會樣本從Redt評論中提取,這些評論由第三方收集,并在pshshft.o上公開發(fā)布,遵循了LO-2的精心清洗過程;)中文:預(yù)訓(xùn)練數(shù)據(jù)來自公共領(lǐng)域的社交媒體,過濾后訓(xùn)練集中有2億個樣本。華為盤古大模型華為于01年發(fā)布盤古是業(yè)界首個0億參數(shù)以中文為核心的預(yù)訓(xùn)練生成語言模型,目前開源了盤古α和盤古α增強版兩個版本,并支持NU和U兩版本,支持豐富的場景應(yīng)用,在知識問答、知識檢索、知識推理、閱讀理解等文本生成領(lǐng)域表現(xiàn)突出,具備較強的少樣本學(xué)習(xí)的能力。圖表:華為盤古大模型.B中文文本語料庫數(shù)據(jù)組成數(shù)據(jù)集大小(B)數(shù)據(jù)來源處理步驟開源數(shù)據(jù)集.95個開源數(shù)據(jù)集:DuReae、百度QA、CAI21、搜狗CA格式轉(zhuǎn)換和文本重復(fù)刪除等百科全書百度百科、搜狗百科等文本重復(fù)刪除電子書各種主題的電子書如小說、歷史、詩歌和古文等)基于敏感詞和模型垃圾郵件過濾Commn4.9來自CmmnCawl的018年1月至20年12月的網(wǎng)絡(luò)數(shù)據(jù)所有步驟Cal新聞.52年至21年的新聞數(shù)據(jù)文本重復(fù)刪除Wigtl.PnGuα:Lg-scleAtoerssivePetrinedCinsenugedlsithAt-arlllComttion”01,騰訊eM大模型騰訊于2年發(fā)布We數(shù)據(jù)來源主要分為三部分CmmonCraw:CommonCral于220.08至222.1期間的文本內(nèi)容,使用agetect工具過濾掉非中文的文本;)特定領(lǐng)域語料庫:混合了來自各種來源的數(shù)據(jù),包括新聞、書籍、流行在線論壇以及學(xué)術(shù)著作,僅中文數(shù)據(jù)。3)英文數(shù)據(jù):添加了從上述來源收集到的約70GB的英語數(shù)據(jù)。數(shù)據(jù)中有大量的噪音如胡言亂語或模板文本、冒犯性語言、占位符文本和源代碼等,首先應(yīng)用一組基于規(guī)則的過濾器,再在剩余的數(shù)據(jù)上手動構(gòu)建好壞數(shù)據(jù)分類器提升數(shù)據(jù)清理泛化能力。圖表:M大模型訓(xùn)練語料庫統(tǒng)計來源過濾剩余oes預(yù)訓(xùn)練比例CommnCral8.B.%書籍.%.B.%新聞.%.9B.%論壇.%.B.%學(xué)術(shù)著作.%.3B.%HiSuet.WL:AWlReadPre-tiedLnuedlforChiese”22,中國大模型如何構(gòu)建數(shù)據(jù)集:多模態(tài)大模型我們選取了在其論文中詳細闡述如何構(gòu)建預(yù)訓(xùn)練數(shù)據(jù)集的三個多模態(tài)模型,研究中國大模型預(yù)訓(xùn)練數(shù)據(jù)集的來源。我們發(fā)現(xiàn)網(wǎng)頁抓取、自有數(shù)據(jù)和開源數(shù)據(jù)集是多模態(tài)大模型數(shù)據(jù)集的重要來源網(wǎng)頁抓取圖文對例如阿里6大模型百度RNI-iLG大模型都從網(wǎng)頁中抓取文本圖片對然后經(jīng)過一定過濾形成最終數(shù)據(jù)集的一部分自有數(shù)據(jù)例如阿里6大模型有來自電商的圖文數(shù)據(jù),百度RNI-LG大模型從內(nèi)部圖像搜索引擎中收集查詢文本和對應(yīng)的用戶點擊圖像開源數(shù)據(jù)集例如百度RNI-LG大模型的部分圖文對數(shù)據(jù)來自開源的CC和CC,并通過百度翻譯I翻譯。0圖表0公多模態(tài)大模型M6發(fā)布時間.3最大參數(shù)量()數(shù)據(jù)集(M圖文對/圖像)數(shù)據(jù)來源0- QnrwI-G.2、MItro.2.3-t-MMwMt-tgt-:Junagnt.“:ACinseltimolPtie”2,nhngt.“ERNEViL:UifidGnrtivePetrinigfrBidirctilVisin-aggeGnrtio”0,iWgtl.“IteVido:GelVieoFudtiondlsviaGnativendDiscimintiveLaig”02,阿里M6大模型:于1年發(fā)布,參數(shù)規(guī)模達到0億。阿里構(gòu)建了最大的中文多模態(tài)預(yù)訓(xùn)練數(shù)據(jù)集-Corps包含超過1.9TB圖像和22GB文本涵蓋了百科全書問答、論壇討論產(chǎn)品說明等類型的數(shù)據(jù)集研究人員設(shè)計了完善的清潔程序:文本數(shù)據(jù)除TML標(biāo)記和重復(fù)的標(biāo)點符號,只保留中文和英文的字符和標(biāo)點符號。刪除短于5個字符的標(biāo)題和短于5個字符的文本內(nèi)容使“內(nèi)部垃圾郵件檢測器篩選包含某些政治題、色情或臟話等不合適的句子。建立一個語言模型進行評估文本的困惑程度,去掉困惑程度高的句子;)圖片數(shù)據(jù):只有超過0像素的圖像才有資格被保留用于預(yù)訓(xùn)練。)圖表:M6預(yù)訓(xùn)練數(shù)據(jù)集構(gòu)成)來源模態(tài)圖像(M)oesB)段落(M)平均長度圖像大?。˙ 文本大小B)百科全書純文本-.4.03.5-.1社區(qū)A純文本-.93.03.0-.8論壇討論純文本-.7.03.1-.0CommnCral純文本-.38.70.7-.3百科全書圖像&文本.5.9.49.6.1.0抓取網(wǎng)頁圖像&文本.0.16.0.8.5.0電商圖像&文本.0.5.5.1.3.2總計.51.89.66.4.92.4注:電商數(shù)據(jù)包含6k來自淘寶的成對產(chǎn)品描述和產(chǎn)品圖片Junagnt.:AChinseltimdlPrtrinr”21,百度RNI-iLG大模型:于1年發(fā)布,參數(shù)規(guī)模達到0億。百度構(gòu)建了一個由超過5億對高質(zhì)量中文圖像文本對組成的大規(guī)模圖像文本數(shù)據(jù)集,數(shù)據(jù)來源如下:)中文網(wǎng)頁。從各種中文網(wǎng)頁中抓取了8億對原始的中文替代文字描述和圖片,進行了幾個步驟的過濾,總共收獲了0萬對文本圖片,過濾規(guī)則主要包括文本長度、文本內(nèi)容和圖像文本相似度圖片搜索引擎從內(nèi)部圖像搜索引擎中收集了大約0萬個查詢文本和相應(yīng)的用戶點擊圖像;)開源圖像文本數(shù)據(jù)集從CC和CCM中共收集了0萬文本圖像對,這些數(shù)據(jù)集中的字幕通過百度翻譯I翻譯成中文。Intenideo大模型由上海人工智能實驗室等南大港大復(fù)旦中科院深圳先進技研究院等于2年發(fā)布,使用了6個來自各個領(lǐng)域的開源數(shù)據(jù)集和自采視頻片段。圖表:Inrido預(yù)訓(xùn)練過程中使用的數(shù)據(jù)集統(tǒng)計預(yù)訓(xùn)練數(shù)據(jù)集域樣本剪輯幀數(shù)×采樣率Kintics40otue視頻6×4WVidM網(wǎng)絡(luò)視頻6×4WVid0M網(wǎng)絡(luò)視頻0M6×4HoT10Motue視頻2M6×4AVA電影6×4SmtingSmtigV2劇本鏡頭6×2自采視頻otue,nstarm6×4Kintics70otue視頻6×4iWgtl.“tride:GnrlidoFudtionolsviaGnrtiveadDiscimintiveering”22華泰研究中國開源數(shù)據(jù)集:大語言模型數(shù)據(jù)集DuReader數(shù)據(jù)集于28年由百度發(fā)布DuReder是一個大規(guī)模的開放域中文機器閱讀理解數(shù)據(jù)集。該數(shù)據(jù)集由K問題、K答案和M文檔組成,是迄今為止最大的中文MRC數(shù)據(jù)集問題和文檔基于百度搜索和百度知道答案是手動生成的該數(shù)據(jù)集還供了問題類型注釋——每個問題都被手動注釋為實體、描述或是否以及事實或意見之一。圖表:uder漢語六種題型示例附英文注釋)WiHet.“DuRdr:aChiesecineReingCmpeensionDtstfmRel-woldAlictios”21,uDaoCopora數(shù)據(jù)集:于1年由北京人工智能研究院、清華大學(xué)和循環(huán)智能聯(lián)合發(fā)布WuDaCorpra是北京智源研究院最新構(gòu)建的高質(zhì)量數(shù)據(jù)集悟道文本數(shù)據(jù)集采用多種規(guī)則從1TB原始網(wǎng)頁數(shù)據(jù)中清洗得出最終數(shù)據(jù)集注重隱私數(shù)據(jù)信息的去除從源頭上避免G-3存在的隱私泄露風(fēng)險;包含教育、科技等個行業(yè)數(shù)據(jù)標(biāo)簽,可以支持多領(lǐng)域預(yù)訓(xùn)練模型的訓(xùn)練。圖表:Wuoorpora示例SaYantl.WDaCorr:Asurlre-scleChinsecrpafretriniglagaemdls”21,華泰研究CLUCopus020數(shù)據(jù)集:于0年由CLUE發(fā)布。CLUCorpus220是一個可以直接用于語言模型預(yù)訓(xùn)練或語言生成等自監(jiān)督學(xué)習(xí)的大型語料庫它有G的原始語料庫,包含0億個漢字,這些語料庫來自Cmmoncral。CIL218數(shù)據(jù)集于8年由清華大學(xué)北京大學(xué)中國科學(xué)院軟件研究所和中國司法大數(shù)據(jù)研究院聯(lián)合發(fā)布CIL018是第一個用于判決預(yù)測的大規(guī)模中國法律數(shù)據(jù)集收了中國最高人民法院公布0萬件刑事案件,是現(xiàn)有判決預(yù)測工作中其他數(shù)據(jù)集的數(shù)倍對判斷結(jié)果的注釋也更加詳細和豐富。它由適用的法律條款、指控和刑期組成,根據(jù)案件的事實描述而定。圖表:CIL28示例Chjniotl.CAI20:AageScleelDtastfrJumntPrictin”218Mah2K數(shù)據(jù)集:于7年由騰訊人工智能實驗室發(fā)布。K是為解決數(shù)學(xué)問題而創(chuàng)建的數(shù)據(jù)集,數(shù)據(jù)包含從在線教育網(wǎng)站上抓取的6萬多個中文數(shù)學(xué)單詞問題,都是小生真正的數(shù)學(xué)應(yīng)用題,有3,61個標(biāo)有結(jié)構(gòu)化方程和答案的問題。圖表:Mh2K和其他幾個公開數(shù)據(jù)對比數(shù)據(jù)集問題模板句子單詞問題類Alg14.6k.k代數(shù)、線性Doli178,88,13.3k.k數(shù)字應(yīng)用題DRW,00-.2k.k代數(shù)、線性、一元MhK,1,17.k代數(shù)、線性、一元nWgt.DepNerlSlvrfrathWdPrlms”21,pe20K數(shù)據(jù)集:于0年由猿輔導(dǎo)ILb和西北大學(xué)聯(lián)合發(fā)布。p20K是一個新的大規(guī)模和模板豐富的數(shù)學(xué)單詞問題數(shù)據(jù)集,包含K個中國小學(xué)水平的數(shù)學(xué)問題,是Mth2K的9倍每個問題都包含黃金答案和得出答案所需的方程式有K個模板是Mth2K的5倍。圖表:pK與現(xiàn)有數(shù)學(xué)應(yīng)用題數(shù)集的比較數(shù)據(jù)集問題模板w/EC(%)Alg14Ksmanetl.,21)-Doli178Sitl.,25),88,13-AllAith(RoyndRot,07)--WPSKclKedioskitl.,21)33--Doli1KHagtl.,0),0,81-t2KWgtl.,27),0,17.8%Ae1K0,88,2.0%注“/EC%)”指具有除1和π以外的外部常數(shù)的方程的百分比。Wiot.Ae1K:AreScleadTmlateRichDtastofthWdPolems”00,DRCD數(shù)據(jù)集于8年由臺達研究中心和臺達電子聯(lián)合發(fā)布一個開放領(lǐng)域的傳統(tǒng)中文機器閱讀理解數(shù)據(jù)集,包含來自8篇維基百科文章的4個段落和由注釋者生成的3,941個問答對。圖表:D的問題類型問題類型占比()示例關(guān)鍵詞How3如何W.2什么W.9何時W.98哪里which.6何種W.6誰W.27為何ter.97XCihCihSaoet.DRCD:aCinsecieRaingCmphsinDatst”1,F(xiàn)CGC數(shù)據(jù)集:于2年由浙江大學(xué)和華為聯(lián)合發(fā)布。FCGC用于檢測、識別和糾正語法錯誤是一個人工標(biāo)注的多參考語料庫由340個句子組成主要來自公立學(xué)校語文考試中的選擇題。圖表:不同漢語語法糾錯語料庫的對比語料庫來源范式句子ErrrRfsLnthNLPCC(0)CL代碼錯誤008(.%).1.7CGEDCL代碼錯誤15878.7%).0.6CTCQu22)Naive代碼錯誤24.5%).0.9CGEC22)CL重寫634(.%).3.5CGECNaie操作30575.47).7.1注Err中的數(shù)字表示語料庫中不正確句子的百分比Res表示平均每個句子中包含的引用數(shù)#eth表示每個句子中平均包含的字符數(shù)。vioweiut.FCGEC:in-GrinedCrsfrCiseGammticlErrCorctio”0,-KR數(shù)據(jù)集于2年由復(fù)旦大學(xué)字節(jié)跳動人工智能實驗室和ranecholoies,Ic.聯(lián)合發(fā)布。數(shù)據(jù)集包含來自公務(wù)員考試的5個(中文)和1個(英文)問題,這些問題需要深入的背景知識才能解決。圖表:EKR與以往類比基準(zhǔn)的比較數(shù)據(jù)大小數(shù)據(jù)集語言訓(xùn)練有效測試)候選人中的術(shù)語已經(jīng)解釋SAT英文0/7/372?Gole英文0/0/002?BATS英文0/9/1,792?EKAR中文,15/65/356.%,33.%)?英文0/19/226.%,33.%)?Jiajieent.“-KAR:ABcmkfrRainliingNtulagaeAnloiclResoing”02,華泰研究DoubanConvestionCopus數(shù)據(jù)集:于7年由北京航空航天大學(xué)、南開大學(xué)和微軟研究院聯(lián)合發(fā)布。豆瓣會話語料庫包括一個訓(xùn)練數(shù)據(jù)集、一個開發(fā)集和一個基于檢索的聊天機器人的測試集,測試數(shù)據(jù)包含0個對話上下文。圖表:豆瓣會話語料庫統(tǒng)計數(shù)據(jù)集訓(xùn)練有效測試上下文響應(yīng)對1M每個上下文的候選人22每個上下文的積極候選人11.18最小值#每個上下文的轉(zhuǎn)數(shù)333最大值#每個上下文的轉(zhuǎn)數(shù)815平均值#每個上下文的轉(zhuǎn)數(shù).69.75.45平均值#每句話的字?jǐn)?shù).6.5.4uWut.SuntilatcingNetok:ANewAcitctuefrltitunRspseSlctioninRetievlBasdChtts”1,ODQA數(shù)據(jù)集于8年由臺灣大學(xué)發(fā)布ODA數(shù)據(jù)集是用于中文問答的口語數(shù)據(jù)集。它包含來自0位不同演講者的三千多個問題。圖表:OSQ、T、barns的數(shù)據(jù)統(tǒng)計子集問答對時長MprsSrsWER%)WERQ(%)文檔的平均長度問題的平均長度)DSQAtst,45.87.1.78.2.8)DRCDTTS,6---.3-2.0.3)DRCD-ackts,8---.4-9.5.5ChisanLet.“ODSQA:OPEN-DOAINSPOKENQUESTINANWERNGDATASET”08,MTINF數(shù)據(jù)集于0年由武漢大學(xué)和密歇根大學(xué)聯(lián)合發(fā)布MTINF是一個聯(lián)合標(biāo)注的大規(guī)模數(shù)據(jù)集,用于中文母嬰護理領(lǐng)域的分類、問答和總結(jié)。數(shù)據(jù)集中的一個條目包括四個字段:問題、描述、類別和答案。從中國大型母嬰護理QA網(wǎng)站收集了近0萬對問答對,其中包含細粒度的人工標(biāo)記類,數(shù)據(jù)清洗后,用剩余的7萬個條目構(gòu)建。圖表:MIF中問題、描述和答案的平均字符數(shù)和單詞數(shù)單詞問題描述答案平均長度字符.2.7.1單詞.03.0.2-Canenut.“ATN:AJinlyLldageScleDtstfrClssificti,QestionAsweigadSmmitin”20,中國開源數(shù)據(jù)集:多模態(tài)模型數(shù)據(jù)集uDaoMM數(shù)據(jù)集:于02年由清華大學(xué)和北京智源人工智能研究院聯(lián)合發(fā)布。WDaoM是北京智源人工智能研究院WDCorpra開源數(shù)據(jù)集的一部分WDaoMM是圖像和文本的多模態(tài)預(yù)訓(xùn)練數(shù)據(jù)完整的數(shù)據(jù)集包含5億對圖像和文本包含幾千萬對的強相關(guān)數(shù)據(jù)和6億對弱相關(guān)數(shù)據(jù),包含9大類,分別是:能源、表情、產(chǎn)業(yè)、醫(yī)療、觀、動物、新聞、花卉、教育、藝術(shù)、人物、科學(xué)、海洋、樹木、汽車、社會、科技、體育等。MGE數(shù)據(jù)集:于1年由清華大學(xué)和阿里巴巴聯(lián)合發(fā)布,包括圖像描述、圖像文本檢索和基于文本的圖像生成3種多模態(tài)理解和生成任務(wù)。圖表:ME數(shù)據(jù)集——多模態(tài)數(shù)據(jù)示例 圖表:WuM數(shù)據(jù)集——強相關(guān)性圖像文本對示例Jnangnt.“6:AChinseltimolPetriner”22,華泰研究

:SaYant.WDao:AlaescleltidlDatsetfrPtiingmdls”02,Noah-ukong數(shù)據(jù)集于2年由華為諾亞方舟實驗室和中山大學(xué)聯(lián)合發(fā)布諾亞悟空數(shù)據(jù)集是一個大規(guī)模的多模態(tài)中文數(shù)據(jù)集,包含0萬對圖文對,數(shù)據(jù)集中的圖像根據(jù)小和寬高比進行過濾,數(shù)據(jù)集中的文本根據(jù)其語言,長度和頻率進行過濾。隱私和敏感詞也被考慮在內(nèi)。Zeo數(shù)據(jù)集:于2年由北京航空航天大學(xué)、清華大學(xué)、奇虎0人工智能研究所聯(lián)合發(fā)布。Zero是一種大規(guī)模的中文跨模態(tài)基準(zhǔn)測試,其中包含目前最大的公共預(yù)訓(xùn)練數(shù)據(jù)集ZRO-Corps和五個用于下游任務(wù)的人工注釋微調(diào)數(shù)據(jù)集。ZRO-Corps包含5億張圖片和5億篇文字描述另外五個微調(diào)數(shù)據(jù)集中的兩個也是目前中國跨模式下游任務(wù)中最大的數(shù)據(jù)集。圖表:oaWuong數(shù)據(jù)集——模型概述 圖表:Zeo數(shù)據(jù)集——示例 :JiaiGut.Wk:A10illinLrescleChineseCssmdlPrtiingBncmak”2,

:Cunuiet.“EROndR2D2:AaescleCinseCssmdlBecmakdaVisin-nugeFmewok”2,COCO-CN數(shù)據(jù)集于28年由中國人民大學(xué)發(fā)布COCO-CN是一個雙語圖像描述數(shù)據(jù)集,通過手動編寫的中文句子和標(biāo)簽豐富了-COCO。新數(shù)據(jù)集可用于多種任務(wù),包括圖像標(biāo)記字幕和檢索所有這些都在跨語言環(huán)境中完成COCO-CN擁有2張圖片,2,218個中文句子和3個標(biāo)簽為跨語言圖像標(biāo)注字幕和檢索提供了一個統(tǒng)一平臺。Flikr8k-CN&Flicr3k-CN數(shù)據(jù)集:于7年由浙江大學(xué)和中國人民大學(xué)聯(lián)合發(fā)布。Fckrkcn是公共數(shù)據(jù)集,每個測試圖像與5個中文句子相關(guān)聯(lián),這些句子是通過手動譯Fckrk中對應(yīng)的5個英文句子獲得的。Fckr3kn是Fckr3k的雙語版本,通過其訓(xùn)練有效集的英譯漢機器翻譯和測試集的人工翻譯獲得。圖表:ON數(shù)據(jù)集——示例 圖表:FlirN數(shù)據(jù)集——跨語言圖像字幕示例:ingitl.COC-CNfrCrss-inulmeTain,CatiingdRtievl”09,

Wunt.“l(fā)uc-GiddCoss-inglmgeCtiin”1,oduct1M數(shù)據(jù)集于1年由北京交通大學(xué)阿里巴巴和中山大學(xué)聯(lián)合發(fā)布rouct1M是用于實際實例級檢索的最大的多模式化妝品數(shù)據(jù)集之一,包含超過0萬個圖像對并由兩種樣品類型組成,即單產(chǎn)品和多產(chǎn)品樣品,其中包括各種化妝品品牌。IChalenger圖像中文描述數(shù)據(jù)集:數(shù)據(jù)來自217IChalengr,數(shù)據(jù)集對給定的每一張圖片有五句話的中文描述數(shù)據(jù)集包含0萬張圖片0萬句中文描述數(shù)據(jù)集包含人類關(guān)鍵點檢測(HD)、大規(guī)模屬性數(shù)據(jù)集(LD)和圖像中文字幕(ICC)三個子數(shù)據(jù)集。圖表:ProducM數(shù)據(jù)集——多模態(tài)實例級檢索 圖表:Ihallnger數(shù)據(jù)集——示例 資料來源:inhntl.“Pruct1:ToasWklySpvisdIstaceLvlPoctRetivlviaCrss-olPtiing”2,

:JaogWut.“AIChllgr:AaescleDatstfrGigDeprinmaeUnrstaig”07,國內(nèi)數(shù)據(jù)要素市場建設(shè)逐步完善,助力優(yōu)質(zhì)數(shù)據(jù)集生產(chǎn)流通數(shù)字中國建設(shè)規(guī)劃明晰,數(shù)據(jù)要素為發(fā)展框架中關(guān)鍵環(huán)節(jié)之一。3年2月7日,中共中央、國務(wù)院印發(fā)《數(shù)字中國建設(shè)整體布局規(guī)劃,文件中明確數(shù)字中國建設(shè)按照“22”的整體框架進行布局即夯實數(shù)字基礎(chǔ)設(shè)施和數(shù)據(jù)資源體“兩大基礎(chǔ)推進數(shù)字技術(shù)與經(jīng)濟、政治、文化、社會、生態(tài)文明建設(shè)“五位一體”深度融合,強化數(shù)字技術(shù)創(chuàng)新體系和數(shù)字安全屏“兩大能力優(yōu)化數(shù)字化

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論