Kimi+K1.5：使?LLMS擴展強化學習

上傳人：1*** IP屬地：山西上傳時間：2025-02-17 格式：DOCX 頁數：50 大小：763.48KB 積分：19.9 舉報 版權申訴

已閱讀5頁，還剩45頁未讀，繼續免費閱讀

版權說明：本文檔由用戶提供并上傳，收益歸屬內容提供方，若內容存在侵權，請進行舉報或認領

文檔簡介

KIMIK1.5:使?LLMS擴展強化學習KIMIK1.5技術報告Kimi團隊受到可?訓練數據量的限制。擴展強化學習（RL）為??智能的持續改進開辟了新的?向，?型語?模型（LLMs）通過學習探索獎勵來擴展其訓練數據，有望實現規?；?。然?，先前發表的?作未能取得競爭性成果。鑒于此，我們報告了Kimik1.5的訓練實踐，這是我們最新的使?強化學習訓練的多模態LLM，包括其強化學習訓練技術、多模態數據配?和基礎設施優化。??本上下?擴展和改進的策略優化?法是我們?法的關鍵組成部分，它建?了?個簡約?有效的RL框架，不依賴于蒙特卡洛樹搜索、價值函數和進程獎勵模型等更復雜的技術。值得注意的是，我們的系統在多個基準測試和模態中實現了最新的推理性能——如在AIME上為77.5，在MATH500上為96.2，在Codeforces上為94百分位，在MathVista上為74.9——匹配了OpenAI的o1。此外，我們提出了有效的?2短?法，使??-CoT技術改進短-CoT模型，實現了最新的短-CoT推理結果——如在AIME上60.8，在MATH500上94.6，在LiveCodeBench上47.3——明顯優于現有的短-CoT模型，如GPT-4o和ClaudeSonnet3.5（最?達+550%）。OpenAIo1QwQ-32B預覽OpenAIo1-mini視覺74.9MathVista(Pass@1)MMMU(Pass@1)數學96.294.8OpenAIo1QwQ-32B預覽OpenAIo1-mini視覺74.9MathVista(Pass@1)MMMU(Pass@1)數學96.294.8AIME2024(Pass@1)MATH500(EM)代碼代碼62.540.6LiveCodeBenchv5Codeforces(Percentile)圖1：Kimik1.5long-CoT結果Kimik1.5TECHNICALREPORT2 Kimik1.5短-CoTOpenAI4oClaude3.5SonnetQwen2-VLLLaMA-3.1405B-Inst.DeepSeekV3Qwen2.572B-Inst.視覺數學代碼視覺數學圖2：Kimik1.5短期-CoT結果在?例縮放模型參數和數據??的上下?下，已經研究了使?下?個標記預測進?語?模型預訓練的擴展定律。這導致了智能的持續改進。(Kaplan等，2020;Hoffmann等，2022)然?，這種?法受到可??質量訓練數據量的限制(Villalobos等，2024;Muennighoff等，2023)。在本報告中，我們介紹了Kimik1.5的訓練配?，這是我們最新的使?強化學習(RL)訓練的多模式LLM。?標是探索持續擴展的可能新軸。使?LLM進?RL，模型可以通過獎勵來探索學習，因此不受現有靜態數據集的限制。關于k1.5設計和訓練的?個關鍵要點??上下?縮放。我們將RL的上下?窗?擴展到128k，并觀察到隨著上下??度的增加，性能持續改進的情況。我們?法背后的?個關鍵思想是使?部分回合來提?訓練效率，即通過重復使??塊先前軌跡來抽樣新的軌跡，避免了從頭開始重新?成新軌跡的成本。我們的觀察將上下??度確定為RL與LLM持續擴展的關鍵維度。?改進的策略優化。我們推導出具有?CoT的RL的公式，并采?在線鏡像下降的變體進?穩健的策略優化。通過我們的有效抽樣策略、?度懲罰和數據配?的優化，進?步改進了這?算法。?簡單框架。?上下?縮放，結合改進的策略優化?法，建?了?個簡單的RL框架，?于與LLM學習。由于我們能夠擴展上下??度，學到的CoTs表現出規劃、反思和修正的特性。增加上下??度會增加搜索步數。因此，我們展?了可以在不依賴于諸如蒙特卡羅樹搜索、價值函數和過程獎勵模型等更復雜技術的情況下實現強?的性能。?多模態。我們的模型是在?本和視覺數據上聯合訓練的，具有同時推理這兩種模態的能?此外，我們提出了有效的?2短?法，利??-CoT技術改進短-CoT模型。具體來說,我們的?法包括使??-CoT激活和模型合并來應??度懲罰。我們的?-CoT版本在多個基準和模態上實現了最先進的推理性能，例如在AIME上達到77.5，在MATH500上達到96.2,在Codeforces的94百分位，MathVista上達到74.9，與OpenAI的o1相匹配。我們的模型還實現了最先進的短-CoT推理結果，如在AIME上達到60.8，在MATH500上達到94.6，在LiveCodeBench上達到47.3，遠遠超過現有的短-CoT模型，如GPT-4o和ClaudeSonnet3.5，差距可?達550%。結果請參?圖1和圖2。Kimik1.5TECHNICALREPORT32?法：使?LLMs的強化學習Kimik1.5的開發包括?個階段：預訓練，普通監督微調（SFT），?期監督微調和強化學習（RL）。本報告側重于RL，從強化學習提?集策劃概述（第2.1節）和?期監督微調（第2.2節）開始，然后深?討論RL訓練策略（第2.3節）。關于預訓練和普通監督微調的更多細節可在第2.5節中找到。2.1強化學習提?集策劃通過我們的初步實驗，我們發現強化學習提?集的質量和多樣性在確保強化學習的有效性??發揮著關鍵作?。?個構建良好的提?集不僅可以指導模型進?穩健的推理，還可以減輕獎勵欺騙和過度擬合表?模式的?險。具體來說，三個關鍵屬性定義了?個?質量的強化學習提?集:??泛覆蓋：提?應跨越各種學科，如STEM，編碼和?般推理，以增強模型的適應性，并確保在不同領域具有?泛適?性。?平衡難度：提?集應包括?系列易，適中和困難問題，以促進漸進式學習，防?對特定復雜性?平過度擬合。?準確的評估性：提?應允許驗證者進?客觀和可靠的評估，確?；谡_推理?不是表?模式或隨機猜測來衡量模型的表現。為了在提?集中實現多樣化的覆蓋范圍，我們采??動過濾器來選擇需要豐富推理并且易于評估的問題。我們的數據集包括來?各種領域的問題，如STEM領域、競賽和?般推理任務，涵蓋了純?本和圖像?本問答數據。此外，我們開發了?個標記系統，將提?按領域和學科進?分類，確保在不同學科領域間保持平衡的代表性（M.Li等，2023年；W.Liu等，2023年）。我們采?基于模型的?法，利?模型??的能??適應評估每個提?的難度。具體??，對于每個提?，?個SFT模型使?相對較?的采樣溫度?成?次答案。然后計算通過率并將其?作提?難度的代理——通過率越低，難度越?。這種?法使難度評估與模型固有能?保持?致，對于RL訓練?常有效。通過利?這種?法，我們可以預先過濾掉?多數瑣碎的情況，并在RL訓練期間輕松探索不同的采樣策略。為了避免潛在的獎勵破解（Everitt等，2021年；Pan等，2022年），我們需要確保每個提?的推理過程和最終答案都能被準確驗證。經驗觀察揭?，?些復雜的推理問題可能有相對簡單和容易猜測的答案，導致虛假的正?驗證——模型通過不正確的推理過程達到正確答案。為了解決這個問題，我們排除了容易發?此類錯誤的問題，例如多項選擇、正確/錯誤和基于證據的問題。此外，對于?般問答任務，我們提出了?種簡單但有效的?法來識別和移除易于破解的提?。具體來說，我們提?模型在沒有任何CoT推理步驟的情況下猜測潛在答案。如果模型在N次嘗試內預測正確答案，則認為該提?太容易破解并將其移除。我們發現將N=8可以移除?多數容易破解的提?。未來研究仍然是進?步發展更先進驗證模型的?個?向。2.2?CoT監督微調通過精?設計的RL提?集，我們采?提??程來構建?個?但?質量的?CoT熱?數據集，其中包含?本和圖像輸?的經過準確驗證的推理路徑。這種?法類似于拒絕抽樣（RS），但側重于通過提??程?成?CoT推理路徑。最終得到的熱?數據集旨在涵蓋那些對類?類推理?關重要的關鍵認知過程，?如規劃，模型在執?前系統地概述步驟；評估，涉及對中間步驟的關鍵評估；反思，使模型能夠重新考慮和完善其?法;以及探索，?勵考慮替代解決?案。通過在這個熱?數據集上進?輕量級的SFT，我們有效地讓模型內化這些推理策略。因此，微調后的?CoT模型展現出更好的能?，?成更詳細和邏輯連貫的回答，從?提?了其在各種推理任務中的性能。Kimik1.5TECHNICALREPORT42.3強化學習2.3.1問題設定給定訓練數據集D={(xi,y)}ni=1，其中包含問題xi和相應的實際答案yi，我們的?標是訓練?個策略模型πθ來準確解決測試問題。在復雜推理的背景下，問題x到解答y的映射并不是微不?道的。為了應對這?挑戰，思維鏈（CoT）?法提議使??系列中間步驟z=(z1,z2,...,zm)來連接x和y，其中每個zi都是?系列連貫的令牌，作為解決問題的重要中間步驟（J.Wei等，2022年）。解決問題x時，思維ztπθ(·|x,z1,...,zt?1)會被?回歸采樣，然后得到最終答案yπθ(·|x,z1,...,zm)。我們?y,zπθ表?這?采樣過程。需要注意的是，思維和最終答案都被采樣為語?序列。為了進?步增強模型的推理能?，在推理時采?了規劃算法來探索各種思維過程，?成更優越的CoT（Yao等，2024年；Y.Wu等，2024年；Snell等，2024年）。這些?法的核??解是明確構建?個受價值估計指導的思維搜索樹。ztπθ(·|x,z1,...,zt?1)?回歸采樣，隨后得出最終答案yπθ(·|x,z1,...,zm)。我們使?y,zπθ來表?這?采樣過程。請注意，這?提到的思考過程和最終答案都是作為語?序列進?采樣的。為進?步增強模型的推理能?，我們使?規劃算法來探索各種思考過程，從?在推理時?成改進的CoT(Yao等,2024;Y.Wu等,2024;Snell等,2024)。這些?法的核?洞察?在于通過價值估計來明確構建思考過程的搜索樹。這使模型能夠探索思維過程的多樣化延續，或者在遇到死胡同時回溯以調查新的?向。更詳細地說，讓T成為?個搜索樹，其中每個節點代表?個部分解s=(x,z1:|s|).這?s包含問題x和?系列思考z1:|s|=(z1,...,z|s|)，導致到達該節點，其中|s|表?序列中的思考數量。規劃算法使?評論家模型v來提供反饋v(x,z1:|s|)，幫助評估解決問題的當前進展，并識別現有部分解決?案中的任何錯誤。我們指出，反饋可以由辨別分數或語?序列(L.Zhangetal.2024)提供。在T中為所有s提供反饋的指導下，規劃算法選擇最有前景的節點以擴展，從?增?搜索樹。上述過程反復進?，直到得出完整解。我們還可以從算法?度考慮規劃算法。給定在第t次迭代時可?的過去搜索歷史(s1,v(s1),...,st?1,v(st?1))，規劃算法A迭代確定下?個搜索?向A(st|s1,v(s1),...,st?1,v(st?1))并為當前搜索進度提供反饋A(v(st)|s1,v(s1),...,st)。由于思考和反饋都可以看作是中間推理步驟，并且這些組件都可以表?為?系列語?標記，我們使?z替代s,v來簡化符號。因此，我們將規劃算法視為直接作?于?系列推理步驟A(·|z1,z2,...)的映射。在這個框架中，規劃算法使?的存儲在搜索樹中的所有信息被扁平化為提供給算法的全?背景。這提供了?個有趣的視?來?成?質量的CoT：與明確構建搜索樹和實施規劃算法不同，我們可能訓練?個模型來近似這個過程。在這?，思考數量(即語?標記)作為傳統分配給規劃算法的計算預算的類?。?上下?窗?的最新進展在訓練和測試階段都促進了?縫可伸縮性。如果可?，這種?法使模型能夠通過?回歸預測直接在推理空間上運?隱式搜索。因此，模型不僅學會解決?組訓練問題，還能有效地解決單個問題，從?實現對未?測試問題的改進泛化能?。因此，我們考慮通過強化學習(RL)訓練模型?成CoT（OpenAI2024）。令r為?個獎勵模型，根據基本真相y，通過賦予?個值r(x,y,y)∈{0,1}來證明對于給定問題x的提議答案y的正確性,直接由預定義的標準或規則確定獎勵的可驗證問題。例如，在編碼問題中，我們評估答案是否通過了測試?例。對于具有?由形式基本真相的問題，我們訓練獎勵模型r(x,y,y)，預測答案是否符合基本真相。給定問題x，模型πθ通過采樣過程?成CoT和最終答案zπθ(·|x),yπθ(·|x,z)。?成的CoT的質量通過其是否能導致正確的最終答案來評估。在總結中，我們考慮以下?標來優化策略θE(x,y)D,(y,z)πθ[r(x,y,y)](1)通過擴?RL訓練規模，我們旨在訓練?個模型，充分利?簡單基于提?的CoT和增強規劃的CoT的優勢。該模型在推理過程中仍會?回歸抽樣語?序列，從?避免了部署過程中?級規劃算法所需的復雜并?化。然?，與簡單基于提?的?法的?個關鍵區別在于，該模型不僅僅是遵循?系列推理步驟。相反，它還應該通過利?整個探索思路集合作為上下?信息，學習關鍵的規劃技能，包括錯誤識別、回溯和解決?案優化。Kimik1.5TECHNICALREPORT52.3.2政策優化我們應?在線政策鏡像下降的變體作為我們的訓練算法(Abbasi-Yadkori等?2019年;Mei等?2019年;Tomar等?2020年)。該算法進?迭代。在第i次迭代中，我們將當前模型πθi作為參考模型，優化以下相對熵正則化的政策優化問題。最?θ[E(x,y)DE(y,z)πθ[r(x,y,y)]?τKL(πθ(x)||πθi(x))],其中τ>0是控制正則化程度的參數。該?標有?個封閉形式的解∑這?Z=∑y′,z′πθi(yπ(y,z|x)=πθi(y,z|x)exp(r(x,y,y)/τ)/Z′,z′|x)exp(r(x,y′,y)/τ)是標準化因?。取兩邊的對數，我們對于任意的(y,z)都有以下約束被滿?，這使我們能夠在優化過程中利?離線數據這激勵以下的替代損失L(θ)=E(x,y)DE(y,z)πθir(x,y,y)?τlogZ?τlogπθ(y,z|x)πθi(y,z|x)為了近似τlogZ，我們使?樣本(y1,z1),...,(yk,zk)πθi：τlogZ≈τlog∑kj=1exp(r(x,yj,y*)/τ我們還發現使?采樣獎勵r的經驗均值r=mean(r(x,y1,y*),...,r(x,yk,*y))會產?有效實?結果。因為τlogZ在τ→∞時接近πθi下的預期獎勵，所以這是合理的。最后，我們通過取替代損失的梯度來總結我們的學習算法。對于每個問題x，使?參考策略πθi抽取k個響應，梯度由j=1對于熟悉策略梯度?法的?來說，這個梯度類似于使?采樣獎勵均值作為基線的策略梯度(2)，但存在?些主要區別，即響應是從πθi中采樣?不是on-policy，并且應?了l2-正則化。因此，我們可以將其視為通常的on-policy正則化策略梯度算法向off-policy情況的?然延伸。我們從D中抽樣?批問題，并更新參數到θi+1，隨后這些參數作為下?次迭代的參考策略。由于每次迭代考慮到由于參考策略的更改?導致的不同優化問題，我們還在每次迭代開始時重新設置優化器。假設zt+1直接導致正確答案，?z′t+1包含?些錯誤。如果存在?個oracle值函數，將指出zt+1相對于z'保留了更?的價值t+1.根據標準信?分配原則，選擇z't+1將受到懲罰，因為相對于當前政策，它具有負?優勢。然?，探索z't+1對于訓練模型?成較?的CoT?常有價值。通過使?從?CoT中得出的最終答案作為獎勵信號，模型可以學習從選擇z'開始的試錯模式鍵2.3.3?度懲罰2.3.3?度懲罰我們觀察到?種過度思考的現象，在強化學習訓練過程中，模型的響應?度明顯增加。盡管這會導致更好的性能，但過?的推理過程在訓練和推理過程中成本?昂，并且?們通常不喜歡過度思考。為了解決這個問題，我們引?了?度獎勵來限制令牌?度的快速增?，從?提?模型的令牌效率。給定k個抽樣響應Kimik1.5TECHNICALREPORT6（y1，z1...yk，zk）的問題x的真實答案為y，讓len(i)表?（yi，zi）的?度，min_len=minilen(i)，max_len=maxilen(i)。如果max_len=min_len，則對所有響應設置?度獎勵為零，因為它們具有相同的?度。否則，?度獎勵由{len_reward(i)=λ如果r(x,yi,y)=1,其中λ=0.5-len(i)-min_lenmin(0,λ)如果r(x,yi,y)=0max_len-min_len.實質上，我們促進正確響應中的較短回答，懲罰較?回答，同時明確懲罰帶有不正確答案的?回答。然后將基于?度的獎勵添加到具有加權參數的原始獎勵中。在我們的初步實驗中，?度懲罰可能會在初始階段減慢訓練速度。為了緩解這個問題，我們建議在訓練過程中逐漸啟??度懲罰。具體??，我們采?標準的策略優化?沒有?度懲罰，然后在訓練的其余部分使?恒定的?度懲罰。2.3.4采樣策略盡管強化學習算法本?具有相對良好的采樣特性（難題提供較?的梯度），但它們的訓練效率受到限制。因此，?些明確定義的先前采樣?法可能會產?潛在的更?性能提升。我們利?多個信號進?步改進采樣策略。?先，我們收集的強化學習訓練數據?然帶有不同的困難標簽。例如，?道數學競賽題??道?學數學題更困難。其次，由于強化學習訓練過程多次對同?問題進?采樣，我們還可以跟蹤每個單獨問題的成功率作為困難度的度量。我們提出了兩種采樣?法來利?這些先驗信息以提?訓練效率。課程采樣我們從訓練簡單的任務開始，逐漸過渡到更具挑戰性的任務。由于初始的強化學習模型性能有限,將有限的計算資源?于?常困難的問題通常只會產?很少的正確樣本，導致訓練效率降低。同時，我們收集的數據?然包含年級和困難度標簽，使基于困難度的采樣成為提?訓練效率的直觀有效?法。優先采樣除了課程采樣以外，我們使?優先采樣策略專注于模型表現較差的問題。我們跟蹤每個問題i的成功率si，并按?例對問題進?采樣，使得成功率較低的問題獲得較?的采樣概率。這將引導模型的努?集中在最薄弱的領域，實現更快的學習和更好的整體性能。通過動態調整si值，使成功率較低的問題獲得更?的采樣概率。這將引導模型將精?集中在最薄弱的領域，加快學習速度，提?整體性能。2.3.5關于訓練配?的更多細節編碼測試?例?成由于許多?絡編碼問題沒有提供測試?例，我們設計了?種?法來?動?成作為獎勵訓練我們的模型與強化學習的測試?例。我們的重點主要是不需要特殊評判的問題。我們還假設這些問題的正確解決?案可?，以便我們可以利?解決?案?成更?質量的測試?例。我們利??泛認可的測試?例?成庫CYaRon1來增強我們的?法。我們使?我們的基本Kimik1.5根據問題描述?成測試?例。將CYaRon的使?說明和問題描述作為?成器的輸?。對于每個問題，我們?先使??成器?成50個測試?例，同時為每個測試?例隨機抽取10份正確的提交。我們對提交進?測試。如果?少有7份提交結果匹配，則測試?例被視為有效。經過此輪篩選后，我們獲得?組篩選后的測試?例。如果?少有9份提交經過全部篩選后通過整組測試?例，問題及其關聯的篩選測試?例將添加到我們的訓練集中。從1,000個在線?賽問題的樣本中統計，?約有614個問題不需要特殊評審。我們開發了463個測試?例?成器，產??少40個有效測試?例，使得我們的訓練集中包含了323個問題。數學獎勵建模數學解決?案評估中的?個挑戰是，不同的書?形式可以表?相同的基本答案。例如，a2?4和(a+2)(a-2)可能都是同?個問題的有效解決?案。我們采?了兩種?法來提?獎勵模型的評分準確性:1.經典RM:我們從InstructGPT（Ouyang等?，2022年）的?法中汲取靈感，實現了?個基于價值頭的獎勵模型，并收集了約800k個數據點進?微調。該模型最終收集了約800k個數據點進?微調。該模型最終達到了Kimik1.5TECHNICALREPORT7將“問題”、“參考答案”和“回答”作為輸?，并輸出?個標量，指?回答是否正確。具有思維鏈（CoT）推理的增強可以在某些任務上明顯優于傳統?法，特別是在需要微妙的正確性標準的任務上，?如數學。因此，我們收集了?約800k個帶有CoT標簽的?例數據集，對Kimi模型進?了微調。基于傳統RM相同的輸?，思維鏈?法明確?成?種逐步推理過程，然后以JSON格式提供最終的正確性判斷，從?實現更穩健和可解釋的獎勵信號。在我們的?動抽查中，經典RM的準確率約為84.4，?線性思維RM達到了98.5的準確率。在RL訓練過程中,我們采?了線性思維RM以確保更準確的反饋。視覺數據為了提升模型的實際圖像推理能?，并實現視覺輸?與?型語?模型（LLM）之間更有效的對?，我們的視覺強化學習（VisionRL）數據主要來?三個不同類別：真實世界數據、合成視覺推理數據和?本渲染數據。1.真實世界數據涵蓋了各個年級科學問題的范圍，需要理解圖形、位置猜測任務、數據分析等要求視覺感知和推理的任務，包括理解復雜圖表等各種類型的數據。這些數據集提?了模型在真實場景下進?視覺推2.合成視覺推理數據是???成的，包括為改進特定視覺推理技能?創建的程序化圖像和場景，例如理解空間關系、?何模式和物體交互。這些合成數據集為測試模型的視覺推理能?提供了受控環境，并提供了?窮?盡的訓練?例。3.?本渲染數據是通過將?本內容轉換為視覺格式創建的，使模型在處理不同模態下的基于?本查詢時能夠保持?致性。通過將?本?檔、代碼?段和結構化數據轉換為圖像，我們確保模型?論輸?是純?本還是?本渲染為圖像（如截圖或照?）都能提供?致的響應。這也有助于增強模型處理?本密集圖像時的能?。每種類型的數據在構建綜合的視覺語?模型??都是?關重要的，可以有效地管理各種實際應?，并確?？绺鞣N輸?模態時性能?致。2.4?2短：短CoT模型的上下?壓縮盡管?CoT模型表現出?，但與標準短CoTLLM相?，它消耗更多測試時間標記。然?，可以將?CoT模型中的思考先驗知識轉移到短CoT模型中，以便即使在有限的測試時間標記預算下也能提?性能。我們提出了?種解決這個?2短問題的?法，包括模型合并（Yang等?，2024年），最短拒絕采樣，DPO（Rafailov等?2024年），以及?2短RL。以下詳細描述了這些?法:模型合并模型合并在保持泛化能???被發現是有?的。我們還發現，在合并?cot模型和短cot模型時，它在改進標記效率???常有效。該?法將?個?cot模型與?個較短模型結合起來，以獲得?個新模型??需訓練。具體來說，我們通過簡單地平均它們的權重來合并這兩個模型。最短拒絕采樣我們觀察到我們的模型對于同?問題?成具有很??度變化的響應?；诖耍覀冊O計了最短拒絕采樣?法。這種?法對同?問題進?n次采樣（在我們的實驗中，n=8），并選擇最短的正確響應進?監督微調。DPO與最短拒絕采樣類似，我們利??CoT模型?成多個響應樣本。選擇最短的正確解作為正樣本，?較?的響應則作為負樣本，包括錯誤的較?響應和正確的較?響應（?所選正樣本?1.5倍的響應）。這些正負對形成了?于DPO訓練的成對偏好數據。Kimik1.5TECHNICALREPORT8?2短RL在標準RL訓練階段之后，我們選擇?個在性能和令牌效率之間提供最佳平衡的模型作為基礎模型,并進?單獨的?到短RL訓練階段。在第?階段中，我們應?了第2.3.3節中介紹的?度懲罰，并顯著減?最?推出?度，以進?步懲罰超出所需?度的響應，同時可能進?校正。2.5其他訓練細節2.5.1預訓練Kimik1.5基礎模型在多樣性?質量的多模態語料庫上進?訓練。語?數據涵蓋英語、中?、代碼、數學推理和知識等五個領域。多模態數據包括字幕、圖像-?本交叉、OCR、知識和問答數據集，使我們的模型能夠獲得視覺-語?能?。嚴格的質量控制確保總體預訓練數據集的相關性、多樣性和平衡。我們的預訓練分為三個階段:(1)視覺-語?預訓練，建?強?的語?基礎，隨后逐漸進?多模態集成；(2)冷卻，利?策劃和合成數據鞏固能?，特別是針對推理和基于知識的任務；(3)?上下?激活，將序列處理擴展到131,072個標記。有關我們預訓練?作的更多細節，請參閱附錄B。2.5.2傳統監督微調我們創建了覆蓋多個領域的?草SFT語料庫。對于?推理任務，包括問答、寫作和?本處理，我們?先通過??注釋構建種?數據集。這個種?數據集?于訓練種?模型。隨后，我們收集各種提?并使?種?模型為每個提??成多個響應。注釋員然后對這些響應進?排名，并調整排名靠前的響應以?成最終版本。對于數學和編碼問題等推理任務，其中基于規則的驗證和基于獎勵建模的準確性和效率優于?類判斷，我們利?拒絕抽樣來擴展SFT數據集。我們創建了覆蓋多個領域的傳統SFT語料庫。對于?推理任務，包括問答、寫作和?本處理，我們通過??注釋?先構建種?數據集。這個種?數據集?于訓練?個種?模型。隨后，我們收集各種提?并使?種?模型為每個提??成多個響應。注釋者然后對這些響應進?排名，并優化排名靠前的響應以?成最終版本。對于像數學和編碼問題這樣的推理任務，其中基于規則和基于獎勵建模的驗證??類判斷更準確和有效，我們利?拒絕抽樣來擴展SFT數據集。我們?先在32k標記的序列?度上訓練模型1輪，然后在128k標記的序列?度上進?另?輪。在第?階段(32k)中，學習率從2×10^(-5)衰減到2×10^(-6)，然后在第?階段(128k)中重新升溫到1×10^(-5)，最后衰減到1×10^(-6)。為了提?訓練效率，我們將多個訓練?例打包到每個單個訓練序列中。訓練員?策略模型訓練員?策略模型模型重量梯度更新展開式??重量梯度更新展開式??訓練數據主控展開軌跡訓練數據主控展開軌跡獎勵模型獎勵模型代碼數學評估請求重放緩沖區重放緩沖區權重流數據流展開?作?員展開?作?員圖3：?規模強化學習訓練系統LLMKimik1.5TECHNICALREPORT92.6.1針對LLM的?規模強化學習訓練系統在??智能領域，強化學習（RL）已經成為?型語?模型（LLMs）的關鍵訓練?法，從其在掌握復雜游戲如圍棋、星際爭霸II和Dota2??的成功中吸取靈感，通過AlphaGo（Silver等?，2017）、AlphaStar(Vinyals等?，2019）和OpenAIDotaFive（Berner等?，2019）等系統。繼承這?傳統，Kimik1.5系統采?了?個迭代同步的強化學習框架，經過精?設計來通過持續學習和適應來增強模型的推理能?。這?系統的?個關鍵創新是引?部分展開技術，旨在優化處理復雜推理軌跡。如圖3a所?的RL訓練系統通過?個迭代同步?法運?，每個迭代包括?個展開階段和?個訓練階段。在展開階段，由中央主控制的展開?作者通過與模型交互?成展開軌跡，產?對各種輸?的響應序列。這些軌跡然后存儲在回放緩沖區中，確保通過破壞時間相關性為訓練提供多樣化且?偏?的數據集。在隨后的訓練階段，訓練?作者訪問這些經驗來更新模型的權重。這?循環過程使模型可以不斷地從其?動中學習，隨著時間的推移調整其策略以提升性能。中央主控充當中央指揮官，管理展開?作者、訓練?作者、評估以獎勵模型和回放緩沖區之間的數據流和通信。它確保系統協調運作，平衡負載并促進有效的數據處理。訓練?作者訪問這些展開軌跡，?論是在單個迭代中完成還是分布在多個迭代中，以計算梯度更新，優化模型的參數并增強其性能。這?過程由獎勵模型監督，評估模型輸出的質量并提供必要的反饋來引導訓練過程。獎勵模型的評估在確定模型策略的有效性和引導模型朝著最佳性能?向??尤為關鍵。此外，系統還整合了?個代碼執?服務，專?設計?于處理與代碼相關的問題并對獎勵模型?關重要。該服務在實際編碼場景中評估模型的輸出，確保模型的學習與現實世界的編程挑戰密切相關。通過將模型的解決?案與實際代碼執?進?驗證，這種反饋循環對于改進模型策略并提?其在與代碼相關任務中的性能?關重要。2.6.2?CoT強化學習的部分展開我們?作的主要思想之?是擴展?上下?強化學習訓練。部分展開是?種有效應對處理?CoT特征挑戰的關鍵技術，通過管理?短軌跡的展開來設定固定的輸出標記預算，限制每個展開軌跡的?度。如果在展開階段軌跡超過標記限制，未完成部分將保存到回放緩沖區，并在下?次迭代中繼續。確保沒有單個冗?軌跡壟斷系統資源。此外，由于展開?作者是異步運?的，當?些?作者參與?軌跡時，其他?可以獨?處理新的、較短的展開任務。異步操作通過確保所有展開?作者都積極參與訓練過程來最?限度地提?計算效率，從?優化系統的如圖3b所?，部分展開系統通過將?回復分段到迭代過程中（從迭代n-m到迭代n）來運作。回放緩沖區充當?個中央存儲機制，維護這些回復?段，僅當前迭代（迭代n）需要按政策計算。之前的?段（從迭代n-m到n-1）可以從緩沖區中?效地重復使?，消除了重復展開的需求。這種分段?法顯著減少了計算開銷：系統逐增地處理和存儲?段，?不是?次性展開整個回復，使得可以?成更?的回復同時保持快速迭代時間。在訓練過程中，可以排除某些?段不參與損失計算，進?步優化學習過程，使整個系統既?效?可擴展。部分展開的實施還提供了重復檢測。系統識別?成內容中的重復序列并及早終?它們，減少不必要的計算同時保持輸出質量。檢測到的重復內容可以被賦予額外的懲罰，有效地阻?在提?集中?成冗余內容。2.6.3訓練和推斷的混合部署強化學習訓練過程包括以下階段：Kimik1.5TECHNICALREPORT梅格特隆側?vLLM側?列?卸載更新權重啟動vLLM檢查點引擎裝載展開終?虛擬開始轉換HF等待展開共享梅格特隆側?vLLM側?列?卸載更新權重啟動vLLM檢查點引擎裝載展開終?虛擬開始轉換HF等待展開共享內存終?vLLM注冊碎?更新權重檢查點引擎其他的PodsRDMApodetcd圖4：混合部署框架?訓練階段：?開始，Megatron（Shoeybi等?，2020）和vLLM（Kwon等?，2023）在單獨的容器內執?，由?個稱為檢查點引擎（2.6.3節）的墊?進程封裝。Megatron開始訓練過程。訓練完成后，Megatron卸載GPU內存并準備將當前權重轉移到vLLM?推理階段：在梅加特隆的卸載之后，vLLM使?虛擬模型權重開始，并通過Mooncake從梅加特隆最新傳輸的權重更新它們（Qin等?，2024年）。在部署完成后，檢查點引擎將停?所有vLLM進程。?后續訓練階段：?旦分配給vLLM的內存被釋放，梅加特隆將加載內存并啟動另?輪訓練。我們發現現有的作品難以同時?持以下所有特征。?復雜的并?策略：梅加特隆可能具有不同的并?策略，梅加特隆中分布在?個節點的訓練權重可能很難與vLLM共享。?最?化空閑GPU資源：對于On-PolicyRL，最近的作品如SGLang（L.Zheng等?，2024年）和vLLM在訓練過程中可能保留?些GPU，這反?可能導致空閑的訓練GPU。在訓練和推理之間共享相同的設備將更?效。?動態縮放能?：在某些情況下，通過增加推理節點數量并保持訓練過程不變，可以實現顯著的加速。我們的系統在需要時能夠?效利?空閑GPU節點。如圖4所?，我們在Megatron和vLLM之上實現了這種混合部署框架（第2.6.3節），從訓練到推斷階段不到?分鐘，反之亦然約?秒鐘?；旌喜渴鸩呗晕覀兲岢隽?種?于訓練和推斷任務的混合部署策略，利?KubernetesSidecar容器共享所有可?的GPU，將兩個?作負載放置在?個Pod中。這種策略的主要優勢包括：?它促進了有效的資源共享和管理，防?當訓練節點和推斷節點部署在不同節點上時，訓練節點等待推斷節點?空轉。?利?不同的部署圖像，訓練和推斷可以獨?迭代，以獲得更好的性能。?該架構不僅限于vLLM，其他框架也可以?便地集成進來。檢查點引擎檢查點引擎負責管理vLLM進程的?命周期，提供HTTPAPI來觸發vLLM的各種操作。為了整體?致性和可靠性，我們利?由etcd服務管理的全局元數據系統來?播操作和狀態。Kimik1.5TECHNICALREPORT由于CUDA圖形、NCCL緩沖區和NVIDIA驅動程序，通過vLLM卸載GPU內存完全可能具有挑戰性。為了最?限度減少對vLLM的修改，我們在需要時終?并重新啟動它，以獲得更好的GPU利?率和容錯能?。Megatron中的?作程序將擁有的檢查點轉換為共享內存中的HuggingFace格式。此轉換還考慮了PipelineParallelism和ExpertParallelism，以便這些檢查點中僅保留TensorParallelism。隨后，共享內存中的檢查點被分成分?并在全局元數據系統中進?注冊。我們使?Mooncake通過RDMA在對等節點之間傳輸檢查點。需要對vLLM進??些修改以加載權重?件并執?張量并?轉換。2.6.4代碼沙箱我們開發的沙箱是?個安全環境，?于執???提交的代碼，優化了代碼執?和代碼基準評估。通過動態切換容器鏡像，沙箱?持通過MultiPL-E（Cassano，Gouwar，D.Nguyen，S.Nguyen等?。2023年DMOJJudgeServer2，Lean，JupyterNotebook和其他鏡像實現不同的?例。對于編碼任務中的RL，沙箱通過提供?致且可重復的評估機制來確保培訓數據判斷的可靠性。其反饋系統?持多階段評估，如代碼執?反饋和倉庫級別編輯，同時保持統?的上下?，以確保跨編程語?的公平和公正的基準?較。我們將服務部署在Kubernetes上，以獲得可伸縮性和彈性，并通過HTTP端點將其暴露以進?外部集成。Kubernetes的功能，如?動重啟和滾動更新，確?？?性和容錯能?。為了優化性能并?持RL環境，我們將?種技術整合到代碼執?服務中，以增強效率、速度和可靠性。這些技術包括:?使?Crun:我們使?crun作為容器運?時，?不是Docker，??減少了容器啟動時間。?CgroupReusing:我們預先為容器使?創建cgroups，在?并發場景中這是?關重要的，因為為每個容器創建和銷毀cgroups沙箱沙箱0.04?法容器Docker沙盒(a)容器啟動時間(b這些優化提?了RL執?效率，為評估由RL?成的代碼提供了?致且可靠的環境，對于迭代訓練和模型改進?關重要。3.1評估由于k1.5是?種多模態模型，我們對不同類型的基準進?了全?評估。詳細的評估設置可以在附錄C中找到。我們的基準主要包括以下三個類別：??本基準：MMLU(Hendrycks等?，2020)，IF-Eval(J.Zhou等?，2023)，CLUEWSC(L.Xu等?，2020)C-EVAL（?等?，2023年）?推理基準：HumanEval-Mul，LiveCodeBench（Jain等?，2024年），Codeforces，AIME2024，MATH-500（Lightman等?，2023年）?視覺基準：MMMU（岳、倪等?，2024年），MATH-Vision（王等?，2024年），MathVista（陸等?，2023年）Kimik1.5TECHNICALREPORT3.2主要結果K1.5?距離-CoT模型Kimik1.5?距離-CoT模型的性能?表2。通過?距離-CoT監督微調（?第2.2節）和視覺?本聯合強化學習（討論于第2.3節），該模型的?期推理能?得到顯著增強。測試時計算規模進?步增強了其性能，使模型能夠在各種模態下實現最先進的結果。我們的評估顯?，模型在推理、理解和綜合信息??在擴展語境下都有顯著改進，代表了多模態??智能能?的進步。K1.5短距離-CoT模型Kimik1.5短距離-CoT模型的性能?表3。該模型集成了多種技術，包括傳統的監督微調（?第2.5.2節）、強化學習（在第2.3節中探討）和?到短的蒸餾（在第2.4節中概述）。結果表明，k1.5短距離-CoT模型在多項任務中提供了競爭?或優越的表現，與領先的開源和專有模型相?。這些任務包括?本、視覺和推理挑戰，在?然語?理解、數學、編碼和邏輯推理??顯?出明顯優勢。基準（度量）僅語?模型預覽OpenAIo1-mini視覺語?模型QVQ-72BOpenAIKimi推理MATH-500(EM)AIME2024（通過@1）Codeforces（百分位）LiveCodeBench(Pass@90.650.090.063.6 94.896.262.5VisionMathVista-Test(通過@--MMMU-Val(通過@1)35.9-38.6表2：Kimik1.5?CoT和旗艦開源和專有模型的性能。QMMLU(EM)IF-Eval（提?嚴格）CLUEWSC(EM)C-Eval(EM) MATH-500(EM) --9.3 - 表3：Kimik1.5短路傳輸和旗艦開源和專有模型的性能。VLM模型性能來源于OpenCompass基準平臺(/)。3.3?上下?縮放我們采?中等規模模型來研究帶有LLMs的RL的縮放特性。圖5展?了在數學提?集上訓練的?型模型變體在訓練迭代中訓練精度和響應?度的演變。隨著訓練的進?，我們觀察到響應?度和性能精度同時增加。值得注意的是，更具挑戰性的基準展?出響應?度的急劇增加，這表明模型學會為復雜問題?成更復雜的解決?案。圖6顯?了模型之間的很強的相關性Kimik1.5TECHNICALREPORT輸出上下??度及其問題解決能?。我們最終運?的k1.5規模擴展到128k上下??度，并觀察到在困難推理基準上持續改進。圖5：隨著訓練迭代次數的增加，訓練精度和?度的變化。請注意，上?的得分來?于?個內部規模遠?于k1.5?視覺語境模型的?滑動平均模型。陰影區域代表響應?度的95%百分位數。3.4?2短我們將提出的?2短RL算法與第2.4節中介紹的DPO、最短拒絕抽樣和模型合并?法進??較，重點關注?2短問題的標記效率（X.Chen等?，2024），特別是獲得的?通模型如何有益于短模型。在圖7中，k1.5-long代表我們選擇的?于?2短訓練的?通模型。k1.5-shortw/rl指的是使??2短RL訓練獲得的短模型。k1.5-shortw/dpo表?通過DPO訓練改善標記效率的短模型。k1.5-shortw/merge代表模型合并后的模型，?k1.5-shortw/merge+rs表?將最短拒絕抽樣應?于合并模型后獲得的短模型。k1.5-shortest代表我們在?2短訓練過程中獲得的最短模型。如圖7所?，與其他?法（如DPO和模型合并）相?，提出的?2短RL算法表現出最?的標記效率。值得注意的是，k1.5系列中的所有模型（?橙?標記)在標記效率??均優于其他模型（?藍?標記）。例如，k1.5-shortw/rl在AIME2024上實現了60.8的Pass@1分數（平均8次運?），?平均僅利?3,272個標記。同樣，k1.5-shortest在MATH500上取得了88.2的Pass@1分數，同時消耗的標記數量與其他短模型?致相類似地，k1.5-shortest在MATH500上獲得88.2的Pass@1分數，同時消耗的令牌數量與其他短模型?致相同Kimik1.5TECHNICALREPORT圖6：模型性能隨響應?度增加?提?AIME2024MATH500k1.5-longw/rlk1.5-shortAIME2024MATH500k1.5-longw/rlk1.5-shortk1.5-shortk1.5-shortk1.5-shortw/dpok1.5-shortw/合并+rsk1.5-shortw/合并deepseek-v3k1.5-shortw/dpo60k1.5-shortw/合并+rsdeepseek-v3k1.5-shortest50k1.5-shortw/合并k1.5-shortestk1.5-shortestqwen25-72B-inst克勞德3.5令牌?度qwen25-72B-instClaude3.5令牌?度圖7：Long2Short性能。所有的k1.5系列相?其他模型表現出更好的令牌效率3.5消融研究模型規模和上下??度的擴展我們的主要貢獻在于將RL應?于增強模型?成擴展CoT的能?，從?提?其推理能?。?個?然的問題是：這與簡單增加模型??有何不同？為了展?我們?法的有效性，我們訓練了兩個使?相同數據集的不同??模型，并記錄了RL訓練期間所有檢查點的評估結果和平均推理?度。這些結果顯?在圖8中。值得注意的是，盡管較?的模型最初表現優于較?的模型，但通過RL優化更?的CoTs，較?的模型可以達到可?較的性能。然?，?般來說，較?模型顯??較較?模型更好的令牌效率。這也表明，如果?個?追求最佳的性能，擴?較?模型的上下??度具有更?的上限，更具令牌效率。但是,如果測試時計算有預算限制，訓練更?上下??度的較?模型可能是可iable的解決?案。使?負梯度的影響我們研究了在我們的設置中使?ReST（Gulcehre等?2013）作為策略優化算法的有效性。ReST與其他基于RL的?法之間的主要區別包括Kimik1.5TECHNICALREPORT我們的?法是通過從當前模型中采樣最佳響應來迭代地完善模型，?不對不正確的響應施加負梯度。如圖10所?，相較于ReST，我們的?法在樣本復雜性上表現出更強的優勢，表明負梯度的引?顯著增強了模型在?成?CoT??的效率。我們的?法不僅提?了推理質量，還優化了訓練過程，在使?更少訓練樣本的情況下實現了強?性能。這?發現表明，在我們的情境中，選擇合適的策略優化算法?關重要，因為ReST和其他基于RL的?法之間的性能差距在其他領域并不那么明顯（Gulcehre等?，2023年）。因此，我們的結果突顯了選擇合適的優化策略以最?程度地提??成?CoT的效果的重要性。采樣策略我們進?步展?了我們課程采樣策略的有效性，該策略在第2.3.4節中介紹。我們的訓練數據集D包含了各種難度?平的問題。通過我們的課程采樣?法，我們?先將D?于熱?階段，然后專注于訓練模型的困難問題。這種?法與采?統?采樣策略?不進?任何課程調整的基準?法進??較。如圖9所?，我們的結果清楚地表明，所提出的課程采樣?法明顯增強了性能。這種提升可以歸因于該?法逐漸挑戰模型的能?，使其在處理復雜問題時逐漸形成更強?的理解和能?。通過在最初的?般介紹后專注于更困難的問題上進?培訓，模型能夠更好地加強其推理和問題解決能?。圖8：不同模型??的模型性能與響應?度圖9：課程學習?法對模型性能的分析我們展?了k1.5的訓練配?和系統設計，這是我們最新的多模式LLM，通過RL進?訓練。我們從實踐中提煉出的?個關鍵?解是，上下??度的擴展對LLM的持續改進?關重要。我們采?了優化的學習算法和基礎架構優化，如部分展開,以實現?效的?上下?RL訓練。如何進?步提??上下?RL訓練的效率和可擴展性仍然是未來的?個重要問題。Kimik1.5TECHNICALREPORT圖10：使?ReST進?策略優化對?。我們另?個貢獻是結合技術，實現優化策略。具體來說，我們通過使?LLMs制定?CoTRL，并導出?種?于魯棒優化的在線鏡像下降的變體。我們還嘗試了采樣策略、?度懲罰以及優化數據配?，以取得強?的RL性能。我們展?了即使不使?更復雜的技術，如蒙特卡洛樹搜索，價值函數和處理獎勵模型，也可以通過?上下?縮放和改進策略優化實現強?性能。在未來，研究如何改進學分分配和減少反復思考?不損害模型的探索能?也將是?個有趣的課題。我們還發現了?短?法的潛?。這些?法很?程度上改善了短CoT模型的性能。此外，可以將?短?法與?CoTRL迭代結合以進?步提?記號效率，并從給定的上下??度預算中提取最佳性能。Abbasi-Yadkori,Yasin等。“Politex:利?專家預測進?策略迭代的遺憾界限”。?：國際機器學習會議。PMLR.2019,pp.3692?3702.Ahmadian,Arash等。“回歸基礎：重新審視從?類反饋中學習的強化樣式優化llms”.在:arXiv預印本arXiv:2402.14740(2024)Ankner,Zachary等?。Critique-out-Loud獎勵模型。2024年。arXiv:2408.11791[cs.LG]。?址:https://arxiv.Berner,Christopher等?。Dota2withlargescaledeepreinforcementlearning。在:arXiv預印本arXiv:1912.06680Kimik1.5TECHNICALREPORTCassano,Federico,JohnGouwar,DanielNguyen,SyDuyNguyen,等?！癕ultiPL-E：?種可擴展和可伸縮的神經代碼?成基準?法”。在：ArXiv（2022年）。?址：/abs/2208Cassano,Federico,JohnGouwar,DanielNguyen,SydneyNguyen,等。“MultiPL-E：?種可擴展和多語?基準?法?于神經代碼?成基準的?法”。在：IEEE軟件?程交易49.7（2023年），第3675-3691DOI：10.1109/TSE.2023.3Chen,Jianlv等。“Bgem3-embedding：通過?我知識蒸餾進?多語?，多功能，多粒度?本嵌?”。在：arXiv預印本arXiv:2402.03216（2024年）Chen,Xingyu等?！安灰獮?+3=過多地進?思考？關于o1-LikeLLMs的過度思考”。在：arXiv預印本arXiv:2412.21187（2024年）Everitt,Tometal.RewardTamperingProblemsandSolutionsinReinforcementLearning:ACausalInfluenceDiagram觀點。2021.arXiv:1908.04734[cs.AI].URL:/abs/1908.04734.Gadre,SamirYitzhaketal.“Datacomp:Insearchofthenextgenerationofmultimodaldatasets”。在：神經信息處理系統36(2024)。Grattafiori,Aaronetal.TheLlama3HerdofModels.2024.arXiv:2407.21783[cs.AI]。URL:https://arxiv。Gulcehre,Caglaretal.“Reinforcedself-training(rest)forlanguagemodeling”。在：arXiv預印本arXiv:2308.08998Hendrycks,Danetal.“MeasuringMassiveMultitaskLanguageUnderstanding”。在：ArXivabs/2009.03300(2020)。URL:/abs/2009.03300。Hoffmann,Jordan等?。訓練計算最優?語?模型。2022年。arXiv:2203.15556[cs.CL]。?址:/abs/2203.15556。Huang,Yuzhen等??！癈-Eval:?于基礎模型的多層多學科中?評估套件”。在:ArXivabs/2305.08322(2023)。?址:/abs/2305.08322。Jaech,Aaron等?。“Openaio1系統卡?”。在:arXiv預印本arXiv:2412.16720(2024)。Jain,Naman等?。“LiveCodeBench:?于代碼的?型語?模型的全?和?污染評估”。在:ArXivabs/2403.07974(2024)。?址:/abs/2403.07974。Joulin,Armand等??！?于?效?本分類的?攬?技巧”。在:arXiv預印本arXiv:1607.01759(2016)。Kaplan,Jared等?。神經語?模型的擴展定律。2020年。arXiv:2001.08361[cs.LG]。?址:https:Kool,Wouter,HerkevanHoof,和MaxWelling。"購買4份增強樣本，免費獲取基準線！"。在:(2019)Kwon,Woosuk等?。"使?PagedAttention實現?型語?模型服務的?效內存管理"。在:第29屆操作系統原則ACMSIGOPS研討會論?集。2023年.Lauren?on,Hugo等?。"Obelics：?個開放的?絡規模篩選的交錯圖像?檔數據集"。在：進展在神經信息處理系統36中。(2024)Li,Jeffrey等?。"Datacomp-lm：尋找語?模型下?代訓練集"。在：arXiv預印本arXiv:2406.11794(2024)Li,Ming等?。"從數量到質量：通過?我指導數據選擇來提升llm性能以進?指導調整"。在：arXiv預印本arXiv:2308.12032(2023)Li,Raymond等?。StarCoder:愿源與你同在！2023年。arXiv:2305.06161[cs.CL]。URL:https///abs/2305.06161Lightman,Hunter等?！白屛覀冎鸩津炞C”。在：arXiv預印本arXiv:2305.20050（2023）Liu,Wei等?！笆裁词箶祿?良好？對指導中?動數據選擇的全?研究調整”。在：arXiv預印本arXiv:2312.15685（2023）Lozhkov,Anton等。StarCoder2和TheStackv2：下?代。2024.arXiv:2402.19173[cs.SE].URL:/abs/2402.19173Lu,Pan等?！癕athvista：在視覺背景中評估基礎模型的數學推理”。在：arXiv預印本arXiv:2310.02255（2023）McAleese,Nat等。LLMCritics幫助捕獲LLMBugs。2024.arXiv:2407.00215[cs.SE].URL:https://arxiv.Mei,Jincheng等?！瓣P于策略優化中基于原則的熵探索”。在：第28屆國際會議??智能聯合會議。2019,pp.3130?3136。Muennighoff,Niklas等?。擴展數據受限語?模型。2023。arXiv:2305.16264[cs.CL]。?址：/abs/2305.16264。Nachum,Ofir等?！皬浐现蹬c基于策略的強化學習之間的差距”。在：神經信息處理系統30(2017)。OpenAI?！皩W習如何?LLMs推理”。在：(2024)。?址：/index/learning-to-reason-with-llms/。Kimik1.5TECHNICALREPORT歐陽隆等?。《通過?類反饋訓練語?模型遵循指令》。在：神經信息處理系統的進展35（2022年），第27730-27744?。Pan，Alexander，KushBhatia和JacobSteinhardt?！丢剟钫`差的效應：映射和減輕不對?模型》。在：國際學習表?會議。2022。?址：https://openreview。Paster，Keiran等??！禣penwebmath：?個?質量數學?絡?本的開放數據集》。在：arXiv預印本arXiv:2310.06786（2023年）。Penedo，Guilherme等??！秄ineweb數據集：為規?；淖詈?本數據?脫殼??》。在：arXiv預印本Paster,Keiran等??！癘penwebmath：?質量數學?絡?本的開放數據集”。在：arXiv預印本arXiv:2310.06786（2023）Penedo,Guilherme等??！癋ineweb數據集：為?規模最優?本數據提供最純凈的?絡”。在：arXiv預印本arXiv:2406.17557（2024年）。秦若愚等?。Mooncake：?向LLM服務的KVCache-centric分布架構。2024。arXiv:2407。00079[cs.DC].?址:/abs/2407.00079Rafailov,Rafael等??！爸苯悠脙灮耗恼Z?模型實際上是?個獎勵模型”。在：進展在神經信息處理系統36(2024)中Schuhmann,Christoph等?。“Laion-5b：?于訓練下?代圖像?本模型的開放?規模數據集”。在：進展在神經信息處理系統35(2022)，?碼25278?25294Shoeybi,Mohammad等?。Megatron-LM：使?模型并?訓練數?億參數語?模型2020.arXiv:1909.08053[cs.CL].?址:/abs/1909.08053Silver,David等??！?需?類知識掌握圍棋”。在：《?然》550.7676(2017)，?碼354?359Snell,Charlie等??！霸跍y試時?效地擴展llm計算?縮放模型參數更有效”。在：arXiv預印本arXiv:2408.03314(2024)Su,Dan等??！癗emotron-CC：將CommonCrawl轉化為?個精細的?視野預訓練數據集”。在:arXiv預印本arXiv:2412.02595（2024年）Su,Jianlin等?。“Roformer：帶有旋轉位置嵌?的增強transformer”。在Neurocomputing568（2024年）Team,Gemini等?。Gemini：?系列?能?多模型。2024年。arXiv:2312.11805[cs.CL]URL:/abs/2312.11805Tomar,Manan等??！癕irrordescent策略優化”。在arXiv預印本arXiv:2005.09814（2020年）I.Guyon等?。第30卷。CurranAssociates,Inc.，2017年。?址:https://proceedings.neurips.cc/paper_files/paper/2017/Villalobos,Pablo等?。我們會?盡數據嗎？基于?類?成的數據對LLM擴展的限制。2024年。arXiv:2211.04325[cs.LG].?址:/abs/2211.04325Vinyals,Oriol等?。"使?多智能體強化學習在星際爭霸II中達到?師級?平"。發表于:nature575.7782Wang,Ke等?。"?數學視覺數據集衡量多模式數學推理"。發表于:arXiv預印本arXiv:2402.14804(2024)Wei,Haoran等?。"通?OCR理論:通過統?端到端模型?向OCR-2.0"。發表于:arXiv預印本arXiv:2409.01704(2024)Wei,Jason等?。"思維鏈引導在?型語?模型中喚起推理"。發表于:神經信息加?進展35(2022),?碼:24824?24837Wu,Yangzhen等?。"推理規模定律:計算最優推理的實證分析解決問題Wu,Yangzhen等??！巴茢嗫s放定律：問題求解的計算最優推斷的經驗分析使?語?模型”。在:arXiv預印本arXiv:2408.00724(2024)Xu,Liang等??！癈LUE:?個中?語?理解評估基準”。在:國際計算語?學會議。2020計算語?學.2020.?址:/abs/2004.05986Yang,Enneng等??！發lms、mllms及其他模型的合并：?法、理論、應?和機會”。在:arXiv預印本arXiv:2408.07666(2024)Yao,Shunyu等?。“思維之樹：與?型語?模型的有意識問題解決”。在:神經進展信息處理系統36(2024)Yue,Xiang,YuanshengNi等??！癕mmu：?個?規模多學科多模式理解和推理專家agi的基準”。在:IEEE/CVF計算機視覺和模式識別會議岳翔，徐興偉等?！懊歪铮和ㄟ^混合指導調優構建數學通?模型”。在:arXiv預印本arXiv:2309.05653（2023)張倫俊等。“?成驗證器：獎勵建模作為下?個令牌預測，2024”。在：URLhttps://arxiv.鄭聯旻等?。SGLang：結構化語?模型程序的?效執?。2024.arXiv:2312.07104[cs.AI].URL:/abs/2312.07104.周杰夫等。“?型語?模型的指令遵循評估”。在：ArXivabs/2311.07911(2023)URL:/abs/2311.07911.Kimik1.5TECHNICALREPORT朱婉蓉等??！岸嗄Bc4：?億規模的圖像與?本交織語料庫”。在：Advancesin神經信息處理系統36（2024年）。Kimik1.5TECHNICALREPORTA貢獻研究與發展杜安剛?博?冼博威蔣昌久陳誠李誠陳莊杜崇化廖*德豪張恩銘袁恩哲路洪松賴國坤郭海清朱晗丁浩郝?郝揚郝張昊天姚昊天趙郝宇路?洪成袁歡鄭華斌劉京源蘇建林王建州張津嚴俊杰史?東于?輝董夢楠張昊?寧塵*潘祺瑋龔曲城?舒鵬ShaoweiLiuTaoJiangWeiminXiongWeiranHeWeihaoGao*?偉曉吳

人人文庫> 全部分類> 應用文書 > 研究報告

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯系上傳者。文件的所有權益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網頁內容里面會有圖紙預覽，若沒有圖紙預覽就沒有圖紙。
4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
5. 人人文庫網僅提供信息存儲空間，僅對用戶上傳內容的表現方式做保護處理，對用戶上傳分享的文檔內容本身不做任何修改或編輯，并不能對任何下載內容負責。
6. 下載文件中如有侵權或不適當內容，請與我們聯系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

老太爷的乳妓h开裆裤,久久久久久精品国产三级非禁歌 ,久久久久久久99精品国产片,免费观看交性大片

Kimi+K1.5：使?LLMS擴展強化學習

文檔簡介

溫馨提示

最新文檔

評論

老太爷的乳妓h开裆裤,久久久久久精品国产三级非禁歌 ,久久久久久久99精品国产片,免费观看交性大片

Kimi+K1.5：使?LLMS擴展強化學習

文檔簡介

溫馨提示

最新文檔

評論

相關文檔