2025年DeepSeek-R1、Kimi1.5及類強(qiáng)推理模型開發(fā)解讀報告-北京大學(xué)_第1頁
2025年DeepSeek-R1、Kimi1.5及類強(qiáng)推理模型開發(fā)解讀報告-北京大學(xué)_第2頁
2025年DeepSeek-R1、Kimi1.5及類強(qiáng)推理模型開發(fā)解讀報告-北京大學(xué)_第3頁
2025年DeepSeek-R1、Kimi1.5及類強(qiáng)推理模型開發(fā)解讀報告-北京大學(xué)_第4頁
2025年DeepSeek-R1、Kimi1.5及類強(qiáng)推理模型開發(fā)解讀報告-北京大學(xué)_第5頁
已閱讀5頁,還剩51頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

DeepSeek-R1\Kimi

1.5

類強(qiáng)推理模型開發(fā)解讀陳博遠(yuǎn)北京大學(xué)2022級“通班”主要研究方向:大語言模型對齊與可擴(kuò)展監(jiān)督北大對齊小組Outline>DeepSeek-R1

開創(chuàng)RL

加持下強(qiáng)推理慢思考范式新邊界>DeepSeek-R1Zero及

R1技術(shù)剖析>Pipeline

總覽\DeepSeek-V3

Base\DeepSeek-R1

Zero

R1細(xì)節(jié)分析>RL算法的創(chuàng)新:GRPO

及其技術(shù)細(xì)節(jié)>DeepSeek-R1背后的Insights&Takeaways:RL

加持下的長度泛化\推理范式的涌現(xiàn)>DeepSeek-R1

社會及經(jīng)濟(jì)效益>技術(shù)對比探討>STaR-basedMethodsvs.RL-basedMethods強(qiáng)推理路徑對比(DS-R1\Kimi-1.5\o-series)

>

餾vs.強(qiáng)化學(xué)習(xí)驅(qū)動:國內(nèi)外現(xiàn)有各家技術(shù)路線對比分析及Takeaways>PRM&MCTS

的作用>從文本模態(tài)到多模態(tài)>其他討論:Over-Thinking過度思考等>未來方向分析探討>模態(tài)穿透賦能推理邊界拓展:Align-DS-V>合成數(shù)據(jù)及Test-TimeScaling:突破數(shù)據(jù)再生產(chǎn)陷阱>強(qiáng)推理下的安全:形式化驗證FormalVerification\審計對齊Deliberative

Alignment>補充拓展:DeepSeek-V3

解讀2DeepSeek-R1

創(chuàng)RL

加持下強(qiáng)推理慢思考范式新邊界

3>OpenAI

o1開啟后訓(xùn)練Post-Training時代下的RL

新范式:后訓(xùn)練擴(kuò)展律

Post-Training

Scaling

Law>DS-R1獨立發(fā)現(xiàn)了一些通往o1路上的核心理念,并且效果還好到受到了OpenAI

的認(rèn)可>如何通過有效的Test-Time

Scaling和

Train-Time

Scaling提升模型的推理能力?>

得益于純大規(guī)模強(qiáng)化學(xué)習(xí),DeepSeek-R1

具備強(qiáng)大推理能力與長文本思考能力,繼開源來備受關(guān)注。>DeepSeek

R1-Zero和

R1

的出現(xiàn)再次證明了強(qiáng)化學(xué)習(xí)的潛力所在:>R1-Zero

從基礎(chǔ)模型開始構(gòu)建,完全依賴強(qiáng)化學(xué)習(xí),而不使用人類專家標(biāo)注的監(jiān)督微調(diào)

(SFT);>隨著訓(xùn)練步驟增加,模型逐漸展現(xiàn)出長文本推理及長鏈推理能力;>隨著推理路徑增長,模型表現(xiàn)出自我修復(fù)和啟發(fā)式搜索的能力;DeepSeek-R1-Zero

AIME

accuracy

during

training0.70.60.20

2000的驚人成績,表現(xiàn)與OpenAI-o1-1217相當(dāng)。>在編碼相關(guān)的任務(wù)中表現(xiàn)出專家水平,在Codeforces上獲得了2029

Elo評級,在競賽中表現(xiàn)

優(yōu)于96.3%的人類參與者>DeepSeek-R1在

知識類問答上推動科學(xué)探索邊界:>MMLU\MMLU-Pro\GPQADiamond

STEM-related榜單上取得良好表現(xiàn)>R1

展現(xiàn)出強(qiáng)推理模型在AI-Driven

Research

的潛力>在長文本依賴任務(wù)如

FRAMEs

和事實性推斷任務(wù)Simple-QA上表現(xiàn)突出DeepSeek-R1開創(chuàng)RL

加持下強(qiáng)推理慢思考范式新邊界

4>得益于強(qiáng)大的推理能力與長文本思考能力,DeepSeek

R1在復(fù)雜任務(wù)上表現(xiàn)卓越,成為開源領(lǐng)域的又一里程碑,標(biāo)志著開源社區(qū)在與閉源大模型(如OpenAI

ol系列)的競爭中邁出了關(guān)鍵性一步。

>

DeepSeek-R1

在數(shù)學(xué)代碼任務(wù)上表現(xiàn)突出>Deepseek

R1在AIME2024上獲得了79.8%的成績,略高于OpenAI-o1-1217。在

MATH-500

上,獲得97.3%Benchmark

(Metric)Claude-3.5-GPT-4oDeepSeekOpenAI

OpenAIDeepSeekSonnet-10220513

V3o1-mini

o1-1217R1Architecture#Activated

Params#Total

Params111-

-MoE37B671B--MoE37B671BMMLU

(Pass@1)88.387.288.585.291.890.8MMLU-Redux

(EM)88.988.089.186.792.9MMLU-Pro

(EM)78.072.675.980.384.0DROP(3-shot

F1)88.383.791.683.990.292.2English

IF-Eval

(Prompt

Strict)86.565.084.349.986.159.184.8

60.075.783.371.5SimpleQA(Correct)28.438.224.97.047.030.1FRAMES(Acc.)72.580.573.376.982.5AlpacaEval2.0(LC-winrate)52.051.170.057.887.6ArenaHard

(GPT-4-1106)85.280.485.592.0-92.3LiveCodeBench

(Pass@1-COT)38.932.936.253.863.465.9Codeforces

(Percentile)

Codeforces

(Rating)20.371723.675958.7113493.4182096.6206196.32029SWEVerified

(Resolved)50.838.842.041.648.949.2Aider-Polyglot

(Acc.)45.316.049.632.961.753.3AIME

2024(Pass@1)16.09.339.263.679.279.8Math

MATH-500(Pass@1)78.374.690.290.096.497.3CNMO

2024(Pass@1)13.110.843.267.678.8CLUEWSC(EM)85.487.990.989.992.8Chinese

C-Eval

(EM)76.776.086.568.991.8C-SimpleQA

(Correct)55.458.768.040.3-63.7GPQA

Diamond

(Pass@1)Code----4.0-舉個例子:3.0-

假設(shè)一個模型有N=10^9(10億個參數(shù)),并且訓(xùn)練數(shù)據(jù)集的規(guī)模是D=10^{12}(1萬億個

token)。·使用公式C=6ND,總的計算量就是:2.0-

C=6×10?×1012=6×1021FLOPsBy

Haowei

Lin

這表明要訓(xùn)練這個模型,大約需要6×1021次浮點運算。100p

10n100μ

0.01Compute回顧:Pre-Training

Scaling

Law>Pre-TrainingScalingLaws:預(yù)訓(xùn)練模型上廣泛觀察到的現(xiàn)象,協(xié)調(diào)了計算量C、模型參數(shù)量N和數(shù)據(jù)大小D

之間的關(guān)系■lbs

ofCO2equivalentRoundtripflight

b/w

NYandSF(1

passenger)Human

life(avg

1

year)American

life(avg

1year)US

carincluding

fuel(avg

1

ifetime)GPT-3T5|1,984|

11,02336,156126,00010

3,617Expensive:

TrainingGPT-3requiredatleast

$4,600,000Extensiveresources:manytrainingdata,large

network

Biggermodels,moredata->usuallybetter

performance1216950C~6NDCreatedwithDatawrapperIncrease

N->betterperformanceIncrease

D->betterperformanceBut

we

have

a

budget

on

C~6NDThisformulais

useful!!C=number

of

FLOPs(computations)N=number

of

model

parametersD=amount

of

training

dataCompute=6*Parameters

*Data·Motivation:Efficientlytraining

LARGEmodel

CommoncarbonfootprintbenchmarksOpenAlcodebase

nextwordpredictionBits

perword6.0-●

Observed

Prediction5.0-

gpt-4背

:·Scalinglaws:

在生成模型訓(xùn)練當(dāng)中被廣泛觀察到的現(xiàn)象。·

對于計算量C,

模型參數(shù)量N

和數(shù)據(jù)大小D,

當(dāng)不受其他兩個因素制約時,模型性

能與每個因素都呈現(xiàn)冪律關(guān)系。Howtomaximizemodel

performance

byallocatingCto

Nand

D?[Data

Source:(Strubell

et

al.,2019)][Data

Source:(Patterson

et

al.2021)]Jared

Kaplan,et

al.Scaling

Laws

for

Neural

Lanquage

Models.ComputeDatasetSizeParametersPF-days,non-embedding

tokensL≈S(True)()≈DrL(Truel|Model)"Irreducible"Reduciblenon-embeddingLoss"Loss"TestLoss1.0—回顧:Post-TrainingScalingLaw

6>Post-Training階段,隨著訓(xùn)練時計算量

(來自RL的Training階段)和Test-Time計算量(例如Test-Time

Search)

的增長,模型性能(例如數(shù)學(xué)推理能力)也會隨之提升>

Post-TrainingScaling

Laws下

訓(xùn)練時計算量多了一個新的變量:Self-Play探索時LLMInference的計算量pass@laccuracytrain-timecompute(log

scale)01AIMEaccuracytest-timecompute(logscale)we

are

continuing

to

investigate

them.[1]/index/learning-to-reason-with-llms/Our

large-scale

reinforcement

learning

algorithm

teaches

the

model

how

to

thinkproductively

using

its

chain

of

thought

in

a

highly

data-efficient

training

process.We

have

foundthatthe

performanceofo1consistently

improveswithmore

reinforcement

learning

(t

rain-timecompute)andwithmoretimespentthinking(test-timecompute).Theconstraints

on

scaling

this

approach

differ

substantially

from

those

of

LLM

pretraining,andpass@laccuracy01AIMEaccuracy回顧:Post-TrainingScaling

Law為什么我們需要后訓(xùn)練

Scaling-Law?>隨著模型尺寸逐漸增大,預(yù)訓(xùn)練階段參數(shù)Scaling

Up帶

的邊際收益開始遞減;如果想要深度提升模型推理能力和長程問題能力,基于RL

Post-Training將會成為下一個突破點。>自回歸模型在數(shù)學(xué)推理問題上很難進(jìn)步的

點在于沒有辦法進(jìn)行回答的自主修正,如果僅是依靠生成式方法和擴(kuò)大參數(shù)規(guī)模,那么在數(shù)學(xué)推理任務(wù)上帶來的收益不會太大。所以需要尋找額外的ScalingLaws[1]。Onesignificantchallengeinmathematicalreasoningisthehighsensitivityto

individual

mistakes

(Shen

et

al.,2021a).When

generating

a

solution,au-toregressive

models

have

no

mechanism

to

correct

their

own

errors.Solutionsthat

veer

off-course

quickly

become

unrecoverable.If

we

rely

purely

on

genera-tive

methods

and

extrapolate

from

current

trends,we

will

require

an

exorbitantparameter

count

to

achieve

even

moderate

performance

on

distributions

as

chal-lenging

as

the

MATH

dataset

(Hendrycks

et

al,2021).This

evidencestronglymotivates

the

search

for

methods

with

more

favorable

scaling

laws.Comparing

Test-time

and

Pretraining

Compute

in

a

FLOPs

Matched

Evauation30+27.8%+21.6%+16.7%+11.8%+3.5%011.9%-20●

Easy

Questions●

MediumQuestionsHard

Questions

-37.2%-40<<1~=1

>>1Ratio

of

Inference

Tokens

to

Pretraining

Tokens[1]Training

Verifiers

to

Solve

Math

Word

Problems

https://arxiv.org/pdf/2110.14168[2]Scaling

LLM

Test-Time

Compute

Optimally

can

be

More

Effective

than

Scaling

Model

ParametersRelativeImprovement

inAccuracyFromTest-timeCompute(%)+5.4%-10-302010基于規(guī)則的獎勵Rule-Based

Reward(671B)推理為中心的大規(guī)模強(qiáng)化學(xué)習(xí)Large-Scale

Reasoning-Oriented

RLDeepSeek-R1技術(shù)剖析:DeepSeek-R1

Zero

8DeepSeek-R1Zero:無需監(jiān)督微調(diào)SFT,純強(qiáng)化學(xué)習(xí)驅(qū)動的強(qiáng)推理模型ModelAIME

2024MATH-500GPQADiamondLiveCodeBenchCodeForcespass@1

cons@64pass@1pass@1pass@1ratingOpenAI-o1-mini63.6

80.090.060.053.81820OpenAI-01-091274.4

83.394.877.363.41843DeepSeek-R1-Zero71.0

86.795.973.350.01444大規(guī)模推理為中心的強(qiáng)化學(xué)習(xí),提升模型數(shù)學(xué)代碼能力RL

驅(qū)動下自然涌現(xiàn)長文本推理能力DeepSeek-R1-ZeroDeepSeek-v3-BaseDeepSeek-R1

Zero:無需監(jiān)督微調(diào)SFT,

純強(qiáng)化學(xué)習(xí)驅(qū)動的強(qiáng)推理模型>

獎勵建模:基于規(guī)則的獎勵(Rule-Based

Reward):準(zhǔn)確率獎勵+格式獎勵>準(zhǔn)確率獎勵A(yù)ccuracyRewards:判斷答案是否是正確的>格式獎勵FormatRewards:規(guī)勸模型生成答案的過程是<think>和</think>>

沒有使用Reward

Model,因為ORM

和PRM

等基于神經(jīng)網(wǎng)絡(luò)的都可能遭受rewardhacking

而retraining

reward

model需要大量的計算資源,可能會復(fù)雜化整個流程>

訓(xùn)練模板:選擇最簡單的

ThinkingProcess,直接觀察到最直接的RL

過程下的表現(xiàn)A

conversation

between

User

and

Assistant.The

user

asks

a

question,and

the

Assistant

solves

it.The

assistant

firstthinks

aboutthereasoningprocess

in

themind

and

then

provides

the

userwith

the

answer.The

reasoning

process

and

answer

are

enclosed

within

<think></think>and<answer></answer>tags,respectively,i.e.,<think>reasoning

process

here</think><answer>answerhere</answer>.User:

prompt

.Assistant:Table1|TemplateforDeepSeek-R1-Zero.

promptwillbereplacedwiththe

specific

reasoningquestion

during

training.基于規(guī)則的獎勵(Rule-BasedReward):準(zhǔn)確率獎勵+格式獎勵DeepSeek-R1技術(shù)剖析:DeepSeek-R1

Zero

9DeepSeek-R1

技術(shù)剖析:DeepSeek-R1

Zero

10DeepSeek-R1

Zero:無需監(jiān)督微調(diào)SFT,

純強(qiáng)化學(xué)習(xí)驅(qū)動的強(qiáng)推理模型>

推理為中心大規(guī)模強(qiáng)化學(xué)習(xí):組相對策略優(yōu)化

(GRPO)+

瞄準(zhǔn)

Reasoning

推理任務(wù)>

自我迭代提升Self-Evolution:

隨著訓(xùn)練步數(shù)的增長,模型的thinking

response

length逐漸增加(對應(yīng)著test-time

computation

increasing)>Aha

moment:自然學(xué)會增加更多的推理時間,反思評價先前步驟、探索其他方法DeepSeek-R1-Zero

averagelengthperresponseduringtraining12000100008000600040002000ot02000400060008000StepsQuestion:If

a>1,then

thesum

of

the

realsolutions

of

Va-Va+x=xis

equal

toResponse:<think>Tosolvetheequation√a-Va+x=x,let'sstartbysquaringboth

…Rearrangetoisolatetheinner

square

root

term:(a-x2)2=a+x→a2-2ax2+(x2)2=a+x=x?-2ax2-x+(a2-a)=0●●Wait,wait.Wait.That's

an

aha

moment

I

can

flag

here.Let's

reevaluate

this

step-by-step

to

identify

ifthe

correct

sum

canbe.

·Westartedwith

the

equation:√a-Va+x=xFirst,let's

square

both

sides:a-Va+x=x2=Va+x=a-x2Next,I

could

square

both

sides

again,treating

the

equation:.

··"Aha"Moment

RL

驅(qū)動下自然涌現(xiàn)Long-CoT

能力Averagelength

per

responseDeepSeek-R1

Zero的關(guān)鍵啟示>

傳統(tǒng)RLHF

背景下,SFT

通常被認(rèn)為是不可或缺的一步,其邏輯先用大量人工標(biāo)注的數(shù)據(jù)來讓模型初步掌握某種能力(如對話或者語言風(fēng)格),然后再用RL來進(jìn)一步優(yōu)化性能>DeepSeek-R1系列跳過對于大規(guī)模人工標(biāo)注數(shù)據(jù)的依賴>

無需構(gòu)建和維護(hù)高質(zhì)量的SFT數(shù)據(jù)集,而是讓模型直接在RL環(huán)境中進(jìn)行探索>類比:初學(xué)者在沒有老師指導(dǎo)的情況下,通過不斷的嘗試和錯誤來掌握一門新的技能。>這種自主學(xué)習(xí)的方式,不僅節(jié)省了大量的標(biāo)注成本;>更重要的是,它讓模型能夠自由地探索解決問題的路徑,而不是被預(yù)先設(shè)定的模式所束縛。DeepSeek-R1技術(shù)剖析:DeepSeek-R1

Zero

11DeepSeek-R1

Zero的關(guān)鍵啟示>

過SFT

階段,直接運用純強(qiáng)化學(xué)習(xí)拓展推理能力邊界實際上也帶來了幾個很重要的啟示:>

需要足夠強(qiáng)的基座模型:基座模型(DeepSeek-V3

Base)超過了某個質(zhì)量和能力閾值(671B在14.8T

高質(zhì)量Token上訓(xùn)練)

(基座模型知識幫助突破推理上界,也有一些工作利用小模型復(fù)現(xiàn)Aha

Moment

得益于大規(guī)模RL

和高質(zhì)量推理數(shù)據(jù));>

大規(guī)模強(qiáng)化學(xué)習(xí)加持:GRPO

對于強(qiáng)化學(xué)習(xí)訓(xùn)練的優(yōu)化;>

規(guī)則化獎勵:繞過獎勵攻陷問題,但是得益于推理問題可以進(jìn)行自動化標(biāo)記和驗證(Self-AutomatedVerificationandAnnotation),這是與一般聊天和寫作請求任務(wù)不同的;DeepSeek-R1技術(shù)剖析:DeepSeek-R1

Zero

12DeepSeek-R1

Zero的關(guān)鍵啟示:舉例-自動化標(biāo)記和驗證>

示例輸入:編寫python

代碼,該代碼采用數(shù)字列表,按排序順序返回,在開始時添加42。>自動化驗證方法:>利用軟件檢查代碼補全判斷是否為完整代碼;>

執(zhí)

行Python代碼檢查運行情況判斷是否為可運行代碼;>調(diào)用外部模塊構(gòu)建額外的檢測單元;>甚至可以更進(jìn)

步,測量執(zhí)行時間,使訓(xùn)練過程首選性能更高的解決方案;>以上均可以作為小批量訓(xùn)練(Mini-Batch)

和連續(xù)訓(xùn)練過程中的獎勵信號DeepSeek-R1技術(shù)剖析:DeepSeek-R1

Zero

13DeepSeek-R1

技術(shù)剖析:DeepSeek-R1

Zero

14DeepSeek-R1

Zero的關(guān)鍵啟示:舉例-自動化標(biāo)記和驗證>

示例輸入:編

寫python代碼,該代碼采用數(shù)字列表,按排序順序返回,在開始時添加42。>基于規(guī)則進(jìn)行驗證,并在Mini-Batch中提供獎勵信號;here'sajokeaboutfrogsecho

42defsort(a)defsortand_prepend(a)LowLowLowHighDeepSeek-R1-ZeroSolutionscore(reward)DeepSeek-R1-ZeroRule-basedverification[1]https://newsletter.languagemodels.co/p/the-illustrated-deepseek-r1Training

promptWritepythoncode

that

takes

a

list

of

numbers,returns

them

in

a

sortedorder,butalsoadds

42

atthestart.TrainingpromptWrite

python

code

that

takes

alist

of

numbers,returns

them

in

asorted

order,but

also

adds

42

atthe

start.Large-scale

Reasoning-Oriented

Reinforcement

LearningUpdatethe

modelso

itsless

likelytooutput

lowscoresolutionsliketheseandmore

likelytooutput

high-scoresolutionsin

responsetosuch

a

promptLarge-scale

Reasoning-Oriented

Reinforcement

Learningdef

sort(a)def

sort_and_prepend(a)DeepSeek-v3-BaseTrainingstep

1DeepSeek-v3-BaseTrainingstep

1here's

a

joke

about

frogsecho42checkpoint

trainingGenerate4possiblesolutionscheckpoint

trainingIs

code?Is

python?Model

underpasses

uni

tests?Model

underpossiblesolutions×Generate

4DeepSeek-R1技術(shù)

Pipeline總覽

15>

DeepSeek-R1

Zero

的問題:長推理過程可讀性差、語言混合,幫助性低>Research

Questions:>

在Zero基礎(chǔ)上兼顧推理性能的同時,提升模型的幫助性和安全性?例如產(chǎn)生Clear&CoherentCoT并且展現(xiàn)出通用能力的模型R1;>能否利用一些高質(zhì)量反思數(shù)據(jù)集做ColdStart從而加速RL

的收斂或幫助提升推理表現(xiàn)DeepSeek-v3-Base(671B)基于規(guī)則的獎勵Rule-Based

Reward正確率獎勵

格式獎勵推理為中心的大規(guī)模強(qiáng)化學(xué)習(xí)(GRPO)iLarge-Scale

Reasoning-Oriented

RLDeepSeek-R1-Zero拒絕采樣和全領(lǐng)域SFT600k

推理數(shù)據(jù)(Rule-based+Generative獎勵)200k通用數(shù)據(jù)(Writing\Role-Playetc.)全領(lǐng)域RLAll-Scenarios

RL推理任務(wù)-規(guī)則獎勵(Rule-based

Reward)通用任務(wù)-偏好建模(Reward

Model)DeepSeek-R1Stage

II:通用能力&安全性DeepSeek-v3-Base(671B)冷啟動Cold

Start雙重驗證

反思數(shù)據(jù)推理為中心的RL正確率獎勵

流暢性獎勵數(shù)學(xué)代碼推理任務(wù)Intermediate

Model(推理鏈可讀性更強(qiáng))Stage

I:推理鏈可讀性DeepSeek-R1技術(shù)

Pipeline總覽

16>

冷啟動Cold

Start>

數(shù)據(jù)準(zhǔn)備:

few-shotlongcot

data,詳細(xì)帶反思和驗證的數(shù)據(jù)集

>

雙重驗證:

由人類注釋者和R1-zero生成的高質(zhì)量鏈?zhǔn)剿伎?Chain-of-Thought,CoT)

數(shù)據(jù),部分樣本長度達(dá)到10,000Token>

成效:提供

些Human

Prior\

顯著提升了語言的語義連貫性、可讀性和基本推理能力。>推理為中心RLReasoning-OrientedRL>

增加了大規(guī)模的RL

訓(xùn)練過程:

和DeepSeek-R1

Zero基本一致,主要是提升Reasoning

的能力,包括coding\mathematics\logicreasoning等帶有明確解答過程的問題>

語言一致性獎勵:

入languageconsistencyreward

衡量長推理鏈可讀性(通過計算CoT

過程中目標(biāo)語言的占比)>

推理準(zhǔn)確率獎勵:

結(jié)合

accuracyofreasoningtasks

andreward

forlanguage

consistency>

成效:通

過GRPO,模型在AIME

2024

等數(shù)學(xué)基準(zhǔn)上取得了顯著提

,pass@1

從15.6%提高到71.0%。此外,模型能夠自發(fā)延長

推理鏈條,展現(xiàn)出更強(qiáng)的邏輯連貫性。DeepSeek-v3-Base(671B)冷啟動Cold

Start雙重驗證

反思數(shù)據(jù)推理為中心的RL正確率獎勵

流暢性獎勵數(shù)學(xué)代碼推理任務(wù)Intermediate

Model(推理鏈可讀性更強(qiáng))Stage

I:推理鏈可讀性DeepSeek-R1技術(shù)

Pipeline總覽

17DeepSeek-R1技術(shù)

Pipeline總覽>拒絕采樣和全領(lǐng)域SFT

Rejection

Sampling

and

SFT>當(dāng)上一個階段的RL

收斂之后,再進(jìn)行SFT>和之前Cold-Start

的數(shù)據(jù)不同,這部分SFT主要是負(fù)責(zé)全領(lǐng)域任務(wù)>600k

推理任務(wù):(1)基于規(guī)則的獎勵(2)利用批判模型融

合生成式獎勵>200k

通用任務(wù)(writing\role-playing\general-purpose)成效:使模型在推理能力不減的前提下,語言表現(xiàn)更為自然,適應(yīng)性更為廣泛。>全領(lǐng)域RL

RL

for

all

Scenarios>進(jìn)一步提升除了reasoning能力之外幫助性和安全性>對于reasoningdata,可以用基于規(guī)則的獎勵>對

于general

data,可以用獎勵模型來建模人類偏好意圖>

成效:最終版本的R1不僅在推理和對話能力上達(dá)到了高水平,

還具備更安全的交互性能。拒絕采樣和全領(lǐng)域SFT600k推理數(shù)據(jù)(Rule-based+Generative

獎勵)200k通用數(shù)據(jù)(Writing\Role-Playetc.)全領(lǐng)域RLAll-Scenarios

RL推理任務(wù)-規(guī)則獎勵(Rule-based

Reward)通用任務(wù)-偏好建模(Reward

Model)DeepSeek-R1Stage

II:通用能力&安全性18DeepSeek-R1

Takeaways

技術(shù)亮點總結(jié):Part

I>Pure

RL

to

Develop

Reasoning

Capabilities:>社區(qū)的復(fù)現(xiàn)都涉及蒸餾和搜索,而DS-R1Zero

跳過監(jiān)督微調(diào)SFT

階段,展現(xiàn)出大規(guī)模強(qiáng)化學(xué)習(xí)的潛力,這也得益于以下幾點:>

需要足夠強(qiáng)的基座模型:

基座模型(DeepSeek-V3

Base)超過了某個質(zhì)量和能力閾值(671B在14.8T

高質(zhì)量Token上訓(xùn)練);>

大規(guī)模強(qiáng)化學(xué)習(xí)加持:GRPO對于強(qiáng)化學(xué)習(xí)訓(xùn)練的優(yōu)化;>

規(guī)則化獎勵:繞過獎勵攻陷問題,但是得益于推理問題可以進(jìn)行自動化標(biāo)記和驗證(Self-AutomatedVerificationandAnnotation),這是與一般聊天和寫作請求任務(wù)不同的>訓(xùn)練步數(shù)的增長,模型的thinkingresponse

length逐漸增加(test-timecomputation

increasing)>DeepSeek-R1-Zero

自主涌現(xiàn)學(xué)會重新評測原來的方法、反思和主動探索其他的路徑>多階段訓(xùn)練下的冷啟動讓RL訓(xùn)練更加穩(wěn)定,避免初期不穩(wěn)定、加速收斂、提升思維鏈可讀性>

未來后訓(xùn)練的重心會逐步傾向于RL,

但是少量訓(xùn)練用于SFT可能還是必須的>

強(qiáng)化學(xué)習(xí)技術(shù)不只局限在基于規(guī)則的數(shù)學(xué)、算法代碼等容易提供獎勵的領(lǐng)域,它還可以創(chuàng)造性

地把強(qiáng)化學(xué)習(xí)所帶來的強(qiáng)推理能力,泛化到其他領(lǐng)域19DeepSeek-R1

技術(shù)剖析:背后的教師模型

DeepSeek-V3

20>基座模型(DeepSeek-V3

Base)超過了某個質(zhì)量和能力閾值

(671B在14.8T高質(zhì)量Token上訓(xùn)練)>提供了類似于

System

I的足夠好的PriorDistribution直覺,后期RL

探索過程進(jìn)一步挖掘激活>大規(guī)模RL

起到了激活和發(fā)掘預(yù)訓(xùn)練階段積累的知識和推理能力的作用>DeepSeek-V3

低成本(5,576,000美元)帶來驚艷效果>MoE

架構(gòu)671B激活37B\

使用Multi-headLatentAttention(MLA)架構(gòu)DeepSseekv3-DeepSeek

v2.5-Qwen2.5-72B-Tnst-Llama-3.1-405B-Inst-GPT40-0513Claude-3.5-Sonnet-10221008071.673.372.659.16051.650.842.038.835.624.825.322.623.824.520Treansformerlock×LN4OO0O

0000RMSNormooo{q.oO{a

opPl

kO

{kE

{vf3laenterolnputHidenh,O0000000ROTraining

CostsPre-Training

Context

Extension

Post-TrainingTotalin

H800

GPU

Hours2664K119K5K2788Kin

USD$5.328M$0.238M$0.01M$5.576M>2048張H800

計算:~54天Accuracy/Percentile

(%)zkD

ooo73.874639.2DeepSeek-R1

技術(shù)剖析:RL加持下的

Length泛化&推理范式涌現(xiàn)>大規(guī)模RL的加持下,DeepSeek-R1Zero表現(xiàn)出在推理任務(wù)上思維鏈長度的自然增長和涌現(xiàn)>反思深度逐層加深,出現(xiàn)標(biāo)記不明確的步驟、保持中間結(jié)論、驗證、混合語言推理等現(xiàn)象

>模型在準(zhǔn)確率獎勵和格式獎勵下自然探索到驗證、回溯、總結(jié)、反思的行為范式>如何控制來保證最后的response長度能夠穩(wěn)定上升,可能會出現(xiàn)反復(fù)重復(fù)驗證、或者驗

證時間過晚的情況;(REINFORCE

系列更快;PPO

訓(xùn)練穩(wěn)定但是慢)750050100150200250300tag:train/return0.320.292000>多語言可能是因為預(yù)訓(xùn)練數(shù)據(jù)是多語言的,“

視同仁”被Tokenization,同語言編碼是否有不同優(yōu)勢?ot8000DS-R1

Zero

長度涌現(xiàn)現(xiàn)象

社區(qū)復(fù)現(xiàn)結(jié)果10.230.2社區(qū)復(fù)現(xiàn)結(jié)果2不同的領(lǐng)域的不train/response

lengthtag:train/response

lengthDeepSeek-R1-Zero

average

length

per

response

during

training12000DeepSeek-R1

長度泛化復(fù)現(xiàn):/p/21290410831Averagelength

per

response21950850DeepSeek-R1

技術(shù)剖析:GRPO

賦能RL-Scale

22>GRPO

核心思想是通過構(gòu)建多個模型輸出的群組,并計算群組內(nèi)的相對獎勵來估計基線,從而避免了傳統(tǒng)策略優(yōu)化算法中需要使用與策略模型大小相同的評論模型。>大幅度降低RL

訓(xùn)練的計算成本,同時還能保證模型能夠有效地學(xué)習(xí)到策略。>具體來說,在傳統(tǒng)的RL

訓(xùn)練中,評論模型需要與策略模型具有相同的大小,增加計算資源的消耗。而GRPO

算法利用群組內(nèi)的相對信息來估計基線,避免了使用CriticModel的需要。>

,GRPO算法還引入了一些額外的優(yōu)化策略(獎勵縮放和策略裁剪),提升訓(xùn)練的穩(wěn)定性。>From

PPO

to

GRPO:>PPO

作為Actor-Critic

算法被廣泛運用于Post-Training,核心目標(biāo)是最大化下面的目標(biāo)函數(shù)>其中,

πe和πoold

分別表示當(dāng)前策略模型和舊策略模型,q,o

是從問題數(shù)據(jù)集和舊策略πθold中采樣的輸入和輸出,At是基于廣義優(yōu)勢估計

(GAE)計算的優(yōu)勢值,依賴于獎勵序列{r≥t}和

學(xué)習(xí)的價值函數(shù)Vψ。因此,PPO需要同時訓(xùn)練策略模型和價值函數(shù)。為避免獎勵模型的過度優(yōu)化,

標(biāo)準(zhǔn)做法是在每個詞元的獎勵中添加與參考模型的KL

懲罰項DeepSeek-R1

技術(shù)剖析:GRPO

賦能RL-Scale

23>FromPPO

to

GRPO:>PPO

的價值函數(shù)通常是與策略模型規(guī)模相當(dāng)?shù)莫毩⒛P停@帶來了巨大的內(nèi)存和計算負(fù)擔(dān)。>獎勵模型通常僅對輸出序列的最后一個詞元分配獎勵,導(dǎo)致逐詞元價值函數(shù)的訓(xùn)練復(fù)雜化。>GRPO:無

像PPO

值函

數(shù),

用同

一問

線。

而言,對于每個問題,GRPO

從舊策略πeold中采樣一組輸出,并通過最大化以下目標(biāo)優(yōu)化策略模型:>通過群組相對方式計算優(yōu)勢值,與獎勵模型的對比性質(zhì)(通常基于同一問題的輸出比較訓(xùn)練)天然契

合;

,GRPO

直接將策略模型與參考模型的KL

散度作為正則項加

入損失函數(shù),而非將其混入獎勵計算,簡化了優(yōu)勢值的計算。ReferenceKLModelRewardModelValueVModelKLReferenceModelRewardModelrGDeepSeekMath

https://arxiv.org/pdf/2402.03300JGRPO(θ)=E[q~P(Q),{oi}=1~πoa(O|q)]TrainedModelsFrozenModelsPPOq守

:PolicyModelPolicyModelGRPOr1r2ca0102A?田

→GAEA0G。q0rDeepSeek-R1技術(shù)剖析:GRPO

賦能RL-Scale>From

PPO

to

GRPO:>

基于結(jié)果監(jiān)督的GRPO

:對于每個問題q,從舊策略模型πeola采樣一組輸出{01,02,03,…,0G},獎勵模型為

每個輸出生成獎勵{ri,r?,r3,…,rG}。

隨后,獎勵通過減去組內(nèi)均值并除以標(biāo)準(zhǔn)差進(jìn)行歸一化。結(jié)果監(jiān)督將歸一化后的獎勵分配給每個輸出的末尾詞元,并將所有詞元的優(yōu)勢設(shè)為該歸一化獎勵;>

基于過程監(jiān)督的GRPO

:結(jié)果監(jiān)督僅提供輸出末尾的獎勵,對復(fù)雜數(shù)學(xué)任務(wù)的策略指導(dǎo)不足>對問題q

和采樣輸出{01,02,03,…,0G},

過程獎勵模型為每個步驟生成獎勵:R={{rindex(1),rindex(2),…,rindex(k1)},….{rindex(1),rindex(2),…,rindex(kc)}}其

中index(j)

是第j步的末尾詞元索引,Ki

第i

個輸出的總步數(shù)。歸一化后,優(yōu)勢值為后續(xù)步驟歸一化獎勵的累加和referencemodelπref←πefor

step=1,...,M

doSample

a

batch

Db

from

DUpdate

the

old

policy

model

πOola←πeSampleG

outputs

{oi}i1~πOaua(·|q)for

each

question

q∈D?Compute

rewards{ri}{=1foreachsampledoutput

oi

by

running

rφCompute

A,tfor

the

t-th

tokenof

oi

throughgroup

relativeadvantageestimation.

forGRPOiteration=1,...,μ

doUpdate

the

policy

model

πe

by

maximizing

the

GRPO

objective

(Equation21)Update

rφthrough

continuous

training

using

a

replay

mechanism.Algorithm

1Iterative

Group

Relative

Policy

OptimizationInput

initial

policy

model

πom;reward

models

rg;task

promptsD;hyperparameterse,β,μ1:policymodel

πe←πGinit2:for

iteration=1,...,I

do基于過程監(jiān)督的GRPO

優(yōu)勢值估計DeepSeekMath

https://arxiv.org/pdf/2402.03300基于結(jié)果監(jiān)督的GRPO

優(yōu)勢值估計3:4:5:6:7:8:9:10:11:12:Output

πe24DeepSeek-R1

Takeaways總結(jié)PartII>DS-R1

Zero

跳過監(jiān)督微調(diào)SFT階段,展現(xiàn)出大規(guī)模強(qiáng)化學(xué)習(xí)的潛力。這種自主學(xué)習(xí)的方式,不僅節(jié)省了大量的標(biāo)注成本,而且讓模型更自由的探索解決問題的路徑,而不是被預(yù)先設(shè)定的模式所

束縛。這也使得模型最終具備了更加強(qiáng)大的泛化能力和適應(yīng)能力。>為了充分釋放GRPO

的潛力并確保訓(xùn)練穩(wěn)定性,DeepSeek

R1的訓(xùn)練中采用了四階段的交替迭代流程:

“監(jiān)督微調(diào)

(SFT)→

強(qiáng)化學(xué)習(xí)

(RL)→再次SFT→

再次RL”,有效解決了傳統(tǒng)強(qiáng)化學(xué)

習(xí)模型在冷啟動、收斂效率和多場景適應(yīng)性方面的瓶頸。>強(qiáng)大的自驗證和長鏈推理能力:并非預(yù)先設(shè)定好的,而是在RL

訓(xùn)練中自主涌現(xiàn)出來的>自驗證是指模型在生成最終答案之前,會先主動地驗證自己的中間推理步驟是否正確。這就像一個學(xué)生在做題時,會反復(fù)檢查自己的解題過程,以確保答案的準(zhǔn)確性。>反思是指模型會回溯檢查自己之前的推理過程,并根據(jù)檢查的結(jié)果進(jìn)行修正,相當(dāng)于一個學(xué)

生在復(fù)習(xí)時,會反思自己之前的錯誤,以便下次不再犯同樣的錯誤。>

而長鏈推理能力則讓模型能夠處理更復(fù)雜、更需要多步驟思考的問題。這種能力對于解決一些需要跨越多個邏輯步驟才能找到答案的問題至關(guān)重要,例如復(fù)雜的數(shù)學(xué)題或邏輯謎題。>冷啟動讓RL

訓(xùn)練更加穩(wěn)定:>

免RL訓(xùn)練初期的不穩(wěn)定,使得模型能夠更快地進(jìn)入穩(wěn)定的訓(xùn)練狀態(tài);>有效地加速RL

訓(xùn)練的收斂,縮短訓(xùn)練時間;>提高模型輸出的可讀性,減少不同語言混合使用的情況。25>推理為中心的RL

訓(xùn)練:>語言一致性獎勵,以解決模型在多語言環(huán)境中進(jìn)行推理時,出現(xiàn)語言混合的問題。>對推理鏈的質(zhì)量進(jìn)行細(xì)致的評估,并通過獎勵機(jī)制引導(dǎo)模型生成更加合理、準(zhǔn)確的推理過程。

>多目標(biāo)優(yōu)化:兼顧推理性能、幫助性和安全性;>

蒸餾的潛力:蒸餾可以幫助將更大模型通過RL

發(fā)現(xiàn)的高階推理范式蒸餾到小模型中,這比用小模型直接使用大規(guī)模RL

發(fā)現(xiàn)的推理范式要更加有效;>

基于群組的相對策略優(yōu)化(GRPO)

:通過構(gòu)建多個模型輸出的群組,并計算群組內(nèi)的相對獎勵來估計基線,從而避免了傳統(tǒng)策略優(yōu)化算法中需要使用與策略模型大小相同的評論模型>

低RL

訓(xùn)練的計算成本\保證模型能夠有效地學(xué)習(xí)到策略>獎勵機(jī)制的設(shè)計:兼顧推理能力和語言一致性>準(zhǔn)確率獎勵和格式獎勵,從而保證模型不僅能夠正確地解決問題,還能夠以規(guī)范、易讀的方式輸出答案>

格式獎勵:用于強(qiáng)制模型將推理過程放置在特定的標(biāo)簽內(nèi),用<think>和</think>標(biāo)簽來包裹推理過程,使用<answer>

和</answer>標(biāo)簽來包裹最終答案。>語言一致性獎勵:懲罰在推理過程中使用了多種語言的輸出,鼓勵模型盡可能地使用一種目標(biāo)語言進(jìn)行推理,從而保證模型輸出的語言風(fēng)格一致性DeepSeek-R1

Takeaways總結(jié)

PartII

26DeepSeek-R1社會和經(jīng)濟(jì)效益

27>低成本高質(zhì)量語言模型邊界的探索,擴(kuò)展的具體方法和側(cè)重點改變:最初是模型規(guī)模,然后是數(shù)據(jù)集規(guī)模,現(xiàn)在是推理時的計算資源和合成數(shù)據(jù);>垂直領(lǐng)域和橫向拓展:采用"API+

本地化知識庫"或"提示工程+檢索增強(qiáng)"的混合方案,通過Prompt

Engineering和RAG等技術(shù)實現(xiàn)業(yè)務(wù)場景的快速適配與輕量定制,同時建立完善的運維合規(guī)體系,確保數(shù)據(jù)處理全流程的安全性與合法性。>資本市場的劇烈波動是AI技術(shù)快速迭代引發(fā)的短期現(xiàn)象,表現(xiàn)為研發(fā)投入和數(shù)據(jù)中心建

設(shè)成本激增,這在近期美股科技股的震蕩中得以集中體現(xiàn);而從長期來看,行業(yè)將陷入

算力軍備競賽的循環(huán),每一輪技術(shù)突破和應(yīng)用場景擴(kuò)展都將催生新的算力需求與資源投

入,持續(xù)重塑行業(yè)競爭格局。>資源優(yōu)化:隨著模型使用方案的平民化,中小企業(yè)和個人開發(fā)者得以將有限資源聚焦于場景創(chuàng)新與技術(shù)優(yōu)化,無需在基礎(chǔ)能力建設(shè)或算力消耗上投入過多成本。>市場激活:這種高性價比、低門檻的大模型服務(wù)模式,將吸引更多初創(chuàng)團(tuán)隊涌入賽道,催生多元化的應(yīng)用場景和技術(shù)路徑,推動行業(yè)生態(tài)的繁榮發(fā)展。>

高效創(chuàng)新:

在有限算力資源支持下,算法創(chuàng)新模式,突破了算力的“卡脖子”限制技術(shù)對比討論:Kimi

K1.5

Moonshot

28K1.5

專注于用長文本CoT

解決推理時Scaling問題>

用RL探

:Kimik1.5的

強(qiáng)

學(xué)

習(xí)

錯(

)

學(xué)

習(xí)

能力,而不是僅僅依賴于靜態(tài)數(shù)據(jù)集。>

CoT的

RL:將RL應(yīng)

本CoT推

程,

使

進(jìn)

入、

復(fù)

。>

規(guī)

:通

度,

成CoT的

程中

進(jìn)

規(guī)

劃、

正,

顯式的搜索樹或價值函數(shù)。>

關(guān)

:核心洞察是長文本能力是強(qiáng)化學(xué)習(xí)訓(xùn)練LLM的關(guān)鍵,而不是更復(fù)雜的訓(xùn)練技巧。>

:通過長文本CoT模

導(dǎo)

本CoT模

訓(xùn)

練,

獲MathCode69.1

⑥同76.7

AKimiK1.5Long2ShortResult得更好的性能。OpenAl01Math

Code

Vision77.3KimiK1.5MainResult88Ko器因;8

白887.9813的因的因88。②②;;8的公器心;

包B日

…的38心

8西

;A40.662技術(shù)對比討論:Kimi

K1.5

Moonshot

29>四個階段Pretraining--SFT--Long-CoTSFT-RL>

RL

PromptSetCuration

RL問題的準(zhǔn)備>Diverse

Coverage:涵蓋STEM\coding\general

reasoning的數(shù)據(jù)>BalancedDifficulty:涵蓋不同的complexity難

度>Accurate

Evaluability:能

被Verifi

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論