




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
DeepSeek-R1\Kimi
1.5
及
類強(qiáng)推理模型開發(fā)解讀陳博遠(yuǎn)北京大學(xué)2022級“通班”主要研究方向:大語言模型對齊與可擴(kuò)展監(jiān)督北大對齊小組Outline>DeepSeek-R1
開創(chuàng)RL
加持下強(qiáng)推理慢思考范式新邊界>DeepSeek-R1Zero及
R1技術(shù)剖析>Pipeline
總覽\DeepSeek-V3
Base\DeepSeek-R1
Zero
及
R1細(xì)節(jié)分析>RL算法的創(chuàng)新:GRPO
及其技術(shù)細(xì)節(jié)>DeepSeek-R1背后的Insights&Takeaways:RL
加持下的長度泛化\推理范式的涌現(xiàn)>DeepSeek-R1
社會及經(jīng)濟(jì)效益>技術(shù)對比探討>STaR-basedMethodsvs.RL-basedMethods強(qiáng)推理路徑對比(DS-R1\Kimi-1.5\o-series)
>
蒸
餾vs.強(qiáng)化學(xué)習(xí)驅(qū)動:國內(nèi)外現(xiàn)有各家技術(shù)路線對比分析及Takeaways>PRM&MCTS
的作用>從文本模態(tài)到多模態(tài)>其他討論:Over-Thinking過度思考等>未來方向分析探討>模態(tài)穿透賦能推理邊界拓展:Align-DS-V>合成數(shù)據(jù)及Test-TimeScaling:突破數(shù)據(jù)再生產(chǎn)陷阱>強(qiáng)推理下的安全:形式化驗證FormalVerification\審計對齊Deliberative
Alignment>補充拓展:DeepSeek-V3
解讀2DeepSeek-R1
開
創(chuàng)RL
加持下強(qiáng)推理慢思考范式新邊界
3>OpenAI
o1開啟后訓(xùn)練Post-Training時代下的RL
新范式:后訓(xùn)練擴(kuò)展律
Post-Training
Scaling
Law>DS-R1獨立發(fā)現(xiàn)了一些通往o1路上的核心理念,并且效果還好到受到了OpenAI
的認(rèn)可>如何通過有效的Test-Time
Scaling和
Train-Time
Scaling提升模型的推理能力?>
得益于純大規(guī)模強(qiáng)化學(xué)習(xí),DeepSeek-R1
具備強(qiáng)大推理能力與長文本思考能力,繼開源來備受關(guān)注。>DeepSeek
R1-Zero和
R1
的出現(xiàn)再次證明了強(qiáng)化學(xué)習(xí)的潛力所在:>R1-Zero
從基礎(chǔ)模型開始構(gòu)建,完全依賴強(qiáng)化學(xué)習(xí),而不使用人類專家標(biāo)注的監(jiān)督微調(diào)
(SFT);>隨著訓(xùn)練步驟增加,模型逐漸展現(xiàn)出長文本推理及長鏈推理能力;>隨著推理路徑增長,模型表現(xiàn)出自我修復(fù)和啟發(fā)式搜索的能力;DeepSeek-R1-Zero
AIME
accuracy
during
training0.70.60.20
2000的驚人成績,表現(xiàn)與OpenAI-o1-1217相當(dāng)。>在編碼相關(guān)的任務(wù)中表現(xiàn)出專家水平,在Codeforces上獲得了2029
Elo評級,在競賽中表現(xiàn)
優(yōu)于96.3%的人類參與者>DeepSeek-R1在
知識類問答上推動科學(xué)探索邊界:>MMLU\MMLU-Pro\GPQADiamond
等
STEM-related榜單上取得良好表現(xiàn)>R1
展現(xiàn)出強(qiáng)推理模型在AI-Driven
Research
的潛力>在長文本依賴任務(wù)如
FRAMEs
和事實性推斷任務(wù)Simple-QA上表現(xiàn)突出DeepSeek-R1開創(chuàng)RL
加持下強(qiáng)推理慢思考范式新邊界
4>得益于強(qiáng)大的推理能力與長文本思考能力,DeepSeek
R1在復(fù)雜任務(wù)上表現(xiàn)卓越,成為開源領(lǐng)域的又一里程碑,標(biāo)志著開源社區(qū)在與閉源大模型(如OpenAI
ol系列)的競爭中邁出了關(guān)鍵性一步。
>
DeepSeek-R1
在數(shù)學(xué)代碼任務(wù)上表現(xiàn)突出>Deepseek
R1在AIME2024上獲得了79.8%的成績,略高于OpenAI-o1-1217。在
MATH-500
上,獲得97.3%Benchmark
(Metric)Claude-3.5-GPT-4oDeepSeekOpenAI
OpenAIDeepSeekSonnet-10220513
V3o1-mini
o1-1217R1Architecture#Activated
Params#Total
Params111-
-MoE37B671B--MoE37B671BMMLU
(Pass@1)88.387.288.585.291.890.8MMLU-Redux
(EM)88.988.089.186.792.9MMLU-Pro
(EM)78.072.675.980.384.0DROP(3-shot
F1)88.383.791.683.990.292.2English
IF-Eval
(Prompt
Strict)86.565.084.349.986.159.184.8
60.075.783.371.5SimpleQA(Correct)28.438.224.97.047.030.1FRAMES(Acc.)72.580.573.376.982.5AlpacaEval2.0(LC-winrate)52.051.170.057.887.6ArenaHard
(GPT-4-1106)85.280.485.592.0-92.3LiveCodeBench
(Pass@1-COT)38.932.936.253.863.465.9Codeforces
(Percentile)
Codeforces
(Rating)20.371723.675958.7113493.4182096.6206196.32029SWEVerified
(Resolved)50.838.842.041.648.949.2Aider-Polyglot
(Acc.)45.316.049.632.961.753.3AIME
2024(Pass@1)16.09.339.263.679.279.8Math
MATH-500(Pass@1)78.374.690.290.096.497.3CNMO
2024(Pass@1)13.110.843.267.678.8CLUEWSC(EM)85.487.990.989.992.8Chinese
C-Eval
(EM)76.776.086.568.991.8C-SimpleQA
(Correct)55.458.768.040.3-63.7GPQA
Diamond
(Pass@1)Code----4.0-舉個例子:3.0-
假設(shè)一個模型有N=10^9(10億個參數(shù)),并且訓(xùn)練數(shù)據(jù)集的規(guī)模是D=10^{12}(1萬億個
token)。·使用公式C=6ND,總的計算量就是:2.0-
C=6×10?×1012=6×1021FLOPsBy
Haowei
Lin
這表明要訓(xùn)練這個模型,大約需要6×1021次浮點運算。100p
10n100μ
0.01Compute回顧:Pre-Training
Scaling
Law>Pre-TrainingScalingLaws:預(yù)訓(xùn)練模型上廣泛觀察到的現(xiàn)象,協(xié)調(diào)了計算量C、模型參數(shù)量N和數(shù)據(jù)大小D
之間的關(guān)系■lbs
ofCO2equivalentRoundtripflight
b/w
NYandSF(1
passenger)Human
life(avg
1
year)American
life(avg
1year)US
carincluding
fuel(avg
1
ifetime)GPT-3T5|1,984|
11,02336,156126,00010
3,617Expensive:
TrainingGPT-3requiredatleast
$4,600,000Extensiveresources:manytrainingdata,large
network
Biggermodels,moredata->usuallybetter
performance1216950C~6NDCreatedwithDatawrapperIncrease
N->betterperformanceIncrease
D->betterperformanceBut
we
have
a
budget
on
C~6NDThisformulais
useful!!C=number
of
FLOPs(computations)N=number
of
model
parametersD=amount
of
training
dataCompute=6*Parameters
*Data·Motivation:Efficientlytraining
LARGEmodel
CommoncarbonfootprintbenchmarksOpenAlcodebase
nextwordpredictionBits
perword6.0-●
Observed
Prediction5.0-
●
gpt-4背
景
:·Scalinglaws:
在生成模型訓(xùn)練當(dāng)中被廣泛觀察到的現(xiàn)象。·
對于計算量C,
模型參數(shù)量N
和數(shù)據(jù)大小D,
當(dāng)不受其他兩個因素制約時,模型性
能與每個因素都呈現(xiàn)冪律關(guān)系。Howtomaximizemodel
performance
byallocatingCto
Nand
D?[Data
Source:(Strubell
et
al.,2019)][Data
Source:(Patterson
et
al.2021)]Jared
Kaplan,et
al.Scaling
Laws
for
Neural
Lanquage
Models.ComputeDatasetSizeParametersPF-days,non-embedding
tokensL≈S(True)()≈DrL(Truel|Model)"Irreducible"Reduciblenon-embeddingLoss"Loss"TestLoss1.0—回顧:Post-TrainingScalingLaw
6>Post-Training階段,隨著訓(xùn)練時計算量
(來自RL的Training階段)和Test-Time計算量(例如Test-Time
Search)
的增長,模型性能(例如數(shù)學(xué)推理能力)也會隨之提升>
Post-TrainingScaling
Laws下
訓(xùn)練時計算量多了一個新的變量:Self-Play探索時LLMInference的計算量pass@laccuracytrain-timecompute(log
scale)01AIMEaccuracytest-timecompute(logscale)we
are
continuing
to
investigate
them.[1]/index/learning-to-reason-with-llms/Our
large-scale
reinforcement
learning
algorithm
teaches
the
model
how
to
thinkproductively
using
its
chain
of
thought
in
a
highly
data-efficient
training
process.We
have
foundthatthe
performanceofo1consistently
improveswithmore
reinforcement
learning
(t
rain-timecompute)andwithmoretimespentthinking(test-timecompute).Theconstraints
on
scaling
this
approach
differ
substantially
from
those
of
LLM
pretraining,andpass@laccuracy01AIMEaccuracy回顧:Post-TrainingScaling
Law為什么我們需要后訓(xùn)練
Scaling-Law?>隨著模型尺寸逐漸增大,預(yù)訓(xùn)練階段參數(shù)Scaling
Up帶
來
的邊際收益開始遞減;如果想要深度提升模型推理能力和長程問題能力,基于RL
的
Post-Training將會成為下一個突破點。>自回歸模型在數(shù)學(xué)推理問題上很難進(jìn)步的
一
點在于沒有辦法進(jìn)行回答的自主修正,如果僅是依靠生成式方法和擴(kuò)大參數(shù)規(guī)模,那么在數(shù)學(xué)推理任務(wù)上帶來的收益不會太大。所以需要尋找額外的ScalingLaws[1]。Onesignificantchallengeinmathematicalreasoningisthehighsensitivityto
individual
mistakes
(Shen
et
al.,2021a).When
generating
a
solution,au-toregressive
models
have
no
mechanism
to
correct
their
own
errors.Solutionsthat
veer
off-course
quickly
become
unrecoverable.If
we
rely
purely
on
genera-tive
methods
and
extrapolate
from
current
trends,we
will
require
an
exorbitantparameter
count
to
achieve
even
moderate
performance
on
distributions
as
chal-lenging
as
the
MATH
dataset
(Hendrycks
et
al,2021).This
evidencestronglymotivates
the
search
for
methods
with
more
favorable
scaling
laws.Comparing
Test-time
and
Pretraining
Compute
in
a
FLOPs
Matched
Evauation30+27.8%+21.6%+16.7%+11.8%+3.5%011.9%-20●
Easy
Questions●
MediumQuestionsHard
Questions
-37.2%-40<<1~=1
>>1Ratio
of
Inference
Tokens
to
Pretraining
Tokens[1]Training
Verifiers
to
Solve
Math
Word
Problems
https://arxiv.org/pdf/2110.14168[2]Scaling
LLM
Test-Time
Compute
Optimally
can
be
More
Effective
than
Scaling
Model
ParametersRelativeImprovement
inAccuracyFromTest-timeCompute(%)+5.4%-10-302010基于規(guī)則的獎勵Rule-Based
Reward(671B)推理為中心的大規(guī)模強(qiáng)化學(xué)習(xí)Large-Scale
Reasoning-Oriented
RLDeepSeek-R1技術(shù)剖析:DeepSeek-R1
Zero
8DeepSeek-R1Zero:無需監(jiān)督微調(diào)SFT,純強(qiáng)化學(xué)習(xí)驅(qū)動的強(qiáng)推理模型ModelAIME
2024MATH-500GPQADiamondLiveCodeBenchCodeForcespass@1
cons@64pass@1pass@1pass@1ratingOpenAI-o1-mini63.6
80.090.060.053.81820OpenAI-01-091274.4
83.394.877.363.41843DeepSeek-R1-Zero71.0
86.795.973.350.01444大規(guī)模推理為中心的強(qiáng)化學(xué)習(xí),提升模型數(shù)學(xué)代碼能力RL
驅(qū)動下自然涌現(xiàn)長文本推理能力DeepSeek-R1-ZeroDeepSeek-v3-BaseDeepSeek-R1
Zero:無需監(jiān)督微調(diào)SFT,
純強(qiáng)化學(xué)習(xí)驅(qū)動的強(qiáng)推理模型>
獎勵建模:基于規(guī)則的獎勵(Rule-Based
Reward):準(zhǔn)確率獎勵+格式獎勵>準(zhǔn)確率獎勵A(yù)ccuracyRewards:判斷答案是否是正確的>格式獎勵FormatRewards:規(guī)勸模型生成答案的過程是<think>和</think>>
沒有使用Reward
Model,因為ORM
和PRM
等基于神經(jīng)網(wǎng)絡(luò)的都可能遭受rewardhacking
而retraining
reward
model需要大量的計算資源,可能會復(fù)雜化整個流程>
訓(xùn)練模板:選擇最簡單的
ThinkingProcess,直接觀察到最直接的RL
過程下的表現(xiàn)A
conversation
between
User
and
Assistant.The
user
asks
a
question,and
the
Assistant
solves
it.The
assistant
firstthinks
aboutthereasoningprocess
in
themind
and
then
provides
the
userwith
the
answer.The
reasoning
process
and
answer
are
enclosed
within
<think></think>and<answer></answer>tags,respectively,i.e.,<think>reasoning
process
here</think><answer>answerhere</answer>.User:
prompt
.Assistant:Table1|TemplateforDeepSeek-R1-Zero.
promptwillbereplacedwiththe
specific
reasoningquestion
during
training.基于規(guī)則的獎勵(Rule-BasedReward):準(zhǔn)確率獎勵+格式獎勵DeepSeek-R1技術(shù)剖析:DeepSeek-R1
Zero
9DeepSeek-R1
技術(shù)剖析:DeepSeek-R1
Zero
10DeepSeek-R1
Zero:無需監(jiān)督微調(diào)SFT,
純強(qiáng)化學(xué)習(xí)驅(qū)動的強(qiáng)推理模型>
推理為中心大規(guī)模強(qiáng)化學(xué)習(xí):組相對策略優(yōu)化
(GRPO)+
瞄準(zhǔn)
Reasoning
推理任務(wù)>
自我迭代提升Self-Evolution:
隨著訓(xùn)練步數(shù)的增長,模型的thinking
response
length逐漸增加(對應(yīng)著test-time
computation
increasing)>Aha
moment:自然學(xué)會增加更多的推理時間,反思評價先前步驟、探索其他方法DeepSeek-R1-Zero
averagelengthperresponseduringtraining12000100008000600040002000ot02000400060008000StepsQuestion:If
a>1,then
thesum
of
the
realsolutions
of
Va-Va+x=xis
equal
toResponse:<think>Tosolvetheequation√a-Va+x=x,let'sstartbysquaringboth
…Rearrangetoisolatetheinner
square
root
term:(a-x2)2=a+x→a2-2ax2+(x2)2=a+x=x?-2ax2-x+(a2-a)=0●●Wait,wait.Wait.That's
an
aha
moment
I
can
flag
here.Let's
reevaluate
this
step-by-step
to
identify
ifthe
correct
sum
canbe.
·Westartedwith
the
equation:√a-Va+x=xFirst,let's
square
both
sides:a-Va+x=x2=Va+x=a-x2Next,I
could
square
both
sides
again,treating
the
equation:.
··"Aha"Moment
RL
驅(qū)動下自然涌現(xiàn)Long-CoT
能力Averagelength
per
responseDeepSeek-R1
Zero的關(guān)鍵啟示>
傳統(tǒng)RLHF
背景下,SFT
通常被認(rèn)為是不可或缺的一步,其邏輯先用大量人工標(biāo)注的數(shù)據(jù)來讓模型初步掌握某種能力(如對話或者語言風(fēng)格),然后再用RL來進(jìn)一步優(yōu)化性能>DeepSeek-R1系列跳過對于大規(guī)模人工標(biāo)注數(shù)據(jù)的依賴>
無需構(gòu)建和維護(hù)高質(zhì)量的SFT數(shù)據(jù)集,而是讓模型直接在RL環(huán)境中進(jìn)行探索>類比:初學(xué)者在沒有老師指導(dǎo)的情況下,通過不斷的嘗試和錯誤來掌握一門新的技能。>這種自主學(xué)習(xí)的方式,不僅節(jié)省了大量的標(biāo)注成本;>更重要的是,它讓模型能夠自由地探索解決問題的路徑,而不是被預(yù)先設(shè)定的模式所束縛。DeepSeek-R1技術(shù)剖析:DeepSeek-R1
Zero
11DeepSeek-R1
Zero的關(guān)鍵啟示>
跳
過SFT
階段,直接運用純強(qiáng)化學(xué)習(xí)拓展推理能力邊界實際上也帶來了幾個很重要的啟示:>
需要足夠強(qiáng)的基座模型:基座模型(DeepSeek-V3
Base)超過了某個質(zhì)量和能力閾值(671B在14.8T
高質(zhì)量Token上訓(xùn)練)
(基座模型知識幫助突破推理上界,也有一些工作利用小模型復(fù)現(xiàn)Aha
Moment
得益于大規(guī)模RL
和高質(zhì)量推理數(shù)據(jù));>
大規(guī)模強(qiáng)化學(xué)習(xí)加持:GRPO
對于強(qiáng)化學(xué)習(xí)訓(xùn)練的優(yōu)化;>
規(guī)則化獎勵:繞過獎勵攻陷問題,但是得益于推理問題可以進(jìn)行自動化標(biāo)記和驗證(Self-AutomatedVerificationandAnnotation),這是與一般聊天和寫作請求任務(wù)不同的;DeepSeek-R1技術(shù)剖析:DeepSeek-R1
Zero
12DeepSeek-R1
Zero的關(guān)鍵啟示:舉例-自動化標(biāo)記和驗證>
示例輸入:編寫python
代碼,該代碼采用數(shù)字列表,按排序順序返回,在開始時添加42。>自動化驗證方法:>利用軟件檢查代碼補全判斷是否為完整代碼;>
執(zhí)
行Python代碼檢查運行情況判斷是否為可運行代碼;>調(diào)用外部模塊構(gòu)建額外的檢測單元;>甚至可以更進(jìn)
一
步,測量執(zhí)行時間,使訓(xùn)練過程首選性能更高的解決方案;>以上均可以作為小批量訓(xùn)練(Mini-Batch)
和連續(xù)訓(xùn)練過程中的獎勵信號DeepSeek-R1技術(shù)剖析:DeepSeek-R1
Zero
13DeepSeek-R1
技術(shù)剖析:DeepSeek-R1
Zero
14DeepSeek-R1
Zero的關(guān)鍵啟示:舉例-自動化標(biāo)記和驗證>
示例輸入:編
寫python代碼,該代碼采用數(shù)字列表,按排序順序返回,在開始時添加42。>基于規(guī)則進(jìn)行驗證,并在Mini-Batch中提供獎勵信號;here'sajokeaboutfrogsecho
42defsort(a)defsortand_prepend(a)LowLowLowHighDeepSeek-R1-ZeroSolutionscore(reward)DeepSeek-R1-ZeroRule-basedverification[1]https://newsletter.languagemodels.co/p/the-illustrated-deepseek-r1Training
promptWritepythoncode
that
takes
a
list
of
numbers,returns
them
in
a
sortedorder,butalsoadds
42
atthestart.TrainingpromptWrite
python
code
that
takes
alist
of
numbers,returns
them
in
asorted
order,but
also
adds
42
atthe
start.Large-scale
Reasoning-Oriented
Reinforcement
LearningUpdatethe
modelso
itsless
likelytooutput
lowscoresolutionsliketheseandmore
likelytooutput
high-scoresolutionsin
responsetosuch
a
promptLarge-scale
Reasoning-Oriented
Reinforcement
Learningdef
sort(a)def
sort_and_prepend(a)DeepSeek-v3-BaseTrainingstep
1DeepSeek-v3-BaseTrainingstep
1here's
a
joke
about
frogsecho42checkpoint
trainingGenerate4possiblesolutionscheckpoint
trainingIs
code?Is
python?Model
underpasses
uni
tests?Model
underpossiblesolutions×Generate
4DeepSeek-R1技術(shù)
Pipeline總覽
15>
DeepSeek-R1
Zero
的問題:長推理過程可讀性差、語言混合,幫助性低>Research
Questions:>
能
否
在Zero基礎(chǔ)上兼顧推理性能的同時,提升模型的幫助性和安全性?例如產(chǎn)生Clear&CoherentCoT并且展現(xiàn)出通用能力的模型R1;>能否利用一些高質(zhì)量反思數(shù)據(jù)集做ColdStart從而加速RL
的收斂或幫助提升推理表現(xiàn)DeepSeek-v3-Base(671B)基于規(guī)則的獎勵Rule-Based
Reward正確率獎勵
格式獎勵推理為中心的大規(guī)模強(qiáng)化學(xué)習(xí)(GRPO)iLarge-Scale
Reasoning-Oriented
RLDeepSeek-R1-Zero拒絕采樣和全領(lǐng)域SFT600k
推理數(shù)據(jù)(Rule-based+Generative獎勵)200k通用數(shù)據(jù)(Writing\Role-Playetc.)全領(lǐng)域RLAll-Scenarios
RL推理任務(wù)-規(guī)則獎勵(Rule-based
Reward)通用任務(wù)-偏好建模(Reward
Model)DeepSeek-R1Stage
II:通用能力&安全性DeepSeek-v3-Base(671B)冷啟動Cold
Start雙重驗證
反思數(shù)據(jù)推理為中心的RL正確率獎勵
流暢性獎勵數(shù)學(xué)代碼推理任務(wù)Intermediate
Model(推理鏈可讀性更強(qiáng))Stage
I:推理鏈可讀性DeepSeek-R1技術(shù)
Pipeline總覽
16>
冷啟動Cold
Start>
數(shù)據(jù)準(zhǔn)備:
few-shotlongcot
data,詳細(xì)帶反思和驗證的數(shù)據(jù)集
>
雙重驗證:
由人類注釋者和R1-zero生成的高質(zhì)量鏈?zhǔn)剿伎?Chain-of-Thought,CoT)
數(shù)據(jù),部分樣本長度達(dá)到10,000Token>
成效:提供
一
些Human
Prior\
顯著提升了語言的語義連貫性、可讀性和基本推理能力。>推理為中心RLReasoning-OrientedRL>
增加了大規(guī)模的RL
訓(xùn)練過程:
和DeepSeek-R1
Zero基本一致,主要是提升Reasoning
的能力,包括coding\mathematics\logicreasoning等帶有明確解答過程的問題>
語言一致性獎勵:
引
入languageconsistencyreward
衡量長推理鏈可讀性(通過計算CoT
過程中目標(biāo)語言的占比)>
推理準(zhǔn)確率獎勵:
結(jié)合
accuracyofreasoningtasks
andreward
forlanguage
consistency>
成效:通
過GRPO,模型在AIME
2024
等數(shù)學(xué)基準(zhǔn)上取得了顯著提
升
,pass@1
從15.6%提高到71.0%。此外,模型能夠自發(fā)延長
推理鏈條,展現(xiàn)出更強(qiáng)的邏輯連貫性。DeepSeek-v3-Base(671B)冷啟動Cold
Start雙重驗證
反思數(shù)據(jù)推理為中心的RL正確率獎勵
流暢性獎勵數(shù)學(xué)代碼推理任務(wù)Intermediate
Model(推理鏈可讀性更強(qiáng))Stage
I:推理鏈可讀性DeepSeek-R1技術(shù)
Pipeline總覽
17DeepSeek-R1技術(shù)
Pipeline總覽>拒絕采樣和全領(lǐng)域SFT
Rejection
Sampling
and
SFT>當(dāng)上一個階段的RL
收斂之后,再進(jìn)行SFT>和之前Cold-Start
的數(shù)據(jù)不同,這部分SFT主要是負(fù)責(zé)全領(lǐng)域任務(wù)>600k
推理任務(wù):(1)基于規(guī)則的獎勵(2)利用批判模型融
合生成式獎勵>200k
通用任務(wù)(writing\role-playing\general-purpose)成效:使模型在推理能力不減的前提下,語言表現(xiàn)更為自然,適應(yīng)性更為廣泛。>全領(lǐng)域RL
RL
for
all
Scenarios>進(jìn)一步提升除了reasoning能力之外幫助性和安全性>對于reasoningdata,可以用基于規(guī)則的獎勵>對
于general
data,可以用獎勵模型來建模人類偏好意圖>
成效:最終版本的R1不僅在推理和對話能力上達(dá)到了高水平,
還具備更安全的交互性能。拒絕采樣和全領(lǐng)域SFT600k推理數(shù)據(jù)(Rule-based+Generative
獎勵)200k通用數(shù)據(jù)(Writing\Role-Playetc.)全領(lǐng)域RLAll-Scenarios
RL推理任務(wù)-規(guī)則獎勵(Rule-based
Reward)通用任務(wù)-偏好建模(Reward
Model)DeepSeek-R1Stage
II:通用能力&安全性18DeepSeek-R1
Takeaways
技術(shù)亮點總結(jié):Part
I>Pure
RL
to
Develop
Reasoning
Capabilities:>社區(qū)的復(fù)現(xiàn)都涉及蒸餾和搜索,而DS-R1Zero
跳過監(jiān)督微調(diào)SFT
階段,展現(xiàn)出大規(guī)模強(qiáng)化學(xué)習(xí)的潛力,這也得益于以下幾點:>
需要足夠強(qiáng)的基座模型:
基座模型(DeepSeek-V3
Base)超過了某個質(zhì)量和能力閾值(671B在14.8T
高質(zhì)量Token上訓(xùn)練);>
大規(guī)模強(qiáng)化學(xué)習(xí)加持:GRPO對于強(qiáng)化學(xué)習(xí)訓(xùn)練的優(yōu)化;>
規(guī)則化獎勵:繞過獎勵攻陷問題,但是得益于推理問題可以進(jìn)行自動化標(biāo)記和驗證(Self-AutomatedVerificationandAnnotation),這是與一般聊天和寫作請求任務(wù)不同的>訓(xùn)練步數(shù)的增長,模型的thinkingresponse
length逐漸增加(test-timecomputation
increasing)>DeepSeek-R1-Zero
自主涌現(xiàn)學(xué)會重新評測原來的方法、反思和主動探索其他的路徑>多階段訓(xùn)練下的冷啟動讓RL訓(xùn)練更加穩(wěn)定,避免初期不穩(wěn)定、加速收斂、提升思維鏈可讀性>
未來后訓(xùn)練的重心會逐步傾向于RL,
但是少量訓(xùn)練用于SFT可能還是必須的>
強(qiáng)化學(xué)習(xí)技術(shù)不只局限在基于規(guī)則的數(shù)學(xué)、算法代碼等容易提供獎勵的領(lǐng)域,它還可以創(chuàng)造性
地把強(qiáng)化學(xué)習(xí)所帶來的強(qiáng)推理能力,泛化到其他領(lǐng)域19DeepSeek-R1
技術(shù)剖析:背后的教師模型
DeepSeek-V3
20>基座模型(DeepSeek-V3
Base)超過了某個質(zhì)量和能力閾值
(671B在14.8T高質(zhì)量Token上訓(xùn)練)>提供了類似于
System
I的足夠好的PriorDistribution直覺,后期RL
探索過程進(jìn)一步挖掘激活>大規(guī)模RL
起到了激活和發(fā)掘預(yù)訓(xùn)練階段積累的知識和推理能力的作用>DeepSeek-V3
低成本(5,576,000美元)帶來驚艷效果>MoE
架構(gòu)671B激活37B\
使用Multi-headLatentAttention(MLA)架構(gòu)DeepSseekv3-DeepSeek
v2.5-Qwen2.5-72B-Tnst-Llama-3.1-405B-Inst-GPT40-0513Claude-3.5-Sonnet-10221008071.673.372.659.16051.650.842.038.835.624.825.322.623.824.520Treansformerlock×LN4OO0O
0000RMSNormooo{q.oO{a
opPl
kO
{kE
{vf3laenterolnputHidenh,O0000000ROTraining
CostsPre-Training
Context
Extension
Post-TrainingTotalin
H800
GPU
Hours2664K119K5K2788Kin
USD$5.328M$0.238M$0.01M$5.576M>2048張H800
計算:~54天Accuracy/Percentile
(%)zkD
ooo73.874639.2DeepSeek-R1
技術(shù)剖析:RL加持下的
Length泛化&推理范式涌現(xiàn)>大規(guī)模RL的加持下,DeepSeek-R1Zero表現(xiàn)出在推理任務(wù)上思維鏈長度的自然增長和涌現(xiàn)>反思深度逐層加深,出現(xiàn)標(biāo)記不明確的步驟、保持中間結(jié)論、驗證、混合語言推理等現(xiàn)象
>模型在準(zhǔn)確率獎勵和格式獎勵下自然探索到驗證、回溯、總結(jié)、反思的行為范式>如何控制來保證最后的response長度能夠穩(wěn)定上升,可能會出現(xiàn)反復(fù)重復(fù)驗證、或者驗
證時間過晚的情況;(REINFORCE
系列更快;PPO
訓(xùn)練穩(wěn)定但是慢)750050100150200250300tag:train/return0.320.292000>多語言可能是因為預(yù)訓(xùn)練數(shù)據(jù)是多語言的,“
一
視同仁”被Tokenization,同語言編碼是否有不同優(yōu)勢?ot8000DS-R1
Zero
長度涌現(xiàn)現(xiàn)象
社區(qū)復(fù)現(xiàn)結(jié)果10.230.2社區(qū)復(fù)現(xiàn)結(jié)果2不同的領(lǐng)域的不train/response
lengthtag:train/response
lengthDeepSeek-R1-Zero
average
length
per
response
during
training12000DeepSeek-R1
長度泛化復(fù)現(xiàn):/p/21290410831Averagelength
per
response21950850DeepSeek-R1
技術(shù)剖析:GRPO
賦能RL-Scale
22>GRPO
核心思想是通過構(gòu)建多個模型輸出的群組,并計算群組內(nèi)的相對獎勵來估計基線,從而避免了傳統(tǒng)策略優(yōu)化算法中需要使用與策略模型大小相同的評論模型。>大幅度降低RL
訓(xùn)練的計算成本,同時還能保證模型能夠有效地學(xué)習(xí)到策略。>具體來說,在傳統(tǒng)的RL
訓(xùn)練中,評論模型需要與策略模型具有相同的大小,增加計算資源的消耗。而GRPO
算法利用群組內(nèi)的相對信息來估計基線,避免了使用CriticModel的需要。>
此
外
,GRPO算法還引入了一些額外的優(yōu)化策略(獎勵縮放和策略裁剪),提升訓(xùn)練的穩(wěn)定性。>From
PPO
to
GRPO:>PPO
作為Actor-Critic
算法被廣泛運用于Post-Training,核心目標(biāo)是最大化下面的目標(biāo)函數(shù)>其中,
πe和πoold
分別表示當(dāng)前策略模型和舊策略模型,q,o
是從問題數(shù)據(jù)集和舊策略πθold中采樣的輸入和輸出,At是基于廣義優(yōu)勢估計
(GAE)計算的優(yōu)勢值,依賴于獎勵序列{r≥t}和
學(xué)習(xí)的價值函數(shù)Vψ。因此,PPO需要同時訓(xùn)練策略模型和價值函數(shù)。為避免獎勵模型的過度優(yōu)化,
標(biāo)準(zhǔn)做法是在每個詞元的獎勵中添加與參考模型的KL
懲罰項DeepSeek-R1
技術(shù)剖析:GRPO
賦能RL-Scale
23>FromPPO
to
GRPO:>PPO
的價值函數(shù)通常是與策略模型規(guī)模相當(dāng)?shù)莫毩⒛P停@帶來了巨大的內(nèi)存和計算負(fù)擔(dān)。>獎勵模型通常僅對輸出序列的最后一個詞元分配獎勵,導(dǎo)致逐詞元價值函數(shù)的訓(xùn)練復(fù)雜化。>GRPO:無
需
像PPO
額
外
近
似
價
值函
數(shù),
而
是
利
用同
一問
題
下
多
個
采
樣
輸
出
的
平
均
獎
勵
作
為
基
線。
具
體
而言,對于每個問題,GRPO
從舊策略πeold中采樣一組輸出,并通過最大化以下目標(biāo)優(yōu)化策略模型:>通過群組相對方式計算優(yōu)勢值,與獎勵模型的對比性質(zhì)(通常基于同一問題的輸出比較訓(xùn)練)天然契
合;
此
外
,GRPO
直接將策略模型與參考模型的KL
散度作為正則項加
入損失函數(shù),而非將其混入獎勵計算,簡化了優(yōu)勢值的計算。ReferenceKLModelRewardModelValueVModelKLReferenceModelRewardModelrGDeepSeekMath
https://arxiv.org/pdf/2402.03300JGRPO(θ)=E[q~P(Q),{oi}=1~πoa(O|q)]TrainedModelsFrozenModelsPPOq守
:PolicyModelPolicyModelGRPOr1r2ca0102A?田
→GAEA0G。q0rDeepSeek-R1技術(shù)剖析:GRPO
賦能RL-Scale>From
PPO
to
GRPO:>
基于結(jié)果監(jiān)督的GRPO
:對于每個問題q,從舊策略模型πeola采樣一組輸出{01,02,03,…,0G},獎勵模型為
每個輸出生成獎勵{ri,r?,r3,…,rG}。
隨后,獎勵通過減去組內(nèi)均值并除以標(biāo)準(zhǔn)差進(jìn)行歸一化。結(jié)果監(jiān)督將歸一化后的獎勵分配給每個輸出的末尾詞元,并將所有詞元的優(yōu)勢設(shè)為該歸一化獎勵;>
基于過程監(jiān)督的GRPO
:結(jié)果監(jiān)督僅提供輸出末尾的獎勵,對復(fù)雜數(shù)學(xué)任務(wù)的策略指導(dǎo)不足>對問題q
和采樣輸出{01,02,03,…,0G},
過程獎勵模型為每個步驟生成獎勵:R={{rindex(1),rindex(2),…,rindex(k1)},….{rindex(1),rindex(2),…,rindex(kc)}}其
中index(j)
是第j步的末尾詞元索引,Ki
是
第i
個輸出的總步數(shù)。歸一化后,優(yōu)勢值為后續(xù)步驟歸一化獎勵的累加和referencemodelπref←πefor
step=1,...,M
doSample
a
batch
Db
from
DUpdate
the
old
policy
model
πOola←πeSampleG
outputs
{oi}i1~πOaua(·|q)for
each
question
q∈D?Compute
rewards{ri}{=1foreachsampledoutput
oi
by
running
rφCompute
A,tfor
the
t-th
tokenof
oi
throughgroup
relativeadvantageestimation.
forGRPOiteration=1,...,μ
doUpdate
the
policy
model
πe
by
maximizing
the
GRPO
objective
(Equation21)Update
rφthrough
continuous
training
using
a
replay
mechanism.Algorithm
1Iterative
Group
Relative
Policy
OptimizationInput
initial
policy
model
πom;reward
models
rg;task
promptsD;hyperparameterse,β,μ1:policymodel
πe←πGinit2:for
iteration=1,...,I
do基于過程監(jiān)督的GRPO
優(yōu)勢值估計DeepSeekMath
https://arxiv.org/pdf/2402.03300基于結(jié)果監(jiān)督的GRPO
優(yōu)勢值估計3:4:5:6:7:8:9:10:11:12:Output
πe24DeepSeek-R1
Takeaways總結(jié)PartII>DS-R1
Zero
跳過監(jiān)督微調(diào)SFT階段,展現(xiàn)出大規(guī)模強(qiáng)化學(xué)習(xí)的潛力。這種自主學(xué)習(xí)的方式,不僅節(jié)省了大量的標(biāo)注成本,而且讓模型更自由的探索解決問題的路徑,而不是被預(yù)先設(shè)定的模式所
束縛。這也使得模型最終具備了更加強(qiáng)大的泛化能力和適應(yīng)能力。>為了充分釋放GRPO
的潛力并確保訓(xùn)練穩(wěn)定性,DeepSeek
R1的訓(xùn)練中采用了四階段的交替迭代流程:
“監(jiān)督微調(diào)
(SFT)→
強(qiáng)化學(xué)習(xí)
(RL)→再次SFT→
再次RL”,有效解決了傳統(tǒng)強(qiáng)化學(xué)
習(xí)模型在冷啟動、收斂效率和多場景適應(yīng)性方面的瓶頸。>強(qiáng)大的自驗證和長鏈推理能力:并非預(yù)先設(shè)定好的,而是在RL
訓(xùn)練中自主涌現(xiàn)出來的>自驗證是指模型在生成最終答案之前,會先主動地驗證自己的中間推理步驟是否正確。這就像一個學(xué)生在做題時,會反復(fù)檢查自己的解題過程,以確保答案的準(zhǔn)確性。>反思是指模型會回溯檢查自己之前的推理過程,并根據(jù)檢查的結(jié)果進(jìn)行修正,相當(dāng)于一個學(xué)
生在復(fù)習(xí)時,會反思自己之前的錯誤,以便下次不再犯同樣的錯誤。>
而長鏈推理能力則讓模型能夠處理更復(fù)雜、更需要多步驟思考的問題。這種能力對于解決一些需要跨越多個邏輯步驟才能找到答案的問題至關(guān)重要,例如復(fù)雜的數(shù)學(xué)題或邏輯謎題。>冷啟動讓RL
訓(xùn)練更加穩(wěn)定:>
避
免RL訓(xùn)練初期的不穩(wěn)定,使得模型能夠更快地進(jìn)入穩(wěn)定的訓(xùn)練狀態(tài);>有效地加速RL
訓(xùn)練的收斂,縮短訓(xùn)練時間;>提高模型輸出的可讀性,減少不同語言混合使用的情況。25>推理為中心的RL
訓(xùn)練:>語言一致性獎勵,以解決模型在多語言環(huán)境中進(jìn)行推理時,出現(xiàn)語言混合的問題。>對推理鏈的質(zhì)量進(jìn)行細(xì)致的評估,并通過獎勵機(jī)制引導(dǎo)模型生成更加合理、準(zhǔn)確的推理過程。
>多目標(biāo)優(yōu)化:兼顧推理性能、幫助性和安全性;>
蒸餾的潛力:蒸餾可以幫助將更大模型通過RL
發(fā)現(xiàn)的高階推理范式蒸餾到小模型中,這比用小模型直接使用大規(guī)模RL
發(fā)現(xiàn)的推理范式要更加有效;>
基于群組的相對策略優(yōu)化(GRPO)
:通過構(gòu)建多個模型輸出的群組,并計算群組內(nèi)的相對獎勵來估計基線,從而避免了傳統(tǒng)策略優(yōu)化算法中需要使用與策略模型大小相同的評論模型>
降
低RL
訓(xùn)練的計算成本\保證模型能夠有效地學(xué)習(xí)到策略>獎勵機(jī)制的設(shè)計:兼顧推理能力和語言一致性>準(zhǔn)確率獎勵和格式獎勵,從而保證模型不僅能夠正確地解決問題,還能夠以規(guī)范、易讀的方式輸出答案>
格式獎勵:用于強(qiáng)制模型將推理過程放置在特定的標(biāo)簽內(nèi),用<think>和</think>標(biāo)簽來包裹推理過程,使用<answer>
和</answer>標(biāo)簽來包裹最終答案。>語言一致性獎勵:懲罰在推理過程中使用了多種語言的輸出,鼓勵模型盡可能地使用一種目標(biāo)語言進(jìn)行推理,從而保證模型輸出的語言風(fēng)格一致性DeepSeek-R1
Takeaways總結(jié)
PartII
26DeepSeek-R1社會和經(jīng)濟(jì)效益
27>低成本高質(zhì)量語言模型邊界的探索,擴(kuò)展的具體方法和側(cè)重點改變:最初是模型規(guī)模,然后是數(shù)據(jù)集規(guī)模,現(xiàn)在是推理時的計算資源和合成數(shù)據(jù);>垂直領(lǐng)域和橫向拓展:采用"API+
本地化知識庫"或"提示工程+檢索增強(qiáng)"的混合方案,通過Prompt
Engineering和RAG等技術(shù)實現(xiàn)業(yè)務(wù)場景的快速適配與輕量定制,同時建立完善的運維合規(guī)體系,確保數(shù)據(jù)處理全流程的安全性與合法性。>資本市場的劇烈波動是AI技術(shù)快速迭代引發(fā)的短期現(xiàn)象,表現(xiàn)為研發(fā)投入和數(shù)據(jù)中心建
設(shè)成本激增,這在近期美股科技股的震蕩中得以集中體現(xiàn);而從長期來看,行業(yè)將陷入
算力軍備競賽的循環(huán),每一輪技術(shù)突破和應(yīng)用場景擴(kuò)展都將催生新的算力需求與資源投
入,持續(xù)重塑行業(yè)競爭格局。>資源優(yōu)化:隨著模型使用方案的平民化,中小企業(yè)和個人開發(fā)者得以將有限資源聚焦于場景創(chuàng)新與技術(shù)優(yōu)化,無需在基礎(chǔ)能力建設(shè)或算力消耗上投入過多成本。>市場激活:這種高性價比、低門檻的大模型服務(wù)模式,將吸引更多初創(chuàng)團(tuán)隊涌入賽道,催生多元化的應(yīng)用場景和技術(shù)路徑,推動行業(yè)生態(tài)的繁榮發(fā)展。>
高效創(chuàng)新:
在有限算力資源支持下,算法創(chuàng)新模式,突破了算力的“卡脖子”限制技術(shù)對比討論:Kimi
K1.5
Moonshot
28K1.5
專注于用長文本CoT
解決推理時Scaling問題>
利
用RL探
索
:Kimik1.5的
核
心
思
想
是
利
用
強(qiáng)
化
學(xué)
習(xí)
,
讓
模
型
通
過
試
錯(
探
索
)
來
學(xué)
習(xí)
解
決
問
題
的
能力,而不是僅僅依賴于靜態(tài)數(shù)據(jù)集。>
長
文
本
CoT的
RL:將RL應(yīng)
用
于
長
文
本CoT推
理
過
程,
使
模
型
能
夠
進(jìn)
行
更
深
入、
更
復(fù)
雜
的
推
理
。>
隱
式
規(guī)
劃
:通
過
增
加
上
下
文
長
度,
讓
模
型
在
生
成CoT的
過
程中
進(jìn)
行
隱
式
的
規(guī)
劃、
反
思
和
修
正,
無
需
顯式的搜索樹或價值函數(shù)。>
長
文
本
能
力
是
關(guān)
鍵
:核心洞察是長文本能力是強(qiáng)化學(xué)習(xí)訓(xùn)練LLM的關(guān)鍵,而不是更復(fù)雜的訓(xùn)練技巧。>
長
文
本
到
短
文
本
:通過長文本CoT模
型
來
指
導(dǎo)
短
文
本CoT模
型
的
訓(xùn)
練,
從
而
在
有
限
的
計
算
資
源
下
獲MathCode69.1
⑥同76.7
AKimiK1.5Long2ShortResult得更好的性能。OpenAl01Math
Code
Vision77.3KimiK1.5MainResult88Ko器因;8
白887.9813的因的因88。②②;;8的公器心;
包B日
…的38心
8西
;A40.662技術(shù)對比討論:Kimi
K1.5
Moonshot
29>四個階段Pretraining--SFT--Long-CoTSFT-RL>
RL
PromptSetCuration
RL問題的準(zhǔn)備>Diverse
Coverage:涵蓋STEM\coding\general
reasoning的數(shù)據(jù)>BalancedDifficulty:涵蓋不同的complexity難
度>Accurate
Evaluability:能
夠
被Verifi
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025屆甘肅省平?jīng)鲠轻紖^(qū)七下數(shù)學(xué)期末學(xué)業(yè)水平測試試題含解析
- 軟件設(shè)計師考試要點試題及答案總結(jié)
- 軟件設(shè)計師備考必看試題及答案
- 學(xué)習(xí)如何編寫用戶友好的API接口試題及答案
- 2025年軟件設(shè)計師考試模擬題大全試題及答案
- 2025年中學(xué)歷史知識競賽試題及答案
- 法學(xué)概論與法律科技發(fā)展的結(jié)合試題及答案
- 調(diào)整心態(tài)迎接考試的試題及答案軟件設(shè)計師
- 軟件開發(fā)中的團(tuán)隊協(xié)作技巧試題及答案
- 2025年網(wǎng)絡(luò)管理員考試報考指南試題
- GB/T 19277.1-2011受控堆肥條件下材料最終需氧生物分解能力的測定采用測定釋放的二氧化碳的方法第1部分:通用方法
- 2023年甘肅省特崗教師理科綜合真題
- 2023年蕪湖融創(chuàng)投資發(fā)展有限公司招聘筆試題庫及答案解析
- 酒店VI設(shè)計清單
- (食品經(jīng)營許可-范本)申請人經(jīng)營條件未發(fā)生變化的聲明
- 高頻變壓器作業(yè)指導(dǎo)書
- 事業(yè)單位招聘人員體檢表
- Visio圖標(biāo)-visio素材-網(wǎng)絡(luò)拓?fù)鋱D庫
- 軌道交通建設(shè)工程施工現(xiàn)場消防安全管理課件
- 騰訊微博VS新浪微博
- 公共政策導(dǎo)論完整版課件全套ppt教學(xué)教程(最新)
評論
0/150
提交評論