




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
______________.
MGPT到Deenseek"語言是繼真核細胞之后最偉大的進化成就"——社會生物學之父愛德華·威爾遜大模型
又稱大語言模型(Large
Language
Models)語言
是人類交流思想、表達情感最自然、最深刻、最方便的工具"語言本身就是人類有史以來最大的技術發明"——詹姆斯·格雷克《信息簡史》語言文字形式記載和流傳的人類歷史上大部分知識是以為什么是語言?n
自然語言處理(Natural
Language
Processing
,
NLP)
用計算機來
理解
和
生成
自然語言的各種理論和方法n屬于認知智能是人類和動物的主要區別之一
需要更強的
抽象
和
推理
能力自然語言
指的是人類語言,特指文本符號,而非語音信號什么是自然語言處理?感知智能能聽會說能看會認認知智能能理解會思考運算智能能存儲會計算深度學習的下一個前沿課題是自然語言理解——圖靈獎得主、
MetaAI負責人Yann
LeCun"下一個十年,
懂語言者"深度學習的下一個大的進展應該是讓神經網絡真正理解文檔的內容——諾貝爾獎得主、圖靈獎得主、
深度學習之父GeoffreyHinton自然語言處理成為制約人工智能取得更大突破和更廣泛應用的瓶頸——美國雙院院士、世界知名機器學習專家MichaelI.Jordan——美國工程院士、微軟前全球執行副總裁沈向洋"如果給我10億美金,我會建造一個自然語言處理研究項目"得天下"NASA級別的小規模專家知識1950~1990自然語言處理技術已經經歷了五次范式變遷自然語言處理的發展歷史淺層機器學習算法1990~2010預訓練語言模型2018~2023深度學習2010~2017大模型2023~2024Generative
Pre-trainedTransformer,OpenAI2018n
采用語言模型預訓練任務n
語言模型n計算一個句子在語言中出現的概率n或給定上文,預測下一個詞出現的概率n
哈工大位于____
[知識]n
我在水果店看到了蘋果、香蕉、____
[語義]n
小明打了小紅,然后她____
[推理、指代]n
我一定推薦給朋友看,這部電影真是____
[情感]
n
……M
M
MMM輸入層
喜歡吃土豆
燉
茄子預訓練階段語言模型學到了什么?輸出層Transformer吃土豆燉
茄子。GPT詞嵌入層三大創新n
使用建模能力更強的Transformer模型n
在目標任務上精調整個預訓練模型n
接入的下游任務模型可以非常簡單開啟了自然語言處理預訓練模型時代數據標注模型訓練語料庫精調Fine-tune預訓練Pre-train精調階段預訓練模型未標注文本模型下面文本的情感是:我喜歡這部電影的情感是褒義
這本書寫得很好的情感是????n
無需訓練,便可完成“文本”生成任務n
如:問答、文章續寫、網頁生成、自動編曲等n
1750億參數,模型太大無法精調n
為不同的任務設計相應的“提示語”n
Language
Modelsare
Few-Shot
Learners,OpenAI&
Microsoft
2020任務描述示例(In-context)
問題GPT
3:大模型早已有之GPT-3代碼生成示例Question:Which
isheavier,atoasteror
pencil?(烤箱和鉛筆哪個更重?)GPT-3:A
pencilis
heavierthanatoaster.
(鉛筆比烤箱重。)Question:
Howmanyeyedoesmyfoot
have?
(我的腳有幾只眼睛?)GPT-3:Yourfoot
hastwoeyes.(你的腳有兩只眼睛。)預訓練語言模型并不能真正克服深度學習模型魯棒性差、可解釋性弱、推理能力缺失GPT-3原文指出,在故事結尾選擇任務上比哈工大丁效等所提出的具有知識推理能力的模型低4.1%!缺乏知識推理與可解釋性GPT-3測試樣例瓶頸,故在深層次語義理解上與人類認知水平還相去較遠!GPT
3的不足的https://ch/n
模型規模足夠大(>60B?)n
預訓練數據足夠多n
在代碼數據上繼續預訓練1
triIIion1
biIIion1
miIIion
(1T)
Gshard
(600B)
zeRO-2GPTV3(170B)
(175B)
T-
NLGMegatronT5(8B)
(11B)GPTV2(1
.
5B)(1
.
5B)Ai2T-ELMo(465M)GPTV1(110M)(94M)201820192020yearchatGPT的關鍵核心技術
()
:無監督學習大規模預訓練語言模型,涌現出推理能力
(30B)ROBERTA
(500M)
(355M)模型參數量Ai2ELMoBIenderBo&tMMMTMT-DNN(330M)BERT-L(340M)DeepspeedGrover(17B)XLMRn
將各種任務形式進行統一(指令+輸
入
輸出)n
在眾多(成千上萬)任務的標注數據
上精調語言模型n
模型能夠處理未見任務(Zero-shot)廠
L
https://arxiv.org/pdf/2210.11416.pdf
chatGPT的關鍵核心技術
(2/3)
:
有監督學習
使大模型更好遵循人類指令:指令精調(InstructionTuning)將大模型進一步向人類期望對齊:人類反饋強化學習(RLHF)n
降低人工標注難度n
生成的結果更多樣n
能利用負面的標注結果https://huggingface.co/blog/rlhfAda-002O1CriticGPTGPT4ChatGPTInstructGPTGPT3text-embedding-3Encoder-onlyEncoder-DecoderDecoder-onlyInternLM3DeepSeek-R1Step-Reason-miniQwen2.5InternLM2.5Qwen2LLaMA3OLMo
Gemini-1.5Mistral
Large
YiMistral
DeepSeek-LLMVicuna-v1.5Step-2Yi-1.5Step-1Qwen1.5GeminiHuoziMPTVicunaBLOOMWeLMPaLMGopherJurassic-1BGEDeBERTav3DeBERTaSpanBERTGPTNeoXXGLMXLNetGPT-2GPTMixtralBaichuan2ChatGLMFlanT5UL2ST-MoE2018TransformerPaLM2AlpacaFlanPaLMOPTChinchillaDistillBERTALBERTElectra
RoBERTaInternLM2LLaMA2InternLMDeepSeek-v2.5QwQ
OLMo2MossBLOOMz
SparrowGemini-ThinkingGLM-ZeroDeepSeek-v3Skywork-o1Mistral
Large2DeepSeek-v2umT5FLanUL2
mT0GLMErnie3.0
mT5SwitchCPM-2
BARTSimCSET0Open
ResourceClose
ResourceErnieBERTSkyworkQwen2020201920222021Model
SourceModelTypeJurassic-2BaichuanGemini-2LLaMA202520232024CNNRNNMLPE5T5TkNature
News報道:“中國的廉價且開源的大型語言模型震撼了科學界!
”由中國研發的DeepSeek-R1大模型是一種既具備高性價比又完全開源
的
“推理”模型
,
其性能可與OpenAI的
o1模型媲美。通過模仿
人類推理過程
,這些模型能夠逐步生成響應
,在
解決科學問題時表現得比早期大模型更為出色
,可能對科研工作產生深遠的影響
…★GRPO
(DeepSeekMath,2024.2)-無須價值網絡-提高學習穩定性-
降低學習開銷發布時間:2024.5核心技術:
MoE(更多共享專家)+
MLA
(多頭潛在注意力)R1zero最大參數量:671B(激活37B)最大參數量:236B(激活21B)最大參數量:671B(激活37B)核心技術:基于bias負載均衡最大參數量:671B(激活37B)訓練成本:
172.8KGPU小時核心技術:只使用RL學會推理訓練成本:2788KGPU小時/核心技術:SFT學習推理格式能力
+將RL引入基模型架構核心技術:類LLaMA架構訓練穩定程度:較穩定訓練穩定程度:很穩定訓練穩定程度:不穩定訓練穩定程度:很穩定訓練穩定程度:穩定R1V2V3V1+
RL學習推理能力發布時間:2025.1訓練數據量:
14T最大參數量:67B+
MTP(多詞元預測)發布時間:2024.12訓練數據量:8T訓練數據量:2T發布時間:2025.1發布時間:2024.1+SFT+RLHF$5.58MDeepSeek訓練、推理速度更快,遠超o1類Deep
seek學習到推理能力,性能接近o1模型只使用強化學習(RL),模型自主模型,極大節約硬件成本R1模型及其蒸餾出的子模型堅持開源精神,開放了習得推理能力只用RL推理(Reasoning)是指根據已知的信息、事實、規則或前提,通過一定的思維過程和方法,推導出新的結論、判斷或知識的認知活動。它是人類思維和智能的核心組成部分,也是人工智能、科學研究和日常決策中的關鍵能力。DeepSeek-R1引發自然語言處理的第六次范式變遷自然語言處理的發展歷史大模型2023~2024預訓練語言模型2018~2023淺層機器學習算法1990~2010小規模專家知識1950~1990深度學習2010~2017推理2025~?n
一系列中間推理步驟,相當于在求解問題過程中將解題步驟也寫出來n
早期的思維鏈能力是模型自發“涌現”的(a)少樣例推理問:小明有5個乒乓球,他又買了2筒乒乓球,每桶有3個。小明現在有多少乒乓球?答:
11個。問:現在一共有16個球,其中的一半是小華的,小華的球中有一半是藍色的。小華的球中有多少藍色?答:
(輸出)8個。
(b)少樣例思維鏈推理
(Wei
et
al.,
2022)問:小明有5個乒乓球,他又買了2筒乒乓球,每桶有3個。小明現在有多少乒乓球?答:小明一開始有5個乒乓球,在買了2筒后增加了2乘3等于6個,加起來一共11個。問:現在一共有16個球,其中的一半是小華的,小華的球中有一半是藍色的。小華的
球中有多少藍色?答:
(輸出)
16的一半是8個,8個的一半是4個。問:現在一共有16個球,其中的一半是小華的,小華的球中有一半是藍色的。小華的球中有多少是藍色的?答:
(輸出)8個。
問:現在一共有16個球,其中的一半是小華的,小華的球中有一半是藍色的。小華的球中有多少是藍色的?答:讓我們一步一步地思考。
(輸出)
16的一半是8個,8個的一半是4個。(d)零樣例思維鏈推理
(Kojima
et
al.,2022)(c)零樣例推理
思維鏈(Chain-of-Thought,COT)推理采用的核心技術n
強化學習框架:使用GRPO(Group
Relative
PolicyOptimization)作
為強化學習框架n
獎勵模型:結果/規則獎勵,獎勵分為
準確率獎勵(accuracyrewards)和
格式獎勵(formatrewards)
,確保模型輸出正確的答案格式和推理過程https://www.mdpi.com/2079-9292/10/13/1533全新的技術棧:基于結果的極簡版強化學習(只將規則獲得的準確率作為獎勵)zero核心技術利用當前策略模型進行多次采樣
,
并使用平均獎勵值近似價值函數
,從而避免了對價值函數的顯式訓練
,
這樣做既減少了計算開銷
,又避免了價值函數訓練的困難,
提高了模型學習的穩定性【DeepSeekMath,2024.2】廠
L
https://arxiv.org/abs/2402.03300
GRPO(Group
Relative
PolicyOptimization)zero核心技術RL不需要復雜的算法
,簡單的GRPO就夠用RL需要大量的數據:
R1-Zero訓了8000個
步驟
,如果每個步驟
采樣的數據量為1024
,那也到了8M級別RL訓練不需要過程獎勵
,結果獎勵足夠https://arxiv.org/abs/2501.12948性能提升:
AIME2024的pass@1分數:
39.2%→
71.0%
,接近OpenAI-o1-previewzero實驗結果n
強化學習的可擴展性:
隨著強化學習步驟數增加
,模型的性能逐步增強https://arxiv.org/abs/2501.12948性能提升:
AIME2024的pass@1分數:
39.2%→
71.0%
,接近OpenAI-o1-previewzero實驗結果n
強化學習的可擴展性:
隨著強化學習步
驟數增加
,模型的性能逐步增強n
強化學習的Aha時刻:
隨著強化學習步
驟數增加
,會在某一步突然涌現出反思/自我評估機制https://arxiv.org/abs/2501.12948性能提升:
AIME2024的pass@1分數:
39.2%→
71.0%
,接近OpenAI-o1-previewzero實驗結果n
隨著強化學習的步驟數增加,
可以實現思維鏈長度自然增長https://arxiv.org/abs/2501.12948zero實驗結果強化學習的長思維鏈自動拓展n
使用長CoT示例進行少樣本提示n
直接提示DeepSeek-R1-Zero模型生成帶反思和驗證的詳細答案n
收集
DeepSeek-R1-Zero的可讀格式輸出并經人工標注者后處理和訓練不穩定的問題,
DeepSeek-R1引入了少量冷啟動數據進行預訓練,這些數據包含長CoT樣本。為了解決
DeepSeek-R1-Zero的可讀性差(如推理格式性差、語言混雜等)Start):https://huggingface.co/blog/open-r1總路線冷啟動(ColdStart)收集方法包括多場景RL數據SFTRLDeepseek-
R1-MiddleSFTRLn
第一階段通過冷啟動數據進行監督微調(SFT)n
第二階段進行推理導向的強化學習(RL)n
第三階段通過拒絕采樣(rejectionsampling)生成新的監督微調數據(SFT)n
第四階段再次進行強化學習以優化模型在所有場景下的表現(RL)RL推理數據SFT推理及通用數據基礎模型Deepseek-
R1-ZeroSFT推理數據包括兩個強化學習階段和兩個監督微調階段。
Deepseek-
R1多階段訓練總路線n
AIME2024的
pass@1分數:71.0→
79.8%
,接近OpenAI-o1n
LongCoTWarmup能帶來更好的可讀性。
DeepSeek-R1-Zero的思考空間很混沌,通過SFT初始化,能夠讓思維空間更加像人類的思維增加穩定性https://arxiv.org/abs/2501.12948性能提升總路線算法優化n
DeepSeekMoE(Mixture
of
Experts)n
多頭隱含注意力(Multi-head
Latent
Attention,
MLA)n
多詞元預測(Multi-Token
Prediction,
MTP)n
FP8混合精度訓練n
DualPipen
跨節點All-All通信主要模型架構優化技術https://arxiv.org/pdf/2412.19437Infra優化MoE每生成一個詞元激活不同的參數n
增加模型容量n
節約計算資源n
更多專家(256個)n
每次選擇更專家(8個)n
共享專家(1個)DeepSeekMoE的特點https://arxiv.org/pdf/2412.19437KQV降維n
將Key-Query-Value
(KQV)矩陣映射到低維隱空間減少KV-cache的存儲空間n
提高推理速度n
支持更長上下文以及更大的batchhttps://arxiv.org/pdf/2412.19437一次預測多個詞元n
提高推理速度n
提高訓練數據的利用率n
提高模型預測能力https://arxiv.org/pdf/2412.19437RoPEApplicationFull
PrecisionDecoupled,
FP8Infra優化FP8混合精度訓練ComponentDeepSeek-V3
(FP8)DeepSeek-V2
(BF16)BF16
FP8
+
FP32Accumulationhttps://aman.ai/primers/ai/deepseek-R1/https://arxiv.org/pdf/2412.19437Query/KeyCompressionAttentionComputationKV
Cache
Storagedc
=3dhdc
=4dhBF16FP8更均勻+細粒度的劃分(計算與通訊幾乎可以完全并行)雙向流水線調度如何更好地進行多機并行,減少并行氣泡?n
將每個塊劃分為4個組件:注意力、all-all調度、
MLP、all-all組合n
可同時從流水線兩端提供微批次,并且大部分通信可以完全重疊https://arxiv.org/pdf/2412.19437樣本1
樣本20結果:
每個詞元能在不產生
NVLink額外開銷的情況下,在每個節點上平均選擇
3.2個專家。即每個token擴展到最多
13個專家(4個節點
×
3.2個專家),而通信成本不變方法
跨節點GPU通過
IB通信,節點內通過
NVLink通信,每個詞元最多調度到4個節點,從而減少
IB通信量。同時使用warp技術做調度和組合的優化InfiniBand2??3??1??NVLink相連的GPU節點NVLink相連的GPU節點all-all調度NVLink相連的GPU節點NVLink相連的GPU節點all-all組合如何更好地進行all-all調度
,all-all組合?https://cs.stanford.edu/~sjt/pubs/ppopp14.pdf
3??WarpWarp
WarpInfiniBand2??1??Llama70BA100-80GB,約2000塊≈1.7≈2.4Llama70BH100-80GB,數量未知≈6.4≈12.8Llama405BH100-80GB,約16000塊≈30.8≈61.6Llama70BH100-80GB,數量未知≈7.0≈14.0模型名稱參數量/個訓練設備訓練卡時/×106小時訓練成本/×106美元DeepSeek-V3的訓練成本約為Llama-3.1(規模甚至更小)
的1/10DeepSeek-V3671B
H800-80GB
,
2048塊≈2.8≈5.6Llama65B
A100-80GB
,
2048塊≈1.0≈1.4Deepseek模型優化效果OpenAI給出的6條
Prompt設計原則1.
Writeclear
instructions
撰寫清晰的指令2.Provide
reference
text提供參考文本3.
Splitcomplextasksinto
simpler
subtasks
將復雜的任務拆分為更簡單的子任務4.
Give
the
model
time
to
"think”
給模型時間“思考”5.Use
external
tools使用外部工具6.
Testchangessystematically
系統地測試變更/docs/guides/prompt-engineeringprompt工程無輸出格式與風格要求
,禮貌程度有限Tips:明確角色定位(Who)具體任務目標(What)必要背景信息(Why)格式/語氣要求(How)關鍵數據指標(When/Where)參數模糊,
模型無法給出明確具體的方案上下文缺失,未說明身份/對象,無法適配溝通場景加入明確的分隔符區分輸入中的不同部分,如“原文”、“待插入段”等可以使用標簽作為分隔符包裹字段,如<insert>公司承諾…
</insert>統一指令與輸入內容中對分隔符的描述
,如:
將X插入Y中:
X:abc
Y:def缺少明確的分隔符標識不同字段Tips:Tips:對于內容與格式要求相對抽象化、難以直接描述的問題
,可以通過示例表達需求
提供盡可能多的示例
,示例過少會限制回復的多樣性
,陷入給定示例的特定模式對于知識類問答模型可能存在幻覺Tips可提供的資料包括:?技術類任務:提供核心概念、原理說明?行業分析類任務:提供市場數據、公司案例?學術類任務:提供研究論文、實驗數據?趨勢預測類任務:提供歷史數據、專家觀點二、提供參考資料Tips?任務分解從宏觀到微觀
,先從宏觀上拆
分出骨干子問題
,再從微觀上針對每個子問題繼續拆分或解決?
中間步驟(如生成的標題結構)如不符
合預期
,可以人工干預加以修正三、分解復雜問題重要板塊缺失,缺少未來工作與總結結構松散
,缺乏邏輯和層次化關系結構松散,
缺乏邏輯和層次化關系相同程序,
模型輸出的錯誤結果Tips?可以借助代碼輔助完成數值計算等推理
類問題?
DeepSeek工具調用背后的機制不是很
明確,建議本地化運行加以確認精度不夠導致最終
計算結果錯誤Tips?
ChatGPT建議的反思式提示未必對DeepSeek有效,提示策略也在隨著模
型的改變而改變?模型可能對于自身結果存在較大的傾向性
,泛化的反饋難以發現問題?
明確的反饋又需要用戶親自驗證,限制
了該策略的有效性RAG檢索增強生成SFT有指導微調領域應用:
Prompt工程
判斷和目
標的差距知
識
不
足
風
格
不
對領域應用檢索器查詢
相關文檔特定數據庫https://www.ml6.eu/blogpost/leveraging-llms-on-your-domain-specific-knowledge-base問題
+
生成大模型作為生成器
答案檢索增強生成RAG提問問題自然語言處理正在由面向自然語言的處理轉變為基于自然語言的智能智能體
(Agents)具身智能人工智能驅動的科學研究協作與對抗單體智能Autonomous
Agents組織向量數據庫群體智能社會模擬工具學習Agents推廣大模型應用定制化隱私性安全性小型化個性化角色化數據歸因數據合成模型架構設計增量預訓練金融
醫療教育
航天智能體具身智能決策機推理
可解釋性多模態
魯棒性攻擊防御HIT-SCIR大模型方向規劃輕量化價值觀對齊情感個性化能力增強模型訓練應用領域功能增強活字3.0:基于Mixtral-8x7B進行中文擴詞表和指令微調n
高達32K上下文長度,支持讀取更長的文本n
具有豐富的中英文知識和強大的數學推理、代碼生成能力n
更好的指令遵循能力
,支持生成和理解代碼以及表格n
安全性指標達到84.4%
,
甚至超越了ChatGPT(81.9%)活字1.0:基于BLOOM-7B進行指令微調活字2.0:基于活字1.0,通過人類反饋的強化學習(RLHF)訓練自主研發的開源可商用大規模預訓練語言模型n
回答更豐富,更符合人類偏好n
開源了首個中文RLHF數據集"活字"
對話大模型2023年3月6
日發布哈工大《ChatGPT調研報告》(
84頁)https://h/更快提出基于去噪模型的投機解碼方法,生成速度提升至2倍以上發表于NLP領域頂會EMNLP(Tsinghua-A
,CCF
B)PythonR提出多語言程序思維鏈策略,數值計算等推理能力相比MultiPoTChatGPT提升4.6%更輕大模型
1比特量化,通過知識蒸餾,模型參數壓縮
90%以上,能力保
留83%更強優化預訓練微調數據構建與篩選策略,Code與NL能力均達
到同級最優珠算代碼大模型發表于NLP領域頂會EMNLP(Tsinghua-A
,CCF
B)發表于機器學習領域頂會NeuraIPS(CCF
A)更有用C++JavaJS珠算代碼大模型演示巧環n
面向輕度心理疾病的青少年和心理咨
詢師初期訓練的心理咨詢系統
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年虛擬現實技術在職業教育課程中的教學設計研究報告001
- 2025年醫院電子病歷系統在醫療大數據中的應用與優化報告
- 2025年醫院電子病歷系統優化構建醫療大數據分析平臺報告
- 終身學習視角下2025年成人教育體系構建與平臺運營的師資培訓策略報告
- 2025年醫藥流通行業供應鏈優化與成本控制政策研究實踐報告
- 2025年醫藥流通行業供應鏈優化與成本控制案例分析報告
- 保安證考試題及答案
- 安全員c證試題及答案
- 安全試題及答案和解析
- 零售私域流量運營的線上線下促銷活動策劃報告
- 酒店禁煙控制管理制度
- 加班飯管理制度
- 社保繳納免責協議書
- 2025年中國自動鍋蓋行業市場發展前景及發展趨勢與投資戰略研究報告
- 江蘇省海安縣財政局會計服務中心事業單位招聘招考27人題庫及完整答案【網校專用】
- 新人教版數學五年級下冊第二單元《因數和倍數》教材解讀
- 人教英語九年級單詞表
- 北師大版五年級下冊數學計算題每日一練帶答案(共30天)
- 河南省建筑安全員《A證》考試題庫
- 二零二五年度校方責任險賠償協議書:校園食品安全事故責任賠償合同
- 捷科醫藥物流管理系統(SCM)手冊資料講解
評論
0/150
提交評論