2025大語言模型的能力邊界與發展思考_第1頁
2025大語言模型的能力邊界與發展思考_第2頁
2025大語言模型的能力邊界與發展思考_第3頁
2025大語言模型的能力邊界與發展思考_第4頁
2025大語言模型的能力邊界與發展思考_第5頁
已閱讀5頁,還剩96頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

大語言模型的能力邊界與發 2023年大家拿著錘子到處找釘語言模型無法進行逆向知識搜索,除非知識以逆序出現在預訓練PhysicsofLanguageModels:Part3.2,KnowledgeManipulation,Allen-ZhuZ.,LiY.,Arixv GSM8KMATH數據集問題的基礎上,加■“陷阱”MathTrap數據集。只有能夠同時理解原題和“陷阱”所涉及知識發現“陷阱”所在。測試準確率38.0%,相■GPT-436.0% 手段),并對其中的38種做了更詳細的測試時也對廣受認可的升力方程中的斯密頓系數提出了質疑, 符合人類書寫習慣的下一個合理內容。所謂“合理”,是指根據數十億個網頁、數 Ch1tGPT有的文本的基礎上,下一個詞應該是什么?”——并且每次都會添加一個詞。預訓練階

有監督微

強化學數千圖書網頁

十萬各任用戶

landingto6year

百萬各任用戶

landingto6year

十萬各任Onceuponatime

造目標

totheMoon

天預訓練階

有監督微

強化學數千圖書網頁

十萬各任用戶

landingto6year

百萬各任用戶

landingto6year

十萬各任用戶

標注人員造目標答 標注人員造目標答 the型訓練每個階段分別標注人

Onceuponatime有監督微調2.預訓練階段能記住什什么才是高質量的SF7.強化學習適合于什么任務3如何評價預訓練模型優

礎模型的什么有監督微調改變了基8如何穩RLHF礎模型的什么是什么是什么有監督微調的訓練9.如何融合外部環境狀態 ChatGPT實現過

1大模型訓練每個階段分別完成什么 PhysicsPhysicsofLanguageModels:Part3.3,KnowledgeCapacityScalingLaws,MetaFAIRLabs,arXiv2024 達到2bit/對于每個知識1000次曝光

2.預訓練階段能記住什么知識Wikipediavs.CommonPhysicsofLanguageModelsPart3.3的研究并未對知識的特異性進行聯總裁楊元裁任正非具有別的含義,且出現次數聯總裁楊元裁任正非基于模版變換的知識記憶評OpenAI基本放棄了通過模型知識記憶直接進行問題同一個知識點必須用不同的語言表達方式大量重復,模型才能學習具有高知識密度的高質量的訓練數據至關arXiv2023PhysicsofLanguageModels:Part3.2,Knowledgemanipulation,Meta PhysicsofLanguagePhysicsofLanguageModels:Part3.3,KnowledgeCapacityScalingLaws,MetaFAIR

理想輸出:復旦大學現有4個校區,分別是邯鄲校區、新江灣校區、楓林校區和張其中邯鄲校區是復旦大學的主校區,邯鄲校區與新江灣校區都位于楊浦區,楓匯區,張江校區位于浦東理想輸出:從森林里走出一只可愛的小熊,它叫貝利。貝利一直對大海充滿定去海灘看看。他跳躍著穿過河流和草地,終于來到了一片美麗的海灘。貝利興奮地回應道:“嗨,你是新來的嗎?我是薩米,很高興認識你!”貝利開心地笑了起來,他們迅SFT訓練

什么才是高質SFT訓練并且可以通過微調將這些知識應問答(QA)任務。如何有效地微調LLMs以Q1:在SFT階段需要多少數據才能讓LLMs學會QA任務?Q2:不同的SFT數據集如何影響LLMs在QA任務上的表現?Q3:不同LLMs在SFT階段對數據的需求有何差異?Yeetal.EmpiricalInsightsonFine-TuningLargeLanguageModelsforQuestion- arXivENTITYQUESTIONS,包含24個不同話題知識的問

個話題的測試集作為領域外測試給預訓練的LLM,為了詳細分析其在SFT之后執任務的表現,應義補全機制,根據其知識記憶訓練和測試集均進5個級別Yeetal.EmpiricalInsightsonFine-TuningLargeLanguageModelsforQuestion- Yeetal.EmpiricalInsightsonFine-TuningLargeLanguageModelsforng,arXivSFT記憶訓練?每將訓練數據劃分為六個不同的數據量級別,從60個樣實驗結果表明,經過SFT后,僅需60個訓練樣本就■LLMs論基礎模型或記憶LLMs較少960=60時達到或接近最佳表YeYeetal.EmpiricalInsightsonFine-TuningLargeLanguageModelsforQuestion-論種數據進調,LLMs始終對預訓練期間記在特定記憶進訓練能夠提升LLMs在識上的表總體■記憶進■SFTYeetal.EmpiricalInsightsonFine-TuningLargeLanguageModelsforQuestion-不同LLMsLLM的記憶訓練LLM上訓練得到的結在SFT階段僅需60條數據就能激活預訓練時編碼的知識,使LLMs能夠執任識記憶層次的數據進SFT,對LLMs的表現有顯著并且有規律HowHowAbilitie3sPAGE7inLargeLanguageModelsareAffectedbySupervisedFine-tuningDataComposition,arXiv2024 6.有監督微調的訓練策略是什么?數學推理、編程和一般能力與SFT數據量的關當將這三種能力結合在SFT中時,是否會出現導致性能沖突的關鍵因素是什么不同SFT策略對復合數據的影響是什么實驗設實驗設Di={qi,j,ri,j}j包含輸數學:GSM8K編程

編HowHowAbilitie4s0inLargeLanguageModelsareAffectedbySupervisedFine-tuningDataComposition,arXiv2024實驗實驗分析:RQ2單個任vs混合任數據比例可能導致顯著的性能波動k= specializedusedataamount =specializedalldataamount generalusedataamount generalalldataamount參數量大的模型在使用相同數量的數據進行訓練時表現出優混合數據來源在低資源場景中提高了性能,但在高資源場數據量直接影響性能,而數據比例的影響在實驗設置中不顯

變化量劇增(色線段)對齊,大模型完成CBQA指標評測的能力主要依靠的是參數量大的模型,在相同數量訓練數據情況下,性能更優指令微調階段每個任務的訓練數據量訓練數據會影響模型參數,導致表示和知識記憶能力如果預訓練階段模型沒能學到知識,后面再如何微調

指令微調

如果你想購買這些設備,請注意選擇正規渠道進購買,避免被不法商家欺騙并損害自己的權

現,因此在實際操作中還需要結合其他因素進行綜合考慮總之,我們應該遵守法律法規,不參與任何形式的作弊活動 保持誠信應試的態

強化學習適合于什么任務語言多樣性(LanguageDiversity),\h標注者選擇的回答:這是一個難題標注者拒絕的回答:為考試復習確實很有挑戰性,但有幾種有效的策略可以幫助你高效地學習。首先,重要的是將你需要學習的材料分解成小部分,并集中精力徹底學習每一部分。此外,有幫助的是每天留出充足的時間進行學習,并定期復習材料。高效學習還包括避免干擾和保持充分休息,因為這些因素可以降低你的學習效果。總的來說,使用這些策略可以幫助你以一種高效和徹底的方式為考試做準備。標注者選擇的回答:你對什么樣的跑步感興標注者拒絕的回答:當然,你在尋找什么樣的計RLHFRLHF訓練 RLHF-PPO實施細

如何穩RLHF的

t實施細節對性能有著顯

Improvingmathematicalreasoningwithprocesssupervision|

如何融合外部環境狀態 "StepCoder:ImproveCodeGenerationwithReinforcementLearningfromCompilerFeedback."arXivpreprintarXiv:22.01391TrainingLargeLanguageModelsforReasoningthroughReverseCurriculumReinforcementLearning,ICML2024預訓練階識記憶+表示學 10大模型是否具備

EMNLPWangetal.KnowledgeMechanismsinLargeLanguageModels:ASurveyandEMNLP

大模型“大模型“參加2024大模型大模型“參加2024 即便正確回答的題目,計算過輸入形式的微小不同,結難。它們在需要邏輯推理的自然語言推理任務 人工創建的分布外數ArxivEvaluatingtheLogicalReasoningAbilityofChatGPTandGPT-ArxivEMNLPWangetal.KnowledgeMechanismsinLargeLanguageModels:ASurveyandEMNLPInvestigatingMulti-HopFactualShortcutsinKnowledgeEditingofLargeLanguageModels,Juetal.,Arixv大模型在多跳知識問題的推理中可能應用了在預訓練階段學習到的事實PhysicsPhysicsofLanguageModels:Part3.2,KnowledgeManipulation,Allen-ZhuZ.,LiY.,Arixv檢WhatispersonA’sattribute分類:IsA’sattributeXevenor比較:IsAgreaterthanBinattribute逆向搜索:Whichperson’sattributeXequals語言模型難以完成比較和分類任務語言模型無法進行逆向知識搜索,除非知識以逆序出現在預訓練Dziri,Dziri,Nouha,etal.“Faithandfate:Limitsoftransformersoncompositionality.”AdvancesinNeuralInformationProcessingSystems36(2024)AllenAI乘法的步驟180數據訓練GPT3GPT3達到了一定的問題規模。藍色區域表示分樣本,紅色區域表示OOD樣本。k1k21k1k2≤4k1·k2≤o1o1的規劃能力怎么樣Mysterysd樣例:我的初始條件是,紅色積木是空的,藍色積木是空的,黃色積木是空的,手是空的,藍色積木在橙色積木的上面,紅色積木在桌子上,橙色積木在桌子上,黃色積木在桌子上。我的目標是讓橙色積木在藍色積實現我目標的計劃是什么只需給出計劃中的行動。Valmeekametal.LLMsStillCan‘tPlan;CanLRMs?APreliminaryEvaluationofOpenAI’so1onPlanBench,Arxiv,o1o1的規劃能力怎么樣Valmeekametal.LLMsStillCan‘tPlan;CanLRMs?APreliminaryEvaluationofOpenAI’so1onPlanBench,Arxiv, 全數據驅動實現“推理”面臨巨大挑AGI(Follow參數規模:1萬億、5萬億、10萬億GPU卡規模:1萬、5萬、10100基本假ScalingLaw,壓縮OpenAI超級對齊目OpenAI超級對齊目教

強學 弱智能傳統機器學習方法需要“老師”指“學生”永遠超不過“老師

OpenAIOpenAI超級對齊”仍然需要長期海量方法在所有設置下都不是一致有效RM設置中,仍然遠遠沒有恢復弱OpenAI20%資ReasoningandInstruction:Findmeapillowwithblueand…Thought:IthinkIshouldsearchforpillows…Action:search[pillow]Observation:Results:[Sep]Item1[Sep]…

AgentGymSingleTaskGeneralData

Env

EnvEnv GeneralDomainInstruction:Hello!CanyoutranslatethisintoChineseforme?Response:Sure!

Data4.Multi-task

BehavioralExploring&

MAZE/ Tool BIRD-ther/ vie/ the

AGE

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論