




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
匯報(bào)人:XX時(shí)間:2023.02ChatGPT【聊天機(jī)器人模型】ChatGPT是什么?學(xué)習(xí)解讀01名詞定義錄CONTENTS02ChatGPT發(fā)展歷程03ChatGPT技術(shù)邏輯04社會(huì)運(yùn)用PART01名詞定義名詞定義ChatGPTChatGPT是由人工智能研究實(shí)驗(yàn)室OpenAI在2022年11月30日發(fā)布的全新聊天機(jī)器人模型,—款人工智能技術(shù)驅(qū)動(dòng)的自然語言處?I具。功能它能夠通過學(xué)習(xí)和理解人類的語言來進(jìn)行對(duì)話,還能根據(jù)聊天的上下文進(jìn)行互動(dòng),真正像人類一樣來聊天交流,甚至能完成撰寫郵件、視頻腳本、文案、翻譯、代碼等任務(wù)。名詞定義ChatGPT官方說明:ChatGPT是一種基于GPT-3技術(shù)的聊天機(jī)器人這一模型可以與人類進(jìn)行談話般的交互,可以回答追問,連續(xù)性的問題,承認(rèn)其回答中的錯(cuò)誤,指出人類提問時(shí)的不正確前提,拒絕回答不適當(dāng)?shù)膯栴}。Oper^l'sNewChatGPT%PART02ChatGPT發(fā)展歷程發(fā)展歷程推出注冊(cè)火爆2022年11月底,人工智能對(duì)話聊天機(jī)器人ChatGPT推出,迅速在社交媒體上走紅,短短5天,注冊(cè)用戶數(shù)就超過100萬。試點(diǎn)訂閱計(jì)劃ChatGPTPlus2023年2月2日,美國人工智能(AI)公司OpenAI發(fā)布ChatGPT試點(diǎn)訂閱計(jì)劃——hatGPTPlus。ChatGPTPlus將以每月20美元的價(jià)格提供,訂閱者可獲得比免費(fèi)版本更穩(wěn)定、更快的服務(wù),及嘗試新功能和優(yōu)化的優(yōu)先權(quán)。發(fā)展歷程搜索引掌2023年2月2日,微軟官方公告表示,旗下所有產(chǎn)品將全線整合ChatGPT.除此前宣布的搜索引擎必應(yīng)、Office外,
微軟還將在云計(jì)算平臺(tái)Azure中整合ChatGPT,Azure的OpenAI服務(wù)將允許開發(fā)者訪問AI模型。全面整合訂閱計(jì)劃當(dāng)?shù)貢r(shí)間2023年2月2日,ChatGPT的開發(fā)公司——美國人工智能公司OpenAI順勢(shì)推出了這一應(yīng)用程序的付費(fèi)訂閱版本。.PART03ChatGPT技術(shù)邏輯技術(shù)邏輯1、基于深度學(xué)習(xí)技術(shù)>>它基于深度學(xué)習(xí)技術(shù),通過構(gòu)建多層神經(jīng)網(wǎng)絡(luò)來模擬人類大腦的學(xué)習(xí)過程,從而使計(jì)算機(jī)可以完成許多復(fù)雜的任務(wù),例如語音識(shí)別、圖像分類和自然語言理解等。>>它會(huì)通過對(duì)大量文本數(shù)據(jù)進(jìn)行訓(xùn)練,來學(xué)習(xí)語言知識(shí)和推理能力。這些文本數(shù)據(jù)可能包括新聞文章、小說等內(nèi)容。通過不斷地訓(xùn)練,它的神經(jīng)網(wǎng)絡(luò)可以學(xué)會(huì)提取文本中的信息,并使用這些信息來回答問題技術(shù)邏輯2、訓(xùn)練方法OpenAI的開發(fā)人員是這么解釋的:?"我們使用與InstructGPT相同的方法,以從人類反饋中強(qiáng)化學(xué)習(xí)(ReinforcementLearningfromHumanFeedback,RLHF)的方法訓(xùn)練該模型,人工智能訓(xùn)練者扮演對(duì)話的雙方,即用戶和人工智育鋤手,提供對(duì)話樣本。在人類扮演聊天機(jī)器人的時(shí)候,會(huì)讓模型生成一些建議,輔助訓(xùn)練師撰寫回復(fù),訓(xùn)練師會(huì)對(duì)回復(fù)選項(xiàng)打分排名,將更好的結(jié)果輸回到模型中,通過以上獎(jiǎng)勵(lì)策略對(duì)模型進(jìn)行微調(diào)并持續(xù)迭代。“技術(shù)邏輯2、訓(xùn)練方法監(jiān)督學(xué)習(xí):?監(jiān)督學(xué)習(xí)就是在"有答案”的數(shù)據(jù)集上學(xué)習(xí)。例如我彳門要用監(jiān)督學(xué)習(xí)(supervisedlearning)訓(xùn)練一個(gè)中文到英文的機(jī)器翻譯模型,我們就霊要有中文以及其對(duì)應(yīng)的英文。遷移學(xué)習(xí):?遷移字習(xí)就是使用已訓(xùn)練的模型來解決更復(fù)雜的彳壬務(wù)。這種方法的基本思想是,如果兩個(gè)彳壬務(wù)相關(guān),那么可以使用已解決第一個(gè)任務(wù)的模型來加速解決第二個(gè)<壬務(wù)。遷移學(xué)習(xí)通常使用在數(shù)據(jù)和計(jì)算資源有限的情況下,因?yàn)榭梢允褂靡呀?jīng)訓(xùn)練好的模型的知識(shí),而不是從頭開始訓(xùn)練新的模型。再使用監(jiān)督字習(xí)來對(duì)模型進(jìn)行針對(duì)性的微調(diào)(fine-tune)。技術(shù)邏輯2、訓(xùn)練方法強(qiáng)化學(xué)習(xí):?ChatGPT在使用進(jìn)行微調(diào)之外,還使用了一種叫做reinforcementlearningfromhumanfeedback(RLHF)的技術(shù)。這個(gè)技術(shù)在ChatGPT的主要作用是將預(yù)訓(xùn)練的模型的目標(biāo)對(duì)齊到聊天這一具體的下游應(yīng)用上。?強(qiáng)化字習(xí)可以理解為讓智能體在給定環(huán)境中學(xué)習(xí)如何執(zhí)行最優(yōu)決策,以獲得最大回報(bào)(reward)0最大回報(bào)意味看此時(shí)的回復(fù)最符合人工的選擇取向。例如,在游戲中的機(jī)器人,可以通過執(zhí)行不同的動(dòng)作來嘗試獲得最大的分?jǐn)?shù)。每一次動(dòng)作后,機(jī)器人都會(huì)根據(jù)得分的提升或下降來調(diào)整自己的策略,以便在未來盡可能地^得最大的回報(bào)。4技術(shù)邏輯2、訓(xùn)練方法強(qiáng)化學(xué)習(xí):Stc?>1ColleddomomtratlondataandtrainasuperwodpolicySup2CotoctcomparisondataandtramarewardmodelOptimizeapolcyagainsttherewardmodelusingthePPOrelnfofcemeatlearningalgorithmApremptKun^Dtodrrn(nourproffpidrasalA^beterdenv?nstatesthedwredoXMbetaver.oimrr^toaflyw*!iTMdATActuWKltOftn?-tun<GPT-35u<thsuperviseAp*o<rpcandseveralmoddoutput>rnsampled.AlM>gr$f*Mhe05H5瑚toworst.Thisdataisusedtotrainoxrewardmedeto>e>o>oAnew(xc<YipteMinxXcdIromirwdst&setnwPPOffKKteihgi頃MxngSCrvSdpolcy.Thepoheygenerates9^outputThere*9?dmo<k4心a,srdWtfwouXTh?gwdisusedtoupdatottMpoRygegPPO..技術(shù)邏輯2、訓(xùn)練方法強(qiáng)化學(xué)習(xí):>>第一階段:冷啟動(dòng)階段的監(jiān)督策略模型。>>第二階段:訓(xùn)練回報(bào)模型(RewardModeLRM)>>第三階段:增強(qiáng)預(yù)訓(xùn)練模型的能力笛一階段:冷啟動(dòng)盼段的監(jiān)管策略徑里.GPT3.5母管芻強(qiáng).但呈它很推理辨人奏不同類型指令中藐含的不同SS.ts很療判斷生成宙容是否是高質(zhì)員的結(jié)界.為了讓GP「3.5初步具朝88指今中盟含的寡圖,首先會(huì)從到試用戶提交的prompt中隨機(jī)洎成一批,靠專業(yè)的壞注人員.給岀招定的高質(zhì)■答牽,然后用這些人工標(biāo)注好的故據(jù)奈符調(diào)程堅(jiān).經(jīng)過這個(gè)12?.我們可以認(rèn)為GPT3.5初步具備了逢/人關(guān)prompt中所包合意圖,井根18這個(gè)奪圖給出相對(duì)髙質(zhì)雖回答的能力.但僅僅這掉做是不夠的.第二吩段.訓(xùn)練回報(bào)曜(RewardModel.RM).這個(gè)冊(cè)段的王耍目的是通過人工蜥主訓(xùn)緯故推,來訓(xùn)練回報(bào)模型.日體而百,ffltfira樣一枇用戶提交的prompt(大郞分和第一階段的相同),住用渠一階段微週蜉的冷啟動(dòng)模型,対于莓個(gè)prompt,生fiEK個(gè)不同的@笞,7E?>H產(chǎn)生出7<prompt.an$wer1>.vprompt.answer2>....vprompt,answerK>姓據(jù).之后.標(biāo)注人員對(duì)K個(gè)結(jié)里按照很富標(biāo)準(zhǔn)(例如相關(guān)性、富含信息性、白客信忠等沽穿標(biāo)準(zhǔn))分合夸忠泌行排床.始出K個(gè)結(jié)果的洋名帔存.誼一步的曰的是引導(dǎo)GPT回答人笑必審到的答*,?(WChatGPT從命釧動(dòng)傳白了憲S13E動(dòng).笥三階段:増理頂圳1緋橫空的88力.本階段無需人工懷i主鮫58,而足利用上一階段學(xué)好的RM模型,SRM打瘁S果糸史新預(yù)訓(xùn)綺模型參敏.■體而吉.甘先,從用戶提交的prompt史SS饑采樣一批新的命令(與英一第二階段不同的新的prompt),且臼冷啟動(dòng)模型來初始化PPO(ProximalPolicyOptimization)模型的分散.然后.對(duì)于防機(jī)抽取的prompt,使用PPO後5!生成回答.并用上一階段訓(xùn)塚好的RM橙!U!給出質(zhì)量評(píng)怙的回報(bào)分敏.啟此產(chǎn)生的策略悌龐可以?SrPPOWSSS?.這一步目的舉產(chǎn)生符合RM標(biāo)準(zhǔn)的商拓量回笞。技術(shù)邏輯核心競(jìng)爭(zhēng)力ChatGPT受到關(guān)注的重要原因是引入新技術(shù)RLHF(ReinforcementLearningwithHumanFeedback,即基于人類反饋的強(qiáng)化學(xué)習(xí))。RLHF解決了生成模型的一個(gè)核心問題,即如何讓人工智能模型的產(chǎn)出和人類的常識(shí)、認(rèn)知、需求、價(jià)值觀保持一致。ChatGPT是AIGC(Al-GeneratedContent,人工智能生成內(nèi)容)技術(shù)進(jìn)展的成果。該模型能夠促進(jìn)利用人工智能進(jìn)行內(nèi)容創(chuàng)作、提升內(nèi)容生產(chǎn)效率與豐富度。?OpenAIGPT-3■CodtK■DALLE2AzureOpenAI技術(shù)邏輯技術(shù)局限性ChatGPT的使用上還有局限性,模型仍有優(yōu)化空間。ChatGPT模型的能力上限是由獎(jiǎng)勵(lì)模型決定,該模型需要巨星的語料來擬合真實(shí)世界,對(duì)標(biāo)注員的工作量以及綜合素質(zhì)要求較高。ChatGPT可能會(huì)出現(xiàn)創(chuàng)造不存在的知識(shí),或者主觀猜測(cè)提問者的意圖等問題,模型的優(yōu)化將是一個(gè)持續(xù)的過程。若AI技術(shù)迭代不及預(yù)期,NLP模型優(yōu)化受限,則相關(guān)產(chǎn)業(yè)發(fā)展進(jìn)度會(huì)受到影響。此外,ChatGPT盈利模式尚處于探索階段,后續(xù)商業(yè)化落地進(jìn)展有待觀察。PART04社會(huì)運(yùn)用技術(shù)邏輯結(jié)合ChatGFT的底層技術(shù)邏輯,有媒體曾列出了中短期內(nèi)ChatGPT的潛在產(chǎn)業(yè)化方向歸納性的文字類工作圖像生成領(lǐng)域AIGC代碼開發(fā)相關(guān)工作智能客服類工作.運(yùn)用場(chǎng)景1、搜索引擎?目前的搜索引擎都是在你搜索了任何一個(gè)問題后,列出一大堆的結(jié)果,這其中一些好的答案可能會(huì)排在前面,但也可能會(huì)是很多廣告排在前面。如果霧要真正解決問題,可能還需要多次查找不同關(guān)鍵詞才能得到最終答案。?而ChatGPT一個(gè)非常核心的功能點(diǎn)就是它會(huì)把大家晉遍認(rèn)為最好的答案直接告訴你,并且可以一直對(duì)話下去,就像找老師問問題一樣,體驗(yàn)很好bBing運(yùn)用場(chǎng)景2、寫代碼?告訴他用什么語言實(shí)現(xiàn)什么功能,它就可以寫出一段有質(zhì)量的代碼,并且會(huì)告訴你是怎么實(shí)現(xiàn)?對(duì)于程序員來說,在日常工作中它還能給他們提供不少的幫助,主要是幫助解決開發(fā)中遇到的問題運(yùn)用場(chǎng)景3、寫文章?我們工作中也會(huì)常寫一些文章,例如技術(shù)文章、知識(shí)分享等,我們都可以用它來輔助我們完成,例如潤(rùn)色語句、知識(shí)點(diǎn)總結(jié)、名詞的字典查伺等,也可以模彳方某人的風(fēng)格撰寫文章,來幫助我們寫出來的文章偏向到某種風(fēng)格.運(yùn)用場(chǎng)景4、其他應(yīng)用場(chǎng)景?除了日常對(duì)于個(gè)人應(yīng)用,ChatGPT的成熟也可帶來廣泛的應(yīng)用場(chǎng)景甚至替代一個(gè)崗位,目前下游相關(guān)行業(yè)可能包括代碼機(jī)器人、小說衍生器、對(duì)話類搜索引擎、語音工作助手、對(duì)話虛擬人(客服、外呼、莒銷)等。從上游需求的增加來看,受益行業(yè)可能包括算力、數(shù)據(jù)標(biāo)注、自然語言處理等。總之,它的應(yīng)用場(chǎng)景還是很具有想象力的.修ChatGPT替代谷歌搜索?ChatGPT何以如此強(qiáng)大?在OpenAI的網(wǎng)站上,可以窺見一二根據(jù)OpenAI的官方文檔,相比之前的GPT模型,OpenAI采用了全新的訓(xùn)練方式,即一種名為"從人類反饋中強(qiáng)化學(xué)習(xí)"(ReinforcementLearningfromHumanFeedback,RLHF)的訓(xùn)練方式對(duì)ChatGPT進(jìn)行了訓(xùn)練。在訓(xùn)練原始模型的時(shí)候,OpenAI讓人類訓(xùn)練師扮演對(duì)話的雙方提供對(duì)話作為學(xué)習(xí)資料。在人類扮演聊天機(jī)器人的時(shí)候,OpenAI也會(huì)讓模型生成一些建議來幫助訓(xùn)練師撰寫自己的回氫也就是說,基于優(yōu)秀的機(jī)器學(xué)習(xí)算法和強(qiáng)勁的算力,通過海量的數(shù)據(jù)訓(xùn)練,來讓AI學(xué)會(huì)"思考"。可以看到,ChatGPT類似于谷歌等搜索引擎,甚至功能更加強(qiáng)大,育湘用戶更完善地互動(dòng)。有分析指出,搜索弓I擎都是基于對(duì)問題本身的搜索,但它們有一個(gè)很大的限制,當(dāng)用戶描述不清自己的問題時(shí),搜索引擎并不能與之互動(dòng)。.號(hào)ChatGPT替代谷歌搜索?ChatGPT何以如此強(qiáng)大?在OpenAI的網(wǎng)站上,可以窺見一二。搜索弓|擎與ChatGPT不存在誰取代誰的問題,更多可能是一種互補(bǔ)的關(guān)系。”它們都是一種獲取信息的手段,搜索引擎可能更擅長(zhǎng)幫助用戶獲取已有的信息,但如果是偏創(chuàng)造性的信息,那有可能這種大模型會(huì)解決得更好,因?yàn)樗呀?jīng)隱含了很多的信息,它能夠把這些信息綜合地呈現(xiàn)出來。”"現(xiàn)在做這種大模型的基本上都是大企業(yè),本身它們也有搜索弓I擎的背景。例如,OpenAI背后有微軟,谷歌也在做這種大模型。未來,也不排除會(huì)將這兩種
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 假期誦讀活動(dòng)方案
- 做了ip活動(dòng)方案
- 做線下創(chuàng)意活動(dòng)方案
- 停車場(chǎng)公司活動(dòng)策劃方案
- 健康你我他義診活動(dòng)方案
- 健康夏日小食活動(dòng)方案
- 健康文化節(jié)活動(dòng)策劃方案
- 健康橙子促銷活動(dòng)方案
- 健康用餐活動(dòng)策劃方案
- 健康行活動(dòng)方案
- 第6課 從隋唐盛世到五代十國 課件【高效備課+精講精研】高中歷史統(tǒng)編版(2019)必修中外歷史綱要上冊(cè)
- 浙江工商大學(xué)-匯報(bào)答辯通用PPT模板
- 藥品短缺情況登記表
- 住房公積金未婚聲明書
- 跨文化溝通分解課件
- 2023年北京中考地理試卷及答案
- 跨境電子商務(wù)實(shí)訓(xùn)
- 新蘇科版八年級(jí)下冊(cè)初中數(shù)學(xué) 7.2 統(tǒng)計(jì)圖的選用課時(shí)練(課后作業(yè)設(shè)計(jì))
- 兒童學(xué)習(xí)困難課件
- 護(hù)生入科宣教
- 物理降溫操作流程及評(píng)分標(biāo)準(zhǔn)
評(píng)論
0/150
提交評(píng)論