




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
動態(tài)規(guī)劃基本理論推廣——函數迭代法與策略迭代法本章內容舉例簡單說明不定期與無期決策過程的形式和概念;以不定期和無期決策過程為例,介紹函數迭代法和策略迭代法。不定期與無期決策過程定義:多階段的決策過程的階段數N確定,稱為定期決策過程,當N不確定時,稱此類決策過程為不定期決策過程,當N趨向無窮時稱為無期決策過程。不定期與無期決策過程例1:段數不定的最短路線問題(不定期決策過程)n個點相互連接組成一
個連通圖(右圖中n=5),各點
標號為1,2,…,n。任意兩點
i,j之間的距離(費用)記作
dij。求任意一點i到點n(靶
點)的最短路線(距離)。51432322575560.51不定期與無期決策過程例1:段數不定的最短路線問題(不定期決策過程)n個點相互連接組成一
個連通圖(右圖中n=5),各點
標號為1,2,…,n。任意兩點
i,j之間的距離(費用)記作
dij。求任意一點i到點n(靶
點)的最短路線(距離)。51432322575560.51不定期與無期決策過程例2:無限期決策過程模型
,狀態(tài)變換函數為
。(存在明顯的級變量,但級
數是無限的)不定期與無期決策過程求解這類問題如果仍使用以前的逐級遞推方法,將遇到極大的計算量,為此必需尋找新方法。函數方程可以用迭代法求解,通常有函數迭代法和策略迭代法兩種迭代方法。函數迭代法與策略迭代法1.函數迭代法的步驟是:(1)選初始函數 (一般取);(2)用迭代公式及
計算其中
為當前階段的狀態(tài)和決策,為
已知終止函數,為迭代步數,v為指標函數(3)當
或函數迭代法與策略迭代法(4)當或時迭代停止,最優(yōu)值函數
,最優(yōu)策略
;否則以k+1代替k重復(2),(3).函數迭代法與策略迭代法說明:函數迭代法和策略迭代法中,序列
和
的收斂性在相當廣泛的條件下是可以
保證的,一般來說它與
等
的具體形式有關。函數迭代法的基本思想是以步數(段數)作為參數,先求在各個不同步數下的最優(yōu)策略,然后從這些最優(yōu)解中再選出最優(yōu)者,從而同時確定了最優(yōu)步數。函數迭代法與與策略迭代法法策略迭代法的的基本思想是是:先選定一一初始策略然后按某種方方式求得新策策略直至最終求出出最優(yōu)策略。。若對某一k,對所有i有:,則稱收斂,此時,,策略就是最優(yōu)策略略。一般來說,選選定初始策略略要比選定初初始目標最優(yōu)優(yōu)值函數容易易得多,且策策略迭代的收收斂速度稍快快,但其計算算量要大些。。函數迭代法與與策略迭代法法(是事先給定的的數)時迭代停止,,最優(yōu)值函數數,最優(yōu)策略。2.策略迭代法的的步驟是:(1)選初始策略,令k=1;(2)用求求解,(3)用求改進策略,函數迭代法與與策略迭代法法例1的求解:分析:可以不不考慮回路,,因為含有回回路的路線一一定不是最短短的.本問題路線的的段數事先不不固定,而是是隨著最優(yōu)策策略確定的,,然而狀態(tài)、、決策、狀態(tài)態(tài)轉移、指標標函數與以前前的最短路線線問題的相同同.狀態(tài)記作x=i,i=1,2,…,n,決策記作u(i).策略是對任意意狀態(tài)x的決策函數,,記作u(x)。階段指標是是任意兩狀態(tài)態(tài)i,j間的距離dij,指標函數V(i,u(x))是由狀態(tài)i出發(fā),在策略略u(x)下到達狀態(tài)n的路線的函數迭代法與與策略迭代法法距離,它是階階段指標之和和,并滿足足可分離性要要求,有最優(yōu)值函數?(i)為由i出發(fā)到達n的最短距離,,即式中u*(x)是最優(yōu)策略,,滿足基本方方程函數迭代法與與策略迭代法法該式記為(﹡)式,它不是一一個遞推方程程,而是一個個關于?(i)的函數方程,對固定的i使(﹡)右端[dij+?(j)]達到極小的j即為最優(yōu)決策策u*(i),對所有的i求解(﹡)式得到最優(yōu)策策略u*(x)。不定期與無期期決策過程例1:段數不定的的最短路線問問題(不定期期決策過程))n個點相互連接接組成一個連通圖(右圖中n=5),各點標號為1,2,…,n。任意兩點i,j之間的距離(費用)記作dij。求任意一點點i到點n(靶點)的最短路線(距離)。函數迭代法與與策略迭代法法用函數迭代法法求解例1只求1,2,3,4各點到點5的最優(yōu)路線,,其余類似。。解:(1)假設從i點走一步到靶靶點5的最優(yōu)距離為為,則顯然有:最優(yōu)決策為:51432322575560.51函數迭代法與與策略迭代法法(2)假設從i點走兩步到靶靶點5的最優(yōu)距離為為,根據最優(yōu)化原原理得:具體計算如下下:函數迭代法與與策略迭代法法注:不取含的地方作為最最優(yōu)決策函數迭代法與與策略迭代法法(3)假設從i點走三步到靶靶點5的最優(yōu)距離為為,則得:計算結果如下下:函數迭代法與與策略迭代法法(4)假設從i點走四步到靶靶點5的最優(yōu)距離為為,則得:計算結果如下下:函數迭代法與與策略迭代法法函數迭代法與與策略迭代法法由于只有5個點,因而從任一點點出發(fā)到達靶靶點,其間最多有4步(否則,有回路路),這樣就不需需繼續(xù)下去了了。將計算結結果列成表::i1252525252755.534.534.53355444444435353535函數迭代法與與策略迭代法法分析上面的結結果可得:①從點1到點5走一步為最優(yōu)優(yōu),最優(yōu)距離離為2,最優(yōu)路線;從點2到點5走三步為最優(yōu)優(yōu),最優(yōu)距離離為4.5,最優(yōu)路線;從點3到點5走兩步為最優(yōu)優(yōu),最優(yōu)距離離為4,最優(yōu)路線;從點4到點5走一步為最優(yōu)優(yōu),最優(yōu)距離離為3,最優(yōu)路線。函數迭代法與與策略迭代法法②最優(yōu)決策最最多走4步,多于此步步數,會出現現走回頭路或或回路,顯然然這些不是最最優(yōu)路線。③從任一點出出發(fā)到靶點,,走m(m=1,2,…)步與走m+1步的最優(yōu)距離離一樣,決策策函數也一樣樣,如果繼續(xù)續(xù)計算走m+2步、m+3步、……,其結果仍一一樣,即也就說明一致收斂于,一致收斂于。故當這種一一出現,計算算便可停止。。函數迭代法與與策略迭代法法例1的求解:(策略迭代法))解:①第一步步,先選取初初始策略。如取:即,但必需沒有回回路,每點可可達靶點。第二步,由求,由策略迭代代法的方程組組可得:因策略直達靶點,應應先計算:函數迭代法與與策略迭代法法第三步,由求,由求出它的解:時,函數迭代法與與策略迭代法法所以,(不在含的項取)時,函數迭代法與與策略迭代法法所以,,同理,,可求求得,于是得得到第第一次次策略略迭代代的結結果為為②以為初始始策略略繼續(xù)續(xù)反復復使用用第二二、三三步進進行迭迭代。。第二步步:由由求函數迭迭代法法與策策略迭迭代法法第三步步:由由求,即由求解。時,所以同理,,求出出故第二二次策策略迭迭代的的結果果為函數迭迭代法法與策策略迭迭代法法③第二二步::由求第三步步:由由求,類似似前面面的方方法求求得第第三次次策略略迭代代的結結果為為i1234545321156535525.553534524.5435345函數迭迭代法法與策策略迭迭代法法④將以以上結結果記記錄下下來::函數迭迭代法法與策策略迭迭代法法由以上上結果果得到到,對所所有的的i都成立立,說說明迭迭代步步驟可可以停停止。。故找找到最最優(yōu)策策略為為列表表表示為為從而可可以得得到各各點到到靶點點(點5)的最優(yōu)優(yōu)路線線和最最優(yōu)距距離::i12345345函數迭迭代法法與策策略迭迭代法法最優(yōu)路路線最短距距離值值①→→⑤⑤2②→→③③→→④④→→⑤⑤4.5③→→④④→→⑤⑤4④→→⑤⑤3可以看看到策策略迭迭代法法得到到的結結果與與函數數迭代代法的的結果一致。。不定期期與無無期決決策過過程例2:無限限期決決策過過程模型,狀態(tài)態(tài)變換換函數數為。(存在明明顯的的級變變量,,但級級數是無無限的的)函數迭迭代法法與策策略迭迭代法法例2的求解解(函數數迭代代法))解:(1)任取初初值,,如狀態(tài)變變換函函數為為迭代公公式為為(2)i=1時,進進行第第一次次迭代代函數迭迭代法法與策策略迭迭代法法對求導,,并令令其等等于零零,有有可得函數迭迭代法法與策策略迭迭代法法,取i=2時,進進行第第二次次迭代代對求導,,并令令其等等于零零,得得函數迭代法法與策略迭迭代法故由于,應繼續(xù)進進行迭代。。當i=3時,進行第第三次迭代代,類似以以上才方法法,可得函數迭代法法與策略迭迭代法由于,取i=4繼續(xù)進行第第四次迭代代。其結果果如下:函數迭代法法與策略迭迭代法由于,可以確定該該問題的最最優(yōu)收益函函數為最優(yōu)決策為為函數迭代法法與策略迭迭代法例2的求解(策略迭代代法)解:(1)任取初始策策略值,如如及(2)進行第一次次迭代,取取i=1,2,…得函數迭代法法與策略迭迭代法由于取再來確定第第二次迭代代的決策:函數迭代法法與策略迭迭代法上式的解為為由于,需要進行行第二次迭迭代:函數迭代法法與策略迭迭代法由于,需要繼續(xù)續(xù)進行迭代代,直到時為止,節(jié)節(jié)省時間,,直接給出出結果,但由于,因此需要繼續(xù)進進行迭代。。現在來確定定第三次迭迭代的決策策,有函數迭代法法與策略迭迭代法則由于,還必須進進行下次迭迭代。第三次迭代代:函數迭代法法與策略迭迭代法由于,需要繼續(xù)續(xù)進行迭代代,直到時為止,最最后得到由于,因此需要繼續(xù)進進行迭代。。現在來確定定第四次迭迭代的決策策,有函數迭代法法與策略迭迭代法則第四次迭代代:函數迭代法法與策略迭迭代法繼續(xù)進行迭迭代,直到到時為止,最最后得到由于,因此可停停止迭代。最優(yōu)收益函函數為相應的最優(yōu)優(yōu)策略為函數迭代法法與策略迭迭代法注:對于定定義一個無無期決策過過程的最優(yōu)優(yōu)化問題,,須滿足三三個條件,,即對所有有的有:①狀態(tài)轉移移方程有意義;②允許決策策集合有意義,而而且非空,則存存在允許策策略使得對所有有非空;③目標函數數對所有有意義,且且對所有允允許策略,,極限存在。函數迭代法法與策略迭迭代法注:對于定定義一個無無期決策過過程的最優(yōu)優(yōu)化問題,,須滿足三三個條件,,即對所有有的有:①狀態(tài)轉移移方程有意義;②允許決策策集合有意義,而而且非空,則存存在允許策策略使得對所有有非空;③目標函數數對所有有意義,且且對所有允允許策略,,極限存在。函數迭代法法與策略迭迭代法當上述三個個條件成立立時,就可可以說,無無期決策過過程的最優(yōu)優(yōu)化的意義義在于求最最優(yōu)策略使得其中P是定義在無無期過程上上的非空允允許策略集集。是P的元素,是定義在P上的目標函函數。函數迭代法法與策略迭迭代法例1、例2的共同點是是在多階段段決策過程程中允許決決策集合、、狀態(tài)轉移移規(guī)律、階階段指標等等于階段變變量k無關,從而而基本方程程成為函數數方程,稱稱這樣的過過程是平穩(wěn)的。定義:滿足足以下條件件的多階段段決策過程程成為平穩(wěn)過程,相應的策策略稱為平穩(wěn)策略:(1)允許決策集集合Uk(x)與k無關,可記記為U(x),為狀態(tài)變量量;(2)狀態(tài)轉移Tk與k無關,于是是可寫作x,u為當前的階階段和決策策,為為下一階段段狀態(tài);函數迭代法法與策略迭迭代法(3)階段指標Vk與k無關,可可記作。如果決策策序列中與與k無關,稱稱為平穩(wěn)穩(wěn)的,可可用一個個函數u(x)表示。平平穩(wěn)過程程的最優(yōu)優(yōu)策略一一定是平平穩(wěn)策略略,記作作.附:理論論證明收斂性證證明對所有的的k、i、j,根據極限限存在準準則,必必收斂斂于當收斂性于于時,證明明即為的解附:理論論證明∵收斂于,有∴附:理論論證明合并上面面兩式,,即得9、靜夜四無鄰鄰,荒居舊業(yè)業(yè)貧。。1月-231月-23Friday,January6,202310、雨中黃黃葉樹,,燈下白白頭人。。。14:11:0914:11:0914:111/6/20232:11:09PM11、以我我獨沈沈久,,愧君君相見見頻。。。1月-2314:11:0914:11Jan-2306-Jan-2312、故人江海海別,幾度度隔山川。。。14:11:0914:11:0914:11Friday,January6,202313、乍乍見見翻翻疑疑夢夢,,相相悲悲各各問問年年。。。。1月月-231月月-2314:11:0914:11:09January6,202314、他他鄉(xiāng)鄉(xiāng)生生白白發(fā)發(fā),,舊舊國國見見青青山山。。。。06一一月月20232:11:09下下午午14:11:091月月-2315、比不了了得就不不比,得得不到的的就不要要。。。。一月232:11下午午1月-2314:11January6,202316、行行動動出出成成果果,,工工作作出出財財富富。。。。2023/1/614:11:0914:11:0906January202317、做前前,能能夠環(huán)環(huán)視四四周;;做時時,你你只能能或者者最好好沿著著以腳腳為起起點的的射線線向前前。。。2:11:09下下午2:11下下午午14:11:091月-239、沒有失敗敗,只有暫暫時停止成成功!。1月-231月-23Friday,January6,202310、很多事情努努力了未必有有結果,但是是不努力卻什什么改變也沒沒有。。14:11:0914:11:0914:111/6/20232:11:09PM11、成功就是日日復一日那一一點點小小努努力的積累。。。1月-2314:11:0914:11Jan-2306-Jan-2312、世世間間成成事事,,不不求求其其絕絕對對圓圓滿滿,,留留一一份份不不足足,,可可得得無無限限完完美美。。。。14:11:0914:11:0914:11Friday,January6,202313、不知香積寺寺,數里入云云峰。。1月-231月-2314:11:0914:11:09January6,202314、意志志堅強強的人人能把把世界界放在在手中中像泥泥塊一一樣任任意揉揉捏。。06一一月月20232:11:09下下午14:11:091月-2315、楚塞三三湘接,,荊門九九派通。。。。一月232:11下午午1月-2314:11January6,202316、少年十五五二十時,,步行奪得得胡馬騎。。。2023/1/614:11:0914:11:0906January202317、空山山新雨雨后,,天氣氣晚來來秋。。。2:11:09下下午2:11下下午午14:11:091月-239、楊楊柳柳散散和和風風,,青青山山澹澹吾吾慮慮。。。。
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 皮膚感染護理查房流程
- 職業(yè)健康教育培訓
- 深靜脈血栓預防護理新進展
- 中國型振動篩行業(yè)市場前景預測及投資價值評估分析報告
- 幼兒園大班科學《化冰實驗》課件
- 血透中心長期導管護理
- 人教版職業(yè)教育語文課件
- 不做小馬虎的課堂設計
- 四川省成都市錦江區(qū)嘉祥外國語高級中學高2023屆高三下學期三診模擬考試英語 含解析
- DB32/T 4621-2023聯合接訪工作規(guī)范
- 11.4 歌曲 《木瓜恰恰恰》課件(16張)
- 荊州市國土空間總體規(guī)劃(2021-2035年)
- 古埃及文明學習通超星期末考試答案章節(jié)答案2024年
- 退稅的住房合同
- 私募股權投資基金合規(guī)管理手冊
- 中職英語基礎模塊1Unit-7-The-Internet閱讀課
- 新生兒期保健-新生兒早期基本保健(EENC)(兒童保健)
- 《新聞采訪與寫作》(第三版)目錄(丁柏銓高等教育出版社)
- 沉淀資金管理辦法
- 雇工合同書(2024版)
- GB/T 4706.7-2024家用和類似用途電器的安全第7部分:真空吸塵器和吸水式清潔器具的特殊要求
評論
0/150
提交評論