




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
Lecture6:
RepeatedGames(III)──以“囚徒困境博弈”為例1嚴格競爭博弈的重復博弈零和博弈或其他嚴格競爭博弈的有限次和無限次重復博弈,都不可能產生比一次性博弈更理想的結果,博弈方的唯一選擇是始終采用原博弈的混合策略納什均衡策略,因為重復博弈不會改變博弈方之間的利益對立關系。以“猜硬幣博弈”為例2存在唯一純策略納什均衡博弈的重復博弈3在有唯一純策略納什均衡的博弈中,博弈方之間的利益關系不再是始終對立的,而是有很大一致性甚至完全一致。4坦白抵賴坦白(-5,-5)(0,-8)抵賴(-8,0)(-1,-1)乙甲存在唯一純策略納什均衡博弈的重復博弈?以“存在唯一純策略納什均衡博弈”為原博弈的重復博弈中,博弈方的行為和博弈結果會不會發生本質的變化呢?5坦白抵賴坦白(-5,-5)(0,-8)抵賴(-8,0)(-1,-1)乙甲存在唯一純策略納什均衡博弈的重復博弈存在唯一純策略納什均衡博弈的重復博弈有限次重復博弈無限次重復博弈6以“囚徒困境博弈”為例囚徒困境博弈7坦白抵賴坦白(-5,-5)(0,-8)抵賴(-8,0)(-1,-1)甲乙策略組合(坦白,坦白)是“囚徒困境”博弈的唯一純策略納什均衡。“囚徒困境博弈”的兩次重復博弈“囚徒困境博弈”的兩次重復博弈利用“逆推歸納法”進行分析8坦白抵賴坦白(-5,-5)(0,-8)抵賴(-8,0)(-1,-1)乙甲“囚徒困境博弈”的兩次重復博弈首先,分析第二階段(即第二次重復時)兩博弈方的選擇。第二階段仍然是兩囚徒之間的一個囚徒困境博弈,此時前一階段的結果已成為既成事實,此后又不再有任何的后續階段,因此實現自身當前的最大利益是兩博弈方在該階段決策中的唯一原則。因此不管前一次博弈的結果如何,第二階段的唯一結果就是原博弈唯一的納什均衡(坦白,坦白),雙方得益的現在值為(-5δ,-5δ)。9坦白抵賴坦白(-5,-5)(0,-8)抵賴(-8,0)(-1,-1)乙甲“囚徒困境博弈”的兩次重復博弈然后,回到第一階段,即第一次博弈。理性的博弈方在第一階段就對后一階段(第二階段)的結局非常清楚。因此不管第一階段的博弈結果是什么,雙方在整個重復博弈中的最終得益,都將是第一階段得益的基礎上各加-5δ
。因此從第一階段的選擇來看,這個重復博弈與如下得益矩陣表示的一次性博弈實際上是完全等價的。10坦白抵賴坦白(-5-5δ
,-5-5δ
)(0-5δ
,-8-5δ
)抵賴(-8-5δ
,0-5δ
)(-1-5δ
,-1-5δ
)乙甲“囚徒困境博弈”的兩次重復博弈11坦白抵賴坦白(-5-5δ
,-5-5δ
)(0-5δ
,-8-5δ
)抵賴(-8-5δ
,0-5δ
)(-1-5δ
,-1-5δ
)乙甲該等價博弈有唯一的純策略納什均衡(坦白,坦白),雙方的得益則為(-5-5δ
,-5-5δ
)。“囚徒困境博弈”的兩次重復博弈“囚徒困境博弈”的兩次重復博弈存在唯一的子博弈完美納什均衡:{(坦白,坦白),(坦白,坦白)};博弈方的總得益組合為(-5-5δ
,-5-5δ)。12“囚徒困境博弈”的兩次重復博弈囚徒困境博弈的兩次重復博弈相當于一次性囚徒困境博弈的簡單重復。13“囚徒困境博弈”的有限次重復博弈(推廣)“囚徒困境博弈”的T次重復博弈存在唯一的子博弈完美納什均衡,即每次重復都采用原博弈唯一的純策略納什均衡。14小結論利用劃線法求解Nash均衡解,都是在給定其他博弈方所取策略的條件下,比較同一博弈方采用不同策略時的得益大小。因此,在每個博弈方的各種可能得益上加一個常數(不同博弈方的得益所加常數可以不同)之后,博弈的Nash均衡仍為“新”博弈的均衡結果。15存在唯一純策略納什均衡博弈的有限次重復博弈
定理:設原博弈G有唯一的純策略納什均衡,則對任意正整數T
,重復博弈G(T)有唯一的子博弈完美納什均衡,即各博弈方每個階段都采用G
的納什均衡策略。1617存在唯一純策略納什均衡博弈的有限次重復博弈(續)利用逆推歸納法證明首先,分析重復博弈G(T)的最后一個階段,即第T次重復由于第T次重復就是原博弈G,并且在該階段之后不再重復,因此不管以前T-1階段的博弈結果如何,在該階段中各博弈方必然采用G的唯一的納什均衡。18存在唯一純策略納什均衡博弈的有限次重復博弈(續)然后,再推回到前一階段,即第T-1次重復由于此時各博弈方都知道下一階段(即第T階段)的博弈結果,因此對每個博弈方來說,從該階段開始的子博弈(即最后兩個階段)中各種策略組合的得益就是本階段的得益加上下一階段的均衡得益的貼現值。因此,各博弈方在該階段仍將采用G的唯一的納什均衡。19存在唯一純策略納什均衡博弈的有限次重復博弈(續)依此類推直至博弈的第一階段。最終,可得結論!20存在唯一純策略納什均衡博弈的有限次重復博弈(續)有唯一純策略納什均衡的有限次重復博弈不比一次性博弈的結果理想,因為唯一的子博弈完美納什均衡是各博弈方每次重復都采用原博弈的納什均衡。21存在唯一純策略納什均衡博弈的無限次重復博弈存在唯一純策略納什均衡博弈的無限次重復博弈以囚徒困境式博弈的無限次重復為例22囚徒困境式博弈的無限次重復博弈囚徒困境式博弈的無限次重復下面的分析將表明,在囚徒困境式博弈的無限次重復博弈中,對雙方有利的合作(指雙方克制自己的行為,為對方的利益和共同的利益著想,并非真正的聯合、合作)在子博弈完美納什均衡中有可能存在,博弈可能出現比較理想的結果。以削價競爭博弈的無限次重復為例。23削價競爭博弈24博弈方2HL博弈方1H4,40,5L5,01,1H和L分別表示高價(不削價)和低價(削價)策略削價競爭博弈(續)該博弈的一次性博弈有唯一的純策略納什均衡(L,L),得益組合為(1,1)。25博弈方2HL博弈方1H4,40,5L5,01,1削價競爭博弈(續)策略組合(H,H)實現的得益組合(4,4)比(1,1)高得多。但因為(H,H)并不是該博弈的納什均衡,因此在一次性博弈中不會被采用,這是一個典型的囚徒困境式博弈。26博弈方2HL博弈方1H4,40,5L5,01,1削價競爭博弈(續)該博弈的有限次重復博弈不能實現潛在的合作利益,兩博弈方在每次重復中都不會采用效率較高的(H,H)。27博弈方2HL博弈方1H4,40,5L5,01,1觸發策略
(TriggerStrategy)重復博弈中博弈方首先試探合作,一旦發現對方不合作則用不合作報復的策略,稱為“觸發策略”。觸發策略是重復博弈中實現合作和提高均衡效率的關鍵機制,是重復博弈分析中構造子博弈完美納什均衡的基本“構件”之一。28“冷酷策略”(grimstrategy)又稱為“觸發策略”(triggerstrategy),因為任何參與人的一次性不合作將觸發永遠的不合作。(張維迎,2012,第126頁)在冷酷戰略下,參與人沒有改正錯誤的機會。所以這個戰略確實是很冷酷的,但冷酷的結果是雙方都沒有背叛對方的積極性,因而是友善的。(張維迎,2012,第127頁)2930削價競爭博弈的無限次重復
削價競爭博弈的無限次重復假設兩博弈方都采用觸發策略:第一階段采用H,在第t階段,如果前t-1階段的結果都是(H,H),則繼續采用H,否則采用L。雙方在無限次重復博弈中都是先試圖合作,第一次無條件選H,如果對方采用的也是合作態度,則堅持選H;一旦發現對方不合作(選擇L),則用以后永遠選擇L報復。博弈方2HL博弈方1H4,40,5L5,01,1削價競爭博弈的無限次重復(續)證明:當貼現系數δ較大時,雙方采用上述觸發策略構成無限次重復博弈的一個子博弈完美納什均衡。31博弈方2HL博弈方1H4,40,5L5,01,1觸發策略:第一階段采用H,在第t階段,如果前t-1階段的結果都是(H,H),則繼續采用H,否則采用L。削價競爭博弈的無限次重復(續)證明:首先,證明雙方采用上述觸發策略是一個納什均衡。然后,證明上述觸發策略組合構成整個無限次重復博弈的子博弈完美納什均衡。32博弈方2HL博弈方1H4,40,5L5,01,1觸發策略:第一階段采用H,在第t階段,如果前t-1階段的結果都是(H,H),則繼續采用H,否則采用L。削價競爭博弈的無限次重復(續)證明雙方采用上述觸發策略是一個納什均衡。假設博弈方1已經采用了觸發策略,證明在δ達到一定水平時,采用同樣的觸發策略是博弈方2的最佳反應策略。因為博弈方1與博弈方2是對稱的,因此只要這個結論成立,就可以確定上述觸發策略是兩博弈方相互對對方策略的最佳反應,因此構成納什均衡。33觸發策略:第一階段采用H,在第t階段,如果前t-1階段的結果都是(H,H),則繼續采用H,否則采用L。博弈方2HL博弈方1H4,40,5L5,01,1削價競爭博弈的無限次重復(續)假定博弈方1已經采用觸發策略,證明在δ達到一定水平時,采用同樣的觸發策略是博弈方2的最佳反應策略。博弈方2對博弈方1觸發策略的最佳反應策略的后半部分與觸發策略的后半部分是一樣的。由于在某個階段出現與(H,H)不同的結果以后博弈方1將永遠采用L,此時博弈方2也只有一直選擇L。34觸發策略:第一階段采用H,在第t階段,如果前t-1階段的結果都是(H,H),則繼續采用H,否則采用L。博弈方2HL博弈方1H4,40,5L5,01,1削價競爭博弈的無限次重復(續)確定博弈方2在第一階段的最優選擇。如果博弈方2采用L,那么在第一階段能得到5,但以后引起博弈方1一直采用L的報復,自己也只能一直采用L,得益將永遠為1,總得益的貼現值為35觸發策略:第一階段采用H,在第t階段,如果前t-1階段的結果都是(H,H),則繼續采用H,否則采用L。博弈方2HL博弈方1H4,40,5L5,01,1削價競爭博弈的無限次重復(續)如果博弈方2采用H,則在第一階段他將得4,下一階段又面臨同樣的選擇。若記V為博弈方2在該重復博弈中每階段采用最佳選擇的總得益現在值,那么從第二階段開始的無限次重復博弈與從第一階段開始的只差一階段,因而在無限次重復時可看作相同的,其總得益的現在值折算成第一階段的得益為δ·V
,因此當第一階段的最佳選擇是H時,整個無限次重復博弈總得益的現在值為:36博弈方2HL博弈方1H4,40,5L5,01,1觸發策略:第一階段采用H,在第t階段,如果前t-1階段的結果都是(H,H),則繼續采用H,否則采用L。削價競爭博弈的無限次重復(續)37削價競爭博弈的無限次重復(續)因此,當38即δ>1/4時,博弈方2會采用H策略,否則會采用L策略。即當δ>1/4時,博弈方2對博弈方1觸發策略的最佳反應是第一階段采用H。觸發策略:第一階段采用H,在第t階段,如果前t-1階段的結果都是(H,H),則繼續采用H,否則采用L。博弈方2HL博弈方1H4,40,5L5,01,1削價競爭博弈的無限次重復(續)由于從第二階段開始的無限次重復博弈,與從第一階段開始的無限次重復博弈是完全相同的,因此博弈方第二階段的選擇必然也是H,第三階段也同樣。39觸發策略:第一階段采用H,在第t階段,如果前t-1階段的結果都是(H,H),則繼續采用H,否則采用L。博弈方2HL博弈方1H4,40,5L5,01,1削價競爭博弈的無限次重復(續)依此類推,只要博弈方1采用前述觸發策略,那么博弈方2的最優選擇始終是H。當然,如果博弈方1偏離H,博弈方2也必須用L來報復。40觸發策略:第一階段采用H,在第t階段,如果前t-1階段的結果都是(H,H),則繼續采用H,否則采用L。博弈方2HL博弈方1H4,40,5L5,01,1削價競爭博弈的無限次重復(續)因此,博弈方2對博弈方1觸發策略的完整反應策略是同樣的觸發策略。這就證明了雙方采用上述觸發策略是一個納什均衡。41觸發策略:第一階段采用H,在第t階段,如果前t-1階段的結果都是(H,H),則繼續采用H,否則采用L。博弈方2HL博弈方1H4,40,5L5,01,1削價競爭博弈的無限次重復(續)證明上述觸發策略組合構成整個無限次重復博
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 怎么寫足球合同協議書
- 醫院員工合同協議書范本
- 保護孩子的策劃書3
- 入職合同解除協議書
- 音響轉讓合同協議書范本
- 2025年中國閥門行業發展趨勢及投資前景預測報告
- 工程合同價款變更協議書
- 商業計劃書紅杉資本
- 解除合同協議書填寫
- 講述創業精神與創新
- 2025屆廣東省深圳實驗學校高中園與惠東高級中學高三下學期5月適應性聯考(三模)物理試卷
- 2025年蘇教版科學小學五年級下冊期末檢測題附答案(二)
- 中國鐵路濟南局集團有限公司招聘普通高校考試真題2024
- 2025年高考第二次模擬考試物理(浙江卷)(考試版)-20250416-113627
- 施工項目資料管理試題及答案
- 煙草專賣合同協議書
- 車輛終止掛靠協議合同
- 《糖尿病合并高血壓患者管理指南(2025版)》解讀
- 成都設計咨詢集團有限公司2025年社會公開招聘(19人)筆試參考題庫附帶答案詳解
- 2025年4月稽陽聯誼學校高三聯考語文試題解析
- 小學生科普天文知識課件
評論
0/150
提交評論