




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
博弈論威脅和承諾博弈論威脅和承諾game猜數字游戲任選一名學生與老師共同完成老師在0-100之中任選一個數字寫好;學生在0-100之間猜數字,有5次機會,每次猜完后老師告知大于或小于目標數字。game猜數字游戲目錄4.1動態博弈的描述4.2威脅與承諾的可信性4.3序貫理性4.4逆推歸納法目錄4.1動態博弈的描述嘗試考慮以下問題1、是不是信息越多越有利?2、過程是否重要?3、動態博弈與靜態博弈有哪些異同之處?4、人們對已經過去的博弈是更注重結果還是更注重過程?其意義何在?4.1動態博弈的描述嘗試考慮以下問題4.1動態博弈的描述4.1動態博弈的描述動態博弈:博弈方先后、依次進行選擇、行動,且后行動方知道先行動方的選擇。靜態博弈:同時或可看做同時動態博弈——序貫博弈一方在行動時不知道對方策略4.1動態博弈的描述動態博弈:博弈方先后、依次進行選擇、行行動有先后順序,不同的參與人在不同時點行動,先行動者的選擇影響后行動者的選擇空間,后行動者可以觀察到先行動者做了什么選擇。為了做出最優的行動選擇,每個參與人都必須這樣思考問題:如果我如此選擇,對方將如何應對?如果我是他,我將會如何行動?給定他的應對,什么是我的最優選擇?下棋、買東西、談婚論嫁4.1動態博弈的描述行動有先后順序,不同的參與人在不同時點行動,先行動者的選擇影為進入一行業,進入者必須付出4000萬元的(沉沒)成本建工廠。
進入者不進入,在位者能繼續定高價,享受壟斷利潤10000萬元。進入者進入:在位者可以“容忍”,維持高價,此時在位者只能賺到5000萬元,進入者將賺到1000萬元的凈利潤;在位者可以“阻撓”,把價格壓低,這種商戰導致雙方的低利潤:在位者的利潤下降到3000萬元,進入者將有1000萬元的凈損失。
進入不進入,阻撓不阻撓?4.1動態博弈的描述為進入一行業,進入者必須付出4000萬元的(沉沒)成本建工廠每一種可能行動組合下的收益是共同知識如果企圖進入者不進入,則在位者獨享10000萬元利潤;如果進入而在位者容忍,則在位者得5000萬元,進入者利潤1000萬元;如果進入并且在位者阻撓,則在位者利潤3000萬元而進入者-1000萬元。4.1動態博弈的描述信息完全且完美每一種可能行動組合下的收益是共同知識4.1動態博弈的描述信4.1動態博弈的描述●ⅠⅡ●●不進入進入容忍阻撓(0,10000)(1000,5000)(-1000,3000)擴展形表示法(博弈樹)4.1動態博弈的描述●ⅠⅡ●●不進入進容忍阻撓(0,100擴展形表示法(博弈樹)的構成:節點(nodes)決策節點(decisionnodes)終點節(terminalnodes)樹枝(branches):每一條樹枝代表一個行動信息集(informationsets):參與人在決策節點選擇行動時,需要有關信息;對此前博弈過程的一個全部而明確的認識就構成一個信息集。4.1動態博弈的描述擴展形表示法(博弈樹)的構成:節點(nodes)決策節點(d戰略在動態博弈中,博弈方的戰略是在不同時點做出的,因此戰略不再是單一的行動。是一個完備的行動計劃,為博弈方在每個時點上規定一個動作。“華容道”、劉備“過江招親”4.1動態博弈的描述戰略4.1動態博弈的描述戰略一種無條件的回應規則限制/規定自己的行動,達到博弈的目的(提前說明規則)
一種威脅或承諾
楚國孫叔敖令治水渠4.1動態博弈的描述戰略4.1動態博弈的描述4.2威脅與承諾的可信性4.2.1威脅與承諾4.2.2一個威脅可信性問題4.2.3一個承諾可信性問題4.2.4威脅與承諾的可行性4.2威脅與承諾的可信性4.2.1威脅與承諾可信性——動態博弈中,先行為的博弈方是否應該相信后行為博弈方會采取某種策略或行為。后行為博弈方的許諾是否可信呢?后行為博弈方的威脅是否可信呢?可信性4.2.1威脅與承諾威脅——對不肯與你合作的對手進行懲罰的一種回應規則。
強迫性威脅人質事件
阻嚇性威脅核武器4.2.1威脅與承諾威脅——對不肯與你合作的對手進行懲罰4.2.1威脅與承諾承諾——對愿意與你合作的人提供回報的一種回應規則。
強迫性許諾證人
阻嚇性許諾勸誘4.2.1威脅與承諾承諾——對愿意與你合作的人提供回報的威脅與承諾有時難以區分打卡扣錢制度威脅:遲到一次罰款10元(警告)承諾:不遲到就不扣錢(保證)4.2.1威脅與承諾威脅與承諾有時難以區分4.2.1威脅與承諾當實施威脅策略或承諾策略時,首先考慮的應該是可信度問題。進口食材的威脅曹操壽宴兄弟之間承諾與威脅的可信度有多大,策略成功的概率就有多大。4.2.1威脅與承諾當實施威脅策略或承諾策略時,首先考慮的應該是可信度問題。4.4.2.2一個威脅可信性問題“只要進入就阻撓”的威脅是否可信?●ⅠⅡ●●不進入進入容忍阻撓(0,10000)(1000,5000)(-1000,3000)4.2.2一個威脅可信性問題“只要進入就阻撓”的威脅是否4.2.2一個威脅可信性問題事實上,這個威脅是不可信的,因為理性的在位者知道(如同潛在進入者所知),一旦進入已經發生了,容忍并保持高價是符合自己利益的。容忍得5000萬元,阻撓得3000萬元。●ⅠⅡ●●不進入進入容忍阻撓(0,10000)(1000,5000)(-1000,3000)穩定的結果是(進入,容忍)4.2.2一個威脅可信性問題事實上,這個威脅是不可信的,因新的博弈格局:4.2.2一個威脅可信性問題Ⅱ不進入●(0,7000)進入Ⅰ容忍●●阻撓(1000,2000)(-1000,3000)設在位者現在(而不是后)投資于萬一進入發生時增加產量和進行價格戰所需要的額外的生產能力,成本是3000萬元。當然,如果今后在位者保持高價(不管是否有進入),這個額外成本將減少在位者的得益。新的博弈格局:4.2.2一個威脅可信性問題Ⅱ不進入●(0Ⅱ不進入●(0,7000)進入Ⅰ容忍●●阻撓(1000,2000)(-1000,3000)4.2.2一個威脅可信性問題阻撓的威脅是完全可信的,它是在位者投資額外生產能力的決策的結果。(3000萬元>2000萬元)潛在進入者現在知道進入的結果是商戰,所以不進入該行業是理智的。20世紀70年代,美國杜邦公司在二氧化鈦行業中阻止進入,投資近4億美元增加生產能力……Ⅱ不進入●(0,7000)進Ⅰ容忍●●阻撓(1000,2004.2.2一個威脅可信性問題
先來后到的啟示后進者信息多,但利潤不如先進入者。4.2.2一個威脅可信性問題4.2.3一個承諾可信性問題開金礦甲去開采一價值4萬元的金礦,缺1萬元,乙恰好有1萬元可以投資。甲向乙借1萬元開金礦,并“許諾”成功后與其對半分成。
乙是否該借錢給甲呢?如果乙借錢給甲,甲是否該分錢給乙呢?4.2.3一個承諾可信性問題開金礦甲的承諾是否可信?4.2.3一個承諾可信性問題(1,0)借不借分不分(2,2)(0,4)甲的承諾是否可信?4.2.3一個承諾可信性問題(1,0)借根據自身利益最大化原則,甲的選擇是不分,而乙清楚甲的行為準則,則選擇不借。對乙來講,本博弈中甲有一個不可信的承諾。怎樣使甲的承諾變為可信,既讓乙能保住本錢,又能有更多的收益呢?關鍵在于增加一些對甲行為的約束。4.2.3一個承諾可信性問題(1,0)借不借分不分(2,2)(0,4)根據自身利益最大化原則,4.2.3一個承諾可信性問題(1若乙采取法律手段,即打官司保護自己的利益,則產生了一個新的博弈過程如圖所示。
在新的博弈中,乙的唯一選擇是打官司,對甲來講,乙打官司的威脅是可信的,是肯定會信守的,他最理智的選擇就是分。4.2.3一個承諾可信性問題乙甲乙打(2,2)不分分不借借(0,4)(1,0)不打(1,0)法律保障的開金礦博弈——分錢打官司都可信若乙采取法律手段,即打官司保護自己的利益,則產生
乙的策略:第一階段借,如甲在第二階段選擇不分,則第三階段選擇打;甲的策略:若乙第一階段借,則他在第二階段就選擇分。在雙方這樣的策略組合下,本博弈的路徑是(借,分),雙方得益為(2,2),實現有效率的理想結果。4.2.3一個承諾可信性問題乙甲乙打(2,2)不分分不借借(0,4)(1,0)不打(1,0)乙的策略:第一階段借,如甲在第二階段選擇不分,則第
若乙采取法律手段,但結果是勞民傷財,使自己經濟上受損。
在新的博弈中,乙的唯一選擇是不打官司,對甲來講,乙打官司的威脅是不可信的,甲最理智的選擇就是不分。4.2.3一個承諾可信性問題法律保障不足的開金礦博弈——分錢打官司都不可信乙甲乙打(2,2)不分分不借借(0,4)(-1,0)不打(1,0)若乙采取法律手段,但結果是勞民傷財,使自己經濟
開金礦的啟示
讓別人有機會對你發出一個威脅永遠不是好事。你大可以選擇按照對方的希望行動,卻沒有必要等到聽見一個威脅。4.2.3一個承諾可信性問題4.2.3一個承諾可信性問題4.2.4威脅與承諾的可信性以色列的一貫原則:堅決不跟恐怖分子談判這是一個威脅,意在阻嚇恐怖分子,打消他們企圖劫持人質,以此索取贖金或者要求釋放犯人的念頭。假如這個決不談判的威脅是可信的,那么,恐怖分子就會意識到他們的行動注定徒勞無功。4.2.4威脅與承諾的可信性以色列的一貫原則:堅決不跟恐項羽破釜沉舟:巨鹿之戰項羽率領大軍渡河。然后“破釜沉舟”,命令士兵只攜帶三日糧,以此表示有進無退。于是歷史上聞名的巨鹿之戰上演了:當時,諸侯軍救巨鹿的十多支隊伍,卻沒有人敢向圍城的秦軍挑戰。而只有項羽的軍隊勇猛、視死如歸,以一當十。這一戰不但打垮了秦軍主力,也將秦軍不可戰勝的神話徹底擊破,更一舉奠定了“楚兵冠諸侯”的英明。在軍事上,孤注一擲有時并不是一個愚蠢的策略。軍隊通常借助斷絕自己后路的做法而達成遵守承諾的目標。4.2.4威脅與承諾的可信性項羽破釜沉舟:巨鹿之戰4.2.4威脅與承諾的可信性4.3
序貫理性4.3.1動態博弈中的理性要求4.3.2子博弈4.3.3子博弈完美納什均衡4.3序貫理性4.3.1動態博弈中的理性要求4.3.1動態博弈中的理性要求在動態博弈中,博弈方如果是理性的,他應該“向前看”——不管事前制訂的計劃如何,他在新的時點上做決策都應該根據當前的情況選擇最優的行動。運籌帷幄,決勝于千里之外將在外,軍令有所不受4.3.1動態博弈中的理性要求在動態博弈中,博弈方如果是理序貫理性要求博弈方在一個接一個的決策節點上都要選擇最優行動。進一步,如果某個博弈方是序貫理性的,那么他所使用的戰略將是由他在每個時點上的最優行動組成。該戰略不僅在事前最優,也是事后最優的,
將滿足動態一致性原則。4.3.1動態博弈中的理性要求序貫理性4.3.1動態博弈中的理性要求4.3.2
動態博弈中的子博弈動態博弈要求博弈方是序貫理性的,這意味著從任意一個決策點開始的決策情形就像是在原有博弈基礎上開始一個“新的博弈”。4.3.2動態博弈中的子博弈動態博弈要求博弈方是序貫理性的4.3.2
動態博弈中的子博弈
子博弈:能夠自成一個博弈,由一個動態博弈的某階段(第一階段除外)開始的后續博弈階段構成。具備進行博弈所需的各種信息。(1,0)乙借不借分不分(2,2)不打打(0,4)(1,0)開金礦(守信)--子博弈4.3.2動態博弈中的子博弈子博弈:能夠自成一個博弈4.3.2
動態博弈中的子博弈注意:原博弈的初始節點開始的博弈為原博弈本身,不稱它為原博弈的子博弈,即第一個節點不能作為子博弈的初始節點。4.3.2動態博弈中的子博弈注意:可以看出,每個子博弈都代表這博弈方所面臨的一個決策時機或情形,即每個子博弈都是一個獨立的博弈,那么也有它的納什均衡。一個博弈中有多個子博弈,那么博弈方在每一個子博弈上選擇的最優行為就構成相應子博弈的納什均衡。4.3.3
子博弈完美納什均衡可以看出,每個子博弈都代表這博弈方所面臨的一個決策時機或情形4.3.3
子博弈完美納什均衡在動態博弈中由于博弈過程是逐步深入的,這一過程由每個階段所采取的策略構成,由此引出“路徑”的概念。路徑:從第一階段開始通過每階段一個行為,最后達到博弈結束的一個終端各博弈方的行為組合。找到了路徑也就找到了一個分階段的策略組合,這一策略組合恰似一個完整的計劃,計劃的最終實現取決于過程中各階段的實現。4.3.3子博弈完美納什均衡在動態博弈中由于博弈過程是逐步4.3.3子博弈完美納什均衡
在開金礦案例中,策略組合(借,分)是一個穩定的策略組合,因為如果不分,則有乙打官司的威脅,這是雙方都不愿得到的結果。
“穩定”意味著博弈方都不會單獨改變策略,這恰似納什均衡的概念。(1,0)借不借分不分(2,2)(1,0)
開金礦(信守)乙打不打(1,0)(0,4)4.3.3子博弈完美納什均衡在開金礦案例中,(4.3.3子博弈完美納什均衡由于動態博弈與靜態博弈有較大的差異,那么如何才能使靜態博弈中的納什均衡在動態博弈中亦有相應的概念發展?以開金礦為例(注意此例與以前開金礦例子的差異)
4.3.3子博弈完美納什均衡由于動態博弈與靜態博弈有較大的開金礦博弈的變形
甲開金礦,向乙借錢,如果甲在獲利之后不分錢給乙,而乙打官司對自己并沒有好處,不能增加自己的利益時,博弈發生了變化。4.3.3子博弈完美納什均衡開金礦博弈的變形4.3.3子博弈完美納什均衡4.3.3子博弈完美納什均衡
逆推可得,乙不借,乙打官司的威脅不可信。甲在第二階段分的許諾也變為不可信。結局是,甲開不成金礦,乙保本,甲失去掙錢的機會。(2,2)(-1,0)(1,0)乙借不借分不分不打打(0,4)開金礦(2,2)(1,0)(1,0)乙借不借分不分不打打(0,4)開金礦變形4.3.3子博弈完美納什均衡逆推可得,按照靜態博弈的分析方法,(借,分,打)的策略組合為一個納什均衡,因為任何一方都不會單獨改變策略而降低自己的得益這與逆推法得到的結論相矛盾,原因在于路徑(借,分)的納什均衡策略組合包含了一個不可信的威脅,即乙在第三階段會選擇打官司的行為是不可信的.4.3.3
子博弈完美納什均衡按照靜態博弈的分析方法,(借,分,打)的策略組合為一個納什均4.3.3子博弈完美納什均衡
由此需要對靜態博弈中的納什均衡的概念有所調整,即應滿足:是納什均衡,從而具有策略穩定性不能包含任何不可信的許諾或威脅
這樣的動態博弈組合策略稱為子博弈完美納什均衡。4.3.3子博弈完美納什均衡由此需要對靜態博弈中4.3.3子博弈完美納什均衡定義(Selten澤爾滕,1965):如果動態博弈中各博弈方的策略在動態博弈本身和所有子博弈中都構成一個納什均衡,則稱該策略組合為一個“子博弈完美納什均衡”。
Subgame-PerfectNashEquilibrium
。
直觀上看到的是:各參與人穩定的行動選擇,它們構成一條走得通的路——均衡路徑(equilibriumpath)。
4.3.3子博弈完美納什均衡定義(Selten澤爾滕,19動態博弈所應注意的兩點要求各博弈方的策略對每階段每種可能情況都設定一個行為方案假定所有博弈方都是理性的且不會犯錯誤4.3.3子博弈完美納什均衡動態博弈所應注意的兩點4.3.3子博弈完美納什均衡4.4逆推歸納法4.4.1逆推歸納法——海盜分金4.4.2逆推歸納法應用4.4.3理性與非理性4.4逆推歸納法4.4.1逆推歸納法——海盜分金4.4.1逆推歸納法在動態博弈中如何求解?動態博弈的特點是:在采取某一種決策時必須對其后可能進行的子博弈有充分的了解,這樣才能很好的進行博弈并得到合理的結果(基于理性和可信性,相當于對后博弈行為方的合理假設)。由此,對于完全且完美信息的動態博弈其基本求解方法,可由最后階段的子博弈逆推來決定采取合適的策略----逆推歸納法。4.4.1逆推歸納法在動態博弈中如何求解?4.4.1逆推歸納法逆推歸納法:從動態博弈的最后一個階段或最后一個子博弈開始,逐步向前倒推以求解動態博弈的方法。4.4.1逆推歸納法用逆推歸納法求解開金礦乙借不借(2,2)(1,0)逆推第二步(1,0)借不借分不分(2,2)(1,0)
逆推第一步4.4.1逆推歸納法用逆推歸納法求解開金礦乙借不借(2,2)(1,0)逆推第二步5個海盜搶了100顆寶石,每顆大小一樣價值連城。1.抽簽決定自己的號碼(1,2,3,4,5),2.首先,由1號提出分配方案,然后大家
5人進行表決,當且僅當超過半數的人同意時,按照他的提案進行分配,否則將被扔進大海喂鯊魚3.如果1號死了,再由2號提出分配方案,然后大家4人進行表決,當且僅當超過半數人同意時,按照他的提案進行分配,否則將被扔入大海喂鯊魚4.以次類推,直到找到一個每個人都接受的方案4.4.1逆推歸納法5個海盜搶了100顆寶石,每顆大小一樣價值連城。假設每個海盜都是很聰明的人,都能很理智的判斷得失第一個海盜提出怎樣的分配方案才能使自己得到最多的寶石呢?4.4.1逆推歸納法假設每個海盜都是很聰明的人,都能很理智的判斷得失4.4.1逆推過程
123450100991097021970102結果:
(97,0,1,0,2)4.4.1逆推歸納法逆推過程4.4.1逆推歸納法
強盜分金的啟示在該模型中,任何“分配者”想讓自己的方案獲得通過的關鍵是事先考慮清楚“挑戰者”的分配方案是什么,并用最小的代價獲取最大收益,拉攏“挑戰者”分配方案中最不得意的人們。“不謀萬事者,不足謀一時;不謀全局者,不足謀一域。”
4.4.1逆推歸納法強盜分金的啟示4.4.1逆推歸納法先發優勢和后發劣勢1號看起來最有可能被喂鯊魚,但他牢牢地把握住先發優勢,結果不但消除了死亡威脅,還收益最大。這不正是全球化過程中先進國家的先發優勢嗎?而5號看起來最安全,甚至還能坐收漁人之利,卻因不得不看別人臉色行事而只能分得一小杯羹。這難道不是后發劣勢的寫照?4.4.1逆推歸納法先發優勢和后發劣勢4.4.1逆推歸納法4.4.1逆推歸納法-動態規劃動態規劃的理論基礎是最優性原理。它是一種解決多階段決策(序貫決策)過程最優化的一種數學方法。應用:最優路徑問題、資源分配問題、生產調度、庫存、裝載、排序、設備更新、最優工藝等
4.4.1逆推歸納法-動態規劃動態規劃的理論基礎是最優性原4.4.2逆推歸納法應用A、游戲中的逆推歸納全班同學分為a、b兩組,相對而立,中間地面豎立21支小旗。a、b兩組一次輪流拿走這些小旗;每組可選擇取走1支、2支、3支旗,不能一直都不取,也不能取走4支或4支以上。哪個小組取走最后一只旗,就算獲勝。不管這支旗是最后1支、2支還是3支中的1支。4.4.2逆推歸納法應用A、游戲中的逆推歸納A、游戲中的逆推歸納獲勝的秘訣是:
不管如何選擇,最后一輪留給對方4支旗
上一輪留給對方8支旗再上一輪留給對方12支旗
前一輪留給對方16支旗
前一輪留給對方20支旗4.4.2逆推歸納法應用A、游戲中的逆推歸納4.4.2逆推歸納法應用B、商業中的逆推歸納法——“編輯部的啟事”:
親愛的讀者朋友,從1月1日起,征訂本報的金額將增加,全年費用為460元。這很遺憾,但我們不得不這樣做,現在紙張漲價,銷售勞務費也太提高了,報社要生存。在這種新形勢下,我們增加了訂費。對于你們來說,完全有權拒絕訂閱本報,因為它漲價了。您可以把這460元用在比訂費更急需的地方:比如460元就是一張短途機票的價格,可以去朋友一起去酒吧喝一次,或者是購買一條香煙……但是,這些消費都是一次性的,而如果您訂閱本報,將全年持有天天都有一份。親愛的讀者,不管您明年是否繼續訂閱本報,最后我們仍要感謝您多年來的支持。4.4.2逆推歸納法應用B、商業中的逆推歸納法——“編輯部的啟事”:4.4.2逆“逆推法”處理問題是報社成功的關鍵。先退出讀者的想法,再為讀者分析,這樣想并不是最好的選擇。“逆推歸納法”教給我們善于打動人心的經銷策略和手段。“超市洗衣粉售賣案例”4.4.2逆推歸納法應用“逆推法”處理問題是報社成功的關鍵。先退出讀者的想法,再為讀C、生活中的逆推歸納法李恕權臺灣歌手,唯一獲得格萊美音樂
大獎提名的華裔歌手。
《挑戰你的信仰》4.4.2逆推歸納法應用C、生活中的逆推歸納法4.4.2逆推歸納法應用你今天的生活,是由幾年前所做的選擇決定的;而你今天的選擇,會影響你今后幾年的生活。人生博弈的法則——什么樣的選擇決定什么樣的人生。4.4.2逆推歸納法應用你的時間去哪兒了?你今天的生活,是由幾年前所做的選擇決定的;而你今天的選擇,會4.4.3理性與非理性如:海盜分金博弈中
123450100991097021970102若其他海盜聯合起來選擇“非理性”,建議重新分配,這種非理性行為恰恰是理性的。4.4.3理性與非理性如:海盜分金博弈中又如:后續可能性太多而無法分析,于是考慮僅知道有限后續階段的情況?許諾有限非理性,如何考慮?比如假設非理性的次數小于等于k?下棋…K叉樹算法博弈構成的“長短”與穩定性,不可預測性等4.4.3理性與非理性又如:4.4.3理性與非理性旅行者困境兩個旅行者從一個以出產細瓷花瓶著名的地方旅行回來,他們都買了花瓶。提取行李的時候,發現花瓶被摔壞了。他們向航空公司索賠。航空公司知道花瓶的價格總在八九十元的價位浮動,但是不知道兩位旅客買的時候的確切價格。4.4.3理性與非理性旅行者困境4.4.3理性與非理性航空公司請兩位旅客在100元以內自己寫下花瓶的價格。如果兩人寫的價格一樣(合作),航空公司將認為他們講真話,于是按照他們寫的數額賠償如果兩人寫的不一樣(背叛),航空公司就認定寫得低的旅客講的是真話,并且原則上照這個低的價格賠償,而且對講真話的旅客獎勵2元錢,對講假話的旅客罰款2元。就為了獲取最大賠償而言,本來甲乙雙方最好的策略就是都寫100元,這樣兩人都能獲賠100元。該博弈為一個蜈蚣博弈。4.4.3理性與非理性航空公司請兩位旅客在100元以內自己寫下花瓶的價格。4.4.該博弈是說明逆推歸納法和博弈分析困難的經典博弈,1和2兩個博弈方輪流選擇的多階段博弈,共198個階段。如下圖根據逆推歸納法分析可得,博弈方會在第一階段選擇D結束博弈,雙方得益都是1。蜈蚣博弈問題該博弈是說明逆推歸納法和博弈分析困難的經典博弈,1和2蜈蚣博弈可看出,完全理性下的逆推歸納法存在缺陷:從邏輯上推理,一開始應開始選擇不合作;但事實是,一開始就合作的收益為100,不合作的收益僅為1,合作才是最優的。4.4.3理性與非理性蜈蚣博弈可看出,完全理性下的逆推歸納法存在缺陷:4.4.3另一個事實是:即使雙方一開始都采取合作策略,一直往前走,這種合作也堅持不到最后一步——只要是理性的人,處于自己利益的考慮,在某一個時刻,肯定會采取不合作策略。逆推歸納法試分析動態博弈的有效方法,不能因為其預測和實際不符就完全否定其在分析和預測中的可行性。4.4.3理性與非理性另一個事實是:即使雙方一開始都采取合作策略,一直往前走,這種Endofchapter4ThanksEndofchapter4博弈論威脅和承諾博弈論威脅和承諾game猜數字游戲任選一名學生與老師共同完成老師在0-100之中任選一個數字寫好;學生在0-100之間猜數字,有5次機會,每次猜完后老師告知大于或小于目標數字。game猜數字游戲目錄4.1動態博弈的描述4.2威脅與承諾的可信性4.3序貫理性4.4逆推歸納法目錄4.1動態博弈的描述嘗試考慮以下問題1、是不是信息越多越有利?2、過程是否重要?3、動態博弈與靜態博弈有哪些異同之處?4、人們對已經過去的博弈是更注重結果還是更注重過程?其意義何在?4.1動態博弈的描述嘗試考慮以下問題4.1動態博弈的描述4.1動態博弈的描述動態博弈:博弈方先后、依次進行選擇、行動,且后行動方知道先行動方的選擇。靜態博弈:同時或可看做同時動態博弈——序貫博弈一方在行動時不知道對方策略4.1動態博弈的描述動態博弈:博弈方先后、依次進行選擇、行行動有先后順序,不同的參與人在不同時點行動,先行動者的選擇影響后行動者的選擇空間,后行動者可以觀察到先行動者做了什么選擇。為了做出最優的行動選擇,每個參與人都必須這樣思考問題:如果我如此選擇,對方將如何應對?如果我是他,我將會如何行動?給定他的應對,什么是我的最優選擇?下棋、買東西、談婚論嫁4.1動態博弈的描述行動有先后順序,不同的參與人在不同時點行動,先行動者的選擇影為進入一行業,進入者必須付出4000萬元的(沉沒)成本建工廠。
進入者不進入,在位者能繼續定高價,享受壟斷利潤10000萬元。進入者進入:在位者可以“容忍”,維持高價,此時在位者只能賺到5000萬元,進入者將賺到1000萬元的凈利潤;在位者可以“阻撓”,把價格壓低,這種商戰導致雙方的低利潤:在位者的利潤下降到3000萬元,進入者將有1000萬元的凈損失。
進入不進入,阻撓不阻撓?4.1動態博弈的描述為進入一行業,進入者必須付出4000萬元的(沉沒)成本建工廠每一種可能行動組合下的收益是共同知識如果企圖進入者不進入,則在位者獨享10000萬元利潤;如果進入而在位者容忍,則在位者得5000萬元,進入者利潤1000萬元;如果進入并且在位者阻撓,則在位者利潤3000萬元而進入者-1000萬元。4.1動態博弈的描述信息完全且完美每一種可能行動組合下的收益是共同知識4.1動態博弈的描述信4.1動態博弈的描述●ⅠⅡ●●不進入進入容忍阻撓(0,10000)(1000,5000)(-1000,3000)擴展形表示法(博弈樹)4.1動態博弈的描述●ⅠⅡ●●不進入進容忍阻撓(0,100擴展形表示法(博弈樹)的構成:節點(nodes)決策節點(decisionnodes)終點節(terminalnodes)樹枝(branches):每一條樹枝代表一個行動信息集(informationsets):參與人在決策節點選擇行動時,需要有關信息;對此前博弈過程的一個全部而明確的認識就構成一個信息集。4.1動態博弈的描述擴展形表示法(博弈樹)的構成:節點(nodes)決策節點(d戰略在動態博弈中,博弈方的戰略是在不同時點做出的,因此戰略不再是單一的行動。是一個完備的行動計劃,為博弈方在每個時點上規定一個動作。“華容道”、劉備“過江招親”4.1動態博弈的描述戰略4.1動態博弈的描述戰略一種無條件的回應規則限制/規定自己的行動,達到博弈的目的(提前說明規則)
一種威脅或承諾
楚國孫叔敖令治水渠4.1動態博弈的描述戰略4.1動態博弈的描述4.2威脅與承諾的可信性4.2.1威脅與承諾4.2.2一個威脅可信性問題4.2.3一個承諾可信性問題4.2.4威脅與承諾的可行性4.2威脅與承諾的可信性4.2.1威脅與承諾可信性——動態博弈中,先行為的博弈方是否應該相信后行為博弈方會采取某種策略或行為。后行為博弈方的許諾是否可信呢?后行為博弈方的威脅是否可信呢?可信性4.2.1威脅與承諾威脅——對不肯與你合作的對手進行懲罰的一種回應規則。
強迫性威脅人質事件
阻嚇性威脅核武器4.2.1威脅與承諾威脅——對不肯與你合作的對手進行懲罰4.2.1威脅與承諾承諾——對愿意與你合作的人提供回報的一種回應規則。
強迫性許諾證人
阻嚇性許諾勸誘4.2.1威脅與承諾承諾——對愿意與你合作的人提供回報的威脅與承諾有時難以區分打卡扣錢制度威脅:遲到一次罰款10元(警告)承諾:不遲到就不扣錢(保證)4.2.1威脅與承諾威脅與承諾有時難以區分4.2.1威脅與承諾當實施威脅策略或承諾策略時,首先考慮的應該是可信度問題。進口食材的威脅曹操壽宴兄弟之間承諾與威脅的可信度有多大,策略成功的概率就有多大。4.2.1威脅與承諾當實施威脅策略或承諾策略時,首先考慮的應該是可信度問題。4.4.2.2一個威脅可信性問題“只要進入就阻撓”的威脅是否可信?●ⅠⅡ●●不進入進入容忍阻撓(0,10000)(1000,5000)(-1000,3000)4.2.2一個威脅可信性問題“只要進入就阻撓”的威脅是否4.2.2一個威脅可信性問題事實上,這個威脅是不可信的,因為理性的在位者知道(如同潛在進入者所知),一旦進入已經發生了,容忍并保持高價是符合自己利益的。容忍得5000萬元,阻撓得3000萬元。●ⅠⅡ●●不進入進入容忍阻撓(0,10000)(1000,5000)(-1000,3000)穩定的結果是(進入,容忍)4.2.2一個威脅可信性問題事實上,這個威脅是不可信的,因新的博弈格局:4.2.2一個威脅可信性問題Ⅱ不進入●(0,7000)進入Ⅰ容忍●●阻撓(1000,2000)(-1000,3000)設在位者現在(而不是后)投資于萬一進入發生時增加產量和進行價格戰所需要的額外的生產能力,成本是3000萬元。當然,如果今后在位者保持高價(不管是否有進入),這個額外成本將減少在位者的得益。新的博弈格局:4.2.2一個威脅可信性問題Ⅱ不進入●(0Ⅱ不進入●(0,7000)進入Ⅰ容忍●●阻撓(1000,2000)(-1000,3000)4.2.2一個威脅可信性問題阻撓的威脅是完全可信的,它是在位者投資額外生產能力的決策的結果。(3000萬元>2000萬元)潛在進入者現在知道進入的結果是商戰,所以不進入該行業是理智的。20世紀70年代,美國杜邦公司在二氧化鈦行業中阻止進入,投資近4億美元增加生產能力……Ⅱ不進入●(0,7000)進Ⅰ容忍●●阻撓(1000,2004.2.2一個威脅可信性問題
先來后到的啟示后進者信息多,但利潤不如先進入者。4.2.2一個威脅可信性問題4.2.3一個承諾可信性問題開金礦甲去開采一價值4萬元的金礦,缺1萬元,乙恰好有1萬元可以投資。甲向乙借1萬元開金礦,并“許諾”成功后與其對半分成。
乙是否該借錢給甲呢?如果乙借錢給甲,甲是否該分錢給乙呢?4.2.3一個承諾可信性問題開金礦甲的承諾是否可信?4.2.3一個承諾可信性問題(1,0)借不借分不分(2,2)(0,4)甲的承諾是否可信?4.2.3一個承諾可信性問題(1,0)借根據自身利益最大化原則,甲的選擇是不分,而乙清楚甲的行為準則,則選擇不借。對乙來講,本博弈中甲有一個不可信的承諾。怎樣使甲的承諾變為可信,既讓乙能保住本錢,又能有更多的收益呢?關鍵在于增加一些對甲行為的約束。4.2.3一個承諾可信性問題(1,0)借不借分不分(2,2)(0,4)根據自身利益最大化原則,4.2.3一個承諾可信性問題(1若乙采取法律手段,即打官司保護自己的利益,則產生了一個新的博弈過程如圖所示。
在新的博弈中,乙的唯一選擇是打官司,對甲來講,乙打官司的威脅是可信的,是肯定會信守的,他最理智的選擇就是分。4.2.3一個承諾可信性問題乙甲乙打(2,2)不分分不借借(0,4)(1,0)不打(1,0)法律保障的開金礦博弈——分錢打官司都可信若乙采取法律手段,即打官司保護自己的利益,則產生
乙的策略:第一階段借,如甲在第二階段選擇不分,則第三階段選擇打;甲的策略:若乙第一階段借,則他在第二階段就選擇分。在雙方這樣的策略組合下,本博弈的路徑是(借,分),雙方得益為(2,2),實現有效率的理想結果。4.2.3一個承諾可信性問題乙甲乙打(2,2)不分分不借借(0,4)(1,0)不打(1,0)乙的策略:第一階段借,如甲在第二階段選擇不分,則第
若乙采取法律手段,但結果是勞民傷財,使自己經濟上受損。
在新的博弈中,乙的唯一選擇是不打官司,對甲來講,乙打官司的威脅是不可信的,甲最理智的選擇就是不分。4.2.3一個承諾可信性問題法律保障不足的開金礦博弈——分錢打官司都不可信乙甲乙打(2,2)不分分不借借(0,4)(-1,0)不打(1,0)若乙采取法律手段,但結果是勞民傷財,使自己經濟
開金礦的啟示
讓別人有機會對你發出一個威脅永遠不是好事。你大可以選擇按照對方的希望行動,卻沒有必要等到聽見一個威脅。4.2.3一個承諾可信性問題4.2.3一個承諾可信性問題4.2.4威脅與承諾的可信性以色列的一貫原則:堅決不跟恐怖分子談判這是一個威脅,意在阻嚇恐怖分子,打消他們企圖劫持人質,以此索取贖金或者要求釋放犯人的念頭。假如這個決不談判的威脅是可信的,那么,恐怖分子就會意識到他們的行動注定徒勞無功。4.2.4威脅與承諾的可信性以色列的一貫原則:堅決不跟恐項羽破釜沉舟:巨鹿之戰項羽率領大軍渡河。然后“破釜沉舟”,命令士兵只攜帶三日糧,以此表示有進無退。于是歷史上聞名的巨鹿之戰上演了:當時,諸侯軍救巨鹿的十多支隊伍,卻沒有人敢向圍城的秦軍挑戰。而只有項羽的軍隊勇猛、視死如歸,以一當十。這一戰不但打垮了秦軍主力,也將秦軍不可戰勝的神話徹底擊破,更一舉奠定了“楚兵冠諸侯”的英明。在軍事上,孤注一擲有時并不是一個愚蠢的策略。軍隊通常借助斷絕自己后路的做法而達成遵守承諾的目標。4.2.4威脅與承諾的可信性項羽破釜沉舟:巨鹿之戰4.2.4威脅與承諾的可信性4.3
序貫理性4.3.1動態博弈中的理性要求4.3.2子博弈4.3.3子博弈完美納什均衡4.3序貫理性4.3.1動態博弈中的理性要求4.3.1動態博弈中的理性要求在動態博弈中,博弈方如果是理性的,他應該“向前看”——不管事前制訂的計劃如何,他在新的時點上做決策都應該根據當前的情況選擇最優的行動。運籌帷幄,決勝于千里之外將在外,軍令有所不受4.3.1動態博弈中的理性要求在動態博弈中,博弈方如果是理序貫理性要求博弈方在一個接一個的決策節點上都要選擇最優行動。進一步,如果某個博弈方是序貫理性的,那么他所使用的戰略將是由他在每個時點上的最優行動組成。該戰略不僅在事前最優,也是事后最優的,
將滿足動態一致性原則。4.3.1動態博弈中的理性要求序貫理性4.3.1動態博弈中的理性要求4.3.2
動態博弈中的子博弈動態博弈要求博弈方是序貫理性的,這意味著從任意一個決策點開始的決策情形就像是在原有博弈基礎上開始一個“新的博弈”。4.3.2動態博弈中的子博弈動態博弈要求博弈方是序貫理性的4.3.2
動態博弈中的子博弈
子博弈:能夠自成一個博弈,由一個動態博弈的某階段(第一階段除外)開始的后續博弈階段構成。具備進行博弈所需的各種信息。(1,0)乙借不借分不分(2,2)不打打(0,4)(1,0)開金礦(守信)--子博弈4.3.2動態博弈中的子博弈子博弈:能夠自成一個博弈4.3.2
動態博弈中的子博弈注意:原博弈的初始節點開始的博弈為原博弈本身,不稱它為原博弈的子博弈,即第一個節點不能作為子博弈的初始節點。4.3.2動態博弈中的子博弈注意:可以看出,每個子博弈都代表這博弈方所面臨的一個決策時機或情形,即每個子博弈都是一個獨立的博弈,那么也有它的納什均衡。一個博弈中有多個子博弈,那么博弈方在每一個子博弈上選擇的最優行為就構成相應子博弈的納什均衡。4.3.3
子博弈完美納什均衡可以看出,每個子博弈都代表這博弈方所面臨的一個決策時機或情形4.3.3
子博弈完美納什均衡在動態博弈中由于博弈過程是逐步深入的,這一過程由每個階段所采取的策略構成,由此引出“路徑”的概念。路徑:從第一階段開始通過每階段一個行為,最后達到博弈結束的一個終端各博弈方的行為組合。找到了路徑也就找到了一個分階段的策略組合,這一策略組合恰似一個完整的計劃,計劃的最終實現取決于過程中各階段的實現。4.3.3子博弈完美納什均衡在動態博弈中由于博弈過程是逐步4.3.3子博弈完美納什均衡
在開金礦案例中,策略組合(借,分)是一個穩定的策略組合,因為如果不分,則有乙打官司的威脅,這是雙方都不愿得到的結果。
“穩定”意味著博弈方都不會單獨改變策略,這恰似納什均衡的概念。(1,0)借不借分不分(2,2)(1,0)
開金礦(信守)乙打不打(1,0)(0,4)4.3.3子博弈完美納什均衡在開金礦案例中,(4.3.3子博弈完美納什均衡由于動態博弈與靜態博弈有較大的差異,那么如何才能使靜態博弈中的納什均衡在動態博弈中亦有相應的概念發展?以開金礦為例(注意此例與以前開金礦例子的差異)
4.3.3子博弈完美納什均衡由于動態博弈與靜態博弈有較大的開金礦博弈的變形
甲開金礦,向乙借錢,如果甲在獲利之后不分錢給乙,而乙打官司對自己并沒有好處,不能增加自己的利益時,博弈發生了變化。4.3.3子博弈完美納什均衡開金礦博弈的變形4.3.3子博弈完美納什均衡4.3.3子博弈完美納什均衡
逆推可得,乙不借,乙打官司的威脅不可信。甲在第二階段分的許諾也變為不可信。結局是,甲開不成金礦,乙保本,甲失去掙錢的機會。(2,2)(-1,0)(1,0)乙借不借分不分不打打(0,4)開金礦(2,2)(1,0)(1,0)乙借不借分不分不打打(0,4)開金礦變形4.3.3子博弈完美納什均衡逆推可得,按照靜態博弈的分析方法,(借,分,打)的策略組合為一個納什均衡,因為任何一方都不會單獨改變策略而降低自己的得益這與逆推法得到的結論相矛盾,原因在于路徑(借,分)的納什均衡策略組合包含了一個不可信的威脅,即乙在第三階段會選擇打官司的行為是不可信的.4.3.3
子博弈完美納什均衡按照靜態博弈的分析方法,(借,分,打)的策略組合為一個納什均4.3.3子博弈完美納什均衡
由此需要對靜態博弈中的納什均衡的概念有所調整,即應滿足:是納什均衡,從而具有策略穩定性不能包含任何不可信的許諾或威脅
這樣的動態博弈組合策略稱為子博弈完美納什均衡。4.3.3子博弈完美納什均衡由此需要對靜態博弈中4.3.3子博弈完美納什均衡定義(Selten澤爾滕,1965):如果動態博弈中各博弈方的策略在動態博弈本身和所有子博弈中都構成一個納什均衡,則稱該策略組合為一個“子博弈完美納什均衡”。
Subgame-PerfectNashEquilibrium
。
直觀上看到的是:各參與人穩定的行動選擇,它們構成一條走得通的路——均衡路徑(equilibriumpath)。
4.3.3子博弈完美納什均衡定義(Selten澤爾滕,19動態博弈所應注意的兩點要求各博弈方的策略對每階段每種可能情況都設定一個行為方案假定所有博弈方都是理性的且不會犯錯誤4.3.3子博弈完美納什均衡動態博弈所應注意的兩點4.3.3子博弈完美納什均衡4.4逆推歸納法4.4.1逆推歸納法——海盜分金4.4.2逆推歸納法應用4.4.3理性與非理性4.4逆推歸納法4.4.1逆推歸納法——海盜分金4.4.1逆推歸納法在動態博弈中如何求解?動態博弈的特點是:在采取某一種決策時必須對其后可能進行的子博弈有充分的了解,這樣才能很好的進行博弈并得到合理的結果(基于理性和可信性,相當于對后博弈行為方的合理假設)。由此,對于完全且完美信息的動態博弈其基本求解方法,可由最后階段的子博弈逆推來決定采取合適的策略----逆推歸納法。4.4.1逆推歸納法在動態博弈中如何求解?4.4.1逆推歸納法逆推歸納法:從動態博弈的最后一個階段或最后一個子博弈開始,逐步向前倒推以求解動態博弈的方法。4.4.1逆推歸納法用逆推歸納法求解開金礦乙借不借(2,2)(1,0)逆推第二步(1,0)借不借分不分(2,2)(1,0)
逆推第一步4.4.1逆推歸納法用逆推歸納法求解開金礦乙借不借(2,2)(1,0)逆推第二步5個海盜搶了100顆寶石,每顆大小一樣價值連城。1.抽簽決定自己的號碼(1,2,3,4,5),2.首先,由1號提出分配方案,然后大家
5人進行表決,當且僅當超過半數的人同意時,按照他的提案進行分配,否則將被扔進大海喂鯊魚3.如果1號死了,再由2號提出分配方案,然后大家4人進行表決,當且僅當超過半數人同意時,按照他的提案進行分配,否則將被扔入大海喂鯊魚4.以次類推,直到找到一個每個人都接受的方案4.4.1逆推歸納法5個海盜搶了100顆寶石,每顆大小一樣價值連城。假設每個海盜都是很聰明的人,都能很理智的判斷得失第一個海盜提出怎樣的分配方案才能使自己得到最多的寶石呢?4.4.1逆推歸納法假設每個海盜都是很聰明的人,都能很理智的判斷得失4.4.1逆推過程
123450100991097021970102結果:
(97,0,1,0,2)4.4.1逆推歸納法逆推過程4.4.1逆推歸納法
強盜分金的啟示在該模型中,任何“分配者”想讓自己的方案獲得通過的關鍵是事先考慮清楚“挑戰者”的分配方案是什么,并用最小的代價獲取最大收益,拉攏“挑戰者”分配方案中最不得意的人們。“不謀萬事者,不足謀一時;不謀全局者,不足謀一域。”
4.4.1逆推歸納法強盜分金的啟示4.4.1逆推歸納法先發優勢和后發劣勢1號看起來最有可能被喂鯊魚,但他牢牢地把握住先發優勢,結果不但消除了死亡威脅,還收益最大。這不正是全球化過程中先進國家的先發優勢嗎?而5號看起來最安全,甚至還能坐收漁人之利,卻因不得不看別人臉色行事而只能分得一小杯羹。這難道不是后發劣勢的寫照?4.4.1逆推歸納法先發優勢和后發劣勢4.4.1逆推歸納法4.4.1逆推歸納法-動態規劃動態規劃的理論基礎是最優性原理。它是一種解決多階段決策(序貫決策)過程最優化的一種數學方法。應用:最優路徑問題、資源分配問題、生產調度、庫存、裝載、排序、設備更新、最優工藝等
4.4.1逆推歸納法-動態規劃動態規劃的理論基礎是最優性原4.4.2逆推歸納法應用A、游戲中的逆推歸納全班同學分為a、b兩組,相對而立,中間地面豎立21支小旗。a、b兩組一次輪流拿走這些小旗;每組可選擇取走1支、2支、3支旗,不能一直都不取,也不能取走4支或4支以上。哪個小組取走最后一只旗,就算獲勝。不管這支旗是最后1支、2支還是3支中的1支。4.4.2逆推歸納法應用A、游戲中的逆推歸納A、游戲中
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 一年級體育下冊教學計劃與賽事組織
- 歷史文化遺產保護教育計劃
- 幼兒園小班下學期游戲活動計劃
- 健康管理課程計劃:第四單元營養知識
- 生物課程改革實施計劃
- 攝影攝像中介合同
- 運動用品合同履約金條款
- 職業學校勞動教育課程設計計劃
- 幼兒園家長參與教育評估計劃
- 九年級下冊歷史情境模擬教學計劃
- 急診臨床思維-課件
- 立德修身誠信為本
- 小石獅【經典繪本】
- 艾里遜8000系列變速箱培訓:《動力傳遞分析》
- 商務英語寫作實踐智慧樹知到答案章節測試2023年中北大學
- 社會治安動態視頻監控系統工程建設方案
- 脫硫塔玻璃鱗片膠泥襯里施工組織設計
- XB/T 505-2011汽油車排氣凈化催化劑載體
- GB/T 3672.2-2002橡膠制品的公差第2部分:幾何公差
- GB 8076-2008混凝土外加劑
- 寶盾轉門故障代碼
評論
0/150
提交評論