博弈论笔记
文章目錄
- 前言
- 一、博弈模型
- 囚徒問題
- 二,基于囚徒問題的博弈策略1
- 三, 基于囚徒問題的博弈策略2
- 四,混合策略的納什平衡
- 五,Stackelberg平衡
- 六,協同問題
- 七,特殊博弈
- 八,馬爾科夫博弈
- 九,強化學習
- 總結
前言
博弈模型,占優策略,純納什平衡,混合策略的納什平衡,斯塔克伯格平衡,協同問題,特殊博弈,馬爾科夫博弈,強化學習
一、博弈模型
一個博弈模型包括:
玩家集合
策略收益
效用函數
效用函數的目的是用來更準確的描述模型,將玩家的偏好關系(大于小于等于)用具體是實數體現,方便之后的運算。(感興趣的同學了解一下圣彼得堡悖論)效用函數如何更準確的描述模型呢?例如,同樣是100萬,在窮人眼里很重要,即期望效用很高;但是在億萬富翁眼中,可能就沒那么重要。這時候,就需要用一個凹函數來描述效用函數。
下圖是效用函數與偏好關系的聯系:
囚徒問題
玩家集合{P1,P2}
策略集合{C(合作:cooperation),B(背叛:btray)}
收益函數:{0y,1y,2y,3y}(被判處0年,1年,3年,6年)
基于囚徒問題的基本假設:
1.囚徒們同時決策
2.囚徒們已知策略集合和收益函數
3.囚徒們都是,理性的
注意:這里對理性的解釋:理性是指玩家要符合完備性和傳遞性
completeness:任何兩個選擇擺在玩家面前,玩家總能作出一個選擇。
transitivety:如果玩家喜歡a比喜歡b多,喜歡b比喜歡c多;那么玩家一點喜歡a比喜歡c多。
二,基于囚徒問題的博弈策略1
占優策略(Dominate Strategy)
(分為強占優策略和弱占優策略)
解釋:不管對方的決策是什么,我的決策都是最好的。
例如囚徒們的效用矩陣如下:
不管P1選擇C還是B,P2選B都是占優策略。因為當P1=C,對于P2的效用10>8;當P1=B,對于P2的效用5>0。
同理,P1選B也是占優策略。
所以,如果雙方都是理性的,那么最后結果會收斂到(5,5)
而且!對于P1,因為效用10>8,5>0。所以稱B是強占優策略。
同理,對于P2的效用:10>8,5>0。所以B也是P2的強占優策略。
其他情況則為弱占優策略
對于嚴格劣策略(強不占優策略):代表其他所有策略總是比這個策略更優秀,它永遠不會成為最優回應best reply
在任何情況下總有別的策略更好,因此,我們把嚴格劣策略從博弈中剔除
重復迭代的意思是:我們剔除它們,得到了一個更簡單的博弈,然后再做同樣的事情。現在可能又有了一些策略是嚴格劣勢的,在這個簡化的博弈中博弈者永遠不會采取它們,因此我們再把它們剔除,循環反復,最后給我們了一些預測。當博弈者理性 他們也認識到其他博弈者理性時是合乎邏輯的結果 ,這些策略就會在這個子博弈中。
進行這個過程的術語稱作嚴格劣策略重復剔除(Iterated elimination)
三, 基于囚徒問題的博弈策略2
納什均衡(Nash Equibrium)
解釋:雙方都處于最佳應對策略。
如圖,(5,5)是一個納什平衡
注意:不是所以的博弈都存在納什平衡;有的博弈存在多個納什平衡。
而如下圖所示,在這個效用矩陣中,沒有納什平衡
而在,如下圖所示的效用矩陣中,則有多個納什平衡
另外,用Iterated elimination反復消除強占優策略時,不會消除納什平衡;但反復消除弱占優策略時,有可能刪除納什平衡。
四,混合策略的納什平衡
混合策略可以看成一種隨機選擇,例如,如果你重復囚徒問題,并且每次都用相同的方法去玩,那么結果就會變得可預測。
混合策略的每一個小單位就是一個符合彩票。而二,三節中的策略單位成為簡單彩票。
對于符合彩票的期望效用來說,它有三個公理:單調性,連續性,獨立性。
對于任意一個博弈,必定存在一個混合策略的納什平衡
案例和解法詳見博客鏈接
要看,是重點!
(以下為拓展內容)
五,Stackelberg平衡
如果改變囚徒問題的假設1:囚徒們同時做出決定。
變成囚徒們作出決定時存在先后順序。
在這種情況下的納什平衡稱為Stackelberg平衡
六,協同問題
存在多個納什平衡的情況下,如何選擇的問題稱為協同問題。
協同問題的解決方法一般是人為的制定規則:比如制定通訊機制或者社會規則等等
七,特殊博弈
特殊博弈分為合作博弈和競爭博弈
合作博弈(cooperation Game)追求所以玩家收益均等
競爭博弈(competitive Game)要求玩家收益之和固定,例如經典的零和博弈
八,馬爾科夫博弈
增加了狀態集合和轉移函數,即相對于之前的博弈,增加了環境因素,玩家的決策要考慮實時的環境因素,而且對于對手和自己的效用函數可能也是未知的。在這種情況下,優化博弈的算法稱為強化學習
九,強化學習
解釋:在一定環境下,做收益最大化的學習。
學習目標一般有以下幾個:
1.追求納什平衡
2.最求
總結
提示:這里對文章進行總結:
例如:以上就是今天要講的內容,本文僅僅簡單介紹了pandas的使用,而pandas提供了大量能使我們快速便捷地處理數據的函數和方法。
總結
- 上一篇: Taro+react开发(88):大写p
- 下一篇: 写单元测试的好处(转)