當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

博弈论笔记

發布時間：2023/12/9 编程问答 70 豆豆

生活随笔收集整理的這篇文章主要介紹了博弈论笔记小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

文章目錄

前言
一、博弈模型
囚徒問題
二，基于囚徒問題的博弈策略1
三，基于囚徒問題的博弈策略2
四，混合策略的納什平衡
五，Stackelberg平衡
六，協同問題
七，特殊博弈
八，馬爾科夫博弈
九，強化學習
總結

前言

博弈模型，占優策略，純納什平衡，混合策略的納什平衡，斯塔克伯格平衡，協同問題，特殊博弈，馬爾科夫博弈，強化學習

一、博弈模型

一個博弈模型包括：
玩家集合
策略收益
效用函數

效用函數的目的是用來更準確的描述模型，將玩家的偏好關系（大于小于等于）用具體是實數體現，方便之后的運算。（感興趣的同學了解一下圣彼得堡悖論）效用函數如何更準確的描述模型呢？例如，同樣是100萬，在窮人眼里很重要，即期望效用很高；但是在億萬富翁眼中，可能就沒那么重要。這時候，就需要用一個凹函數來描述效用函數。

下圖是效用函數與偏好關系的聯系：

囚徒問題

玩家集合{P1，P2}
策略集合{C（合作：cooperation），B（背叛：btray）}
收益函數：{0y，1y，2y，3y}（被判處0年，1年，3年，6年）

基于囚徒問題的基本假設：
1.囚徒們同時決策
2.囚徒們已知策略集合和收益函數
3.囚徒們都是，理性的

注意：這里對理性的解釋：理性是指玩家要符合完備性和傳遞性
completeness：任何兩個選擇擺在玩家面前，玩家總能作出一個選擇。
transitivety：如果玩家喜歡a比喜歡b多，喜歡b比喜歡c多；那么玩家一點喜歡a比喜歡c多。

二，基于囚徒問題的博弈策略1

占優策略（Dominate Strategy）
（分為強占優策略和弱占優策略）
解釋：不管對方的決策是什么，我的決策都是最好的。
例如囚徒們的效用矩陣如下：

不管P1選擇C還是B，P2選B都是占優策略。因為當P1=C，對于P2的效用10>8；當P1=B，對于P2的效用5>0。
同理，P1選B也是占優策略。
所以，如果雙方都是理性的，那么最后結果會收斂到（5,5）

而且！對于P1，因為效用10>8,5>0。所以稱B是強占優策略。
同理，對于P2的效用：10>8,5>0。所以B也是P2的強占優策略。

其他情況則為弱占優策略

對于嚴格劣策略（強不占優策略）：代表其他所有策略總是比這個策略更優秀，它永遠不會成為最優回應best reply
在任何情況下總有別的策略更好，因此，我們把嚴格劣策略從博弈中剔除
重復迭代的意思是：我們剔除它們，得到了一個更簡單的博弈，然后再做同樣的事情。現在可能又有了一些策略是嚴格劣勢的，在這個簡化的博弈中博弈者永遠不會采取它們，因此我們再把它們剔除，循環反復，最后給我們了一些預測。當博弈者理性他們也認識到其他博弈者理性時是合乎邏輯的結果，這些策略就會在這個子博弈中。
進行這個過程的術語稱作嚴格劣策略重復剔除（Iterated elimination）

三，基于囚徒問題的博弈策略2

納什均衡（Nash Equibrium）
解釋：雙方都處于最佳應對策略。
如圖，（5,5）是一個納什平衡

注意：不是所以的博弈都存在納什平衡；有的博弈存在多個納什平衡。

而如下圖所示，在這個效用矩陣中，沒有納什平衡

而在，如下圖所示的效用矩陣中，則有多個納什平衡

另外，用Iterated elimination反復消除強占優策略時，不會消除納什平衡；但反復消除弱占優策略時，有可能刪除納什平衡。

四，混合策略的納什平衡

混合策略可以看成一種隨機選擇，例如，如果你重復囚徒問題，并且每次都用相同的方法去玩，那么結果就會變得可預測。
混合策略的每一個小單位就是一個符合彩票。而二，三節中的策略單位成為簡單彩票。
對于符合彩票的期望效用來說，它有三個公理：單調性，連續性，獨立性。

對于任意一個博弈，必定存在一個混合策略的納什平衡
案例和解法詳見博客鏈接
要看，是重點！

（以下為拓展內容）

五，Stackelberg平衡

如果改變囚徒問題的假設1：囚徒們同時做出決定。
變成囚徒們作出決定時存在先后順序。
在這種情況下的納什平衡稱為Stackelberg平衡

六，協同問題

存在多個納什平衡的情況下，如何選擇的問題稱為協同問題。
協同問題的解決方法一般是人為的制定規則：比如制定通訊機制或者社會規則等等

七，特殊博弈

特殊博弈分為合作博弈和競爭博弈
合作博弈（cooperation Game）追求所以玩家收益均等
競爭博弈（competitive Game）要求玩家收益之和固定，例如經典的零和博弈

八，馬爾科夫博弈

增加了狀態集合和轉移函數，即相對于之前的博弈，增加了環境因素，玩家的決策要考慮實時的環境因素，而且對于對手和自己的效用函數可能也是未知的。在這種情況下，優化博弈的算法稱為強化學習

九，強化學習

解釋：在一定環境下，做收益最大化的學習。
學習目標一般有以下幾個：
1.追求納什平衡
2.最求

總結

提示：這里對文章進行總結：
例如：以上就是今天要講的內容，本文僅僅簡單介紹了pandas的使用，而pandas提供了大量能使我們快速便捷地處理數據的函數和方法。

總結

以上是生活随笔為你收集整理的博弈论笔记的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： Taro+react开发（88):大写p
下一篇：写单元测试的好处(转)