博弈论1(正则型博弈)
博弈論和信息熵是我覺得最神奇的數學!
我的上課的學習筆記
文章目錄
- 前言
- 正則型博弈
- 帕雷托最優
- 納什均衡
- Maxmin/Minmax策略
- MiniMax遺憾
- 優勢/劣勢策略
- 相關均衡
- 顫抖手精煉均衡
- 內容總結
前言
什么是博弈論?
博弈即Game
- 2-player game
- n-player game
計算機科學中的博弈問題
博弈場景
博弈論是相對對獨立的、自利的個體之間相互作用的數學研究,所以這種由統一編程協作工作的應用場景不是博弈。
博弈模型分類
一些例子
-
猜拳游戲(正則型博弈)
純競爭關系,沒有共贏。 -
囚徒困境(正則型博弈)
-
AlphaGo(擴展型博弈)
因為下棋是一步一步來的,無法再用矩陣進行描述,因此采用博弈樹的方法進行描述。解決博弈樹問題的常規策略是逆向歸納法,但是在這個問題中逆向歸納法的搜索空間達到250150250^{150}250150,因此不能使用這種方法。AlphaGo使用的是卷積神經網絡的方法。 -
多智能體強化學習(其他類型)
-
聯邦學習(其他類型)
智能體決策
對每個決策可以描述成一個智能體。
- 決策在環境中采取一個動作,這個動作被解釋為一個獎勵和一個狀態轉換,然后反饋給下一個動作。
- 決策的目標是尋找一個政策和一個狀態轉移模型,從而使期望累積報酬最大化
單智能體→多智能體
研究理性決策者之間的競爭或合作,考慮他們的偏好、知識、戰略行動,以及這些因素如何影響結果,可以分為兩類:
- 非合作博弈,個體博弈
- 合作博弈,玩家聯盟之間的競爭
本門課更多的考慮非合作博弈。
博弈表示方法
- 一個人需要知道一些關于這個游戲的東西
- 玩家是誰
- 玩家可以采取哪些行動
- 每個玩家對每個結果的重視程度
- 每個玩家都知道什么
- 根據以上的信息有兩種博弈的表示
- 正則型(或策略型)博弈,上述信息可以用矩陣表示
- 擴展型博弈,利用博弈樹和信息集對上述信息進行顯式描述
正則型博弈
- 定義
- 囚徒困境
- 特殊的正則型博弈
- 博弈純策略與混合策略
帕雷托最優
當只有一個決策者時可以選擇使決策者收益最大的決策,而當存在多個決策者時,彼此之間的收益會有沖突,彼此之間也不能比較,但有些情況還是可以判斷優劣的,在這種情況下,進行優化就是帕雷托最優,即不改變其他決策者的利益的情況下,能提高某些決策者的利益。
總的來說,帕雷托最優的條件是只要決策改變,會損害任意一個決策者的情況,那么當前狀態就是帕雷托最優。
以囚徒困境問題舉例,綠色圈圈的狀態就是帕雷托最優,該問題中共有三個帕雷托最優。
帕雷托最優的思想:帕雷托最優雖然是最優但只是一個最低標準,滿足帕雷托最優的不一定是最優決策,不滿足帕雷托最優的一定不理想。
納什均衡
系統達到穩定的狀態。
納什均衡更符合個人選擇,盡管最后的結果并不是帕雷托最優。
舉一些例子
- 囚徒困境
- 獵鹿賽局
- 性別之戰
男女看電影,如果有分歧則都沒有收益,不同的選擇對彼此的收益不同。
這個例子中有兩個納什均衡,一個是純策略納什均衡,一個是混合策略納什均衡。
- 猜拳游戲
不存在純策略的納什均衡。
但存在混合策略納什均衡,每個行動的概率為1/3時達到混合策略納什均衡。即純隨機的出,才能勢均力敵。 - 賭便士游戲(零和博弈)
同樣沒有純納什均衡,只有混合策略納什均衡。
納什均衡存在定理
如何理解混合策略納什均衡?
- 一個博弈的混合策略可以被看作是其他人對博弈執行每一個純策略的可能性的評估
- 如果游戲被反復玩了很多次,那么純策略的概率就是它在極限內玩的時間的頻率
- 如果決策是從一個大的群體中隨機選擇的,其中每個決策都扮演一個純策略,那么純策略的概率代表了執行該策略的頻率。
(這里翻譯不太準確,還是看英文原文比較好)總的來說我認為混合決策就是執行純策略的概率的集合。
Maxmin/Minmax策略
MiniMax定理
納什均衡與鞍點
MiniMax遺憾
考慮存在一些不確定的因素。
優勢/劣勢策略
優勢策略就是更好的策略。同樣定義了劣勢策略,劣勢策略可以幫助簡化問題。
相關均衡
根據一個外部觸發時間的結果再去做決策,比如男女選擇看電影的問題,直接仍硬幣就可以決定,往往可以得到更好的結果。
顫抖手精煉均衡
比如兩個人在博弈的過程中有一些小擾動,小波動,但這個博弈一直在繼續,但最終會趨近到某個穩定的策略。(弱納什均衡)
內容總結
- 基本的概念和定義
博弈與決策者,行動與策略,懲罰或收益,博弈的分類 - 正則化博弈
帕雷托最優,最優反應,納什均衡 - 進一步解決方案和概率
最大化最小收益和最小化最大收益策略,最小化最大遺憾,優勢和劣勢策略,相關均衡,顫抖手精煉均衡 。
圖片來自老師上課ppt,如有侵權立即刪除。
總結
以上是生活随笔為你收集整理的博弈论1(正则型博弈)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Servlet是什么
- 下一篇: Jackson学习笔记