當(dāng)前位置：首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

机器学习（三十八）——博弈论（1）

發(fā)布時(shí)間：2023/12/20 编程问答 46 豆豆

生活随笔收集整理的這篇文章主要介紹了机器学习（三十八）——博弈论（1）小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

博弈論

博弈論（game theory）是一門單獨(dú)的學(xué)科，和RL并無(wú)統(tǒng)屬關(guān)系。然而由于RL，特別是MARL大量應(yīng)用到了相關(guān)的知識(shí)，所以這里也把它寫在RL系列里了。

歷史

博弈論最早可追溯到“齊威王田忌賽馬”，但它真正的發(fā)展是在20世紀(jì)下半葉。

RL的歷史相對(duì)比較晚，因此從淵源來(lái)看，RL=博弈論+控制論+ML。

參考：

https://blog.csdn.net/sobermineded/article/details/79601986

博弈論歷史、發(fā)展與應(yīng)用

教程

《Game Theory An Introduction》，Steven Tadelis著。

Steven Tadelis，經(jīng)濟(jì)學(xué)家。Harvard博士（1997），UCB教授。

概述

要理解博弈論，可以通過(guò)博弈論和決策論的區(qū)別開始。

決策論是研究局中人在給定其他環(huán)境參數(shù)條件下的最優(yōu)選擇問(wèn)題。

博弈論研究的是當(dāng)局中人充分考慮到其他局中人對(duì)其戰(zhàn)略選擇的反應(yīng)后（即局中人都具有同樣充分的理性時(shí)）進(jìn)行最優(yōu)戰(zhàn)略的選擇。

博弈論的直接目標(biāo)不是找到一個(gè)玩家的最佳策略，而是找到所有玩家的最理性策略組合。我們稱最理性策略組合為均衡（equilibrium）。

從宏觀上可以將博弈論研究的問(wèn)題分為：合作博弈和非合作博弈。現(xiàn)代狹義的博弈論一般是指非合作博弈。

非合作博弈根據(jù)參與博弈的參與人做決策的先后順序可以分為：靜態(tài)博弈和動(dòng)態(tài)博弈。

靜態(tài)博弈：參與人同時(shí)做決策，常用標(biāo)準(zhǔn)型（normal form）表述其策略。如兩人零和博弈等。

動(dòng)態(tài)博弈：參與人有先后順序做決策，且后者能觀察到前者所做的決策，如圍棋等。常用擴(kuò)展型（extensive form）來(lái)表述其策略，常用的擴(kuò)展型表述為博弈樹。

非合作博弈根據(jù)參與人是否已知對(duì)方的信息，可以分為：完美信息博弈和不完美信息博弈。

完美信息博弈：參與人對(duì)相關(guān)信息完全已知，如棋類游戲。玩家知道對(duì)方棋子所在的位置。

不完美信息博弈：參與人對(duì)相關(guān)信息并不完全已知。如牌類游戲，玩家并不知道對(duì)手的牌是什么。

當(dāng)局中人的個(gè)數(shù)n為有限數(shù)且每個(gè)局中人的戰(zhàn)略空間中的元素只有限個(gè)時(shí)，稱博弈為有限博弈（finite game）。

決策問(wèn)題的三要素：

行動(dòng)(action): 玩家可能的選擇
結(jié)果(outcome): 每個(gè)行動(dòng)的可能后果
傾向(preference): 對(duì)所有可能后果，按照從最渴望到最不渴望的排列。

理智選擇假設(shè)：

一個(gè)玩家完全明白決策問(wèn)題：

所有可能的行動(dòng)
所有可能的結(jié)果
了解行動(dòng)如何影響結(jié)果
玩家的理性傾向（收益）是基于結(jié)果的

經(jīng)濟(jì)人(Homo economicus)：一個(gè)經(jīng)濟(jì)人是理智的，了解決策問(wèn)題的各個(gè)因素，并且總是選擇可以獲得最高收益的行動(dòng)。

風(fēng)險(xiǎn)態(tài)度：

中立風(fēng)險(xiǎn)（risk neutral）：認(rèn)為同樣期望回報(bào)的價(jià)值相同。
厭惡風(fēng)險(xiǎn)（risk averse）：傾向于一個(gè)確定性的回報(bào)，不愿意采用一個(gè)擁有同樣期望回報(bào)的不確定性方案。
喜愛(ài)風(fēng)險(xiǎn)（risk loving）：更嚴(yán)格地傾向于采用擁有同樣期望回報(bào)的賭注。

博弈論旨在了解游戲的動(dòng)態(tài)，以優(yōu)化其玩家可能獲得的結(jié)果。相反的，**逆博弈論（Inverse Game Theory）**旨在根據(jù)玩家的策略和目標(biāo)來(lái)設(shè)計(jì)游戲。逆博弈論在多智能體AI以及人機(jī)交互AI中都很有用處。

囚徒困境

上圖是囚徒困境（prisoner’s dilemma）的策略矩陣。

參與者為：囚徒A和囚徒B。動(dòng)作空間為：{坦白、抵賴}，回報(bào)函數(shù)由矩陣給出。即：

當(dāng)囚徒A和囚徒B都坦白時(shí)，囚徒A被判處3年有期徒刑、囚徒B也被判處3年有期徒刑。
當(dāng)囚徒A坦白、囚徒B抵賴時(shí)，囚徒A被當(dāng)場(chǎng)釋放、囚徒B被判處5年有期徒刑。
當(dāng)囚徒A抵賴、囚徒B坦白時(shí)，囚徒A被判處5年有期徒刑、囚徒B當(dāng)場(chǎng)釋放。
當(dāng)囚徒A抵賴、囚徒B抵賴時(shí)，囚徒A和B都被判處1年有期徒刑。

很明顯，如果兩個(gè)囚徒都選擇抵賴，那么它們總的懲罰最低。然而，選擇抵賴對(duì)于囚徒個(gè)人來(lái)說(shuō)是理性的嗎？

答案是：選擇抵賴對(duì)于個(gè)人來(lái)說(shuō)并不理性。因?yàn)?#xff0c;就個(gè)人而言，囚徒并不知道另外一個(gè)囚徒選擇的策略是什么。在這種情況下，選擇坦白對(duì)于個(gè)人來(lái)說(shuō)是理性的，而且是最優(yōu)的。

即，不管其他囚徒選擇什么動(dòng)作，選擇坦白總比選擇抵賴要優(yōu)。

比如，對(duì)于囚徒A來(lái)說(shuō)：

當(dāng)囚徒B選擇坦白時(shí)，如果囚徒A選擇坦白被判處3年有期徒刑；而這時(shí)如果A選擇抵賴則被判處5年有期徒刑，所以這時(shí)囚徒A選擇坦白要好。

當(dāng)囚徒B選擇抵賴時(shí)，如果囚徒A選擇坦白，則當(dāng)場(chǎng)釋放；而這時(shí)如果A選擇抵賴，則被判處1年有期徒刑，所以這時(shí)囚徒A選擇坦白要好。

綜合這兩種情況，對(duì)于囚徒A不管囚徒B如何選擇，選擇坦白都是最好的。

在該例中（坦白，坦白）是占優(yōu)策略（dominated strategy）。所謂占優(yōu)策略是指如果一方在任何情況下從某種策略中得到的回報(bào)均大于從另外一種策略得到的回報(bào)，那么我們稱為這種策略為占優(yōu)策略。

囚徒困境同樣適于分析寡頭壟斷廠商合作的不穩(wěn)定性。對(duì)于寡頭整體而言最理性的做法是（合作，合作）。于是，諸如OPEC等組織會(huì)聯(lián)手以期達(dá)到利潤(rùn)最大化。但同時(shí)，另外有種激勵(lì)，若自己悄悄毀約、不遵守協(xié)議自己的獲利會(huì)高于合作下的獲利。于是（不合作，不合作）的策略組合排擠掉了（合作，合作）的策略組合，并且由于（不合作，不合作）組合還是一個(gè)占優(yōu)策略均衡，所以，卡特爾經(jīng)常以失敗告終，也就屬情理之中了。

帕累托最優(yōu)

帕累托最優(yōu)(Pareto Optimality)，也稱為帕累托效率(Pareto efficiency)，是指資源分配的一種理想狀態(tài)，假定固有的一群人和可分配的資源，從一種分配狀態(tài)到另一種狀態(tài)的變化中，在沒(méi)有使任何人境況變壞的前提下，使得至少一個(gè)人變得更好。帕累托最優(yōu)狀態(tài)就是不可能再有更多的帕累托改進(jìn)的余地;換句話說(shuō)，帕累托改進(jìn)是達(dá)到帕累托最優(yōu)的路徑和方法。帕累托最優(yōu)是公平與效率的"理想王國(guó)"。

Vilfredo Pareto，1848~1923，意大利經(jīng)濟(jì)學(xué)家、社會(huì)學(xué)家。

納什均衡

Nash equilibrium的定義：

在博弈中，如果聯(lián)結(jié)策略 $(π1?,…,πn?)(\pi^*_1,\dots,\pi^*_n)$ 滿足：

$Vi(π1?,…,πi?,…,πn?)≥Vi(π1?,…,πi,…,πn?),?πi∈Πi,i=1,…,nV_i(\pi^*_1,\dots,\pi^*_i,\dots,\pi^*_n)\ge V_i(\pi^*_1,\dots,\pi_i,\dots,\pi^*_n),\forall \pi_i \in \Pi_i, i=1,\dots,n$

則為一個(gè)納什均衡。若上式嚴(yán)格大于，則為嚴(yán)格納什均衡。

若智能體的策略對(duì)一個(gè)動(dòng)作的概率分布為1，對(duì)其余的動(dòng)作的概率分布為0，則這個(gè)策略為一個(gè)純策略。

若一個(gè)策略對(duì)于智能體動(dòng)作集中的所有動(dòng)作的概率都大于0，則這個(gè)策略為一個(gè)完全混合策略。

介于上述兩者之間的叫做混合策略。

納什存在定理(Nash’s existence Theorem)：

任何普通形式、具有限策略集合的博弈存在一個(gè)納什均衡的混合策略。

零和博弈中，兩個(gè)智能體是完全競(jìng)爭(zhēng)對(duì)抗關(guān)系，它只有一個(gè)納什均衡值，即使可能有很多納什均衡策略，但是期望的獎(jiǎng)勵(lì)是相同的。

一般和博弈是指任何類型的矩陣博弈，包括完全對(duì)抗博弈、完全合作博弈以及二者的混合博弈。在一般和博弈中可能存在多個(gè)納什均衡點(diǎn)。

下圖是納什均衡的幾何解釋：

John Nash，1928～2015，數(shù)學(xué)家、經(jīng)濟(jì)學(xué)家。Princeton博士（1950），Princeton教授。主要研究博弈論、微分幾何學(xué)和偏微分方程。諾貝爾經(jīng)濟(jì)學(xué)獎(jiǎng)獲得者（1994）。奧斯卡金像獎(jiǎng)電影《美麗心靈》男主角原型。

高風(fēng)險(xiǎn)下的納什均衡

在一些特殊情況下，即使犯錯(cuò)誤的可能性很小也可能導(dǎo)致大的災(zāi)難（比如核電站，出問(wèn)題就非常嚴(yán)重），納什均衡就可能不會(huì)產(chǎn)生有說(shuō)服力的解釋。考慮如下博弈：

		乙
		左	右
甲	上	8,10	-1000,9
甲	下	7,6	6,5

在這個(gè)博弈中，參與人甲會(huì)選擇“下”，因?yàn)槿绻也恍⌒?#xff08;低概率）犯錯(cuò)誤，要避免產(chǎn)生右上的災(zāi)難性情況。

這個(gè)例子說(shuō)明，個(gè)體可能不想我們所假設(shè)的那樣完全理性，在遇到高風(fēng)險(xiǎn)的情況下，人們會(huì)考慮風(fēng)險(xiǎn)，從而使得最終結(jié)果可能偏離納什均衡戰(zhàn)略。

總結(jié)

以上是生活随笔為你收集整理的机器学习（三十八）——博弈论（1）的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：机器学习（三十七）——Integrati
下一篇： C全局变量的用法