机器学习(三十八)——博弈论(1)
博弈論
博弈論(game theory)是一門單獨(dú)的學(xué)科,和RL并無(wú)統(tǒng)屬關(guān)系。然而由于RL,特別是MARL大量應(yīng)用到了相關(guān)的知識(shí),所以這里也把它寫在RL系列里了。
歷史
博弈論最早可追溯到“齊威王田忌賽馬”,但它真正的發(fā)展是在20世紀(jì)下半葉。
RL的歷史相對(duì)比較晚,因此從淵源來(lái)看,RL=博弈論+控制論+ML。
參考:
https://blog.csdn.net/sobermineded/article/details/79601986
博弈論歷史、發(fā)展與應(yīng)用
教程
《Game Theory An Introduction》,Steven Tadelis著。
Steven Tadelis,經(jīng)濟(jì)學(xué)家。Harvard博士(1997),UCB教授。
概述
要理解博弈論,可以通過(guò)博弈論和決策論的區(qū)別開始。
決策論是研究局中人在給定其他環(huán)境參數(shù)條件下的最優(yōu)選擇問(wèn)題。
博弈論研究的是當(dāng)局中人充分考慮到其他局中人對(duì)其戰(zhàn)略選擇的反應(yīng)后(即局中人都具有同樣充分的理性時(shí))進(jìn)行最優(yōu)戰(zhàn)略的選擇。
博弈論的直接目標(biāo)不是找到一個(gè)玩家的最佳策略,而是找到所有玩家的最理性策略組合。我們稱最理性策略組合為均衡(equilibrium)。
從宏觀上可以將博弈論研究的問(wèn)題分為:合作博弈和非合作博弈。現(xiàn)代狹義的博弈論一般是指非合作博弈。
非合作博弈根據(jù)參與博弈的參與人做決策的先后順序可以分為:靜態(tài)博弈和動(dòng)態(tài)博弈。
靜態(tài)博弈:參與人同時(shí)做決策,常用標(biāo)準(zhǔn)型(normal form)表述其策略。如兩人零和博弈等。
動(dòng)態(tài)博弈:參與人有先后順序做決策,且后者能觀察到前者所做的決策,如圍棋等。常用擴(kuò)展型(extensive form)來(lái)表述其策略,常用的擴(kuò)展型表述為博弈樹。
非合作博弈根據(jù)參與人是否已知對(duì)方的信息,可以分為:完美信息博弈和不完美信息博弈。
完美信息博弈:參與人對(duì)相關(guān)信息完全已知,如棋類游戲。玩家知道對(duì)方棋子所在的位置。
不完美信息博弈:參與人對(duì)相關(guān)信息并不完全已知。如牌類游戲,玩家并不知道對(duì)手的牌是什么。
當(dāng)局中人的個(gè)數(shù)n為有限數(shù)且每個(gè)局中人的戰(zhàn)略空間中的元素只有限個(gè)時(shí),稱博弈為有限博弈(finite game)。
決策問(wèn)題的三要素:
- 行動(dòng)(action): 玩家可能的選擇
- 結(jié)果(outcome): 每個(gè)行動(dòng)的可能后果
- 傾向(preference): 對(duì)所有可能后果,按照從最渴望到最不渴望的排列。
理智選擇假設(shè):
一個(gè)玩家完全明白決策問(wèn)題:
- 所有可能的行動(dòng)
- 所有可能的結(jié)果
- 了解行動(dòng)如何影響結(jié)果
- 玩家的理性傾向(收益)是基于結(jié)果的
經(jīng)濟(jì)人(Homo economicus):一個(gè)經(jīng)濟(jì)人是理智的,了解決策問(wèn)題的各個(gè)因素,并且總是選擇可以獲得最高收益的行動(dòng)。
風(fēng)險(xiǎn)態(tài)度:
- 中立風(fēng)險(xiǎn)(risk neutral):認(rèn)為同樣期望回報(bào)的價(jià)值相同。
- 厭惡風(fēng)險(xiǎn)(risk averse):傾向于一個(gè)確定性的回報(bào),不愿意采用一個(gè)擁有同樣期望回報(bào)的不確定性方案。
- 喜愛(ài)風(fēng)險(xiǎn)(risk loving):更嚴(yán)格地傾向于采用擁有同樣期望回報(bào)的賭注。
博弈論旨在了解游戲的動(dòng)態(tài),以優(yōu)化其玩家可能獲得的結(jié)果。相反的,**逆博弈論(Inverse Game Theory)**旨在根據(jù)玩家的策略和目標(biāo)來(lái)設(shè)計(jì)游戲。逆博弈論在多智能體AI以及人機(jī)交互AI中都很有用處。
囚徒困境
上圖是囚徒困境(prisoner’s dilemma)的策略矩陣。
參與者為:囚徒A和囚徒B。動(dòng)作空間為:{坦白、抵賴},回報(bào)函數(shù)由矩陣給出。即:
- 當(dāng)囚徒A和囚徒B都坦白時(shí),囚徒A被判處3年有期徒刑、囚徒B也被判處3年有期徒刑。
- 當(dāng)囚徒A坦白、囚徒B抵賴時(shí),囚徒A被當(dāng)場(chǎng)釋放、囚徒B被判處5年有期徒刑。
- 當(dāng)囚徒A抵賴、囚徒B坦白時(shí),囚徒A被判處5年有期徒刑、囚徒B當(dāng)場(chǎng)釋放。
- 當(dāng)囚徒A抵賴、囚徒B抵賴時(shí),囚徒A和B都被判處1年有期徒刑。
很明顯,如果兩個(gè)囚徒都選擇抵賴,那么它們總的懲罰最低。然而,選擇抵賴對(duì)于囚徒個(gè)人來(lái)說(shuō)是理性的嗎?
答案是:選擇抵賴對(duì)于個(gè)人來(lái)說(shuō)并不理性。因?yàn)?#xff0c;就個(gè)人而言,囚徒并不知道另外一個(gè)囚徒選擇的策略是什么。在這種情況下,選擇坦白對(duì)于個(gè)人來(lái)說(shuō)是理性的,而且是最優(yōu)的。
即,不管其他囚徒選擇什么動(dòng)作,選擇坦白總比選擇抵賴要優(yōu)。
比如,對(duì)于囚徒A來(lái)說(shuō):
當(dāng)囚徒B選擇坦白時(shí),如果囚徒A選擇坦白被判處3年有期徒刑;而這時(shí)如果A選擇抵賴則被判處5年有期徒刑,所以這時(shí)囚徒A選擇坦白要好。
當(dāng)囚徒B選擇抵賴時(shí),如果囚徒A選擇坦白,則當(dāng)場(chǎng)釋放;而這時(shí)如果A選擇抵賴,則被判處1年有期徒刑,所以這時(shí)囚徒A選擇坦白要好。
綜合這兩種情況,對(duì)于囚徒A不管囚徒B如何選擇,選擇坦白都是最好的。
在該例中(坦白,坦白)是占優(yōu)策略(dominated strategy)。所謂占優(yōu)策略是指如果一方在任何情況下從某種策略中得到的回報(bào)均大于從另外一種策略得到的回報(bào),那么我們稱為這種策略為占優(yōu)策略。
囚徒困境同樣適于分析寡頭壟斷廠商合作的不穩(wěn)定性。對(duì)于寡頭整體而言最理性的做法是(合作,合作)。于是,諸如OPEC等組織會(huì)聯(lián)手以期達(dá)到利潤(rùn)最大化。但同時(shí),另外有種激勵(lì),若自己悄悄毀約、不遵守協(xié)議自己的獲利會(huì)高于合作下的獲利。于是(不合作,不合作)的策略組合排擠掉了(合作,合作)的策略組合,并且由于(不合作,不合作)組合還是一個(gè)占優(yōu)策略均衡,所以,卡特爾經(jīng)常以失敗告終,也就屬情理之中了。
帕累托最優(yōu)
帕累托最優(yōu)(Pareto Optimality),也稱為帕累托效率(Pareto efficiency),是指資源分配的一種理想狀態(tài),假定固有的一群人和可分配的資源,從一種分配狀態(tài)到另一種狀態(tài)的變化中,在沒(méi)有使任何人境況變壞的前提下,使得至少一個(gè)人變得更好。帕累托最優(yōu)狀態(tài)就是不可能再有更多的帕累托改進(jìn)的余地;換句話說(shuō),帕累托改進(jìn)是達(dá)到帕累托最優(yōu)的路徑和方法。 帕累托最優(yōu)是公平與效率的"理想王國(guó)"。
Vilfredo Pareto,1848~1923,意大利經(jīng)濟(jì)學(xué)家、社會(huì)學(xué)家。
納什均衡
Nash equilibrium的定義:
在博弈中,如果聯(lián)結(jié)策略(π1?,…,πn?)(\pi^*_1,\dots,\pi^*_n)(π1??,…,πn??)滿足:
Vi(π1?,…,πi?,…,πn?)≥Vi(π1?,…,πi,…,πn?),?πi∈Πi,i=1,…,nV_i(\pi^*_1,\dots,\pi^*_i,\dots,\pi^*_n)\ge V_i(\pi^*_1,\dots,\pi_i,\dots,\pi^*_n),\forall \pi_i \in \Pi_i, i=1,\dots,nVi?(π1??,…,πi??,…,πn??)≥Vi?(π1??,…,πi?,…,πn??),?πi?∈Πi?,i=1,…,n
則為一個(gè)納什均衡。若上式嚴(yán)格大于,則為嚴(yán)格納什均衡。
若智能體的策略對(duì)一個(gè)動(dòng)作的概率分布為1,對(duì)其余的動(dòng)作的概率分布為0,則這個(gè)策略為一個(gè)純策略。
若一個(gè)策略對(duì)于智能體動(dòng)作集中的所有動(dòng)作的概率都大于0,則這個(gè)策略為一個(gè)完全混合策略。
介于上述兩者之間的叫做混合策略。
納什存在定理(Nash’s existence Theorem):
任何普通形式、具有限策略集合的博弈存在一個(gè)納什均衡的混合策略。
零和博弈中,兩個(gè)智能體是完全競(jìng)爭(zhēng)對(duì)抗關(guān)系,它只有一個(gè)納什均衡值,即使可能有很多納什均衡策略,但是期望的獎(jiǎng)勵(lì)是相同的。
一般和博弈是指任何類型的矩陣博弈,包括完全對(duì)抗博弈、完全合作博弈以及二者的混合博弈。在一般和博弈中可能存在多個(gè)納什均衡點(diǎn)。
下圖是納什均衡的幾何解釋:
John Nash,1928~2015,數(shù)學(xué)家、經(jīng)濟(jì)學(xué)家。Princeton博士(1950),Princeton教授。主要研究博弈論、微分幾何學(xué)和偏微分方程。諾貝爾經(jīng)濟(jì)學(xué)獎(jiǎng)獲得者(1994)。奧斯卡金像獎(jiǎng)電影《美麗心靈》男主角原型。
高風(fēng)險(xiǎn)下的納什均衡
在一些特殊情況下,即使犯錯(cuò)誤的可能性很小也可能導(dǎo)致大的災(zāi)難(比如核電站,出問(wèn)題就非常嚴(yán)重),納什均衡就可能不會(huì)產(chǎn)生有說(shuō)服力的解釋。考慮如下博弈:
| 乙 | |||
| 左 | 右 | ||
| 甲 | 上 | 8,10 | -1000,9 |
| 下 | 7,6 | 6,5 | |
在這個(gè)博弈中,參與人甲會(huì)選擇“下”,因?yàn)槿绻也恍⌒?#xff08;低概率)犯錯(cuò)誤,要避免產(chǎn)生右上的災(zāi)難性情況。
這個(gè)例子說(shuō)明,個(gè)體可能不想我們所假設(shè)的那樣完全理性,在遇到高風(fēng)險(xiǎn)的情況下,人們會(huì)考慮風(fēng)險(xiǎn),從而使得最終結(jié)果可能偏離納什均衡戰(zhàn)略。
總結(jié)
以上是生活随笔為你收集整理的机器学习(三十八)——博弈论(1)的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 机器学习(三十七)——Integrati
- 下一篇: C全局变量的用法