博弈论学科整体概览
一、博弈論的概念
博弈論又被稱為對策論(Game Theory)既是現(xiàn)代數(shù)學(xué)的一個新分支,也是運籌學(xué)的一個重要學(xué)科。博弈論主要研究公式化了的激勵結(jié)構(gòu)間的相互作用。是研究具有斗爭或競爭性質(zhì)現(xiàn)象的數(shù)學(xué)理論和方法。博弈論考慮游戲中的個體的預(yù)測行為和實際行為,并研究它們的優(yōu)化策略。博弈論已經(jīng)成為經(jīng)濟學(xué)的標(biāo)準(zhǔn)分析工具之一。
二、博弈論的發(fā)展歷程
博弈論是二人在平等的對局中各自利用對方的策略變換自己的對抗策略,達到取勝的目的。博弈論思想古已有之,中國古代的《孫子兵法》等著作就不僅是一部軍事著作,而且算是最早的一部博弈論著作。博弈論最初主要研究象棋、橋牌、賭博中的勝負問題,人們對博弈局勢的把握只停留在經(jīng)驗上,沒有向理論化發(fā)展。
博弈論考慮游戲中的個體的預(yù)測行為和實際行為,并研究它們的優(yōu)化策略。
近代對于博弈論的研究,開始于策梅洛(Zermelo),波萊爾(Borel)及馮·諾依曼(von Neumann)。
1928年,馮·諾依曼證明了博弈論的基本原理,從而宣告了博弈論的正式誕生。1944年,馮·諾依曼和摩根斯坦共著的劃時代巨著《博弈論與經(jīng)濟行為》將二人博弈推廣到n人博弈結(jié)構(gòu)并將博弈論系統(tǒng)地應(yīng)用于經(jīng)濟領(lǐng)域,從而奠定了這一學(xué)科的基礎(chǔ)和理論體系。
1950~1951年,約翰·福布斯·納什(John Forbes Nash Jr)利用不動點定理證明了均衡點的存在,為博弈論的一般化奠定了堅實的基礎(chǔ)。納什的開創(chuàng)性論文《n人博弈的均衡點》(1950),《非合作博弈》(1951)等等,給出了納什均衡的概念和均衡存在定理。此外,萊因哈德·澤爾騰、約翰·海薩尼的研究也對博弈論發(fā)展起到推動作用。今天博弈論已發(fā)展成一門較完善的學(xué)科。
三、博弈論的要素
(1)局中人:在一場競賽或博弈中,每一個有決策權(quán)的參與者成為一個局中人。只有兩個局中人的博弈現(xiàn)象稱為“兩人博弈”,而多于兩個局中人的博弈稱為 “多人博弈”。
(2)策略:一局博弈中,每個局中人都有選擇實際可行的完整的行動方案,即方案不是某階段的行動方案,而是指導(dǎo)整個行動的一個方案,一個局中人的一個可行的自始至終全局籌劃的一個行動方案,稱為這個局中人的一個策略。如果在一個博弈中局中人都總共有有限個策略,則稱為“有限博弈”,否則稱為“無限博弈”。
(3)得失:一局博弈結(jié)局時的結(jié)果稱為得失。每個局中人在一局博弈結(jié)束時的得失,不僅與該局中人自身所選擇的策略有關(guān),而且與全局中人所取定的一組策略有關(guān)。所以,一局博弈結(jié)束時每個局中人的“得失”是全體局中人所取定的一組策略的函數(shù),通常稱為支付(payoff)函數(shù)。
(4)對于博弈參與者來說,存在著一博弈結(jié)果 。
(5)博弈涉及到均衡:均衡是平衡的意思,在經(jīng)濟學(xué)中,均衡意即相關(guān)量處于穩(wěn)定值。在供求關(guān)系中,某一商品市場如果在某一價格下,想以此價格買此商品的人均能買到,而想賣的人均能賣出,此時我們就說,該商品的供求達到了均衡。所謂納什均衡,它是一穩(wěn)定的博弈結(jié)果。
四、博弈論的目的
博弈策略求解是博弈問題中的一個重要內(nèi)容,另外一個重要的內(nèi)容是博弈規(guī)則的設(shè)計:
??也就是說,假設(shè)博弈的參與者都是足夠理性的,如何設(shè)計一個博弈規(guī)則能確保公正性或者達到設(shè)計者的最大利益。主要的難點是:規(guī)則復(fù)雜,計算量大。
主要應(yīng)用于:
- 拍賣競價:互聯(lián)網(wǎng)廣告投放、車牌競價
- 供需匹配:污染權(quán)、學(xué)校錄取
- 公正選舉:選舉制度、表決制度、議席分配
五、穩(wěn)定分配理論(stable matchings theory)
穩(wěn)定分配理論是由2012諾獎獲得者沙普利使用合作博弈的方法來研究和對比不同的匹配方法而創(chuàng)立的理論。該理論的難點在于要保證一個配對是穩(wěn)定的。
穩(wěn)定匹配的核心思想是實現(xiàn)一種穩(wěn)定狀態(tài),在這種狀態(tài)下,在匹配完結(jié)時不再存在這樣兩個市場主體,它們都更中意于他人,勝過它們當(dāng)前的另一半匹配對象。在現(xiàn)實中,我們熟悉的8分鐘相親、學(xué)校和學(xué)生匹配等例子就是基于穩(wěn)定市場匹配理論的思想發(fā)展而來的。其中雙邊模型和延遲接受算法是穩(wěn)定匹配理論的兩塊重要基石。
雙邊匹配模型很多市場及社會制度的主要功能就是讓其中的主體能和另一個主體相匹配:例如,學(xué)生和學(xué)校,職員和公司,適婚男女之間。這種市場匹配主要分為單邊市場匹配(Single-Sided MarketMatch) 和 雙邊市場匹配(Two-Sided MarketMatch)。
“單邊市場匹配”指市場中僅存在一個集合,集合中的個體根據(jù)各自的偏好相互匹配。然而,單邊市場匹配中的“室友”現(xiàn)象會導(dǎo)致匹配的不穩(wěn)定。當(dāng)假設(shè)存在四個“室友”{1,2,3,4},其中1最偏好2,2最偏好3,3最偏好1,且他們把4都列為最不偏好者。在這種情況下,任何兩兩分組都無法實現(xiàn)穩(wěn)定,因為和4分在一起的人會結(jié)束當(dāng)前匹配去和已經(jīng)匹配的人再次匹配,且這次新的匹配將會成功,使得市場一直無法實現(xiàn)穩(wěn)定(Gale&Shapley,1962)。
“雙邊匹配模型”最早由Gale和Shapley(1962)從研究學(xué)生申請學(xué)校模型和婚姻穩(wěn)定問題而提出。所謂的“雙邊市場”是指存在這樣一個市場,市場中有兩類個體集合,第一類集合中的個體只能和第二類集合中的個體相匹配。他們證明了在這樣一個雙邊市場中,只要個體的偏好具有完備性及可傳遞性,以及市場足夠的自由,能允許個體進行任何潛在可能的匹配,那么市場中總是存在穩(wěn)定匹配。同樣以4個室友為例,假設(shè)任意2個人睡上鋪,2個人睡下鋪,現(xiàn)在要求只有睡不同鋪的人相互匹配,此時就形成了雙邊市場匹配模型。同時,Gale和Sha-pley指出市場匹配穩(wěn)定時滿足以下兩個條件:(1)市場中不存在來自不同類的兩個個體在偏好上可以實現(xiàn)相互匹配,但沒有匹配的情況;(2)已經(jīng)配對成功的個體不會嘗試結(jié)束當(dāng)前的配對,并試圖與來自另一類且已匹配成功的個體進行匹配。
雙邊匹配模型存在穩(wěn)定匹配這一特性,使得其在理論和實踐上都得到了廣泛的關(guān)注,其中一個重要的運用就是勞動力市場的匹配。Shapley和Shubik(1972)利用數(shù)學(xué)模型抽象了一個充斥著不可分割商品的雙邊市場,市場中的每一位參與者既是商品的需求者也是商品的供給者。他們發(fā)現(xiàn)在這更為一般化的市場中匹配穩(wěn)定的性質(zhì)依舊很穩(wěn)健。
Roth最早對雙邊匹配模型在解決實踐問題中的應(yīng)用進行了研究。他意識到Shapley有關(guān)穩(wěn)定市場匹配的理論和計算可讓市場的運作方式變得更清晰。20世紀(jì)50年代,美國內(nèi)科醫(yī)生的初級勞動力市場的組織方式能保證絕大多數(shù)個體匹配成功,但這種匹配缺乏穩(wěn)定性。Roth(1984)的后續(xù)實驗研究將Shapley的匹配設(shè)計應(yīng)用于內(nèi)科醫(yī)生的初級勞動力市場,他的研究結(jié)果表明該種匹配方法能減少原有組織方式下所產(chǎn)生的匹配不穩(wěn)定及其它存在的無序問題。
G-S算法(Gale-Shapley)
在規(guī)則設(shè)計里面有不同的算法,比方說有GS算法:
在生活中,人們通常會碰到與資源匹配相關(guān)的決策問題(如求職就業(yè)、報考錄取等),這些需要雙向選擇的情況被稱為是雙邊匹配問題。在雙邊匹配問題中,需要雙方互相滿足對方的需求才會達成匹配。
1962年,美國數(shù)學(xué)家大衛(wèi)·蓋爾和博弈論學(xué)家沙普利提出了針對雙邊穩(wěn)定匹配問題的解決算法,并將其應(yīng)用于穩(wěn)定婚姻問題的求解。
穩(wěn)定婚姻問題(stable marriage problem)是指在給定成員偏好的條件下,分兩組成員尋找穩(wěn)定匹配。由于這種匹配并不是簡單地價高者得,所以匹配解法應(yīng)考慮雙方意愿。
穩(wěn)定婚姻問題的穩(wěn)定解是指不存在未達成匹配的兩個人都更傾向于選擇對方勝過自己當(dāng)前的匹配對象。
最大交易圈算法(Top-Trading Cycle algorithm)
匹配問題中,還有一類交換不可分的的標(biāo)的物的匹配問題,被稱為單邊匹配問題,如遠古時期以物易物、或者宿舍的床位分配。
1974年,沙普利和斯夫提出了針對單邊匹配問題的穩(wěn)定匹配算法:最大交易圈算法(TTC),算法過程如下:
首先每個交易者連接一條指向他最喜歡的標(biāo)的物的邊,并從每一個標(biāo)的物連接到其占有者或者是具有最高優(yōu)先權(quán)的交易者。
此時形成一張有向圖,且比存在交易圈,對于交易圈中的交易者,將每人指向節(jié)點所代表的標(biāo)的物賦予其,同時交易者放棄原先占有的標(biāo)的物,占有者和匹配成功的標(biāo)的物離開匹配市場
接著從剩余的交易者和標(biāo)的物之間重復(fù)進行交易圈匹配,直到無法形成交易圈,算法停止。
室友匹配問題
六、博弈論的類型
博弈的分類根據(jù)不同的基準(zhǔn)也有不同的分類。
一般認為,博弈主要可以分為合作博弈和非合作博弈。合作博弈和非合作博弈的區(qū)別在于相互發(fā)生作用的當(dāng)事人之間有沒有一個具有約束力的協(xié)議,如果有,就是合作博弈,如果沒有,就是非合作博弈。
從行為的時間序列性,博弈論進一步分為靜態(tài)博弈、動態(tài)博弈兩類:靜態(tài)博弈是指在博弈中,參與人同時選擇或雖非同時選擇但后行動者并不知道先行動者采取了什么具體行動;動態(tài)博弈是指在博弈中,參與人的行動有先后順序,且后行動者能夠觀察到先行動者所選擇的行動。通俗的理解:"囚徒困境"就是同時決策的,屬于靜態(tài)博弈;而棋牌類游戲等決策或行動有先后次序的,屬于動態(tài)博弈。
按照參與人對其他參與人的了解程度分為完全信息博弈和不完全信息博弈。完全博弈是指在博弈過程中,每一位參與人對其他參與人的特征、策略空間及收益函數(shù)有準(zhǔn)確的信息。不完全信息博弈是指如果參與人對其他參與人的特征、策略空間及收益函數(shù)信息了解的不夠準(zhǔn)確、或者不是對所有參與人的特征、策略空間及收益函數(shù)都有準(zhǔn)確的信息,在這種情況下進行的博弈就是不完全信息博弈。
經(jīng)濟學(xué)家們所談的博弈論一般是指非合作博弈,由于合作博弈論比非合作博弈論復(fù)雜,在理論上的成熟度遠遠不如非合作博弈論。非合作博弈又分為:完全信息靜態(tài)博弈,完全信息動態(tài)博弈,不完全信息靜態(tài)博弈,不完全信息動態(tài)博弈。與上述四種博弈相對應(yīng)的均衡概念為:納什均衡(Nash equilibrium),子博弈精煉納什均衡(subgame perfect Nash equilibrium),貝葉斯納什均衡(Bayesian Nash equilibrium),精煉貝葉斯納什均衡(perfect Bayesian Nash equilibrium)。
博弈論還有很多分類,比如:以博弈進行的次數(shù)或者持續(xù)長短可以分為有限博弈和無限博弈;以表現(xiàn)形式也可以分為一般型(戰(zhàn)略型)或者展開型;以博弈的邏輯基礎(chǔ)不同又可以分為傳統(tǒng)博弈和演化博弈。
下面列舉了一些我們經(jīng)常會提到的博弈模型,可以作為入門的興趣導(dǎo)師——
智豬博弈——搭好順風(fēng)車,借力成事
Boxed pigs game, 一個著名的納什均衡的例子
槍手博弈——對比關(guān)系及策略決定強弱
囚徒困境——個人理性與集體的非理性
Prisoner’s Dilemma, 是博弈論的非零和博弈中具代表性的例子,反映個人最佳選擇並非團體最佳選擇
斗雞博弈——狹路相逢勇者未必勝
Chicken Game,又叫草雞博弈、懦夫博弈、膽小鬼博弈
分蛋糕博弈——討價還價的策略
以牙還牙——有一種智慧叫寬恕
Tit for tat,是一個用于博弈論的重復(fù)囚徒困境(Reiterated Prisoner’s Dilemma)非常有效的策略
鷹鴿博弈——路徑依賴法則新解
Hawk Dove game ——進化中的路徑依賴
該模型的兩個純策略均衡類似于膽小鬼博弈,而混合策略均衡則導(dǎo)出了進化穩(wěn)定策略的概念。此外還有不完全信息條件下的貝葉斯博弈版本。
蜈蚣博弈——從后往前的推理
Centipede game
獵鹿博弈——合作是硬道理
Stag Hunt Game, 又稱獵鹿模型(Stag Hunt Model)、獵人的帕累托效率
酒吧博弈——求同存異的智慧
Bar Problem
鲇魚效應(yīng)——有競爭才有發(fā)展
Catfish Effect
重復(fù)博弈——沖突與合作方能共享
Repeated Games, 是指同樣結(jié)構(gòu)的博弈重復(fù)許多次,其中的每次博弈稱為“階段博弈”(stage games)。重復(fù)博弈是動態(tài)博弈中的重要內(nèi)容,它可以是完全信息的重復(fù)博弈,也可以是不完全信息的重復(fù)博弈。
重復(fù)博弈所指的是一類特殊的擴展形式的博弈(extensive form game)。此類博弈中包含一個基礎(chǔ)博弈(base game)——稱為階段博弈(stage game);在整個重復(fù)博弈中,該階段博弈會被重復(fù)一定次數(shù)。階段博弈一般是一個大家熟悉的博弈(如囚徒困境)。類似的,非重復(fù)博弈也可稱為單一階段博弈(single stage game)或單次博弈(single shot game)。
協(xié)和謬誤——欲罷不能的錯上加錯
Coordination Problem, 即某件事情在投入了一定成本、進行到一定程度而后發(fā)現(xiàn)不宜繼續(xù)下去,卻苦于各種原因而將錯就錯,欲罷不能
信息甄別——酒好不怕巷子深
人質(zhì)困境——雪上加霜的囚徒困境
臟臉博弈——都是共同知識惹的禍
成本博弈——擺脫沉沒成本羈絆的策略
手表定律——標(biāo)準(zhǔn)不同結(jié)論就不同
Watch Law
策略均衡——誰也不得罪
strategy equilibrium
本文部分選自
作者:深度學(xué)習(xí)與先進智能決策
鏈接:https://juejin.im/post/5e33cf9f5188252c5232b039
來源:掘金
著作權(quán)歸作者所有。商業(yè)轉(zhuǎn)載請聯(lián)系作者獲得授權(quán),非商業(yè)轉(zhuǎn)載請注明出處。
總結(jié)
- 上一篇: 卫星导航定位 -- 坐标系统与时间系统
- 下一篇: 稳定婚姻问题:Gale–Shapley算