一个想法:走向“纳什均衡”是普遍存在的大趋势
?作者 | coolmud
單位 | 中國移動研究院
研究方向 | 博弈論、機器學習
“納什均衡”(Nash Equilibrium)是博弈(game)中一種特別狀態:每個玩家單方面改變自己的策略(strategy)都不會有更好的收益。因此,所有玩家都會固守自己的策略,否則“不一定損人但一定不利己”,從而使得這個均衡狀態具備一定的穩定性。1951 年,約翰·納什就在數學上證明了均衡點存在。不過,雖然我們能體會玩家們不愿意離開均衡點,迄今為止卻很少在現實世界中找到納什均衡的存在,也找不到把玩家們推向均衡點的力量。事實上,玩家們實在沒有理由主動去找均衡點而因此被困住。更重要的是,就算本著“公心”,在均衡點所有玩家收益總和還往往不是最高的。話句話說,在現實世界,無論是人類社會,還是廣泛大自然,一個博弈要走向納什均衡,要么有個超越于普通玩家的“協調者”在主動促成,要么是玩家們普遍的、不自覺的、簡單的行為導致。?
我們先來排除協調者的可能性。首先協調者也沒有動機搞什么“高大上”的納什均衡,因為就算它能忍受不是最高的收益總和,也未必喜歡過于穩定而失去改變的能力。其次就是,協調者未必做得到。在玩家數量很多、策略數量也很多的情況下,協調者如何能夠通悉所有玩家的收益情況?采用何種高效的算法?哪來的算力?要知道數學上可沒有非常高效的算法,尤其是多人博弈。最后就是,回到剛才說的,就算協調者計算出均衡點,要為數眾多的玩家通通欣然接受照做其策略也是一個大工程。因此,協調者的意愿不太可能是推動納什均衡的動力。?
剩下的可能就是,在沒有協調者的情況下, 玩家們的行為導致博弈走向均衡。假如真是這樣,這種行為應該是玩家們普遍具備的,也應該是玩家本能驅動或者大自然規律強制的。因此,這個行為最終也應該是簡單的,簡單到每個玩家只需要看到自己的收益情況就能不斷調整自身策略,而不需要考慮其他眾多玩家的策略、收益情況,更不用關心均衡點在哪里。另外,簡單意味著玩家們行為只需要極少的計算,最好是丁點都沒有。?
而本文的主要觀點就是,在現實世界玩家這種行為是普遍存在的,所以博弈走向納什均衡是普遍存在的趨勢。這種行為就是“平滑地、等比例地壓制零遺憾策略”。
論文標題:
Geometrical regret matching: A new dynamics to Nash equilibrium
論文地址:
https://doi.org/10.1063/5.0012735
論文代碼:
https://github.com/lansiz/eqpt
“平滑地、等比例地壓制零遺憾策略”
這句話我們可以拆開來講。先說說“零遺憾(regret)的策略”。假設某玩家具備三個策略 (A, B, C),且該玩家使用純策略獲得的收益分別為20、-30、50,表示為 [20, -30, 50]。又假設在某次博弈中該玩家采用了混合策略,例如?(0.6, 0.3, 0.1),那么玩家得到的收益是把混合策略當做概率分布進行計算:
當然,大家如果把上述混合策略當做股票投資組合 (60%, 30%, 10%),可能比較有感。現在,看到 8 的收益,該玩家肯定最遺憾沒有“滿倉”策略 C、能掙 50,其次是比較遺憾沒有滿倉策略 A、能掙 20,最不遺憾滿倉策略 B、掙負 30。可以看到,遺憾的程度剛好跟收益數值順序一致,因此我們決定用純策略收益來度量玩家對三個策略的遺憾程度,即 :。
同時出于后續的數學處理目的,我們希望把遺憾值控制在非負數范圍內,也就是把 -30 換成 0,即零遺憾。那么就有:。然而,因為收益數值是在實數范圍內的,換負數為零的方法會輕易導致所有策略都是零遺憾,例如 。同樣出于數學目的,我們把純策略收益減去混合策略收益以保證至少有一個策略有正遺憾值:
這樣我們得到了三個策略的遺憾值 <12, 0, 42>,其中策略 B 是零遺憾策略。剛才說到混合策略可以看作概率分布,因此零遺憾實質是標注了不高于期望收益的策略。?
現在可以說說“平滑地、等比例地壓制零遺憾策略”了。?
回顧本文的目的,我們是希望,當所有玩家都迭代地、“平滑地、等比例地壓制零遺憾策略”,博弈就奔赴均衡點。以上述初始混合策略 (0.6, 0.3, 0.1) 為例,為了滿足“平滑地”、“等比例地”,我們這樣設計那個玩家的混合策略調整方法:
上式中,我們實際上把 (0.6, 0.3, 0.1) 和 <12, 0, 42> 當作了三維向量。如下圖所示,調整后的混合策略也是一個三維向量。相比向量 (0.6, 0.3, 0.1),新的混合策略跟遺憾向量 <12, 0, 42> 的角度減小了,也就是被推向了遺憾向量。減小的角度受到正實參數 r 的控制,r 越小,角度變化越小。
下邊紅色箭頭是調整后的混合策略
最重要的是,這種混合策略調整方法會同比例壓制所有零遺憾策略,因為上式中分母一般是大于 1 的實數。舉一個四個策略的例子可能更明顯:當混合策略為?(0.6, 0.2, 0.1, 0.1)?、遺憾值為 (40, 0, 0,?20)?時,策略 B 和 C 對應比重都被同一個大于 1 的分母除,因此同比例減小了。?
然后,我們可以采用極微小的參數 r 來實現迭代調整的平滑。?
下文我們將演示,當所有玩家都按照上述方法迭代混合策略時,博弈將向均衡點演進。不過,在此之前,我們要解答本文最重要的一個問題:為什么“平滑地、等比例地壓制不高于期望收益的策略”在現實世界是普遍存在的玩家行為?在市場中這個行為應該不難解釋,符合玩家們“趨利避害”的本能習慣。在自然選擇過程中,可以解釋為,一個種群中采用劣勢策略的個體數量被大自然逐漸消減。這其中,“等比例壓制”是相對最苛刻的要求,需要玩家或者環境精確地執行。不得不承認,這個要求可能影響本文觀點可信度。
均衡點逼近演示
從上面例子看到,無論是雙人博弈,還是多人博弈,每個玩家只需知道自己的混合策略向量和純策略收益向量,就能進行前述的策略調整。這個不可不謂簡單,計算量并不大。但是,這時必須有個系統,對所有玩家提供它們各自的純策略收益向量。準確地說,對任意玩家的任意混合策略 ,這個系統都能允許玩家獲知收益 和純策略收益向量 ,并且 必須為 和 的內積,即 。
舉個例子。市場中,一個玩家以 (0.6, 0.3, 0.1) 的資金組合,分別獲得了 [12, -9, 5] 的收益,因此容易計算出純策略收益向量 [20, -30, 50]。這其中,市場本身必須對所有玩家提供上述信息。同此理,在自然選擇中,大自然也扮演這樣的系統。本質上,這個系統為每個玩家提供了一個函數,這函數必須同時輸入其他玩家們的混合策略,計算后向該玩家提供信息。這個系統將承擔主要的計算量。
下面進入演示環節。先是雙人博弈的演示,然后是多人博弈。
為了演示雙人博弈收斂到均衡點,我們就采用大家熟知的矩陣博弈中的 bimatrix 作為上述系統。綜合前述的種種機制,我們可以這樣實現雙人博弈逼近均衡點的算法:
vertices payoff就是純策略收益向量;max操作是對兩個向量對等元素的逐個比較,并最終返回一個向量。
在上述算法會把混合策略的調整歷史記錄下來形成軌跡。對于 3×3 的雙人博弈,軌跡肯定在二維的probability simplex上。為了直觀,我們把simplex轉換成平面上的等邊三角形。
下面是三個典型示例的運行結果:
這個博弈只有一個均衡點,而且在均衡點兩個玩家都會使用純策略。
這個博弈只有一個均衡點,而且在均衡點兩個玩家都會使用帶有兩個策略的混合策略。黑色叉叉是真實的均衡點。
有兩個均衡點,每個均衡點的混合策略都使用兩個策略。收斂到哪個均衡點取決于初始混合策略。
對于非 3×3 博弈,例如 60×40,因為混合策略向量超過三維,一定要可視化的話可以用 PCA 方法(主成分分析)減少維數到三維。例如:
一個60x40博弈
下面的示例演示了均衡點與初始混合策略是無關的。無論是什么初始策略,都會收斂到某個均衡點:
接著是多人博弈的演示。在本文使用的數學中,雙人博弈只是多人的一種特例。因為在這兩種博弈中,前述的信息提供系統都是以一個多變量聯合概率分布為計算基礎的,只不過雙人博弈是兩個變量的聯合概率分布。
下面是一個多人博弈的示例:
這個博弈有6個玩家,每個玩家可以使用3個策略。
更代碼多示例、詳細數學機制見后文的“參考材料”。代碼可以下載運行,有詳細的操作方法。這里建議對多人博弈用好點的計算機運算。不然要等很久。
一個缺陷:混合策略“轉圈圈”
就雙人博弈而言,如果對隨機生成的 3×3 或 4×4?博弈運行前述算法,會發現大約 25% 的博弈只有使用三個策略的均衡點可以作為收斂目標。這時候,混合策略軌跡就會轉圈,而且轉圈軌跡還不經過均衡點:
轉圈的3x3
轉圈的60x40
多人博弈就更嚴重了,大概率發生轉圈。
轉圈的成因見:
https://github.com/lansiz/eqpt#important-the-cyclic-strategy-path-issue
軌跡轉圈會嚴重影響逼近均衡點的精度。這個問題目前沒有辦法解決。軌跡轉圈可以簡單理解為算法不斷努力試圖找到通向均衡點路徑卻始終沒有路徑可及、只能周而復始嘗試。因此,博弈雖然沒有最終逼近均衡點,但與走向納什均衡的動力并不矛盾。
結論
納什均衡可能是普遍存在的大趨勢。這個趨勢后面的驅動力就是玩家長期的行為習慣或者環境影響。這些驅動力因為簡單所以普遍存在、因為貼近本能而難于抗拒。
我們現在能夠想象到,納什均衡的穩定性不但在于玩家喜歡呆在那里,還在于就算玩家偏離了均衡點也會被拉回均衡點。從這個意義上講,納什均衡像一個旋渦,玩家們被裹挾其中而不自知。
附1. 與納什均衡存在性證明的關系
附2. 與“Regret Matching”方法的關系
附3. 隨機生成“五人博弈”策略軌跡圖(近500個示例圖,40M)
網盤鏈接:
https://pan.baidu.com/s/12qzbApmndik3yhTCsjHOCA
提取碼:
6666
更多閱讀
#投 稿?通 道#
?讓你的文字被更多人看到?
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析、科研心得或競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。
📝?稿件基本要求:
? 文章確系個人原創作品,未曾在公開渠道發表,如為其他平臺已發表或待發表的文章,請明確標注?
? 稿件建議以?markdown?格式撰寫,文中配圖以附件形式發送,要求圖片清晰,無版權問題
? PaperWeekly 尊重原作者署名權,并將為每篇被采納的原創首發稿件,提供業內具有競爭力稿酬,具體依據文章閱讀量和文章質量階梯制結算
📬?投稿通道:
? 投稿郵箱:hr@paperweekly.site?
? 來稿請備注即時聯系方式(微信),以便我們在稿件選用的第一時間聯系作者
? 您也可以直接添加小編微信(pwbot02)快速投稿,備注:姓名-投稿
△長按添加PaperWeekly小編
🔍
現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
·
總結
以上是生活随笔為你收集整理的一个想法:走向“纳什均衡”是普遍存在的大趋势的全部內容,希望文章能夠幫你解決所遇到的問題。