當前位置：首頁 >

博弈论笔记：不完全信息与声誉

發布時間：2025/4/5 28 豆豆

生活随笔收集整理的這篇文章主要介紹了博弈论笔记：不完全信息与声誉小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

1 連鎖店悖論

我們看以下的情況

假設市場上一共有20個在位者。

如果這20個在位者互相沒有關系：

????????我們用逆向思維考慮精煉納什均衡。

????????當一個進入者要進入的時候，單個在位者會選擇默許。

????????然后在在位者選擇默許的情況下，進入者會選擇進入。

? ? ? ? ——》于是最后的均衡情況為，進入者進入，20個在位者默許

如果20個在位者組成了連鎖店：

? ? ? ? 那么當進入者準備進入第一個市場的時候，在位者爭斗，使得進入者之后都不敢進入。

????????這樣雖然短期會賠本，但長期來看，賺的更多

2 多重均衡下的懲罰與合作

我們看一下這樣的博弈：

2.1，單次博弈

????????有兩個納什均衡（L，L）,（R，R）；該博弈的帕累托最優為（M，M）

2.2，兩次博弈-策略1

????????那么進行到第二次博弈的時候，由于博弈到此結束，所以雙方肯定是選擇納什均衡中的一個。

? ? ? ?如果雙方采取這樣的策略：如果第一次自己選擇M，且對方也選擇M，那么雙方會在第二次博弈中選擇R；否則的話，雙方第二次博弈中將選擇L。那么這樣雙方第一回合會不會合作呢？

? ? ? ? 我們把兩次博弈的收益合并成一張表：?

	L	M	R
L	2,2	6,1	1,1
M	1,6	7,7	1,1
R	1,1	1,1	4,4

????????表中只有M,M加的是3,3；別的加的都是1,1

????????此時有三個納什均衡，（L,L),(M,M),(R,R)。

????????獎懲能力主要體現在第二次博弈時，參與人可以在兩個報酬不等的納什均衡中進行選擇。

????????但是，由于（3,3）大于（1,1），理性的人在第二輪不會選擇（1，1）代替（3，3）來進行懲罰，因為這樣有損自己的利益——>這就導致了懲罰不可信。所以這是納什均衡，但不是精煉納什均衡。

2.3 兩次博弈-策略2

? ? ? ? 我們對上面的策略改進一下：

????????使得我們單次的收益如下：

此時的策略為：

如果第一次博弈甲（乙）不合作，那么第二階段乙（甲）選擇Q（P）

如果第一階段甲乙合作，那么第二階段兩者選擇R,R

那么這時候威脅可信。第一次雙方選擇合作就是精煉納什均衡了。

3 不完全信息

3.1 KMRW模型

????????如果參與人對其他參與人的效用函數和戰略空間的信息不完全，即使博弈重復的次數是有限的，人們也有積極性建立一個合作的聲譽(reputation)。即合作會出現。

3.2 單方面不完全信息

假定有兩個參與人，A和B，進行囚徒困境博弈。如下圖。 ? 參與人A有兩中可能的類型： ? ? ? ? 1，“非理性” 型：只有一種戰略，tit-for-tat (針鋒相對，TFT)，概率為p; ? ? ? ? 2，“理性”型：可以選擇任何戰略，概率為（1-p）； ? 參與人B有一種類型：理性型。

3.2.1 博弈重復兩次

當博弈進行到第二次的時候，理性的B必定會選擇“背叛”以最大化自己的收益

如果A是理性的，那么A第二次會選擇背叛

如果A是非理性的，那么A第二次的選擇會取決于B第一次的選擇

如果A是理性的，那么他在第一次也一定會選擇背叛（因為無論A選擇哪個，B第二次一定是背叛）

如果A是非理性的，那么他第一次一定會本能地選擇合作

但B的第一次則無法確定。因為他不清楚A是不是理性的，如果一開始背叛的話，會有一定概率失去第二次賺更多的可能性。

所以我們重點看一下B第一次的選擇：

1）如果B第一次選擇背叛：

第一階段：

A有p的概率合作，此時B獲利4*p

A有1-p的概率不合作，此時B獲利0*（1-p）

綜合來說，B第一階段獲利4P

第二階段：

A無論理性不理性，都會背叛，所以B獲利0

總之，如果B選擇背叛，其兩階段總獲利為4P

2）如果B第一次選擇合作

第一階段：

A有p的概率合作，此時B獲利3*p

A有（1-p)的概率不合作，此時B獲利-1*（1-p）=-1+p

第二階段

A有p的概率合作，此時B獲利4*p （非理性會繼續合作）

A有1-p的概率不合作，此時B獲利0

總之，如果B選擇合作，其兩階段獲利為8p-1

如果8p-1≥4p，即p≥0.25，那么B會選擇合作

3.2.2 博弈重復三次

如果A是理性的，那么他在第一階段就不合作不一定是最好的選擇（因為如果自己第一階段就背叛，那么立馬暴露了自己理性的特點，那么B在第二階段也會選擇背叛）

但如果A是理性的，倒數第二階段和最后一個階段肯定是背叛。（因為B是理性的，所以最后一個階段一定會背叛，所以A最后一個階段也要背叛；然后倒數第二個階段A也不用“藏著掖著”了，選擇背叛與否，也就是自己理性狀態暴露與否都不會影響理性B最后一次的決策。）

——>A要抉擇自己在第一輪暴露身份是否值得（因為建立一個合作的形象可以換取B在第2階段的合作；）

我們先看理性的A：

如果p（A非理性的概率）>=0.25, 并且A認為B在第1階段會合作。

給定A在第1階段合作的話B在在第2階段也會合作，那么A選擇合作得到：3+4+0=7；

如果A選擇背叛，得到：4+0+0=4；所以如果在上述情況下，A在第一階段合作是最優的。我們再看B：我們分別討論一下：整合一下四種情況：結論如下：只要p>=0.25, 下表所列戰略組合是一個精煉納什均衡： – 理性型A在第1階段選擇合作，然后在第2和第3階段選擇背叛； – B在第1和第2階段選擇合作，然后在第3階段背叛。即下圖這種情況：

３.３　大于等于三次博弈的一般結論

對于這樣一個博弈，只要A非理性的概率p≥0.25，那么對于所有的T≥3，下列戰略組合構成了一個精煉納什均衡

理想型A：在t=1,…..,T-2選擇合作，在T-1和T階段選擇背叛

理想型B：在t=1,…..T-1選擇合作，在T階段選擇背叛

即背叛只在最后兩個階段會出現

——信息不完全時，理性的參與人有積極性去建立一個合作型聲譽

對參與人A，如果他是理性的，那么在安完全信息的情況下他是不會合作的，但是在信息不完全的情況下，他不會過早地暴露自己的理性特征，因而在倒數第二個階段也沒有必要去假裝自己非理性。

對參與人B，如果一早就不合作，那即使對方是合作型也不會合作了。因此，權衡長遠利益&眼前利益后，B一開始也選擇合作

４　雙方信息不完全

在單方不完全信息下，只要p<0.25，不論博弈重復多少次，合作都不會出現。但如果雙方信息不完全，即使小小的不確定性也會導致合作行為，只要博弈重復的次數足夠多（不需要是無限次）原因在于，如果博弈重復的次數足夠長，沒有任何一方愿意一開始就把自己的名聲搞壞。

４.１　雙方信心不完全的例子

還是之前的博弈收益

假定非理性型選擇冷酷策略（雙方一開始都合作，一旦一方不合作，之后就再也不合作了） ? 如果A在一開始就選擇背叛，暴露了自己是非合作型的，從第2期開始的唯一的均衡是每個人都背叛；所以A的最大預期收益為： 4+0+0+…=4; ? 假定選擇如下戰略：開始選擇合作，直到對方選擇不合作，之后永遠背叛。最小預期收益是： ?????????p(3T)+(1-p)(-1+0+0+)=p(3T)-(1-p) 如果3pT-(1-p)≥４，那么A一開始會選擇合作，此時得到一個臨界值T* 所以，無論p多小，只要博弈重復的次數足夠大，一開始就選擇背叛不是最優的。

５　KMRW定理

????????在不完全信息的情況下，只要博弈重復的次數足夠長，參與人就有積極性在博弈的早期建立一個“合作”的聲譽；只是在博弈的后期，才會選擇背叛；并且，非合作階段的數量只與p有關，而與博弈的次數T無關。

總結

以上是生活随笔為你收集整理的博弈论笔记：不完全信息与声誉的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： pyecharts应用2 柱状图
下一篇： GNN笔记：傅里叶变换