日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

博弈论笔记:不完全信息与声誉

發布時間:2025/4/5 编程问答 22 豆豆
生活随笔 收集整理的這篇文章主要介紹了 博弈论笔记:不完全信息与声誉 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

1 連鎖店悖論

我們看以下的情況

假設市場上一共有20個在位者。

如果這20個在位者互相沒有關系:

????????我們用逆向思維考慮精煉納什均衡。

????????當一個進入者要進入的時候,單個在位者會選擇默許。

????????然后在在位者選擇默許的情況下,進入者會選擇進入。

? ? ? ? ——》于是最后的均衡情況為,進入者進入,20個在位者默許

如果20個在位者組成了連鎖店:

? ? ? ? 那么當進入者準備進入第一個市場的時候,在位者爭斗,使得進入者之后都不敢進入。

????????這樣雖然短期會賠本,但長期來看,賺的更多

2 多重均衡下的懲罰與合作

我們看一下這樣的博弈:

2.1,單次博弈

????????有兩個納什均衡(L,L),(R,R);該博弈的帕累托最優為(M,M)

2.2,兩次博弈-策略1

????????那么進行到第二次博弈的時候,由于博弈到此結束,所以雙方肯定是選擇納什均衡中的一個。

? ? ? ?如果雙方采取這樣的策略:如果第一次自己選擇M,且對方也選擇M,那么雙方會在第二次博弈中選擇R;否則的話,雙方第二次博弈中將選擇L。那么這樣雙方第一回合會不會合作呢?

? ? ? ? 我們把兩次博弈的收益合并成一張表:?

L

M

R

L

2,2

6,1

1,1

M

1,6

7,7

1,1

R

1,1

1,1

4,4

????????表中只有M,M加的是3,3;別的加的都是1,1

????????此時有三個納什均衡,(L,L),(M,M),(R,R)。

????????獎懲能力主要體現在第二次博弈時,參與人可以在兩個報酬不等的納什均衡中進行選擇。

????????但是,由于(3,3)大于(1,1),理性的人在第二輪不會選擇(1,1)代替(3,3)來進行懲罰,因為這樣有損自己的利益——>這就導致了懲罰不可信。所以這是納什均衡,但不是精煉納什均衡。

2.3 兩次博弈-策略2

? ? ? ? 我們對上面的策略改進一下:

????????使得我們單次的收益如下:

此時的策略為:

如果第一次博弈甲(乙)不合作,那么第二階段乙(甲)選擇Q(P)

如果第一階段甲乙合作,那么第二階段兩者選擇R,R

那么這時候威脅可信。第一次雙方選擇合作就是精煉納什均衡了。

3 不完全信息

3.1 KMRW模型

????????如果參與人對其他參與人的效用函數和 戰略空間的信息不完全,即使博弈重復的次數是有限的,人們也有積極性建立一個合作的聲譽(reputation)。即合作會出現。

3.2 單方面不完全信息

假定有兩個參與人,AB,進行囚徒困 境博弈。如下圖。 ? 參與人A有兩中可能的類型: ? ? ? ? 1,“非理性” 型:只有一種戰略,tit-for-tat (針鋒相對,TFT),概率為p; ? ? ? ? 2,“理性”型:可 以選擇任何戰略,概率為(1-p); ? 參與人B有一種類型:理性型。

3.2.1 博弈重復兩次

當博弈進行到第二次的時候,理性的B必定會選擇“背叛”以最大化自己的收益

如果A是理性的,那么A第二次會選擇背叛

如果A是非理性的,那么A第二次的選擇會取決于B第一次的選擇

如果A是理性的,那么他在第一次也一定會選擇背叛(因為無論A選擇哪個,B第二次一定是背叛)

如果A是非理性的,那么他第一次一定會本能地選擇合作

但B的第一次則無法確定。因為他不清楚A是不是理性的,如果一開始背叛的話,會有一定概率失去第二次賺更多的可能性。

所以我們重點看一下B第一次的選擇:

1)如果B第一次選擇背叛:

第一階段:

A有p的概率合作,此時B獲利4*p

A有1-p的概率不合作,此時B獲利0*(1-p)

綜合來說,B第一階段獲利4P

第二階段:

A無論理性不理性,都會背叛,所以B獲利0

總之,如果B選擇背叛,其兩階段總獲利為4P

2)如果B第一次選擇合作

第一階段:

A有p的概率合作,此時B獲利3*p

A有(1-p)的概率不合作,此時B獲利-1*(1-p)=-1+p

第二階段

A有p的概率合作,此時B獲利4*p (非理性會繼續合作)

A有1-p的概率不合作,此時B獲利0

總之,如果B選擇合作,其兩階段獲利為8p-1

如果8p-1≥4p,即p≥0.25,那么B會選擇合作

3.2.2 博弈重復三次

如果A是理性的,那么他在第一階段就不合作不一定是最好的選擇(因為如果自己第一階段就背叛,那么立馬暴露了自己理性的特點,那么B在第二階段也會選擇背叛)

但如果A是理性的,倒數第二階段和最后一個階段肯定是背叛。(因為B是理性的,所以最后一個階段一定會背叛,所以A最后一個階段也要背叛;然后倒數第二個階段A也不用“藏著掖著”了,選擇背叛與否,也就是自己理性狀態暴露與否都不會影響理性B最后一次的決策。)

——>A要抉擇自己在第一輪暴露身份是否值得(因為 建立一個合作的形象可以換取B在第2階段的合作;)

我們先看理性的A:

如果p(A非理性的概率)>=0.25, 并且A認為B在第1階段會合作。

給定A在第1階段合作的話B在在第2階段也會合作,那么A選擇合作得到:3+4+0=7

如果A選擇背叛,得到:4+0+0=4 所以如果在上述情況下,A在第一階段合作是最優的。 我們再看B: 我們分別討論一下: 整合一下四種情況: 結論如下: 只要p>=0.25, 下表所列戰略組合是一個 精煉納什均衡: 理性型A在第1階段選擇合作,然后在第2和 第3階段選擇背叛; – B在第1和第2階段選擇合作,然后在第3階段背叛。 即下圖這種情況:

3.3 大于等于三次博弈的一般結論

對于這樣一個博弈,只要A非理性的概率p≥0.25,那么對于所有的T≥3,下列戰略組合構成了一個精煉納什均衡

理想型A:在t=1,…..,T-2選擇合作,在T-1和T階段選擇背叛

理想型B:在t=1,…..T-1選擇合作,在T階段選擇背叛

即背叛只在最后兩個階段會出現

——信息不完全時,理性的參與人有積極性去建立一個合作型聲譽

對參與人A,如果他是理性的,那么在安完全信息的情況下他是不會合作的,但是在信息不完全的情況下,他不會過早地暴露自己的理性特征,因而在倒數第二個階段也沒有必要去假裝自己非理性。

對參與人B,如果一早就不合作,那即使對方是合作型也不會合作了。因此,權衡長遠利益&眼前利益后,B一開始也選擇合作

4 雙方信息不完全

在單方不完全信息下,只要p<0.25,不論博弈重復多少次,合作都不會出現。 但如果雙方信息不完全,即使小小的不確定性也會導致合作行為,只要博弈重 復的次數足夠多(不需要是無限次) 原因在于,如果博弈重復的次數足夠長,沒有任何一方愿意一開始就把自己的名 聲搞壞。

4.1 雙方信心不完全的例子

還是之前的博弈收益

假定非理性型選擇冷酷策略(雙方一開始都合作,一旦一方不合作,之后就再也不合作了) ? 如果A在一開始就選擇背叛,暴露了自己是非合作型的,從第2期開始的唯一的均衡是每個 人都背叛;所以A的最大預期收益為: 4+0+0+…=4; ? 假定選擇如下戰略:開始選擇合作,直到對方 選擇不合作,之后永遠背叛。最小預期收益是: ?????????p(3T)+(1-p)(-1+0+0+)=p(3T)-(1-p) 如果3pT-(1-p)≥4,那么A一開始會選擇合作,此時得到一個臨界值T* 所以,無論p多小,只要博弈重復的次數 足夠大,一開始就選擇背叛不是最優的。

5 KMRW定理

????????在不完全信息的情況下,只要博弈重復 的次數足夠長,參與人就有積極性在博弈的早期建立一個“合作”的聲譽;只是在博弈的后期,才會選擇背叛;并且,非合作階段的數量只與p有關,而與博弈的次數T無關。

總結

以上是生活随笔為你收集整理的博弈论笔记:不完全信息与声誉的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。