當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

博弈论笔记：重复博弈

發布時間：2023/12/10 编程问答 75 豆豆

生活随笔收集整理的這篇文章主要介紹了博弈论笔记：重复博弈小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

1 序貫博弈與重復博弈

1.1 序貫博弈(sequential game)

參與人在前一個決策點的選擇決定隨后的子博弈的結構。因此，從后一個決策點開始的子博弈不同于從前一個決策點開始的子博弈。或者說，同樣結構的子博弈只出現一次。

1.2 重復博弈(repeated game)

同樣結構的博弈重復多次，其中的每次博弈被稱為“階段博弈” (stage game)。（重復博弈中的每一個子博弈：階段博弈）

1.2.1 重復博弈的特點

->階段博弈之間沒有物理上的聯系（前一段博弈的結果不影響后一階段博弈的結構）

->每一個參與人都可以觀察到博弈過去的歷史

->每個參與者最后得到的報酬=各個階段博弈支付的貼現值之和

如果博弈不是一次的，而是重復進行的，參與人過去行動的歷史是可以觀察到的，參與人就可以將自己的選擇依賴于其他人之前的行動。--->因而有了更多的戰略可以選擇，均衡結果可能與一次博弈大不相同。

重復博弈理論的最大貢獻是對人們之間的合作行為提供了理性解釋。在囚徒困境中，一次博弈的唯一均衡是不合作（即坦白）。但如果博弈無限重復，合作就可能出現。

2 戰略空間

2.1?不依賴于過去行動歷史的戰略

·永遠背叛戰略：All-D——永遠不合作

·永遠合作戰略：All-C——永遠合作

2.2?依賴于過去行動歷史的戰略

2.2.1 針鋒相對戰略（tit-for-tat)

第一次采取合作，之后每一次的行動都建立在對手前一次行動的基礎上。

如果你今天不和我合作，我明天也不和你合作；如果你今天和我合作了，那我明天也和你合作。

2.2.2 觸發戰略/冷酷戰略（trigger strategies）

第一次采取合作

之后只要沒有不合作，就一直合作下去；一旦有一次不合作，之后就都不合作。

3 合作的假值和耐心

本節需要用到的囚徒困境模型

同時就像博弈論筆記1：囚徒困境與納什均衡_劉文巾的博客-CSDN博客_博弈說的那樣，R>T>P>S; (S+R)<T+T

我們引入貼現因子β（明天的一塊錢=今天的β塊錢）【β越大——越耐心，越重視未來】

維持長期合作的話，每個人的收益為, 從這里也能看出，β越大，也就是越耐心，長期合作的收益越大，也就越會合作。

當然，未來利益對人的重要程度還和很多因素有關：

->年齡：“59歲現象”（60歲退休的人，在他59歲的時候，可能會選擇更加重視眼前利益的策略）

->家庭：有家庭的人更重視未來的收益

->宗教：因果輪回

4?無名氏定理

在一個無限期的重復博弈中，如果每個參與人對未來都足夠重視（β足夠大），那么任何程度的合作都可以作為一種精煉納什均衡來出現（任何程度——整個博弈中合作的概率）。

5 合作與懲罰

5.1 針鋒相對

如果雙方都堅持針鋒相對戰略：

1）首次都選擇合作，之后也都合作，雙方的收益都是

2）如果對方針鋒相對，一方總不合作

那么只有第一輪合作，第二輪開始都不合作。

雙方的收益為：

只合作一次的那一方：S+Pβ/(1-β）

一直不合作的那一方R+Pβ/(1-β）

什么時候會合作呢？

合作的收益大于不合作的收益?，即?

合作的好處越大（T越大）/不合作和好處越小（P越小）/單方不合作的收益越小（R越小）

——β的范圍越大，合作的可能性越大

5.2 行為的信息傳遞

假如我不合作兩次，才會被發現我的行為。此時的收益為：

此時的合作條件：

經過化簡，得到：

通過這個，我們可以得到結論：欺騙行為越晚被發現（越難被發現），欺騙發生的可能性就越大。合作就越困難。

5.3? 針鋒相對戰略是一種納什均衡，但不是一種精煉納什均衡

t+1時刻，A知道B會合作，所以自己就不會不合作，反而會合作

——所以針鋒相對就不是一個精煉納什均衡

6?多重關系對于合作的影響

多重交易關系會對人們博弈中的行為產生重要影響，使得人們之間更容易達成合作。

建立更多關系以達成合作

多重交易問題產生的懲罰的不可信問題：由于懲罰方和被懲罰方有關系，所以懲罰不僅懲罰了被懲罰者，懲罰者本人也在一定程度上被懲罰了

假設兩人使用針鋒相對戰略，那么：

在交易關系1中，合作條件是?

在交易關系2中，合作條件是

如果這種交易在同樣的兩個人之間進行，即這兩個人同時進行這兩種交易，那么此時的交易關系矩陣變為：

?	合作	不合作
合作	(3+5,3+5)=(8,8)	(-1+0,4+9)=(-1,13)
不合作	(4+9,-1+0)=(13,-1)	(0+4,0+4)=(4,4)

此時的合作關系為

如果本來的β為0.6 那么如果兩個交易分開進行的話，只會進行交易1。如果交易1和交易2同時進行，那么此時在這個β的條件下，交易和交易2 都可以進行。

市場交易常常鑲嵌在復雜的社會關系中。這種關系可以提高交易的合作程度。這也是人們愿意發展社會關系的原因。（家庭血緣關系、朋友關系、同學關系、老鄉關系。。。）

6.1 殺熟困境

? ? ? ?如果懲罰對懲罰者本身的損害太大，懲罰就是不可信的。 ? ? ? ?這與投鼠忌器是一個道理，你討厭老鼠，但是你沒有辦法，因為你心疼那個盤子，那個器皿。投鼠忌器在企業內部很多環節都會發生，導致懲罰不可信，所以對方就不會太注重信譽。家族成員有時候比非家族成員更不可信任，更不守規矩，就是這個道理。 ? ? ? ??朋友專門騙朋友，是“殺熟”。問題也與懲罰的不可信有關。

6.2 第三方實施懲罰

? ? ? ?前面假定了固定的一對參與人進行重復博弈，對不合作的懲罰是由“受害人”本人實施的，稱為“second-party enforcement”,或者 “personal enforcement”。 ? ? ? ? 但更經常的情況是參與人不固定的情況。此時，懲罰要由第三方實施(third-party enforcement)。

6.2.1 集體抵制

? ? ? 規則：?每個人都應該誠實，都有責任懲罰騙過人的人；不參與懲罰的人應該受到懲罰。 ? ? ? 如：假定B在t期欺騙了A ，C在t+1期就不應該與B合作。否則，D在t+2 期就不應該與C合作；? ? ? ? ? ? ? ?如果C在t+1期與B合作，而D在t+2期又與C合作，E在t+3期就不應該與D合作，如此等等；敵友規則：開始把所有的人當朋友；t期的朋友關系繼續保持到t+1期，當只當他在t期不曾騙過任何人并不曾與你的敵人合作，t+1期才繼續是朋友。

總結

以上是生活随笔為你收集整理的博弈论笔记：重复博弈的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：将表中的数据自动生成INSERT、UPD
下一篇：博弈论学习笔记（一）