日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

歡迎訪(fǎng)問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) >

博弈论 斯坦福game theory stanford week 5.0_

發(fā)布時(shí)間:2025/4/14 42 豆豆
生活随笔 收集整理的這篇文章主要介紹了 博弈论 斯坦福game theory stanford week 5.0_ 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

title: 博弈論 斯坦福game theory stanford week 5-0
tags: note
notebook: 6- 英文課程-15-game theory
---

博弈論 斯坦福game theory stanford week 5-0

repeated Games 重復(fù)游戲

在實(shí)際的博弈中,很多的情況不止一次的發(fā)生,下面有很多的例子:

  • 市場(chǎng)中的公司中的博弈
  • 政治的博弈
  • 朋友間的交換
  • 工人們的相互競(jìng)爭(zhēng)合作

我們討論一個(gè)案例,那就是opec

他們的油價(jià)其實(shí)是一個(gè)很有趣的博弈:

  • 1930年的油價(jià)是20,他們相互的競(jìng)爭(zhēng)
  • 1950年,他們開(kāi)始合作,減少石油的產(chǎn)量,然后油價(jià)就開(kāi)始上升
  • 1982 變成來(lái) 90元
  • 2002年,他們的合作漸漸的減少,油價(jià)也開(kāi)始了下降

他們?cè)谶@個(gè)過(guò)程中使用了合作行為。cartel,卡特爾是一種像囚徒困境的一種困局

  • 這樣的合作需要密切的觀(guān)察自己的朋友,并且快速的懲罰不合作的博弈者
  • 并且需要大多數(shù)的博弈者有長(zhǎng)遠(yuǎn)的打算
  • 戰(zhàn)爭(zhēng)并不能達(dá)到更大的利益

要衡量這些合作的最終的結(jié)果,我們使用一次一側(cè)的進(jìn)行博弈的方式。

infinitely repeated games: utility 無(wú)限重復(fù)的游戲,效益

我們要定義游戲的效益。

我們是不是能夠把這種情況用拓展形式表現(xiàn)出來(lái)呢?

我們這樣的博弈是一個(gè)無(wú)止境的博弈,我們是不是可以這樣表示呢?

不過(guò)這種無(wú)限的形式寫(xiě)出來(lái),我們基本上是無(wú)法計(jì)算博弈的結(jié)果的,因此我們上面學(xué)習(xí)的表達(dá)方式并沒(méi)有幫助。

因?yàn)闊o(wú)限的序列讓我們沒(méi)有辦法計(jì)算收益,我們可以將我們的收益寫(xiě)成極限形式,就像上面的公式。

那么我們的收入就會(huì)變成了平均收入或者穩(wěn)定收入。

第二個(gè)定義是有關(guān)未來(lái)的利益的未來(lái)的尚未計(jì)算的收益,

這個(gè)收益描述了一種長(zhǎng)期的收益,是有關(guān)未來(lái)的收益預(yù)期,他的計(jì)算方法是通過(guò)一個(gè)因此乘上未來(lái)的收益,然后求和。

比如我進(jìn)行投資的時(shí)候,可能會(huì)先投入大量的前期投入,然后再逐漸的盈利,但是這樣做的人有很多,他們主要考慮的就是未來(lái)的收入可以非常完美的覆蓋現(xiàn)在的付出。

但是未來(lái)的收入會(huì)有一個(gè)貶值因子,因?yàn)檫@里的收入不是立刻馬上兌現(xiàn)的,因此我們不能把他們當(dāng)成100%的金錢(qián)看待。

stochastic games 隨機(jī)博弈

如果我們不借用之前同步博弈的想法,我們說(shuō)隨機(jī)博弈是一種重復(fù)比賽的概念

在這種博弈中:

  • 博弈者隨機(jī)的從所有的行為集合中選擇
  • 博弈的進(jìn)行取決于所有熱的之前的選擇和之后的選擇。

下面有一個(gè)示圖來(lái)討論這個(gè)問(wèn)題。

再重復(fù)博弈中,我們的圖形只能被博弈者的行為影響,一次又一次的旋轉(zhuǎn)。但是再隨機(jī)的博弈中,博弈者可以去選擇其他的游戲,而不只是拘泥于單一的游戲中。

這是博弈的完整的定義。

我們,定義了

  • 狀態(tài)集Q
  • 博弈者集N
  • 行為集合A
  • 轉(zhuǎn)移概率函數(shù)P(q,a,q'),描述一個(gè)行為a下從一個(gè)狀態(tài)q轉(zhuǎn)移到另一個(gè)狀態(tài)q'的概率。
  • 真實(shí)收益函數(shù)R,描述博弈者的真實(shí)收益。

為了簡(jiǎn)化問(wèn)題,我們常常假設(shè)策略空間再所有的游戲中都向圖
可以形成馬爾科夫簡(jiǎn)單代理隨機(jī)博弈。

重復(fù)游戲中的學(xué)習(xí)

我們會(huì)學(xué)習(xí)到學(xué)習(xí)的兩種形式,在重復(fù)游戲中的兩種形式。

  • fictitious play 虛構(gòu)游戲
  • No-regret learning 無(wú)悔學(xué)習(xí)

不過(guò)大體上,在博弈論中的學(xué)習(xí)是一個(gè)比較火熱的領(lǐng)域,我們有很多的知識(shí)沒(méi)有接觸。

虛構(gòu)游戲

從納什均衡開(kāi)始學(xué)習(xí)

每一個(gè)博弈者explicit對(duì)其他的博弈者的行為有一個(gè)明確的信念。

他們開(kāi)始的信念是一種敵對(duì)的信念。

在每一回合后,每個(gè)博弈者都會(huì)評(píng)估其他人的策略。
觀(guān)察對(duì)手的行為和結(jié)果。

下面我們進(jìn)行剛剛說(shuō)的策略的形式化的表述。

  • 對(duì)于每一個(gè)行為a,讓w(a)作為其他人使用行為a的次數(shù)
  • 評(píng)估的方法就是他們的收益。
    使用如下的公式:
  • 我們舉個(gè)例子來(lái)說(shuō),比如說(shuō)猜硬幣游戲,他的博弈的圖表是這樣的:

    TH
    T3 ,-3-2,2
    H-2,21,-1

    那么我們可以假設(shè)情況是這樣的

    在這樣的情況下,均衡的情況是會(huì)出現(xiàn)的,而且在這種請(qǐng)款下,最終會(huì)達(dá)到納什均衡。

    無(wú)悔學(xué)習(xí)

    首先我們要定義什么是后悔

    后悔的定義是這樣的,

    轉(zhuǎn)載于:https://www.cnblogs.com/zangzelin/p/8595690.html

    總結(jié)

    以上是生活随笔為你收集整理的博弈论 斯坦福game theory stanford week 5.0_的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

    如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。