日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

[ 文献翻译 ] 非合作博弈中的固定时间纳什均衡求解

發(fā)布時(shí)間:2023/12/10 编程问答 30 豆豆
生活随笔 收集整理的這篇文章主要介紹了 [ 文献翻译 ] 非合作博弈中的固定时间纳什均衡求解 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

Fixed-Time Nash Equilibrium Seeking in Non-Cooperative Games

摘要

我們引入了一個(gè)新的納什均衡類,尋求有限個(gè)參與者的非合作博弈的動(dòng)力學(xué),其中納什均衡的收斂由一個(gè)KL函數(shù)來限制,該函數(shù)的建立時(shí)間可以由一個(gè)獨(dú)立于參與者初始條件的正常數(shù)來上限,并且可以由系統(tǒng)設(shè)計(jì)者先驗(yàn)地規(guī)定。從玩家成本函數(shù)的數(shù)學(xué)形式未知的意義上來說,動(dòng)力學(xué)是無模型的。相反,為了更新自己的行動(dòng),每個(gè)玩家只需要獲得對(duì)其自身成本的實(shí)時(shí)評(píng)估,以及以通信圖為特征的相鄰?fù)婕业妮o助狀態(tài)。建立了潛在對(duì)策和強(qiáng)單調(diào)對(duì)策的穩(wěn)定性和收斂性。數(shù)值例子說明了我們的理論結(jié)果。

1、介紹

在許多工程和社會(huì)技術(shù)系統(tǒng)中,不同實(shí)體或子系統(tǒng)之間存在著內(nèi)在的競爭,這些實(shí)體或子系統(tǒng)旨在通過控制自己的行為來最大化其個(gè)人收益。由于一般來說,子系統(tǒng)的收益也取決于彼此的行為,這種設(shè)置描述了一種標(biāo)準(zhǔn)的非合作博弈,其中納什均衡的概念在過去幾十年中發(fā)揮了重要作用,它提供了玩家沒有動(dòng)機(jī)偏離的操作點(diǎn)的嚴(yán)格數(shù)學(xué)特征。

在控制和優(yōu)化文獻(xiàn)中,已經(jīng)開發(fā)了幾種迭代算法來計(jì)算給定游戲在對(duì)玩家可用信息的不同假設(shè)下的納什均衡。文獻(xiàn)表明,受極值搜索思想啟發(fā)的無模型動(dòng)力學(xué)也可用于實(shí)現(xiàn)靜態(tài)和動(dòng)態(tài)參與者的非合作博弈的納什均衡搜索(NES)。在部分文獻(xiàn)中,在對(duì)游戲結(jié)構(gòu)和算法通信要求的不同假設(shè)下,也有類似的想法。然而,盡管幾種算法已經(jīng)能夠以無模型的方式解決納什均衡尋求問題,但是在無模型納什尋求算法的設(shè)計(jì)中,實(shí)現(xiàn)期望的收斂速度一直是一個(gè)持續(xù)的挑戰(zhàn)。

事實(shí)上,基于極值搜索的現(xiàn)有NES動(dòng)力學(xué)只能實(shí)現(xiàn)逼近結(jié)果,其中支配玩家行為收斂的界限要么是指數(shù)函數(shù),要么只是一般的KL界限。在這些情況下,除非動(dòng)態(tài)增益不斷增加,否則算法的收斂時(shí)間將隨著初始條件的緊湊集的增長而無限增長。

一方面,近年來在固定時(shí)間優(yōu)化和固定時(shí)間控制方面有了一些新的結(jié)果。這類算法可以實(shí)現(xiàn)有限時(shí)間收斂到期望的目標(biāo),有限時(shí)間可以由獨(dú)立于初始條件的常數(shù)上限。然而,在固定時(shí)間多智能體學(xué)習(xí)和優(yōu)化的背景下,迄今為止開發(fā)的大多數(shù)結(jié)果僅適用于具有精確數(shù)學(xué)模型的系統(tǒng),或者適用于沒有空間信息約束的單智能體學(xué)習(xí)問題。在這種背景下,本文提出了第一個(gè)具有(半全局實(shí)用的)固定時(shí)間收斂性質(zhì)的無模型NES動(dòng)力學(xué)模型。更準(zhǔn)確地說,我們提出了一種新的無模型學(xué)習(xí)算法,該算法保證了參與者的行為收斂到博弈納什均衡的鄰域,收斂界由具有一致有界穩(wěn)定時(shí)間的KL函數(shù)來表征。此外,在游戲的單調(diào)性性質(zhì)的適度知識(shí)下,可以先驗(yàn)地規(guī)定穩(wěn)定時(shí)間的界限。鑒于這些類型的動(dòng)力學(xué)必然是非李普希茨連續(xù)的,它們不能用光滑極值搜索控制的標(biāo)準(zhǔn)工具來研究,例如。相反,我們對(duì)非光滑極值搜索動(dòng)力學(xué)使用平均工具。數(shù)值模擬說明了結(jié)果。

本文的其余部分組織如下。第二部分介紹了預(yù)備知識(shí)。第三節(jié)介紹了主要的NES公式和主要結(jié)果。證據(jù)在第四節(jié)中給出。第五節(jié)給出了數(shù)值結(jié)果,第六節(jié)以結(jié)論結(jié)束。

2、概念與定義


3、尋求固定時(shí)間納什均衡的公式







【10】↓


四.穩(wěn)定性和收斂性分析












我們?yōu)榉呛献鞑┺囊肓诵碌臒o模型固定時(shí)間納什均衡尋求動(dòng)力學(xué)。在這些動(dòng)態(tài)中,每個(gè)玩家只需要評(píng)估自己的成本函數(shù),并與以通信圖為特征的相鄰?fù)婕夜蚕頎顟B(tài)信息。玩家的行為收斂到博弈的納什均衡的鄰域是由具有“固定時(shí)間收斂”性質(zhì)的類KLTfunction支配的,其中固定時(shí)間可以由系統(tǒng)設(shè)計(jì)者使用博弈的最小信息先驗(yàn)地規(guī)定。數(shù)值例子說明了與傳統(tǒng)的基于梯度描述的學(xué)習(xí)規(guī)則相比,所提出的方法的優(yōu)點(diǎn),傳統(tǒng)的基于梯度描述的學(xué)習(xí)規(guī)則具有平均系統(tǒng),只有漸近或指數(shù)收斂特性。未來的研究方向?qū)⒓性诰哂袝r(shí)變通信拓?fù)涞膭?dòng)態(tài)游戲和設(shè)置上。

總結(jié)

以上是生活随笔為你收集整理的[ 文献翻译 ] 非合作博弈中的固定时间纳什均衡求解的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。