當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

[ 文献翻译 ] 非合作博弈中的固定时间纳什均衡求解

發(fā)布時間：2023/12/10 编程问答 36 豆豆

生活随笔收集整理的這篇文章主要介紹了 [ 文献翻译 ] 非合作博弈中的固定时间纳什均衡求解小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

Fixed-Time Nash Equilibrium Seeking in Non-Cooperative Games

摘要

我們引入了一個新的納什均衡類，尋求有限個參與者的非合作博弈的動力學(xué)，其中納什均衡的收斂由一個KL函數(shù)來限制，該函數(shù)的建立時間可以由一個獨立于參與者初始條件的正常數(shù)來上限，并且可以由系統(tǒng)設(shè)計者先驗地規(guī)定。從玩家成本函數(shù)的數(shù)學(xué)形式未知的意義上來說，動力學(xué)是無模型的。相反，為了更新自己的行動，每個玩家只需要獲得對其自身成本的實時評估，以及以通信圖為特征的相鄰?fù)婕业妮o助狀態(tài)。建立了潛在對策和強(qiáng)單調(diào)對策的穩(wěn)定性和收斂性。數(shù)值例子說明了我們的理論結(jié)果。

1、介紹

在許多工程和社會技術(shù)系統(tǒng)中，不同實體或子系統(tǒng)之間存在著內(nèi)在的競爭，這些實體或子系統(tǒng)旨在通過控制自己的行為來最大化其個人收益。由于一般來說，子系統(tǒng)的收益也取決于彼此的行為，這種設(shè)置描述了一種標(biāo)準(zhǔn)的非合作博弈，其中納什均衡的概念在過去幾十年中發(fā)揮了重要作用，它提供了玩家沒有動機(jī)偏離的操作點的嚴(yán)格數(shù)學(xué)特征。

在控制和優(yōu)化文獻(xiàn)中，已經(jīng)開發(fā)了幾種迭代算法來計算給定游戲在對玩家可用信息的不同假設(shè)下的納什均衡。文獻(xiàn)表明，受極值搜索思想啟發(fā)的無模型動力學(xué)也可用于實現(xiàn)靜態(tài)和動態(tài)參與者的非合作博弈的納什均衡搜索(NES)。在部分文獻(xiàn)中，在對游戲結(jié)構(gòu)和算法通信要求的不同假設(shè)下，也有類似的想法。然而，盡管幾種算法已經(jīng)能夠以無模型的方式解決納什均衡尋求問題，但是在無模型納什尋求算法的設(shè)計中，實現(xiàn)期望的收斂速度一直是一個持續(xù)的挑戰(zhàn)。

事實上，基于極值搜索的現(xiàn)有NES動力學(xué)只能實現(xiàn)逼近結(jié)果，其中支配玩家行為收斂的界限要么是指數(shù)函數(shù)，要么只是一般的KL界限。在這些情況下，除非動態(tài)增益不斷增加，否則算法的收斂時間將隨著初始條件的緊湊集的增長而無限增長。

一方面，近年來在固定時間優(yōu)化和固定時間控制方面有了一些新的結(jié)果。這類算法可以實現(xiàn)有限時間收斂到期望的目標(biāo)，有限時間可以由獨立于初始條件的常數(shù)上限。然而，在固定時間多智能體學(xué)習(xí)和優(yōu)化的背景下，迄今為止開發(fā)的大多數(shù)結(jié)果僅適用于具有精確數(shù)學(xué)模型的系統(tǒng)，或者適用于沒有空間信息約束的單智能體學(xué)習(xí)問題。在這種背景下，本文提出了第一個具有(半全局實用的)固定時間收斂性質(zhì)的無模型NES動力學(xué)模型。更準(zhǔn)確地說，我們提出了一種新的無模型學(xué)習(xí)算法，該算法保證了參與者的行為收斂到博弈納什均衡的鄰域，收斂界由具有一致有界穩(wěn)定時間的KL函數(shù)來表征。此外，在游戲的單調(diào)性性質(zhì)的適度知識下，可以先驗地規(guī)定穩(wěn)定時間的界限。鑒于這些類型的動力學(xué)必然是非李普希茨連續(xù)的，它們不能用光滑極值搜索控制的標(biāo)準(zhǔn)工具來研究，例如。相反，我們對非光滑極值搜索動力學(xué)使用平均工具。數(shù)值模擬說明了結(jié)果。

本文的其余部分組織如下。第二部分介紹了預(yù)備知識。第三節(jié)介紹了主要的NES公式和主要結(jié)果。證據(jù)在第四節(jié)中給出。第五節(jié)給出了數(shù)值結(jié)果，第六節(jié)以結(jié)論結(jié)束。

2、概念與定義

3、尋求固定時間納什均衡的公式

【10】↓

四.穩(wěn)定性和收斂性分析

我們?yōu)榉呛献鞑┺囊肓诵碌臒o模型固定時間納什均衡尋求動力學(xué)。在這些動態(tài)中，每個玩家只需要評估自己的成本函數(shù)，并與以通信圖為特征的相鄰?fù)婕夜蚕頎顟B(tài)信息。玩家的行為收斂到博弈的納什均衡的鄰域是由具有“固定時間收斂”性質(zhì)的類KLTfunction支配的，其中固定時間可以由系統(tǒng)設(shè)計者使用博弈的最小信息先驗地規(guī)定。數(shù)值例子說明了與傳統(tǒng)的基于梯度描述的學(xué)習(xí)規(guī)則相比，所提出的方法的優(yōu)點，傳統(tǒng)的基于梯度描述的學(xué)習(xí)規(guī)則具有平均系統(tǒng)，只有漸近或指數(shù)收斂特性。未來的研究方向?qū)⒓性诰哂袝r變通信拓?fù)涞膭討B(tài)游戲和設(shè)置上。

總結(jié)

以上是生活随笔為你收集整理的[ 文献翻译 ] 非合作博弈中的固定时间纳什均衡求解的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇： flutter webview浏览器及与
下一篇： js jquery Ajax同步