日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

非合作关系设定下的多智能体强化学习

發(fā)布時間:2023/12/10 编程问答 36 豆豆
生活随笔 收集整理的這篇文章主要介紹了 非合作关系设定下的多智能体强化学习 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

?

1 非合作關系下的策略學習

在合作關系下,所有智能體的獎勵都相等

在合作關系的剩下,所有智能體有相同的狀態(tài)價值函數,故而有相同的目標函數?

1.1 非合作關系下的回報與目標函數?

如果是非合作關系

——>兩個智能體的獎勵不相等,即

——>他們的回報也不相等,即

——>回報的期望(即價值函數)也不相等,此時我們講這些智能體的價值函數記作

?第 i 個智能體的目標函數是狀態(tài)價值的期望

注意:此時目標函數是各不相同的,也就是說各個智能體之間沒有共同的目標

注意:第i個智能體的目標函數依賴于所有智能體的策略網絡參數

——>因為環(huán)境狀態(tài)S是由所有智能體共同決定的

——>舉個例子,你玩MOBA游戲,你自己的策略假設不變,但你隊友是菜鳥/大神,他們的策略網絡參數θ是不同的,這也會影響到整局比賽的走勢,進而影響你的收益和目標函數值

?1.2?非合作關系下的策略學習

在多智能體的策略學習中,第 i 個智能體的目標是改進自己的策略參數,使得 盡量大。 多智能體的策略學習可以描述為這樣的問題:

再次注意:此時目標函數各不相同,也就是說各個智能體之間沒有共同的目標

?策略學習的基本思想是讓每個智能體各自做策略梯度上升:

?1.2.1 收斂的條件

在合作關系設定下,所有智能體有相同的目標函數, 那么判斷收斂的標準就是目標函數值不再增長。也就是說改變任何智能體的策略都無法讓團隊的回報增長。 在非合作關系設定下,智能體的利益是不一致的、甚至是沖突的,智能體各有各的目標函數。該如何判斷策略學習的收斂呢?不能用 作為判斷收斂的標準。 (比如在零和博弈的游戲中,雙方的目標函數是沖突的:?,如果捕食者改進策略,那么 會增長,而 會下降。自始至終, 一直等于零, 不論策略學習有沒有收斂。
  • 在非合作關系設定下,收斂標準是納什均衡
    • 一個智能體在制定策略的時候,要考慮到其他各方的策略。
    • 在納什均衡的情況下,每一個智能體都在以最優(yōu)的方式來應對其他各方的策略。
    • 在納什均衡的情況下,誰也沒有動機去單獨改變自己的策略,因為改變策略不會增加自己的收益。
    • 這樣就達到了一種平衡狀態(tài),所有智能體都找不到更好的策略。這種平衡狀態(tài)就被認為是收斂。
    • 在實驗中,如果所有智能體的平均回報都不再變化,就可以認為達到了納什均衡

1.2.2 評價策略的優(yōu)劣

?

?

2?非合作設定下的多智能體 A2C

(Multi-Agent Non-cooperative A2C),縮寫 MAN-A2C

2.1 策略網絡和價值網絡

MAN-A2C 中,每個智能體有自己的策略網絡和價值網絡

第 i 個智能體的策略網絡需要把所有智能體的觀測

作為輸入,并輸出一個概率分布
i 個智能體依據該概率分布抽樣得到動作

?

?兩類神經網絡的結構與完全競爭關系下的 MAC-A2C 完全相同。

他們的區(qū)別在于

  • MAC-A2C 用于完全合作關系,所有智能體有相同的狀態(tài)價值函數 Vπ(s), 所以只用一個神經網絡近似 Vπ(s),記作 v(s; w)。
  • MAN-A2C 用于非合作關系,每個智能體各有一個狀態(tài)價值函數 ,所 以每個智能體各自對應一個價值網絡

2.2 算法推導

在非合作關系設定下,第 i 號智能體的動作價值函數記作 ,策略網絡記作

?

我們用作為定理中的基線,并且用價值網絡 近似 和A2C一樣,策略梯度可以近似成:

?于是使用TD上升更新策略網絡參數

?

2.3 訓練流程

?

?和完全合作關系下是一樣的

?每一個智能體自己做價值網絡更新

?

?每一個智能體自己做策略網絡更新

和A2C一樣,MAN-A2C 屬于同策略 (On-policy),不能使用經驗回放。

2.4 決策

?3 三種架構

3.1 中心化訓練+中心化決策

這 種方式是不實用的,僅大家理解算法而已。 中央控制器 (Central Controller)里面部署了所有 m 個價值網絡和策略網絡:

?

?訓練和決策全部由中央控制器完成。智能體負責與環(huán)境交互,執(zhí)行中央控制器的決策, 并把觀測到的 和 匯報給中央控制器。

?3.1.1?MAC-A2C 與?MAN-A2C 的區(qū)別

  • MAC-A2C 的中央控制器上只有一個價值網絡, MAN-A2C 則有 m 個價值網絡。
  • MAC-A2C 的每一輪只有一個全局的獎勵rMAN-A2C 的每個智能體都有自己的獎勵

3.2?去中心化訓練 + 去中心化決策

為了避免“完全中心化”中的通信,可以對策略網絡和價值網絡做近似,做到“完 全去中心化”。把 MAN-A2C 中的策略網絡和價值網絡做近似:

?

?

此處的的實現(xiàn)與完全合作關系設定下的“完全去中心化”幾乎完全相同 。 唯一的區(qū)別在于此處每個智能體獲得的獎勵 ri是不同的,而上一章完全合作關系設定下的獎勵是相同的

?

3.3?中心化訓練 + 去中心化決策

與“完全中心化”的 MAN-A2C 相比,唯一的區(qū)別在于對策略網絡做近似:

?

由于用智能體局部觀測 替換了全局狀態(tài),策略網絡可以部署到每個智能體上。而價值網絡仍然是,沒有做近似。

?

中央控制器上有所有的價值網絡及其目標網絡

?中央控制器用智能體發(fā)來的觀測和獎勵訓練這些價值網絡。

  • 中央控制器把 TD 誤差反饋給智能體
  • 第i號智能體用,本地的更新自己的策略網絡

3.3.1 中心化訓練

?

?每一個智能體與環(huán)境交互,獲得數據

中央控制器分別更新m個智能體的?價值網絡和目標網絡

?

?中央控制器把 TD 誤差反饋給對應的智能體后,每個智能體分別更新自己的策略網絡

?3.3.2 去中心化決策

?

總結

以上是生活随笔為你收集整理的非合作关系设定下的多智能体强化学习的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。

主站蜘蛛池模板: 中文字幕人妻精品一区 | 少妇av一区二区三区无码 | 91丝袜呻吟高潮美腿白嫩在线观看 | 91精品导航| 又白又嫩毛又多15p 超碰在线一区 | 视频在线一区二区三区 | 国产精品第一区 | 舒淇裸体午夜理伦 | 日韩一区欧美二区 | 一本色道久久综合精品婷婷 | 色com| 美女视频毛片 | 亚洲精品久久久久久动漫器材一区 | 国产成人av网站 | 黑人精品欧美一区二区蜜桃 | 风间由美在线视频 | 天天躁夜夜躁av天天爽 | 91九色偷拍 | av网站在线免费播放 | 男生插女生的网站 | 手机免费av | 国产农村妇女aaaaa视频 | 美女视频黄a视频全免费观看 | 蜜臀一区二区三区精品免费视频 | 日韩69视频| 中文字幕影片免费在线观看 | 国内自拍小视频 | 成人国产精品久久久网站 | 久久久久一区二区三区四区 | 亚欧日韩av| 岛国av在线 | 四川丰满妇女毛片四川话 | 国产口爆吞精一区二区 | 成人中文字幕+乱码+中文字幕 | 精品久久久久久无码国产 | 欧洲女女同性videoso | 亚洲av中文无码乱人伦在线观看 | 亚洲国产成人精品久久 | 九草在线| 美女屁股眼视频免费 | 无码精品一区二区三区在线 | 国产无精乱码一区二区三区 | 色播基地 | 明日花绮罗高潮无打码 | 男女三级视频 | 欧美第一页在线 | 五月天综合婷婷 | 成人综合影院 | 成人自拍av | 一区二区三区在线播放视频 | 噜噜色网 | 国产精品一区无码 | 国产成人无码AA精品区 | 日日干日日摸 | 天天看天天摸天天操 | 亚洲精品国产熟女久久久 | 亚洲男人天堂2019 | 欧美一级黑人 | 国产在线视频卡一卡二 | 黄色精品一区二区 | 粉嫩av四季av绯色av | 蜜桃在线一区二区 | 高潮毛片无遮挡 | 成人三区 | 国产九九精品 | 黄色污污网站 | 国产精品无码一区二区桃花视频 | 国产中文欧美日韩在线 | 最新中文字幕在线观看视频 | 97视频在线免费观看 | 肌肉猛男裸体gay网站免费 | 97狠狠| 女女h百合无遮涩涩漫画软件 | 成人福利视频 | 国产毛片3 | 国产视频九色蝌蚪 | 午夜啊啊啊 | 亚洲av综合色区 | 人妻与黑人一区二区三区 | 女生扒开尿口 | 欧美激情精品久久久久久变态 | 欧美亚洲大片 | 蜜臀av免费一区二区三区水牛 | 欧美黄色免费大片 | 无人在线观看高清视频 | 亚洲天堂久久久久 | 日韩中文字幕网 | 亚洲色成人一区二区三区小说 | 免费黄色观看 | 激情视频国产 | 亚洲深爱 | 今天高清视频在线观看视频 | 日本久久成人 | 不卡二区 | 九七在线视频 | 深夜福利网址 | 狠狠狠狠狠狠干 | 欧美精品一区在线观看 | 久久精品国产亚洲av麻豆蜜芽 |