日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

【强化学习】Actor Critic原理

發布時間:2023/12/2 编程问答 34 豆豆
生活随笔 收集整理的這篇文章主要介紹了 【强化学习】Actor Critic原理 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

PG算法是一種只基于policy的一種方法,存在的問題就是該算法需要完整的狀態序列,且單獨對策略函數進行迭代更新,不太容易收斂。
Actor-critic方法呢是一種將 策略(Policy Based)和價值(Value Based)相結合的方法。下面繼續來理一下AC方法的思路!

Actor-Critic算法包括兩部分,Actor網絡使用PG里的策略函數,負責生成動作,和環境交互,Critic網絡使用價值函數,負責評估Actor的表現,并指導Actor下一階段的動作。
PG中我們用的是蒙特卡羅法來計算每一步的價值部分替代Critic的功能,現在我們在AC中用類似于DQN中的價值函數來替代蒙特卡羅法。

匯總來說,就是Critic通過Q網絡計算狀態的最優價值vt, 而Actor利用vt這個最優價值迭代更新策略函數的參數θ,進而選擇動作,并得到反饋和新的狀態,Critic使用反饋和新的狀態更新Q網絡參數w, 在后面Critic會使用新的網絡參數w來幫Actor計算狀態的最優價值vt。

AC算法的主要缺點在于:無論怎么調參,算法都很難收斂。故后面引入A3C就是為了解決這個問題
重點參考下一篇:AC的注釋版本

總結

以上是生活随笔為你收集整理的【强化学习】Actor Critic原理的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。