【强化学习】Actor Critic原理
生活随笔
收集整理的這篇文章主要介紹了
【强化学习】Actor Critic原理
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
PG算法是一種只基于policy的一種方法,存在的問題就是該算法需要完整的狀態序列,且單獨對策略函數進行迭代更新,不太容易收斂。
Actor-critic方法呢是一種將 策略(Policy Based)和價值(Value Based)相結合的方法。下面繼續來理一下AC方法的思路!
Actor-Critic算法包括兩部分,Actor網絡使用PG里的策略函數,負責生成動作,和環境交互,Critic網絡使用價值函數,負責評估Actor的表現,并指導Actor下一階段的動作。
PG中我們用的是蒙特卡羅法來計算每一步的價值部分替代Critic的功能,現在我們在AC中用類似于DQN中的價值函數來替代蒙特卡羅法。
匯總來說,就是Critic通過Q網絡計算狀態的最優價值vt, 而Actor利用vt這個最優價值迭代更新策略函數的參數θ,進而選擇動作,并得到反饋和新的狀態,Critic使用反饋和新的狀態更新Q網絡參數w, 在后面Critic會使用新的網絡參數w來幫Actor計算狀態的最優價值vt。
AC算法的主要缺點在于:無論怎么調參,算法都很難收斂。故后面引入A3C就是為了解決這個問題
重點參考下一篇:AC的注釋版本
總結
以上是生活随笔為你收集整理的【强化学习】Actor Critic原理的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 华为4G路由器2如何连接华为两个路由器连
- 下一篇: 【强化学习】AC注释版本