當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

【强化学习】Actor Critic原理

發布時間：2023/12/2 编程问答 34 豆豆

生活随笔收集整理的這篇文章主要介紹了【强化学习】Actor Critic原理小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

PG算法是一種只基于policy的一種方法，存在的問題就是該算法需要完整的狀態序列，且單獨對策略函數進行迭代更新，不太容易收斂。
Actor-critic方法呢是一種將策略(Policy Based)和價值(Value Based)相結合的方法。下面繼續來理一下AC方法的思路！

Actor-Critic算法包括兩部分，Actor網絡使用PG里的策略函數，負責生成動作，和環境交互，Critic網絡使用價值函數，負責評估Actor的表現，并指導Actor下一階段的動作。
PG中我們用的是蒙特卡羅法來計算每一步的價值部分替代Critic的功能，現在我們在AC中用類似于DQN中的價值函數來替代蒙特卡羅法。

匯總來說，就是Critic通過Q網絡計算狀態的最優價值vt, 而Actor利用vt這個最優價值迭代更新策略函數的參數θ,進而選擇動作，并得到反饋和新的狀態，Critic使用反饋和新的狀態更新Q網絡參數w, 在后面Critic會使用新的網絡參數w來幫Actor計算狀態的最優價值vt。

AC算法的主要缺點在于：無論怎么調參，算法都很難收斂。故后面引入A3C就是為了解決這個問題
重點參考下一篇：AC的注釋版本

總結

以上是生活随笔為你收集整理的【强化学习】Actor Critic原理的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：华为4G路由器2如何连接华为两个路由器连
下一篇：【强化学习】AC注释版本