當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

强化学习(十四) Actor-Critic

發(fā)布時間：2025/4/5 编程问答 25 豆豆

生活随笔收集整理的這篇文章主要介紹了强化学习(十四) Actor-Critic 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

　在強化學習(十三) 策略梯度(Policy Gradient)中，我們講到了基于策略(Policy Based)的強化學習方法的基本思路，并討論了蒙特卡羅策略梯度reinforce算法。但是由于該算法需要完整的狀態(tài)序列，同時單獨對策略函數(shù)進行迭代更新，不太容易收斂。

　　　　在本篇我們討論策略(Policy Based)和價值(Value Based)相結合的方法：Actor-Critic算法。

　　　　本文主要參考了Sutton的強化學習書第13章和UCL強化學習講義的第7講。

1. Actor-Critic算法簡介

　　　　Actor-Critic從名字上看包括兩部分，演員(Actor)和評價者(Critic)。其中Actor使用我們上一節(jié)講到的策略函數(shù)，負責生成動作(Action)并和環(huán)境交互。而Critic使用我們之前講到了的價值函數(shù)，負責評估Actor的表現(xiàn)，并指導Actor下一階段的動作。

　　　　回想我們上一篇的策略梯度，策略函數(shù)就是我們的Actor，但是那里是沒有Critic的，我們當時使用了蒙特卡羅法來計算每一步的價值部分替代了Critic的功能，但是場景比較受限。因此現(xiàn)在我們使用類似DQN中用的價值函數(shù)來替代蒙特卡羅法，作為一個比較通用的Critic。

　　　　也就是說在Actor-Critic算法中，我們需要做兩組近似，第一組是策略函數(shù)的近似：

πθ(s,a)=P(a|s,θ)≈π(a|s)πθ(s,a)=P(a|s,θ)≈π(a|s)

　　　　第二組是價值函數(shù)的近似，對于狀態(tài)價值和動作價值函數(shù)分別是&

總結

以上是生活随笔為你收集整理的强化学习(十四) Actor-Critic的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇：强化学习(十三) 策略梯度(Policy
下一篇：强化学习(十五) A3C