日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 >

强化学习(十四) Actor-Critic

發布時間:2025/4/5 36 豆豆
生活随笔 收集整理的這篇文章主要介紹了 强化学习(十四) Actor-Critic 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

 在強化學習(十三) 策略梯度(Policy Gradient)中,我們講到了基于策略(Policy Based)的強化學習方法的基本思路,并討論了蒙特卡羅策略梯度reinforce算法。但是由于該算法需要完整的狀態序列,同時單獨對策略函數進行迭代更新,不太容易收斂。

    在本篇我們討論策略(Policy Based)和價值(Value Based)相結合的方法:Actor-Critic算法。

    本文主要參考了Sutton的強化學習書第13章和UCL強化學習講義的第7講。

1. Actor-Critic算法簡介

    Actor-Critic從名字上看包括兩部分,演員(Actor)和評價者(Critic)。其中Actor使用我們上一節講到的策略函數,負責生成動作(Action)并和環境交互。而Critic使用我們之前講到了的價值函數,負責評估Actor的表現,并指導Actor下一階段的動作。

    回想我們上一篇的策略梯度,策略函數就是我們的Actor,但是那里是沒有Critic的,我們當時使用了蒙特卡羅法來計算每一步的價值部分替代了Critic的功能,但是場景比較受限。因此現在我們使用類似DQN中用的價值函數來替代蒙特卡羅法,作為一個比較通用的Critic。

    也就是說在Actor-Critic算法中,我們需要做兩組近似,第一組是策略函數的近似:

πθ(s,a)=P(a|s,θ)≈π(a|s)πθ(s,a)=P(a|s,θ)≈π(a|s)

    第二組是價值函數的近似,對于狀態價值和動作價值函數分別是&

總結

以上是生活随笔為你收集整理的强化学习(十四) Actor-Critic的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。