日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

强化学习(十四) Actor-Critic

發(fā)布時間:2025/4/5 编程问答 25 豆豆
生活随笔 收集整理的這篇文章主要介紹了 强化学习(十四) Actor-Critic 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

 在強化學習(十三) 策略梯度(Policy Gradient)中,我們講到了基于策略(Policy Based)的強化學習方法的基本思路,并討論了蒙特卡羅策略梯度reinforce算法。但是由于該算法需要完整的狀態(tài)序列,同時單獨對策略函數(shù)進行迭代更新,不太容易收斂。

    在本篇我們討論策略(Policy Based)和價值(Value Based)相結合的方法:Actor-Critic算法。

    本文主要參考了Sutton的強化學習書第13章和UCL強化學習講義的第7講。

1. Actor-Critic算法簡介

    Actor-Critic從名字上看包括兩部分,演員(Actor)和評價者(Critic)。其中Actor使用我們上一節(jié)講到的策略函數(shù),負責生成動作(Action)并和環(huán)境交互。而Critic使用我們之前講到了的價值函數(shù),負責評估Actor的表現(xiàn),并指導Actor下一階段的動作。

    回想我們上一篇的策略梯度,策略函數(shù)就是我們的Actor,但是那里是沒有Critic的,我們當時使用了蒙特卡羅法來計算每一步的價值部分替代了Critic的功能,但是場景比較受限。因此現(xiàn)在我們使用類似DQN中用的價值函數(shù)來替代蒙特卡羅法,作為一個比較通用的Critic。

    也就是說在Actor-Critic算法中,我們需要做兩組近似,第一組是策略函數(shù)的近似:

πθ(s,a)=P(a|s,θ)≈π(a|s)πθ(s,a)=P(a|s,θ)≈π(a|s)

    第二組是價值函數(shù)的近似,對于狀態(tài)價值和動作價值函數(shù)分別是&

總結

以上是生活随笔為你收集整理的强化学习(十四) Actor-Critic的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。