日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

重温强化学习之策略梯度算法

發布時間:2025/4/5 编程问答 33 豆豆
生活随笔 收集整理的這篇文章主要介紹了 重温强化学习之策略梯度算法 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

1、介紹

這里仍考慮無模型的方法:策略是從值函數中導出的,使用貪婪的方法導出最優策略,使用e貪婪策略導出行為策略,直接參數化策略

? ? ? ? ? ? ? ? ? ? ? ? ??

考慮之前強化學習分類:?

? ? ? ? ? 基于值函數的方法:學習值函數、用值函數導出策略

? ? ? ? ? ?基于策略的方法:沒有值函數,學習策略

? ? ? ? ? Actor-Critic:學習值函數、學習策略

?

為什么需要使用策略梯度算法?

? ? ? ?基于值函數方法的局限性:針對確定性策略,策略退化、難以處理高維度的狀態或動作空間(不能處理連續的狀態動作空間)、收斂速度慢

策略模型的建模方式:

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?

策略梯度算法的優缺點:

優點:更好的收斂性、能夠有效的處理高維和連續的動作空間、能夠學到隨機策略、不會導致策略退化

缺點:更容易收斂到局部最優值,難以評價一個策略,而且評價的方差較大

隨機策略例子:

? ? ? ? ? ? ? ? ? ? ??

策略退化:

? ? ? ?真實的最優值函數會導致真實的最優策略,然而近似的最優值函數可能導致完全不同的策略

收斂性對比:

? ? ? 基于值函數的方法:收斂慢,需要對V或Q和pi交替優化,方差小

策略梯度方法:收斂快,直接對pi進行優化,方差大

?

2、策略梯度定理

策略梯度目標函數

? ? ? ? ? ? ? ? ? ? ?

數值法求梯度:

? ? ? ? ? ? ? ? ??

? ? ? ? ? ? ? ? ? ? ? ? ??

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?

? ? ? ? ? ? ? ? ? ? ? ?

策略梯度算法:

? ? ? ? ? ? ? ?

? ? ? ? ? ? ? ? ? ? ? ?

? ? ? ? ? ? ??

? ? ? ? ? ? ? ? ? ??? ?

? ? ? ? ? ? ? ? ? ? ? ? ??? ? ?

? ? ? ? ? ? ? ? ? ?

策略梯度推導:

? ? ? ? ? ? ? ? ?

目標函數說明:

? ? ? ? ? ? ? ? ? ??

? ? ? ? ? ? ? ? ? ? ?? ?

? ? ? ? ? ? ? ? ? ? ? ?

? ? ? ? ? ? ? ? ? ? ? ? ? ?

從似然度的角度:

? ? ? ?? ? ? ?

? ? ? ? ? ? ? ?

? ? ? ? ? ? ? ??

從重要性采樣的角度:

? ? ? ? ? ? ? ??

似然率梯度的理解:

? ? ? ? ? ??

?

? ? ? ? ? ? ? ?

似然率梯度的理解

? ? ? ? ? ?

? ? ? ? ? ? ? ? ? ??

? ? ? ? ? ??

將軌跡分解成狀態和動作:

? ? ? ? ?? ?

似然率梯度估計:

? ? ? ? ? ? ??

3、減少方差

? ? ? ? ? ? ? ? 方差大

? ? ? ? ? ? ? ? 如果所有的R(t)都是正的,那么所有動作出現的概率都會增加

? ? ? ? ? ? ? ?可以通過下列方法減少方差:

? ? ? ? ? ? ? ? ? ? ? 引入基線(baseline)

? ? ? ? ? ? ? ? ? ? ? 修改回報函數

? ? ? ? ? ? ? ? ? ? ? Actor-Critic方法?

? ? ? ? ? ? ? ? ? ? ? 優勢函數

引入基線:

? ? ? ? ? ? ??

怎么選擇基線?

? ? ? ? ? ? ??

最小方差:

? ? ? ? ? ? ? ?

修改回報函數:

? ? ? ? ? ? ??

? ? ? ? ? ? ??

4、Actor-Critic

? ?實際更新算法:

? ? ? ? ? ? ? ??

? ?MC策略梯度(REINFORCE)

? ? ? ? ? ? ? ? ?

? ? ? ? ? ? ? ? ?

? 使用Critic函數減小方差:

? ? ? ? ? ?? ?? ? ? ? ? ? ? ?

? ? ? ? ? ? ? ?

? ? ? ? ? ? ? ? ? ? ? ??

? ? ? ? ? ? ? ?

使用優勢函數減小方差:

? ? ? ? ? ? ? ??優勢函數:

? ? ? ? ? ? ??

使用TD誤差替代優勢函數:

? ? ? ?? ? ??

帶資格跡的策略梯度:

? ? ? ? ? ??

? ? ? ? ? ??

Advantage Actor-Critic算法

? ? ? ? ? ? ??

其它策略梯度算法:

? ? ? ? ? ??

《新程序員》:云原生和全面數字化實踐50位技術專家共同創作,文字、視頻、音頻交互閱讀

總結

以上是生活随笔為你收集整理的重温强化学习之策略梯度算法的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。