當前位置：首頁 >

强化学习6——Policy-based RL（MC policy gradient）

發布時間：2025/1/21 53 豆豆

生活随笔收集整理的這篇文章主要介紹了强化学习6——Policy-based RL（MC policy gradient）小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

文章目錄

Policy-based RL
- 思路
- 特點
- 解決噪聲問題
- - use temporal causality
  - include a baseline
- 方法
- - MC policy gradient

Policy-based RL

思路

基于MC采樣的更新方法：

特點

無偏但是噪聲大，噪聲是因為它是隨機采樣的，好的結果和壞的結果差距較大。

解決噪聲問題

use temporal causality

在時序上處理（REINFORCE）

上式梯度更新變為下式，某時刻的獎勵只與當前時刻相關，這樣可以減少無必要的相關性：

include a baseline

再將上式變為下式，減去一個bias，這個bias可以取值為期望，這樣就可以平均一些很離譜的價值：

可以將b取為：

方法

MC policy gradient

??（采樣）這里首先假設一個馬爾科夫過程，我們對這個馬爾科夫鏈進行采樣如下
$τ=(s0,a0,r1,…sT?1,aT?1,rT,sT)～(πθ,P(st+1∣st,at))\tau=\left(s_{0}, a_{0}, r_{1}, \ldots s_{T-1}, a_{T-1}, r_{T}, s_{T}\right) \sim\left(\pi_{\theta}, P\left(s_{t+1} \mid s_{t}, a_{t}\right)\right)$
?
??（要優化的函數） $J(θ)=Eπθ[∑t=0T?1R(st,at)]=∑τP(τ;θ)R(τ)J(\theta)=\mathbb{E}_{\pi_{\theta}}\left[\sum_{t=0}^{T-1} R\left(s_{t}, a_{t}\right)\right]=\sum_{\tau} P(\tau ; \theta) R(\tau)$
（其中 $R(τ)=∑t=0T?1R(st,at)R(\tau)=\sum_{t=0}^{T-1} R\left(s_{t}, a_{t}\right)$ ， $P(τ;θ)=μ(s0)∏t=0T?1πθ(at∣st)p(st+1∣st,at)P(\tau ; \theta)=\mu\left(s_{0}\right) \prod_{t=0}^{T-1} \pi_{\theta}\left(a_{t} \mid s_{t}\right) p\left(s_{t+1} \mid s_{t}, a_{t}\right)$ ）
?
??（要優化的目標） $θ?=arg?max?θJ(θ)=arg?max?θ∑τP(τ;θ)R(τ)\theta^{*}=\underset{\theta}{\arg \max } J(\theta)=\underset{\theta}{\arg \max } \sum_{\tau} P(\tau ; \theta) R(\tau)$
?
??（用于優化的梯度） $?θJ(θ)=∑τP(τ;θ)R(τ)?θlog?P(τ;θ)\nabla_{\theta} J(\theta)=\sum_{\tau} P(\tau ; \theta) R(\tau) \nabla_{\theta} \log P(\tau ; \theta)$
?
??（用MC蒙特卡洛采樣的方法近似梯度） $?θJ(θ)≈1m∑i=1mR(τi)?θlog?P(τi;θ)\nabla_{\theta} J(\theta) \approx \frac{1}{m} \sum_{i=1}^{m} R\left(\tau_{i}\right) \nabla_{\theta} \log P\left(\tau_{i} ; \theta\right)$
?
?? （分解核函數) $?θlog?P(τ;θ)=∑t=0T?1?θlog?πθ(at∣st)\nabla_{\theta} \log P(\tau ; \theta) =\sum_{t=0}^{T-1} \nabla_{\theta} \log \pi_{\theta}\left(a_{t} \mid s_{t}\right)$
?
?? （最后的近似梯度，amazing！！！） $?θJ(θ)≈1m∑i=1mR(τi)∑t=0T?1?θlog?πθ(ati∣st)\nabla_{\theta} J(\theta) \approx \frac{1}{m} \sum_{i=1}^{m} R\left(\tau_{i}\right) \sum_{t=0}^{T-1} \nabla_{\theta} \log \pi_\theta\left(a_{t}^{i} \mid s_{t}\right)$
從上面MC近似的梯度來看，這里并不一定需要model-base。

總結

以上是生活随笔為你收集整理的强化学习6——Policy-based RL（MC policy gradient）的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：强化学习6——Value-based R
下一篇：机器人学一些概念2——四元数，D-H 参