當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

PPO、GAE笔记

發(fā)布時間：2023/12/18 编程问答 27 豆豆

生活随笔收集整理的這篇文章主要介紹了 PPO、GAE笔记小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

一、重要性采樣

TRPO和PPO主要思想的數(shù)學(xué)基礎(chǔ)是重要性采樣

重要性采樣： $x_i$ 是從 $p (x)$ 分布中采樣得到的，但是 $p (x)$ 的值往往無法直接獲得，需要通過其他分布 $q (x)$ 進行間接采樣獲得。

$Ex～p[f(x)]=∫f(x)p(x)dx=∫f(x)p(x)q(x)q(x)dx=Ex～q[f(x)p(x)q(x)]\begin{aligned} \mathbb{E}_{x\sim p}[f(x)] &=\int f(x)p(x) dx \\ &=\int f(x) \frac{p(x)}{q(x)}q(x)dx \\ &=\mathbb{E}_{x\sim q}[f(x)\frac{p(x)}{q(x)}] \end{aligned}$

條件：
- $p$ 分布與 $q$ 分布需要相近，才能得到較好的效果。
用在強化學(xué)習(xí)里面:
- 由于策略梯度原始公式中的新策略分布難以得到，因而使用舊策略進行間接采樣，以使得未知項變成可估計的已知項進行計算。

二、梯度與參數(shù)更新

1. 回報的期望： 最大化全部采樣軌跡上的策略回報值
$Rθˉ=∑τR(τ)pθ(τ)\bar{R_\theta}=\sum_\tau R(\tau)p_\theta(\tau)$
2. 回報的期望的梯度：(第三個等號用到的公式： $?f(x)=f(x)?log?f(x)\nabla f(x) = f(x) \nabla \log f(x)$ )

$?Rθˉ=∑τR(τ)?pθ(τ)=∑τR(τ)pθ(τ)?pθ(τ)pθ(τ)=∑τR(τ)pθ(τ)?log?pθ(τ)=Eτ～pθτ[R(τ)?log?pθ(τ)]≈1N∑n=1NR(τn)?log?pθ(τn)=1N∑n=1N∑t=1TnR(τn)?log?pθ(atn∣stn)\begin {aligned} \nabla \bar{R_\theta}&=\sum_\tau R(\tau) \nabla p_{\theta}(\tau) \\ &= \sum_\tau R(\tau)p_\theta(\tau)\frac{\nabla p_\theta(\tau)}{p_\theta(\tau)} \\ &= \sum_\tau R(\tau)p_\theta(\tau){\nabla \log p_\theta(\tau)}\\ &= \mathbb{E}_{\tau \sim p_\theta{\tau}}[R(\tau){\nabla \log p_\theta(\tau)}] \\ &≈ \frac{1}{N} \sum_{n=1}^{N}R(\tau^n)\nabla \log p_{\theta}(\tau^n) \\ &=\frac{1}{N}\sum_{n=1}^{N} \sum_{t=1}^{T_n} R(\tau^n)\nabla \log p_\theta(a_t^n|s_t^n) \end {aligned}$

式中

$N$ 表示采樣了 $N$ 條trajectory, $T_n$ 表示每條trajectory的step數(shù)量。
關(guān)于 $pθ(τ)p_{\theta}(\tau)$
$pθ(τ)=p(s1)pθ(a1∣s1)p(s2∣s1,a1)pθ(a2∣s2)p(s3∣s2,a2)...=p(s1)∏t=1Tpθ(at∣st)p(st+1∣st,at)\begin{aligned} p_{\theta}(\tau) &= p(s_1)p_\theta(a_1|s_1)p(s_2|s_1,a_1)p_\theta(a_2|s_2)p(s_3|s_2,a_2) \space\space...\space\space \\ &=p(s_1) \prod_{t=1}^T p_{\theta}(a_t|s_t)p(s_{t+1}|s_t, a_t) \end{aligned}$
由兩部分組成一部分是來自環(huán)境的 $pθ(st+1∣st,a)p_\theta(s_{t+1}|s_t, a)$ ，一部分是來自agent的 $pθ(at∣st)p_\theta {(a_t|s_t)}$ , 其中來自環(huán)境的部分不帶入計算，策略更新只考慮agent這部分。所以最后一步并沒有 $t + 1$ 這部分。

3. 參數(shù)更新：
$θ=θ+η?Rθˉ\theta = \theta+\eta \nabla \bar{R_\theta}$

三、實際算法中對策略梯度的處理方法

1. 策略梯度方法：

加入baseline
$?Rθˉ=1N∑n=1N(R(τn)?b)?log?pθ(τn)b≈E[R(τ)]\nabla \bar{R_\theta}=\frac{1}{N} \sum_{n=1}^{N}(R(\tau^n)-b)\nabla \log p_{\theta}(\tau^n) \\ b≈\mathbb{E}[R(\tau)]$

$b$ 的加入保證reward不是恒大于0的，若reward一直大于0，則會導(dǎo)致未被采樣的action無法得到提升，但其實該action并不是不好而是未被采樣。

2. 狀態(tài)值函數(shù)估計軌跡回報：

$R(τn)?bR(\tau^n)-b$ 部分使用狀態(tài)值函數(shù)來替代
$q (s, a)$

3. 優(yōu)勢函數(shù)估計軌跡回報（Actor-Critic）：

$R(τn)?bR(\tau^n)-b$ 部分用以下Advantage function來替代

$A(s_t,a_t)= q(s,a)-V(s)$

4. TD-Error估計軌跡回報：

$R(τn)?bR(\tau^n)-b$ 部分用以下TD-Error 代替
$r(s_t. a_t)+v(s_{t+1})-v(s)?$

四、GAE(Generalized Advantage Estimation)

GAE的作用

GAE的意思是泛化優(yōu)勢估計，因而他是用來優(yōu)化Advantage Function優(yōu)勢函數(shù)的。
GAE的存在是用來權(quán)衡variance和bias問題的：
- On-policy直接交互并用每一時刻的回報作為長期回報的估計 $∑t′=tTγt′?trt′\sum_{t'=t}^{T} \gamma^{t'-t}r_{t'}$ 會產(chǎn)生較大的方差，Variance較大。
- 而通過基于優(yōu)勢函數(shù)的AC方法來進行回報值估計，則會產(chǎn)生方差較小，而Bias較大的問題。

GAE 推導(dǎo)

滿足 $γ\gamma$ -just條件。(未完待續(xù))

GAE形式

GAE的形式為多個價值估計的加權(quán)平均數(shù)。
$Error=\delta_t=r_t+\gamma v(s_{t+1})-v(s_t)$
運用GAE公式進行優(yōu)勢函數(shù)的估計：

$∑l=0∞(γλ)lδt+1V\sum_{l=0}^\infin(\gamma\lambda)^l \delta_{t+1}^V$

? 為了快速估計序列中所有時刻的估計值，采用倒序計算，從t+1時刻估計t時刻：
$At^GAE(γ,λ)=∑l=0∞(γλ)lδt+1V=δtV+γλA^t+1GAE(γ,λ)\hat{A_t}^{GAE(\gamma,\lambda)}=\sum_{l=0}^{\infin}(\gamma\lambda)^l \delta_{t+1}^V=\delta_t^V+\gamma\lambda\hat{A}_{t+1}^{GAE(\gamma,\lambda)}$

五、PPO關(guān)于策略梯度的目標函數(shù)

以上所述的策略梯度算法屬于on-policy的算法，而PPO屬于off-policy的算法

on-policy: 使用當(dāng)前策略 $πθ\pi_\theta$ 收集數(shù)據(jù)，當(dāng)參數(shù) $θ\theta$ 更新后，必須重新采樣。
$?Rθˉ=Eτ～pθτ[R(τ)?log?pθ(τ)]\nabla \bar{R_\theta}=\mathbb{E}_{\tau \sim p_\theta{\tau}}[R(\tau){\nabla \log p_\theta(\tau)}]$
off-policy: 可以從可重用的樣本數(shù)據(jù)中獲取樣本來訓(xùn)練當(dāng)前的策略 $πθ\pi _\theta$ ，下式用了重要性采樣。
$?Rθˉ=Eτ～pθ′τ[pθ(τ)pθ′(τ)R(τ)?log?pθ(τ)]\nabla \bar{R_\theta}=\mathbb{E}_{\tau \sim p_{\theta^\prime}{\tau}}[\frac{p_\theta(\tau)}{p_{\theta^\prime}(\tau)} R(\tau){\nabla \log p_\theta(\tau)}]$

1. PPO目標函數(shù)

對于PPO而言，軌跡回報通過采用Advantage function的方式進行估計，因而其梯度更新方式為：
$?Rθˉ=E(st,at)～πθ[Aθ(st,at)?log?pθ(atn∣stn)]=E(st,at)～πθ′[pθ(st,at)pθ′(st,at)Aθ′(st,at)?log?pθ(atn∣stn)]=E(st,at)～πθ′[pθ(at∣st)pθ′(at∣st)pθ(st)pθ′(st)Aθ′(st,at)?log?pθ(atn∣stn)]≈E(st,at)～πθ′[?pθ(at∣st)pθ′(at∣st)Aθ′(st,at)]\begin{aligned} \nabla \bar{R_\theta} &=\mathbb{E}_{(s_t,a_t)\sim\pi_\theta}[A^\theta(s_t,a_t)\nabla \log p_\theta({a_t^n|s_t^n})] \\ &=\mathbb{E}_{(s_t,a_t)\sim\pi_\theta^\prime}[\frac{p_\theta(s_t,a_t)}{p_\theta^\prime(s_t,a_t)}A^{\theta^\prime}(s_t,a_t)\nabla \log p_\theta({a_t^n|s_t^n})] \\ &=\mathbb{E}_{(s_t,a_t)\sim\pi_\theta^\prime}[\frac{p_\theta(a_t|s_t)}{p_\theta^\prime(a_t|s_t)}\frac{p_\theta(s_t)}{p_\theta^\prime(s_t)}A^{\theta^\prime}(s_t,a_t)\nabla \log p_\theta({a_t^n|s_t^n})] \\ &≈\mathbb{E}_{(s_t,a_t) \sim \pi_\theta^\prime}[\frac{\nabla p_\theta(a_t|s_t)}{p_\theta^\prime(a_t|s_t)}A^{\theta^\prime}(s_t,a_t)] \end{aligned}$
? 其中，從第二個等式用的是重要性采樣，第三到第四個約等式由于 $pθ(st)pθ′(st)\frac{p_\theta(s_t)}{p_\theta^\prime(s_t)}$ 這一項來源于重要性采樣，前提假設(shè)兩個分布差別不大，近似為1，且不易計算，故省略，后面的 $?log?pθ(atn∣stn)\nabla \log p_\theta({a_t^n|s_t^n})$ ,根據(jù)公式 $?f(x)=f(x)?log?f(x)\nabla f(x) = f(x) \nabla \log f(x)$ 轉(zhuǎn)換。

? 因而，定義目標函數(shù)為：
$Jθ′(θ)=E(st,at)～πθ′[pθ(at∣st)pθ′(at∣st)Aθ′(st,at)]J^{\theta^{\prime}} (\theta)=\mathbb{E}_{(s_t,a_t) \sim \pi_\theta^\prime}[\frac{p_\theta(a_t|s_t)}{p_\theta^\prime(a_t|s_t)}A^{\theta^\prime}(s_t,a_t)]$

2. PPO對于重要性采樣約束的處理

? 為了保證$p_\theta(s_t,a_t) $ 與 $pθ′(st,at)p_\theta^\prime(s_t,a_t)$ 分布的差別不會太大，采用以下約束：

TRPO：使用約束 $KL(θ,θ′)<δKL(\theta,\theta')<\delta$ ，在分布上進行約束。
PPO1(Adaptive KL)：使用 $JPPOθ′(θ)=Jθ′(θ)?βKL(θ,θ′)J_{PPO}^{\theta'}(\theta)=J^{\theta'}(\theta)-\beta KL(\theta,\theta')$ ，在目標函數(shù)上加一個正則項進行約束，注意，這里KL散度衡量的是action之間的距離，而不是參數(shù) $θ\theta$ 與 $θ′\theta'$ 之間的距離。
PPO2 (Clip，論文中推薦的)：使用 $JPPO2θ′(θ)=∑(st,at)min?{([pθ(at∣st)pθ′(at∣st)Aθ′(st,at)],[clip(pθ(at∣st)pθ′(at∣st),1??,1+?)Aθ′(st,at)])}J_{PPO_2}^{\theta'}(\theta)=\sum_{(s_t,a_t)}\min\{([\frac{p_\theta(a_t|s_t)}{p_\theta^\prime(a_t|s_t)}A^{\theta^\prime}(s_t,a_t)], [clip(\frac{p_\theta(a_t|s_t)}{p_\theta^\prime(a_t|s_t)},1-\epsilon,1+\epsilon)A^{\theta^\prime}(s_t,a_t)])\}$ , 來約束分布距離。

3. 使用GAE對優(yōu)勢函數(shù)進行優(yōu)化

def get_gaes(self, rewards, v_preds, v_preds_next):"""GAE:param rewards: r(t):param v_preds: v(st):param v_preds_next: v(st+1):return:"""deltas = [r_t + self.gamma * v_next - v for r_t, v_next, v in zip(rewards, v_preds_next, v_preds)]#計算GAE(lambda = 1), 參見 ppo paper eq(11)gaes = copy.deepcopy(deltas)# 倒序計算GAEfor t in reversed(range(len(gaes) - 1)):gaes[t] = gaes[t] + self.gamma * gaes[t + 1]return gaes

六、 PPO的目標函數(shù)

PPO的最終目標函數(shù)由三部分組成，可使用梯度下降求解，而不是像TRPO一樣使用共軛梯度法：

策略梯度目標函數(shù)： $LtCLIP(θ)L_t^{CLIP}(\theta)$
值函數(shù)目標函數(shù)： $LtVF(θ)=(Vθ(st)?Vttarget)2L_t^{VF}(\theta)=(V_\theta(s_t)-V_t^{target})^2$
策略模型的熵: $S[πθ](st)S_[\pi_\theta](s_t)$

完整的形式如下：
$LtPPO2(θ)=E^t[LtCLIP(θ)?c1LtVF(θ)+c2S[πθ](st)]L_t^{PPO_2}(\theta)=\hat{\mathbb{E}}_t[L_t^{CLIP}(\theta)-c_1L_t^{VF}(\theta)+c_2S_[\pi_\theta](s_t)]$
這部分相應(yīng)的代碼如下：

with tf.variable_scope('assign_op'):self.assign_ops = []for v_old, v in zip(old_pi_trainable, pi_trainable):self.assign_ops.append(tf.assign(v_old, v))# inputs for train_op with tf.variable_scope('train_inp'):self.actions = tf.placeholder(dtype=tf.int32, shape=[None], name='actions')self.rewards = tf.placeholder(dtype=tf.float32, shape=[None], name='rewards')self.v_preds_next = tf.placeholder(dtype=tf.float32, shape=[None], name='v_preds_next')self.gaes = tf.placeholder(dtype=tf.float32, shape=[None], name='gaes')act_probs = self.Policy.act_probs act_probs_old = self.Old_Policy.act_probs# agent通過新策略選擇action的概率 probabilities of actions which agent took with policy act_probs = act_probs * tf.one_hot(indices=self.actions, depth=act_probs.shape[1]) act_probs = tf.reduce_sum(act_probs, axis=1)# agent通過舊策略選擇action的概率 probabilities of actions which agent took with old policy act_probs_old = act_probs_old * tf.one_hot(indices=self.actions, depth=act_probs_old.shape[1]) act_probs_old = tf.reduce_sum(act_probs_old, axis=1)with tf.variable_scope('PPO_loss'):"""策略目標函數(shù)"""## ratios = tf.divide(act_probs, act_probs_old)# r_t(θ) = π/πold 為了防止除數(shù)為0，這里截取一下值，然后使用e(log減法)來代替直接除法ratios = tf.exp(tf.log(tf.clip_by_value(act_probs, 1e-10, 1.0)) - tf.log(tf.clip_by_value(act_probs_old, 1e-10, 1.0)))# L_CLIP 裁剪優(yōu)勢函數(shù)值clipped_ratios = tf.clip_by_value(ratios, clip_value_min=1 - clip_value, clip_value_max=1 + clip_value)self.loss_clip = tf.minimum(tf.multiply(self.gaes, ratios), tf.multiply(self.gaes, clipped_ratios))self.loss_clip = tf.reduce_mean(self.loss_clip)"""策略模型的熵"""# 計算新策略πθ的熵 S = -p log(p) 這里裁剪防止p=0self.entropy = -tf.reduce_sum(self.Policy.act_probs * tf.log(tf.clip_by_value(self.Policy.act_probs, 1e-10, 1.0)), axis=1)self.entropy = tf.reduce_mean(self.entropy, axis=0) # mean of entropy of pi(obs)"""值目標函數(shù)"""# L_vf = [(r+γV(π(st+1))) - (V(π(st)))]^2v_preds = self.Policy.v_predsself.loss_vf = tf.squared_difference(self.rewards + self.gamma * self.v_preds_next, v_preds)self.loss_vf = tf.reduce_mean(self.loss_vf)# construct computation graph for loss# L(θ) = E_hat[L_CLIP(θ) - c1 L_VF(θ) + c2 S[πθ](s)]# L = 策略目標函數(shù) + 值目標函數(shù) + 策略模型的熵self.loss = self.loss_clip - c_1 * self.loss_vf + c_2 * self.entropy# minimize -loss == maximize lossself.loss = -self.lossoptimizer = tf.train.RMSPropOptimizer(learning_rate=args.ppo_lr, epsilon=1e-5) self.gradients = optimizer.compute_gradients(self.loss, var_list=pi_trainable) self.train_op = optimizer.minimize(self.loss, var_list=pi_trainable)

總結(jié)

以上是生活随笔為你收集整理的PPO、GAE笔记的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇：深澜系统服务器架构,S7510E-X结合
下一篇：星载SAR的各项指标解读（史上最全）