近端策略优化深度强化学习算法
PPO:Proximal?Policy?Optimization Algorithms,其優(yōu)化的核心目標(biāo)是:
?ppo paper
策略梯度
以下是馬爾可夫決策過程MDP的相關(guān)基礎(chǔ)以及強(qiáng)化學(xué)習(xí)的優(yōu)化目標(biāo):
策略梯度Policy Gradoent的相關(guān)推導(dǎo):
?openai spinningup
重要性采樣
通過從一個已知的分布中采樣來估計(jì)另一個分布。在PPO中,π_old是π的一個近似分布,我們希望學(xué)習(xí)的策略π在π_old的基礎(chǔ)上穩(wěn)步學(xué)習(xí),兩者差距不能太大;于是我們從π_old的分布中采樣,以π/π_old的作為權(quán)重。一個不嚴(yán)謹(jǐn)?shù)睦斫馐遣钪禐?或比值為1都表示兩個變量一致。我們的目的就是期望π在π_old的附近學(xué)習(xí)。
取R(τ)為優(yōu)勢函數(shù)At,可以從每個t為粒度來重新考查PG,在此基礎(chǔ)上對π_old進(jìn)行重要性采樣,最終結(jié)果為:
KL散度
KL散度即兩個分布的相對熵H_p(Q) - H(P):使用不正確的分布Q代替真實(shí)分布P時所產(chǎn)生的額外代價。只有當(dāng)兩個分布一致時,KL散度為0,否則總是正的。在PPO中,KL散度用來衡量policy π與π_old的偏離程度,期望兩者是接近的。
?koller pgm
模型結(jié)構(gòu)
當(dāng)action是連續(xù)動作空間時,policy π網(wǎng)絡(luò)學(xué)習(xí)的是分布的參數(shù)mean和vars;當(dāng)是離散的時候,是其多項(xiàng)式分布。
與off-policy學(xué)習(xí)DQN的Target Network網(wǎng)絡(luò)相似,包含一個策略“目標(biāo)”網(wǎng)絡(luò)π_old,在每次采集完數(shù)據(jù)即學(xué)習(xí)前,π網(wǎng)絡(luò)把參數(shù)同步至π_old。
損失函數(shù)
policy π 網(wǎng)絡(luò)和 Value網(wǎng)絡(luò)是分開的,分別優(yōu)化兩個網(wǎng)絡(luò)的目標(biāo)函數(shù)。
π的目標(biāo)函數(shù):
?ppo paper
注意優(yōu)勢函數(shù)A是基于π_old的。KL散度以懲罰項(xiàng)與優(yōu)勢函數(shù)加在一起,系數(shù)根據(jù)KL的大小調(diào)整。
Value的損失函數(shù):一般的state Value殘差即可。
?openai spinningup
學(xué)習(xí)過程
可以通過多個actor實(shí)現(xiàn)并行采集數(shù)據(jù),π_old指的是采集數(shù)據(jù)的policy,學(xué)習(xí)優(yōu)化可以多次使用數(shù)據(jù),但π_old不變。采樣數(shù)據(jù)的action通過π_old的分布參數(shù)決定的分布上采樣;優(yōu)勢函數(shù)可以是任何一種近似,比如TD Residual:R(s_t, a_t) + V(s_t+1) - V(s)。
?ppo paper
總結(jié)
PPO是一種基于策略梯度優(yōu)化的、面向連續(xù)或離散動作空間的on-policy深度強(qiáng)化學(xué)習(xí)算法。
《新程序員》:云原生和全面數(shù)字化實(shí)踐50位技術(shù)專家共同創(chuàng)作,文字、視頻、音頻交互閱讀總結(jié)
以上是生活随笔為你收集整理的近端策略优化深度强化学习算法的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: FDD系统
- 下一篇: 仿真RM码,及在高斯信道下的译码性能,对