日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

近端策略优化深度强化学习算法

發(fā)布時間:2025/4/5 编程问答 20 豆豆
生活随笔 收集整理的這篇文章主要介紹了 近端策略优化深度强化学习算法 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

PPO:Proximal?Policy?Optimization Algorithms,其優(yōu)化的核心目標(biāo)是:

?ppo paper

策略梯度

以下是馬爾可夫決策過程MDP的相關(guān)基礎(chǔ)以及強(qiáng)化學(xué)習(xí)的優(yōu)化目標(biāo):

策略梯度Policy Gradoent的相關(guān)推導(dǎo):

?openai spinningup

重要性采樣

通過從一個已知的分布中采樣來估計(jì)另一個分布。在PPO中,π_old是π的一個近似分布,我們希望學(xué)習(xí)的策略π在π_old的基礎(chǔ)上穩(wěn)步學(xué)習(xí),兩者差距不能太大;于是我們從π_old的分布中采樣,以π/π_old的作為權(quán)重。一個不嚴(yán)謹(jǐn)?shù)睦斫馐遣钪禐?或比值為1都表示兩個變量一致。我們的目的就是期望π在π_old的附近學(xué)習(xí)。

取R(τ)為優(yōu)勢函數(shù)At,可以從每個t為粒度來重新考查PG,在此基礎(chǔ)上對π_old進(jìn)行重要性采樣,最終結(jié)果為:

KL散度

KL散度即兩個分布的相對熵H_p(Q) - H(P):使用不正確的分布Q代替真實(shí)分布P時所產(chǎn)生的額外代價。只有當(dāng)兩個分布一致時,KL散度為0,否則總是正的。在PPO中,KL散度用來衡量policy π與π_old的偏離程度,期望兩者是接近的。

?koller pgm

模型結(jié)構(gòu)

當(dāng)action是連續(xù)動作空間時,policy π網(wǎng)絡(luò)學(xué)習(xí)的是分布的參數(shù)mean和vars;當(dāng)是離散的時候,是其多項(xiàng)式分布。

與off-policy學(xué)習(xí)DQN的Target Network網(wǎng)絡(luò)相似,包含一個策略“目標(biāo)”網(wǎng)絡(luò)π_old,在每次采集完數(shù)據(jù)即學(xué)習(xí)前,π網(wǎng)絡(luò)把參數(shù)同步至π_old。

損失函數(shù)

policy π 網(wǎng)絡(luò)和 Value網(wǎng)絡(luò)是分開的,分別優(yōu)化兩個網(wǎng)絡(luò)的目標(biāo)函數(shù)。

π的目標(biāo)函數(shù):

?ppo paper

注意優(yōu)勢函數(shù)A是基于π_old的。KL散度以懲罰項(xiàng)與優(yōu)勢函數(shù)加在一起,系數(shù)根據(jù)KL的大小調(diào)整。

Value的損失函數(shù):一般的state Value殘差即可。

?openai spinningup

學(xué)習(xí)過程

可以通過多個actor實(shí)現(xiàn)并行采集數(shù)據(jù),π_old指的是采集數(shù)據(jù)的policy,學(xué)習(xí)優(yōu)化可以多次使用數(shù)據(jù),但π_old不變。采樣數(shù)據(jù)的action通過π_old的分布參數(shù)決定的分布上采樣;優(yōu)勢函數(shù)可以是任何一種近似,比如TD Residual:R(s_t, a_t) + V(s_t+1) - V(s)。

?ppo paper

總結(jié)

PPO是一種基于策略梯度優(yōu)化的、面向連續(xù)或離散動作空間的on-policy深度強(qiáng)化學(xué)習(xí)算法。

《新程序員》:云原生和全面數(shù)字化實(shí)踐50位技術(shù)專家共同創(chuàng)作,文字、視頻、音頻交互閱讀

總結(jié)

以上是生活随笔為你收集整理的近端策略优化深度强化学习算法的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。