日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

强化学习笔记 DDPG (Deep Deterministic Policy Gradient)

發布時間:2025/4/5 编程问答 28 豆豆
生活随笔 收集整理的這篇文章主要介紹了 强化学习笔记 DDPG (Deep Deterministic Policy Gradient) 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

1 總述

總體來講,和actor-critic 差不多,只不過這里用了target network 和experience relay

強化學習筆記 experience replay 經驗回放_UQI-LIUWJ的博客-CSDN博客

強化學習筆記:Actor-critic_UQI-LIUWJ的博客-CSDN博客

DQN 筆記 State-action Value Function(Q-function)_UQI-LIUWJ的博客-CSDN博客

2 模型介紹

2.1 整體架構

看模型架構和actor-critic 類似,也是訓練一個actor 網絡(策略網絡)以及一個critic網絡(DQN)

?2.2 目標網絡+經驗回放

Q-network和帶目標網絡的DQN一樣

但是這里因為是actor-critic結構,所以相應的策略網絡(actor)也需要有target-network。這樣的話 eval-actor的動作喂給eval-critic,target=actor的動作喂給target-critic

3 soft-replace

????????在DQN中,每過一定的回合,就直接將eval net的所有參數給替換成target net。這種做法被稱為hard replace。

????????DQN 筆記 State-action Value Function(Q-function)_UQI-LIUWJ的博客-CSDN博客

????????

????????而在DDPG中一般采取的是soft replace。即每一個回合都將target net的參數用一個小步長向著eval net的方向更新。如此看來,target net就是eval net的一個比較滯后的版本。

????????

? 3.1? 為什么要把hard replace改成soft replace

????????這是為了使得訓練更加穩定。因為我們加入時滯的target net目的是讓問題變得更像一個監督學習問題,讓label更加穩定。

????????而在hard replace的前后,可能全局所有Q(s_)的label都發生了劇烈的變化,我們可以想成整個監督學習的問題都變了。這樣會導致求解的結果不穩定。

????????而soft replace可以在讓label緩慢地發生變化,更加的平緩一些。

????????

總結

以上是生活随笔為你收集整理的强化学习笔记 DDPG (Deep Deterministic Policy Gradient)的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。