日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

【David Silver强化学习公开课】-6:Value Function Approximation

發(fā)布時(shí)間:2025/3/15 编程问答 47 豆豆
生活随笔 收集整理的這篇文章主要介紹了 【David Silver强化学习公开课】-6:Value Function Approximation 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

一、介紹

找到一種適應(yīng)真實(shí)情況(很大的狀態(tài)空間)的RL方法,之前的價(jià)值函數(shù)表示是通過一個(gè)S×A的表(Table)來表示Q(s,a)。狀態(tài)空間很大時(shí),這種表示內(nèi)存占用過大,而且單獨(dú)學(xué)習(xí)每個(gè)state的價(jià)值函數(shù)太慢了。而且在遇到?jīng)]有見過的狀態(tài)時(shí),表現(xiàn)會(huì)很差(缺少泛化能力)。

二、價(jià)值函數(shù)逼近-Incremental Online

使用參數(shù)化的價(jià)值函數(shù)V’(s,w)來逼近V(s),或者Q’(s,a,w)逼近Q(s,a)。常用的方法有:特征線性組合,神經(jīng)網(wǎng)絡(luò)等。那么我們就需要不斷的優(yōu)化這個(gè)逼近函數(shù)。

訓(xùn)練逼近函數(shù)的過程中,還要注意數(shù)據(jù)non-stationary和non-iid的性質(zhì)。

  • 梯度下降,以真實(shí)價(jià)值函數(shù)vπ和估計(jì)的價(jià)值函數(shù)的MSE作為objective,用GD進(jìn)行訓(xùn)練。(這里用V函數(shù)舉例,對(duì)Q函數(shù)同理)
J(W)=Eπ[(vπ(s)?v(s,w))2]J(W)=Eπ[(vπ(s)?v′(s,w))2]

但是,在RL中,真實(shí)價(jià)值函數(shù)是不知道的,因此在實(shí)際使用中,我們?cè)诓煌姆椒ㄖ惺褂貌煌膖arget:

MC中,target是GtGt;而TD(0)中,target是Rt+γV(St+1,w)Rt+γV′(St+1,w);TD(λ)中,target是GλtGtλ

所以,我們采用逼近式的策略評(píng)估過程時(shí),相當(dāng)于采用MC或者TD的target,并用GD的訓(xùn)練方式得到一個(gè)與真實(shí)價(jià)值函數(shù)相近的函數(shù)。

三、價(jià)值函數(shù)逼近-batch method

從亂序的數(shù)據(jù)集D中采樣狀態(tài)價(jià)值對(duì),然后用來優(yōu)化逼近函數(shù)。這里的優(yōu)化目標(biāo)是所有樣本的MSE經(jīng)驗(yàn)期望(均值)。

亂序+采樣,減弱了樣本之間本來的相關(guān)性。

這個(gè)部分介紹的內(nèi)容也就是DQN中使用的experience replay。

第二個(gè)DQN中使用的部分就是fixed Q-target,使用兩個(gè)相同的神經(jīng)網(wǎng)絡(luò),但是計(jì)算target的網(wǎng)絡(luò)參數(shù)較老,定期從learning網(wǎng)絡(luò)更新參數(shù)。因?yàn)閠arget老是更新的話,不會(huì)穩(wěn)定。這個(gè)trick其實(shí)理論依據(jù)不強(qiáng),主要是實(shí)踐中效果比較好。

從最后給出的表格可以看出,DQN的訓(xùn)練非常依賴這兩個(gè)trick,沒有這兩種變化的話,效果不怎么好。

原文地址:?http://cairohy.github.io/2017/09/04/deeplearning/%E3%80%8ADavid%20Silver%E5%BC%BA%E5%8C%96%E5%AD%A6%E4%B9%A0%E5%85%AC%E5%BC%80%E8%AF%BE%E3%80%8B-6%EF%BC%9AValue%20Function%20Appro/

與50位技術(shù)專家面對(duì)面20年技術(shù)見證,附贈(zèng)技術(shù)全景圖

總結(jié)

以上是生活随笔為你收集整理的【David Silver强化学习公开课】-6:Value Function Approximation的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。