日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

值函数近似Value Function Approximation

發(fā)布時(shí)間:2024/3/26 编程问答 34 豆豆
生活随笔 收集整理的這篇文章主要介紹了 值函数近似Value Function Approximation 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

1.Introduction?

值函數(shù)有兩種:狀態(tài)值函數(shù)V(s)和動(dòng)作狀態(tài)值函數(shù)Q(s,a)。對(duì)于大規(guī)模MDP問(wèn)題,有很多state或者action需要存儲(chǔ),單個(gè)學(xué)習(xí)每種狀態(tài)的價(jià)值非常慢,因此使用函數(shù)逼近function approximation來(lái)估計(jì)value function。

值函數(shù)逼近有以下三種類型,使用MC或者TD來(lái)更新w即可,不需要再單獨(dú)計(jì)算值函數(shù)

常見的函數(shù)逼近有:

  • linear combinations of features
  • neural network
  • decision tree
  • nearest neighbour

2.Incremental Method

2.1Gradient Descent

  • 目標(biāo):找到參數(shù)向量w,最小化平方誤差(逼近值函數(shù)和真實(shí)值函數(shù))

  • 梯度下降:找到局部最優(yōu)?,是更新步長(zhǎng),每次更新遍歷整個(gè)數(shù)據(jù)集

  • 隨機(jī)梯度下降:樣本更新梯度,每次使用單個(gè)樣本更新

?2.2Linear Function Approximation

使用特征向量feature vector表示state

  • 使用線性函數(shù)代表值函數(shù)

  • 目標(biāo)函數(shù)是參數(shù)w的二次函數(shù)

  • SGD收斂于局部最優(yōu)
  • 更新規(guī)則非常簡(jiǎn)單

updata=step-size??prediction error??feature value

table lookup:全連接的權(quán)重矩陣

使用table lookup feature,參數(shù)w代表單個(gè)state的價(jià)值

2.3Incremental Prediction Algorithms

  • MC:target是回報(bào)

  • ?TD:target是

  • :target是

?2.4 Incremental Control?Algorithms

與增量預(yù)測(cè)算法相似,區(qū)別在逼近的是動(dòng)作值函數(shù)

  • 目標(biāo)函數(shù):最小化均方誤差?

  • SGD找到局部最小?

  • 線性函數(shù)逼近?

  • 控制算法?

  • 控制算法的收斂?

3.Batch Method?

Reply能更高效使用數(shù)據(jù)集

(1)not reply: 按照時(shí)間一個(gè)接一個(gè)選擇<state,value>

(2)reply:每次從經(jīng)驗(yàn)D隨機(jī)選擇一個(gè)<state,value>,打亂時(shí)間順序

3.1 SGD with experience reply

給定包含<state,value>的經(jīng)驗(yàn)D,重復(fù)一下操作:

  • 從D中隨機(jī)選擇state和value
  • 使用SGD更新權(quán)重
  • 收斂到least squares解,Least squares找到參數(shù)向量w,使其最小化近似值與目標(biāo)值誤差平方和

    3.2 DQN?

    DQN使用經(jīng)驗(yàn)回放和固定Q值

  • DQN利用卷積神經(jīng)網(wǎng)絡(luò)逼近行為值函數(shù)
  • DQN利用經(jīng)驗(yàn)回放訓(xùn)練強(qiáng)化學(xué)習(xí)過(guò)程
  • DQN設(shè)置目標(biāo)網(wǎng)絡(luò)單獨(dú)處理時(shí)間差分算法中的TD誤差
  • 總結(jié)

    以上是生活随笔為你收集整理的值函数近似Value Function Approximation的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

    如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。