值函数近似Value Function Approximation
1.Introduction?
值函數(shù)有兩種:狀態(tài)值函數(shù)V(s)和動(dòng)作狀態(tài)值函數(shù)Q(s,a)。對(duì)于大規(guī)模MDP問(wèn)題,有很多state或者action需要存儲(chǔ),單個(gè)學(xué)習(xí)每種狀態(tài)的價(jià)值非常慢,因此使用函數(shù)逼近function approximation來(lái)估計(jì)value function。
值函數(shù)逼近有以下三種類型,使用MC或者TD來(lái)更新w即可,不需要再單獨(dú)計(jì)算值函數(shù)
常見的函數(shù)逼近有:
- linear combinations of features
- neural network
- decision tree
- nearest neighbour
2.Incremental Method
2.1Gradient Descent
- 目標(biāo):找到參數(shù)向量w,最小化平方誤差(逼近值函數(shù)和真實(shí)值函數(shù))
- 梯度下降:找到局部最優(yōu)?,是更新步長(zhǎng),每次更新遍歷整個(gè)數(shù)據(jù)集
- 隨機(jī)梯度下降:樣本更新梯度,每次使用單個(gè)樣本更新
?2.2Linear Function Approximation
使用特征向量feature vector表示state
- 使用線性函數(shù)代表值函數(shù)
- 目標(biāo)函數(shù)是參數(shù)w的二次函數(shù)
- SGD收斂于局部最優(yōu)
- 更新規(guī)則非常簡(jiǎn)單
updata=step-size??prediction error??feature value
table lookup:全連接的權(quán)重矩陣
使用table lookup feature,參數(shù)w代表單個(gè)state的價(jià)值
2.3Incremental Prediction Algorithms
- MC:target是回報(bào)
- ?TD:target是
- :target是
?2.4 Incremental Control?Algorithms
與增量預(yù)測(cè)算法相似,區(qū)別在逼近的是動(dòng)作值函數(shù)
- 目標(biāo)函數(shù):最小化均方誤差?
- SGD找到局部最小?
- 線性函數(shù)逼近?
- 控制算法?
- 控制算法的收斂?
3.Batch Method?
Reply能更高效使用數(shù)據(jù)集
(1)not reply: 按照時(shí)間一個(gè)接一個(gè)選擇<state,value>
(2)reply:每次從經(jīng)驗(yàn)D隨機(jī)選擇一個(gè)<state,value>,打亂時(shí)間順序
3.1 SGD with experience reply
給定包含<state,value>的經(jīng)驗(yàn)D,重復(fù)一下操作:
收斂到least squares解,Least squares找到參數(shù)向量w,使其最小化近似值與目標(biāo)值誤差平方和
3.2 DQN?
DQN使用經(jīng)驗(yàn)回放和固定Q值
總結(jié)
以上是生活随笔為你收集整理的值函数近似Value Function Approximation的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。