值函数近似Value Function Approximation
生活随笔
收集整理的這篇文章主要介紹了
值函数近似Value Function Approximation
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
1.Introduction?
值函數有兩種:狀態值函數V(s)和動作狀態值函數Q(s,a)。對于大規模MDP問題,有很多state或者action需要存儲,單個學習每種狀態的價值非常慢,因此使用函數逼近function approximation來估計value function。
值函數逼近有以下三種類型,使用MC或者TD來更新w即可,不需要再單獨計算值函數
常見的函數逼近有:
- linear combinations of features
- neural network
- decision tree
- nearest neighbour
2.Incremental Method
2.1Gradient Descent
- 目標:找到參數向量w,最小化平方誤差(逼近值函數和真實值函數)
- 梯度下降:找到局部最優?,是更新步長,每次更新遍歷整個數據集
- 隨機梯度下降:樣本更新梯度,每次使用單個樣本更新
?2.2Linear Function Approximation
使用特征向量feature vector表示state
- 使用線性函數代表值函數
- 目標函數是參數w的二次函數
- SGD收斂于局部最優
- 更新規則非常簡單
updata=step-size??prediction error??feature value
table lookup:全連接的權重矩陣
使用table lookup feature,參數w代表單個state的價值
2.3Incremental Prediction Algorithms
- MC:target是回報
- ?TD:target是
- :target是
?2.4 Incremental Control?Algorithms
與增量預測算法相似,區別在逼近的是動作值函數
- 目標函數:最小化均方誤差?
- SGD找到局部最小?
- 線性函數逼近?
- 控制算法?
- 控制算法的收斂?
3.Batch Method?
Reply能更高效使用數據集
(1)not reply: 按照時間一個接一個選擇<state,value>
(2)reply:每次從經驗D隨機選擇一個<state,value>,打亂時間順序
3.1 SGD with experience reply
給定包含<state,value>的經驗D,重復一下操作:
收斂到least squares解,Least squares找到參數向量w,使其最小化近似值與目標值誤差平方和
3.2 DQN?
DQN使用經驗回放和固定Q值
總結
以上是生活随笔為你收集整理的值函数近似Value Function Approximation的全部內容,希望文章能夠幫你解決所遇到的問題。