當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

值函数近似Value Function Approximation

發布時間：2024/3/26 编程问答 44 豆豆

生活随笔收集整理的這篇文章主要介紹了值函数近似Value Function Approximation 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

1.Introduction?

值函數有兩種：狀態值函數V(s)和動作狀態值函數Q(s,a)。對于大規模MDP問題，有很多state或者action需要存儲，單個學習每種狀態的價值非常慢，因此使用函數逼近function approximation來估計value function。

值函數逼近有以下三種類型，使用MC或者TD來更新w即可，不需要再單獨計算值函數

常見的函數逼近有：

linear combinations of features
neural network
decision tree
nearest neighbour

2.Incremental Method

2.1Gradient Descent

目標：找到參數向量w，最小化平方誤差（逼近值函數和真實值函數）

梯度下降：找到局部最優?，是更新步長，每次更新遍歷整個數據集

隨機梯度下降：樣本更新梯度，每次使用單個樣本更新

?2.2Linear Function Approximation

使用特征向量feature vector表示state

使用線性函數代表值函數

目標函數是參數w的二次函數

SGD收斂于局部最優
更新規則非常簡單

updata=step-size??prediction error??feature value

table lookup：全連接的權重矩陣

使用table lookup feature，參數w代表單個state的價值

2.3Incremental Prediction Algorithms

MC：target是回報

?TD：target是

：target是

?2.4 Incremental Control?Algorithms

與增量預測算法相似，區別在逼近的是動作值函數

目標函數：最小化均方誤差?

SGD找到局部最小?

線性函數逼近?

控制算法?

控制算法的收斂?

3.Batch Method?

Reply能更高效使用數據集

（1）not reply：按照時間一個接一個選擇<state,value>

（2）reply：每次從經驗D隨機選擇一個<state,value>，打亂時間順序

3.1 SGD with experience reply

給定包含<state,value>的經驗D，重復一下操作：

從D中隨機選擇state和value

使用SGD更新權重

收斂到least squares解，Least squares找到參數向量w，使其最小化近似值與目標值誤差平方和

3.2 DQN?

DQN使用經驗回放和固定Q值

DQN利用卷積神經網絡逼近行為值函數

DQN利用經驗回放訓練強化學習過程

DQN設置目標網絡單獨處理時間差分算法中的TD誤差

總結

以上是生活随笔為你收集整理的值函数近似Value Function Approximation的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。