日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

值函数近似Value Function Approximation

發布時間:2024/3/26 编程问答 44 豆豆
生活随笔 收集整理的這篇文章主要介紹了 值函数近似Value Function Approximation 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

1.Introduction?

值函數有兩種:狀態值函數V(s)和動作狀態值函數Q(s,a)。對于大規模MDP問題,有很多state或者action需要存儲,單個學習每種狀態的價值非常慢,因此使用函數逼近function approximation來估計value function。

值函數逼近有以下三種類型,使用MC或者TD來更新w即可,不需要再單獨計算值函數

常見的函數逼近有:

  • linear combinations of features
  • neural network
  • decision tree
  • nearest neighbour

2.Incremental Method

2.1Gradient Descent

  • 目標:找到參數向量w,最小化平方誤差(逼近值函數和真實值函數)

  • 梯度下降:找到局部最優?,是更新步長,每次更新遍歷整個數據集

  • 隨機梯度下降:樣本更新梯度,每次使用單個樣本更新

?2.2Linear Function Approximation

使用特征向量feature vector表示state

  • 使用線性函數代表值函數

  • 目標函數是參數w的二次函數

  • SGD收斂于局部最優
  • 更新規則非常簡單

updata=step-size??prediction error??feature value

table lookup:全連接的權重矩陣

使用table lookup feature,參數w代表單個state的價值

2.3Incremental Prediction Algorithms

  • MC:target是回報

  • ?TD:target是

  • :target是

?2.4 Incremental Control?Algorithms

與增量預測算法相似,區別在逼近的是動作值函數

  • 目標函數:最小化均方誤差?

  • SGD找到局部最小?

  • 線性函數逼近?

  • 控制算法?

  • 控制算法的收斂?

3.Batch Method?

Reply能更高效使用數據集

(1)not reply: 按照時間一個接一個選擇<state,value>

(2)reply:每次從經驗D隨機選擇一個<state,value>,打亂時間順序

3.1 SGD with experience reply

給定包含<state,value>的經驗D,重復一下操作:

  • 從D中隨機選擇state和value
  • 使用SGD更新權重
  • 收斂到least squares解,Least squares找到參數向量w,使其最小化近似值與目標值誤差平方和

    3.2 DQN?

    DQN使用經驗回放和固定Q值

  • DQN利用卷積神經網絡逼近行為值函數
  • DQN利用經驗回放訓練強化學習過程
  • DQN設置目標網絡單獨處理時間差分算法中的TD誤差
  • 總結

    以上是生活随笔為你收集整理的值函数近似Value Function Approximation的全部內容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。