日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

论文笔记 General Advantage Estimation(GAE)

發(fā)布時間:2023/12/18 编程问答 45 豆豆
生活随笔 收集整理的這篇文章主要介紹了 论文笔记 General Advantage Estimation(GAE) 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

論文筆記GAE

    • 1 引言
    • 2 GAE
    • 3 置信域值函數(shù)更新
    • 4 實驗

GAE 全稱General Advantage Estimation,是一種平衡優(yōu)勢函數(shù)估計中的偏差和方差的方法。論文地址https://arxiv.org/abs/1506.02438

1 引言

  • 策略梯度法存在的兩個方面問題
    樣本利用率,由于樣本利用率低需要大量采樣;
    算法穩(wěn)定性,需要讓算法在變化的數(shù)據(jù)分布中穩(wěn)定提升;

  • 值函數(shù)也是為了解決信用分配問題,能夠在延遲獎勵到來之前判斷動作的好壞。

  • 策略梯度法與AC法的區(qū)別:
    使用全部獎勵來估計策略梯度,盡管無偏但是方差大;Actor-Critic方法使用值函數(shù)來估計獎勵,能夠降低偏差但是方差較大。

  • 方差、偏差的影響:
    高方差需要更多的樣本來訓(xùn)練,偏差會導(dǎo)致不收斂或收斂結(jié)果較差。

  • 本文兩個貢獻:

  • 提出GAE來平衡偏差和方差;
  • 提出值函數(shù)置信域方法;
  • 2 GAE

    策略梯度估計方法有如下多種,使用優(yōu)勢函數(shù)的方法方差最小。

    gamma-just是指期望為如下表達式:

    定義狀態(tài)值函數(shù)V的TD error:

    定義k步估計的優(yōu)勢函數(shù):

    當k越大,方差越大,偏差越小。
    GAE定義為lambda指數(shù)下降權(quán)重調(diào)整的Ak求和

    當lambda=0時,相當于TD-error;當lambda=1時,相當于A∞。

    GAE(γ, 1) 是 γ-just 不管 V是否準確 , 但是因為求和項較多具有高方差。
    GAE(γ, 0) 是 γ-just 只在 V = V π,γ (最有值函數(shù))時,否則會引入偏差,但是方差更小。
    當 0 < λ < 1 就是平衡方差與偏差的過程。

    GAE策略梯度更新公式:

    3 置信域值函數(shù)更新

    置信域方法的好處是防止過擬合最近一批數(shù)據(jù)。
    使用共軛梯度法求解

    ![在這里插入圖片描述](https://img-blog.csdnimg.cn/20200328002213720.png

    4 實驗

    算法偽代碼:

    如果先更新值函數(shù)會引入新的偏差,文章的解釋是:如果先滿足了貝爾曼方程,TD-error為0,策略梯度也為0。

    部分實驗結(jié)果如下,能看出gamma一般取0.99、0.999,lambda一般取0.95-1

    問題
    為什么使用狀態(tài)值函數(shù)而不是動作值函數(shù)?
    答:狀態(tài)值函數(shù)輸入維度更少,訓(xùn)練更方便;本文的方法能夠平衡偏差和方差,如果使用動作值函數(shù)Q會讓我們得到高偏差。

    總結(jié)

    以上是生活随笔為你收集整理的论文笔记 General Advantage Estimation(GAE)的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。