日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

论文笔记 General Advantage Estimation(GAE)

發(fā)布時間:2023/12/18 编程问答 45 豆豆
生活随笔 收集整理的這篇文章主要介紹了 论文笔记 General Advantage Estimation(GAE) 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

論文筆記GAE

    • 1 引言
    • 2 GAE
    • 3 置信域值函數(shù)更新
    • 4 實驗

GAE 全稱General Advantage Estimation,是一種平衡優(yōu)勢函數(shù)估計中的偏差和方差的方法。論文地址https://arxiv.org/abs/1506.02438

1 引言

  • 策略梯度法存在的兩個方面問題
    樣本利用率,由于樣本利用率低需要大量采樣;
    算法穩(wěn)定性,需要讓算法在變化的數(shù)據(jù)分布中穩(wěn)定提升;

  • 值函數(shù)也是為了解決信用分配問題,能夠在延遲獎勵到來之前判斷動作的好壞。

  • 策略梯度法與AC法的區(qū)別:
    使用全部獎勵來估計策略梯度,盡管無偏但是方差大;Actor-Critic方法使用值函數(shù)來估計獎勵,能夠降低偏差但是方差較大。

  • 方差、偏差的影響:
    高方差需要更多的樣本來訓(xùn)練,偏差會導(dǎo)致不收斂或收斂結(jié)果較差。

  • 本文兩個貢獻:

  • 提出GAE來平衡偏差和方差;
  • 提出值函數(shù)置信域方法;
  • 2 GAE

    策略梯度估計方法有如下多種,使用優(yōu)勢函數(shù)的方法方差最小。

    gamma-just是指期望為如下表達式:

    定義狀態(tài)值函數(shù)V的TD error:

    定義k步估計的優(yōu)勢函數(shù):

    當k越大,方差越大,偏差越小。
    GAE定義為lambda指數(shù)下降權(quán)重調(diào)整的Ak求和

    當lambda=0時,相當于TD-error;當lambda=1時,相當于A∞。

    GAE(γ, 1) 是 γ-just 不管 V是否準確 , 但是因為求和項較多具有高方差。
    GAE(γ, 0) 是 γ-just 只在 V = V π,γ (最有值函數(shù))時,否則會引入偏差,但是方差更小。
    當 0 < λ < 1 就是平衡方差與偏差的過程。

    GAE策略梯度更新公式:

    3 置信域值函數(shù)更新

    置信域方法的好處是防止過擬合最近一批數(shù)據(jù)。
    使用共軛梯度法求解

    ![在這里插入圖片描述](https://img-blog.csdnimg.cn/20200328002213720.png

    4 實驗

    算法偽代碼:

    如果先更新值函數(shù)會引入新的偏差,文章的解釋是:如果先滿足了貝爾曼方程,TD-error為0,策略梯度也為0。

    部分實驗結(jié)果如下,能看出gamma一般取0.99、0.999,lambda一般取0.95-1

    問題
    為什么使用狀態(tài)值函數(shù)而不是動作值函數(shù)?
    答:狀態(tài)值函數(shù)輸入維度更少,訓(xùn)練更方便;本文的方法能夠平衡偏差和方差,如果使用動作值函數(shù)Q會讓我們得到高偏差。

    總結(jié)

    以上是生活随笔為你收集整理的论文笔记 General Advantage Estimation(GAE)的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。

    主站蜘蛛池模板: 人妻av无码一区二区三区 | 深夜视频免费在线观看 | 欧美va视频 | 日韩黄色免费电影 | 天天干天天噜 | www.com亚洲| 五月天校园春色 | 亚洲毛片在线免费观看 | 免费小视频 | 男插女视频网站 | 91福利视频导航 | av一区二区在线播放 | 熟妇大屁股一区二区三区视频 | 99精品视频在线播放免费 | 影音先锋日韩资源 | 国产一区二区视频在线免费观看 | 桃色综合网 | 欧美国产乱视频 | 18日本xxxxxxxxx95| 天天射天天舔 | 午夜影院在线观看 | 亚洲狼人av | 国产一级在线视频 | 夜夜骚视频 | 久久久久久91香蕉国产 | 丰满大乳少妇在线观看网站 | 亚洲一区二区在线电影 | 久久久久久久久久久久 | 国产精品无码中文 | 天堂av免费在线 | 91精品人妻一区二区三区蜜桃欧美 | 日韩欧美在线免费 | 国产无套内射普通话对白 | 亚洲久久一区 | 在线播放中文字幕 | 久久中文字幕网 | 首尔之春在线观看 | 久久精品欧美日韩精品 | 国产精品久免费的黄网站 | 日韩电影一区二区在线观看 | av无码精品一区二区三区 | 91禁看片 | 人人妻人人澡人人爽 | 少妇又紧又爽视频 | 欧美一区在线看 | 日韩理论在线 | 欧美精品久久久久 | 男人插入女人下面的视频 | 日本精品一区二区在线观看 | 欧美人妻精品一区二区免费看 | 亚洲九九视频 | 久久99精品国产91久久来源 | 色呦呦网站在线观看 | 美女免费视频网站 | 激情瑟瑟 | 无码少妇一区二区三区芒果 | 少妇裸体性生交 | 国产每日更新 | 精东影业一区二区三区 | 成人性免费视频 | 末发成年娇小性xxxxx | 亚洲国语 | 久久国产人妻一区二区免色戒电影 | 亚州一级| 亚洲aa视频 | 波多野结衣中文字幕在线 | 久久av秘一区二区三区 | 7777av| 蜜臀av一区二区三区激情综合 | 国产第3页 | 综合网在线视频 | 国产永久免费 | 人人爽人人澡 | 秋霞影院午夜伦 | 亚洲高清在线看 | 国产三区av| 精品黑人一区二区三区久久 | 久久狠狠爱 | 午夜免费福利网站 | 国产片一区二区 | 日韩欧美一区二区三区在线观看 | 强开小嫩苞一区二区三区网站 | 丁香婷婷激情五月 | 亚洲欧美成人一区 | 蜜臀aⅴ国产精品久久久国产老师 | 大地资源二中文在线影视观看 | 5566毛片 | 亚洲一区二区精华 | 精品国产a | 亚洲一级二级三级 | 日韩91av| 欧美日韩一区二区三区四区五区六区 | jizz欧美性20| 3d动漫精品啪啪一区二区竹菊 | 精品熟女一区二区三区 | 亚洲视频一区二区三区 | 久久精品人人爽 | 欧美午夜一区二区三区 | 成人h动漫精品一区二区无码 |