當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

论文笔记 General Advantage Estimation（GAE）

發(fā)布時間：2023/12/18 编程问答 45 豆豆

生活随笔收集整理的這篇文章主要介紹了论文笔记 General Advantage Estimation（GAE）小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

論文筆記GAE

- 1 引言
- 2 GAE
- 3 置信域值函數(shù)更新
- 4 實驗

GAE 全稱General Advantage Estimation，是一種平衡優(yōu)勢函數(shù)估計中的偏差和方差的方法。論文地址https://arxiv.org/abs/1506.02438

1 引言

策略梯度法存在的兩個方面問題：
樣本利用率，由于樣本利用率低需要大量采樣；
算法穩(wěn)定性，需要讓算法在變化的數(shù)據(jù)分布中穩(wěn)定提升；
值函數(shù)也是為了解決信用分配問題，能夠在延遲獎勵到來之前判斷動作的好壞。
策略梯度法與AC法的區(qū)別：
使用全部獎勵來估計策略梯度，盡管無偏但是方差大；Actor-Critic方法使用值函數(shù)來估計獎勵，能夠降低偏差但是方差較大。
方差、偏差的影響：
高方差需要更多的樣本來訓(xùn)練，偏差會導(dǎo)致不收斂或收斂結(jié)果較差。
本文兩個貢獻：

提出GAE來平衡偏差和方差；

提出值函數(shù)置信域方法；

2 GAE

策略梯度估計方法有如下多種，使用優(yōu)勢函數(shù)的方法方差最小。

gamma-just是指期望為如下表達式：

定義狀態(tài)值函數(shù)V的TD error：

定義k步估計的優(yōu)勢函數(shù)：

當k越大，方差越大，偏差越小。
GAE定義為lambda指數(shù)下降權(quán)重調(diào)整的Ak求和

當lambda=0時，相當于TD-error；當lambda=1時，相當于A∞。

GAE(γ, 1) 是 γ-just 不管 V是否準確 , 但是因為求和項較多具有高方差。
GAE(γ, 0) 是 γ-just 只在 V = V π,γ （最有值函數(shù)）時，否則會引入偏差，但是方差更小。
當 0 < λ < 1 就是平衡方差與偏差的過程。

GAE策略梯度更新公式：

3 置信域值函數(shù)更新

置信域方法的好處是防止過擬合最近一批數(shù)據(jù)。
使用共軛梯度法求解

![在這里插入圖片描述](https://img-blog.csdnimg.cn/20200328002213720.png

4 實驗

算法偽代碼：

如果先更新值函數(shù)會引入新的偏差，文章的解釋是：如果先滿足了貝爾曼方程，TD-error為0，策略梯度也為0。

部分實驗結(jié)果如下，能看出gamma一般取0.99、0.999，lambda一般取0.95-1

問題
為什么使用狀態(tài)值函數(shù)而不是動作值函數(shù)？
答：狀態(tài)值函數(shù)輸入維度更少，訓(xùn)練更方便；本文的方法能夠平衡偏差和方差，如果使用動作值函數(shù)Q會讓我們得到高偏差。

總結(jié)

以上是生活随笔為你收集整理的论文笔记 General Advantage Estimation（GAE）的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇： mysql 临时表联表查询_一、MySQ
下一篇： 2010计算机系助学金,计算机系贫困生助