论文笔记 General Advantage Estimation(GAE)
論文筆記GAE
- 1 引言
- 2 GAE
- 3 置信域值函數(shù)更新
- 4 實驗
GAE 全稱General Advantage Estimation,是一種平衡優(yōu)勢函數(shù)估計中的偏差和方差的方法。論文地址https://arxiv.org/abs/1506.02438
1 引言
-
策略梯度法存在的兩個方面問題:
樣本利用率,由于樣本利用率低需要大量采樣;
算法穩(wěn)定性,需要讓算法在變化的數(shù)據(jù)分布中穩(wěn)定提升; -
值函數(shù)也是為了解決信用分配問題,能夠在延遲獎勵到來之前判斷動作的好壞。
-
策略梯度法與AC法的區(qū)別:
使用全部獎勵來估計策略梯度,盡管無偏但是方差大;Actor-Critic方法使用值函數(shù)來估計獎勵,能夠降低偏差但是方差較大。 -
方差、偏差的影響:
高方差需要更多的樣本來訓(xùn)練,偏差會導(dǎo)致不收斂或收斂結(jié)果較差。 -
本文兩個貢獻:
2 GAE
策略梯度估計方法有如下多種,使用優(yōu)勢函數(shù)的方法方差最小。
gamma-just是指期望為如下表達式:
定義狀態(tài)值函數(shù)V的TD error:
定義k步估計的優(yōu)勢函數(shù):
當k越大,方差越大,偏差越小。
GAE定義為lambda指數(shù)下降權(quán)重調(diào)整的Ak求和
當lambda=0時,相當于TD-error;當lambda=1時,相當于A∞。
GAE(γ, 1) 是 γ-just 不管 V是否準確 , 但是因為求和項較多具有高方差。
GAE(γ, 0) 是 γ-just 只在 V = V π,γ (最有值函數(shù))時,否則會引入偏差,但是方差更小。
當 0 < λ < 1 就是平衡方差與偏差的過程。
GAE策略梯度更新公式:
3 置信域值函數(shù)更新
置信域方法的好處是防止過擬合最近一批數(shù)據(jù)。
使用共軛梯度法求解
會引入新的偏差,文章的解釋是:如果先滿足了貝爾曼方程,TD-error為0,策略梯度也為0。
部分實驗結(jié)果如下,能看出gamma一般取0.99、0.999,lambda一般取0.95-1
問題
為什么使用狀態(tài)值函數(shù)而不是動作值函數(shù)?
答:狀態(tài)值函數(shù)輸入維度更少,訓(xùn)練更方便;本文的方法能夠平衡偏差和方差,如果使用動作值函數(shù)Q會讓我們得到高偏差。
總結(jié)
以上是生活随笔為你收集整理的论文笔记 General Advantage Estimation(GAE)的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: mysql 临时表联表查询_一、MySQ
- 下一篇: 2010计算机系助学金,计算机系贫困生助