【论文解读】深度强化学习基石论文:函数近似的策略梯度方法
?導(dǎo)讀:這篇是1999 年Richard Sutton 在強(qiáng)化學(xué)習(xí)領(lǐng)域中的經(jīng)典論文,論文證明了策略梯度定理和在用函數(shù)近似 Q 值時策略梯度定理依然成立,本論文奠定了后續(xù)以深度強(qiáng)化學(xué)習(xí)策略梯度方法的基石。理解熟悉本論文對 Policy Gradient,Actor Critic 方法有很好的指導(dǎo)意義。
論文分成四部分。第一部分指出策略梯度在兩種期望回報定義下都成立(定理一)。第二部分提出,如果 被函數(shù) 近似時且滿足兼容(compatible)條件,以 替換策略梯度中的 公式也成立(定理二)。第三部分舉Gibbs分布的策略為例,如何應(yīng)用 近似函數(shù)來實(shí)現(xiàn)策略梯度算法。第四部分證明了近似函數(shù)的策略梯度迭代法一定能收斂到局部最優(yōu)解。附錄部分證明了兩種定義下的策略梯度定理。
1. 策略梯度定理
對于Agent和環(huán)境而言,可以分成episode和non-episode,后者的時間步驟可以趨近于無窮大,但一般都可以適用兩種期望回報定義。一種是單步平均reward ,另一種是指定唯一開始狀態(tài)并對trajectory求 -discounted 之和,稱為開始狀態(tài)定義。兩種定義都考慮到了reward的sum會趨近于無窮大,并通過不同的方式降低了此問題的概率。
A. 平均reward定義
目標(biāo)函數(shù) 定義成單步的平均reward,這種情況下等價于穩(wěn)定狀態(tài)分布下期望值。
?穩(wěn)定狀態(tài)分布定義成無限次數(shù)后狀態(tài)的分布。
?此時, 定義為無限步的reward sum 減去累積的單步平均 reward ,這里減去是為了一定程度防止 沒有上界。
?B. 開始狀態(tài)定義
在開始狀態(tài)定義方式中,某指定狀態(tài)作為起始狀態(tài), 的定義為 trajectory 的期望回報,注意由于時間步驟 t 趨近于無窮大,必須要乘以discount 系數(shù) 保證期望不會趨近無窮大。
?也直接定義成 trajectory 的期望回報。
? 依然為無限次數(shù)后狀態(tài)的穩(wěn)定分布。 ?策略梯度定理
論文指出上述兩種定義都滿足策略梯度定理,即目標(biāo) 對于參數(shù) 的偏導(dǎo)不依賴于 對于 偏導(dǎo),僅取決
?關(guān)于策略梯度定理的一些綜述,可以參考?深度強(qiáng)化學(xué)習(xí)之:Policy Gradient Theorem 綜述。論文中還提到策略梯度定理公式和經(jīng)典的William REINFORCE算法之間的聯(lián)系。REINFORCE算法即策略梯度的蒙特卡洛實(shí)現(xiàn)。
聯(lián)系如下:
首先,根據(jù)策略梯度定理,如果狀態(tài) s 是通過 采樣得到,則下式是 的無偏估計。注意,這里action的summation和 是無關(guān)的。
?在William REINFORCE算法中,采用 作為 的近似,但是 取決于 on-policy 的動作分布,因此必須除掉 項,去除引入 ?后導(dǎo)致oversample動作空間。 ?2. 函數(shù)近似的策略梯度
論文第二部分,進(jìn)一步引入 的近似函數(shù) : ?。
如果我們有的無偏估計,例如 ,很自然,可以讓 通過最小化 和 之間的差距來計算。
?當(dāng)擬合過程收斂到局部最優(yōu)時,策略梯度定理中右邊項對于 求導(dǎo)為0,可得(3)式。
?至此,引出策略梯度定理的延續(xù),即定理2:當(dāng) 滿足(3)式同時滿足(4)式(稱為compatible條件時),可以用 替換原策略梯度中的
?3. 一個應(yīng)用示例
假設(shè)一個策略用features的線性組合后的 Gibbs分布來生成,即:
?注意, 和 都是 維的。當(dāng) 滿足compatible 條件,由公式(4)可得
?注意, 也是 維。 可以很自然的參數(shù)化為
?即 和 策略 一樣是features的線性關(guān)系。當(dāng)然 還滿足對于所有狀態(tài),在 動作分布下均值為0。 ?上式和advantage 函數(shù) 定義一致,因此可以認(rèn)為 的意義是 的近似。具體定義如下
?4. 函數(shù)近似的策略梯度收斂性證明
這一部分證明了在滿足一定條件后, 可以收斂到局部最優(yōu)點(diǎn)。
條件為
Compatible 條件,公式(4)
任意兩個 偏導(dǎo)是有限的,即
此時,當(dāng) 和 按如下方式迭代一定能收斂到局部最優(yōu)。
? ?收斂到局部最優(yōu),即
?5. 策略梯度定理的兩種情況下的證明
下面簡單分解策略梯度的證明步驟。
A. 平均reward 定義下的證明
?根據(jù)定義,將 導(dǎo)數(shù)放入求和號中,并分別對乘積中的每項求導(dǎo)。 ?將的定義代入第二項 對 求偏導(dǎo)中,引入環(huán)境reward 隨機(jī)變量 ,環(huán)境dynamics 和 ? 偏導(dǎo)進(jìn)一步移入,, 不依賴于。 ? 對于 偏導(dǎo)整理到等式左邊 ?兩邊同時乘以 ?由于 是狀態(tài)在 下的平穩(wěn)分布, 項表示 agent 主觀 和環(huán)境客觀 對于狀態(tài)分布的影響,因此可以直接去除。 ?整理證得。B. Start-state 定義下的證明
?根據(jù)定義,將 導(dǎo)數(shù)放入求和號中,并分別對乘積中的每項求導(dǎo)。 ?將的定義代入第二項 對 求偏導(dǎo)中,引入環(huán)境reward 隨機(jī)變量 ,環(huán)境dynamics ? 偏導(dǎo)進(jìn)一步移入,, 不依賴于。注意,此式表示從狀態(tài) 出發(fā)一步之后的能到達(dá)的所有 ,將次式反復(fù)unroll 成 之后得到 ? 表示 k 步后 狀態(tài) s 能到達(dá)的所有狀態(tài) x ?根據(jù)定義, ?將 替換成unroll 成 的表達(dá)式 ?即?
著作權(quán)歸作者所有。商業(yè)轉(zhuǎn)載請聯(lián)系作者獲得授權(quán),非商業(yè)轉(zhuǎn)載請注明出處。
往期精彩回顧適合初學(xué)者入門人工智能的路線及資料下載機(jī)器學(xué)習(xí)及深度學(xué)習(xí)筆記等資料打印機(jī)器學(xué)習(xí)在線手冊深度學(xué)習(xí)筆記專輯《統(tǒng)計學(xué)習(xí)方法》的代碼復(fù)現(xiàn)專輯 AI基礎(chǔ)下載機(jī)器學(xué)習(xí)的數(shù)學(xué)基礎(chǔ)專輯 獲取本站知識星球優(yōu)惠券,復(fù)制鏈接直接打開: https://t.zsxq.com/qFiUFMV 本站qq群704220115。加入微信群請掃碼:總結(jié)
以上是生活随笔為你收集整理的【论文解读】深度强化学习基石论文:函数近似的策略梯度方法的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 无法打开Win11系统小组件怎么办
- 下一篇: 【机器学习基础】Softmax与交叉熵的