當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

【论文解读】深度强化学习基石论文：函数近似的策略梯度方法

發(fā)布時間：2025/3/12 编程问答 37 豆豆

生活随笔收集整理的這篇文章主要介紹了【论文解读】深度强化学习基石论文：函数近似的策略梯度方法小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

?導(dǎo)讀：這篇是1999 年Richard Sutton 在強(qiáng)化學(xué)習(xí)領(lǐng)域中的經(jīng)典論文，論文證明了策略梯度定理和在用函數(shù)近似 Q 值時策略梯度定理依然成立，本論文奠定了后續(xù)以深度強(qiáng)化學(xué)習(xí)策略梯度方法的基石。理解熟悉本論文對 Policy Gradient，Actor Critic 方法有很好的指導(dǎo)意義。

論文分成四部分。第一部分指出策略梯度在兩種期望回報定義下都成立（定理一）。第二部分提出，如果被函數(shù) 近似時且滿足兼容（compatible）條件，以替換策略梯度中的公式也成立（定理二）。第三部分舉Gibbs分布的策略為例，如何應(yīng)用近似函數(shù)來實(shí)現(xiàn)策略梯度算法。第四部分證明了近似函數(shù)的策略梯度迭代法一定能收斂到局部最優(yōu)解。附錄部分證明了兩種定義下的策略梯度定理。

1. 策略梯度定理

對于Agent和環(huán)境而言，可以分成episode和non-episode，后者的時間步驟可以趨近于無窮大，但一般都可以適用兩種期望回報定義。一種是單步平均reward ，另一種是指定唯一開始狀態(tài)并對trajectory求 -discounted 之和，稱為開始狀態(tài)定義。兩種定義都考慮到了reward的sum會趨近于無窮大，并通過不同的方式降低了此問題的概率。

A. 平均reward定義

目標(biāo)函數(shù) 定義成單步的平均reward，這種情況下等價于穩(wěn)定狀態(tài)分布下期望值。

穩(wěn)定狀態(tài)分布定義成無限次數(shù)后狀態(tài)的分布。

此時，定義為無限步的reward sum 減去累積的單步平均 reward ，這里減去是為了一定程度防止沒有上界。

B. 開始狀態(tài)定義

在開始狀態(tài)定義方式中，某指定狀態(tài)作為起始狀態(tài)，的定義為 trajectory 的期望回報，注意由于時間步驟 t 趨近于無窮大，必須要乘以discount 系數(shù) 保證期望不會趨近無窮大。

也直接定義成 trajectory 的期望回報。

? 依然為無限次數(shù)后狀態(tài)的穩(wěn)定分布。 ?

策略梯度定理

論文指出上述兩種定義都滿足策略梯度定理，即目標(biāo) 對于參數(shù) 的偏導(dǎo)不依賴于對于偏導(dǎo)，僅取決

?關(guān)于策略梯度定理的一些綜述，可以參考?深度強(qiáng)化學(xué)習(xí)之：Policy Gradient Theorem 綜述。

論文中還提到策略梯度定理公式和經(jīng)典的William REINFORCE算法之間的聯(lián)系。REINFORCE算法即策略梯度的蒙特卡洛實(shí)現(xiàn)。

聯(lián)系如下：

首先，根據(jù)策略梯度定理，如果狀態(tài) s 是通過采樣得到，則下式是的無偏估計。注意，這里action的summation和是無關(guān)的。

?在William REINFORCE算法中，采用作為的近似，但是取決于 on-policy 的動作分布，因此必須除掉項，去除引入 ?后導(dǎo)致oversample動作空間。 ?

2. 函數(shù)近似的策略梯度

論文第二部分，進(jìn)一步引入的近似函數(shù) : ?。

如果我們有的無偏估計，例如，很自然，可以讓通過最小化和之間的差距來計算。

當(dāng)擬合過程收斂到局部最優(yōu)時，策略梯度定理中右邊項對于求導(dǎo)為0，可得(3)式。

至此，引出策略梯度定理的延續(xù)，即定理2：當(dāng) 滿足(3)式同時滿足(4)式（稱為compatible條件時），可以用替換原策略梯度中的

3. 一個應(yīng)用示例

假設(shè)一個策略用features的線性組合后的 Gibbs分布來生成，即：

注意，和都是維的。當(dāng) 滿足compatible 條件，由公式（4）可得

注意，也是維。可以很自然的參數(shù)化為

?即和策略一樣是features的線性關(guān)系。當(dāng)然還滿足對于所有狀態(tài)，在動作分布下均值為0。 ?上式和advantage 函數(shù) 定義一致，因此可以認(rèn)為的意義是的近似。

具體定義如下

4. 函數(shù)近似的策略梯度收斂性證明

這一部分證明了在滿足一定條件后，可以收斂到局部最優(yōu)點(diǎn)。

條件為

Compatible 條件，公式（4）

任意兩個偏導(dǎo)是有限的，即

?3. 步長數(shù)列滿足如下條件 ?4. 環(huán)境的 reward 是有限的

此時，當(dāng) 和按如下方式迭代一定能收斂到局部最優(yōu)。

? ?

收斂到局部最優(yōu)，即

5. 策略梯度定理的兩種情況下的證明

下面簡單分解策略梯度的證明步驟。

A. 平均reward 定義下的證明

?根據(jù)定義，將導(dǎo)數(shù)放入求和號中，并分別對乘積中的每項求導(dǎo)。 ?將的定義代入第二項對求偏導(dǎo)中，引入環(huán)境reward 隨機(jī)變量，環(huán)境dynamics 和 ? 偏導(dǎo)進(jìn)一步移入，，不依賴于。 ? 對于偏導(dǎo)整理到等式左邊 ?兩邊同時乘以 ?由于是狀態(tài)在下的平穩(wěn)分布，項表示 agent 主觀和環(huán)境客觀對于狀態(tài)分布的影響，因此可以直接去除。 ?整理證得。

B. Start-state 定義下的證明

?根據(jù)定義，將導(dǎo)數(shù)放入求和號中，并分別對乘積中的每項求導(dǎo)。 ?將的定義代入第二項對求偏導(dǎo)中，引入環(huán)境reward 隨機(jī)變量，環(huán)境dynamics ? 偏導(dǎo)進(jìn)一步移入，，不依賴于。注意，此式表示從狀態(tài) 出發(fā)一步之后的能到達(dá)的所有，將次式反復(fù)unroll 成之后得到 ? 表示 k 步后狀態(tài) s 能到達(dá)的所有狀態(tài) x ?根據(jù)定義， ?將替換成unroll 成的表達(dá)式 ?

即?

著作權(quán)歸作者所有。商業(yè)轉(zhuǎn)載請聯(lián)系作者獲得授權(quán)，非商業(yè)轉(zhuǎn)載請注明出處。

往期精彩回顧適合初學(xué)者入門人工智能的路線及資料下載機(jī)器學(xué)習(xí)及深度學(xué)習(xí)筆記等資料打印機(jī)器學(xué)習(xí)在線手冊深度學(xué)習(xí)筆記專輯《統(tǒng)計學(xué)習(xí)方法》的代碼復(fù)現(xiàn)專輯 AI基礎(chǔ)下載機(jī)器學(xué)習(xí)的數(shù)學(xué)基礎(chǔ)專輯獲取本站知識星球優(yōu)惠券，復(fù)制鏈接直接打開： https://t.zsxq.com/qFiUFMV 本站qq群704220115。加入微信群請掃碼：

總結(jié)

以上是生活随笔為你收集整理的【论文解读】深度强化学习基石论文：函数近似的策略梯度方法的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇：无法打开Win11系统小组件怎么办
下一篇：【机器学习基础】Softmax与交叉熵的