日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

【论文解读】深度强化学习基石论文:函数近似的策略梯度方法

發(fā)布時間:2025/3/12 编程问答 37 豆豆
生活随笔 收集整理的這篇文章主要介紹了 【论文解读】深度强化学习基石论文:函数近似的策略梯度方法 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

?導(dǎo)讀:這篇是1999 年Richard Sutton 在強(qiáng)化學(xué)習(xí)領(lǐng)域中的經(jīng)典論文,論文證明了策略梯度定理和在用函數(shù)近似 Q 值時策略梯度定理依然成立,本論文奠定了后續(xù)以深度強(qiáng)化學(xué)習(xí)策略梯度方法的基石。理解熟悉本論文對 Policy Gradient,Actor Critic 方法有很好的指導(dǎo)意義。

論文分成四部分。第一部分指出策略梯度在兩種期望回報定義下都成立(定理一)。第二部分提出,如果 被函數(shù) 近似時且滿足兼容(compatible)條件,以 替換策略梯度中的 公式也成立(定理二)。第三部分舉Gibbs分布的策略為例,如何應(yīng)用 近似函數(shù)來實(shí)現(xiàn)策略梯度算法。第四部分證明了近似函數(shù)的策略梯度迭代法一定能收斂到局部最優(yōu)解。附錄部分證明了兩種定義下的策略梯度定理。

1. 策略梯度定理

對于Agent和環(huán)境而言,可以分成episode和non-episode,后者的時間步驟可以趨近于無窮大,但一般都可以適用兩種期望回報定義。一種是單步平均reward ,另一種是指定唯一開始狀態(tài)并對trajectory求 -discounted 之和,稱為開始狀態(tài)定義。兩種定義都考慮到了reward的sum會趨近于無窮大,并通過不同的方式降低了此問題的概率。

A. 平均reward定義

目標(biāo)函數(shù) 定義成單步的平均reward,這種情況下等價于穩(wěn)定狀態(tài)分布下期望值。

?

穩(wěn)定狀態(tài)分布定義成無限次數(shù)后狀態(tài)的分布。

?

此時, 定義為無限步的reward sum 減去累積的單步平均 reward ,這里減去是為了一定程度防止 沒有上界。

?

B. 開始狀態(tài)定義

在開始狀態(tài)定義方式中,某指定狀態(tài)作為起始狀態(tài), 的定義為 trajectory 的期望回報,注意由于時間步驟 t 趨近于無窮大,必須要乘以discount 系數(shù) 保證期望不會趨近無窮大。

?

也直接定義成 trajectory 的期望回報。

? 依然為無限次數(shù)后狀態(tài)的穩(wěn)定分布。 ?

策略梯度定理

論文指出上述兩種定義都滿足策略梯度定理,即目標(biāo) 對于參數(shù) 的偏導(dǎo)不依賴于 對于 偏導(dǎo),僅取決

?關(guān)于策略梯度定理的一些綜述,可以參考?深度強(qiáng)化學(xué)習(xí)之:Policy Gradient Theorem 綜述。

論文中還提到策略梯度定理公式和經(jīng)典的William REINFORCE算法之間的聯(lián)系。REINFORCE算法即策略梯度的蒙特卡洛實(shí)現(xiàn)。

聯(lián)系如下:

首先,根據(jù)策略梯度定理,如果狀態(tài) s 是通過 采樣得到,則下式是 的無偏估計。注意,這里action的summation和 是無關(guān)的。

?在William REINFORCE算法中,采用 作為 的近似,但是 取決于 on-policy 的動作分布,因此必須除掉 項,去除引入 ?后導(dǎo)致oversample動作空間。 ?

2. 函數(shù)近似的策略梯度

論文第二部分,進(jìn)一步引入 的近似函數(shù) : ?。

如果我們有的無偏估計,例如 ,很自然,可以讓 通過最小化 和 之間的差距來計算。

?

當(dāng)擬合過程收斂到局部最優(yōu)時,策略梯度定理中右邊項對于 求導(dǎo)為0,可得(3)式。

?

至此,引出策略梯度定理的延續(xù),即定理2:當(dāng) 滿足(3)式同時滿足(4)式(稱為compatible條件時),可以用 替換原策略梯度中的

?

3. 一個應(yīng)用示例

假設(shè)一個策略用features的線性組合后的 Gibbs分布來生成,即:

?

注意, 和 都是 維的。當(dāng) 滿足compatible 條件,由公式(4)可得

?

注意, 也是 維。 可以很自然的參數(shù)化為

?即 和 策略 一樣是features的線性關(guān)系。當(dāng)然 還滿足對于所有狀態(tài),在 動作分布下均值為0。 ?上式和advantage 函數(shù) 定義一致,因此可以認(rèn)為 的意義是 的近似。

具體定義如下

?

4. 函數(shù)近似的策略梯度收斂性證明

這一部分證明了在滿足一定條件后, 可以收斂到局部最優(yōu)點(diǎn)。

條件為

  • Compatible 條件,公式(4)

  • 任意兩個 偏導(dǎo)是有限的,即

  • ?3. 步長數(shù)列滿足如下條件 ?4. 環(huán)境的 reward 是有限的

    此時,當(dāng) 和 按如下方式迭代一定能收斂到局部最優(yōu)。

    ? ?

    收斂到局部最優(yōu),即

    ?

    5. 策略梯度定理的兩種情況下的證明

    下面簡單分解策略梯度的證明步驟。

    A. 平均reward 定義下的證明

    ?根據(jù)定義,將 導(dǎo)數(shù)放入求和號中,并分別對乘積中的每項求導(dǎo)。 ?將的定義代入第二項 對 求偏導(dǎo)中,引入環(huán)境reward 隨機(jī)變量 ,環(huán)境dynamics 和 ? 偏導(dǎo)進(jìn)一步移入,, 不依賴于。 ? 對于 偏導(dǎo)整理到等式左邊 ?兩邊同時乘以 ?由于 是狀態(tài)在 下的平穩(wěn)分布, 項表示 agent 主觀 和環(huán)境客觀 對于狀態(tài)分布的影響,因此可以直接去除。 ?整理證得。

    B. Start-state 定義下的證明

    ?根據(jù)定義,將 導(dǎo)數(shù)放入求和號中,并分別對乘積中的每項求導(dǎo)。 ?將的定義代入第二項 對 求偏導(dǎo)中,引入環(huán)境reward 隨機(jī)變量 ,環(huán)境dynamics ? 偏導(dǎo)進(jìn)一步移入,, 不依賴于。注意,此式表示從狀態(tài) 出發(fā)一步之后的能到達(dá)的所有 ,將次式反復(fù)unroll 成 之后得到 ? 表示 k 步后 狀態(tài) s 能到達(dá)的所有狀態(tài) x ?根據(jù)定義, ?將 替換成unroll 成 的表達(dá)式 ?

    即?


    著作權(quán)歸作者所有。商業(yè)轉(zhuǎn)載請聯(lián)系作者獲得授權(quán),非商業(yè)轉(zhuǎn)載請注明出處。

    往期精彩回顧適合初學(xué)者入門人工智能的路線及資料下載機(jī)器學(xué)習(xí)及深度學(xué)習(xí)筆記等資料打印機(jī)器學(xué)習(xí)在線手冊深度學(xué)習(xí)筆記專輯《統(tǒng)計學(xué)習(xí)方法》的代碼復(fù)現(xiàn)專輯 AI基礎(chǔ)下載機(jī)器學(xué)習(xí)的數(shù)學(xué)基礎(chǔ)專輯 獲取本站知識星球優(yōu)惠券,復(fù)制鏈接直接打開: https://t.zsxq.com/qFiUFMV 本站qq群704220115。加入微信群請掃碼:

    總結(jié)

    以上是生活随笔為你收集整理的【论文解读】深度强化学习基石论文:函数近似的策略梯度方法的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。