【论文解读】解读TRPO论文,深度强化学习结合传统优化方法
導讀:本論文由Berkeley 的幾位大神于2015年發表于 JMLR(Journal of Machine Learning Research)。深度強化學習算法例如DQN或者PG(Policy Gradient)都無法避免訓練不穩定的問題:在訓練過程中效果容易退化并且很難恢復。針對這個通病,TRPO采用了傳統優化算法中的trust region方法,以保證每一步迭代能夠獲得效果提升,直至收斂到局部最優點。
本篇論文涉及到的知識點比較多,不僅建立在強化學習領域經典論文的結論:Kakade & Langford 于2002 年發表的 Approximately Optimal Approximate Reinforcement Learning 關于優化目標的近似目標和重要性采樣,也涉及到傳統優化方法 trust region 的建模和其具體的矩陣近似數值算法。讀懂本論文,對于深度強化學習及其優化方法可以有比較深入的理解。本論文附錄的證明部分由于更為深奧和冗長,在本文中不做具體講解,但是也建議大家能夠仔細研讀。
閱讀本論文需要注意的是,這里解讀的版本是arxiv的版本,這個版本帶有附錄,不同于 JMLR的版本的是,arxiv版本中用reward函數而后者用cost函數,優化方向相反。
arxiv 下載鏈接為 https://arxiv.org/pdf/1502.05477.pdf
0. 論文框架
本論文解決的目標是希望每次迭代參數能保證提升效果,具體想法是利用優化領域的 trust region方法(中文可以翻譯成置信域方法或信賴域方法),通過參數在trust region范圍中去找到一定能提升的下一次迭代。
本論文框架如下
首先,引入Kakade & Langford 論文 Approximately Optimal Approximate Reinforcement Learning 中關于近似優化目標的結論。(論文第二部分)
基于 Kakade 論文中使用mixture policy保證每一步效果提升的方法,擴展到一般隨機策略,引入策略分布的total variation divergence作為約束。(論文第三部分)
將total variation divergence約束替換成平均 KL divergence 約束,便于使用蒙特卡洛方法通過采樣來生成每一步的具體優化問題。(論文第四,五部分)
給出解決優化問題的具體算法,將優化目標用first order來近似,約束項用second order 來近似,由于second order涉及到構造Hessian matrix,計算量巨大,論文給出了 conjugate gradient + Fisher information matrix的近似快速實現方案。(論文第六部分)
從理論角度指出,Kakade 在2002年提出的方法natrual policy gradient 和經典的policy gradient 都是TRPO的特別形式。(論文第七部分)
評價TRPO在兩種強化學習模式下的最終效果,一種是MuJoCo模擬器中能得到真實狀態的模式,一種是Atari游戲環境,即觀察到的屏幕像素可以信息完全地表達潛在真實狀態的模式。(論文第八部分)
本文下面的小結序號和論文小結序號相同,便于對照查閱。
1. 介紹
TRPO 第一次證明了最小化某種 surrogate 目標函數且采用non-trivial的步長,一定可以保證策略提升。進一步將此 surrogate 目標函數轉換成trust region約束下的優化問題。TRPO是一種on-policy 的算法,因為每一步迭代,需要在新的策略下通過采樣數據來構建具體優化問題。
2. 已有理論基礎
第二部分主要回顧了 Kakade & Langford 于2002 年的論文 Approximately Optimal Approximate Reinforcement Learning 中的一系列結論。
先來定義幾個重要概念的數學定義
是策略 的目標,即discounted reward 和的期望。
然后是策略的Q值和V值
最后是策略的advantage函數
接著,開始引入 Kakade & Langford 論文結論,即下式(公式1)。
公式1表明,下一次迭代策略的目標可以分解成現有策略的目標 和現有advantage 函數在新策略trajectory分布下的期望。
公式1可以很容易從trajectory分布轉換成新策略在狀態的訪問頻率,即公式2
狀態的訪問頻率或穩定狀態分布定義成
?注意到公式2中狀態的期望依然依賴于新策略 的穩定狀態分布,不方便實現。原因如下,期望形式有利于采樣來解決問題,但是由于采樣數據源于 on-policy 而非 ,因此無法直接采樣未知的策略 ?。
幸好,Kakade 論文中證明了,可以用 的代替 ?并且證明了這種代替下的近似目標函數 是原來函數的一階近似
即滿足
?具體定義表達式為
?是一階近似意味著在小范圍區域中一定是可以得到提升的,但是范圍是多大,是否能保證 的提升?Kakade的論文中不僅給出了通過mix新老策略的提升方式,還給出了這個方式對原目標 較 的提升下屆。
策略更新規則如下
?公式6為具體提升下屆為
?3. 擴展到隨機策略
論文的這一部分將Kakade的mix policy update 擴展到一般的隨機策略,同時依然保證每次迭代能得到目標提升。
首先,每次策略迭代必須不能和現有策略變化太大,因此,引入分布間常見的TV divergence,即 total variation divergence。
?有了兩個分布距離的定義,就可以定義兩個策略的距離。離散狀態下,一個策略是狀態到動作分布的 map 或者 dict,因此,可以定義兩個策略的距離為所有狀態中最大的動作分布的 ,即
?至此,可以引出定理一:在一般隨機策略下,Kakade 的surrogate函數較原目標的提升下屆依然成立,即公式8在新的定義下可以從公示6推導而來。
?進一步將 TV divergence 轉換成 KL divergence,轉換成KL divergence 的目的是為了后續使用傳統且成熟的 trust region 蒙特卡洛方法和 conjugate gradient 的優化近似解法。
?由于上面兩種距離的大小關系,可以推導出用KL divergence表示的 較 的提升下屆
?根據公式9,就可以形成初步的概念上的算法一,通過每一步形成無約束優化問題,同時保證每次迭代的 對應的 是遞增的。
?4. Trust Region Policy Optimization
看到這里已經不容易了,盡管算法一給出了一個解決方案,但是本論文的主角TRPO 還未登場。TRPO算法的作用依然是近似!
算法一對于下面的目標函數做優化,即每次找到下一個 最大化下式, 每一步一定能得到提升。
?問題是在實踐中,懲罰系數 會導致步長非常小,一種穩定的使用較大步長的方法是將懲罰項變成約束項,即:
?將 放入約束項中符合trust region 這種傳統優化解法。
關于 約束,再補充兩點
的定義是兩個策略中所有狀態中最大的動作分布的 ,因此它約束了所有狀態下新老策略動作分布的KL散度,也就意味著有和狀態數目相同數量的約束項,海量的約束項導致算法很難應用到實際中。
約束項的 trust region 不是參數 的空間,而是其KL散度的空間。
基于第一點,再次使用近似法,在約束項中用KL期望 來代替各個狀態下的KL散度,權重為on-policy 策略的分布
?最終,得到TRPO在實際中的優化目標(12式):
?5. 用采樣方法來Trust Region約束優化
論文第五部分,將TRPO優化目標12式改寫成期望形式,引入兩種蒙特卡洛方法 single path 和 vine 來采樣。
具體來說, 由兩項組成
第一項是常量,只需優化第二項,即優化問題等價為13式
?隨后,為了可以適用非 on-policy 的動作分布來任意采樣,引入采樣的動作分布 ,將13式中的 部分通過重要性采樣改成以下形式:
?再將13式中的 改成期望形式 ,并將 改成 值,得14式。
?至此,我們得到trust region優化的期望形式:優化目標中期望的狀態空間是基于 on-policy ,動作空間是基于任意采樣分布 ,優化約束中的期望是基于 on-policy 。
5.1 Single path采樣
根據14式,single path 是最基本的的蒙特卡洛采樣方法,和REINFORCE算法一樣, 通過on-policy 生成采樣的 trajectory數據:,然后代入14式。注意,此時 ,即用現有策略的動作分布直接代替采樣分布。
?5.2 Vine 采樣
雖然single path方法簡單明了,但是有著online monte carlo方法固有的缺陷,即variance較大。Vine方法通過在一個狀態多次采樣來改善此缺陷。Vine的翻譯是藤,寓意從一個狀態多次出發來采樣,如下圖, 狀態下采樣多個rollouts,很像植物的藤長出多分叉。當然,vine方法要求環境能restart 到某一狀態,比如游戲環境通過save load返回先前的狀態。
?具體來說,vine 方法首先通過生成多個on-policy 的trajectories來確定一個狀態集合 。對于狀態集合的每一個狀態 采樣K個動作,服從 。接著,對于每一個 再去生成一次 rollout 來估計 。試驗證明,在連續動作空間問題中, 直接使用 on-policy 可以取得不錯效果,在離散空間問題中,使用uniform分布效果更好。
6. 轉換成具體優化問題
再回顧一下現在的進度,12式定義了優化目標,約束項是KL divergence空間的trust region 形式。14式改寫成了等價的期望形式,通過兩種蒙特卡洛方法生成 state-action 數據集,可以代入14式得到每一步的具體數值的優化問題。論文這一部分簡單敘述了如何高效但近似的解此類問題,詳細的一些步驟在附錄中闡述。我們把相關解讀都放在下一節。
7. 和已有理論的聯系
7.1 簡化成 Natural Policy Gradient
再回到12式,即約束項是KL divergence空間的trust region 形式
?對于這種形式的優化問題,一般的做法是通過對優化目標做一階函數近似,即
并對約束函數做二階函數近似,因為約束函數在 點取到極值,因此一階導為0。
12式的優化目標可以轉換成17式
?對應參數迭代更新公式如下
?這個方法便是Kakade在2002年發表的 natrual policy gradient 論文。
7.2 簡化成 Policy Gradient
注意,的一階近似的梯度
即PG定理
因此,PG定理等價于的一階近似的梯度在 空間 約束下的優化問題,即18式
?7.3 近似數值解法
這里簡單描述關于17式及其參數更新規則中的大矩陣數值計算近似方式。
二階近似中的 是 Hessian 方形矩陣,維度為 個數的平方。
?直接構建 矩陣或者其逆矩陣 都是計算量巨大的, 注出現在natural policy update 更新公式中, 。
一種方法是通過構建Fisher Information Matrix,引入期望形式便于采樣
另一種方式是使用conjugate gradient 方法,通過矩陣乘以向量快速計算法迭代逼近 。
8. 試驗結果
在兩種強化學習模式下,比較TRPO和其他模型的效果。模式一是在MuJoCo模擬器中,這種環境下能得到真實狀態的情況。
?另一種模式是完全信息下的Atari游戲環境,這種環境下觀察到的屏幕像素可以信息完全地表達潛在真實狀態。
?著作權歸作者所有。商業轉載請聯系作者獲得授權,非商業轉載請注明出處。 往期精彩回顧適合初學者入門人工智能的路線及資料下載機器學習及深度學習筆記等資料打印機器學習在線手冊深度學習筆記專輯《統計學習方法》的代碼復現專輯 AI基礎下載機器學習的數學基礎專輯 獲取本站知識星球優惠券,復制鏈接直接打開: https://t.zsxq.com/qFiUFMV 本站qq群704220115。加入微信群請掃碼:
總結
以上是生活随笔為你收集整理的【论文解读】解读TRPO论文,深度强化学习结合传统优化方法的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 大地win11 32位旗舰版镜像v202
- 下一篇: 【竞赛相关】南大化院博士刘子腾:跨专业如