NeurIPS 2020 | 一种基于动作采样的简单高效的正则化强化学习方法
編者按:現有的強化學習方法通常通過熵正則化的方式控制最優策略的隨機性,以保證訓練過程中的良好探索以及目標策略的魯棒性。然而,熵正則化的強化學習方法通常會面臨表達能力有限的策略結構和復雜低效的訓練過程之間的兩難選擇。為了解決上述問題,MIRA Lab 提出了一類基于動作采樣的正則化強化學習方法。該類方法能夠廣泛兼容各種復雜的策略結構,同時具有計算簡單高效的特點。實驗結果表明,除了兼容性和計算效率,我們提出的方法在多個連續控制任務中也取得了超越現有方法的樣本效率。原論文標題為《Promoting Stochasticity for Expressive Policies via a Simple and Efficient Regularization Method》,由王杰教授指導 MIRA Lab 的周祺、匡宇飛等人發表于 NeurIPS 2020。
? ?
論文標題:
Promoting Stochasticity for Expressive Policies via a Simple and Efficient Regularization Method
論文鏈接:
https://proceedings.neurips.cc//paper/2020/file/9cafd121ba982e6de30ffdf5ada9ce2e-Paper.pdf
代碼鏈接:
https://github.com/MIRALab-USTC/RL-ACED
引言
近年來,強化學習算法在游戲智能、機器人控制等領域取得了令人矚目的成果。一般而言,強化學習算法分為 model-based 類方法和 model-free 類方法。model-based 類方法通常具有更高的樣本效率,但相對而言實現較為復雜,也常常會引入額外的預測誤差。我們 MIRA Lab 的周祺等同學在 AAAI 2020 的工作 [1] 中通過引入 函數的不確定度來度量該誤差并緩解其對策略優化帶來的影響,取得了良好的實驗效果(相關代碼實現參見 github 鏈接)。
https://github.com/MIRALab-USTC/RL-POMBU
相較于 model-based 類方法,model-free 類方法的實現和分析往往都相對簡單。在 model-free 強化學習方法中,我們需要最大化累積回報的期望,因此最后習得的策略往往接近于一個確定性策略。然而,相比于確定性策略,隨機策略更有利于探索未知環境,且在環境參數發生變化時具有更好的魯棒性 [2,3],因此我們更希望訓練得到的策略是隨機策略。
為了促進策略的隨機性,過往工作使用了熵正則化方法。該類方法在最大化累積獎勵的同時,最大化動作分布的熵。如,soft Q-learning [4] 和 SAC [3,5] 使用 Shannon 熵作為正則項;sparse PCL [6] 和 TAC [7] 使用 Tsallis 熵作為正則項。
然而,在考慮連續的工作空間時,熵正則化的強化學習方法會陷入「表達能力有限的簡單策略」與「復雜低效的訓練過程」之間的兩難選擇。例如,SAC 往往使用簡單的高斯分布表示策略,而 soft Q-learning 需要復雜低效的采樣和推理過程來優化策略。
為解決以上問題,我們提出了一類新的正則化方式。進而,1) 在使用復雜策略時也能高效地估計該正則項的值;2) 該正則項能夠廣泛兼容一般的策略結構。
背景介紹
我們考慮動作空間連續的馬爾可夫決策過程,該過程可用五元組 表示,其中 為相應的狀態空間和動作空間, 為狀態轉移函數, 為獎勵函數, 為折扣因子。此外,我們用 表示策略在狀態 下對應的動作分布。
在正則化強化學習框架中,需要在標準的強化學習目標函數的基礎上增加一項關于策略的正則項 [8]。此時,其目標函數變為:
這里 為正則項所占權重的超參。相應地,該目標函數下的 值函數和 值函數定義為:
在基于熵的正則化強化學習方法里, 通常為策略在該狀態下的動作分布的 Shannon 熵或者 Tsallis 熵。
熵正則方法的局限性
在考慮連續的工作空間時,熵正則化的強化學習方法會陷入「表達能力有限的簡單策略」與「復雜低效的訓練過程」之間的兩難選擇。具體地,熵正則項往往具有以下形式:
其中 表示動作?在給定狀態 時的概率密度。該形式的正則項會導致
熵正則的估計需要計算所選動作的概率密度(probability density),而使用復雜策略時其計算往往低效繁瑣。例如,使用標準化流(normalizing flow)表征策略時 [9],需要額外的串行過程計算概率密度;通過集成多個概率分布來表示策略時,需要計算每個分布的概率密度再進行平均。
熵正則的定義往往需要動作分布具有連續的累積分布函數,而使用復雜策略時該函數可能并不連續。例如,使用基于狄拉克混合分布(Dirac mixture)表征策略 [10] 時,其動作的累積分布函數是階梯狀的不連續函數;使用噪聲網絡(noisy network)表征策略時,由于 Relu 激活函數的影響,動作分布的累積分布函數也可能出現不連續的情況。
基于樣本的正則化方法
為了解決熵正則項的一系列不足,我們提出了基于樣本的正則化方法(Sample Based Regularization:SBR)。本章節中,我們將描述其定義,給出具體的實例,并簡單討論該正則項的性質。
4.1 正則項的表達式
基于樣本的正則項具有如下形式:
我們之所以將其稱為基于樣本的正則項,是因為我們可以僅使用動作的采樣估計該正則項的取值,而不要求概率密度函數存在或可計算。具體地,我們使用如下的無偏估計:
這里 為從分布 中采樣的動作個數,是人為設定的超參。基于樣本的正則項中, 用于度量動作之間的相互影響。為了促進策略的隨機性,我們通過其鼓勵動作之間相互遠離;而上式中的 用于引導動作朝某種先驗分布聚集。同時該項可以避免在前一項的作用下所有動作都分布于動作空間的邊界。
4.2 基于廣義能量距離的實例
4.2.1 廣義能量距離
上節中我們給出了基于樣本的正則項的表達式,在本節中,我們將基于廣義能量距離給出上述正則項的一系列具體實例。
我們首先介紹廣義能量距離。廣義能量距離(generalized energy distance, GED)在統計推斷中常被用來度量兩個概率分布之間的一致性 [11]。假設 為兩個概率分布,廣義能量距離 定義為:
這里 為滿足一定條件的非負函數,其部分實例可參考下表1:
▲ 表1:函數 的部分實例
進一步地,我們可以定義:
這里 為分布 在其取值空間中第 維的邊緣分布。同樣地,在對動作分布進行一定限制的情況下, 是一個描述概率分布之間距離的度量。
4.2.2 兩個實例
我們注意到,分布 的 Shannon 熵滿足:
其中, 為 KL 散度,u 是一個均勻分布,C 是常數項。也就是說,添加熵正則項實際是鼓勵縮小動作分布與均勻分布之間的差異。因此,我們定義正則項:
其中距離 可以取 或 。此時,正則項具有 SBR 的形式。具體對應關系如表2:
▲ 表2:基于廣義能量距離導出的 SBR 實例
上表中的兩類正則項實例的詳細理論分析,以及其在單狀態搖臂機問題中的可視化展現,請參考本論文原文 3.2~3.5 節。
基于能量距離的 actor-critic 算法
基于上文中的正則項實例,我們提出了基于廣義能量距離的強化學習算法:Actor Critic with generalized Energy Distance (ACED)。該方法使用 作為正則項,其算法流程與 SAC 基本一致。
但不同于 SAC 算法,ACED 算法具有如下特點:1) 對動作分布的類型幾乎沒有任何限制,能夠廣泛地兼容各種不同的策略結構;2) 正則項值的估計基于動作的采樣,不需要概率密度值的顯式計算,因此能夠顯著提升復雜策略下正則項值的計算效率。
實驗結果
(注:本節僅選取部分實驗結果,更詳細的結果請參考本論文原文第 5 節。)
6.1 算法性能比較
我們在 6 個不同的 MuJoCo 仿真控制任務下比較了 ACED 算法與 SAC [5]、TD3 [12]、DDPG [13] 等算法的性能差異,實驗結果如下圖。在絕大多數任務中,ACED 算法取得了優于基準算法的性能。
? ?
▲ 圖1:6個不同任務下ACED算法與SAC、TD3、DDPG等算法的性能比較
6.2 算法效率比較
我們同樣比較了 ACED 算法(使用基于廣義能量距離的正則項)和 SAC 算法(使用基于 Shannon 熵的正則項)在不同策略結構下的計算效率,實驗結果如下表3。可以看出,ACED 算法在計算正則項時增加動作采樣數不會明顯增加計算開銷;且在使用更為復雜的策略結構時,ACED 算法相比 SAC 算法在計算效率上具有明顯優勢。
▲ 表3:不同策略結構、不同動作采樣數下 ACED 算法與 SAC 算法的性能比較。表中所列時間為 步訓練用時,SG 為基于高斯分布的策略,NF 為基于標準化流網絡的策略
6.3 對比和消融實驗
最后,我們對 ACED 算法進行了詳細的對比和消融實驗。我們首先考慮不同的超參數,即使用不同數量的動作采樣估計正則項(如圖2.a),我們發現 ACED 算法對動作采樣數不敏感,即使在 的情況下算法的表現仍然很好;接著我們對比了使用/不使用正則項時的性能(如圖2.b),實驗證明基于樣本的正則項在不同策略結構下都有助于提升學習效率;最后我們對比了在正則項中使用不同的函數 對性能的影響差異(如圖2.c),結果顯示選擇合適的函數 對 ACED 算法的性能較為重要。
▲ 圖2:ACED算法的各項參數的詳細的對比和消融實驗,所有實驗結果均基于 HalfCheetah-v2 任務。圖中 SAC-MAX 為 SAC 算法在 步訓練中的最佳性能;圖 2.b 中 DM、NN、GM 分別對應狄拉克混合策略、基于噪聲網絡的策略、基于生成模型的策略;圖 2.c 中,log、power-0.25、power-0.5、interal_energy 分別對應正則項使用 、、 以及僅包含 的正則項
總結
在本文中,我們提出了一種基于動作采樣的正則項 SBR,并基于廣義能量距離(GED)給出了該正則項的一系列實例。SBR 作為熵正則的一種替代方案,能夠廣泛兼容各種復雜的策略結構,并具備計算高效、樣本效率高等諸多優勢。然而,“是否還能找到其他更好的 SBR 實例?”,“廣義能量距離能否應用于強化學習的其他任務?”,這些問題仍待進一步解決和完善,我們也歡迎大家進行相關研究和討論。
關于作者
周祺,2019年畢業于中國科學技術大學計算機科學與技術學院,獲得工學學士學位。現于中國科學技術大學電子工程與信息科學系的 MIRA Lab 實驗室攻讀研究生,師從王杰教授。研究興趣包括強化學習與機器博弈。目前已發表論文包括:
1. Qi Zhou, Houqiang Li, and Jie Wang. Deep Model-Based Reinforcement Learning via Estimated Uncertainty and Conservative Policy Optimization. In AAAI, 2020.
2. Qi Zhou, Yufei Kuang, Zherui Qiu, Houqiang Li, and Jie Wang. Promoting Stochasticity for Expressive Policies via a Simple and Efficient Regularization Method. In NeurIPS, 2020.
參考文獻
[1] Qi Zhou, Houqiang Li, and Jie Wang. Deep Model-Based Reinforcement Learning via Estimated Uncertainty and Conservative Policy Optimization. In AAAI, 2020.
[2] Wenhao Yang, Xiang Li, and Zhihua Zhang. A regularized approach to sparse optimal policy in reinforcement learning. In NeurIPS, 2019.
[3] Tuomas Haarnoja, Aurick Zhou, Pieter Abbeel, and Sergey Levine. Soft actor-critic: Off-policy maximum entropy deep reinforcement learning with a stochastic actor. In ICML, 2018.
[4] Tuomas Haarnoja, Haoran Tang, Pieter Abbeel, and Sergey Levine. Reinforcement learning with deep energy-based policies. In ICML, 2017.
[5] Tuomas Haarnoja, Aurick Zhou, Kristian Hartikainen, George Tucker, Sehoon Ha, Jie Tan, Vikash Kumar, Henry Zhu, Abhishek Gupta, Pieter Abbeel, et al. Soft actor-critic algorithms and applications. arXiv preprint, 2018.
[6] Yinlam Chow, Ofir Nachum, and Mohammad Ghavamzadeh. Path consistency learning in tsallis entropy regularized mdps. In ICML, 2018.
[7] Kyungjae Lee, Sungyub Kim, Sungbin Lim, Sungjoon Choi, and Songhwai Oh. Tsallis reinforcement learning: A unified framework for maximum entropy reinforcement learning. arXiv preprint, 2019.
[8] Geist, Matthieu, Bruno Scherrer, and Olivier Pietquin. A Theory of Regularized Markov Decision Processes. In ICML, 2018.
[9] Bogdan Mazoure, Thang Doan, Audrey Durand, R Devon Hjelm, and Joelle Pineau. Leveraging exploration in off-policy algorithms via normalizing flows. arXiv preprint, 2019.
[10] Yunhao Tang and Shipra Agrawal. Discretizing continuous action space for on-policy optimization. arXiv preprint, 2019.
[11] L Baringhaus and C Franz. Rigid motion invariant two-sample tests. Statistica Sinica, 2010.
[12] Scott Fujimoto, Herke Van Hoof, and David Meger. Addressing function approximation error in actor-critic methods. In ICML, 2018.
[13] Timothy P Lillicrap, Jonathan J Hunt, Alexander Pritzel, Nicolas Heess, Tom Erez, Yuval Tassa, David Silver, and Daan Wierstra. Continuous control with deep reinforcement learning. arXiv preprint, 2015.
更多閱讀
#投 稿?通 道#
?讓你的論文被更多人看到?
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學習心得或技術干貨。我們的目的只有一個,讓知識真正流動起來。
?????來稿標準:
? 稿件確系個人原創作品,來稿需注明作者個人信息(姓名+學校/工作單位+學歷/職位+研究方向)?
? 如果文章并非首發,請在投稿時提醒并附上所有已發布鏈接?
? PaperWeekly 默認每篇文章都是首發,均會添加“原創”標志
?????投稿郵箱:
? 投稿郵箱:hr@paperweekly.site?
? 所有文章配圖,請單獨在附件中發送?
? 請留下即時聯系方式(微信或手機),以便我們在編輯發布時和作者溝通
????
現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
關于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
總結
以上是生活随笔為你收集整理的NeurIPS 2020 | 一种基于动作采样的简单高效的正则化强化学习方法的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 安装pe硬盘启动不了系统怎么办 pe硬盘
- 下一篇: NeurIPS 2020 | 聚焦自监督