日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

针对安全探索的受限强化学习:原始对偶优化算法

發布時間:2024/10/8 编程问答 47 豆豆
生活随笔 收集整理的這篇文章主要介紹了 针对安全探索的受限强化学习:原始对偶优化算法 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

?作者 | 周宣含

學校 | 國防科技大學

研究方向 | 深度強化學習

在強化學習中,智能體通過在未知環境中探索與試錯來學習如何決策。大多數 RL 算法允許智能體自由地探索環境,并采取任意能夠提升獎勵的動作,然而,能夠獲得較高獎勵的動作同時也可能會帶來較大風險。而在一些實際場景中,確保智能體的安全至關重要。

不同于標準 RL 只需要最大化獎勵函數,此時智能體所采取的行為必須能夠避免危險的情況,因此設計者需要合理地設計獎勵函數,通過不同的權重系數(獎勵因子與懲罰因子)在最大化獎勵以及減少危險代價之間取得平衡。這其中存在著兩個問題:

1)需要滿足的約束條件與正確的權重參數之間不存在給定的映射關系,如果懲罰因子選取得過小,智能體可能會學習到危險的行為,相反,如果懲罰因子選取得過大,智能體可能無法學習到任何東西;2)對于給定的權重系數,即使能夠讓智能體最終學習到滿足約束的最優策略,也依然無法保證智能體在整個訓練過程中都能滿足約束。

一種確保智能體安全性的方法是在標準馬爾科夫框架中增加約束條件,把問題轉變成受限馬爾科夫決策過程(constraint Markov Decision Process,CMDP),此時智能體的目標是在滿足 long-term 代價約束的條件下最大化 long-term 獎勵。這種方法能夠同時解決上述的兩個問題。

當前求解 CMDP 的算法主要包含兩大類:原始對偶優化(primal-dual optimization,PDO)算法與受限策略優化(constraint policy optimization,CPO)算法。其中,PDO 算法以拉格朗日松弛(Lagrangian relaxation)技術為基礎,輪流更新原始域參數與對偶域參數。具體來說,原始策略參數利用策略梯度上升的方法進行更新,而對偶域的參數則采用對偶梯度上升的方法進行更新。

CPO 與 PPO 的區別在于對偶域的更新方式,在 CPO 中,每一次迭代都會通過求解一個精心設計的優化問題來直接求解對偶參數,這樣確保了訓練過程中約束條件也能夠得到滿足,CPO 是 TRPO 在 CMDP 中的擴展。open AI?在對于? safety ?RL 的 benchmark 中提到,CPO 的實際效果不如 PDO,并且 CPO 的算法框架基于 TRPO 算法,而 PDO 可以應用在各種標準 RL 算法中,因此這里只介紹 PDO 算法。


Constraint RL

1.1 受限馬爾科夫決策過程(CMDP

CDMP 在 MDP 的基礎上增加了對于長遠折扣代價(long-term discounted costs)的約束。具體來說,假設總共有 個代價函數 ,其中每個代價函數 表示狀態-動作對到代價之間的映射關系。類似于獎勵收益,策略 下的長遠折扣代價收益被定義為

對應的約束門限值為 。CMDP 的目標是在滿足長遠代價收益 的情況下最大化獎勵收益 ,即

除此之外,約束條件還有多種形式,例如機會約束 ,風險條件價值約束(constraints on the conditional value at risk,與最壞情況結果的一小部分相比的預期代價總和),每個狀態的獨立約束 。實際上,在 Sutton 的書中提到過,所有的目標與目的都可以用獎勵函數來表示,因此通過合理設計代價函數所能表示出來的約束條件種類是十分廣泛的。

另外,Constraint RL 與 multi-objective RL 十分相近,但是兩者有著一定的區別,在 constraint RL 中,當約束條件得到滿足時,通常存在一個飽和點(saturation point),當到達該點時,繼續減少代價函數的值就不再具有任何意義,這個點對應的代價函數的值也就是約束條件的門限值,這個門限值在 multi-objective RL 中不存在類似的定義。

1.2 原始對偶優化(primal-dual optimization)

為了求解 CMDP,可以采用拉格朗日松弛技術,具體來說,上述 CMDP 問題的拉格朗日函數為

其中 是拉格朗日因子。原帶約束的優化問題可以轉換為如下不帶約束的優化問題:

為了求解這個不含約束的 minmax 問題,標準的方法是采用迭代原始-對偶方法,即在每一次迭代中輪流更新原始策略 與對偶變量 。在第 次迭代中的原始-對偶更新過程如下:

  • 固定 ,執行策略梯度上升:,其中 表示更新步長。這里的策略梯度既可以是 on-policy 的似然比策略梯度(REINFORCE 與 TRPO等),也可以是 off-policy 的確定性策略梯度(例如 DDPG)。

  • 固定 ,執行對偶更新:。CMDP 中不同方法的區別就在于對偶更新函數 的選擇。例如,PDO 采用簡單的對偶梯度上升 ,其中 是步長, 是對于對偶空間 的投影。相反,CPO 通過在每一次迭代中構建新的優化問題來求解對偶變量 ,進一步加強了約束。


實際算法舉例

2.1 Primal-Dual DDPG for CMDPs

這里提供 DDPG 算法的原始-對偶優化版本用于求解 CMDP,該算法中的原始策略更新與對偶變量更新均利用經驗回訪池中的 off-policy 數據樣本。為了方便描述,假設此時 CMDP中只存在 1 個約束,多個約束的情況也可以輕易地擴展得到。在原始-對偶 DDPG 算法中,存在以下幾個神經網絡:

  • Reward critic Q-network 以及 reward target critic Q-network ;

  • Cost critic critic Q-network 以及 cost target critic Q-network ;

  • Actor policy network 以及 actor target policy network ;

具體算法如下:

可以看出,這里的算法與標準 DDPG 的算法區別在于:

1. 多了 1 個用于表征長遠折扣代價的神經網絡;

2. 需對對偶域的拉格朗日因子即懲罰因子進行梯度上升。

類似的,PDO 還可以應用在 TRPO、PPO、TD3、SAC 等算法上。


2.2 存在的問題

在實驗中我發現這種方法存在一定的問題,在實際場景中我們的約束條件是有一定物理意義的,例如一段時間內機器人的能量消耗必須小于一定的閾值,保證機器人的正常運作,這里的閾值是根據無折扣的代價之和求得的,但是在上面的算法流程中,利用了一個神經網絡去擬合代價對應的 Q 值,這里的 Q 值對應的是有折扣的代價收益,與獎勵對應的收益類似,因此這里的代價 Q 值和我們實際中的代價之和是有區別的。在 open AI 提供的實驗中,代價比較簡單,通常為 1,此時 open AI 的代碼在假設每個 step 都有代價,且均為 1 的情況下,利用有折扣代價之和與無折扣代價之和之間的等式關系:

將實際無折扣代價之和得到的門限值轉換成了有折扣代價之和得到的門限值:

這種方法基于每個時刻均有代價,且代價值固定的假設,在實際場景中,代價值和獎勵值一樣,可能存在各種各樣的取值,并且不是每個 step 都會存在,所以這種等式變換是十分不精確的,并不適合實際場景。因此,在我個人的實驗中,并沒有采用神經網絡對代價對應的收益進行擬合,而是直接采用 on-policy 的數據計算一個 episode 的代價之和做為代價收益,然后利用這個值對拉格朗日因子進行梯度更新。

參考文獻

[1] A. Ray, J. Achiam, and D. Amodei, ‘Benchmarking Safe Exploration in Deep Reinforcement Learning’, p. 25.
[2] Q. Liang, F. Que, and E. Modiano, ‘Accelerated Primal-Dual Policy Optimization for Safe Reinforcement Learning’,?arXiv:1802.06480 [cs, stat], Feb. 2018, Accessed: Apr. 14, 2021. [Online]. Available:?arxiv.org/abs/1802.0648
[3]J. Achiam, D. Held, A. Tamar, and P. Abbeel, ‘Constrained Policy Optimization’,?arXiv:1705.10528 [cs], May 2017, Accessed: Apr. 17, 2021. [Online]. Available:?arxiv.org/abs/1705.1052
[4]Y. Chow, M. Ghavamzadeh, L. Janson, and M. Pavone, ‘Risk-Constrained Reinforcement Learning with Percentile Risk Criteria’,?arXiv:1512.01629 [cs, math], Apr. 2017, Accessed: Apr. 17, 2021. [Online]. Available:?arxiv.org/abs/1512.0162

特別鳴謝

感謝 TCCI 天橋腦科學研究院對于 PaperWeekly 的支持。TCCI 關注大腦探知、大腦功能和大腦健康。

更多閱讀

#投 稿?通 道#

?讓你的文字被更多人看到?

如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。

總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。?

PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析、科研心得競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。

📝?稿件基本要求:

? 文章確系個人原創作品,未曾在公開渠道發表,如為其他平臺已發表或待發表的文章,請明確標注?

? 稿件建議以?markdown?格式撰寫,文中配圖以附件形式發送,要求圖片清晰,無版權問題

? PaperWeekly 尊重原作者署名權,并將為每篇被采納的原創首發稿件,提供業內具有競爭力稿酬,具體依據文章閱讀量和文章質量階梯制結算

📬?投稿通道:

? 投稿郵箱:hr@paperweekly.site?

? 來稿請備注即時聯系方式(微信),以便我們在稿件選用的第一時間聯系作者

? 您也可以直接添加小編微信(pwbot02)快速投稿,備注:姓名-投稿

△長按添加PaperWeekly小編

🔍

現在,在「知乎」也能找到我們了

進入知乎首頁搜索「PaperWeekly」

點擊「關注」訂閱我們的專欄吧

·

總結

以上是生活随笔為你收集整理的针对安全探索的受限强化学习:原始对偶优化算法的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。