【逆强化学习-0】Introduction
文章目錄
- 專欄傳送門
- 0.引言
- 1.逆強化學習發展歷程
- 2.需要準備的
專欄傳送門
0.簡介
1.學徒學習
2.最大熵學習
0.引言
\qquad相比于深度學習,國內強化學習的教程并不是特別多,而相比強化學習,逆強化學習的教程可謂是少之又少。而本人想將整理到的資料融合到一塊并記錄下來,因此開辟了這個分欄。有關這個領域的應用倒是有很多博客可以參考,但真正介紹原理很清楚的博客很少,因此本系列以介紹原理為主,輔助代碼實驗。
\qquad逆強化學習(Inverse Reinforcement Learning,IRL)其實是模仿學習(Imitation Learning,IL)的一種,與普通IL方法不同的是,其通過學習Expert,求得Environment的獎勵函數Reward,再結合正強化學習(Forward Reinforcement Learning),達到與環境互動,模仿專家系統行為的目的。
\qquad與普通強化學習不同,強化學習雖然不像監督學習一樣需要知道樣本的標簽,但是需要知道每一個樣本對應的獎勵函數Reward;然而逆強化學習則利用人類的行為求取這個Reward。在這個過程中會遇到各種問題,但是成功的案例也不少,最典型的要數美國berkly大學做的機器人擺盤子和倒彈珠的實驗:
http://rll.berkeley.edu/gcl
\qquad在該實驗中,機器人將10個盤子依次擺放到對應位置是一個特定的強化學習任務,這個任務的損失函數很難人為界定,但是可以通過人工演示正確的范例來讓機器人加以學習,從而達到學習環境獎勵函數并優化Policy的目的。
\qquadIRL領域open-access的papers有很多,可惜本人水平有限,理解太淺。雖說知乎和CSDN的大V們也做過很多介紹,可惜看了之后都是失望大于期望的,這些博客大多參考了國外的課程,可惜播放源大多數都不是國內源,雖說打不開,本人將鏈接也貼在下方以作參考。
1.逆強化學習發展歷程
IRL的重要論文(OpenAI提供的論文)
論文鏈接
\qquad如果翻看近些年IRL的論文就會發現,其IRL的思想早在2000年左右就已經提出了,但它的熱門期也是隨著2013年Deep RL的出現而開始的。目前主要的方法有以下幾種:
\qquad本人在這個領域也屬于小白水平,目前只大概了解了前4種方法的原理,若有錯誤或不清晰的地方,還望大家指正(后續系列方法的整理會持續更新)。
\qquadIRL與RL一樣,它的分類方法也基本遵循了以下原則(圖片來自OpenAI的spiningup官網):
\qquad首先出現的Model-Free的方法,其次出現Model-Based方法。在Model-Free方法中,大家也是先研究Q-Learning系列的(Value-Based)方法,然后再研究Policy-Based方法。這里的Model指的是Dynamic Model,在MDP中指狀態轉移概率(矩陣),很多時候這個矩陣無法求得,就必須依賴Model-Free的方法,通常Model-Free都是基于Policy Optimization或者Sample Based的,以下是一些Model-Based和Model Free的IRL方法整理。
| Maximum Margin Optimization, Apprenticeship Learning, Maximum Entropy Learning, Deep Maximum Entropy Learning | Relative Entropy Learning, Path Integral Entropy Learning, Guided Cost Loss, Model-Free Imitation Learning via Policy Optimization |
\qquad在深度學習盛行之后,也出現了很多IRL的Deep Learning的方法,當然,只要知道了梯度如何計算,其實深度學習和線性函數是一回事。
2.需要準備的
博客篇幅不宜過長,因此以下基礎知識內容本系列的博客不會再詳細贅述,還望讀者自行學習,畢竟基礎不牢地動山搖嘛
\qquad后續會根據第一章提到的發展歷程更新這個系列的博客,歡迎同道之人交流探討!
總結
以上是生活随笔為你收集整理的【逆强化学习-0】Introduction的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Oracle创建视图、通过视图创建表
- 下一篇: Oracle备份还原