【逆强化学习-0】Introduction
文章目錄
- 專欄傳送門
- 0.引言
- 1.逆強化學(xué)習(xí)發(fā)展歷程
- 2.需要準備的
專欄傳送門
0.簡介
1.學(xué)徒學(xué)習(xí)
2.最大熵學(xué)習(xí)
0.引言
\qquad相比于深度學(xué)習(xí),國內(nèi)強化學(xué)習(xí)的教程并不是特別多,而相比強化學(xué)習(xí),逆強化學(xué)習(xí)的教程可謂是少之又少。而本人想將整理到的資料融合到一塊并記錄下來,因此開辟了這個分欄。有關(guān)這個領(lǐng)域的應(yīng)用倒是有很多博客可以參考,但真正介紹原理很清楚的博客很少,因此本系列以介紹原理為主,輔助代碼實驗。
\qquad逆強化學(xué)習(xí)(Inverse Reinforcement Learning,IRL)其實是模仿學(xué)習(xí)(Imitation Learning,IL)的一種,與普通IL方法不同的是,其通過學(xué)習(xí)Expert,求得Environment的獎勵函數(shù)Reward,再結(jié)合正強化學(xué)習(xí)(Forward Reinforcement Learning),達到與環(huán)境互動,模仿專家系統(tǒng)行為的目的。
\qquad與普通強化學(xué)習(xí)不同,強化學(xué)習(xí)雖然不像監(jiān)督學(xué)習(xí)一樣需要知道樣本的標(biāo)簽,但是需要知道每一個樣本對應(yīng)的獎勵函數(shù)Reward;然而逆強化學(xué)習(xí)則利用人類的行為求取這個Reward。在這個過程中會遇到各種問題,但是成功的案例也不少,最典型的要數(shù)美國berkly大學(xué)做的機器人擺盤子和倒彈珠的實驗:
http://rll.berkeley.edu/gcl
\qquad在該實驗中,機器人將10個盤子依次擺放到對應(yīng)位置是一個特定的強化學(xué)習(xí)任務(wù),這個任務(wù)的損失函數(shù)很難人為界定,但是可以通過人工演示正確的范例來讓機器人加以學(xué)習(xí),從而達到學(xué)習(xí)環(huán)境獎勵函數(shù)并優(yōu)化Policy的目的。
\qquadIRL領(lǐng)域open-access的papers有很多,可惜本人水平有限,理解太淺。雖說知乎和CSDN的大V們也做過很多介紹,可惜看了之后都是失望大于期望的,這些博客大多參考了國外的課程,可惜播放源大多數(shù)都不是國內(nèi)源,雖說打不開,本人將鏈接也貼在下方以作參考。
1.逆強化學(xué)習(xí)發(fā)展歷程
IRL的重要論文(OpenAI提供的論文)
論文鏈接
\qquad如果翻看近些年IRL的論文就會發(fā)現(xiàn),其IRL的思想早在2000年左右就已經(jīng)提出了,但它的熱門期也是隨著2013年Deep RL的出現(xiàn)而開始的。目前主要的方法有以下幾種:
\qquad本人在這個領(lǐng)域也屬于小白水平,目前只大概了解了前4種方法的原理,若有錯誤或不清晰的地方,還望大家指正(后續(xù)系列方法的整理會持續(xù)更新)。
\qquadIRL與RL一樣,它的分類方法也基本遵循了以下原則(圖片來自O(shè)penAI的spiningup官網(wǎng)):
\qquad首先出現(xiàn)的Model-Free的方法,其次出現(xiàn)Model-Based方法。在Model-Free方法中,大家也是先研究Q-Learning系列的(Value-Based)方法,然后再研究Policy-Based方法。這里的Model指的是Dynamic Model,在MDP中指狀態(tài)轉(zhuǎn)移概率(矩陣),很多時候這個矩陣無法求得,就必須依賴Model-Free的方法,通常Model-Free都是基于Policy Optimization或者Sample Based的,以下是一些Model-Based和Model Free的IRL方法整理。
| Maximum Margin Optimization, Apprenticeship Learning, Maximum Entropy Learning, Deep Maximum Entropy Learning | Relative Entropy Learning, Path Integral Entropy Learning, Guided Cost Loss, Model-Free Imitation Learning via Policy Optimization |
\qquad在深度學(xué)習(xí)盛行之后,也出現(xiàn)了很多IRL的Deep Learning的方法,當(dāng)然,只要知道了梯度如何計算,其實深度學(xué)習(xí)和線性函數(shù)是一回事。
2.需要準備的
博客篇幅不宜過長,因此以下基礎(chǔ)知識內(nèi)容本系列的博客不會再詳細贅述,還望讀者自行學(xué)習(xí),畢竟基礎(chǔ)不牢地動山搖嘛
\qquad后續(xù)會根據(jù)第一章提到的發(fā)展歷程更新這個系列的博客,歡迎同道之人交流探討!
總結(jié)
以上是生活随笔為你收集整理的【逆强化学习-0】Introduction的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Oracle创建视图、通过视图创建表
- 下一篇: Oracle备份还原