當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

【逆强化学习-0】Introduction

發(fā)布時間：2025/3/11 编程问答 24 豆豆

生活随笔收集整理的這篇文章主要介紹了【逆强化学习-0】Introduction 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

文章目錄

專欄傳送門
0.引言
1.逆強化學(xué)習(xí)發(fā)展歷程
2.需要準備的

專欄傳送門

0.簡介
1.學(xué)徒學(xué)習(xí)
2.最大熵學(xué)習(xí)

0.引言

$\qquad$ 相比于深度學(xué)習(xí)，國內(nèi)強化學(xué)習(xí)的教程并不是特別多，而相比強化學(xué)習(xí)，逆強化學(xué)習(xí)的教程可謂是少之又少。而本人想將整理到的資料融合到一塊并記錄下來，因此開辟了這個分欄。有關(guān)這個領(lǐng)域的應(yīng)用倒是有很多博客可以參考，但真正介紹原理很清楚的博客很少，因此本系列以介紹原理為主，輔助代碼實驗。
$\qquad$ 逆強化學(xué)習(xí)（Inverse Reinforcement Learning，IRL）其實是模仿學(xué)習(xí)（Imitation Learning，IL）的一種，與普通IL方法不同的是，其通過學(xué)習(xí)Expert，求得Environment的獎勵函數(shù)Reward，再結(jié)合正強化學(xué)習(xí)（Forward Reinforcement Learning），達到與環(huán)境互動，模仿專家系統(tǒng)行為的目的。
$\qquad$ 與普通強化學(xué)習(xí)不同，強化學(xué)習(xí)雖然不像監(jiān)督學(xué)習(xí)一樣需要知道樣本的標(biāo)簽，但是需要知道每一個樣本對應(yīng)的獎勵函數(shù)Reward；然而逆強化學(xué)習(xí)則利用人類的行為求取這個Reward。在這個過程中會遇到各種問題，但是成功的案例也不少，最典型的要數(shù)美國berkly大學(xué)做的機器人擺盤子和倒彈珠的實驗：

http://rll.berkeley.edu/gcl

$\qquad$ 在該實驗中，機器人將10個盤子依次擺放到對應(yīng)位置是一個特定的強化學(xué)習(xí)任務(wù)，這個任務(wù)的損失函數(shù)很難人為界定，但是可以通過人工演示正確的范例來讓機器人加以學(xué)習(xí)，從而達到學(xué)習(xí)環(huán)境獎勵函數(shù)并優(yōu)化Policy的目的。

$\qquad$ IRL領(lǐng)域open-access的papers有很多，可惜本人水平有限，理解太淺。雖說知乎和CSDN的大V們也做過很多介紹，可惜看了之后都是失望大于期望的，這些博客大多參考了國外的課程，可惜播放源大多數(shù)都不是國內(nèi)源，雖說打不開，本人將鏈接也貼在下方以作參考。

莫煩python-強化學(xué)習(xí)系列

臺灣大學(xué)-深度強化系學(xué)習(xí)系列視頻（非國內(nèi)源）

臺灣大學(xué)-模仿學(xué)習(xí)簡介（非國內(nèi)源）

美國Berkly大學(xué)-模仿學(xué)習(xí)課程（非國內(nèi)源）

模仿學(xué)習(xí)（行為克隆+逆強哈學(xué)習(xí)）教學(xué)（非國內(nèi)源）

1.逆強化學(xué)習(xí)發(fā)展歷程

IRL的重要論文（OpenAI提供的論文）

論文鏈接

$\qquad$ 如果翻看近些年IRL的論文就會發(fā)現(xiàn)，其IRL的思想早在2000年左右就已經(jīng)提出了，但它的熱門期也是隨著2013年Deep RL的出現(xiàn)而開始的。目前主要的方法有以下幾種：

學(xué)徒學(xué)習(xí)（Apprenticeship Learning, 2004）

最大熵學(xué)習(xí)（Maximum Entropy Learning，2010）

引導(dǎo)損失函數(shù)學(xué)習(xí)（Guided Cost Learning，2016）

Gail（Generative Adversarial Imitation Learning，2016）

DeepMimic（Example-Guided Deep Reinforcement Learning of Physics-Based Character Skills，2018）

Vail（Variational Discriminator Bottleneck: Improving Imitation Learning，2018）

MetaMimic（One-Shot High-Fidelity Imitation,2018）

$\qquad$ 本人在這個領(lǐng)域也屬于小白水平，目前只大概了解了前4種方法的原理，若有錯誤或不清晰的地方，還望大家指正（后續(xù)系列方法的整理會持續(xù)更新）。
$\qquad$ IRL與RL一樣，它的分類方法也基本遵循了以下原則（圖片來自O(shè)penAI的spiningup官網(wǎng)）：

$\qquad$ 首先出現(xiàn)的Model-Free的方法，其次出現(xiàn)Model-Based方法。在Model-Free方法中，大家也是先研究Q-Learning系列的（Value-Based）方法，然后再研究Policy-Based方法。這里的Model指的是Dynamic Model，在MDP中指狀態(tài)轉(zhuǎn)移概率（矩陣），很多時候這個矩陣無法求得，就必須依賴Model-Free的方法，通常Model-Free都是基于Policy Optimization或者Sample Based的，以下是一些Model-Based和Model Free的IRL方法整理。

Model-BasedModel-Free

Maximum Margin Optimization, Apprenticeship Learning, Maximum Entropy Learning, Deep Maximum Entropy Learning

Relative Entropy Learning, Path Integral Entropy Learning, Guided Cost Loss, Model-Free Imitation Learning via Policy Optimization

$\qquad$ 在深度學(xué)習(xí)盛行之后，也出現(xiàn)了很多IRL的Deep Learning的方法，當(dāng)然，只要知道了梯度如何計算，其實深度學(xué)習(xí)和線性函數(shù)是一回事。

2.需要準備的

博客篇幅不宜過長，因此以下基礎(chǔ)知識內(nèi)容本系列的博客不會再詳細贅述，還望讀者自行學(xué)習(xí)，畢竟基礎(chǔ)不牢地動山搖嘛

強化學(xué)習(xí)的基礎(chǔ)知識（可以看引言中莫煩的視頻，或者參考OpenAI官網(wǎng)教程）

深度學(xué)習(xí)的基本理論（其實這才是最好學(xué)的，好在B站有不少，在這里就不作推薦了）

概率論的基礎(chǔ)知識（說實話，高數(shù)和線代用的不是特別多，但是對概率論基礎(chǔ)知識的掌握還是非常必要的）

Linux的開發(fā)環(huán)境（強化學(xué)習(xí)的仿真環(huán)境gym目前只支持Linux呀，雖說有人在Windows上成功了，但也不是Official Support的）

$\qquad$ 后續(xù)會根據(jù)第一章提到的發(fā)展歷程更新這個系列的博客，歡迎同道之人交流探討！

總結(jié)

以上是生活随笔為你收集整理的【逆强化学习-0】Introduction的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

introduction

上一篇： Oracle创建视图、通过视图创建表
下一篇： Oracle备份还原