日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

【逆强化学习-0】Introduction

發布時間:2025/3/11 编程问答 19 豆豆
生活随笔 收集整理的這篇文章主要介紹了 【逆强化学习-0】Introduction 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

文章目錄

  • 專欄傳送門
  • 0.引言
  • 1.逆強化學習發展歷程
  • 2.需要準備的

專欄傳送門

0.簡介
1.學徒學習
2.最大熵學習

0.引言

\qquad相比于深度學習,國內強化學習的教程并不是特別多,而相比強化學習,逆強化學習的教程可謂是少之又少。而本人想將整理到的資料融合到一塊并記錄下來,因此開辟了這個分欄。有關這個領域的應用倒是有很多博客可以參考,但真正介紹原理很清楚的博客很少,因此本系列以介紹原理為主,輔助代碼實驗。
\qquad逆強化學習(Inverse Reinforcement Learning,IRL)其實是模仿學習(Imitation Learning,IL)的一種,與普通IL方法不同的是,其通過學習Expert,求得Environment的獎勵函數Reward,再結合正強化學習(Forward Reinforcement Learning),達到與環境互動,模仿專家系統行為的目的。
\qquad與普通強化學習不同,強化學習雖然不像監督學習一樣需要知道樣本的標簽,但是需要知道每一個樣本對應的獎勵函數Reward;然而逆強化學習則利用人類的行為求取這個Reward。在這個過程中會遇到各種問題,但是成功的案例也不少,最典型的要數美國berkly大學做的機器人擺盤子和倒彈珠的實驗:

http://rll.berkeley.edu/gcl


\qquad在該實驗中,機器人將10個盤子依次擺放到對應位置是一個特定的強化學習任務,這個任務的損失函數很難人為界定,但是可以通過人工演示正確的范例來讓機器人加以學習,從而達到學習環境獎勵函數并優化Policy的目的。

\qquadIRL領域open-access的papers有很多,可惜本人水平有限,理解太淺。雖說知乎和CSDN的大V們也做過很多介紹,可惜看了之后都是失望大于期望的,這些博客大多參考了國外的課程,可惜播放源大多數都不是國內源,雖說打不開,本人將鏈接也貼在下方以作參考。

  • 莫煩python-強化學習系列
  • 臺灣大學-深度強化系學習系列視頻(非國內源)
  • 臺灣大學-模仿學習簡介(非國內源)
  • 美國Berkly大學-模仿學習課程(非國內源)
  • 模仿學習(行為克隆+逆強哈學習)教學(非國內源)
  • 1.逆強化學習發展歷程

    IRL的重要論文(OpenAI提供的論文)

    論文鏈接

    \qquad如果翻看近些年IRL的論文就會發現,其IRL的思想早在2000年左右就已經提出了,但它的熱門期也是隨著2013年Deep RL的出現而開始的。目前主要的方法有以下幾種:

  • 學徒學習(Apprenticeship Learning, 2004)
  • 最大熵學習(Maximum Entropy Learning,2010)
  • 引導損失函數學習(Guided Cost Learning,2016)
  • Gail(Generative Adversarial Imitation Learning,2016)
  • DeepMimic(Example-Guided Deep Reinforcement Learning of Physics-Based Character Skills,2018)
  • Vail(Variational Discriminator Bottleneck: Improving Imitation Learning,2018)
  • MetaMimic(One-Shot High-Fidelity Imitation,2018)
  • \qquad本人在這個領域也屬于小白水平,目前只大概了解了前4種方法的原理,若有錯誤或不清晰的地方,還望大家指正(后續系列方法的整理會持續更新)。
    \qquadIRL與RL一樣,它的分類方法也基本遵循了以下原則(圖片來自OpenAI的spiningup官網):

    \qquad首先出現的Model-Free的方法,其次出現Model-Based方法。在Model-Free方法中,大家也是先研究Q-Learning系列的(Value-Based)方法,然后再研究Policy-Based方法。這里的Model指的是Dynamic Model,在MDP中指狀態轉移概率(矩陣),很多時候這個矩陣無法求得,就必須依賴Model-Free的方法,通常Model-Free都是基于Policy Optimization或者Sample Based的,以下是一些Model-Based和Model Free的IRL方法整理。

    Model-BasedModel-Free
    Maximum Margin Optimization, Apprenticeship Learning, Maximum Entropy Learning, Deep Maximum Entropy LearningRelative Entropy Learning, Path Integral Entropy Learning, Guided Cost Loss, Model-Free Imitation Learning via Policy Optimization

    \qquad在深度學習盛行之后,也出現了很多IRL的Deep Learning的方法,當然,只要知道了梯度如何計算,其實深度學習和線性函數是一回事。

    2.需要準備的

    博客篇幅不宜過長,因此以下基礎知識內容本系列的博客不會再詳細贅述,還望讀者自行學習,畢竟基礎不牢地動山搖嘛

  • 強化學習的基礎知識(可以看引言中莫煩的視頻,或者參考OpenAI官網教程)
  • 深度學習的基本理論(其實這才是最好學的,好在B站有不少,在這里就不作推薦了)
  • 概率論的基礎知識(說實話,高數和線代用的不是特別多,但是對概率論基礎知識的掌握還是非常必要的)
  • Linux的開發環境(強化學習的仿真環境gym目前只支持Linux呀,雖說有人在Windows上成功了,但也不是Official Support的)
  • \qquad后續會根據第一章提到的發展歷程更新這個系列的博客,歡迎同道之人交流探討!

    總結

    以上是生活随笔為你收集整理的【逆强化学习-0】Introduction的全部內容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。