當前位置：首頁 >

强化学习7——基于环境模型的RL方法

發布時間：2025/1/21 96 豆豆

生活随笔收集整理的這篇文章主要介紹了强化学习7——基于环境模型的RL方法小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

觀周博雷老師課程有感

何為模型

狀態轉移概率：

狀態價值獎勵：

我們通常假設狀態轉移和價值之間是獨立的

通過環境交互，behavior policy采樣一系列狀態轉移{S1,A1,R2,…,ST}，使用監督的辦法學習狀態轉移和價值函數。

Table Lookup Model
Linear Expectation Model
Linear Gaussian Model
Gaussian Process Model
Deep Belief Network Model …

就是數數，是說采樣了若干條軌跡，先計算有多少個（s，a）狀態對，然后再分別計算這些狀態對中轉移到某個狀態s’的個數和得到的獎勵總和，在用這些個數和獎勵總和除以狀態對數得到概率轉移模型和獎勵模型。

???在基于環境的RL中，我們把采樣來源分為Real experience和Simulated experience，Real experience來源于真實模型即環境，Simulated experience來源于我們學習的模型。

??Dyna算法是從環境學習到一個模型，然后在真實模型和學習到的模型中學習價值函數。

??與控制論緊密相關，例如下面這個算法：

這里第二步是通過強監督訓練來找到模型f(s,a)，然后第三步用LQR可以求解最優的軌跡。

改進1：
執行第三步（算法1中）得到動作，得到{s，a，s’}加入集合D中繼續優化模型，一直如此形成一個循環。

為了克服漂移，偏離最優軌跡。

改進2：

第三步得到動作（算法1中）后，我們只執行一步，得到的狀態價值對加入集合D中，然后再重復第三步（算法1中），還是執行第一步，并加入集合D，依次循環。

改進1中在優化模型之前就執行第三步的操作，這就導致一開始就離我們的最優軌跡非常遠。

最后得到學習模型和策略相結合的算法：

大型神經網絡，線性高斯動態函數。

以上是生活随笔為你收集整理的强化学习7——基于环境模型的RL方法的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。