日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

强化学习7——基于环境模型的RL方法

發布時間:2025/1/21 编程问答 84 豆豆
生活随笔 收集整理的這篇文章主要介紹了 强化学习7——基于环境模型的RL方法 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

觀周博雷老師課程有感

文章目錄

  • 何為模型
  • 如何學到模型
  • 模型的種類
    • Table lookup Model
  • 尋找最優策略算法
    • value-base Dyna算法
    • policy-base 算法
  • 環境模型

何為模型

  • 狀態轉移概率:
  • 狀態價值獎勵:

    我們通常假設狀態轉移和價值之間是獨立的
  • 如何學到模型

    通過環境交互,behavior policy采樣一系列狀態轉移{S1,A1,R2,…,ST},使用監督的辦法學習狀態轉移和價值函數。

    模型的種類

    Table Lookup Model
    Linear Expectation Model
    Linear Gaussian Model
    Gaussian Process Model
    Deep Belief Network Model …

    Table lookup Model

    就是數數,是說采樣了若干條軌跡,先計算有多少個(s,a)狀態對,然后再分別計算這些狀態對中轉移到某個狀態s’的個數和得到的獎勵總和,在用這些個數和獎勵總和除以狀態對數得到概率轉移模型和獎勵模型。

    尋找最優策略算法

    ???在基于環境的RL中,我們把采樣來源分為Real experience和Simulated experience,Real experience來源于真實模型即環境,Simulated experience來源于我們學習的模型。

    value-base Dyna算法

    ??Dyna算法是從環境學習到一個模型,然后在真實模型和學習到的模型中學習價值函數。

    policy-base 算法

    ??與控制論緊密相關,例如下面這個算法:


    這里第二步是通過強監督訓練來找到模型f(s,a),然后第三步用LQR可以求解最優的軌跡。

    改進1:
    執行第三步(算法1中)得到動作,得到{s,a,s’}加入集合D中繼續優化模型,一直如此形成一個循環。

    為了克服漂移,偏離最優軌跡。

    改進2:

    第三步得到動作(算法1中)后,我們只執行一步,得到的狀態價值對加入集合D中,然后再重復第三步(算法1中),還是執行第一步,并加入集合D,依次循環。

    改進1中在優化模型之前就執行第三步的操作,這就導致一開始就離我們的最優軌跡非常遠。

    最后得到學習模型和策略相結合的算法:

    環境模型

    大型神經網絡,線性高斯動態函數。

    總結

    以上是生活随笔為你收集整理的强化学习7——基于环境模型的RL方法的全部內容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。