當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

强化学习总结(3-4)——无模型的价值函数的预测，蒙特卡洛和TD时序差分方法

發布時間：2025/1/21 编程问答 27 豆豆

生活随笔收集整理的這篇文章主要介紹了强化学习总结(3-4)——无模型的价值函数的预测，蒙特卡洛和TD时序差分方法小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

文章目錄

強化學習總結(3-4)
- 無模型
- - 預測價值函數
  - - 蒙特卡洛
    - 時序差分（TD）學習

強化學習總結(3-4)

? 最近呢，搞完有模型的強化學習之后，接下來就開始搞無模型的強化學習，發現還是無模型的強化學習應用場景比較多，而且更加燒腦liaoer。

? 上面第一張圖是我們的model-base RL，第二張圖是我們的model-free RL，這里呢，可以看到model-base RL是沒有和環境的一個交互，換句話說呢沒有實際的交互，因為那個環境中的轉移概率P我們是已知的，R也是已知的，我們只需要按照價值函數期望公式就能算出價值函數，以及optimal policy。然鵝，model-free RL它不知道P啊，它木得辦法啊，它只能去交互，在實際操作中看看我各個狀態間的轉移概率是多些，轉移的回報是多些。

無模型

預測價值函數

蒙特卡洛

? 所以，對于model-free的情況，它只能用蒙特卡洛的方法采樣多個軌跡進行平均，才能得到價值函數啊。而我們的model-base用動態規劃預測，它就不用了采樣了啊，因為它都知道各個狀態的轉移情況也就是模型，所以能遍歷所有的狀態和動作。

時序差分（TD）學習

? 這里呢，和蒙特卡洛類似，只不過它是走m步(獲得m個R)就更更新一下當前狀態的價值函數，通過不停地迭代和bootsrapping，達到一個收斂狀態，我們就說ok了，價值函數找到了。

下面就是兩個的區別，翠花~，上酸。。圖：

此前的內容都是value-base RL學派的內容，接下來討論policy-base Rl學派的內容。

總結

以上是生活随笔為你收集整理的强化学习总结(3-4)——无模型的价值函数的预测，蒙特卡洛和TD时序差分方法的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：机器人学一些概念2——四元数，D-H 参
下一篇：多车调度问题(大疆Robot Maste