當前位置：首頁 >

强化学习3——有模型（Model-base）与无模型（Model-free）RL的区别

發(fā)布時間：2025/1/21 75 豆豆

生活随笔收集整理的這篇文章主要介紹了强化学习3——有模型（Model-base）与无模型（Model-free）RL的区别小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

強化學習——有模型（Model-base）與無模型（Model-free）RL
- Model-base RL
- Model-free RL
- 有模型與無模型預測和控制的方法
- - 預測之間的區(qū)別
  - 控制之間的區(qū)別

強化學習——有模型（Model-base）與無模型（Model-free）RL

? 在這個過程中，agent 沒有跟環(huán)境進行交互，環(huán)境的所有信息（轉移概率和價值函數(shù)都給了，不需要自己探索）都具有了。

? 在這個過程中，agent沒有環(huán)境的信息，需要跟環(huán)境進行交互，采集到很多的軌跡數(shù)據(jù)，agent 從軌跡中獲取信息來改進策略，從而獲得更多的獎勵。

? 與環(huán)境交互獲得的軌跡如下

有模型（MDP）：

? 預測：動態(tài)規(guī)劃DP

? 控制：policy iteration；value iteration

無模型：

? 預測：MC；TD

? 控制：Sarsa；Q-learning；

DP和MC區(qū)別：

DP需要更新所有軌跡，需要知道環(huán)境；MC只需要更新該狀態(tài)下的一條軌跡，不需要知道環(huán)境；

TD和MC區(qū)別：

TD只走一步狀態(tài)值就更新；MC全部走完狀態(tài)值更新

bootstrapping 的意思就是我們基于之前估計的量來估計一個量。

policy iteration；value iteration和Sarsa；Q-learning；

? 有模型的policy iteration；value iteration是通過求狀態(tài)價值函數(shù)計算狀態(tài)動作價值函數(shù)，通過使用狀態(tài)動作價值函數(shù)來對策略進行max改善。

? 無模型的Sarsa；Q-learning使用計算出的Q函數(shù)直接改善，這是因為沒有環(huán)境所以求不出狀態(tài)價值函數(shù)。

以上是生活随笔為你收集整理的强化学习3——有模型（Model-base）与无模型（Model-free）RL的区别的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。