强化学习(五)用时序差分法(TD)求解
在強化學習(四)用蒙特卡羅法(MC)求解中,我們講到了使用蒙特卡羅法來求解強化學習問題的方法,雖然蒙特卡羅法很靈活,不需要環境的狀態轉化概率模型,但是它需要所有的采樣序列都是經歷完整的狀態序列。如果我們沒有完整的狀態序列,那么就無法使用蒙特卡羅法求解了。本文我們就來討論可以不使用完整狀態序列求解強化學習問題的方法:時序差分(Temporal-Difference, TD)。
時序差分這一篇對應Sutton書的第六章部分和UCL強化學習課程的第四講部分,第五講部分。
1. 時序差分TD簡介
時序差分法和蒙特卡羅法類似,都是不基于模型的強化學習問題求解方法。所以在上一篇定義的不基于模型的強化學習控制問題和預測問題的定義,在這里仍然適用。
預測問題:即給定強化學習的5個要素:狀態集SS, 動作集AA, 即時獎勵RR,衰減因子γγ, 給定策略ππ, 求解該策略的狀態價值函數v(π)v(π)
控制問題:也就是求解最優的價值函數和策略。給定強化學習的5個要素:狀態集SS, 動作集AA, 即時獎勵RR,衰減因子γγ, 探索率??, 求解最優的動作價值函數q?q?和最優策略π?π?
回顧蒙特卡羅法中計算狀態收獲的方法是:
Gt=Rt+1+γRt+2+γ2Rt+3+...γT?t?1RTGt=Rt+1+γRt+2+γ2Rt+3+...γT?t?1RT
而對
總結
以上是生活随笔為你收集整理的强化学习(五)用时序差分法(TD)求解的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 强化学习(四)用蒙特卡罗法(MC)求解
- 下一篇: 强化学习(六)时序差分在线控制算法SAR