日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

【David Silver强化学习公开课】-3:DP

發布時間:2025/3/15 编程问答 23 豆豆
生活随笔 收集整理的這篇文章主要介紹了 【David Silver强化学习公开课】-3:DP 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

一、一些概念

MDP的兩個規劃問題:

  • 預測,給定MDP和策略π,求出價值函數vπ
  • 控制,給定MDP,求出最佳價值函數v?v?和最佳策略π?π?

Policy Evaluation策略評估:

給定一個策略,從v0v0,v1v1一直求到vπ,第k步求出的狀態價值函數,通過Bellman期望方程可以求出k+1步的狀態價值函數。這樣一直迭代下去,最終狀態價值函數會收斂,完成對策略π的評估。

Policy Iteration策略迭代:

  • 1.評估策略,使用策略評估的方式更新價值函數;
  • 2.改進策略,根據上一步的價值函數,用貪心原則更新策略;
  • 3.迭代上兩步,直到找到最優策略π,也就找到了最優價值函數v.

價值迭代:

  • 按照bellman最優方程,每個循環計算(更新)價值函數;
  • 沒有顯式的策略,貪心的計算方式在最優方程中,更為直接。
vk+1(s)=maxaA[Ras+γsSPassvk(s)]vk+1(s)=maxa∈A[Rsa+γ∑s′∈SPss′avk(s′)]

值迭代的一些擴展,比如in-place(不存儲舊的狀態價值函數,狀態的價值函數更新后立刻可以被用于其他狀態價值函數的更新),使用Bellman誤差(新價值與舊價值的差值)決定狀態更新的優先級。

DP的時間開銷比較大,而且無論價值迭代還是策略迭代都需要知道R和轉移矩陣P,那么就需要對模型有比較深的了解,下一講將會介紹一種開銷更低而且是model-free的方法:采樣。

參考

  • https://zhuanlan.zhihu.com/p/21378532
原文地址:?http://cairohy.github.io/2017/08/30/deeplearning/%E3%80%8ADavid%20Silver%E5%BC%BA%E5%8C%96%E5%AD%A6%E4%B9%A0%E5%85%AC%E5%BC%80%E8%AF%BE%E3%80%8B-3%EF%BC%9ADP/

總結

以上是生活随笔為你收集整理的【David Silver强化学习公开课】-3:DP的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。