日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

强化学习note2——value iteration和policy iteration的区别,MC和TD的区别

發布時間:2025/1/21 编程问答 35 豆豆
生活随笔 收集整理的這篇文章主要介紹了 强化学习note2——value iteration和policy iteration的区别,MC和TD的区别 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
  • value iteration和policy iteration的區別
    value iteration: ①多次迭代Bellman最優等式和Bellman等式,等價值函數收斂后,②再用價值函數帶入貝爾曼等式得到動作價值函數,策略就從最大的動作價值函數選取。(策略沒有參與)

    policyiteration:①隨機選取一個策略policy,用這個policy對Bellman等式進行多次迭代計算直到價值函數收斂,②再用價值函數求得動作價值函數,策略就從最大的動作價值函數選取。③然后用新的策略再進入①計算。
    對①②③進行多次迭代直到策略收斂。(策略一直參與)

  • MC和TD的區別
    MC:基本的MC算法是采集n條軌跡,假設計算s1狀態的價值函數,先取某一條軌跡中的n個不同時刻s1狀態的回報相加再除以n就得到這條軌跡上s1狀態的價值函數,然后按此方法計算其他軌跡的s1狀態的價值函數,這樣就得到n個s1狀態的價值函數,最后取平均值即可。

    TD:增量型MC算法的變種,它相較于增量型MC算法,不需要agent與環境交互直到得到一條完整的軌跡,它只需要與環境進行一次交互得到一個Rt+1R_{t+1}Rt+1?,然后采用DP算法進行迭代計算。

  • value iteration,policy iteration和MC,TD的區別

    value iteration,policy iteration:不僅可以用來對價值函數進行估值,但是需要知道model;還能得到相應的最優的策略

    MC,TD:只是用來對價值函數進行估值,不需要知道model

  • 總結

    以上是生活随笔為你收集整理的强化学习note2——value iteration和policy iteration的区别,MC和TD的区别的全部內容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。