日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

强化学习(四)用蒙特卡罗法(MC)求解

發布時間:2025/4/5 编程问答 33 豆豆
生活随笔 收集整理的這篇文章主要介紹了 强化学习(四)用蒙特卡罗法(MC)求解 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

  在強化學習(三)用動態規劃(DP)求解中,我們討論了用動態規劃來求解強化學習預測問題和控制問題的方法。但是由于動態規劃法需要在每一次回溯更新某一個狀態的價值時,回溯到該狀態的所有可能的后續狀態。導致對于復雜問題計算量很大。同時很多時候,我們連環境的狀態轉化模型PP都無法知道,這時動態規劃法根本沒法使用。這時候我們如何求解強化學習問題呢?本文要討論的蒙特卡羅(Monte-Calo, MC)就是一種可行的方法。

    蒙特卡羅法這一篇對應Sutton書的第五章和UCL強化學習課程的第四講部分,第五講部分。

1. 不基于模型的強化學習問題定義

    在動態規劃法中,強化學習的兩個問題是這樣定義的:

    預測問題,即給定強化學習的6個要素:狀態集SS, 動作集AA, 模型狀態轉化概率矩陣PP, 即時獎勵RR,衰減因子γγ,  給定策略ππ, 求解該策略的狀態價值函數v(π)v(π)

    控制問題,也就是求解最優的價值函數和策略。給定強化學習的5個要素:狀態集SS, 動作集AA, 模型狀態轉化概率矩陣PP, 即時獎勵RR,衰減因子γγ, 求解最優的狀態價值函數v?v?和最優策略π?π? 

    可見, 模型狀態轉化概率矩陣PP始終是已知的,即MDP已知,對于這樣的強化學習問題,我們一般稱為基于模型的強化學習問題。

    不過有很多強化學習問題,我們沒有辦法事先得到模型狀態轉化概率矩陣PP,這時如果仍然需要我們求解強化學習問題,那么這就是不基于模型的強化學習問題了。它的兩個問題一般的定義是:    

 

《新程序員》:云原生和全面數字化實踐50位技術專家共同創作,文字、視頻、音頻交互閱讀

總結

以上是生活随笔為你收集整理的强化学习(四)用蒙特卡罗法(MC)求解的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。