日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

强化学习笔记: generalized policy iteration with MC

發布時間:2025/4/5 编程问答 38 豆豆
生活随笔 收集整理的這篇文章主要介紹了 强化学习笔记: generalized policy iteration with MC 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

強化學習筆記: MDP - Policy iteration_UQI-LIUWJ的博客-CSDN博客

強化學習筆記:Q-learning_UQI-LIUWJ的博客-CSDN博客

????????在policy iteration中,我們根據給定的當前的 policy π?來估計價值函數;得到估計的價值函數后,通過 greedy 的方法來改進它的算法。

? ? ? ? 但是對于model-free 的MDP,我們并不知道它的獎勵函數和狀態轉移,所以就沒法估計它的Q函數。

1廣義policy iteration

針對上述情況,我們引入了廣義的 policy iteration 的方法。

我們對 policy evaluation 部分進行修改:用 MC 的方法代替 DP 的方法去估計 Q 函數。?

?算法通過 MC 的方法產生了很多的軌跡,每個軌跡都可以算出它的價值。然后,我們可以通過 average 的方法去估計 Q 函數。

當得到 Q 函數后,就可以通過 greedy 的方法去改進它。

1.1 MC with ε-Greedy Exploration

1.1.1?ε-greedy

?

????????為了確保 MC 方法能夠有足夠的探索,我們使用了 ε-greedy exploration。

????????ε-greedy?的意思是說,我們有1?ε?的概率會按照 Q-function最大來決定 action,通常ε?就設一個很小的值,?比如1?ε?可能是 90%,也就是 90% 的概率會按照 Q-function最大 來決定 action(exploitation),但是你有 10% 的機率是隨機的(exploration)。

????????通常在實現上ε?會隨著時間遞減。在最開始的時候。因為還不知道那個 action 是比較好的,所以你會花比較大的力氣在做 exploration。

????????接下來隨著訓練的次數越來越多。已經比較確定說哪一個 Q 是比較好的。你就會減少你的 exploration,你會把ε?的值變小,主要根據 Q-function最大來決定你的 action,比較少做 random,這是ε-greedy。

1.1.2?MC with ε-Greedy Exploration

?可以看出來,和強化學習筆記:Q-learning_UQI-LIUWJ的博客-CSDN博客?中的MC沒有太大的區別,唯一區別就是episode怎么采樣的問題

1.1.3? 策略提升定理

?

總結

以上是生活随笔為你收集整理的强化学习笔记: generalized policy iteration with MC的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。