日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

强化学习笔记: generalized policy iteration with MC

發(fā)布時間:2025/4/5 编程问答 48 豆豆
生活随笔 收集整理的這篇文章主要介紹了 强化学习笔记: generalized policy iteration with MC 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

強化學(xué)習筆記: MDP - Policy iteration_UQI-LIUWJ的博客-CSDN博客

強化學(xué)習筆記:Q-learning_UQI-LIUWJ的博客-CSDN博客

????????在policy iteration中,我們根據(jù)給定的當前的 policy π?來估計價值函數(shù);得到估計的價值函數(shù)后,通過 greedy 的方法來改進它的算法。

? ? ? ? 但是對于model-free 的MDP,我們并不知道它的獎勵函數(shù)和狀態(tài)轉(zhuǎn)移,所以就沒法估計它的Q函數(shù)。

1廣義policy iteration

針對上述情況,我們引入了廣義的 policy iteration 的方法。

我們對 policy evaluation 部分進行修改:用 MC 的方法代替 DP 的方法去估計 Q 函數(shù)。?

?算法通過 MC 的方法產(chǎn)生了很多的軌跡,每個軌跡都可以算出它的價值。然后,我們可以通過 average 的方法去估計 Q 函數(shù)。

當?shù)玫?Q 函數(shù)后,就可以通過 greedy 的方法去改進它。

1.1 MC with ε-Greedy Exploration

1.1.1?ε-greedy

?

????????為了確保 MC 方法能夠有足夠的探索,我們使用了 ε-greedy exploration。

????????ε-greedy?的意思是說,我們有1?ε?的概率會按照 Q-function最大來決定 action,通常ε?就設(shè)一個很小的值,?比如1?ε?可能是 90%,也就是 90% 的概率會按照 Q-function最大 來決定 action(exploitation),但是你有 10% 的機率是隨機的(exploration)。

????????通常在實現(xiàn)上ε?會隨著時間遞減。在最開始的時候。因為還不知道那個 action 是比較好的,所以你會花比較大的力氣在做 exploration。

????????接下來隨著訓(xùn)練的次數(shù)越來越多。已經(jīng)比較確定說哪一個 Q 是比較好的。你就會減少你的 exploration,你會把ε?的值變小,主要根據(jù) Q-function最大來決定你的 action,比較少做 random,這是ε-greedy。

1.1.2?MC with ε-Greedy Exploration

?可以看出來,和強化學(xué)習筆記:Q-learning_UQI-LIUWJ的博客-CSDN博客?中的MC沒有太大的區(qū)別,唯一區(qū)別就是episode怎么采樣的問題

1.1.3? 策略提升定理

?

總結(jié)

以上是生活随笔為你收集整理的强化学习笔记: generalized policy iteration with MC的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。