當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

强化学习笔记： generalized policy iteration with MC

發(fā)布時間：2025/4/5 编程问答 48 豆豆

生活随笔收集整理的這篇文章主要介紹了强化学习笔记： generalized policy iteration with MC 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

強化學(xué)習筆記： MDP - Policy iteration_UQI-LIUWJ的博客-CSDN博客

強化學(xué)習筆記：Q-learning_UQI-LIUWJ的博客-CSDN博客

????????在policy iteration中，我們根據(jù)給定的當前的 policy π?來估計價值函數(shù)；得到估計的價值函數(shù)后，通過 greedy 的方法來改進它的算法。

? ? ? ? 但是對于model-free 的MDP，我們并不知道它的獎勵函數(shù)和狀態(tài)轉(zhuǎn)移，所以就沒法估計它的Q函數(shù)。

1廣義policy iteration

針對上述情況，我們引入了廣義的 policy iteration 的方法。

我們對 policy evaluation 部分進行修改：用 MC 的方法代替 DP 的方法去估計 Q 函數(shù)。?

?算法通過 MC 的方法產(chǎn)生了很多的軌跡，每個軌跡都可以算出它的價值。然后，我們可以通過 average 的方法去估計 Q 函數(shù)。

當?shù)玫?Q 函數(shù)后，就可以通過 greedy 的方法去改進它。

1.1 MC with ε-Greedy Exploration

1.1.1?ε-greedy

????????為了確保 MC 方法能夠有足夠的探索，我們使用了 ε-greedy exploration。

????????ε-greedy?的意思是說，我們有1?ε?的概率會按照 Q-function最大來決定 action，通常ε?就設(shè)一個很小的值，?比如1?ε?可能是 90%，也就是 90% 的概率會按照 Q-function最大來決定 action（exploitation），但是你有 10% 的機率是隨機的（exploration）。

????????通常在實現(xiàn)上ε?會隨著時間遞減。在最開始的時候。因為還不知道那個 action 是比較好的，所以你會花比較大的力氣在做 exploration。

????????接下來隨著訓(xùn)練的次數(shù)越來越多。已經(jīng)比較確定說哪一個 Q 是比較好的。你就會減少你的 exploration，你會把ε?的值變小，主要根據(jù) Q-function最大來決定你的 action，比較少做 random，這是ε-greedy。

1.1.2?MC with ε-Greedy Exploration

?可以看出來，和強化學(xué)習筆記：Q-learning_UQI-LIUWJ的博客-CSDN博客?中的MC沒有太大的區(qū)別，唯一區(qū)別就是episode怎么采樣的問題

1.1.3? 策略提升定理

總結(jié)

以上是生活随笔為你收集整理的强化学习笔记： generalized policy iteration with MC的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇：强化学习笔记：Q-learning ：t
下一篇：强化学习笔记：Sarsa算法