當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

重温强化学习之无模型学习方法：蒙特卡洛方法

發布時間：2025/4/5 编程问答 26 豆豆

生活随笔收集整理的這篇文章主要介紹了重温强化学习之无模型学习方法：蒙特卡洛方法小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

1、無模型方法簡介

無模型屬于學習方法的一種，(學習和規劃),需要智能體和環境進行交互，一般采用樣本備份，需要結合充分的探索

MDPs中未知P,R－無模型

交互是為了更加了解環境，了解狀態

動態規劃是已經知道模型，沒有模型通過采樣的方法，也就是樣本備份

從經驗中學習

和動態規劃的區別：

無模型學習：

? ? ?1、未知環境模型

? ? ? 2、需要與環境進行交互，有交互成本（時間、金錢）

? ? ? 3、樣本備份

? ? ? 4、異步備份（更新狀態值函數不需要等待更新其它狀態值函數）

? ? ? 5、需要充分的探索（不進行充分探索，學不到最優策略）

? ? ? 6、兩個策略（行為策略和目標策略）

動態規劃：

? ? ? 1、已知環境模型

? ? ? ?2、不需要直接交互，直接利用環境模型推導

? ? ? ?3、全寬備份

? ? ? ?4、同步和異步

? ? ? ?5、無探索（只需要做演算就可以）

? ? ? ?6、一個策略

2、在策略和離策略

行為策略是智能體與環境進行交互的策略,（用來產生樣本）

目標策略是我們學習的策略，即Vpi 時的下標

在策略（on-policy）學習：

? ? ? ?行為策略和目標策略是同一個策略，直接使用樣本統計屬性去估計總體，更簡單且收斂性更好

? ? ? ?數據利用性更差（只有智能體當前交互的樣本能夠被利用）

? ? ? ?限定學習過程中的策略是隨機性策略

離策略（off-policy）學習：

? ? ? 行為策略和目標策略不是同一個策略??

? ? ? 一般行為策略選用隨機性策略，目標策略選用確定性策略

? ? ? 需要結合重要性采樣才能使用樣本估計總體

? ? ? 方差更大，收斂性更差

? ? ? 數據利用性更好(可以使用其它智能體交互的樣本，例如學圍棋可以用棋譜樣本用)

? ? ? 行為策略比目標策略更具備探索性，即，在每個狀態下，目標策略的可行動作是行為策略可行動作的子集

重要性采樣：

? ??

例子：

? ? ?

重要性采樣公式：

? ? ?

離策略學習中的重要性采樣：

3、蒙特卡洛方法(Monte Carlo,MC)

蒙特卡洛樹，蒙特卡洛在樹中采樣一條軌跡

方差比較大，樹中每一個節點有一定隨機性，軌跡比較長，中間隨機性較大，

做一次實驗，可信性比較差

樣本備份

動態規劃方法：

考慮所有后繼狀態以及所做的動作

一步備份，只考慮一步情況，蒙特卡洛考慮到最終的狀態

4、蒙特卡洛評價

? ? ? ? ? ?

蒙特卡洛不使用貝爾曼方程

在策略蒙特卡洛評價：

? ? ? First-visit MC策略評價：

? ? ? ? ? ?

? ? ? ? ? ? ? ? ??

? ? ? ? ? ?

? ? ? ? Every-visit MC策略評價：

? ? ? ? ? ?

? ? ? ? ? ? ? ? ? ?

? ? ? ? ? ??

對Q函數的MC方法：

? ? ? ??

? ? ? ? ? ? ? ?? ? ?

? ? ? ?

離策略蒙特卡洛評價：

? ? ? ??

MC特點小結：

? ? ? ??

5、增量式蒙塔卡洛算法

為什么需要增量式蒙特卡洛？

增量式MC更新

? ? ? ? ? ? ? ? ? ? ? ? ?

平均值更新

常量步長：

? ? ? ? ? ? ? ? ? ? ? ??

特點：? ? ? ? ? ? ? ? ? ? ? ? ?

? ? ? ? ? ? ? ? ? ? ? ? ??

6、蒙特卡洛優化

廣義策略迭代：

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?

MC中的廣義策略迭代

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?

問題一：使用哪個值函數？Q函數

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?

問題二：是否可以貪婪策略提升？

? ? ? ?MC雖然利用過去的經驗數據，但是某些狀態并未遍歷到，遍歷不夠充分，置信度不夠

－貪婪策略

? ? ? ? ? ? ??

? ? ? ? ? ? ? ? ? ? ? ?? ?? ?

? ? ? ? ? ? ??

策略提升

? ? ? ? ? ? ? ?

? ? ? ? ? ??

MC策略迭代：

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?

增量式策略評價：

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??

每條軌跡

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??

7、蒙塔卡洛算法引申

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ???

總結

以上是生活随笔為你收集整理的重温强化学习之无模型学习方法：蒙特卡洛方法的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：重温强化学习之基于模型方法：动态规划
下一篇：重温强化学习之无模型学习方法：时间差分方