日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

重温强化学习之无模型学习方法:蒙特卡洛方法

發布時間:2025/4/5 编程问答 26 豆豆
生活随笔 收集整理的這篇文章主要介紹了 重温强化学习之无模型学习方法:蒙特卡洛方法 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

1、無模型方法簡介

無模型屬于學習方法的一種,(學習和規劃),需要智能體和環境進行交互,一般采用樣本備份,需要結合充分的探索

MDPs中未知P,R-無模型

交互是為了更加了解環境,了解狀態

動態規劃是已經知道模型,沒有模型通過采樣的方法,也就是樣本備份

從經驗中學習

和動態規劃的區別:

無模型學習:

? ? ?1、未知環境模型

? ? ? 2、需要與環境進行交互,有交互成本(時間、金錢)

? ? ? 3、樣本備份

? ? ? 4、異步備份(更新狀態值函數不需要等待更新其它狀態值函數)

? ? ? 5、需要充分的探索(不進行充分探索,學不到最優策略)

? ? ? 6、兩個策略(行為策略和目標策略)

動態規劃:

? ? ? 1、已知環境模型

? ? ? ?2、不需要直接交互,直接利用環境模型推導

? ? ? ?3、全寬備份

? ? ? ?4、同步和異步

? ? ? ?5、無探索(只需要做演算就可以)

? ? ? ?6、一個策略

2、在策略和離策略

行為策略是智能體與環境進行交互的策略,(用來產生樣本)

目標策略是我們學習的策略,即Vpi 時的下標

在策略(on-policy)學習:

? ? ? ?行為策略和目標策略是同一個策略,直接使用樣本統計屬性去估計總體,更簡單且收斂性更好

? ? ? ?數據利用性更差(只有智能體當前交互的樣本能夠被利用)

? ? ? ?限定學習過程中的策略是隨機性策略

離策略(off-policy)學習:

? ? ? 行為策略和目標策略不是同一個策略??

? ? ? 一般行為策略選用隨機性策略,目標策略選用確定性策略

? ? ? 需要結合重要性采樣才能使用樣本估計總體

? ? ? 方差更大,收斂性更差

? ? ? 數據利用性更好(可以使用其它智能體交互的樣本,例如學圍棋可以用棋譜樣本用)

? ? ? 行為策略比目標策略更具備探索性,即,在每個狀態下,目標策略的可行動作是行為策略可行動作的子集

重要性采樣:

? ??

例子:

? ? ?

重要性采樣公式:

? ? ?

離策略學習中的重要性采樣:

3、蒙特卡洛方法(Monte Carlo,MC)

?

蒙特卡洛樹,蒙特卡洛在樹中采樣一條軌跡

方差比較大,樹中每一個節點有一定隨機性,軌跡比較長,中間隨機性較大,

做一次實驗,可信性比較差

樣本備份

動態規劃方法:

考慮所有后繼狀態以及所做的動作

一步備份,只考慮一步情況,蒙特卡洛考慮到最終的狀態

4、蒙特卡洛評價

? ? ? ? ? ?

蒙特卡洛不使用貝爾曼方程

在策略蒙特卡洛評價:

? ? ? First-visit MC策略評價:

? ? ? ? ? ?

? ? ? ? ? ? ? ? ??

? ? ? ? ? ?

? ? ? ? Every-visit MC策略評價:

? ? ? ? ? ?

? ? ? ? ? ? ? ? ? ?

? ? ? ? ? ??

對Q函數的MC方法:

? ? ? ??

? ? ? ? ? ? ? ?? ? ?

? ? ? ?

離策略蒙特卡洛評價:

? ? ? ??

MC特點小結:

? ? ? ??

?

5、增量式蒙塔卡洛算法

為什么需要增量式蒙特卡洛?

增量式MC更新

? ? ? ? ? ? ? ? ? ? ? ? ?

平均值更新

常量步長:

? ? ? ? ? ? ? ? ? ? ? ??

特點:? ? ? ? ? ? ? ? ? ? ? ? ?

? ? ? ? ? ? ? ? ? ? ? ? ??

6、蒙特卡洛優化

廣義策略迭代:

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?

MC中的廣義策略迭代

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?

問題一:使用哪個值函數?Q函數

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?

問題二:是否可以貪婪策略提升?

? ? ? ?MC雖然利用過去的經驗數據,但是某些狀態并未遍歷到,遍歷不夠充分,置信度不夠

?

-貪婪策略

? ? ? ? ? ? ??

? ? ? ? ? ? ? ? ? ? ? ?? ?? ?

? ? ? ? ? ? ??

策略提升

? ? ? ? ? ? ? ?

? ? ? ? ? ??

?

MC策略迭代:

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?

?

增量式策略評價:

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??

每條軌跡

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?

?

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??

7、蒙塔卡洛算法引申

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ???

?

總結

以上是生活随笔為你收集整理的重温强化学习之无模型学习方法:蒙特卡洛方法的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。