日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 >

增强学习(四) ----- 蒙特卡罗方法(Monte Carlo Methods)

發布時間:2025/4/5 28 豆豆
生活随笔 收集整理的這篇文章主要介紹了 增强学习(四) ----- 蒙特卡罗方法(Monte Carlo Methods) 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

 

1. 蒙特卡羅方法的基本思想

蒙特卡羅方法又叫統計模擬方法,它使用隨機數(或偽隨機數)來解決計算的問題,是一類重要的數值計算方法。該方法的名字來源于世界著名的賭城蒙特卡羅,而蒙特卡羅方法正是以概率為基礎的方法。

一個簡單的例子可以解釋蒙特卡羅方法,假設我們需要計算一個不規則圖形的面積,那么圖形的不規則程度和分析性計算(比如積分)的復雜程度是成正比的。而采用蒙特卡羅方法是怎么計算的呢?首先你把圖形放到一個已知面積的方框內,然后假想你有一些豆子,把豆子均勻地朝這個方框內撒,散好后數這個圖形之中有多少顆豆子,再根據圖形內外豆子的比例來計算面積。當你的豆子越小,撒的越多的時候,結果就越精確。

2. 增強學習中的蒙特卡羅方法

現在我們開始講解增強學習中的蒙特卡羅方法,與上篇的DP不同的是,這里不需要對環境的完整知識。蒙特卡羅方法僅僅需要經驗就可以求解最優策略,這些經驗可以在線獲得或者根據某種模擬機制獲得。

要注意的是,我們僅將蒙特卡羅方法定義在episode task上,所謂的episode task就是指不管采取哪種策略π,都會在有限時間內到達終止狀態并獲得回報的任務。比如玩棋類游戲,在有限步數以后總能達到輸贏或者平局的結果并獲得相應回報。

那么什么是經驗呢?經驗其實就是訓練樣本。比如在初始狀態s,遵循策略π,最終獲得了總回報R,這就是一個樣本。如果我們有許多這樣的樣本,就可以估計在狀態s下,遵循策略π的期望回報,也就是狀態值函數Vπ(s)了。蒙特卡羅方法就是依靠樣本的平均回報來解決增強學習問題的。

盡管蒙特卡羅方法和動態規劃方法存在諸多不同,但是蒙特卡羅方法借鑒了很多動態規劃中的思想。在動態規劃中我們首先進

總結

以上是生活随笔為你收集整理的增强学习(四) ----- 蒙特卡罗方法(Monte Carlo Methods)的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。