日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

DQN笔记:MC TD

發布時間:2025/4/5 编程问答 25 豆豆
生活随笔 收集整理的這篇文章主要介紹了 DQN笔记:MC TD 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

1 前言

????????傳統的強化學習算法會使用表格的形式存儲狀態值函數?V(s)或狀態動作值函數?Q(s,a),但是這樣的方法存在很大的局限性。【強化學習筆記:Q-learning_UQI-LIUWJ的博客-CSDN博客】

????????現實中的強化學習任務所面臨的狀態空間往往是連續的,存在無窮多個狀態,在這種情況下,就不能再使用表格對值函數進行存儲。

????????在 Q-learning 中,我們使用表格來存儲每個狀態 s 下采取動作 a 獲得的獎勵,即狀態-動作值函數?Q(s,a)。然而,這種方法在狀態量巨大甚至是連續的任務中,會遇到維度災難問題,往往是不可行的。因此,DQN 采用了價值函數近似的表示方法。

????????

????????為了在連續的狀態和動作空間中計算值函數,我們可以用一個函數來表示近似計算,稱為價值函數近似(Value Function Approximation)。

????????????????????????

其中

  • 分別是狀態?s?和動作?a?的向量表示,
  • 函數通常是一個參數為 ??的函數,比如神經網絡,輸出為一個實數,稱為Q 網絡(Q-network)。
  • 模型中,也可以不使用Q(s,a),使用V(s)也可以

2? 衡量價值函數

????????怎么衡量這個狀態價值函數呢?有兩種不同的做法:MC-based 的方法和 TD-based 的方法。

? ? ? ? 整體上和Q-learning 的類似

強化學習筆記:Q-learning_UQI-LIUWJ的博客-CSDN博客

強化學習筆記:Q-learning :temporal difference 方法_UQI-LIUWJ的博客-CSDN博客

2.1 MC

????????Monte-Carlo(MC)-based的方法就是去跟環境做互動,估計對于某一個策略,看到各個狀態的時候的累計獎勵。

????????但是實際上,我們不可能把所有的狀態通通都掃過,但是沒有關系。?是一個網絡。對一個網絡來說,就算輸入狀態是從來都沒有看過的,它也可以想辦法估測一個值。

????????

?????????怎么訓練這個網絡呢?因為如果在狀態sa?,接下來的累積獎勵就是Ga?(采樣中episode出現sa的取平均)。也就是說,對這個價值函數來說,如果輸入是狀態 sa?,正確的輸出應該是Ga?。如果輸入狀態 sb?,正確的輸出應該是值Gb?。

????????所以在訓練的時候, 它就是一個?回歸問題網絡的輸出就是一個值,你希望在輸入sa??的時候,輸出的值跟 Ga??越近越好,輸入sb??的時候,輸出的值跟Gb??越近越好。接下來把網絡訓練下去,就結束了。這是 MC-based 的方法。

2.2? TD(temporal difference 時序差分)

? ? ? ? ??在 MC-based 的方法中,每次我們都要算累積獎勵,也就是從某一個狀態sa??一直玩到游戲結束的時候,得到的所有獎勵的總和。

????????所以要使用 MC-based 的方法,你必須至少把這個游戲玩到結束。但有些游戲非常長,你要玩到游戲結束才能夠更新網絡,花的時間太長了,因此我們會采用 TD-based 的方法。

????????TD-based 的方法不需要把游戲玩到底,只要在游戲的某一個情況,某一個狀態的時候,采取動作得到獎勵,跳到狀態,就可以使用 TD 的方法。

? ? ? ? TD基于以下這個式子:

????????

?????????假設我們現在用的是某一個策略 π,在狀態,它會采取動作,給我們獎勵,接下來進入。狀態的值跟狀態的值,它們的中間差了一項。你把?得到的值加上得到的獎勵就會等于得到的值。

????????有了這個式子以后,你在訓練的時候,你并不是直接去估測 V,而是希望你得到的結果 V 可以滿足這個式子。

?

?????????也就是說我們會是這樣訓練的,我們把丟到網絡里面,因為丟到網絡里面會得到,把丟到你的值網絡里面會得到,這個式子告訴我們,?減?的值應該是?。

????????然后希望它們兩個相減的 loss 跟越接近,以這個作為目標函數訓練下去,更新 V 的參數,你就可以把 V 函數學習出來。

3 MC和TD的區別

?????????MC 最大的問題就是方差很大。因為我們在玩游戲的時候,它本身是有隨機性的。所以你可以把 Ga??看成一個隨機變量。因為你每次同樣走到sa??的時候,最后你得到的路徑episode是不一樣的,因而得到的Ga也是不一樣的。(每一次得到?Ga??的差別其實會很大)

????????如果用 TD 的話,你是要去最小化這樣的一個式子:

?

?

?????????在這中間會有隨機性的是 r。因為計算你在?st??采取同一個動作,你得到的獎勵也不一定是一樣的,所以 r 是一個隨機變量。[,同一個狀態同一個action,有不同概率進圖不同的后續狀態]

????????但這個隨機變量的方差會比 Ga??還要小,因為 Ga??是很多 r 合起來,這邊只是某一個 r 而已。????????

????????但是這邊你會遇到的一個問題是你這個 V 不一定估得準。假設你的這個 V 估得是不準的,那你使用這個式子學習出來的結果,其實也會是不準的。

????????所以 MC 跟 TD 各有優劣。今天 TD 的方法是比較常見的,MC 的方法是比較少用的。

?

?

?4 舉例說明MC和TD的區別

?

?????????有一個策略π?跟環境互動了8 次,得到了8 次結果。

????????我們先計算 sb??的值。?狀態 sb??在 8 場游戲里面都有經歷過,其中有 6 場得到獎勵 1,有 2 場得到獎勵 0。所以如果你是要算期望值的話,就算看到狀態sb??以后得到的獎勵,一直到游戲結束的時候得到的累積獎勵期望值是 3/4,計算過程如下式所示:

????????

? ? ? ? 那Sa的獎勵怎么計算呢??

????????假如用 MC 的話,你會發現這個sa??就出現一次,看到sa??這個狀態,接下來累積獎勵就是 0,所以 sa??期望獎勵就是 0。

????????但 TD 在計算的時候,它要更新下面這個式子:

????????

?????????因為我們在狀態 a??得到獎勵 r=0 以后,跳到狀態sb?。

????????所以狀態 sa 的獎勵會等于狀態sb??的獎勵加上在狀態 sa??跳到狀態 sb??的時候可能得到的獎勵 r。

????????而這個得到的獎勵 r 的值是 0,sb??期望獎勵是 3/4,那 sa??的獎勵應該是 3/4。

?????????用 MC 跟 TD 估出來的結果很有可能是不一樣的。也就是說,就算觀察到一樣的訓練數據,它最后估出來的結果也不一定是一樣的。為什么會這樣呢?換句話說,哪一個結果比較對呢?其實就都對。

? ? ? ??在第一個軌跡,?sa??得到獎勵 0 以后,再跳到?sb??也得到獎勵 0。這邊有兩個可能:

  • 一個可能是: sa??是一個標志性的狀態,只要看到 sa??以后,sb??就會拿不到獎勵,sa??可能影響了sb?。如果是用 MC 的算法的話,它會把sa??影響 sb??這件事考慮進去。所以看到sa??以后,接下來 sb??就得不到獎勵,所以s_a期望的獎勵是 0。

  • 另一個可能是:看到?sa??以后,sb??的獎勵是 0 這件事只是一個巧合,并不是?sa??所造成,而是因為說?sb??有時候就是會得到獎勵 0,這只是單純運氣的問題。其實平常?sb??會得到獎勵期望值是 3/4,跟?sa??是完全沒有關系的。所以假設?sa??之后會跳到?s_bsb?,那其實得到的獎勵按照 TD 來算應該是 3/4。所以s_a期望的獎勵是 3/4。

所以不同的方法考慮了不同的假設,運算結果不同。

參考內容:? 第六章 DQN (基本概念) (datawhalechina.github.io)

總結

以上是生活随笔為你收集整理的DQN笔记:MC TD的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。

主站蜘蛛池模板: 看全色黄大色黄大片女一次牛 | 色哟哟在线观看 | 99色影院 | 国产综合图片 | 日日夜夜骑 | 草久久免费视频 | 在线观看免费视频国产 | 可以免费看的av网站 | a爱视频 | 亚洲不卡在线播放 | www超碰在线 | 最污的网站 | 成人午夜毛片 | 无码人妻精品一区二区三区99不卡 | 国产综合无码一区二区色蜜蜜 | 国产奶水涨喷在线播放 | 竹菊影视一区二区三区 | 欧美成年人在线视频 | 在线观看免费高清 | 操比网站 | 老太脱裤让老头玩ⅹxxxx | 欧美色射 | 欧美精品一区二区三区久久久 | 肥臀熟女一区二区三区 | jizz色 | 女生张开腿给男生桶 | 天天射夜夜操 | 在线色资源 | 精品国产一区二区三区噜噜噜 | 影音先锋在线视频观看 | 暧暧视频在线观看 | 欧美精品在线免费 | 欧美另类在线视频 | 欧美激情一区二区三区 | 欧美日本色 | 理论片在线观看理伦片 | 激情xxx | 欧美黄色性生活 | 天天艹 | 999精品在线| 久操新在线 | 日韩一区在线观看视频 | 韩国三级国产 | 欧美激情片在线观看 | 在线观看亚洲av每日更新 | 免费网站观看www在线观 | 成年人视屏 | 日韩精品视频一区二区三区 | 亚洲精品第二页 | 午夜视频在线 | 激情网站免费 | 国产精品综合在线 | 漂亮人妻被中出中文字幕 | 久久久18禁一区二区三区精品 | av小说在线 | 亚洲制服一区 | 天天看毛片 | 美日韩在线视频 | 亚洲图区欧美 | 黑人糟蹋人妻hd中文字幕 | 黄色另类小说 | 少女视频的播放方法 | 91蜜桃传媒精品久久久一区二区 | 西方裸体在线观看 | 好吊色免费视频 | 国精产品一区 | 激情内射人妻1区2区3区 | 国产成人精品一区二三区四区五区 | 婷婷视频| 伊在线久久丫 | 日批视频免费看 | 开心激情亚洲 | 爱如潮水3免费观看日本高清 | 插插宗合网 | av导航在线| 亚洲青青操| 美女综合网 | 欧美黑吊大战白妞欧美大片 | 精品亚洲aⅴ无码一区二区三区 | 男人爽女人下面动态图 | 成人区人妻精品一区二区不卡视频 | 在线观看国产一级片 | jjzz日本女人 | 中文字幕乱码中文字幕 | 亚洲精品日韩在线观看 | 欧美xxxxbbbb | 舒淇裸体午夜理伦 | 精品少妇av| 国产黄色片视频 | 五月婷婷视频在线 | 日韩伦理一区二区三区 | 亚洲污视频 | 亚洲小说区图片区 | 亚洲一区二区在线观看视频 | 91video | 久久99国产精品久久99果冻传媒 | 伊人99 | aaa日韩| 美日韩在线观看 |