日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

重温强化学习之无模型学习方法:时间差分方法

發布時間:2025/4/5 编程问答 28 豆豆
生活随笔 收集整理的這篇文章主要介紹了 重温强化学习之无模型学习方法:时间差分方法 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

1、時間差分方法簡介

強化學習中最核心也是最新奇的想法

混合DP和MC思想:

? ? ? ?與MC類似,TD也從歷史經驗中學習;與DP類似使用后繼狀態的值函數更新當前狀態的值函數

蒙特卡洛只是適用于片斷性任務

屬于無模型方法

? ? ? ?未知P,R,需要交互,樣本備份,需要充分的探索

同時利用采樣和貝爾曼方程

可以從不完整的片段中學習(通過自舉法)

? ? ? ?可同時應用于片段性任務和連續性任務

通過估計來更新估計

自舉法:通過對樣本進行重采樣得到的估計總體的方法

樣本是總體進行采樣,對樣本進行采樣得到重采樣

不用自舉法:樣本-> 總體

使用自舉法:重采樣樣本-> 樣本 (重采樣多次可以估計分布)? ?樣本 -> 總體

強化學習中的自舉法:利用一個估計去更新另一個估計

2、時間差分評價

時間差分策略評價算法

時間差分策略評價:

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?

時間差分策略評價算法:

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?

策略評價算法對比-TD和DP

? ? ? ? ? ? ? ? ? ? ? ? ? ? ??

DP備份:全寬備份

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?

TD備份:

? ? ? ? ? ? ? ? ? ? ? ? ? ??

利用采樣進行估計

策略評價算法對比-TD和MC

MC備份:采樣終止點為止

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?

例子:

? ? ? ? ? ? ? ? ? ? ? ? ? ??

離開辦公室預計回家需要30min;開到車,下雨啦調整估計,需要40min;下高速估計到家需要15min,總估30min;蹦到卡車,在卡車后面,再次估計需要40min,40min過去還在路上,估計還需要3min

?

蒙特卡洛:更新狀態的預估,真正到家需要43min

? ? ? ? ? ? ? ? ? ? ? ??

? ? ? ? ? ? ? ? ? ? ? ?

TD和MC 的優缺點:

? ?TD算法在知道結果之前學習:

? ? ? ? ? ? TD算法在每一步之后都能在線學習

? ? ? ? ? ? MC算法必須等待回報值得到之后才能學習

? ?TD算法即便沒有最終結果也能學習

? ? ? ? ? TD算法能夠從不完整序列中學習

? ? ? ? ? MC算法僅僅能夠從完整序列中學習

? ? ? ? ?TD算法適用于連續性任務和片段性任務

? ? ? ? ?MC算法僅僅適用于片段性任務

TD算法有多個驅動力:

? ? ? ? ?MC算法只有獎勵值作為更新的驅動力

? ? ? ? ?TD算法有獎勵值和狀態轉移作為更新的驅動力

?

偏差和方差權衡

? ? ? ?在監督學習中,偏差和方差有另外的理解--欠擬合和過擬合

? ? ? ? ? ? ? ?偏差大(欠擬合):預測值和樣本之間的差

? ? ? ? ? ? ? ?方差大 (過擬合):樣本值之間的方差,學出的模型適用性差

? ? ? 方差大意味著樣本的置信度較差

? ? ? 不同的機器學習方法會在兩者之間做權衡(trade-off)

? ?? ? ? ? ? ? ? ? ? ? ? ?

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?

RL中的偏差和方差權衡

? ? ? ? ? ? ? ? ? ? ? ? ??

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?

TD和MC對比:

? ? ? ?MC高方差,零偏差

? ? ? ? ? ? ? 收斂性較好(采用函數逼近),對初始值不太敏感,簡單,容易理解和使用,隨著樣本數量的增加,方差逐漸減小,趨于0

? ? ? TD低方差,和一些偏差

? ? ? ? ? ? ? 通常比MC效率更高,表格下TD(0)收斂到V(s)(函數逼近時不一定),對初始值更加敏感,隨著樣本數量的增加,偏差逐漸減少,趨近于0

批(batch)MC和TD

批MC指采樣一部分樣本

例子:

? ? ? ? ? ? ? ? ? ? ? ??

確定性等價估計

? ? MC收斂到最小均方誤差的解,是對樣本回報值的最佳擬合

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?

在上述例子中,V(A) = 0

? TD(0)收斂到最大似然馬爾可夫模型中的解,是對馬爾科夫鏈的最佳擬合,假設數據是來自P,R

? ? ? ? ? ? ? ? ? ? ? ? ? ? ?

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??

在例子中,V(A) = 0 + V(B) = 0.75

等價于內在動態過程是確定性的估計

?

TD利用馬爾可夫性,一般來說TD在馬爾可夫環境中更有效;MC沒有利用馬爾科夫性,一般對非馬爾科夫環境更有效

其它比較維度

自舉和采樣:

? ?自舉:使用隨機變量的估計去更新(后繼狀態計算當前狀態)MC沒有自舉,DP和TD都有自舉

? ?采樣:通過樣本估計期望 MC和TD采樣,DP不采樣

從備份的角度分析區別:

?

DP和TD都是單不更新,所以是淺備份;TD和MC 采取采樣的方式進行估計,所以是樣本備份

?

3、時間差分優化

TD中的策略迭代:

廣義策略迭代:

無模型得到策略評價比較難,不知道狀態轉移,所以采用Q函數;策略提升需要考慮到探索,必須得到有效的探索,使用帶探索的提升

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?

TD優化相比MC有幾點好處:低方差:樣本數據有限更新數據效率比較高;在線更新(online),每走一步都更新,MC數據離線更新,需要一個路徑走完;不完整序列中學習,連續型任務

在策略策略優化:

SARSA算法:

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?

做一次策略評價,做一次策略提升

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??

在每個時間步驟(值迭代)

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??

? ? ? ? ? ? ? ? ? ? ? ? ? ??

為什么是在策略的?

? ? ? ? ? ? ? ? ? ? ? ? ? ? ??

Sarsa收斂性:

定理:

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??

GLIE是無限探索下的極限貪婪,保證充分他所,策略最終收斂到貪婪的策略,逐漸推薦為最優策略

Robbins-Monro保證不長足夠大,足以克服任意的初始值,步長足夠小,最終收斂(常量不長不滿足)

期望Sarsa:

?

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?

? ? ? ? ? ? ? ? ? ? ? ?

? ? ? ? ? ? ? ? ? ? ? ? ? ? ??

? ? ? ? ? ? ? ? ? ? ?

離策略TD評價:

? ? ? ? ? ? ? ? ? ? ??

對Q函數的離策略學習:

? ? ? ? ? ? ? ? ? ? ??

?

Q-學習:

? ? ? ? ? ? ? ? ? ? ?

Q學習優化算法

? ? ? ? ? ? ? ? ? ?

Q學習優化算法會收斂到最優的狀態動作值函數

Q學習優化算法:

? ? ? ? ? ? ? ? ? ??

DP和TD之間的關系:

? ? ? ? ? ? ? ? ? ??? ? ? ? ? ? ??

? ? ? ? ? ??

?

總結

以上是生活随笔為你收集整理的重温强化学习之无模型学习方法:时间差分方法的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。