當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

重温强化学习之无模型学习方法：时间差分方法

發布時間：2025/4/5 编程问答 28 豆豆

生活随笔收集整理的這篇文章主要介紹了重温强化学习之无模型学习方法：时间差分方法小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

1、時間差分方法簡介

強化學習中最核心也是最新奇的想法

混合DP和MC思想：

? ? ? ?與MC類似，TD也從歷史經驗中學習；與DP類似使用后繼狀態的值函數更新當前狀態的值函數

蒙特卡洛只是適用于片斷性任務

屬于無模型方法

? ? ? ?未知P,R，需要交互，樣本備份，需要充分的探索

同時利用采樣和貝爾曼方程

可以從不完整的片段中學習(通過自舉法)

? ? ? ?可同時應用于片段性任務和連續性任務

通過估計來更新估計

自舉法：通過對樣本進行重采樣得到的估計總體的方法

樣本是總體進行采樣，對樣本進行采樣得到重采樣

不用自舉法：樣本－> 總體

使用自舉法：重采樣樣本－> 樣本 (重采樣多次可以估計分布)? ?樣本－> 總體

強化學習中的自舉法：利用一個估計去更新另一個估計

2、時間差分評價

時間差分策略評價算法

時間差分策略評價：

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?

時間差分策略評價算法：

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?

策略評價算法對比－TD和DP

? ? ? ? ? ? ? ? ? ? ? ? ? ? ??

DP備份：全寬備份

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?

TD備份：

? ? ? ? ? ? ? ? ? ? ? ? ? ??

利用采樣進行估計

策略評價算法對比－TD和MC

MC備份：采樣終止點為止

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?

例子：

? ? ? ? ? ? ? ? ? ? ? ? ? ??

離開辦公室預計回家需要30min；開到車，下雨啦調整估計，需要40min；下高速估計到家需要15min，總估30min；蹦到卡車，在卡車后面，再次估計需要40min，40min過去還在路上，估計還需要3min

蒙特卡洛：更新狀態的預估，真正到家需要43min

? ? ? ? ? ? ? ? ? ? ? ??

? ? ? ? ? ? ? ? ? ? ? ?

TD和MC 的優缺點：

? ?TD算法在知道結果之前學習：

? ? ? ? ? ? TD算法在每一步之后都能在線學習

? ? ? ? ? ? MC算法必須等待回報值得到之后才能學習

? ?TD算法即便沒有最終結果也能學習

? ? ? ? ? TD算法能夠從不完整序列中學習

? ? ? ? ? MC算法僅僅能夠從完整序列中學習

? ? ? ? ?TD算法適用于連續性任務和片段性任務

? ? ? ? ?MC算法僅僅適用于片段性任務

TD算法有多個驅動力：

? ? ? ? ?MC算法只有獎勵值作為更新的驅動力

? ? ? ? ?TD算法有獎勵值和狀態轉移作為更新的驅動力

偏差和方差權衡

? ? ? ?在監督學習中，偏差和方差有另外的理解－－欠擬合和過擬合

? ? ? ? ? ? ? ?偏差大(欠擬合)：預測值和樣本之間的差

? ? ? ? ? ? ? ?方差大 (過擬合)：樣本值之間的方差，學出的模型適用性差

? ? ? 方差大意味著樣本的置信度較差

? ? ? 不同的機器學習方法會在兩者之間做權衡（trade-off）

? ?? ? ? ? ? ? ? ? ? ? ? ?

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?

RL中的偏差和方差權衡

? ? ? ? ? ? ? ? ? ? ? ? ??

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?

TD和MC對比：

? ? ? ?MC高方差，零偏差

? ? ? ? ? ? ? 收斂性較好(采用函數逼近)，對初始值不太敏感，簡單，容易理解和使用，隨著樣本數量的增加，方差逐漸減小，趨于0

? ? ? TD低方差，和一些偏差

? ? ? ? ? ? ? 通常比MC效率更高，表格下TD(0)收斂到V(s)（函數逼近時不一定），對初始值更加敏感，隨著樣本數量的增加，偏差逐漸減少，趨近于0

批（batch）MC和TD

批MC指采樣一部分樣本

例子：

? ? ? ? ? ? ? ? ? ? ? ??

確定性等價估計

? ? MC收斂到最小均方誤差的解，是對樣本回報值的最佳擬合

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?

在上述例子中，V(A) = 0

? TD(0)收斂到最大似然馬爾可夫模型中的解，是對馬爾科夫鏈的最佳擬合，假設數據是來自P,R

? ? ? ? ? ? ? ? ? ? ? ? ? ? ?

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??

在例子中，V(A) = 0 + V(B) = 0.75

等價于內在動態過程是確定性的估計

TD利用馬爾可夫性，一般來說TD在馬爾可夫環境中更有效；MC沒有利用馬爾科夫性，一般對非馬爾科夫環境更有效

其它比較維度

自舉和采樣：

? ?自舉：使用隨機變量的估計去更新（后繼狀態計算當前狀態）MC沒有自舉，DP和TD都有自舉

? ?采樣：通過樣本估計期望 MC和TD采樣，DP不采樣

從備份的角度分析區別：

DP和TD都是單不更新，所以是淺備份；TD和MC 采取采樣的方式進行估計，所以是樣本備份

3、時間差分優化

TD中的策略迭代：

廣義策略迭代：

無模型得到策略評價比較難，不知道狀態轉移，所以采用Q函數；策略提升需要考慮到探索，必須得到有效的探索，使用帶探索的提升

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?

TD優化相比MC有幾點好處：低方差：樣本數據有限更新數據效率比較高；在線更新(online)，每走一步都更新，MC數據離線更新，需要一個路徑走完；不完整序列中學習，連續型任務

在策略策略優化：

SARSA算法：

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?

做一次策略評價，做一次策略提升

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??

在每個時間步驟（值迭代）

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??

? ? ? ? ? ? ? ? ? ? ? ? ? ??

為什么是在策略的？

? ? ? ? ? ? ? ? ? ? ? ? ? ? ??

Sarsa收斂性：

定理：

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??

GLIE是無限探索下的極限貪婪，保證充分他所，策略最終收斂到貪婪的策略，逐漸推薦為最優策略

Robbins-Monro保證不長足夠大，足以克服任意的初始值，步長足夠小，最終收斂（常量不長不滿足）

期望Sarsa:

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?

? ? ? ? ? ? ? ? ? ? ? ?

? ? ? ? ? ? ? ? ? ? ? ? ? ? ??

? ? ? ? ? ? ? ? ? ? ?

離策略TD評價：

? ? ? ? ? ? ? ? ? ? ??

對Q函數的離策略學習：

? ? ? ? ? ? ? ? ? ? ??

Q-學習：

? ? ? ? ? ? ? ? ? ? ?

Q學習優化算法

? ? ? ? ? ? ? ? ? ?

Q學習優化算法會收斂到最優的狀態動作值函數

Q學習優化算法：

? ? ? ? ? ? ? ? ? ??

DP和TD之間的關系：

? ? ? ? ? ? ? ? ? ??? ? ? ? ? ? ??

? ? ? ? ? ??

總結

以上是生活随笔為你收集整理的重温强化学习之无模型学习方法：时间差分方法的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：重温强化学习之无模型学习方法：蒙特卡洛方
下一篇：重温强化学习之无模型学习方法：TD(la