當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

重温强化学习之无模型学习方法：TD(lambda)

發布時間：2025/4/5 编程问答 50 豆豆

生活随笔收集整理的這篇文章主要介紹了重温强化学习之无模型学习方法：TD(lambda) 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

1、多步自舉

? ? ? ? ? ? ? ? ?

一步TD:TD(0)，白色圈V函數，黑色Q函數，后繼狀態V函數更新當前狀態V函數，采樣，智能體和環境進行交互。根據狀態采取一個動作，轉為后繼狀態，環境給一個獎勵－－》采樣一步得到后繼狀態

MC 采樣到終止狀態。MC只采樣一步，之后的狀態利用之前的值函數進行對當前值函數的估計

多步自舉通過采樣和自舉的方法做一個權衡，TD(0)一步采樣之后多步自舉，現在多步采樣多步自舉

n步回報值：

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?

幾步為最優？

? ? ? ? ? ? ? ? ? ? ? ? ? ? ??? ? ? ?

? ? ? ? ? ? ? ? ? ? ? ? ? ??

注意：為了計算n步回報值，需要維護R，S的存儲空間，對于后繼狀態不足n個的，使用MC目標值

2、TD(lambda)

? ? ???1）簡介

將n步回報值平均

? ? ? ? ? ? ? ? ? ? ? ? ? ? ??? ? ? ? ??

lambda回報值

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?

? TD(lambda)加權函數

? ? ? ? ? ? ? ? ? ? ??? ? ? ? ??

TD(lambda)的兩種視角：

? ? ? ? ? ? ? 前向視角：主要是理解TD(lambda),上述是前向視角

? ? ? ? ? ? ? 后向視角：比較實用的算法

? ? ? ?TD(lambda)的前向視角：

? ? ? ? ??

? ? ? ? ? ? ? ?? ? ? ? ? ? ??

? ? ? ? TD(lambda)的后向視角：前向視角提供理論，后向視角提供實用算法，通過后向視角，可以實現在線更新，每步更新，從不完整狀態更新

? ? ? ?2）資格跡? ? ?

? ? ? ? ? ? ? ? ? ? ? ?

? ?后向視角的TD(lambda):

? ? ? ? ? ? ? ? ? ? ? ? ? ??

? ? ? ?簡單地來說，后向視角是秋后算賬，看前面那個狀態貢獻比較大，之后對這個狀態的資格跡加1，其它狀態資格跡不斷地衰減

? ? ? ?3）TD(lambda)的兩種視角的關系

? TD(lambda)與TD(0)

? ? ? ? ? ? ? ? ? ? ??? ? ? ??

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?

TD(1)和MC:

? ? ? ? ? ? ? ? ? ? ? ? ? ?

? ? ? ? ? ? ? ? ? ? ? ? ? ? ?

TD(lambda)和TD(0)

? ? ?當lambda=1時，信度分配會被延遲到終止狀態，這里考慮到片斷性任務，而且考慮離線更新，考慮一個片段整體的情況下，TD(1)總更新量等價于MC,在每一步更新上可能有差距

對s 的總更新量

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??

前向視角和后向視角的TD(lambda)

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??

兩種視角下的等價性：

離線更新：

? ? ? ? ? ? ? ? ? ?

在線更新：

? ? ? ? ? ? ? ? ? ??? ? ? ? ??

小結：

? ? ? ? ? ? ? ? ??

3、TD(lambda)優化算法

n步Sarsa:

? ? ? ? ? ? ? ? ??

前向視角的Sarsa（lambda）算法

? ? ? ? ? ? ? ? ??

? ? ? ? ? ? ? ? ?

后向視角的Sarsa(lambda)

? ? ? ? ? ? ? ? ? ?

Sarsa(lambda)算法：

? ? ? ? ? ? ? ? ? ??

總結

以上是生活随笔為你收集整理的重温强化学习之无模型学习方法：TD(lambda)的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：重温强化学习之无模型学习方法：时间差分方
下一篇：重温强化学习之函数近似

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

编程问答

重温强化学习之无模型学习方法：TD(lambda)

1、多步自舉

2、TD(lambda)

? ? ? ? ? ? ? ? ? ? ? ? ? ? ??? ? ? ? ??

總結