日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

重温强化学习之无模型学习方法:TD(lambda)

發布時間:2025/4/5 编程问答 42 豆豆
生活随笔 收集整理的這篇文章主要介紹了 重温强化学习之无模型学习方法:TD(lambda) 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

1、多步自舉

? ? ? ? ? ? ? ? ?

一步TD:TD(0),白色圈V函數,黑色Q函數,后繼狀態V函數更新當前狀態V函數,采樣,智能體和環境進行交互。根據狀態采取一個動作,轉為后繼狀態,環境給一個獎勵--》采樣一步得到后繼狀態

MC 采樣到終止狀態。MC只采樣一步,之后的狀態利用之前的值函數進行對當前值函數的估計

多步自舉通過采樣和自舉的方法做一個權衡,TD(0)一步采樣之后多步自舉,現在多步采樣多步自舉

?

n步回報值:

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?

幾步為最優?

? ? ? ? ? ? ? ? ? ? ? ? ? ? ??? ? ? ?

? ? ? ? ? ? ? ? ? ? ? ? ? ??

注意:為了計算n步回報值,需要維護R,S的存儲空間,對于后繼狀態不足n個的,使用MC目標值

2、TD(lambda)

? ? ???1)簡介

將n步回報值平均

? ? ? ? ? ? ? ? ? ? ? ? ? ? ??? ? ? ? ??

lambda回報值

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?

? TD(lambda)加權函數

? ? ? ? ? ? ? ? ? ? ??? ? ? ? ??

TD(lambda)的兩種視角:

? ? ? ? ? ? ? 前向視角:主要是理解TD(lambda),上述是前向視角

? ? ? ? ? ? ? 后向視角:比較實用的算法

? ? ? ?TD(lambda)的前向視角:

? ? ? ? ??

? ? ? ? ? ? ? ?? ? ? ? ? ? ??

? ? ? ? TD(lambda)的后向視角:前向視角提供理論,后向視角提供實用算法,通過后向視角,可以實現在線更新,每步更新,從不完整狀態更新

? ? ? ?2)資格跡? ? ?

? ? ? ? ? ? ? ? ? ? ? ?

? ?后向視角的TD(lambda):

? ? ? ? ? ? ? ? ? ? ? ? ? ??

? ? ? ?簡單地來說,后向視角是秋后算賬,看前面那個狀態貢獻比較大,之后對這個狀態的資格跡加1,其它狀態資格跡不斷地衰減

? ? ? ?3)TD(lambda)的兩種視角的關系

? TD(lambda)與TD(0)

? ? ? ? ? ? ? ? ? ? ??? ? ? ??

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?

?

TD(1)和MC:

? ? ? ? ? ? ? ? ? ? ? ? ? ?

? ? ? ? ? ? ? ? ? ? ? ? ? ? ?

? ? ? ? ? ? ? ? ? ? ? ? ? ? ?

TD(lambda)和TD(0)

? ? ?當lambda=1時,信度分配會被延遲到終止狀態,這里考慮到片斷性任務,而且考慮離線更新,考慮一個片段整體的情況下,TD(1)總更新量等價于MC,在每一步更新上可能有差距

對s 的總更新量

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??

前向視角和后向視角的TD(lambda)

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??

兩種視角下的等價性:

離線更新:

? ? ? ? ? ? ? ? ? ?

在線更新:

? ? ? ? ? ? ? ? ? ??? ? ? ? ??

小結:

? ? ? ? ? ? ? ? ??

3、TD(lambda)優化算法

n步Sarsa:

? ? ? ? ? ? ? ? ??

前向視角的Sarsa(lambda)算法

? ? ? ? ? ? ? ? ??

? ? ? ? ? ? ? ? ?

后向視角的Sarsa(lambda)

? ? ? ? ? ? ? ? ? ?

Sarsa(lambda)算法:

? ? ? ? ? ? ? ? ? ??

總結

以上是生活随笔為你收集整理的重温强化学习之无模型学习方法:TD(lambda)的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。