重温强化学习之无模型学习方法:TD(lambda)
1、多步自舉
? ? ? ? ? ? ? ? ?
一步TD:TD(0),白色圈V函數,黑色Q函數,后繼狀態V函數更新當前狀態V函數,采樣,智能體和環境進行交互。根據狀態采取一個動作,轉為后繼狀態,環境給一個獎勵--》采樣一步得到后繼狀態
MC 采樣到終止狀態。MC只采樣一步,之后的狀態利用之前的值函數進行對當前值函數的估計
多步自舉通過采樣和自舉的方法做一個權衡,TD(0)一步采樣之后多步自舉,現在多步采樣多步自舉
?
n步回報值:
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
幾步為最優?
? ? ? ? ? ? ? ? ? ? ? ? ? ? ??? ? ? ?
? ? ? ? ? ? ? ? ? ? ? ? ? ??
注意:為了計算n步回報值,需要維護R,S的存儲空間,對于后繼狀態不足n個的,使用MC目標值
2、TD(lambda)
? ? ???1)簡介
將n步回報值平均
? ? ? ? ? ? ? ? ? ? ? ? ? ? ??? ? ? ? ??
lambda回報值
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
? TD(lambda)加權函數
? ? ? ? ? ? ? ? ? ? ??? ? ? ? ??
TD(lambda)的兩種視角:
? ? ? ? ? ? ? 前向視角:主要是理解TD(lambda),上述是前向視角
? ? ? ? ? ? ? 后向視角:比較實用的算法
? ? ? ?TD(lambda)的前向視角:
? ? ? ? ??
? ? ? ? ? ? ? ?? ? ? ? ? ? ??
? ? ? ? TD(lambda)的后向視角:前向視角提供理論,后向視角提供實用算法,通過后向視角,可以實現在線更新,每步更新,從不完整狀態更新
? ? ? ?2)資格跡? ? ?
? ? ? ? ? ? ? ? ? ? ? ?
? ?后向視角的TD(lambda):
? ? ? ? ? ? ? ? ? ? ? ? ? ??
? ? ? ?簡單地來說,后向視角是秋后算賬,看前面那個狀態貢獻比較大,之后對這個狀態的資格跡加1,其它狀態資格跡不斷地衰減
? ? ? ?3)TD(lambda)的兩種視角的關系
? TD(lambda)與TD(0)
? ? ? ? ? ? ? ? ? ? ??? ? ? ??
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
?
TD(1)和MC:
? ? ? ? ? ? ? ? ? ? ? ? ? ?
? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
TD(lambda)和TD(0)
? ? ?當lambda=1時,信度分配會被延遲到終止狀態,這里考慮到片斷性任務,而且考慮離線更新,考慮一個片段整體的情況下,TD(1)總更新量等價于MC,在每一步更新上可能有差距
對s 的總更新量
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
前向視角和后向視角的TD(lambda)
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
兩種視角下的等價性:
離線更新:
? ? ? ? ? ? ? ? ? ?
在線更新:
? ? ? ? ? ? ? ? ? ??? ? ? ? ??
小結:
? ? ? ? ? ? ? ? ??
3、TD(lambda)優化算法
n步Sarsa:
? ? ? ? ? ? ? ? ??
前向視角的Sarsa(lambda)算法
? ? ? ? ? ? ? ? ??
? ? ? ? ? ? ? ? ?
后向視角的Sarsa(lambda)
? ? ? ? ? ? ? ? ? ?
Sarsa(lambda)算法:
? ? ? ? ? ? ? ? ? ??
總結
以上是生活随笔為你收集整理的重温强化学习之无模型学习方法:TD(lambda)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 重温强化学习之无模型学习方法:时间差分方
- 下一篇: 重温强化学习之函数近似