强化学习笔记: backup diagram
生活随笔
收集整理的這篇文章主要介紹了
强化学习笔记: backup diagram
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
???backup diagram(備份圖),圖示的關系構成了更新或備份操作的基礎,而這些操作是強化學習方法的核心。
????????這些操作將價值信息從一個狀態(或狀態-動作對)的后繼狀態(或狀態-動作對)轉移回來。
1 Value function的備份圖
我們這里有兩層加和:
- 第一層加和就是這個葉子節點,往上走一層的話,我們就可以把未來的價值(狀態s'的價值) backup 到黑色的節點。即:
- 第二層加和是對 action 進行加和。得到黑色節點的價值過后,再往上 backup 一層,就會推到根節點的價值,即當前狀態的價值。即:【我action和s是一輪的,所以不用乘γ)
?兩式結合,有:
?
?這個式子用Bellman Expectation Equation也可以推導出來?
2 Q function的備份圖
我們這里也有兩個加和:
- 第一層加和是先把這個葉子節點從黑色節點推到這個白色的節點,進了它的這個狀態。即:
- 當我們到達某一個狀態過后,再對這個白色節點進行一個加和,這樣就把它重新推回到當前時刻的一個 Q 函數。即:
?兩式結合,有:
?
總結
以上是生活随笔為你收集整理的强化学习笔记: backup diagram的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: pytorch笔记: 处理inf和nan
- 下一篇: 强化学习笔记: MDP - Policy