重温强化学习之函数近似
1、簡介
? ? 之前提到的方法目的是求值函數,通過值函數找打策略
? ? 基于表格的方法:
? ? ? ??
? ? ?基于表格方法精確的描述每一個動作和狀態的大小,表格大小會隨著狀態數量和動作數量快速膨脹,對于表格中某一項的更新不會影響到其它項的更新
強化學習能夠用來解決大規模的問題,例如圍棋:256像素點數冪
之前使用表格來表示值函數
? ? ? ? ? ? ??
在大規模MDPs中會存在需要在內存空間中存儲大量的狀態或動作,學習比較緩慢
解決大規模MDPs的方法,使用函數近似的方法:
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
從已經經歷過的狀態推廣到未見的狀態,可以使用MC或者TD更新參數W
值函數近似的類型:
? ? ? ? ? ? ? ? ? ? ? ??
第三個,輸入狀態可以無限,但是動作有限m,這樣做的好處是算出a1,...am個Q值即可用貪婪算法找出最優動作
函數近似器:
考慮可微的函數近似器:
比如:
? ? ? ? 線性模型
? ? ? ? 神經網絡
? ? ? ? 。。。
?
2、增量算法
? ? ?梯度算法
? ? ? ? ? ? 梯度下降:
? ? ? ? ? ? ? ? ? ? ? ? ? ?
?
? ? ? ? 值函數近似和隨機梯度下降
? ? ? ? ? ? ? ? ? ? ? ? ??? ? ? ? ? ? ? ? ? ? ?
? ? ?線性函數近似
? ? ? ? ? ? ?特征向量:
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
? ? ? ? ? ? ?線性值函數近似:
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
? ? ? ? ? ? 表格檢索特征:? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
? ? ? ? ? ? ? ? ? ? ? ? ?? ?
?
? ? ?值函數近似下的增量式評價算法
? ? ? 增量式評價算法:前面是假設給定了真實的值函數,但是在RL環境中,并不知道真實的值函數,只有獎勵值。直觀地,用目標值代替值函數
? ? ? ? ? ? ? ? ? ? ? ?
? ? ?值函數近似下的MC:
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
? ? 值函數近似下的TD
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??? ? ? ? ? ??
? ? 值函數近似下的TD(lambda)
? ? ? ? ? ? ? ? ? ? ? ? ? ? ?? ?? ? ?
? ? ?值函數近似下的增量式優化算法
? ? ? ? ? ? 策略迭代:
? ? ? ? ? ? ? ? ? ? ? ? ?
? ? ? ? ? ? ? ? ? ? ? ? ? ??
? ? ? ? ? ? ? ? ? ? ? ? ? ??
? ? ? ? ? ? 對Q函數的近似:
? ? ? ? ? ? ? ? ? ? ? ? ??
? ? ? ? ? ? ?線性Q函數的近似
? ? ? ? ? ? ? ? ? ? ? ? ? ? ??? ??
? ? ? ?增量式策略優化算法:
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
3、收斂性簡介
? ? ? ? 策略評價時的收斂問題:
? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
策略優化算法的收斂性:
? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
?
總結
以上是生活随笔為你收集整理的重温强化学习之函数近似的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 重温强化学习之无模型学习方法:TD(la
- 下一篇: 重温强化学习之策略梯度算法