重温强化学习之函数近似
1、簡(jiǎn)介
? ? 之前提到的方法目的是求值函數(shù),通過(guò)值函數(shù)找打策略
? ? 基于表格的方法:
? ? ? ??
? ? ?基于表格方法精確的描述每一個(gè)動(dòng)作和狀態(tài)的大小,表格大小會(huì)隨著狀態(tài)數(shù)量和動(dòng)作數(shù)量快速膨脹,對(duì)于表格中某一項(xiàng)的更新不會(huì)影響到其它項(xiàng)的更新
強(qiáng)化學(xué)習(xí)能夠用來(lái)解決大規(guī)模的問(wèn)題,例如圍棋:256像素點(diǎn)數(shù)冪
之前使用表格來(lái)表示值函數(shù)
? ? ? ? ? ? ??
在大規(guī)模MDPs中會(huì)存在需要在內(nèi)存空間中存儲(chǔ)大量的狀態(tài)或動(dòng)作,學(xué)習(xí)比較緩慢
解決大規(guī)模MDPs的方法,使用函數(shù)近似的方法:
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
從已經(jīng)經(jīng)歷過(guò)的狀態(tài)推廣到未見(jiàn)的狀態(tài),可以使用MC或者TD更新參數(shù)W
值函數(shù)近似的類型:
? ? ? ? ? ? ? ? ? ? ? ??
第三個(gè),輸入狀態(tài)可以無(wú)限,但是動(dòng)作有限m,這樣做的好處是算出a1,...am個(gè)Q值即可用貪婪算法找出最優(yōu)動(dòng)作
函數(shù)近似器:
考慮可微的函數(shù)近似器:
比如:
? ? ? ? 線性模型
? ? ? ? 神經(jīng)網(wǎng)絡(luò)
? ? ? ? 。。。
?
2、增量算法
? ? ?梯度算法
? ? ? ? ? ? 梯度下降:
? ? ? ? ? ? ? ? ? ? ? ? ? ?
?
? ? ? ? 值函數(shù)近似和隨機(jī)梯度下降
? ? ? ? ? ? ? ? ? ? ? ? ??? ? ? ? ? ? ? ? ? ? ?
? ? ?線性函數(shù)近似
? ? ? ? ? ? ?特征向量:
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
? ? ? ? ? ? ?線性值函數(shù)近似:
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
? ? ? ? ? ? 表格檢索特征:? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
? ? ? ? ? ? ? ? ? ? ? ? ?? ?
?
? ? ?值函數(shù)近似下的增量式評(píng)價(jià)算法
? ? ? 增量式評(píng)價(jià)算法:前面是假設(shè)給定了真實(shí)的值函數(shù),但是在RL環(huán)境中,并不知道真實(shí)的值函數(shù),只有獎(jiǎng)勵(lì)值。直觀地,用目標(biāo)值代替值函數(shù)
? ? ? ? ? ? ? ? ? ? ? ?
? ? ?值函數(shù)近似下的MC:
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
? ? 值函數(shù)近似下的TD
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??? ? ? ? ? ??
? ? 值函數(shù)近似下的TD(lambda)
? ? ? ? ? ? ? ? ? ? ? ? ? ? ?? ?? ? ?
? ? ?值函數(shù)近似下的增量式優(yōu)化算法
? ? ? ? ? ? 策略迭代:
? ? ? ? ? ? ? ? ? ? ? ? ?
? ? ? ? ? ? ? ? ? ? ? ? ? ??
? ? ? ? ? ? ? ? ? ? ? ? ? ??
? ? ? ? ? ? 對(duì)Q函數(shù)的近似:
? ? ? ? ? ? ? ? ? ? ? ? ??
? ? ? ? ? ? ?線性Q函數(shù)的近似
? ? ? ? ? ? ? ? ? ? ? ? ? ? ??? ??
? ? ? ?增量式策略優(yōu)化算法:
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
3、收斂性簡(jiǎn)介
? ? ? ? 策略評(píng)價(jià)時(shí)的收斂問(wèn)題:
? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
策略優(yōu)化算法的收斂性:
? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
?
總結(jié)
以上是生活随笔為你收集整理的重温强化学习之函数近似的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 重温强化学习之无模型学习方法:TD(la
- 下一篇: 重温强化学习之策略梯度算法