當(dāng)前位置：首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

重温强化学习之函数近似

發(fā)布時(shí)間：2025/4/5 编程问答 61 豆豆

生活随笔收集整理的這篇文章主要介紹了重温强化学习之函数近似小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

1、簡(jiǎn)介

? ? 之前提到的方法目的是求值函數(shù)，通過(guò)值函數(shù)找打策略

? ? 基于表格的方法：

? ? ? ??

? ? ?基于表格方法精確的描述每一個(gè)動(dòng)作和狀態(tài)的大小，表格大小會(huì)隨著狀態(tài)數(shù)量和動(dòng)作數(shù)量快速膨脹，對(duì)于表格中某一項(xiàng)的更新不會(huì)影響到其它項(xiàng)的更新

強(qiáng)化學(xué)習(xí)能夠用來(lái)解決大規(guī)模的問(wèn)題，例如圍棋：256像素點(diǎn)數(shù)冪

之前使用表格來(lái)表示值函數(shù)

? ? ? ? ? ? ??

在大規(guī)模MDPs中會(huì)存在需要在內(nèi)存空間中存儲(chǔ)大量的狀態(tài)或動(dòng)作，學(xué)習(xí)比較緩慢

解決大規(guī)模MDPs的方法，使用函數(shù)近似的方法：

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?

從已經(jīng)經(jīng)歷過(guò)的狀態(tài)推廣到未見(jiàn)的狀態(tài)，可以使用MC或者TD更新參數(shù)W

值函數(shù)近似的類型：

? ? ? ? ? ? ? ? ? ? ? ??

第三個(gè)，輸入狀態(tài)可以無(wú)限，但是動(dòng)作有限m，這樣做的好處是算出a1,...am個(gè)Q值即可用貪婪算法找出最優(yōu)動(dòng)作

函數(shù)近似器：

考慮可微的函數(shù)近似器：

比如：

? ? ? ? 線性模型

? ? ? ? 神經(jīng)網(wǎng)絡(luò)

? ? ? ? 。。。

2、增量算法

? ? ?梯度算法

? ? ? ? ? ? 梯度下降：

? ? ? ? ? ? ? ? ? ? ? ? ? ?

? ? ? ? 值函數(shù)近似和隨機(jī)梯度下降

? ? ? ? ? ? ? ? ? ? ? ? ??? ? ? ? ? ? ? ? ? ? ?

? ? ?線性函數(shù)近似

? ? ? ? ? ? ?特征向量：

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??

? ? ? ? ? ? ?線性值函數(shù)近似：

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??

? ? ? ? ? ? 表格檢索特征：? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??

? ? ? ? ? ? ? ? ? ? ? ? ?? ?

? ? ?值函數(shù)近似下的增量式評(píng)價(jià)算法

? ? ? 增量式評(píng)價(jià)算法：前面是假設(shè)給定了真實(shí)的值函數(shù)，但是在RL環(huán)境中，并不知道真實(shí)的值函數(shù)，只有獎(jiǎng)勵(lì)值。直觀地，用目標(biāo)值代替值函數(shù)

? ? ? ? ? ? ? ? ? ? ? ?

? ? ?值函數(shù)近似下的MC:

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?

? ? 值函數(shù)近似下的TD

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??? ? ? ? ? ??

? ? 值函數(shù)近似下的TD(lambda)

? ? ? ? ? ? ? ? ? ? ? ? ? ? ?? ?? ? ?

? ? ?值函數(shù)近似下的增量式優(yōu)化算法

? ? ? ? ? ? 策略迭代：

? ? ? ? ? ? ? ? ? ? ? ? ?

? ? ? ? ? ? ? ? ? ? ? ? ? ??

? ? ? ? ? ? 對(duì)Q函數(shù)的近似：

? ? ? ? ? ? ? ? ? ? ? ? ??

? ? ? ? ? ? ?線性Q函數(shù)的近似

? ? ? ? ? ? ? ? ? ? ? ? ? ? ??? ??

? ? ? ?增量式策略優(yōu)化算法：

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??

3、收斂性簡(jiǎn)介

? ? ? ? 策略評(píng)價(jià)時(shí)的收斂問(wèn)題：

? ? ? ? ? ? ? ? ? ? ? ? ? ? ??

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?

策略優(yōu)化算法的收斂性：