日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

重温强化学习之函数近似

發布時間:2025/4/5 编程问答 53 豆豆
生活随笔 收集整理的這篇文章主要介紹了 重温强化学习之函数近似 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

1、簡介

? ? 之前提到的方法目的是求值函數,通過值函數找打策略

? ? 基于表格的方法:

? ? ? ??

? ? ?基于表格方法精確的描述每一個動作和狀態的大小,表格大小會隨著狀態數量和動作數量快速膨脹,對于表格中某一項的更新不會影響到其它項的更新

強化學習能夠用來解決大規模的問題,例如圍棋:256像素點數冪

之前使用表格來表示值函數

? ? ? ? ? ? ??

在大規模MDPs中會存在需要在內存空間中存儲大量的狀態或動作,學習比較緩慢

解決大規模MDPs的方法,使用函數近似的方法:

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?

從已經經歷過的狀態推廣到未見的狀態,可以使用MC或者TD更新參數W

值函數近似的類型:

? ? ? ? ? ? ? ? ? ? ? ??

第三個,輸入狀態可以無限,但是動作有限m,這樣做的好處是算出a1,...am個Q值即可用貪婪算法找出最優動作

函數近似器:

考慮可微的函數近似器:

比如:

? ? ? ? 線性模型

? ? ? ? 神經網絡

? ? ? ? 。。。

?

2、增量算法

? ? ?梯度算法

? ? ? ? ? ? 梯度下降:

? ? ? ? ? ? ? ? ? ? ? ? ? ?

?

? ? ? ? 值函數近似和隨機梯度下降

? ? ? ? ? ? ? ? ? ? ? ? ??? ? ? ? ? ? ? ? ? ? ?

? ? ?線性函數近似

? ? ? ? ? ? ?特征向量:

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??

? ? ? ? ? ? ?線性值函數近似:

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??

? ? ? ? ? ? 表格檢索特征:? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??

? ? ? ? ? ? ? ? ? ? ? ? ?? ?

?

? ? ?值函數近似下的增量式評價算法

? ? ? 增量式評價算法:前面是假設給定了真實的值函數,但是在RL環境中,并不知道真實的值函數,只有獎勵值。直觀地,用目標值代替值函數

? ? ? ? ? ? ? ? ? ? ? ?

? ? ?值函數近似下的MC:

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?

? ? 值函數近似下的TD

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??? ? ? ? ? ??

? ? 值函數近似下的TD(lambda)

? ? ? ? ? ? ? ? ? ? ? ? ? ? ?? ?? ? ?

? ? ?值函數近似下的增量式優化算法

? ? ? ? ? ? 策略迭代:

? ? ? ? ? ? ? ? ? ? ? ? ?

? ? ? ? ? ? ? ? ? ? ? ? ? ??

? ? ? ? ? ? ? ? ? ? ? ? ? ??

? ? ? ? ? ? 對Q函數的近似:

? ? ? ? ? ? ? ? ? ? ? ? ??

? ? ? ? ? ? ?線性Q函數的近似

? ? ? ? ? ? ? ? ? ? ? ? ? ? ??? ??

? ? ? ?增量式策略優化算法:

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??

3、收斂性簡介

? ? ? ? 策略評價時的收斂問題:

? ? ? ? ? ? ? ? ? ? ? ? ? ? ??

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?

策略優化算法的收斂性:

? ? ? ? ? ? ? ? ? ? ? ? ? ? ??

?

總結

以上是生活随笔為你收集整理的重温强化学习之函数近似的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。