當前位置：首頁 > 编程资源 > 综合教程 >内容正文

综合教程

强化学习(Reinforcement Learning)

發布時間：2023/12/15 综合教程 54 生活家

生活随笔收集整理的這篇文章主要介紹了强化学习(Reinforcement Learning) 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

強化學習(Reinforcement Learning)

作者：凱魯嘎吉 - 博客園http://www.cnblogs.com/kailugaji/

通過閱讀《神經網絡與深度學習》及其他資料，了解強化學習(Reinforcement Learning)的基本知識，并介紹相關強化學習算法。更多強化學習內容，請看：隨筆分類 - Reinforcement Learning。

1. 強化學習背景與基本概念

1.1 強化學習概念圖

三種機器學習方法(監督學習，無監督學習與強化學習)比較：

1.2基于學習信號的結構復雜度和時序復雜度對機器學習方法進行歸類

1.3 強化學習常用符號

1.4 強化學習定義與概念

1.5馬爾可夫決策過程(Markov Decision Process, MDP)

1.6 強化學習的目標函數

1.7 值函數

1.8 強化學習方法總體概括

算法小結：

1. 值函數算法：通過迭代更新值函數來間接得到智能體的策略，當值函數迭代達到最優時，智能體的最優策略通過最優值函數得到。在算法應用的場景上，值函數算法需要對動作進行采樣，因此只能處理離散動作的情況。

2. 策略梯度算法：直接采用函數近似的方法建立策略網絡，通過策略網絡選取動作得到獎勵值，并沿梯度方向對策略網絡參數進行優化，得到優化的策略最大化獎勵值。在算法應用的場景上，策略梯度算法直接利用策略網絡對動作進行搜索，可以被用來處理連續動作的情況。

3. 演員-評論員算法：將值函數算法和策略梯度算法結合得到的演員-評論員(Actor-Critic, AC)結構也受到了廣泛的關注。在AC結構中，演員使用策略梯度法選取動作，通過值函數對演員采取的動作進行評價，并且在訓練時，演員和評論員的參數交替更新。

圖源：李茹楊,彭慧民,李仁剛,趙坤.強化學習算法與應用綜述.計算機系統應用,2020,29(12):13-25.

2. 基于值函數的方法

2.1值函數估計——優化思路

2.2動態規劃算法(基于模型的強化學習)

2.3蒙特卡羅方法(模型無關的強化學習)

2.4時序差分學習方法(蒙特卡羅+動態規劃)

2.4.1SARSA：一種同策略的時序差分學習算法

2.4.2Q學習：一種異策略的時序差分學習算法

Q學習通常假設智能體貪婪地選擇動作，即只選擇Q值最大的動作，其他動作的選擇概率為0，從而保證了Q學習的收斂性。與Sarsa相比，異策略Q學習需要更短的訓練時間，跳出局部最優解的概率更大。然而，如果智能體根據Q值的概率模型而不是貪婪選擇對動作進行采樣，則采用異策略技術的Q值估計誤差將增大。

2.4.3深度Q網絡(Deep Q-Networks，DQN)

DQN網絡結構：

DQN(off-policy)算法流程：

DQN算法改進：

Dueling DQN 的網絡結構

補充：為什么需要經驗回放池(Experience Replay Buffer)？

1. 重復利用收集到的經驗，而不是用一次就丟棄，這樣可以用更少的樣本數量達到同樣的表現。重復利用經驗、不重復利用經驗的收斂曲線通常如下圖所示。圖的橫軸是樣本數量，縱軸是平均回報。

圖來自：王樹森, 張志華, 深度強化學習，https://github.com/wangshusen/DRL/blob/master/Notes_CN/DRL.pdf, 2021.

2. 采用神經網絡訓練時，一般需要進行基于梯度的優化，并對數據進行分批次訓練，設立batch，但采用這種方式的前提是假設樣本之間都是獨立同分布的(independent and identically distributed，i.i.d.)，這樣每個batch內的噪聲可以互相抵消。但強化學習中的決策過程是一個時間序列，這意味著前后數據之間具有很強的相關性，這樣不利于進行梯度優化。設立經驗回放池，將貝爾曼公式中需要的數據保存起來，通過隨機的(或者基于優先度的)從經驗回放池中進行抽樣，當回放池中的數據足夠多，隨機抽樣得到的數據就接近獨立同分布，因此設立經驗回放池可以打破序列之間的相關性，避免模型陷入局部最優。

圖來自：From Policy Gradient to Actor-Critic methodshttps://rl-vs.github.io/rlvs2021/class-material/pg/6_baseline_AC.pdf

3. 基于策略函數的學習方法

3.1 策略梯度(Policy Gradient)

3.2REINFORCE算法

3.3帶基準線的REINFORCE算法(REINFORCE with Baseline)

補充：策略梯度法改進思路

信任域類算法請看：信賴域策略優化(Trust Region Policy Optimization, TRPO)，近端策略優化算法(Proximal Policy Optimization Algorithms, PPO)，重要性采樣(Importance Sampling)——TRPO與PPO的補充

4.演員-評論員算法(Actor-Critic Algorithm)

A2C的基本結構：

A3C(on-policy)異步訓練框架圖：

Soft Actor-Critic:

5. 深度強化學習算法分類與應用

5.1 算法分類

5.2 應用與意義

6. 基于模型的方法與定義獎勵函數方法概述

根據智能體是否通過與環境交互獲得的，數據來預定義環境動態模型，將強化學習分為模型化強化學習(基于模型的強化學習)和無模型強化學習(與模型無關的強化學習)，上述討論的均為無模型強化學習。

無模型的深度強化學習算法需要大量的采樣數據進行訓練，而這些數據往往很難通過交互得到，因此可以考慮使用已有的現實環境中的數據建立環境模型，然后利用環境模型對智能體進行訓練。

基于模型的強化學習：

定義獎勵函數方法概述：

7. 參考文獻

[1]強化學習相關資料(書籍，課程，網址，筆記等)- 凱魯嘎吉博客園

[2]邱錫鵬，神經網絡與深度學習，機械工業出版社，https://nndl.github.io/, 2020.

[3]強化學習——值迭代和策略迭代 - 虔誠的樹 - 博客園 https://www.cnblogs.com/xxxxxxxxx/p/11536460.html

[4]楊思明 , 單征 , 丁煜 , 李剛偉. 深度強化學習研究現狀及展望[J]. 計算機工程, 2021,doi: 10.19678/j.issn.1000-3428.0061116.

[5] 劉朝陽, 穆朝絮, 孫長銀. 深度強化學習算法與應用研究現狀綜述[J]. 智能科學與技術學報, 2020, 2(4): 314-326.

[6] 秦智慧, 李寧, 劉曉彤, 劉秀磊, 佟強, 劉旭紅.無模型強化學習研究綜述[J]. 計算機科學, 2021, 48(3): 180-187.

作者：凱魯嘎吉
出處：http://www.cnblogs.com/kailugaji/
本文版權歸作者和博客園共有，歡迎轉載，但未經作者同意必須在文章頁面給出原文鏈接，否則保留追究法律責任的權利。

總結

以上是生活随笔為你收集整理的强化学习(Reinforcement Learning)的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： clbt是什么文件
下一篇： ubuntu(乌班图)常用命令大全(Ub