日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 综合教程 >内容正文

综合教程

强化学习(Reinforcement Learning)

發布時間:2023/12/15 综合教程 44 生活家
生活随笔 收集整理的這篇文章主要介紹了 强化学习(Reinforcement Learning) 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

強化學習(Reinforcement Learning)

作者:凱魯嘎吉 - 博客園http://www.cnblogs.com/kailugaji/

通過閱讀《神經網絡與深度學習》及其他資料,了解強化學習(Reinforcement Learning)的基本知識,并介紹相關強化學習算法。更多強化學習內容,請看:隨筆分類 - Reinforcement Learning。

1. 強化學習背景與基本概念

1.1 強化學習概念圖

三種機器學習方法(監督學習,無監督學習與強化學習)比較:

1.2基于學習信號的結構復雜度和時序復雜度對機器學習方法進行歸類

1.3 強化學習常用符號

1.4 強化學習定義與概念

1.5馬爾可夫決策過程(Markov Decision Process, MDP)

1.6 強化學習的目標函數

1.7 值函數

1.8 強化學習方法總體概括

算法小結:

1. 值函數算法:通過迭代更新值函數來間接得到智能體的策略,當值函數迭代達到最優時,智能體的最優策略通過最優值函數得到。在算法應用的場景上,值函數算法需要對動作進行采樣,因此只能處理離散動作的情況。

2. 策略梯度算法:直接采用函數近似的方法建立策略網絡,通過策略網絡選取動作得到獎勵值,并沿梯度方向對策略網絡參數進行優化,得到優化的策略最大化獎勵值。在算法應用的場景上,策略梯度算法直接利用策略網絡對動作進行搜索,可以被用來處理連續動作的情況。

3. 演員-評論員算法:將值函數算法和策略梯度算法結合得到的演員-評論員(Actor-Critic, AC)結構也受到了廣泛的關注。在AC結構中,演員使用策略梯度法選取動作,通過值函數對演員采取的動作進行評價,并且在訓練時,演員和評論員的參數交替更新。

圖源:李茹楊,彭慧民,李仁剛,趙坤.強化學習算法與應用綜述.計算機系統應用,2020,29(12):13-25.

2. 基于值函數的方法

2.1值函數估計——優化思路

2.2動態規劃算法(基于模型的強化學習)

2.3蒙特卡羅方法(模型無關的強化學習)

2.4時序差分學習方法(蒙特卡羅+動態規劃)

2.4.1SARSA:一種同策略的時序差分學習算法

2.4.2Q學習:一種異策略的時序差分學習算法

Q學習通常假設智能體貪婪地選擇動作,即只選擇Q值最大的動作,其他動作的選擇概率為0,從而保證了Q學習的收斂性。與Sarsa相比,異策略Q學習需要更短的訓練時間,跳出局部最優解的概率更大。然而,如果智能體根據Q值的概率模型而不是貪婪選擇對動作進行采樣,則采用異策略技術的Q值估計誤差將增大。

2.4.3深度Q網絡(Deep Q-Networks,DQN)

DQN網絡結構:

DQN(off-policy)算法流程:

DQN算法改進:

Dueling DQN 的網絡結構

補充:為什么需要經驗回放池(Experience Replay Buffer)?

1. 重復利用收集到的經驗,而不是用一次就丟棄,這樣可以用更少的樣本數量達到同樣的表現。重復利用經驗、不重復利用經驗的收斂曲線通常如下圖所示。圖的橫軸是樣本數量,縱軸是平均回報。

圖來自:王樹森, 張志華, 深度強化學習,https://github.com/wangshusen/DRL/blob/master/Notes_CN/DRL.pdf, 2021.

2. 采用神經網絡訓練時,一般需要進行基于梯度的優化,并對數據進行分批次訓練,設立batch,但采用這種方式的前提是假設樣本之間都是獨立同分布的(independent and identically distributed,i.i.d.),這樣每個batch內的噪聲可以互相抵消。但強化學習中的決策過程是一個時間序列,這意味著前后數據之間具有很強的相關性,這樣不利于進行梯度優化。設立經驗回放池,將貝爾曼公式中需要的數據保存起來,通過隨機的(或者基于優先度的)從經驗回放池中進行抽樣,當回放池中的數據足夠多,隨機抽樣得到的數據就接近獨立同分布,因此設立經驗回放池可以打破序列之間的相關性,避免模型陷入局部最優。

圖來自:From Policy Gradient to Actor-Critic methodshttps://rl-vs.github.io/rlvs2021/class-material/pg/6_baseline_AC.pdf

3. 基于策略函數的學習方法

3.1 策略梯度(Policy Gradient)

3.2REINFORCE算法

3.3帶基準線的REINFORCE算法(REINFORCE with Baseline)

補充:策略梯度法改進思路

信任域類算法請看:信賴域策略優化(Trust Region Policy Optimization, TRPO),近端策略優化算法(Proximal Policy Optimization Algorithms, PPO),重要性采樣(Importance Sampling)——TRPO與PPO的補充

4.演員-評論員算法(Actor-Critic Algorithm)

A2C的基本結構:

A3C(on-policy)異步訓練框架圖:

Soft Actor-Critic:

5. 深度強化學習算法分類與應用

5.1 算法分類

5.2 應用與意義

6. 基于模型的方法與定義獎勵函數方法概述

根據智能體是否通過與環境交互獲得的,數據來預定義環境動態模型,將強化學習分為模型化強化學習(基于模型的強化學習)和無模型強化學習(與模型無關的強化學習),上述討論的均為無模型強化學習。

無模型的深度強化學習算法需要大量的采樣數據進行訓練,而這些數據往往很難通過交互得到,因此可以考慮使用已有的現實環境中的數據建立環境模型,然后利用環境模型對智能體進行訓練。

基于模型的強化學習:

定義獎勵函數方法概述:

7. 參考文獻

[1]強化學習相關資料(書籍,課程,網址,筆記等)- 凱魯嘎吉 博客園

[2]邱錫鵬,神經網絡與深度學習,機械工業出版社,https://nndl.github.io/, 2020.

[3]強化學習——值迭代和策略迭代 - 虔誠的樹 - 博客園 https://www.cnblogs.com/xxxxxxxxx/p/11536460.html

[4]楊思明 , 單征 , 丁煜 , 李剛偉. 深度強化學習研究現狀及展望[J]. 計算機工程, 2021,doi: 10.19678/j.issn.1000-3428.0061116.

[5] 劉朝陽, 穆朝絮, 孫長銀. 深度強化學習算法與應用研究現狀綜述[J]. 智能科學與技術學報, 2020, 2(4): 314-326.

[6] 秦智慧, 李寧, 劉曉彤, 劉秀磊, 佟強, 劉旭紅.無模型強化學習研究綜述[J]. 計算機科學, 2021, 48(3): 180-187.

作者:凱魯嘎吉
出處:http://www.cnblogs.com/kailugaji/
本文版權歸作者和博客園共有,歡迎轉載,但未經作者同意必須在文章頁面給出原文鏈接,否則保留追究法律責任的權利。

總結

以上是生活随笔為你收集整理的强化学习(Reinforcement Learning)的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。