當(dāng)前位置：首頁 >

RL关键概念

發(fā)布時(shí)間：2024/1/18 48 豆豆

生活随笔收集整理的這篇文章主要介紹了 RL关键概念小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

本文內(nèi)容摘錄自O(shè)penAI的深度強(qiáng)化學(xué)習(xí)資源Spinning Up，進(jìn)入網(wǎng)址。

智能體與環(huán)境

強(qiáng)化學(xué)習(xí)（RL）主要包括智能體（agent）和環(huán)境（environment）兩部分。在智能體與環(huán)境交互的每一步，智能體獲取（或部分獲取）環(huán)境狀態(tài)的一個(gè)觀測（observation），并采取一個(gè)動(dòng)作（action）。環(huán)境會(huì)在智能體作用于它的時(shí)候發(fā)生變化（或者自己變化）。

智能體會(huì)從環(huán)境中獲得獎(jiǎng)勵(lì)（reward），獎(jiǎng)勵(lì)代表了當(dāng)前環(huán)境狀態(tài)的好壞。智能體的目標(biāo)是最大化累計(jì)獎(jiǎng)勵(lì)，即回報(bào)（return）。強(qiáng)化學(xué)習(xí)算法就是訓(xùn)練智能體實(shí)現(xiàn)這個(gè)目標(biāo)的方法。

狀態(tài)和觀測

狀態(tài)（state）是環(huán)境狀態(tài)的一個(gè)完整描述，而觀測（observation）是狀態(tài)的一個(gè)部分描述（可能忽略了某些信息）。
比如，在視頻游戲任務(wù)中，狀態(tài)可以是圖像的像素值矩陣；在機(jī)器人控制中，狀態(tài)可以是機(jī)械臂的角度、速度等。

環(huán)境可以分為fully observed和partially observed

fully observed：智能體可以獲取環(huán)境的完整信息
partially observed：智能體只能獲取環(huán)境的部分信息

動(dòng)作空間

動(dòng)作空間（action space）是智能體可以執(zhí)行的動(dòng)作的集合，通常分為：

離散動(dòng)作空間
連續(xù)動(dòng)作空間

策略

策略（policy）是一個(gè)規(guī)則，智能體依據(jù)策略來決定采取什么動(dòng)作。由于策略是智能體的核心，所以常把“策略”與“智能體“混用。

策略可以是確定性的：
$a_t = \mu(s_t)$

$\mu$ 是一個(gè)確定的函數(shù)。也可以是隨機(jī)的：
$a_t \sim \pi(\cdot | s_t)$

$\pi$ 是一個(gè)概率分布。

在深度RL中，我們討論是參數(shù)化的策略，即策略是根據(jù)一系列參數(shù)（比如神經(jīng)網(wǎng)絡(luò)的權(quán)重與偏置）計(jì)算出來的，因此策略可以寫作：
$a_t = \mu_{\theta}(s_t)$

$a_t \sim \pi_{\theta}(\cdot | s_t)$

1. 確定性策略

例子：假設(shè)狀態(tài)空間是連續(xù)的，我們將observation作為神經(jīng)網(wǎng)絡(luò)的輸入，將神經(jīng)網(wǎng)絡(luò)的輸出作為確定性的動(dòng)作。

2. 隨機(jī)策略

深度RL中最常見的兩種隨機(jī)策略：分類策略和對角高斯策略。前者用于離散動(dòng)作空間，后者用于連續(xù)動(dòng)作空間。

訓(xùn)練與使用隨機(jī)策略的過程中的涉及到兩個(gè)關(guān)鍵計(jì)算：

從策略中抽樣動(dòng)作
計(jì)算動(dòng)作的對數(shù)似然度 $\log \pi_{\theta}(a|s)$
（概率 $\pi_{\theta}(a|s)$ 是大于0的，而 $\log \pi_{\theta}(a|s)$ 的取值范圍是 $(-\infty, +\infty)$ ，采用對數(shù)可以方便神經(jīng)網(wǎng)絡(luò)的訓(xùn)練，使我們不用關(guān)注“概率>0”這個(gè)約束）

（1）分類策略

分類策略用于離散動(dòng)作空間。訓(xùn)練一個(gè)分類策略就類似于訓(xùn)練一個(gè)分類器：將observation輸入到神經(jīng)網(wǎng)絡(luò)，最后一層給出每個(gè)可選動(dòng)作的logit，經(jīng)過softmax得到每個(gè)采取動(dòng)作的概率。

（2）對角高斯策略

對角高斯策略用于連續(xù)狀態(tài)空間。先解釋下對角高斯分布：
多變量高斯分布由均值向量和協(xié)方差矩陣表示。對角高斯分布的協(xié)方差矩陣只在對角線取值不為0，從而可以用一個(gè)向量表示。這里的變量個(gè)數(shù)是動(dòng)作的維度，對角意味著動(dòng)作之間相互獨(dú)立。

在對角高斯策略中，使用一個(gè)神經(jīng)網(wǎng)絡(luò)輸出動(dòng)作的均值向量 $\mu_{\theta}(s)$ ，對于協(xié)方差矩陣（方差向量）有兩種生成方法：

方法一：使用一個(gè)與狀態(tài)無關(guān)的標(biāo)準(zhǔn)差向量 $\log \sigma$
方法二：使用一個(gè)神經(jīng)網(wǎng)絡(luò)將狀態(tài)映射到標(biāo)準(zhǔn)差向量 $\log \sigma_{\theta}(s)$

注：這里使用log也是和上面一個(gè)道理。

有了均值和標(biāo)準(zhǔn)差，可以使用下式來生成動(dòng)作：
$\mu_{\theta}(s) + \sigma_{\theta}(s) \odot z$

其中， $\odot$ 表示元素對應(yīng)相乘，z是噪聲向量（ $\sim \mathcal{N}(0, I)$ ）。

軌跡

軌跡（trajectory ）是狀態(tài)與動(dòng)作的一個(gè)序列，也叫episode或rollout：
$\tau = (s_0, a_0, s_1, a_1, ...)$

初始狀態(tài)服從某個(gè)分布： $s_0 \sim \rho_0(\cdot)$

狀態(tài)之間的轉(zhuǎn)移只與最近的動(dòng)作有關(guān)（馬爾科夫性）。可以是確定性的：

$s_{t+1} = f(s_t, a_t)$

也可以是隨機(jī)的：

$s_{t+1} \sim P(\cdot|s_t, a_t)$

獎(jiǎng)勵(lì)與回報(bào)

獎(jiǎng)勵(lì)（reward）可以寫作 $r_t = R(s_t, a_t, s_{t+1})$ ，也可以簡化為： $r_t = R(s_t)$ 或 $r_t = R(s_t,a_t)$ 。

智能體的目標(biāo)是最大化一個(gè)軌跡中的累積獎(jiǎng)勵(lì)，即回報(bào)（return）。回報(bào)通常有兩種形式：

有限無折扣回報(bào)：
$R(\tau) = \sum_{t=0}^T r_t$
無限折扣回報(bào)：
$R(\tau) = \sum_{t=0}^{\infty} \gamma^t r_t$

$\gamma \in (0,1)$ 是折扣因子。折扣化有兩方面原因：（1）直觀上，未來充滿不確定性，因此對未來獎(jiǎng)勵(lì)的重視程度較低；（2）數(shù)學(xué)上，引入折扣因子能夠保證收斂（在一定條件下）。

RL問題

RL的目標(biāo)就是選擇一個(gè)能夠最大化期望回報(bào)的策略。

假設(shè)環(huán)境的轉(zhuǎn)移和策略都是隨機(jī)的，則一個(gè)T步長的軌跡的概率為： $P(\tau|\pi) = \rho_0 (s_0) \prod_{t=0}^{T-1} P(s_{t+1} | s_t, a_t) \pi(a_t | s_t)$

期望回報(bào)為：
$J(\pi) = \int_{\tau} P(\tau|\pi) R(\tau) = E_{\tau\sim \pi}[{R(\tau)}]$

則RL優(yōu)化問題可以寫作：
$\pi^* = \arg \max_{\pi} J(\pi)$

$\pi^*$ 是最優(yōu)策略。

價(jià)值函數(shù)

價(jià)值是指從一個(gè)狀態(tài)或者一個(gè)狀態(tài)-動(dòng)作對出發(fā)，遵循某個(gè)策略所得到的期望回報(bào)。它有四種形式：

On-Policy Value Function，從狀態(tài) $s$ 出發(fā)，遵循策略 $\pi$ 所得到的期望回報(bào)：
$V^{\pi}(s) = E_{\tau \sim \pi}[{R(\tau)\left| s_0 = s\right.]}$
On-Policy Action-Value Function, 從狀態(tài) $s$ 出發(fā)，采取任意動(dòng)作 $a$ ，此后遵循策略 $\pi$ 所得到的期望回報(bào)，常稱為Q函數(shù)：
$Q^{\pi}(s,a) = E_{\tau \sim \pi}[{R(\tau)\left| s_0 = s, a_0 = a\right.]}$
Optimal Value Function，從狀態(tài) $s$ 出發(fā)，遵循最優(yōu)策略所得到的期望回報(bào)：
$V^*(s) = \max_{\pi} E_{\tau \sim \pi}[{R(\tau)\left| s_0 = s\right.}]$
Optimal Action-Value Function，從狀態(tài) $s$ 出發(fā)，采取任意動(dòng)作 $a$ ，此后遵循最優(yōu)策略所得到的期望回報(bào)：

$Q^*(s,a) = \max_{\pi}E_{\tau \sim \pi}[{R(\tau)\left| s_0 = s, a_0 = a\right.}]$

兩個(gè)重要關(guān)系：
$V^{\pi}(s) = E_{a\sim \pi}[{Q^{\pi}(s,a)}]$

$V^*(s) = \max_a Q^* (s,a)$

都可以由定義推導(dǎo)出來。

最優(yōu)Q函數(shù)與最優(yōu)動(dòng)作

我們在狀態(tài) $s$ 下，要采取的最優(yōu)動(dòng)作滿足：
$a^*(s) = \arg \max_a Q^* (s,a)$

貝爾曼方程

上述四個(gè)價(jià)值函數(shù)都遵循特定的自洽方程，稱為貝爾曼方程。

貝爾曼方程的基本思想是：起始點(diǎn)處的 value 等于你在那個(gè)點(diǎn)可以獲得的 reward 加上接下來可能處于的位置的value。

$V^{\pi}(s) = E_{a \sim \pi, s'\sim P}[{r(s,a) + \gamma V^{\pi}(s')}]$

$Q^{\pi}(s,a) = E_{s'\sim P}[{r(s,a) + \gamma E_{a'\sim \pi}[{Q^{\pi}(s',a')}}]$

$V^*(s) = \max_a E_{s'\sim P}[{r(s,a) + \gamma V^*(s')}]$

$Q^*(s,a) = E_{s'\sim P}[{r(s,a) + \gamma \max_{a'} Q^*(s',a')}]$

優(yōu)勢函數(shù)

有時(shí)候我們不需要知道一個(gè)動(dòng)作的絕對好壞，只需要知道它比其他動(dòng)作平均好多少。這個(gè)概念用優(yōu)勢（advantage）函數(shù)表示：
$A^{\pi}(s,a) = Q^{\pi}(s,a) - V^{\pi}(s)$

形式化描述

環(huán)境的形式化描述是馬爾科夫決策過程（MDP），用五元組 $\langle S, A, R, P, \rho_0 \rangle$ 表示，其中，

$S$ 是狀態(tài)集合
$A$ 是動(dòng)作集合
$\times A \times S \to \mathbb{R}$ 是獎(jiǎng)勵(lì)函數(shù)
$\times A \to \mathcal{P}(S)$ 是轉(zhuǎn)移概率函數(shù)
$\rho_0$ 是初始狀態(tài)分布

總結(jié)

以上是生活随笔為你收集整理的RL关键概念的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：《世界棒球》:19 世纪棒球规则的演变
下一篇：蒜蓉茄子