當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

强化学习1——策略，价值函数，模型

發布時間：2024/10/14 编程问答 374 豆豆

生活随笔收集整理的這篇文章主要介紹了强化学习1——策略，价值函数，模型小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

文章目錄

強化學習——概述
- 組成
- - 策略：行為函數
  - 價值函數：狀態和行為的得分
  - 模型：整個世界的表達

強化學習——概述

組成

策略：行為函數

? 分為兩種：

? 概率型策略：從策略 $π\pi$ 中，按照概率 $π(a∣s)=P(at=a∣st=s)\pi(\mathrm{a} \mid \mathrm{s})=\mathrm{P}\left(\mathrm{a}_{\mathrm{t}}=\mathrm{a} \mid \mathrm{s}_{\mathrm{t}}=\mathrm{s}\right)$ 采樣一個a。

? 確定型策略：從策略 $π\pi$ 中，選擇一個最大概率的策略 $a?=arg?max?aπ(a∣s)a^{*}=\arg \max _{a} \pi(a \mid s)$

價值函數：狀態和行為的得分

? 已知 $π\pi$ 的時候能得到多少獎勵（期望平均值）

? 分為兩種：

? 狀態價值函數：衡量一個狀態的價值（其實是一個狀態采取所有行為后的一個價值的期望值）

$vπ(s)?Eπ[Gt∣St=s]=Eπ[∑k=0∞γkRt+k+1∣St=s],for?all?s∈Sv_{\pi}(s) \doteq \mathbb{E}_{\pi}\left[G_{t} \mid S_{t}=s\right]=\mathbb{E}_{\pi}\left[\sum_{k=0}^{\infty} \gamma^{k} R_{t+k+1} \mid S_{t}=s\right], \text { for all } s \in \mathcal{S}$

? Q-函數：衡量一個狀態采取一個動作后的價值（是強化學習的一個目標，最高的Q-函數值對應的a就是最有策略采取的動作）

$qπ(s,a)?Eπ[Gt∣St=s,At=a]=Eπ[∑k=0∞γkRt+k+1∣St=s,At=a]q_{\pi}(s, a) \doteq \mathbb{E}_{\pi}\left[G_{t} \mid S_{t}=s, A_{t}=a\right]=\mathbb{E}_{\pi}\left[\sum_{k=0}^{\infty} \gamma^{k} R_{t+k+1} \mid S_{t}=s, A_{t}=a\right]$

模型：整個世界的表達

? 預測下一個環境（世界，狀態）

? 兩部分組成：

? 1 狀態s采取了一個策略a，有多少概率到達 $s′s^{\prime}$ 。

? 2 狀態s采取了一個策略a，能得到多大的獎勵
$Predict?the?next?state:?Pss′a=P[St+1=s′∣St=s,At=a]Predict?the?next?reward:?Rsa=E[Rt+1∣St=s,At=a]\begin{aligned} &\text { Predict the next state: } \mathcal{P}_{s s^{\prime}}^{a}=\mathbb{P}\left[S_{t+1}=s^{\prime} \mid S_{t}=s, A_{t}=a\right]\\ &\text { Predict the next reward: } \mathcal{R}_{s}^{a}=\mathbb{E}\left[R_{t+1} \mid S_{t}=s, A_{t}=a\right] \end{aligned}$

總結

以上是生活随笔為你收集整理的强化学习1——策略，价值函数，模型的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：线性规划——规范型，标准型，基阵、基本解
下一篇：最优化——单纯形法学习心得