日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

强化学习1——策略,价值函数,模型

發布時間:2024/10/14 编程问答 359 豆豆
生活随笔 收集整理的這篇文章主要介紹了 强化学习1——策略,价值函数,模型 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

文章目錄

  • 強化學習——概述
    • 組成
      • 策略:行為函數
      • 價值函數:狀態和行為的得分
      • 模型:整個世界的表達

強化學習——概述

組成

策略:行為函數

? 分為兩種:

? 概率型策略:從策略π\piπ中,按照概率π(a∣s)=P(at=a∣st=s)\pi(\mathrm{a} \mid \mathrm{s})=\mathrm{P}\left(\mathrm{a}_{\mathrm{t}}=\mathrm{a} \mid \mathrm{s}_{\mathrm{t}}=\mathrm{s}\right)π(as)=P(at?=ast?=s)采樣一個a。

? 確定型策略:從策略π\piπ中,選擇一個最大概率的策略a?=arg?max?aπ(a∣s)a^{*}=\arg \max _{a} \pi(a \mid s)a?=argmaxa?π(as)

價值函數:狀態和行為的得分

? 已知π\piπ的時候能得到多少獎勵(期望平均值)

? 分為兩種:

? 狀態價值函數:衡量一個狀態的價值(其實是一個狀態采取所有行為后的一個價值的期望值)

vπ(s)?Eπ[Gt∣St=s]=Eπ[∑k=0∞γkRt+k+1∣St=s],for?all?s∈Sv_{\pi}(s) \doteq \mathbb{E}_{\pi}\left[G_{t} \mid S_{t}=s\right]=\mathbb{E}_{\pi}\left[\sum_{k=0}^{\infty} \gamma^{k} R_{t+k+1} \mid S_{t}=s\right], \text { for all } s \in \mathcal{S}vπ?(s)?Eπ?[Gt?St?=s]=Eπ?[k=0?γkRt+k+1?St?=s],?for?all?sS

? Q-函數:衡量一個狀態采取一個動作后的價值(是強化學習的一個目標,最高的Q-函數值對應的a就是最有策略采取的動作)

qπ(s,a)?Eπ[Gt∣St=s,At=a]=Eπ[∑k=0∞γkRt+k+1∣St=s,At=a]q_{\pi}(s, a) \doteq \mathbb{E}_{\pi}\left[G_{t} \mid S_{t}=s, A_{t}=a\right]=\mathbb{E}_{\pi}\left[\sum_{k=0}^{\infty} \gamma^{k} R_{t+k+1} \mid S_{t}=s, A_{t}=a\right]qπ?(s,a)?Eπ?[Gt?St?=s,At?=a]=Eπ?[k=0?γkRt+k+1?St?=s,At?=a]

模型:整個世界的表達

? 預測下一個環境(世界,狀態)

? 兩部分組成:

? 1 狀態s采取了一個策略a,有多少概率到達s′s^{\prime}s。

? 2 狀態s采取了一個策略a,能得到多大的獎勵
Predict?the?next?state:?Pss′a=P[St+1=s′∣St=s,At=a]Predict?the?next?reward:?Rsa=E[Rt+1∣St=s,At=a]\begin{aligned} &\text { Predict the next state: } \mathcal{P}_{s s^{\prime}}^{a}=\mathbb{P}\left[S_{t+1}=s^{\prime} \mid S_{t}=s, A_{t}=a\right]\\ &\text { Predict the next reward: } \mathcal{R}_{s}^{a}=\mathbb{E}\left[R_{t+1} \mid S_{t}=s, A_{t}=a\right] \end{aligned} ??Predict?the?next?state:?Pssa?=P[St+1?=sSt?=s,At?=a]?Predict?the?next?reward:?Rsa?=E[Rt+1?St?=s,At?=a]?

總結

以上是生活随笔為你收集整理的强化学习1——策略,价值函数,模型的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。