日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

强化学习note1——马尔科夫奖励过程MRP和马尔科夫决策过程MDP各个函数的定义与区别

發布時間:2025/1/21 编程问答 31 豆豆
生活随笔 收集整理的這篇文章主要介紹了 强化学习note1——马尔科夫奖励过程MRP和马尔科夫决策过程MDP各个函数的定义与区别 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

馬爾科夫獎勵過程MRP

狀態轉移函數P(St+1=s′∣st=s)P\left(S_{t+1}=s^{\prime} \mid s_{t}=s\right)P(St+1?=sst?=s)

獎勵函數R(st=s)=E[rt∣st=s]R\left(s_{t}=s\right)=\mathbb{E}\left[r_{t} \mid s_{t}=s\right]R(st?=s)=E[rt?st?=s]

回報Gt=Rt+1+γRt+2+γ2Rt+3+γ3Rt+4+…+γT?t?1RT\mathrm{G}_{\mathrm{t}}=\mathrm{R}_{\mathrm{t}+1}+\gamma \mathrm{R}_{\mathrm{t}+2}+\gamma^{2} \mathrm{R}_{\mathrm{t}+3}+\gamma^{3} \mathrm{R}_{\mathrm{t}+4}+\ldots+\gamma^{\mathrm{T}-\mathrm{t}-1} \mathrm{R}_{\mathrm{T}}Gt?=Rt+1?+γRt+2?+γ2Rt+3?+γ3Rt+4?++γT?t?1RT?

回報只是狀態轉移中的一條路徑的價值

狀態價值函數:回報的期望Vt(s)=E[Gt∣st=s]=E[Rt+1+γRt+2+γ2Rt+3+…+γT?t?1RT∣st=s]\begin{aligned} \mathrm{V}_{\mathrm{t}}(\mathrm{s}) &=\mathbb{E}\left[\mathrm{G}_{\mathrm{t}} \mid \mathrm{s}_{\mathrm{t}}=\mathrm{s}\right] \\ &=\mathbb{E}\left[\mathrm{R}_{\mathrm{t}+1}+\gamma \mathrm{R}_{\mathrm{t}+2}+\gamma^{2} \mathrm{R}_{\mathrm{t}+3}+\ldots+\gamma^{\mathrm{T}-\mathrm{t}-1} \mathrm{R}_{\mathrm{T}} \mid \mathrm{s}_{\mathrm{t}}=\mathrm{s}\right] \end{aligned}Vt?(s)?=E[Gt?st?=s]=E[Rt+1?+γRt+2?+γ2Rt+3?++γT?t?1RT?st?=s]?

狀態價值函數相較于獎勵函數,考慮了折扣后的未來的獎勵,是一個更加靠譜的狀態價值的估計;獎勵函數只是考慮了當下。
狀態價值函數是回報的一個期望
Rt+1表示t時刻的獎勵R_{t+1}表示t時刻的獎勵Rt+1?t

馬爾科夫決策過程MDP

狀態轉移概率P(St+1=s′∣st=s,at=a)P\left(S_{t+1}=s^{\prime} \mid s_{t}=s,a_{t}=a\right)P(St+1?=sst?=sat?=a)

獎勵函數R(st=s,at=a)=E[rt∣st=s,at=a]R\left(s_{t}=s,a_{t}=a\right)=\mathbb{E}\left[r_{t} \mid s_{t}=s,a_{t}=a\right]R(st?=sat?=a)=E[rt?st?=sat?=a]

回報Gt=Rt+1+γRt+2+γ2Rt+3+γ3Rt+4+…+γT?t?1RT\mathrm{G}_{\mathrm{t}}=\mathrm{R}_{\mathrm{t}+1}+\gamma \mathrm{R}_{\mathrm{t}+2}+\gamma^{2} \mathrm{R}_{\mathrm{t}+3}+\gamma^{3} \mathrm{R}_{\mathrm{t}+4}+\ldots+\gamma^{\mathrm{T}-\mathrm{t}-1} \mathrm{R}_{\mathrm{T}}Gt?=Rt+1?+γRt+2?+γ2Rt+3?+γ3Rt+4?++γT?t?1RT?

狀態價值函數vπ(s)=Eπ[Gt∣st=s]\mathrm{v}^{\pi}(s)=\mathbb{E}_{\pi}\left[G_{t} \mid s_{t}=s\right]vπ(s)=Eπ?[Gt?st?=s]

動作價值函數,Q函數:qπ(s,a)=Eπ[Gt∣st=s,At=a]q^{\pi}(s, a)=\mathbb{E}_{\pi}\left[G_{t} \mid s_{t}=s, A_{t}=a\right]qπ(s,a)=Eπ?[Gt?st?=s,At?=a]

總結

以上是生活随笔為你收集整理的强化学习note1——马尔科夫奖励过程MRP和马尔科夫决策过程MDP各个函数的定义与区别的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。

主站蜘蛛池模板: 久草福利资源在线观看 | 18视频网站在线观看 | 成人黄色小视频 | 好吊妞这里只有精品 | 午夜xxx | 欧美国产日本 | 黄色av网页 | 免费日韩一级片 | 亚洲v视频 | 精品国产一区二区三区四 | 97色伦图片 | 丰满大乳国产精品 | 久久久久国产精品一区二区 | 毛片小视频 | 极品久久 | 波多野结衣简介 | 男女猛烈无遮挡 | 人人草在线 | 日本欧美一区二区三区不卡视频 | 亚洲永久无码精品一区二区 | 一本加勒比hezyo黑人 | 特黄aaaaaaaaa真人毛片 | 国产一二区在线观看 | 猛男被粗大男男1069 | 亚洲精品乱码久久久久久日本蜜臀 | 黄色三级视频 | 极品白嫩丰满少妇无套 | 北岛玲一区二区 | 东北少妇露脸无套对白 | 青青草华人在线视频 | www亚洲一区 | 国产精品v欧美精品v日韩精品 | 杨贵妃颤抖双乳呻吟求欢小说 | mm131在线| 在线免费看污视频 | 日韩播放 | 色网视频| 韩国日本在线观看 | 午夜黄网 | av网在线| 午夜一区在线观看 | 久久精品视频国产 | 四虎影视8848hh | 不卡视频在线观看 | 一级黄色短视频 | av影院在线播放 | 日本大尺度电影免费观看全集中文版 | 久久成年 | 国产白丝袜美女久久久久 | 香蕉视频网站入口 | 久操精品在线 | 一级在线毛片 | 97成人人妻一区二区三区 | 国产乱码在线观看 | 中文字幕日韩无 | 久久久久久久久网站 | 色哟哟一区二区三区四区 | 一级性毛片 | 日本在线一 | 动漫一区二区 | 丝袜毛片 | 亚洲一级黄色大片 | 免费黄色一级 | 欧美一级爱爱视频 | 亚洲操片 | 四虎免费看黄 | 91网站在线播放 | 午夜黄色网址 | wwwwww日本 | 日韩精品中字 | 国产精品毛片久久久久久久 | 色呦呦日韩精品 | 黄色片一区二区三区 | 国精产品一区一区三区mba下载 | 青青草原亚洲视频 | 欧美福利一区二区 | 日本极品丰满ⅹxxxhd | 久久99网 | 国产特黄大片aaaa毛片 | javxxx| 黄色天堂网站 | 精品人妻一区二区色欲产成人 | 老牛影视av一区二区在线观看 | 香蕉视频在线视频 | 在线免费观看a级片 | 在线精品视频一区 | 男操女视频免费 | 国产自产| 人人妻人人澡人人爽人人dvd | 色www亚洲国产张柏芝 | 欧美日韩精品在线视频 | 日韩一级片在线 | 成人学院中文字幕 | 亚洲精品视频免费 | 欧美精品一区二区蜜臀亚洲 | 国产人妖视频 | 丰满的女人性猛交 | 色婷婷激情av | 美女黄色小视频 |