日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

强化学习总结(1-2)——model-base(policy evaluation;policy control)

發布時間:2025/1/21 编程问答 28 豆豆
生活随笔 收集整理的這篇文章主要介紹了 强化学习总结(1-2)——model-base(policy evaluation;policy control) 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

文章目錄

  • 強化學習總結(1-4)
    • 馬爾科夫決策過程
      • policy evaluation
      • policy control
        • policy iteration
        • value iteration
        • 兩種方法的區別
    • 最后總結

強化學習總結(1-4)

馬爾科夫決策過程

? 馬爾科夫決策過程是一個model-base過程,它分為策略估值policy evaluation與策略控制policy control。就是已知一個策略估計狀態函數的值,和求解一個最優策略。

policy evaluation

? 策略估值evaluation的情況下,主要采用動態規劃bootsrapping的方法,已知策略π\piπ,對貝爾曼期望方程進行迭代,直到收斂:
vkπ(s)=∑a∈Aπ(a∣s)(R(s,a)+γ∑s′∈SP(s′∣s,a)vk+1π(s′))\mathrm{v}_{k}^{\pi}(\mathrm{s})=\sum_{\mathrm{a} \in \mathrm{A}} \pi(\mathrm{a} \mid \mathrm{s})\left(\mathrm{R}(\mathrm{s}, \mathrm{a})+\gamma \sum_{\mathrm{s}^{\prime} \in \mathrm{S}} \mathrm{P}\left(\mathrm{s}^{\prime} \mid \mathrm{s}, \mathrm{a}\right) \mathrm{v}_{k+1}^{\pi}\left(\mathrm{s}^{\prime}\right)\right) vkπ?(s)=aA?π(as)(R(s,a)+γsS?P(ss,a)vk+1π?(s))

policy control

policy iteration

? 隨機一個π\piπ,先進行bootstrapping對其狀態函數進行估值,根據估計的vπ(s)\mathrm{v}^{\pi}(\mathrm{s})vπ(s),再使用Q函數的貝爾曼等式

q(s,a)=R(s,a)+γ∑s′∈SP(s′∣s,a)v(s′)\mathrm{q}(\mathrm{s}, \mathrm{a})=\mathrm{R}(\mathrm{s}, \mathrm{a})+\gamma \sum_{\mathrm{s}^{\prime} \in \mathrm{S}} \mathrm{P}\left(\mathrm{s}^{\prime} \mid \mathrm{s}, \mathrm{a}\right) \mathrm{v}\left(\mathrm{s}^{\prime}\right)q(s,a)=R(s,a)+γsS?P(ss,a)v(s),計算Q-table,從中更新策略
π(a∣s)={1,if?a=arg?max?a∈Aq(s,a)0,otherwise?\pi(a \mid s)=\left\{\begin{array}{ll} 1, & \text { if } a=\arg \max _{a \in A} q(s, a) \\ 0, & \text { otherwise } \end{array}\right. π(as)={1,0,??if?a=argmaxaA?q(s,a)?otherwise??
再用新策略估計狀態函數,一直循環,直到V和π\piπ都收斂了,就求得了最優的策略。

總結:由于策略更新每次都是選擇能夠產生最大價值的動作,所以如果該過程具有最優的策略,那么在迭代一定次數后,最后一定會收斂到那個最優策略。

value iteration

? 如果策略達到了最優,那么當前狀態的價值函數值就等于當前狀態最大價值動作對函數值vπ(s)=max?a∈Aqπ(s,a)=max?a∈A(R(s,a)+γ∑s′∈SP(s′∣s,a)v(s′))\mathrm{v}^{\pi}(\mathrm{s})=\max _{\mathrm{a} \in \mathcal{A}} \mathrm{q}^{\pi}(\mathrm{s}, \mathrm{a})=\max _{\mathrm{a} \in \mathcal{A}}(\mathrm{R}(\mathrm{s}, \mathrm{a})+\gamma \sum_{\mathrm{s}^{\prime} \in \mathrm{S}} \mathrm{P}\left(\mathrm{s}^{\prime} \mid \mathrm{s}, \mathrm{a}\right) \mathrm{v}\left(\mathrm{s}^{\prime}\right))vπ(s)=maxaA?qπ(s,a)=maxaA?(R(s,a)+γsS?P(ss,a)v(s)),如果我們將此等式用bootsrapping進行迭代,就能得到最優的價值函數,最后再用下式,policy iteration中的策略更新方法更新一次π\piπ即可。
π(a∣s)={1,if?a=arg?max?a∈Aq(s,a)0,otherwise?4\pi(a \mid s)=\left\{\begin{array}{ll}1, & \text { if } a=\arg \max _{a \in A} q(s, a) \\0, & \text { otherwise }4\end{array}\right. π(as)={1,0,??if?a=argmaxaA?q(s,a)?otherwise?4?

兩種方法的區別

? policy iteration :相當于在不停的探索,策略實時在更新。

? value iteration:相當于一勞永逸,將價值函數迭代到最優的狀態,策略一次更新到位

最后總結

首先呢(12/4—12/16 model-base ),學習了馬爾科夫決策過程,這個過程是強化學習中的很多模型的基礎。這里首先解決了兩個問題:

  • 怎么去算狀態的價值,就是我在這個狀態下能得到的結果有多好。
  • 怎么去尋找我的最優策略,policy 和value iteration都是利用動態規劃的思想,不斷的對價值函數進行迭代更新,這里就體現了model-base的意義,它能夠計算價值函數,所以最優策略就可以從這個最優價值著手去找。
  • 總結

    以上是生活随笔為你收集整理的强化学习总结(1-2)——model-base(policy evaluation;policy control)的全部內容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。

    主站蜘蛛池模板: 日本jizzjizz| 久久久久久久久久免费 | 午夜福利理论片在线观看 | 又色又爽又黄无遮挡的免费视频 | 亚洲一级中文字幕 | 亚洲国产成人精品女人久久久 | 九九精品视频在线 | 国产高清视频 | 久久久久亚洲精品中文字幕 | 日本69熟| 国产精品国产三级国产专播精品人 | 呦呦精品 | 原创少妇半推半就88av | 成年人网站黄 | 亚洲激情网 | 久久精品综合网 | 99精品视频播放 | 美女污污网站 | 超碰97在线人人 | 久久精品视频免费 | 久久影院午夜 | 黄色免费在线观看网站 | 97视频在线看 | 亚洲国产精品视频一区 | 国产欧美一区二区精品性色超碰 | 亚洲成熟丰满熟妇高潮xxxxx | 美国一级特黄 | 色婷婷aⅴ一区二区三区 | 国产免费999 | 色妻影院 | 蜜桃视频一区二区三区在线观看 | 中文无码精品一区二区三区 | 亚洲天堂视频在线 | 日韩少妇裸体做爰视频 | 日本少妇与黑人 | 情涩快播 | 秋霞中文字幕 | 欧美精品第1页 | 99资源| 综合视频 | 三上悠亚在线一区 | 中文字幕1区2区3区 www.com黄色片 | 四虎影视在线 | 国产又白又嫩又爽又黄 | 国产欧美精品一区二区色综合 | 成人一区三区 | 欧美日韩国产一区二区三区 | 国产新婚疯狂做爰视频 | 久久久久亚洲 | 91免费看片网站 | 福利视频大全 | 欧美片 | 亚洲成人免费在线观看 | 成人区人妻精品一区二 | 亚洲综合激情网 | 久久久久久久综合 | 性淫影院 | 一级爱爱免费视频 | 国产一区二区三区免费观看 | 黄色日韩网站 | 亚洲国产精品久久 | 99久久亚洲精品日本无码 | 亚洲精品短视频 | 人妖一区 | 欧美激情一级精品国产 | 日韩激情电影在线 | 亚洲第一看片 | 国产精品亚洲欧美在线播放 | 久草免费在线色站 | 欧美午夜理伦三级在线观看 | 国产精品久久久久久白浆 | 国毛片| 国产综合亚洲精品一区二 | 一区二区三区少妇 | 日韩人妻无码精品久久久不卡 | 丰满少妇一区二区三区 | 国产精成人品 | 国产欧美在线一区 | 性感美女被爆操 | 兔费看少妇性l交大片免费 日韩高清不卡 | 操操操操操操 | 欧美成人免费大片 | 黄色99视频 | 青青啪啪| 假日游船 | 黄色www网站 | 欧美人妻一区二区三区 | 成人激情视频网站 | 天堂中文字幕免费一区 | 无码国产精品一区二区色情男同 | 射综合网| 一女三黑人理论片在线 | 我们2018在线观看免费版高清 | 亚洲精品乱码久久久久久久 | 夜色视频在线观看 | 国产成人在线播放 | 中文字幕视频一区二区 | 亚洲作爱 | 中文文字幕文字幕高清 |