强化学习(二)马尔科夫决策过程(MDP)
生活随笔
收集整理的這篇文章主要介紹了
强化学习(二)马尔科夫决策过程(MDP)
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
在強化學習(一)模型基礎中,我們講到了強化學習模型的8個基本要素。但是僅憑這些要素還是無法使用強化學習來幫助我們解決問題的, 在講到模型訓練前,模型的簡化也很重要,這一篇主要就是講如何利用馬爾科夫決策過程(Markov Decision Process,以下簡稱MDP)來簡化強化學習的建模。
MDP這一篇對應Sutton書的第三章和UCL強化學習課程的第二講。
1. 強化學習引入MDP的原因
強化學習的8個要素我們在第一節已經講了。其中的第七個是環境的狀態轉化模型,它可以表示為一個概率模型,即在狀態ss下采取動作aa,轉到下一個狀態s′s′的概率,表示為Pass′Pss′a。
如果按照真實的環境轉化過程看,轉化到下一個狀態s′s′的概率既與上一個狀態ss有關,還與上上個狀態,以及上上上個狀態有關。這一會導致我們的環境轉化模型非常復雜,復雜到難以建模。因此我們需要對強化學習的環境轉化模型進行簡化。簡化的方法就是假設狀態轉化的馬爾科夫性,也就是假設轉化到下一個狀態s′s′的概率僅與上一個狀態ss有關,與之前的狀態無關。用公式表示就是:
Pass′=E(St+1=s′|St=s,At=a)Pss′a=E(St+1=s′|St=s,At=a)
對于馬爾科夫性本身,我之前講過的隱馬爾科夫模型HMM(一?
總結
以上是生活随笔為你收集整理的强化学习(二)马尔科夫决策过程(MDP)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 日志和告警数据挖掘经验谈
- 下一篇: 强化学习(三)用动态规划(DP)求解