當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

强化学习（二）马尔科夫决策过程(MDP)

發布時間：2025/4/5 编程问答 31 豆豆

生活随笔收集整理的這篇文章主要介紹了强化学习（二）马尔科夫决策过程(MDP) 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

　　在強化學習（一）模型基礎中，我們講到了強化學習模型的8個基本要素。但是僅憑這些要素還是無法使用強化學習來幫助我們解決問題的, 在講到模型訓練前，模型的簡化也很重要，這一篇主要就是講如何利用馬爾科夫決策過程(Markov Decision Process，以下簡稱MDP)來簡化強化學習的建模。

　　　　MDP這一篇對應Sutton書的第三章和UCL強化學習課程的第二講。

1. 強化學習引入MDP的原因

　　　　強化學習的8個要素我們在第一節已經講了。其中的第七個是環境的狀態轉化模型，它可以表示為一個概率模型，即在狀態ss下采取動作aa,轉到下一個狀態s′s′的概率，表示為Pass′Pss′a。

　　　　如果按照真實的環境轉化過程看，轉化到下一個狀態s′s′的概率既與上一個狀態ss有關，還與上上個狀態，以及上上上個狀態有關。這一會導致我們的環境轉化模型非常復雜，復雜到難以建模。因此我們需要對強化學習的環境轉化模型進行簡化。簡化的方法就是假設狀態轉化的馬爾科夫性，也就是假設轉化到下一個狀態s′s′的概率僅與上一個狀態ss有關，與之前的狀態無關。用公式表示就是：

Pass′=E(St+1=s′|St=s,At=a)Pss′a=E(St+1=s′|St=s,At=a)

　　　　對于馬爾科夫性本身，我之前講過的隱馬爾科夫模型HMM（一?

總結

以上是生活随笔為你收集整理的强化学习（二）马尔科夫决策过程(MDP)的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：日志和告警数据挖掘经验谈
下一篇：强化学习（三）用动态规划（DP）求解