當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

增强学习（二）----- 马尔可夫决策过程MDP

發布時間：2025/4/5 编程问答 23 豆豆

生活随笔收集整理的這篇文章主要介紹了增强学习（二）----- 马尔可夫决策过程MDP 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

1. 馬爾可夫模型的幾類子模型

大家應該還記得馬爾科夫鏈(Markov Chain)，了解機器學習的也都知道隱馬爾可夫模型(Hidden Markov Model，HMM)。它們具有的一個共同性質就是馬爾可夫性(無后效性)，也就是指系統的下個狀態只與當前狀態信息有關，而與更早之前的狀態無關。

馬爾可夫決策過程(Markov Decision Process, MDP)也具有馬爾可夫性，與上面不同的是MDP考慮了動作，即系統下個狀態不僅和當前的狀態有關，也和當前采取的動作有關。還是舉下棋的例子，當我們在某個局面（狀態s）走了一步(動作a)，這時對手的選擇（導致下個狀態s’）我們是不能確定的，但是他的選擇只和s和a有關，而不用考慮更早之前的狀態和動作，即s’是根據s和a隨機生成的。

我們用一個二維表格表示一下，各種馬爾可夫子模型的關系就很清楚了：

	不考慮動作	考慮動作
狀態完全可見	馬爾科夫鏈(MC)	馬爾可夫決策過程(MDP)
狀態不完全可見	隱馬爾可夫模型(HMM)	不完全可觀察馬爾可夫決策過程(POMDP)

2. 馬爾可夫決策過程

一個馬爾可夫決策過程由一個四元組構成M = (S, A, Psa, ?) [注1]

S: 表示狀態集(states)，有s∈S，si表示第i步的狀態。
A:表示一組動作(actions)，有a∈A，ai表示第i步的動作。
?sa: 表示狀態轉移概率。?s?

《新程序員》：云原生和全面數字化實踐50位技術專家共同創作，文字、視頻、音頻交互閱讀

總結

以上是生活随笔為你收集整理的增强学习（二）----- 马尔可夫决策过程MDP的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：增强学习（三）----- MDP的动态规
下一篇：增强学习（一） ----- 基本概念