當前位置：首頁 >

David Silver强化学习公开课】-2：MDP

發布時間：2025/3/15 53 豆豆

生活随笔收集整理的這篇文章主要介紹了 David Silver强化学习公开课】-2：MDP 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

一、一些概念

馬爾科夫性質：當前時刻狀態僅僅與前一個時刻相關。

狀態轉移矩陣，表明了任意狀態a到狀態b的條件概率。

馬爾科夫過程（馬爾科夫鏈）：一個具有馬爾科夫性質的無記憶的隨機過程，包含n個狀態。

馬爾科夫激勵過程(S,P,R,γ)是一個帶有value的馬爾科夫鏈。

用Gt來表示t時刻會得到的總的return。出于數學計算、防止NaN無窮大的return等原因，引入折扣因子γ∈[0,1]來對下一時刻的獎勵和更遠的獎勵之間進行取舍。（若所有序列都會在有限步終結，而且策略上合適，γ也可以取1。）

Gt=Rt+1+γRt+2+...=∑k=0∞γkRt+k+1Gt=Rt+1+γRt+2+...=∑k=0∞γkRt+k+1

價值函數v(s)，在馬爾科夫激勵過程（MRP）中表征指定狀態下，獲得的return的期望。是由所有包含該狀態的樣本Sample序列計算出來的。其中Rs是立即獎勵，可以認為是離開狀態s時獲得的獎勵。

v(s)=E[Gt|St=s]=E[Rt+1+γ(v(st+1)|St=s)]=Rs+γ∑s′∈SPss′v(s′)v(s)=E[Gt|St=s]=E[Rt+1+γ(v(st+1)|St=s)]=Rs+γ∑s′∈SPss′v(s′)

上面的公式可以向量化的表示為：

V=R+γPVV=R+γPV

而這個公式是有解析解的，MRP每個狀態的價值可以直接被解出來。

二、MDP

馬爾科夫決策過程(S,A,P,R,γ)，在MRP基礎上增加了有限的action集合。

策略，給定狀態時，關于行為的概率分布，用π來表示。決定了agent的行為。

MDP和馬爾科夫過程、MRP內在的聯系。

狀態價值函數vπ(s)定義了在狀態s下，采用策略π，所能獲得的期望return。

行為價值函數qπ(s,a)定義了在狀態s下，采取行為a，并在之后采用策略π所能獲得的期望return。

這兩個價值函數之間密切相關。狀態的價值，就等于這個狀態下所有行為a產生的行為價值q，乘以做出該行為的概率（策略）π。反之，行為的價值，就等于這個行為所能產生的立即獎勵immediate reward加上折扣因子乘以下一個狀態（到達這個狀態的概率由動態轉移矩陣來確定）乘以這個狀態的狀態價值。

在MDP中，你能夠控制你的行為（通過策略），但是你無法控制環境（做出行為之后會發生什么），這個要靠動態轉移矩陣來計算。

最佳價值函數v?(s)和q?(s,a)。最佳策略π?，就是在每個狀態下選擇最大的行為價值函數q*。

如何計算這個Q呢，Bellman Optimality Equation。也就是對每個狀態，其價值等于價值最大的行為的價值，而這個行為的價值又由直接獎勵和行為*可能會導致的狀態價值有關。

v?(s)=maxaq?(s,a)v?(s)=maxaq?(s,a) q?(s,a)=Ras+γ∑s′∈SPass′v?(s′)q?(s,a)=Rsa+γ∑s′∈SPss′av?(s′)

而這個公式就無法直接解析求解了，求解的方法有：

Value iteration
Policy iteration
Q-learning
Sarsa

最后，對MDP的擴展模型和其他一些概念進行了簡介，如infinite/continuous/POMDP/belief states。

參考

https://zhuanlan.zhihu.com/p/21378532

原文地址：http://cairohy.github.io/2017/08/29/deeplearning/%E3%80%8ADavid%20Silver%E5%BC%BA%E5%8C%96%E5%AD%A6%E4%B9%A0%E5%85%AC%E5%BC%80%E8%AF%BE%E3%80%8B-2%EF%BC%9AMDP/

總結

以上是生活随笔為你收集整理的David Silver强化学习公开课】-2：MDP的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： Tutorial on Variatio
下一篇：【David Silver强化学习公开课

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

David Silver强化学习公开课】-2：MDP

一、一些概念

二、MDP

參考

總結