日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

David Silver强化学习公开课】-2:MDP

發布時間:2025/3/15 编程问答 40 豆豆
生活随笔 收集整理的這篇文章主要介紹了 David Silver强化学习公开课】-2:MDP 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

一、一些概念

馬爾科夫性質:當前時刻狀態僅僅與前一個時刻相關。

狀態轉移矩陣,表明了任意狀態a到狀態b的條件概率。

馬爾科夫過程(馬爾科夫鏈):一個具有馬爾科夫性質的無記憶的隨機過程,包含n個狀態。

馬爾科夫激勵過程(S,P,R,γ)是一個帶有value的馬爾科夫鏈。

GtGt來表示t時刻會得到的總的return。出于數學計算、防止NaN無窮大的return等原因,引入折扣因子γ[0,1]γ∈[0,1]來對下一時刻的獎勵和更遠的獎勵之間進行取舍。(若所有序列都會在有限步終結,而且策略上合適,γ也可以取1。)

Gt=Rt+1+γRt+2+...=k=0γkRt+k+1Gt=Rt+1+γRt+2+...=∑k=0∞γkRt+k+1

價值函數v(s),在馬爾科夫激勵過程(MRP)中表征指定狀態下,獲得的return的期望。是由所有包含該狀態的樣本Sample序列計算出來的。其中RsRs是立即獎勵,可以認為是離開狀態s時獲得的獎勵。

v(s)=E[Gt|St=s]=E[Rt+1+γ(v(st+1)|St=s)]=Rs+γsSPssv(s)v(s)=E[Gt|St=s]=E[Rt+1+γ(v(st+1)|St=s)]=Rs+γ∑s′∈SPss′v(s′)

上面的公式可以向量化的表示為:

V=R+γPVV=R+γPV

而這個公式是有解析解的,MRP每個狀態的價值可以直接被解出來。

二、MDP

馬爾科夫決策過程(S,A,P,R,γ),在MRP基礎上增加了有限的action集合。

策略,給定狀態時,關于行為的概率分布,用π來表示。決定了agent的行為。

MDP和馬爾科夫過程、MRP內在的聯系。

狀態價值函數vπ(s)vπ(s)定義了在狀態s下,采用策略π,所能獲得的期望return。

行為價值函數qπ(s,a)qπ(s,a)定義了在狀態s下,采取行為a,并在之后采用策略π所能獲得的期望return。

這兩個價值函數之間密切相關。狀態的價值,就等于這個狀態下所有行為a產生的行為價值q,乘以做出該行為的概率(策略)π。反之,行為的價值,就等于這個行為所能產生的立即獎勵immediate reward加上折扣因子乘以下一個狀態(到達這個狀態的概率由動態轉移矩陣來確定)乘以這個狀態的狀態價值。

在MDP中,你能夠控制你的行為(通過策略),但是你無法控制環境(做出行為之后會發生什么),這個要靠動態轉移矩陣來計算。

最佳價值函數v?(s)v?(s)q?(s,a)q?(s,a)。最佳策略π?π?,就是在每個狀態下選擇最大的行為價值函數q*。

如何計算這個Q呢,Bellman Optimality Equation。也就是對每個狀態,其價值等于價值最大的行為的價值,而這個行為的價值又由直接獎勵和行為*可能會導致的狀態價值有關。

v?(s)=maxaq?(s,a)v?(s)=maxaq?(s,a) q?(s,a)=Ras+γsSPassv?(s)q?(s,a)=Rsa+γ∑s′∈SPss′av?(s′)

而這個公式就無法直接解析求解了,求解的方法有:

  • Value iteration
  • Policy iteration
  • Q-learning
  • Sarsa

最后,對MDP的擴展模型和其他一些概念進行了簡介,如infinite/continuous/POMDP/belief states。

參考

  • https://zhuanlan.zhihu.com/p/21378532
原文地址:http://cairohy.github.io/2017/08/29/deeplearning/%E3%80%8ADavid%20Silver%E5%BC%BA%E5%8C%96%E5%AD%A6%E4%B9%A0%E5%85%AC%E5%BC%80%E8%AF%BE%E3%80%8B-2%EF%BC%9AMDP/

總結

以上是生活随笔為你收集整理的David Silver强化学习公开课】-2:MDP的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。