日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

mdp框架_强化学习:MDP(Markov Decision Process)

發(fā)布時間:2023/12/19 编程问答 40 豆豆
生活随笔 收集整理的這篇文章主要介紹了 mdp框架_强化学习:MDP(Markov Decision Process) 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

0.強化學習(reinforcement learning),特點是引入獎勵機制。【強化學習屬于機器學習框架中的什么部分?】

1.引出MDP的思路

=>Random variable

=>Stchastic Process

=>Markov chain/Process

=>Markov Reward Process

=>Markov Decision Process

2.隨機變量(Random variable)

強化學習是引入了概率的一種算法,隨機變量是研究對象,比如隨機變量S1。

【隨機變量常用大寫字母表示,隨機變量的具體取值常用小寫字母表示,P(S=s)表示變量S取s值的概率】

關(guān)于隨機變量有幾個問題需要回答:

這個隨機變量是服從于哪種概率分布?

這個概率分布對應(yīng)的概率密度函數(shù)什么?

這個隨機變量是離散分布還是連續(xù)分布?

是一維隨機變量還是多維隨機變量?

不同的隨機變量之間是什么關(guān)系?

以下針對這幾個問題嘗試進行回答。

概率分布(prob dist)是指用于表述隨機變量取值的概率規(guī)律。隨機變量的概率分布指的是隨機變量的可能取值及取得對應(yīng)值的概率。

概率分布有幾種類型,最常見的是高斯分布(即正態(tài)分布)【此外還有0-1分布等等】。若隨機變量X服從于期望為u,協(xié)方差為Σ的高斯分布,則寫作X~N(u,Σ)

每種分布對應(yīng)的有一個概率密度函數(shù)(probability density function:PDF),高斯分布的概率密度函數(shù)如下:

其中,u是期望,σ2是協(xié)方差。【均值和方差是X為一維變量時期望和協(xié)方差的描述方式】。

隨機變量離散分布含義是X的取值是離散的。隨機變量連續(xù)分布含義是X的取值是連續(xù)的。

X={x1,x2,x3,...}是一組由一維隨機變量組成的集合;

Y={y1,y2,y3,...}是一組由高維隨機變量組成的集合;

期望和方差/協(xié)方差都是表示一組變量的數(shù)字特征。

X和Y期望和方差/協(xié)方差公式如下:

不同的隨機變量之間的關(guān)系,可以根據(jù)不同模型的假設(shè)進行分析。比如Naive Bayes中,假設(shè)在Y被觀測的前提下,x1,x2...xN之間兩兩條件獨立。比如在HMM中就有觀測獨立假設(shè)和一階齊次Markov假設(shè)。觀測獨立假設(shè)中X(t+1)只和Z(t+1)有關(guān)(也就是在Z(t+1)被觀測的情況下,X(t+1)與其他隨機變量條件獨立)。一階齊次Markov假設(shè)中Z(t+1)只和Z(t)有關(guān)(也就是說在Z(t)被觀測的情況下,Z(t+1)與其他隨機變量條件獨立)。HMM中的Markov假設(shè)是”一階“齊次Markov假設(shè),如果是”二階“Markov假設(shè)的話,Z(t+1)只和Z(t),Z(t-1)有關(guān)(也就是說在Z(t),Z(t-1)被觀測的情況下,Z(t+1)與其他隨機變量條件獨立)。

3.隨機過程(Stchastic Process)

變量之間關(guān)系復(fù)雜,沒有明顯的可循規(guī)律。

4.馬爾可夫鏈/馬爾可夫過程(Markov chain/Process)

馬爾可夫過程(Markov chain)是一個具有Markov性質(zhì)的特殊的隨機過程(stochastic process)。

一階馬爾可夫假設(shè):已知st的情況下,st+1與s1,s2...st-1均無關(guān)。(即st+1只與st有關(guān))。

5.馬爾科夫獎勵過程(Markov Reward Process)

其中 St是t時刻的狀態(tài)變量,Rt+1是對應(yīng)t時刻的Reward。

6.馬爾可夫決策過程(Markov Decision Process)

其中 St是t時刻的狀態(tài)變量,At是Action,Rt+1是對應(yīng)t時刻的Reward。

問題:如何與隱馬爾可夫結(jié)合?

隱馬爾可夫是為了對概率進行分布求解,從而引入隱變量的概念,將s1作為隱變量,x1作為觀測變量。

參考資料:

1.https://www.bilibili.com/video/BV1RA411q7wt?from=search&seid=4107546504069376636,作者:shuhuai008

總結(jié)

以上是生活随笔為你收集整理的mdp框架_强化学习:MDP(Markov Decision Process)的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。