MCMC笔记:蒙特卡罗方法
0 前言:關(guān)于采樣
0.1 采樣的動(dòng)機(jī)
1)采樣可能本身就是任務(wù)
2)求和或者求積分
?0.2 什么是好的樣本?
1)樣本趨向于高概率的區(qū)域
2)樣本是相互獨(dú)立的
0.3 采樣是困難的
1)概率分布函數(shù)很復(fù)雜,導(dǎo)致采樣困難
2)高維變量不易采樣
1 介紹
蒙特卡洛方法(Monte Carlo Method):基于采樣的隨機(jī)近似方法。
該方法旨在求得復(fù)雜概率分布下的期望值:
其中zi是從概率分布p(z∣x) 中取的樣本,也就是從概率分布中取N個(gè)點(diǎn)來(lái)近似計(jì)算這個(gè)積分。
?
但是,由于p(z∣x) 比較復(fù)雜,所以有的時(shí)候我們可能不知道應(yīng)該怎么采樣。
注:這里的z|x,有些地方直接寫(xiě)成z,表示的是一個(gè)意思
2 采樣方法
2.1 概率分布采樣
- a.求得概率密度函數(shù)PDF的累計(jì)密度函數(shù)CDF
- b.求CDF的反函數(shù)
- c.在0-1之間均勻取樣,帶入反函數(shù),得到取樣點(diǎn)
????????以上圖為例,左圖為概率密度函數(shù),右圖為相應(yīng)的累計(jì)密度函數(shù)(也就是從負(fù)無(wú)窮到相應(yīng)點(diǎn)的概率密度函數(shù)的累加和)
? ? ? ? 不難發(fā)現(xiàn)累計(jì)密度函數(shù)的取值范圍是[0,1]。同時(shí) 因?yàn)榫鶆蚍植家子诓蓸?#xff0c;所以我們可以從均勻分布U(0,1)之間隨機(jī)采樣,采樣的點(diǎn)作為cdf的值域,找到相應(yīng)的x。這些x就是我們的樣本點(diǎn)。
? ? ? ? 換一種思路考慮就是,pdf大的位置,cdf“上升”得快,那么“占據(jù)”值域的區(qū)間就長(zhǎng),隨機(jī)取樣后就更易于停留在這些值域上,那么對(duì)應(yīng)位置的x被采樣到的概率也就比較大。
? ? ? ? 但是,大部分PDF很難求得CDF。。。
2.2 拒絕采樣
?????????對(duì)于較復(fù)雜的概率分布 p(z) ,引入簡(jiǎn)單的提議分布(proposal distribution)q(z),使得對(duì)任意的 ,然后對(duì)q(z) 進(jìn)行采樣獲得樣本。
? ? ? ? ?這里的M是一個(gè)常數(shù),因?yàn)槿绻麤](méi)有M的話p和q都是概率密度函數(shù),那么概率密度函數(shù)的積分恒為1,所以不可能一個(gè)恒大于另一個(gè)的。
? ? ? ? 人為構(gòu)造的q需要是一個(gè)采樣容易的分布。
?
????????以上圖為例(上圖的k就是我們前面說(shuō)的M ),如果落在白色的區(qū)域,那么這個(gè)點(diǎn)可以選取,如果落在陰影區(qū)域,那么這個(gè)點(diǎn)不能選取。
????????這個(gè)的意思就是是否落在白色區(qū)域內(nèi)?
優(yōu)點(diǎn):容易實(shí)現(xiàn)
缺點(diǎn):采樣效率可能不高
如果p(z)的涵蓋體積占Mq(z)的涵蓋體積的比例很低,就會(huì)導(dǎo)致拒絕的比例很高,抽樣效率很低。
一般在高維空間抽樣,會(huì)遇到維度災(zāi)難的問(wèn)題,即使p(z)與Mq(z)很接近,兩者涵蓋體積的差異也可能很大。
?
?2.3 重要性采樣
不對(duì)z采樣,直接對(duì)他的期望進(jìn)行采樣
于是在q(z)中采樣,并通過(guò)權(quán)重計(jì)算和。
?缺點(diǎn):權(quán)重?常?的時(shí)候,效率非常低
2.4?Sampling Importance Resampling
????????這種方法,首先和上面?樣進(jìn)行采樣,然后在采樣出來(lái)的N個(gè)樣本中,重新采樣,這個(gè)重新采樣,使?每個(gè)樣本點(diǎn)的權(quán)重作為概率分布進(jìn)行采樣。
參考資料:機(jī)器學(xué)習(xí)-白板推導(dǎo)系列(十三)-MCMC(Markov Chain Monte Carlo)_嗶哩嗶哩_bilibili
總結(jié)
以上是生活随笔為你收集整理的MCMC笔记:蒙特卡罗方法的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 概率统计笔记:高斯威沙特分布
- 下一篇: MCMC笔记:齐次马尔可夫链