EM算法 小结
猴子吃果凍
?
隨筆- 35? 文章- 0? 評(píng)論- 3?4-EM算法原理及利用EM求解GMM參數(shù)過(guò)程
1.極大似然估計(jì)
原理:假設(shè)在一個(gè)罐子中放著許多白球和黑球,并假定已經(jīng)知道兩種球的數(shù)目之比為1:3但是不知道那種顏色的球多。如果用放回抽樣方法從罐中取5個(gè)球,觀察結(jié)果為:黑、白、黑、黑、黑,估計(jì)取到黑球的概率為p;
假設(shè)p=1/4,則出現(xiàn)題目描述觀察結(jié)果的概率為:(1/4)4?*(3/4) = 3/1024
假設(shè)p=3/4,則出現(xiàn)題目描述觀察結(jié)果的概率為:(3/4)4?*(1/4) = 81/1024
由于81/1024 > 3/1024,因此任務(wù)p=3/4比1/4更能出現(xiàn)上述觀察結(jié)果,所以p取3/4更為合理
以上便為極大似然估計(jì)的原理
定義如下圖:(圖片來(lái)自浙江大學(xué)概率論課程課件)
2.知曉了極大似然估計(jì)的原理之后,我們可以利用極大似然估計(jì)的原理來(lái)解決如下問(wèn)題:
即,若給定一圈樣本x1,x2.....xn,已知他們服從高斯分布N(μ,σ),要求估計(jì)參數(shù)均值μ,標(biāo)準(zhǔn)差σ
(1) 高斯分布的概率密度為:
(2) 利用上述極大似然估計(jì)的原理,構(gòu)建似然函數(shù)為:
(3) 為例求解方便我們?nèi)?duì)數(shù)似然:
(4) 我們的目標(biāo)是求上述l(x)的最大值,對(duì)上式,分別關(guān)于μ,σ求二階導(dǎo)數(shù),很容易證明2次倒數(shù)均小于0 ,所以上述函數(shù)關(guān)于μ,和σ均為凹函數(shù),極大值點(diǎn)滿足一階導(dǎo)數(shù)等于0,故通過(guò)對(duì)μ,和σ求偏導(dǎo)并且倒數(shù)為0 我們即可得到如下等式:
3.EM算法原理推導(dǎo)
3.1 EM算法與極大似然估計(jì)的區(qū)別于聯(lián)系(直接飲用李航-統(tǒng)計(jì)學(xué)習(xí)方法中的內(nèi)容)
概率模型有時(shí)即含有觀測(cè)變量,又含有隱變量或潛在變量,如果概率模型的變量都是觀測(cè)變量,那么給定數(shù)據(jù),可以直接用極大似然估計(jì)法,或者貝葉斯估計(jì)法估計(jì)模型參數(shù)。但是當(dāng)模型含有隱量時(shí),就不能簡(jiǎn)單的用這些估計(jì)方法,EM算法就是含有隱變量的概率模型參數(shù)的極大似然估計(jì)法
什么是隱變量?
舉例:比如現(xiàn)要在一所學(xué)校中隨機(jī)選取1000個(gè)人測(cè)量身高,最終我們會(huì)得到一個(gè)包含1000個(gè)身高數(shù)據(jù)的數(shù)據(jù)集,此數(shù)據(jù)集就稱為觀測(cè)變量,那這1000個(gè)學(xué)生中,既有男生又有女生,我們?cè)谶x取完成以后并不知道男生和女生的比例是多少?此時(shí)這1000名學(xué)生中男生的占比以及女生的占比就稱為隱變量
3.2 有了上述簡(jiǎn)單的認(rèn)識(shí)之后,下邊解決EM算法的推導(dǎo)過(guò)程
在對(duì)EM算法原理進(jìn)行推導(dǎo)之前,先用一個(gè)實(shí)例理解一下下文中θ所表示的意義:
假設(shè)現(xiàn)有樣本集T= {x1,x2?.....xm},包含m個(gè)獨(dú)立樣本,其中每個(gè)樣本對(duì)應(yīng)的類別z(這里的類別z就可以類比3.1中的男生女生兩種性別去理解)是未知的,所以很難直接用極大似然法去求解。
以x1為例:x1發(fā)生的概率可以表示為:,θ表示的就是我們要估計(jì)的參數(shù)的一個(gè)總稱后續(xù)證明過(guò)程中的Q(z)也是θ中的一個(gè)參數(shù)。舉例,如果每一個(gè)類別z均符合高斯分布,那么θ中還會(huì)包含均值μ和標(biāo)準(zhǔn)差σ,如果對(duì)θ的理解不是不到
整個(gè)數(shù)據(jù)集T的似然函數(shù)可以表示為:
為了便于計(jì)算我們?nèi)?duì)數(shù)似然得:
對(duì)上上述函數(shù)log中有求和運(yùn)算,求解困難,故我們可以對(duì)其形式進(jìn)行轉(zhuǎn)化,轉(zhuǎn)化為易于我們求解的方式如下式:表示第i個(gè)樣本第j個(gè)類別的概率,則表示的期望
log函數(shù)是一個(gè)凹函數(shù),故利用jenson不等式的原理可以得出期望的函數(shù)值大于等于函數(shù)值的期望,故表達(dá)如下:
在上述不等式的等號(hào)成立時(shí)和是等價(jià)的,也就是說(shuō)后式的最大值即為前式的最大值。當(dāng)log函數(shù)的圖像是一條直線時(shí)等號(hào)成立,故為常數(shù)時(shí),等號(hào)成立。 ? ?
#-#-#-#-#-#-#-#-#-#-#-#-#-#-#-#-#-#-#-#-#-#-#-#-#-#-#-#-#-#-#-#-#-#-#-#-#-#-#-#-#-#-#-#-#-#-#-#
E-step:即就是上述的
M-step:在E-step的基礎(chǔ)上求使得上述函數(shù)值的期望取得最大值的參數(shù)θ的取值
?
#-#-#-#-#-#-#-#-#-#-#-#-#-#-#-#-#-#-#-#-#-#-#-#-#-#-#-#-#-#-#-#-#-#-#-#-#-#-#-#-#-#-#-#-#-#-#-#
對(duì)上述E-step和M-step不斷進(jìn)行迭代,知道我們估計(jì)的模型參數(shù)收斂(即變化趨近于一個(gè)定值)我們即可得到最適合觀測(cè)數(shù)據(jù)集的模型參數(shù),者便是EM算法
4.利用EM原理推導(dǎo)GMM(混合高斯模型)
隨機(jī)變量X是有K個(gè)高斯分布混合而成,取各個(gè)高斯分布的概率為φ1,φ2...φK,第i個(gè)高斯分布的均值為μi,方差為Σi。若觀測(cè)到隨機(jī)變量X的一系列樣本x1,x2...xn,試估計(jì)參數(shù)φ,μ,Σ。? ??
? 第一步:依據(jù)3中E-step估計(jì)φ用wj(i)?表示,意義是對(duì)第i個(gè)樣本第j個(gè)高斯分布的貢獻(xiàn)率(即第j個(gè)高斯分布的占比)
第二步:依據(jù)3中的M-step估計(jì)μ,和σ ?用?表示σ2
對(duì)上述關(guān)于μ求偏導(dǎo)得:
對(duì)(2)式為0 可得:
同理對(duì)方差求偏導(dǎo),并令導(dǎo)入為0 可得:
對(duì)于φj?由于?,故對(duì)于φj?必須采用添加極值的方式求解,需構(gòu)建拉個(gè)朗日方程進(jìn)行求解。
觀察(1)式,log函數(shù)中可以看成是一個(gè)常數(shù)與φj相乘。由對(duì)數(shù)函數(shù)求導(dǎo)法則指,在求導(dǎo)之后,常數(shù)項(xiàng)終被抵消,如f(x) = lnax 關(guān)于x求導(dǎo)結(jié)果與g(x)=lnx關(guān)于x求導(dǎo)結(jié)果相同,故對(duì)于(1)式在構(gòu)建拉個(gè)朗日函數(shù)時(shí),直接去掉log函數(shù)中的常數(shù)項(xiàng),如下:
由于φj?為正在log函數(shù)中已有現(xiàn)值,故這里無(wú)需構(gòu)建不等式約束
對(duì)朗格朗日函數(shù)關(guān)于φj求導(dǎo)并取倒數(shù)為0 可得:
5.用實(shí)例理解GMM的參數(shù)估計(jì)過(guò)程
5.1 在正式引入GMM(混合高斯模型)前我們以下述情景的求解為例,用實(shí)例看先熟悉以下參數(shù)更新的過(guò)程
情景:假設(shè)從商場(chǎng)隨機(jī)選取10位顧客,測(cè)量這10位顧客的身高,這些顧客中既包含男性顧客也包含女性顧客,現(xiàn)在我們已知測(cè)量數(shù)據(jù),T=[x1,x2.....x10]為我們測(cè)試的身高數(shù)據(jù),即為可觀測(cè)數(shù)據(jù)集。并且知道男性女性顧客的身高均服從高斯分布N(μ1,σ1),N(μ2,σ2),估計(jì)參數(shù)μ1,σ1,μ2,σ2?,以及男女比例?α1,α2;
高斯分布的概率密度函數(shù)為:
(1)對(duì)于測(cè)試數(shù)據(jù)x1?其產(chǎn)生的概率我們可以表示為:
我們用γ(i,k)來(lái)表示男性或者女性在生成數(shù)據(jù)x1??時(shí)所做的貢獻(xiàn)(γ(i,k)就相當(dāng)于我們初始給定的α1,α2)。或者說(shuō)表示單由男性或者女性產(chǎn)生數(shù)據(jù)xi的概率,前后兩個(gè)說(shuō)法所想表達(dá)的意思是相同的,那么就有:
?
?
?
(2)對(duì)于測(cè)試數(shù)據(jù)x2?其產(chǎn)生的概率我們可以表示為:
同(1)可知:
(3)依次按照上述(1)(2)的規(guī)律我們就可以求出如下表格中的所有值,表中標(biāo)綠的在上述(1)(2)步已求出
我們?cè)谏衔?中的(4)已經(jīng)推導(dǎo)出來(lái)了μ和σ2的計(jì)算公式,故
? ?
? ?
?
? ?
對(duì)于上述α1,α2計(jì)算方式的理解:α1,α2表示的是同一次實(shí)驗(yàn),或者說(shuō)針對(duì)同一個(gè)樣本,兩類數(shù)據(jù)來(lái)源(男性,女性)對(duì)樣本結(jié)果的貢獻(xiàn)率,那么對(duì)于每一個(gè)樣本來(lái)說(shuō)他們的男性和女性的貢獻(xiàn)率都應(yīng)該是恒定的,故我們采用取平均的方式更新α1,α2;
(4)用計(jì)算出來(lái)的μ1new,μ2new ? ? ?σ21new ???σ22new ??α1new,α2new?再次重復(fù)迭代上述(1)(2)(3)步驟,直到μ1new,μ2new ? ? ?σ21new ???σ22new ??α1new,α2new?收斂我們即得到的關(guān)于本次觀測(cè)數(shù)據(jù)最合適的參數(shù)
5.2 有了上述實(shí)例以后,我們直接給出GMM的推廣式:(下述式子的正面過(guò)程見(jiàn)4中GMM的證明過(guò)程)
隨機(jī)變量X是有K個(gè)高斯分布混合而成,取各個(gè)高斯分布的概率為φ1,φ2...φK,第i個(gè)高斯分布的均值為μi,方差為Σi。若觀測(cè)到隨機(jī)變量X的一系列樣本x1,x2...xn,試估計(jì)參數(shù)φ,μ,Σ。
第一步:(如上述實(shí)例中(1)和(2))
第二步:(如上述實(shí)例中的(3))
?
轉(zhuǎn)載于:https://www.cnblogs.com/cupleo/p/10656370.html
總結(jié)
- 上一篇: 邮政挂号信查询方法是什么?查询步骤详解
- 下一篇: 架构图