3.2 参数估计:极大似然估计方法 ML
3.2 極大似然估計(jì)方法 ML
極大似然估計(jì)方法是高斯提出,并利用該技術(shù)獲得測(cè)量誤差滿足高斯分布的結(jié)論。假設(shè)隨機(jī)變量滿足概率密度函數(shù) p(x∣θ)p(x|\mathbf{\theta})p(x∣θ),其中 θ\mathbf{\theta}θ 是需要估計(jì)的參數(shù)向量,比如高斯分布中的均值和方差參數(shù),令隨機(jī)抽取到 nnn 個(gè)樣本 (x1,?,xn)(x_1,\cdots,x_n)(x1?,?,xn?) 。每個(gè)樣本被抽取到的概率為 p(xi∣θ)p(x_i|\mathbf{\theta})p(xi?∣θ) ,假設(shè)每個(gè)樣本都是獨(dú)立的,則抽取到整個(gè)樣本集的概率為
p(θ)=∏ip(xi∣θ)p(\mathbf{\theta}) = \prod_i p(x_i|\mathbf{\theta}) p(θ)=i∏?p(xi?∣θ)
極大似然估計(jì)方法的假設(shè)是,既然我們抽取到了樣本集 (x1,?,xn)(x_1,\cdots,x_n)(x1?,?,xn?) ,而不是抽取到其他樣本集,這說明該樣本集出現(xiàn)的概率很高,故假設(shè)其出現(xiàn)概率極大,稱為似然函數(shù)。所以極大似然估計(jì)得到的參數(shù)估計(jì)值使似然函數(shù)極大。即
θˉml=argmax∏ip(xi∣θ)\bar \mathbf{\theta}_{ml} = argmax \prod_i p(x_i|\mathbf{\theta}) θˉml?=argmaxi∏?p(xi?∣θ)
由于概率密度一般為連續(xù)函數(shù),故上式對(duì)參數(shù)取偏導(dǎo)數(shù)并令其等于 0 ,可得到 mmm 個(gè)標(biāo)量方程組,解方程組即可。但這些方程一般是耦合且非線性的,除了簡單情況,只能數(shù)值求解。mmm 為估計(jì)參數(shù)數(shù)量。
由于似然函數(shù)是連乘且概率密度函數(shù)常包含指數(shù)函數(shù)且大于 0 ,采用數(shù)學(xué)技巧變?yōu)榍髮?duì)數(shù)概率最大,即
θˉml=argmax∑ilogp(xi∣θ)\bar \mathbf{\theta}_{ml} = argmax \sum_i log p(x_i|\mathbf{\theta}) θˉml?=argmaxi∑?logp(xi?∣θ)
采用極大似然估計(jì)方法估計(jì)高斯分布參數(shù)為
μˉml=1/n∑ixiσ2ˉml=1/n∑i(xi?μˉml)2\bar {\mu}_{ml} = 1/n\sum_i x_i \\ \bar {\sigma^2}_{ml} = 1/n\sum_i (x_i - \bar {\mu}_{ml})^2 μˉ?ml?=1/ni∑?xi?σ2ˉml?=1/ni∑?(xi??μˉ?ml?)2
和采用矩方法結(jié)果很類似,只是方差參數(shù)是除以 nnn ,而不是 n?1n-1n?1 ,當(dāng) nnn 較大時(shí)差別可忽略。
采用極大似然估計(jì)方法估計(jì)拉普拉斯分布 p(x)=12σexp(?∣x?μ∣σ)p(x) = \frac{1}{2\sigma} exp(-\frac{|x-\mu|}{\sigma})p(x)=2σ1?exp(?σ∣x?μ∣?) 參數(shù)為
μˉml=數(shù)組xi的中值σˉml=1/n∑i∣xi?μˉml∣\bar {\mu}_{ml} = 數(shù)組 x_i 的中值 \\ \bar {\sigma}_{ml} = 1/n \sum_i |x_i - \bar {\mu}_{ml}| μˉ?ml?=數(shù)組xi?的中值σˉml?=1/ni∑?∣xi??μˉ?ml?∣
和采用矩方法結(jié)果完全不同,由于數(shù)組中值不受異常值影響,故分布均值估計(jì)很穩(wěn)健;尺度參數(shù)估計(jì)是計(jì)算絕對(duì)值,是一次方關(guān)系,而矩方法是平方,是二次方關(guān)系,可見極大似然估計(jì)方法估計(jì)尺度參數(shù)比矩方法更穩(wěn)健,雖然也會(huì)受到異常值影響。魯棒最小二乘法和魯棒 PCA 都采用了這種數(shù)學(xué)方法,這是這些方法背后的原理。這也驗(yàn)證了極大似然估計(jì)方法的合理性。
一般來說,極大似然估計(jì)方法比矩方法更魯棒。
極大似然估計(jì)方法還可用于離散隨機(jī)變量的估計(jì)。取伯努利分布為例,隨機(jī)變量取 1,0 兩個(gè)值,概率分布為 p,1?pp, 1-pp,1?p ,ppp 未知,需要估計(jì)。假設(shè)隨機(jī)抽樣得到 nnn 個(gè)樣本,得到樣本集 D=(x1,?,xn)D = (x_1,\cdots,x_n)D=(x1?,?,xn?) ,每一次試驗(yàn)是獨(dú)立的,那么這些樣本同時(shí)出現(xiàn)的概率就是這些樣本單獨(dú)出現(xiàn)的概率的乘積。
P(D)=∏ipxi(1?p)1?xiP(D) = \prod_i p^{x_i}(1-p)^{1-x_i} P(D)=i∏?pxi?(1?p)1?xi?
取對(duì)數(shù),對(duì) ppp 求導(dǎo)并令導(dǎo)數(shù)為 0,可得參數(shù) ppp 的估計(jì)值
p=1n∑ixi=mnp = \frac{1}{n}\sum_i x_i = \frac{m}{n} p=n1?i∑?xi?=nm?
其中 mmm 是抽樣到 1 的次數(shù),即成功次數(shù)。
這個(gè)結(jié)果十分符合人的直覺。翻譯成生活語言就是,假設(shè)一個(gè)箱子有很多黑球和白球,我們需要估計(jì)黑球的比例。我們共抽取 nnn 個(gè)球,其中黑球有 mmm 個(gè),則黑球比例的合理估計(jì)是 m/nm/nm/n ,顯然當(dāng) nnn 很大時(shí),估計(jì)越來越準(zhǔn)確。這個(gè)估計(jì)值就是極大似然估計(jì)值。
該估計(jì)的理論基礎(chǔ)是伯努利大數(shù)定理,設(shè) mmm 為 nnn 重伯努利實(shí)驗(yàn)中事件A發(fā)生的次數(shù),ppp 為A在每次實(shí)驗(yàn)中發(fā)生的概率,nnn 趨向于無窮大時(shí),事件A在 nnn 重伯努利事件中發(fā)生的頻率m/nm/nm/n 無限接近于事件A發(fā)生的概率 ppp 。我們生活中會(huì)不自覺的經(jīng)常利用該定理進(jìn)行推斷。另一種表達(dá)方式為當(dāng)樣本數(shù)據(jù)無限大時(shí),樣本均值趨于分布均值,這就是切比雪夫大數(shù)定律,這也是用樣本均值估計(jì)分布均值的理論基礎(chǔ)。
總結(jié)
以上是生活随笔為你收集整理的3.2 参数估计:极大似然估计方法 ML的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 2 拉普拉斯分布
- 下一篇: 3.3 参数估计:贝叶斯估计