3.2 参数估计:极大似然估计方法 ML
3.2 極大似然估計方法 ML
極大似然估計方法是高斯提出,并利用該技術獲得測量誤差滿足高斯分布的結論。假設隨機變量滿足概率密度函數 p(x∣θ)p(x|\mathbf{\theta})p(x∣θ),其中 θ\mathbf{\theta}θ 是需要估計的參數向量,比如高斯分布中的均值和方差參數,令隨機抽取到 nnn 個樣本 (x1,?,xn)(x_1,\cdots,x_n)(x1?,?,xn?) 。每個樣本被抽取到的概率為 p(xi∣θ)p(x_i|\mathbf{\theta})p(xi?∣θ) ,假設每個樣本都是獨立的,則抽取到整個樣本集的概率為
p(θ)=∏ip(xi∣θ)p(\mathbf{\theta}) = \prod_i p(x_i|\mathbf{\theta}) p(θ)=i∏?p(xi?∣θ)
極大似然估計方法的假設是,既然我們抽取到了樣本集 (x1,?,xn)(x_1,\cdots,x_n)(x1?,?,xn?) ,而不是抽取到其他樣本集,這說明該樣本集出現的概率很高,故假設其出現概率極大,稱為似然函數。所以極大似然估計得到的參數估計值使似然函數極大。即
θˉml=argmax∏ip(xi∣θ)\bar \mathbf{\theta}_{ml} = argmax \prod_i p(x_i|\mathbf{\theta}) θˉml?=argmaxi∏?p(xi?∣θ)
由于概率密度一般為連續函數,故上式對參數取偏導數并令其等于 0 ,可得到 mmm 個標量方程組,解方程組即可。但這些方程一般是耦合且非線性的,除了簡單情況,只能數值求解。mmm 為估計參數數量。
由于似然函數是連乘且概率密度函數常包含指數函數且大于 0 ,采用數學技巧變為求對數概率最大,即
θˉml=argmax∑ilogp(xi∣θ)\bar \mathbf{\theta}_{ml} = argmax \sum_i log p(x_i|\mathbf{\theta}) θˉml?=argmaxi∑?logp(xi?∣θ)
采用極大似然估計方法估計高斯分布參數為
μˉml=1/n∑ixiσ2ˉml=1/n∑i(xi?μˉml)2\bar {\mu}_{ml} = 1/n\sum_i x_i \\ \bar {\sigma^2}_{ml} = 1/n\sum_i (x_i - \bar {\mu}_{ml})^2 μˉ?ml?=1/ni∑?xi?σ2ˉml?=1/ni∑?(xi??μˉ?ml?)2
和采用矩方法結果很類似,只是方差參數是除以 nnn ,而不是 n?1n-1n?1 ,當 nnn 較大時差別可忽略。
采用極大似然估計方法估計拉普拉斯分布 p(x)=12σexp(?∣x?μ∣σ)p(x) = \frac{1}{2\sigma} exp(-\frac{|x-\mu|}{\sigma})p(x)=2σ1?exp(?σ∣x?μ∣?) 參數為
μˉml=數組xi的中值σˉml=1/n∑i∣xi?μˉml∣\bar {\mu}_{ml} = 數組 x_i 的中值 \\ \bar {\sigma}_{ml} = 1/n \sum_i |x_i - \bar {\mu}_{ml}| μˉ?ml?=數組xi?的中值σˉml?=1/ni∑?∣xi??μˉ?ml?∣
和采用矩方法結果完全不同,由于數組中值不受異常值影響,故分布均值估計很穩健;尺度參數估計是計算絕對值,是一次方關系,而矩方法是平方,是二次方關系,可見極大似然估計方法估計尺度參數比矩方法更穩健,雖然也會受到異常值影響。魯棒最小二乘法和魯棒 PCA 都采用了這種數學方法,這是這些方法背后的原理。這也驗證了極大似然估計方法的合理性。
一般來說,極大似然估計方法比矩方法更魯棒。
極大似然估計方法還可用于離散隨機變量的估計。取伯努利分布為例,隨機變量取 1,0 兩個值,概率分布為 p,1?pp, 1-pp,1?p ,ppp 未知,需要估計。假設隨機抽樣得到 nnn 個樣本,得到樣本集 D=(x1,?,xn)D = (x_1,\cdots,x_n)D=(x1?,?,xn?) ,每一次試驗是獨立的,那么這些樣本同時出現的概率就是這些樣本單獨出現的概率的乘積。
P(D)=∏ipxi(1?p)1?xiP(D) = \prod_i p^{x_i}(1-p)^{1-x_i} P(D)=i∏?pxi?(1?p)1?xi?
取對數,對 ppp 求導并令導數為 0,可得參數 ppp 的估計值
p=1n∑ixi=mnp = \frac{1}{n}\sum_i x_i = \frac{m}{n} p=n1?i∑?xi?=nm?
其中 mmm 是抽樣到 1 的次數,即成功次數。
這個結果十分符合人的直覺。翻譯成生活語言就是,假設一個箱子有很多黑球和白球,我們需要估計黑球的比例。我們共抽取 nnn 個球,其中黑球有 mmm 個,則黑球比例的合理估計是 m/nm/nm/n ,顯然當 nnn 很大時,估計越來越準確。這個估計值就是極大似然估計值。
該估計的理論基礎是伯努利大數定理,設 mmm 為 nnn 重伯努利實驗中事件A發生的次數,ppp 為A在每次實驗中發生的概率,nnn 趨向于無窮大時,事件A在 nnn 重伯努利事件中發生的頻率m/nm/nm/n 無限接近于事件A發生的概率 ppp 。我們生活中會不自覺的經常利用該定理進行推斷。另一種表達方式為當樣本數據無限大時,樣本均值趨于分布均值,這就是切比雪夫大數定律,這也是用樣本均值估計分布均值的理論基礎。
總結
以上是生活随笔為你收集整理的3.2 参数估计:极大似然估计方法 ML的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 2 拉普拉斯分布
- 下一篇: 3.3 参数估计:贝叶斯估计