當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

如何理解「最大似然估计」？参数估计、似然函数、最大似然估计

發(fā)布時間：2023/12/31 编程问答 38 豆豆

生活随笔收集整理的這篇文章主要介紹了如何理解「最大似然估计」？参数估计、似然函数、最大似然估计小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

文章目錄

- 引言
- 參數(shù)估計
- 最大似然估計
- - 似然函數(shù)
  - 求解最大似然估計問題
  - 為什么要對似然函數(shù)取對數(shù)？
  - “似然”與“概率”的區(qū)別
- 機器學習中的應用
- 參考資料

引言

最大似然估計，就是尋找一組模型參數(shù)，使得觀測到現(xiàn)有樣本出現(xiàn)的概率最大，即這組模型參數(shù)，可以使模型擬合的結果最接近實際數(shù)據(jù)分布。在機器學習領域中，很多求解參數(shù)的方法，都可以歸結為最大似然估計問題。

最大似然估計是參數(shù)估計中點估計的一種，所以我們先復習下參數(shù)估計的定義。

參數(shù)估計

一般來說，我們假定模型結構是已知的，參數(shù)是未知的，數(shù)據(jù)是已知的。
通過已知數(shù)據(jù)推出未知的參數(shù)，這個參數(shù)的點估計就是數(shù)據(jù)的函數(shù)。

如果要估計的不是參數(shù)，而是輸入和目標變量之間關系，這種類型的點估計稱為函數(shù)估計。函數(shù)估計和估計參數(shù)θ類似，函數(shù)估計可以看作函數(shù)空間中的一個點估計。

最大似然估計

最大似然估計（Maximum Likelihood Estimation, MLE）是一個概率論中常用的估計方法。

假設有一個數(shù)據(jù)集 $X=\{x_1,x_2, ···,x_n\}$ ，其真實數(shù)據(jù)分布未知。數(shù)據(jù)的概率分布由參數(shù)θ確定，用 $m o d e l (x; θ)$ 表示，可以將任意輸入x映射到概率 $p (x)$ 。當參數(shù) $θ\theta$ 取不同值時，得到的似然函數(shù)值（詳見下一小節(jié)）不同。當似然函數(shù)值最大時，此時的參數(shù) $θ\theta$ 使樣本X出現(xiàn)的概率最大，即找到了使概率最大的參數(shù) $θ\theta$ ，這就是最大似然估計方法。

對于一個似然函數(shù) $L(θ)=L(x1,x2,...xn;θ)，θ^∈ΘL(\theta)=L(x_1,x_2,...x_n;\theta)，\hat{\theta}∈\Theta$ ，如果存在一個參數(shù)值 $θ^\hat{\theta}$ ，使得似然函數(shù)值達到最大值 $L(θ^)=maxθ^∈ΘL(θ)L(\hat{\theta})=max_{\hat{\theta}∈\Theta} {L(\theta)}$ ，那么這個 $θ^\hat{\theta}$ 就稱為參數(shù) $θ\theta$ 的最大似然估計量。 $θ^\hat{\theta}$ 與 $x_1,x_2,...x_n$ 有關，也可以記作 $θ^(x1,x2,...xn)\hat{\theta}(x_1,x_2,...x_n)$ 。

最大似然估計在生活中的應用是，當人們觀察到某種現(xiàn)象，想要判斷是哪種原因導致這種現(xiàn)象，就會選擇可能性最大的一種原因，這種思想就是最大似然估計。

似然函數(shù)

根據(jù)離散型、連續(xù)型隨機變量的劃分，似然函數(shù)一般定義為：

（1）對于離散型X，其分布律為事件 $P(X=x)=p(x,θ1,...,θk)P(X=x)=p(x,\theta_1,...,\theta_k)$ ，事件A ${X_1=x_1,X_2=x_2,...,X_n=x_n\}$ ，事件A發(fā)生的概率記為：
$L(x;θ1,...,θk)=∏i=1np(xi,θ1,...,θk)L(x;\theta_1,...,\theta_k)=\prod_{i=1}^n{p(x_i,\theta_1,...,\theta_k)}$ 則稱 $L(x;θ1,...,θk)L(x;\theta_1,...,\theta_k)$ 為樣本的似然函數(shù)。

（2）對于連續(xù)型X，若其概率密度為 $f(x,θ1,...,θk)f(x,\theta_1,...,\theta_k)$ ，則樣本的似然函數(shù)定義為： $L(x;θ1,...,θk)=∏i=1nf(xi,θ1,...,θk)L(x;\theta_1,...,\theta_k)=\prod_{i=1}^n{f(x_i,\theta_1,...,\theta_k)}$

似然性是指在已知某些觀測結果時，對有關參數(shù)進行估計，似然函數(shù)取得最大值表示相應的參數(shù)能夠使統(tǒng)計模型最為合理。

求解最大似然估計問題

求解未知參數(shù) $θ\theta$ 的最大似然估計問題，就是求似然函數(shù) $L(x;θ)L(x;\theta)$ 的最大值點的問題。如果似然函數(shù)關于參數(shù) $θ\theta$ 可微時，就能利用微分中求最大值的方法進行求解。計算步驟如下：

（1）寫出似然函數(shù) $L(x;θ)=L(x1,x2,...,xn;θ)L(x;\theta)=L(x_1,x_2,...,x_n;\theta)$
（2）對似然函數(shù)或對數(shù)似然函數(shù)求導，令 $dL(x;θ)dθ=0\frac{dL(x;\theta)}{d\theta}=0$ 或 $dlnL(x;θ)dθ=0\frac{dlnL(x;\theta)}{d\theta}=0$ ，求出 $θ\theta$ 的最大似然估計。

為什么要對似然函數(shù)取對數(shù)？

因為 $lnL(x;θ)lnL(x;\theta)$ 是 $L(x;θ)L(x;\theta)$ 的單調(diào)遞增函數(shù)，所以有相同的極值點。似然函數(shù)中的連乘會有丟失精度的缺點，取對數(shù)后乘法變成加法，可以規(guī)避該問題，更易于計算。

“似然”與“概率”的區(qū)別

從形式上看，似然函數(shù)也是一種條件概率函數(shù) $f(x∣θ)f(x|\theta)$ ，不同的是：

概率密度函數(shù)是關于 $x$ 的函數(shù)：針對給定參數(shù) $θ\theta$ 后，預測樣本觀測值 $x$ 發(fā)生的可能性。
似然函數(shù)是關于 $θ\theta$ 的函數(shù)：已知數(shù)據(jù)樣本x的情況下，希望知道參數(shù) $θ\theta$ 是多少。

機器學習中的應用

最大似然估計很容易擴展到估計條件概率 $P (y ∣ x; θ)$ ，從而給定 x 預測 y 。實際上這是最常見的情況，因為這構成了大多數(shù)監(jiān)督學習的基礎。如果X表示所有的輸入，Y表示我們觀測到的目標，那么條件最大似然估計是：
$θ=arg?max?θ(Y∣X;θ)\theta = \argmax_{\theta}(Y|X;\theta)$
如果假設樣本是獨立同分布的，那么上式可以分解成：
$θ=arg?max?θ∑i=1mlogP(yi∣xi;θ)\theta = \argmax_{\theta}\sum_{i=1}^m{logP(y_i|x_i;\theta)}$
機器學習的一個基本過程，就是通過更新模型參數(shù)來提高整個數(shù)據(jù)集的似然，其中缺失變量的值是通過后驗分布來估計的。例如，使用梯度下降來最大化對數(shù)似然函數(shù)的方法也有相同的性質。計算對數(shù)似然函數(shù)的梯度需要對隱藏單元的后驗分布求期望。

還有一種解釋最大似然估計的觀點，是將它看作最小化訓練集上的經(jīng)驗分布和模型分布之間的差異，兩者之間的差異程度可以通過KL散度度量。

參考資料

《人工智能數(shù)學基礎》
《深度學習》

總結

以上是生活随笔為你收集整理的如何理解「最大似然估计」？参数估计、似然函数、最大似然估计的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。