日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

概率论简明教程_Chapter-02_最大似然估计

發(fā)布時(shí)間:2023/12/9 编程问答 25 豆豆
生活随笔 收集整理的這篇文章主要介紹了 概率论简明教程_Chapter-02_最大似然估计 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

概率論簡(jiǎn)明教程_Chapter-02_最大似然估計(jì)

  • 本文內(nèi)容摘自:https://medium.com/towards-data-science/probability-concepts-explained-maximum-likelihood-estimation-c7b4342fdbb1

  • 參考翻譯:鏈接

1. 什么是參數(shù)?

在機(jī)器學(xué)習(xí)中,我們經(jīng)常使用模型描述從數(shù)據(jù)中觀測(cè)結(jié)果的過(guò)程。例如,我們可能使用隨機(jī)森林模型來(lái)分類(lèi)客戶是否會(huì)退訂某項(xiàng)服務(wù)(稱為客戶翻轉(zhuǎn)),也可能使用線性模型來(lái)基于廣告開(kāi)銷(xiāo)預(yù)測(cè)利潤(rùn)(這將是線性回歸的一個(gè)例子)。每個(gè)模型都包含各自的參數(shù)集合,參數(shù)集合最終定義了模型是什么樣的。

  • 例子: 我們可以用 y=mx+cy = mx + cy=mx+c 來(lái)表示線性模型。在這個(gè)例子中,xxx 可能表示廣告開(kāi)銷(xiāo),yyy 可能表示產(chǎn)生的利潤(rùn)。mmmccc 是這個(gè)模型的參數(shù)。不同的參數(shù)值將給出不同的曲線(見(jiàn)下圖)。


(使用不同參數(shù)的3個(gè)線性模型)

所以參數(shù)定義了模型的藍(lán)圖。只有當(dāng)為參數(shù)選擇了特定的值時(shí),我們才能得到一個(gè)描述特定現(xiàn)象的模型實(shí)例。

2. 最大似然估計(jì)的直觀解釋

最大似然估計(jì)是一種估計(jì)模型參數(shù)值的方法。估計(jì)的參數(shù)值要能使模型所描述的過(guò)程產(chǎn)生實(shí)際觀察到的數(shù)據(jù)的可能性最大化。

以上的定義可能仍然比較晦澀,所以讓我們通過(guò)一個(gè)例子來(lái)理解這一概念。

  • 例子: 假定我們從某一過(guò)程中觀測(cè)到了10個(gè)數(shù)據(jù)點(diǎn)。這里的每個(gè)數(shù)據(jù)點(diǎn)表示一個(gè)學(xué)生回答一道考題的時(shí)長(zhǎng)。

(我們觀測(cè)到的10個(gè)(假想的)數(shù)據(jù)點(diǎn)。)

我們首先要決定,哪種模型是描述生成這些數(shù)據(jù)的最佳模型。這部分非常重要。至少,我們對(duì)使用哪種模型要有個(gè)概念。這通常源于某些專(zhuān)門(mén)的領(lǐng)域知識(shí),不過(guò),我們?cè)谶@里不討論這個(gè)。

我們假定這些數(shù)據(jù)生成的過(guò)程可以通過(guò)高斯(正態(tài))分布描述。從上圖我們可以觀察到,10個(gè)點(diǎn)中的大部分都集中在中間,少數(shù)點(diǎn)散布在左側(cè)和右側(cè),因此,使用高斯分布描述看起來(lái)會(huì)是一個(gè)不錯(cuò)的選擇。(僅僅只有10個(gè)數(shù)據(jù)點(diǎn)的情況下就做出這樣的決定實(shí)在是欠考慮,不過(guò)既然我們生成了這些數(shù)據(jù)點(diǎn),就姑且這樣吧。

回憶一下,高斯分布有兩個(gè)參數(shù),均值 μ\muμ 標(biāo)注差 σ\sigmaσ。這兩個(gè)參數(shù)的不同值將產(chǎn)生不同的曲線(見(jiàn)下圖)。我們想知道哪條曲線最可能生成了我們觀測(cè)到的10個(gè)數(shù)據(jù)點(diǎn)?。最大似然估計(jì)就是尋找擬合數(shù)據(jù)的最佳曲線的參數(shù) μ\muμσ\sigmaσ 值的方法。

(10個(gè)數(shù)據(jù)點(diǎn)和可能的高斯分布。f1f1f1是均值為10、方差為2.25(方差等于標(biāo)準(zhǔn)差的平方)的正態(tài)分布,記為f1~N(10,2.25)f1 \sim N(10, 2.25)f1N(10,2.25)f2~N(10,9)f2 \sim N(10, 9)f2N(10,9)f3~N(10,0.25)f3 \sim N(10, 0.25)f3N(10,0.25)f4~N(8,2.25)f4 \sim N(8, 2.25)f4N(8,2.25)。最大似然的目的是找到參數(shù)值,使由這些參數(shù)值生成的分布可以最大化觀測(cè)到數(shù)據(jù)的概率。)

生成數(shù)據(jù)的真正分布是f1~N(10,2.25)f1 \sim N(10, 2.25)f1N(10,2.25),也就是上圖中藍(lán)色的曲線。

3. 計(jì)算最大似然估計(jì)

既然我們已經(jīng)有了對(duì)最大似然估計(jì)的直覺(jué)理解,我們可以繼續(xù)學(xué)習(xí)如何計(jì)算參數(shù)值了。我們將找的值稱為 最大似然估計(jì)(Maximum likelihood estimation, MLE)。

  • 例子:我們假設(shè)有3個(gè)數(shù)據(jù)點(diǎn),產(chǎn)生這3個(gè)數(shù)據(jù)點(diǎn)的過(guò)程可以通過(guò)高斯分布充分表達(dá)。這三個(gè)點(diǎn)分別是9、9.5、11。我們?nèi)绾斡?jì)算高斯分布的參數(shù) μ\muμσ\sigmaσ 的最大似然估計(jì)呢?

我們想要計(jì)算的是觀測(cè)到的所有數(shù)據(jù)的全概率,即所有觀測(cè)到的數(shù)據(jù)點(diǎn)的聯(lián)合概率分布。因此,我們需要計(jì)算一些條件概率,這可能會(huì)很困難。所以,這里我們將做出我們的第一個(gè)假設(shè)。我們假設(shè)每個(gè)數(shù)據(jù)點(diǎn)的生成和其他點(diǎn)是獨(dú)立的。這一假設(shè)讓數(shù)學(xué)計(jì)算變得容易很多。因?yàn)槿绻录?#xff08;即生成數(shù)據(jù)的過(guò)程)是獨(dú)立的,那么觀測(cè)到所有數(shù)據(jù)的全概率是分別觀測(cè)到的每個(gè)數(shù)據(jù)點(diǎn)的概率的乘積(即邊緣概率的乘積)。

觀測(cè)到的單個(gè)數(shù)據(jù)點(diǎn) xxx 的概率密度,即從高斯分布中產(chǎn)生的概率密度由以下公式計(jì)算:
P(x;μ,σ)=1σ2πexp?(?(x?μ)22σ2)P(x ; \mu, \sigma)=\frac{1}{\sigma \sqrt{2 \pi}} \exp \left(-\frac{(x-\mu)^{2}}{2 \sigma^{2}}\right) P(x;μ,σ)=σ2π?1?exp(?2σ2(x?μ)2?)
P(x;μ,σ)P(x ; \mu, \sigma)P(x;μ,σ) 中的分號(hào) ; 后面出現(xiàn)的符號(hào)是概率分布的參數(shù)。而不是條件概率(條件概率通常用豎線分割,例如 P(A∣B)P(A|B)P(AB)

在上面的例子中,觀測(cè)到的3個(gè)數(shù)據(jù)點(diǎn)的全(聯(lián)合)概率為:

P(9,9.5,11;μ,σ)=1σ2πexp?(?(9?μ)22σ2)×1σ2πexp?(?(9.5?μ)22σ2)×1σ2πexp?(?(11?μ)22σ2)\begin{array}{r} P(9,9.5,11 ; \mu, \sigma)=\frac{1}{\sigma \sqrt{2 \pi}} \exp \left(-\frac{(9-\mu)^{2}}{2 \sigma^{2}}\right) \times \frac{1}{\sigma \sqrt{2 \pi}} \exp \left(-\frac{(9.5-\mu)^{2}}{2 \sigma^{2}}\right) \\ \times \frac{1}{\sigma \sqrt{2 \pi}} \exp \left(-\frac{(11-\mu)^{2}}{2 \sigma^{2}}\right) \end{array} P(9,9.5,11;μ,σ)=σ2π?1?exp(?2σ2(9?μ)2?)×σ2π?1?exp(?2σ2(9.5?μ)2?)×σ2π?1?exp(?2σ2(11?μ)2?)?

我們只需找出能最大化以上表達(dá)式的值的 μ\muμσ\sigmaσ 的值。

如果你的學(xué)過(guò)微積分的話,你大概能意識(shí)到有一個(gè)幫助我們找到函數(shù)的最大(最小)值的方法,叫做微分。我們只需找到函數(shù)的導(dǎo)數(shù),將導(dǎo)數(shù)設(shè)為零,重新整理等式,將感興趣的參數(shù)放到等式的左邊。看,我們得到了參數(shù)的 MLE 值。下面將詳細(xì)講解這些步驟,不過(guò)會(huì)假設(shè)大家知道常見(jiàn)的函數(shù)如何求導(dǎo)。

3.1 對(duì)數(shù)似然

實(shí)際上,對(duì)上面的全概率表達(dá)式求導(dǎo)很麻煩。所以,我們基本上總是通過(guò)取自然對(duì)數(shù)對(duì)其加以簡(jiǎn)化。由于自然對(duì)數(shù)是單調(diào)遞增函數(shù),所以這么做沒(méi)問(wèn)題。單調(diào)遞增函數(shù)意味著隨著 xxx 軸的值增加,yyy 軸的值也同樣增加(見(jiàn)下圖)。這很重要,因?yàn)檫@確保了當(dāng)概率的對(duì)數(shù)達(dá)到最大值時(shí),原概率函數(shù)同樣達(dá)到最大值。因此我們可以操作簡(jiǎn)化了的對(duì)數(shù)似然,而不是原本的似然。


(左:原函數(shù) y=xy = xy=x 的單調(diào)性;右:(自然)對(duì)數(shù)函數(shù) y=ln(x)y = ln(x)y=ln(x) 的單調(diào)性。這兩個(gè)函數(shù)都是單調(diào)函數(shù),因?yàn)殡S著 xxx 的增加,yyy 的值也響應(yīng)的增加。)

下圖是一個(gè)非單調(diào)函數(shù)的例子。

(非單調(diào)函數(shù),因?yàn)?xxx 增加時(shí),yyy 的值先增加,接著減少,然后又重新增加。)

對(duì)原表達(dá)式取對(duì)數(shù),我們得到:
ln?(P(x;μ,σ))=ln?(1σ2π)?(9?μ)22σ2+ln?(1σ2π)?(9.5?μ)22σ2+ln?(1σ2π)?(11?μ)22σ2\begin{aligned} \ln (P(x ; \mu, \sigma))=\ln \left(\frac{1}{\sigma \sqrt{2 \pi}}\right)-\frac{(9-\mu)^{2}}{2 \sigma^{2}}+\ln \left(\frac{1}{\sigma \sqrt{2 \pi}}\right) &-\frac{(9.5-\mu)^{2}}{2 \sigma^{2}} \\ &+\ln \left(\frac{1}{\sigma \sqrt{2 \pi}}\right)-\frac{(11-\mu)^{2}}{2 \sigma^{2}} \end{aligned} ln(P(x;μ,σ))=ln(σ2π?1?)?2σ2(9?μ)2?+ln(σ2π?1?)??2σ2(9.5?μ)2?+ln(σ2π?1?)?2σ2(11?μ)2??

根據(jù)對(duì)數(shù)定律,上式可以簡(jiǎn)化為:
ln?(P(x;μ,σ))=?3ln?(σ)?32ln?(2π)?12σ2[(9?μ)2+(9.5?μ)2+(11?μ)2]\ln (P(x ; \mu, \sigma))=-3 \ln (\sigma)-\frac{3}{2} \ln (2 \pi)-\frac{1}{2 \sigma^{2}}\left[(9-\mu)^{2}+(9.5-\mu)^{2}+(11-\mu)^{2}\right] ln(P(x;μ,σ))=?3ln(σ)?23?ln(2π)?2σ21?[(9?μ)2+(9.5?μ)2+(11?μ)2]

接著,我們需要對(duì)以上表達(dá)式求導(dǎo)以找到最大值。在這個(gè)例子中,我們將尋找均值 μ\muμ 的 MLE。為此,我們求函數(shù)關(guān)于 μ\muμ 的偏導(dǎo)數(shù):

?ln?(P(x;μ,σ))?μ=1σ2[9+9.5+11?3μ]\frac{\partial \ln (P(x ; \mu, \sigma))}{\partial \mu}=\frac{1}{\sigma^{2}}[9+9.5+11-3 \mu] ?μ?ln(P(x;μ,σ))?=σ21?[9+9.5+11?3μ]

最后,我們將等式的左半部分設(shè)為 000,將 μ\muμ 移動(dòng)到等式左邊,整理后得到:

μ=9+9.5+113=9.833\mu = \frac{9+9.5+11}{3} = 9.833 μ=39+9.5+11?=9.833

這樣我們就得到了 μ\muμ 的最大似然估計(jì)。同理,我們可以求得 σ\sigmaσ 的最大似然估計(jì)。

3.2 討論

a. 最大似然估計(jì)總是能以精確的方式解決嗎?

短答案是 不。在現(xiàn)實(shí)世界的場(chǎng)景中,對(duì)數(shù)似然函數(shù)的導(dǎo)數(shù)往往難以解析(也就是說(shuō),手工求導(dǎo)太困難甚至不可能)。因此,常使用如最大期望算法之類(lèi)的迭代計(jì)算的方法尋找參數(shù)估計(jì)的數(shù)值解。不過(guò)總體思路是一樣的。

b. 為什么是最大似然,而不是最大概率?

好吧,這只是統(tǒng)計(jì)學(xué)家在賣(mài)弄學(xué)問(wèn)(不過(guò)他們的理由很充分)。大部分人傾向于混用概率和似然,但是統(tǒng)計(jì)學(xué)家和概率論學(xué)者區(qū)分了兩者。以下等式突顯了兩者之所以容易混淆的原因:
L(μ,σ;data)=P(data;μ,σ)L(\mu, \sigma; data) = P(data; \mu, \sigma) L(μ,σ;data)=P(data;μ,σ)

這兩個(gè)表達(dá)式是相等的!所以,這意味著什么?

首先,讓我們來(lái)定義 P(data;μ,σ)P(data; \mu, \sigma)P(data;μ,σ)。它的意思是"基于模型參數(shù) μ\muμσ\sigmaσ 觀測(cè)到數(shù)據(jù)的概率"。值得注意的是,我們可以將其推廣到任意數(shù)目的參數(shù)和任意分布。

而,L(μ,σ;data)L(\mu, \sigma; data)L(μ,σ;data) 的意思是"我們已經(jīng)觀測(cè)到一組數(shù)據(jù),參數(shù) μ\muμσ\sigmaσ 取特定值的似然"。

上面兩個(gè)表達(dá)式是相等意味著給定參數(shù)得到數(shù)據(jù)的概率等于給定數(shù)據(jù)得到參數(shù)的似然。然而,盡管兩者相等,似然和概率根本上問(wèn)的是不同的問(wèn)題——一為數(shù)據(jù),一為參數(shù)。這就是該方法稱做最大似然而不是最大概率的原因。

c. 什么時(shí)候最小二乘法和最大似然估計(jì)是一樣的?

最小二乘法(Least squares minimisation)是另一個(gè)估計(jì)機(jī)器學(xué)習(xí)模型參數(shù)值的常用方法。事實(shí)證明,當(dāng)模型被假定為高斯模型(如上文中的例子)時(shí)候,MLE估計(jì)等價(jià)于最小二乘法。關(guān)于兩者在數(shù)學(xué)上的深層淵源,可以參考這些幻燈片。

(帶有隨機(jī)高斯噪聲的數(shù)據(jù)點(diǎn)的回歸線。)

直觀上,我們可以通過(guò)理解兩者的目標(biāo)來(lái)解釋它們之間的聯(lián)系。最小二乘法想要找到數(shù)據(jù)點(diǎn)和回歸線之間的距離平方和最小的直線(見(jiàn)上圖)。最大似然估計(jì)想要最大化數(shù)據(jù)的全概率。如果數(shù)據(jù)點(diǎn)符合高斯分布,那么當(dāng)數(shù)據(jù)點(diǎn)接近均值時(shí),我們就找到了最大概率。由于高斯分布是對(duì)稱的,因此這等價(jià)于最小化數(shù)據(jù)點(diǎn)和均值之間的距離。

#mermaid-svg-5BlyaPrBln3PID9H {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}#mermaid-svg-5BlyaPrBln3PID9H .error-icon{fill:#552222;}#mermaid-svg-5BlyaPrBln3PID9H .error-text{fill:#552222;stroke:#552222;}#mermaid-svg-5BlyaPrBln3PID9H .edge-thickness-normal{stroke-width:2px;}#mermaid-svg-5BlyaPrBln3PID9H .edge-thickness-thick{stroke-width:3.5px;}#mermaid-svg-5BlyaPrBln3PID9H .edge-pattern-solid{stroke-dasharray:0;}#mermaid-svg-5BlyaPrBln3PID9H .edge-pattern-dashed{stroke-dasharray:3;}#mermaid-svg-5BlyaPrBln3PID9H .edge-pattern-dotted{stroke-dasharray:2;}#mermaid-svg-5BlyaPrBln3PID9H .marker{fill:#333333;stroke:#333333;}#mermaid-svg-5BlyaPrBln3PID9H .marker.cross{stroke:#333333;}#mermaid-svg-5BlyaPrBln3PID9H svg{font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;}#mermaid-svg-5BlyaPrBln3PID9H .label{font-family:"trebuchet ms",verdana,arial,sans-serif;color:#333;}#mermaid-svg-5BlyaPrBln3PID9H .cluster-label text{fill:#333;}#mermaid-svg-5BlyaPrBln3PID9H .cluster-label span{color:#333;}#mermaid-svg-5BlyaPrBln3PID9H .label text,#mermaid-svg-5BlyaPrBln3PID9H span{fill:#333;color:#333;}#mermaid-svg-5BlyaPrBln3PID9H .node rect,#mermaid-svg-5BlyaPrBln3PID9H .node circle,#mermaid-svg-5BlyaPrBln3PID9H .node ellipse,#mermaid-svg-5BlyaPrBln3PID9H .node polygon,#mermaid-svg-5BlyaPrBln3PID9H .node path{fill:#ECECFF;stroke:#9370DB;stroke-width:1px;}#mermaid-svg-5BlyaPrBln3PID9H .node .label{text-align:center;}#mermaid-svg-5BlyaPrBln3PID9H .node.clickable{cursor:pointer;}#mermaid-svg-5BlyaPrBln3PID9H .arrowheadPath{fill:#333333;}#mermaid-svg-5BlyaPrBln3PID9H .edgePath .path{stroke:#333333;stroke-width:2.0px;}#mermaid-svg-5BlyaPrBln3PID9H .flowchart-link{stroke:#333333;fill:none;}#mermaid-svg-5BlyaPrBln3PID9H .edgeLabel{background-color:#e8e8e8;text-align:center;}#mermaid-svg-5BlyaPrBln3PID9H .edgeLabel rect{opacity:0.5;background-color:#e8e8e8;fill:#e8e8e8;}#mermaid-svg-5BlyaPrBln3PID9H .cluster rect{fill:#ffffde;stroke:#aaaa33;stroke-width:1px;}#mermaid-svg-5BlyaPrBln3PID9H .cluster text{fill:#333;}#mermaid-svg-5BlyaPrBln3PID9H .cluster span{color:#333;}#mermaid-svg-5BlyaPrBln3PID9H div.mermaidTooltip{position:absolute;text-align:center;max-width:200px;padding:2px;font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:12px;background:hsl(80, 100%, 96.2745098039%);border:1px solid #aaaa33;border-radius:2px;pointer-events:none;z-index:100;}#mermaid-svg-5BlyaPrBln3PID9H :root{--mermaid-font-family:"trebuchet ms",verdana,arial,sans-serif;}完

總結(jié)

以上是生活随笔為你收集整理的概率论简明教程_Chapter-02_最大似然估计的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。