日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

模式识别与机器学习笔记(二)机器学习的基础理论

發(fā)布時(shí)間:2024/7/23 编程问答 39 豆豆
生活随笔 收集整理的這篇文章主要介紹了 模式识别与机器学习笔记(二)机器学习的基础理论 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

機(jī)器學(xué)習(xí)是一門對數(shù)學(xué)有很高要求的學(xué)科,在正式開始學(xué)習(xí)之前,我們需要掌握一定的數(shù)學(xué)理論,主要包括概率論、決策論、信息論。

一、極大似然估計(jì)(Maximam Likelihood Estimation,MLE )

在了解極大似然估計(jì)之前,我們首先要明確什么是似然函數(shù)(likelihood function),對于p(x∣θ)p(x|θ)p(xθ)
當(dāng)θθθ是已知,xxx是變量,p(x∣θ)p(x|θ)p(xθ)表示概率函數(shù),描述的是xxx出現(xiàn)的概率是多少;
當(dāng)xxx是已知,θθθ是變量,p(x∣θ)p(x|θ)p(xθ)表示似然函數(shù),描述的是對于不同的模型(θθθ決定)出現(xiàn)樣本點(diǎn)xxx的概率是多少。
似然可以理解為概率,只是表征的含義不同,通常利用求極大似然來確定模型參數(shù),極大似然的描述如下:
極大似然估計(jì)是一種已知樣本,估計(jì)參數(shù)的方法。通過給定樣本集DDD估計(jì)假定模型的參數(shù),極大似然估計(jì)可以幫助我們從參數(shù)空間中選擇參數(shù),使該參數(shù)下的模型產(chǎn)生DDD的概率最大

1.求解極大似然函數(shù)
重要前提:訓(xùn)練樣本的分布能夠代表樣本的真實(shí)分布,每個(gè)樣本集中的樣本都是獨(dú)立同分布的隨機(jī)變量,并且有充分的訓(xùn)練樣本。
已知樣本集D={x1,x2,x3,...,xmx_1,x_2,x_3,...,x_mx1?,x2?,x3?,...,xm?},{y1,y2,y3,...,ymy_1,y_2,y_3,...,y_my1?,y2?,y3?,...,ym?},則似然函數(shù)表示為
L(θ)=p(y∣x;θ)=∏i=1mp(y(i)∣x(i);θ)L(θ)=p(y|x;θ)=\displaystyle\prod_{i=1}^{m} p(y^{(i)}|x^{(i)};θ)L(θ)=p(yx;θ)=i=1m?p(y(i)x(i);θ)
確定θθθ使模型出現(xiàn)樣本集D的概率(表示為條件概率)最高即為我們所求,即
θ=argmaxL(θ)=argmax∏i=1mp(y(i)∣x(i);θ)θ=argmaxL(θ)=argmax\displaystyle\prod_{i=1}^{m} p(y^{(i)}|x^{(i)};θ)θ=argmaxL(θ)=argmaxi=1m?p(y(i)x(i);θ)
為便于計(jì)算與分析,定義了對數(shù)似然函數(shù)H(θ)=logL(θ)H(θ)=logL(θ)H(θ)=logL(θ)θ=argmax∑i=1mlogp(y(i)∣x(i);θ)θ=argmax\displaystyle\sum_{i=1}^{m}logp(y^{(i)}|x^{(i)};θ)θ=argmaxi=1m?logp(y(i)x(i);θ),現(xiàn)在我們確定了目標(biāo)函數(shù)H(θ)H(θ)H(θ),需要求得一組θθθ使H(θ)H(θ)H(θ)最大,可以通過求導(dǎo)數(shù)的方法解決這個(gè)問題,以高斯分布的參數(shù)估計(jì)(Gaussian Parameter Estimation)為例,求解過程如下,
設(shè)樣本服從正態(tài)分布N(μ,σ2)N(μ,σ^2)N(μ,σ2),首先寫出似然函數(shù)L(μ,σ2)=p(x;μ,σ2)=∏n=1NN(xn;μ,σ2)L(μ,σ^2)=p(x;μ,σ^2)=\displaystyle\prod_{n=1}^{N}N(x_n;μ,σ^2)L(μ,σ2)=p(x;μ,σ2)=n=1N?N(xn?;μ,σ2)

L(μ,σ2)L(μ,σ^2)L(μ,σ2)的對數(shù)為:

求導(dǎo),得方程組:

解得:

???????

2.誤差平方和的解釋
在模式識別與機(jī)器學(xué)習(xí)(一)中我們講到采用誤差平方和原理來求解多項(xiàng)式系數(shù),為何使用誤差平方和作為衡量模型精度的標(biāo)準(zhǔn)呢?用極大似然估計(jì)可以解釋。
我們觀察下圖,這是上一節(jié)課中講到的多項(xiàng)式曲線擬合模型,紅色曲線代表擬合結(jié)果,藍(lán)色點(diǎn)代表樣本點(diǎn)。

我們把每一個(gè)xxx看作獨(dú)立的隨機(jī)變量,對應(yīng)的樣本點(diǎn)ttt服從均值為y(x0,w)y(x_0,w)y(x0?,w)的正態(tài)分布(一般來講,誤差服從均值為零的正態(tài)分布,平移y(x0,w)y(x_0,w)y(x0?,w)個(gè)單位),即p(t∣x0,w,β)=N(t∣y(x0,w),β?1)p(t|x_0,w,β)=N(t|y(x_0,w),β^{-1})p(tx0?,w,β)=N(ty(x0?,w),β?1),利用極大似然估計(jì),使ttt出現(xiàn)的概率最大,p(t∣x,w,β)=∏n=1NN(tn∣y(xn,w),β?1)p(t|x,w,β)=\displaystyle\prod_{n=1}^{N}N(t_n|y(x_n,w),β^{-1})p(tx,w,β)=n=1N?N(tn?y(xn?,w),β?1)ln?p(t∣x,w,β)=?β2∑n=1N{y(xn,w)?tn}2+N2ln?β?N2ln?(2π)\ln p(t|x,w,β)=-\frac{β}{2}\displaystyle\sum_{n=1}^{N}\{y(x_n,w)-t_n\}^2+\frac{N}{2}\lnβ-\frac{N}{2}\ln(2π)lnp(tx,w,β)=?2β?n=1N?{y(xn?,w)?tn?}2+2N?lnβ?2N?ln(2π),觀察此式,我們想要求得此式的極大值,則需使12∑n=1N{y(xn,w)?tn}2\frac{1}{2}\displaystyle\sum_{n=1}^{N}\{y(x_n,w)-t_n\}^221?n=1N?{y(xn?,w)?tn?}2取得最小值,得證。

極大似然估計(jì)是三種機(jī)器學(xué)習(xí)方法中最基礎(chǔ)的一種,其余兩種分別是貝葉斯估計(jì)方法和貝葉斯學(xué)習(xí)方法,極大似然估計(jì)和貝葉斯估計(jì)的計(jì)算結(jié)果是精確的參數(shù)值,而貝葉斯學(xué)習(xí)的計(jì)算結(jié)果是概率區(qū)間,在后邊我們會(huì)單獨(dú)一章細(xì)致地進(jìn)行學(xué)習(xí),這三種方法是機(jī)器學(xué)習(xí)的主線,掌握這三種方法的原理才能對后邊各種模型的學(xué)習(xí)和理解游刃有余。

3.貝葉斯估計(jì)(最大后驗(yàn)概率,MAP)
我們需要知道,使用極大似然估計(jì)方法容易使模型產(chǎn)生過擬合,在上一章中我們解決的辦法是增加正則項(xiàng),并且證明了正則項(xiàng)有效地解決了過擬合問題。現(xiàn)在我們嘗試從貝葉斯估計(jì)的角度推導(dǎo)出正則項(xiàng)的由來與合理性。

由貝葉斯公式我們得知,posterior∝likelihood×priorposterior∝likelihood×priorposteriorlikelihood×prior,即后驗(yàn)概率可由似然與先驗(yàn)概率相乘得到,之前講到的極大似然估計(jì),我們僅僅用到了likelihoodlikelihoodlikelihood,現(xiàn)在我們假設(shè)參數(shù)有一個(gè)先驗(yàn)概率,如此便可通過公式求得后驗(yàn)概率,接下來與極大似然類似的,使后驗(yàn)概率最大,求得模型參數(shù)。
假定對參數(shù)www,先驗(yàn)概率為p(w∣α)=N(w∣0,α?1I)=(α2π)(M+1)/2exp{?α2wTw}p(w|α)=N(w|0,α^{-1}I)=(\frac{α}{2π})^{(M+1)/2}exp\{-\frac{α}{2}w^Tw\}p(wα)=N(w0,α?1I)=(2πα?)(M+1)/2exp{?2α?wTw},
根據(jù)貝葉斯公式,求得后驗(yàn)概率p(w∣x,t,α,β)∝p(t∣x,w,β)×p(w∣α)p(w|x,t,α,β)∝p(t|x,w,β)×p(w|α)p(wx,t,α,β)p(tx,w,β)×p(wα),將似然函數(shù)與先驗(yàn)概率帶入式中得到后驗(yàn)概率的數(shù)學(xué)表達(dá)式。欲使后驗(yàn)概率獲得最大值,等價(jià)于βE(w)=β2∑n=1N{y(xn,w)?tn}2+α2wTwβE(w)=\frac{β}{2}\displaystyle\sum_{n=1}^{N}\{y(x_n,w)-t_n\}^2+\frac{α}{2}w^TwβE(w)=2β?n=1N?{y(xn?,w)?tn?}2+2α?wTw取得最小值,我們發(fā)現(xiàn),表達(dá)式中α2wTw\frac{α}{2}w^Tw2α?wTw即為前述的正則項(xiàng),得證。
極大似然估計(jì)易導(dǎo)致過擬合,貝葉斯估計(jì)為參數(shù)提供了先驗(yàn)概率,形式上增加了正則函數(shù),結(jié)果上抑制了過擬合的產(chǎn)生

二、概率論基礎(chǔ)(Probability Theory)

1.p(X)=∑Yp(X,Y)p(X)=\displaystyle\sum_Yp(X,Y)p(X)=Y?p(X,Y)?????????p(X,Y)=p(Y∣X)p(X)p(X,Y)=p(Y|X)p(X)p(X,Y)=p(YX)p(X)
2.貝葉斯理論(Bayes’Theorem)
p(Y∣X)=p(X∣Y)p(Y)p(X)p(Y|X)=\frac{p(X|Y)p(Y)}{p(X)}p(YX)=p(X)p(XY)p(Y)? ????????? posterior∝likelihood×priorposterior∝likelihood×priorposteriorlikelihood×prior
3.概率函數(shù)
累積分布函數(shù):描述隨機(jī)變量取值分布規(guī)律的數(shù)學(xué)表示,表示對于任何實(shí)數(shù)xxx,事件X&lt;xX&lt;xX<x的概率。
概率密度函數(shù):描述隨機(jī)變量的輸出值,在某個(gè)確定的取值點(diǎn)附近的可能性的函數(shù)。隨機(jī)變量的取值落在某個(gè)區(qū)域之內(nèi)的概率為概率密度函數(shù)在這個(gè)區(qū)域上的積分。當(dāng)概率密度函數(shù)存在的時(shí)候,累積分布函數(shù)是概率密度函數(shù)的積分。概率密度函數(shù)表示的是概率的分布情況,在某個(gè)點(diǎn)取值高說明樣本在該點(diǎn)附近出現(xiàn)的概率大

p(x)p(x)p(x)表示概率密度函數(shù),P(x)P(x)P(x)表示概率分布函數(shù)。
p(x∈(a,b))=∫abp(x)dxp(x∈(a,b))=\int_a^bp(x)dxp(x(a,b))=ab?p(x)dx? ? ? ? ? ?p(x)≥0p(x)≥0p(x)0? ? ? ? ? ?∫?∞∞p(x)dx=1\int_{-∞}^{∞}p(x)dx=1??p(x)dx=1? ? ? ? ? ?P(z)=∫?∞zp(x)dxP(z)=\int_{-∞}^{z}p(x)dxP(z)=?z?p(x)dx

數(shù)學(xué)期望:試驗(yàn)中每次可能結(jié)果的概率乘以其結(jié)果的總和,數(shù)學(xué)期望可以理解為均值。
E[f]=∑xp(x)f(x)E[f]=\displaystyle\sum_xp(x)f(x)E[f]=x?p(x)f(x)? ? ? ? ? ?E[f]=∫p(x)f(x)dxE[f]=\int p(x)f(x)dxE[f]=p(x)f(x)dx
4.高斯分布(Gaussian Distribution)
若隨機(jī)變量X服從一個(gè)數(shù)學(xué)期望為μμμ、標(biāo)準(zhǔn)方差為σ2σ^2σ2的高斯分布,記為:XXX~N(μ,σ2)N(μ,σ^2)N(μ,σ2),概率密度如下圖所示,

N(x∣μ,σ2)=1(2πσ2)1/2exp{?12σ2(x?μ)2}N(x|μ,σ^2)=\frac{1}{(2πσ^2)^{1/2}}exp\{-\frac{1}{2σ^2}(x-μ)^2\}N(xμ,σ2)=(2πσ2)1/21?exp{?2σ21?(x?μ)2}? ? ? ? ? ?N(x∣μ,σ2)&gt;0N(x|μ,σ^2)&gt;0N(xμ,σ2)>0? ? ? ? ? ?∫?∞∞N(x∣μ,σ2)dx=1\int_{-∞}^{∞}N(x|μ,σ^2)dx=1??N(xμ,σ2)dx=1
E[x]=∫?∞∞N(x∣μ,σ2)xdx=μE[x]=\int_{-∞}^{∞}N(x|μ,σ^2)xdx=μE[x]=??N(xμ,σ2)xdx=μ? ? ? ? ? ?E[x2]=∫?∞∞N(x∣μ,σ2)x2dx=μ2+σ2E[x^2]=\int_{-∞}^{∞}N(x|μ,σ^2)x^2dx=μ^2+σ^2E[x2]=??N(xμ,σ2)x2dx=μ2+σ2
二元高斯分布如下圖所示,

三、信息熵(Entropy)

信息熵在編碼學(xué)、統(tǒng)計(jì)學(xué)、物理學(xué)、機(jī)器學(xué)習(xí)中有很重要的應(yīng)用,我們有必要對信息熵的相關(guān)知識具備一定程度的了解。

1.信息量
信息量用一個(gè)信息的編碼長度來定義,一個(gè)信息的編碼長度與其出現(xiàn)概率是呈負(fù)相關(guān)的,可以理解為為使總信息編碼量最低,出現(xiàn)高概率的的信息編碼長度應(yīng)相對短,也就是說,一個(gè)詞出現(xiàn)的越頻繁,則其編碼方式也就越短。信息量計(jì)算方法為,
I=log?2(1p(x))=?log?2(p(x))I=\log_2(\frac{1}{p(x)})=-\log_2(p(x))I=log2?(p(x)1?)=?log2?(p(x))

2.信息熵
信息熵代表一個(gè)分布的信息量(信息量的均值),或者編碼的平均長度,
H(p)=∑xp(x)log?2(1p(x))=?∑xp(x)log?2(p(x))H(p)=\displaystyle\sum_xp(x)\log_2(\frac{1}{p(x)})=-\displaystyle\sum_xp(x)\log_2(p(x))H(p)=x?p(x)log2?(p(x)1?)=?x?p(x)log2?(p(x))
從數(shù)學(xué)公式中可以看出,信息熵實(shí)際上是一個(gè)隨機(jī)變量的信息量的數(shù)學(xué)期望,那么信息熵的含義是什么呢?信息熵是系統(tǒng)有序化程度的度量,系統(tǒng)越有序,信息熵越低,也就是說,系統(tǒng)中各種隨機(jī)性的概率越均等,不確定性越高,信息熵越大,反之越小。為什么有這種對應(yīng)關(guān)系呢?我們假設(shè)系統(tǒng)有兩個(gè)事件AAABBB,當(dāng)P(A)=P(B)=12P(A)=P(B)=\frac{1}{2}P(A)=P(B)=21?時(shí),我們無法判斷會(huì)發(fā)生事件AAA還是BBB,這時(shí)系統(tǒng)的不確定性高、系統(tǒng)無序;當(dāng)P(A)=99100P(A)=\frac{99}{100}P(A)=10099?P(B)=1100P(B)=\frac{1}{100}P(B)=1001?,此時(shí)大概率發(fā)生事件AAA,系統(tǒng)具有一定的確定性、相對有序。前者信息熵高,后者信息熵低。
接下來我們舉一個(gè)信息熵計(jì)算的例子,如下所示,

H(p)=?12log?212?14log?214?18log?218?116log?2116?464log?2164=2bitsH(p)=-\frac{1}{2}\log_2\frac{1}{2}-\frac{1}{4}\log_2\frac{1}{4}-\frac{1}{8}\log_2\frac{1}{8}-\frac{1}{16}\log_2\frac{1}{16}-\frac{4}{64}\log_2\frac{1}{64}=2bitsH(p)=?21?log2?21??41?log2?41??81?log2?81??161?log2?161??644?log2?641?=2bits

averageaverageaverage codecodecode lengthlengthlength=12×1+14×2+18×3+116×4+4×116×6=2bits=\frac{1}{2}×1+\frac{1}{4}×2+\frac{1}{8}×3+\frac{1}{16}×4+4×\frac{1}{16}×6=2bits=21?×1+41?×2+81?×3+161?×4+4×161?×6=2bits
信息熵代表編碼的平均長度。

3.相對熵(KL散度)
相對熵又稱KL散度,對于同一個(gè)隨機(jī)變量xxx有兩個(gè)單獨(dú)的概率分布p(x)p(x)p(x)q(x)q(x)q(x),我們可以用KL散度(Kullback-Leibler Divergence)來衡量這兩個(gè)分布的差異。在機(jī)器學(xué)習(xí)中,P表示樣本的真實(shí)分布,Q表示模型預(yù)測的分布。
KL散度的計(jì)算公式為:pppqqq的相對熵DKL(p∣∣q)=∑i=1np(xi)log?(p(xi)q(xi))D_{KL}(p||q)=\displaystyle\sum_{i=1}^{n}p(x_i)\log(\frac{p(x_i)}{q(x_i)})DKL?(pq)=i=1n?p(xi?)log(q(xi?)p(xi?)?)DKLD_{KL}DKL?的值越小,表示qqq分布和ppp分布越接近。

4.交叉熵(cross-entropy)
DKLD_{KL}DKL?可以變形得到DKL=∑i=1np(xi)log?p(xi)?∑i=1np(xi)log?q(xi)=?H(p(x))+[?∑i=1np(xi)log?q(xi)]D_{KL}=\displaystyle\sum_{i=1}^np(x_i)\log p(x_i)-\displaystyle\sum_{i=1}^np(x_i)\log q(x_i)=-H(p(x))+[-\displaystyle\sum_{i=1}^np(x_i)\log q(x_i)]DKL?=i=1n?p(xi?)logp(xi?)?i=1n?p(xi?)logq(xi?)=?H(p(x))+[?i=1n?p(xi?)logq(xi?)],等式的前一部分是ppp的信息熵,等式的后一部分就是交叉熵,
H(p,q)=?∑i=1np(xi)log?q(xi)H(p,q)=-\displaystyle\sum_{i=1}^np(x_i)\log q(x_i)H(p,q)=?i=1n?p(xi?)logq(xi?)。在機(jī)器學(xué)習(xí)中,需要評估labellabellabelpredictpredictpredict之間的差距,應(yīng)使用相對熵來衡量,由于DKLD_{KL}DKL?的前一部分不變,所以在優(yōu)化過程中,只需關(guān)注交叉熵即可,因此在機(jī)器學(xué)習(xí)中常常用交叉熵作為losslossloss來評估模型。

未完待續(xù)

總結(jié)

以上是生活随笔為你收集整理的模式识别与机器学习笔记(二)机器学习的基础理论的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。