當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

模式识别与机器学习笔记（二）机器学习的基础理论

發(fā)布時(shí)間：2024/7/23 编程问答 39 豆豆

生活随笔收集整理的這篇文章主要介紹了模式识别与机器学习笔记（二）机器学习的基础理论小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

機(jī)器學(xué)習(xí)是一門對數(shù)學(xué)有很高要求的學(xué)科，在正式開始學(xué)習(xí)之前，我們需要掌握一定的數(shù)學(xué)理論，主要包括概率論、決策論、信息論。

一、極大似然估計(jì)（Maximam Likelihood Estimation，MLE ）

在了解極大似然估計(jì)之前，我們首先要明確什么是似然函數(shù)（likelihood function），對于 $p (x ∣ θ)$ ，
當(dāng) $θ$ 是已知， $x$ 是變量， $p (x ∣ θ)$ 表示概率函數(shù)，描述的是 $x$ 出現(xiàn)的概率是多少；
當(dāng) $x$ 是已知， $θ$ 是變量， $p (x ∣ θ)$ 表示似然函數(shù)，描述的是對于不同的模型（ $θ$ 決定）出現(xiàn)樣本點(diǎn) $x$ 的概率是多少。
似然可以理解為概率，只是表征的含義不同，通常利用求極大似然來確定模型參數(shù)，極大似然的描述如下：
極大似然估計(jì)是一種已知樣本，估計(jì)參數(shù)的方法。通過給定樣本集 $D$ 估計(jì)假定模型的參數(shù)，極大似然估計(jì)可以幫助我們從參數(shù)空間中選擇參數(shù)，使該參數(shù)下的模型產(chǎn)生 $D$ 的概率最大。

1.求解極大似然函數(shù)
重要前提：訓(xùn)練樣本的分布能夠代表樣本的真實(shí)分布，每個(gè)樣本集中的樣本都是獨(dú)立同分布的隨機(jī)變量，并且有充分的訓(xùn)練樣本。
已知樣本集D={ $x_1,x_2,x_3,...,x_m$ }，{ $y_1,y_2,y_3,...,y_m$ }，則似然函數(shù)表示為
$L(θ)=p(y∣x;θ)=∏i=1mp(y(i)∣x(i);θ)L(θ)=p(y|x;θ)=\displaystyle\prod_{i=1}^{m} p(y^{(i)}|x^{(i)};θ)$ ，
確定 $θ$ 使模型出現(xiàn)樣本集D的概率（表示為條件概率）最高即為我們所求，即
$θ=argmaxL(θ)=argmax∏i=1mp(y(i)∣x(i);θ)θ=argmaxL(θ)=argmax\displaystyle\prod_{i=1}^{m} p(y^{(i)}|x^{(i)};θ)$ ，
為便于計(jì)算與分析，定義了對數(shù)似然函數(shù) $H (θ) = l o g L (θ)$ ， $θ=argmax∑i=1mlogp(y(i)∣x(i);θ)θ=argmax\displaystyle\sum_{i=1}^{m}logp(y^{(i)}|x^{(i)};θ)$ ，現(xiàn)在我們確定了目標(biāo)函數(shù) $H (θ)$ ，需要求得一組 $θ$ 使 $H (θ)$ 最大，可以通過求導(dǎo)數(shù)的方法解決這個(gè)問題，以高斯分布的參數(shù)估計(jì)（Gaussian Parameter Estimation）為例，求解過程如下，
設(shè)樣本服從正態(tài)分布 $N(μ,σ^2)$ ，首先寫出似然函數(shù) $L(μ,σ2)=p(x;μ,σ2)=∏n=1NN(xn;μ,σ2)L(μ,σ^2)=p(x;μ,σ^2)=\displaystyle\prod_{n=1}^{N}N(x_n;μ,σ^2)$

$L(μ,σ^2)$ 的對數(shù)為：

求導(dǎo)，得方程組：

解得：

???????

2.誤差平方和的解釋
在模式識別與機(jī)器學(xué)習(xí)（一）中我們講到采用誤差平方和原理來求解多項(xiàng)式系數(shù)，為何使用誤差平方和作為衡量模型精度的標(biāo)準(zhǔn)呢？用極大似然估計(jì)可以解釋。
我們觀察下圖，這是上一節(jié)課中講到的多項(xiàng)式曲線擬合模型，紅色曲線代表擬合結(jié)果，藍(lán)色點(diǎn)代表樣本點(diǎn)。

我們把每一個(gè) $x$ 看作獨(dú)立的隨機(jī)變量，對應(yīng)的樣本點(diǎn) $t$ 服從均值為 $y(x_0,w)$ 的正態(tài)分布（一般來講，誤差服從均值為零的正態(tài)分布，平移 $y(x_0,w)$ 個(gè)單位），即 $p(t|x_0,w,β)=N(t|y(x_0,w),β^{-1})$ ，利用極大似然估計(jì)，使 $t$ 出現(xiàn)的概率最大， $p(t∣x,w,β)=∏n=1NN(tn∣y(xn,w),β?1)p(t|x,w,β)=\displaystyle\prod_{n=1}^{N}N(t_n|y(x_n,w),β^{-1})$ ， $ln?p(t∣x,w,β)=?β2∑n=1N{y(xn,w)?tn}2+N2ln?β?N2ln?(2π)\ln p(t|x,w,β)=-\frac{β}{2}\displaystyle\sum_{n=1}^{N}\{y(x_n,w)-t_n\}^2+\frac{N}{2}\lnβ-\frac{N}{2}\ln(2π)$ ，觀察此式，我們想要求得此式的極大值，則需使 $12∑n=1N{y(xn,w)?tn}2\frac{1}{2}\displaystyle\sum_{n=1}^{N}\{y(x_n,w)-t_n\}^2$ 取得最小值，得證。

極大似然估計(jì)是三種機(jī)器學(xué)習(xí)方法中最基礎(chǔ)的一種，其余兩種分別是貝葉斯估計(jì)方法和貝葉斯學(xué)習(xí)方法，極大似然估計(jì)和貝葉斯估計(jì)的計(jì)算結(jié)果是精確的參數(shù)值，而貝葉斯學(xué)習(xí)的計(jì)算結(jié)果是概率區(qū)間，在后邊我們會(huì)單獨(dú)一章細(xì)致地進(jìn)行學(xué)習(xí)，這三種方法是機(jī)器學(xué)習(xí)的主線，掌握這三種方法的原理才能對后邊各種模型的學(xué)習(xí)和理解游刃有余。

3.貝葉斯估計(jì)（最大后驗(yàn)概率，MAP）
我們需要知道，使用極大似然估計(jì)方法容易使模型產(chǎn)生過擬合，在上一章中我們解決的辦法是增加正則項(xiàng)，并且證明了正則項(xiàng)有效地解決了過擬合問題。現(xiàn)在我們嘗試從貝葉斯估計(jì)的角度推導(dǎo)出正則項(xiàng)的由來與合理性。

由貝葉斯公式我們得知， $p o s t e r i o r \propto l i k e l i h o o d \times p r i o r$ ，即后驗(yàn)概率可由似然與先驗(yàn)概率相乘得到，之前講到的極大似然估計(jì)，我們僅僅用到了 $l i k e l i h o o d$ ，現(xiàn)在我們假設(shè)參數(shù)有一個(gè)先驗(yàn)概率，如此便可通過公式求得后驗(yàn)概率，接下來與極大似然類似的，使后驗(yàn)概率最大，求得模型參數(shù)。
假定對參數(shù) $w$ ，先驗(yàn)概率為 $p(w∣α)=N(w∣0,α?1I)=(α2π)(M+1)/2exp{?α2wTw}p(w|α)=N(w|0,α^{-1}I)=(\frac{α}{2π})^{(M+1)/2}exp\{-\frac{α}{2}w^Tw\}$ ,
根據(jù)貝葉斯公式，求得后驗(yàn)概率 $p (w ∣ x, t, α, β) \propto p (t ∣ x, w, β) \times p (w ∣ α)$ ，將似然函數(shù)與先驗(yàn)概率帶入式中得到后驗(yàn)概率的數(shù)學(xué)表達(dá)式。欲使后驗(yàn)概率獲得最大值，等價(jià)于 $βE(w)=β2∑n=1N{y(xn,w)?tn}2+α2wTwβE(w)=\frac{β}{2}\displaystyle\sum_{n=1}^{N}\{y(x_n,w)-t_n\}^2+\frac{α}{2}w^Tw$ 取得最小值，我們發(fā)現(xiàn)，表達(dá)式中 $α2wTw\frac{α}{2}w^Tw$ 即為前述的正則項(xiàng)，得證。
極大似然估計(jì)易導(dǎo)致過擬合，貝葉斯估計(jì)為參數(shù)提供了先驗(yàn)概率，形式上增加了正則函數(shù)，結(jié)果上抑制了過擬合的產(chǎn)生。

二、概率論基礎(chǔ)（Probability Theory）

1. $p(X)=∑Yp(X,Y)p(X)=\displaystyle\sum_Yp(X,Y)$ ????????? $p (X, Y) = p (Y ∣ X) p (X)$
2.貝葉斯理論（Bayes’Theorem）
$p(Y∣X)=p(X∣Y)p(Y)p(X)p(Y|X)=\frac{p(X|Y)p(Y)}{p(X)}$ ????????? $p o s t e r i o r \propto l i k e l i h o o d \times p r i o r$
3.概率函數(shù)
累積分布函數(shù)：描述隨機(jī)變量取值分布規(guī)律的數(shù)學(xué)表示，表示對于任何實(shí)數(shù) $x$ ，事件 $X < x$ 的概率。
概率密度函數(shù)：描述隨機(jī)變量的輸出值，在某個(gè)確定的取值點(diǎn)附近的可能性的函數(shù)。隨機(jī)變量的取值落在某個(gè)區(qū)域之內(nèi)的概率為概率密度函數(shù)在這個(gè)區(qū)域上的積分。當(dāng)概率密度函數(shù)存在的時(shí)候，累積分布函數(shù)是概率密度函數(shù)的積分。概率密度函數(shù)表示的是概率的分布情況，在某個(gè)點(diǎn)取值高說明樣本在該點(diǎn)附近出現(xiàn)的概率大。

$p (x)$ 表示概率密度函數(shù)， $P (x)$ 表示概率分布函數(shù)。
$p(x∈(a,b))=∫abp(x)dxp(x∈(a,b))=\int_a^bp(x)dx$ ? ? ? ? ? ? $p (x) \geq 0$ ? ? ? ? ? ? $∫?∞∞p(x)dx=1\int_{-∞}^{∞}p(x)dx=1$ ? ? ? ? ? ? $P(z)=∫?∞zp(x)dxP(z)=\int_{-∞}^{z}p(x)dx$

數(shù)學(xué)期望：試驗(yàn)中每次可能結(jié)果的概率乘以其結(jié)果的總和，數(shù)學(xué)期望可以理解為均值。
$E[f]=∑xp(x)f(x)E[f]=\displaystyle\sum_xp(x)f(x)$ ? ? ? ? ? ? $E[f]=∫p(x)f(x)dxE[f]=\int p(x)f(x)dx$
4.高斯分布（Gaussian Distribution）
若隨機(jī)變量X服從一個(gè)數(shù)學(xué)期望為 $μ$ 、標(biāo)準(zhǔn)方差為 $σ^2$ 的高斯分布，記為： $X$ ~ $N(μ,σ^2)$ ，概率密度如下圖所示，

$N(x∣μ,σ2)=1(2πσ2)1/2exp{?12σ2(x?μ)2}N(x|μ,σ^2)=\frac{1}{(2πσ^2)^{1/2}}exp\{-\frac{1}{2σ^2}(x-μ)^2\}$ ? ? ? ? ? ? $N(x|μ,σ^2)>0$ ? ? ? ? ? ? $∫?∞∞N(x∣μ,σ2)dx=1\int_{-∞}^{∞}N(x|μ,σ^2)dx=1$
$E[x]=∫?∞∞N(x∣μ,σ2)xdx=μE[x]=\int_{-∞}^{∞}N(x|μ,σ^2)xdx=μ$ ? ? ? ? ? ? $E[x2]=∫?∞∞N(x∣μ,σ2)x2dx=μ2+σ2E[x^2]=\int_{-∞}^{∞}N(x|μ,σ^2)x^2dx=μ^2+σ^2$
二元高斯分布如下圖所示，

三、信息熵（Entropy）

信息熵在編碼學(xué)、統(tǒng)計(jì)學(xué)、物理學(xué)、機(jī)器學(xué)習(xí)中有很重要的應(yīng)用，我們有必要對信息熵的相關(guān)知識具備一定程度的了解。

1.信息量
信息量用一個(gè)信息的編碼長度來定義，一個(gè)信息的編碼長度與其出現(xiàn)概率是呈負(fù)相關(guān)的，可以理解為為使總信息編碼量最低，出現(xiàn)高概率的的信息編碼長度應(yīng)相對短，也就是說，一個(gè)詞出現(xiàn)的越頻繁,則其編碼方式也就越短。信息量計(jì)算方法為，
$I=log?2(1p(x))=?log?2(p(x))I=\log_2(\frac{1}{p(x)})=-\log_2(p(x))$

2.信息熵
信息熵代表一個(gè)分布的信息量（信息量的均值），或者編碼的平均長度，
$H(p)=∑xp(x)log?2(1p(x))=?∑xp(x)log?2(p(x))H(p)=\displaystyle\sum_xp(x)\log_2(\frac{1}{p(x)})=-\displaystyle\sum_xp(x)\log_2(p(x))$
從數(shù)學(xué)公式中可以看出，信息熵實(shí)際上是一個(gè)隨機(jī)變量的信息量的數(shù)學(xué)期望，那么信息熵的含義是什么呢？信息熵是系統(tǒng)有序化程度的度量，系統(tǒng)越有序，信息熵越低，也就是說，系統(tǒng)中各種隨機(jī)性的概率越均等，不確定性越高，信息熵越大，反之越小。為什么有這種對應(yīng)關(guān)系呢？我們假設(shè)系統(tǒng)有兩個(gè)事件 $A$ 和 $B$ ，當(dāng) $P(A)=P(B)=12P(A)=P(B)=\frac{1}{2}$ 時(shí)，我們無法判斷會(huì)發(fā)生事件 $A$ 還是 $B$ ，這時(shí)系統(tǒng)的不確定性高、系統(tǒng)無序；當(dāng) $P(A)=99100P(A)=\frac{99}{100}$ ， $P(B)=1100P(B)=\frac{1}{100}$ ，此時(shí)大概率發(fā)生事件 $A$ ，系統(tǒng)具有一定的確定性、相對有序。前者信息熵高，后者信息熵低。
接下來我們舉一個(gè)信息熵計(jì)算的例子，如下所示，

$H(p)=?12log?212?14log?214?18log?218?116log?2116?464log?2164=2bitsH(p)=-\frac{1}{2}\log_2\frac{1}{2}-\frac{1}{4}\log_2\frac{1}{4}-\frac{1}{8}\log_2\frac{1}{8}-\frac{1}{16}\log_2\frac{1}{16}-\frac{4}{64}\log_2\frac{1}{64}=2bits$

$a v e r a g e$ $c o d e$ $l e n g t h$ $=12×1+14×2+18×3+116×4+4×116×6=2bits=\frac{1}{2}×1+\frac{1}{4}×2+\frac{1}{8}×3+\frac{1}{16}×4+4×\frac{1}{16}×6=2bits$
信息熵代表編碼的平均長度。

3.相對熵（KL散度）
相對熵又稱KL散度，對于同一個(gè)隨機(jī)變量 $x$ 有兩個(gè)單獨(dú)的概率分布 $p (x)$ 和 $q (x)$ ，我們可以用KL散度(Kullback-Leibler Divergence)來衡量這兩個(gè)分布的差異。在機(jī)器學(xué)習(xí)中，P表示樣本的真實(shí)分布，Q表示模型預(yù)測的分布。
KL散度的計(jì)算公式為： $p$ 對 $q$ 的相對熵 $DKL(p∣∣q)=∑i=1np(xi)log?(p(xi)q(xi))D_{KL}(p||q)=\displaystyle\sum_{i=1}^{n}p(x_i)\log(\frac{p(x_i)}{q(x_i)})$ ， $D_{KL}$ 的值越小，表示 $q$ 分布和 $p$ 分布越接近。

4.交叉熵（cross-entropy）
$D_{KL}$ 可以變形得到 $DKL=∑i=1np(xi)log?p(xi)?∑i=1np(xi)log?q(xi)=?H(p(x))+[?∑i=1np(xi)log?q(xi)]D_{KL}=\displaystyle\sum_{i=1}^np(x_i)\log p(x_i)-\displaystyle\sum_{i=1}^np(x_i)\log q(x_i)=-H(p(x))+[-\displaystyle\sum_{i=1}^np(x_i)\log q(x_i)]$ ，等式的前一部分是 $p$ 的信息熵，等式的后一部分就是交叉熵，
$H(p,q)=?∑i=1np(xi)log?q(xi)H(p,q)=-\displaystyle\sum_{i=1}^np(x_i)\log q(x_i)$ 。在機(jī)器學(xué)習(xí)中，需要評估 $l a b e l$ 和 $p r e d i c t$ 之間的差距，應(yīng)使用相對熵來衡量，由于 $D_{KL}$ 的前一部分不變，所以在優(yōu)化過程中，只需關(guān)注交叉熵即可，因此在機(jī)器學(xué)習(xí)中常常用交叉熵作為 $l o s s$ 來評估模型。

未完待續(xù)

總結(jié)

以上是生活随笔為你收集整理的模式识别与机器学习笔记（二）机器学习的基础理论的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。