斯坦福大学机器学习——高斯判别分析
轉(zhuǎn)自 http://blog.csdn.net/linkin1005/article/details/39054023
同樸素貝葉斯一樣,高斯判別分析(Gaussian discriminant analysismodel, GDA)也是一種生成學(xué)習(xí)算法,在該模型中,我們假設(shè)y給定的情況下,x服從混合正態(tài)分布。通過訓(xùn)練確定參數(shù),新樣本通過已建立的模型計(jì)算出隸屬不同類的概率,選取概率最大為樣本所屬的類。
一、混合正態(tài)分布(multivariate normal distribution)
混合正態(tài)分布也稱混合高斯分布。該分布的期望和協(xié)方差為多元的:期望,協(xié)方差,協(xié)方差具有對(duì)稱性和正定性。混合高斯分布:,它的的概率密度函數(shù)為:
其中,為混合高斯分布的期望,為其協(xié)方差,表示協(xié)方差的行列式。
下面用圖形直觀的看一下二維高斯分布的性質(zhì):
以上三個(gè)圖形的期望都為:,最左端圖形的協(xié)方差,中間的,最右端的,我們可以看出:當(dāng)變小時(shí),圖像變得更加“瘦長”,而當(dāng)增大時(shí),圖像變得更加“扁平”。
再看看更多的例子:
以上三個(gè)圖形的期望都為:,從左至右三個(gè)圖形的協(xié)方差分別的:
可以看到隨著矩陣的逆對(duì)角線數(shù)值增加,圖形延方向,即底部坐標(biāo)45度角壓縮。圖形在這個(gè)方向更加“扁”。
以上三幅圖分別是以上圖形的等高線,可以更直觀的看到調(diào)整逆對(duì)角線的數(shù)值對(duì)圖像的壓縮程度。
以上三幅圖保持協(xié)方差不變,期望的值分別為
;;
可以看出,隨著期望的改變,圖形在平面上平移,而其他特性保持不變。
二、高斯判別分析模型
如果特征值x是連續(xù)的隨機(jī)變量,我們可以使用高斯判別分析模型完成特征值的分類。為了簡(jiǎn)化模型,假設(shè)特征值為二分類,分類結(jié)果服從0-1分布。(如果為多分類,分類結(jié)果就服從二項(xiàng)分布)
模型基于這樣的假設(shè):
他們的概率(密度)函數(shù)分別為:
模型的待估計(jì)參數(shù)為,通常模型有兩個(gè)不同的期望,而有一個(gè)相同的協(xié)方差。
該模型的極大似然對(duì)數(shù)方程為:
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
求解該極大似然方程得:
在對(duì)計(jì)算完成之后,將新的樣本x帶入進(jìn)建立好的模型中,計(jì)算出、,選取概率更大的結(jié)果為正確的分類。
三、GDA和logistic回歸
GDA模型和logistic回歸模型存在這樣有趣的關(guān)系:假如我們將視作關(guān)于x的函數(shù),該函數(shù)可以表示成logistic回歸形式:
?
其中,可以用以為變量的函數(shù)表示。
前文中已經(jīng)提到,如果為混合高斯分布,那么,就可以表示成logistic回歸函數(shù)形式;相反,如果可表示成logistic回歸函數(shù)形式,并不代表服從混合高斯分布。這意味著GDA比logistic回歸需要更加嚴(yán)格的模型假設(shè),當(dāng)然,如果混合高斯模型的假設(shè)是正確的,那么,GDA具有更高的擬合度。基于以上原因,在實(shí)踐中使用logistic回歸比使用GDA更普遍。
轉(zhuǎn)載于:https://www.cnblogs.com/nolonely/p/6837986.html
總結(jié)
以上是生活随笔為你收集整理的斯坦福大学机器学习——高斯判别分析的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 《程序员修炼之道》笔记(九)
- 下一篇: 20145227鄢曼君《网络对抗》Web