【机器学习】高斯判别分析
跟著博主的腳步,每天進步一點點
本文介紹了高斯判別分析,首先介紹生成模型,狹義的給出了生成模型與判別模型的一般區別;然后介紹高斯判別分析模型的三個基本假設:1)先驗概率服從伯努利分布,2)條件概率服從高斯分布,3)特征的條件概率相互獨立(同線性模型中的特征不相關)通過最大似然估計導出模型的參數;最后對比了判別模型中的邏輯回歸,一般而言,高斯判別模型的假設條件強于邏輯回歸,在模型選擇時需考慮數據的分布和模型的適用場景。
作者 | 文杰
編輯 | yuquanle
高斯判別分析
A、生成模型
機器學習模型有一種分類方式:判別模型和生成模型。它們之間的區別在于判別模型是直接從數據特征到標簽,而生成模型是從標簽到數據特征。形式化的表示就是是否使用了貝葉斯公式:
機器學習模型從概率的角度來看就是最大的條件概率,判別模型的思想是直接最大化這個概率(Fisher線性判別,線性感知機),生成模型則是通過貝葉斯模型最大后驗概率,其中可以看作是從標簽生成數據,則是標簽的先驗概率。
基本上從標簽到數據的模型都是基于對樣本的統計,以下的模型都是基于數據的統計(但不全是生成模型),所以筆者將這部分歸類到統計概率模型。
B、高斯判別分析
高斯判別分析是一個典型的生成模型,其假設服從一個高斯分布,服從一個伯努利分布通過統計樣本來確定高斯分布和伯努利分布的參數,進而通過最大后驗概率來進行分類。
假設數據在標簽為下,特征為的條件概率為服從多元高斯分布?,其中為均值,為協方差矩陣。則有:
而先驗分布服從伯努利分布,當時,是一元伯努利分布,當,時,同樣可以像Logistic推廣到SoftMax一樣處理多元伯努利分布。下面以一元伯努利分布為例計算完整的高斯判別模型的概率:
最大化后驗概率即為:
極大似然函數有:
最大似然估計得到參數如下:
其中為指示函數,同時假設,反映一類數據分布的方差,可以看出最大似然估計的參數值就是基于對樣本的一個統計。
下圖為一個簡單的高斯判別模型示意圖:
從上圖可以看出,高斯判別模型通過建立兩類樣本的特征模型,對于二分類問題,然后通過比較后驗概率的大小來得到一個分類邊界。
回過頭來再看最小錯誤貝葉斯決策(Logistic回歸)與一維高斯判別模型,有趣的是最后得到的決策函數也類似于sigmoid函數。
C、高斯判別模型與Logistic回歸比較
高斯判別模型的假設是服從一個高斯分布,服從一個伯努利分布。
Logistic回歸的概率解釋中可以看出它的假設是服從伯努利分布。
由高斯判別分析模型可以得到,加上一些推導可以得到,反之不然:
其中,是參數,的某種函數。也就是說高斯判別模型是Logistic回歸模型中的一種特例。
這里我們可以發現高斯判別模型的假設強于Logistic模型,也就是說Logistic回歸模型的魯棒性更強。這就表示在數據量足夠大時,跟傾向于選擇Logistic回歸模型。而在數據量較小,且服從一個高斯分布非常合理時,選擇高斯判別分析模型更適合。
The End
來和小伙伴們一起向上生長呀!
掃描下方二維碼,添加小詹微信,可領取千元大禮包并申請加入 Python 學習交流群,群內僅供學術交流,日常互動,如果是想發推文、廣告、砍價小程序的敬請繞道!一定記得備注「交流學習」,我會盡快通過好友申請哦!
????長按識別,添加微信
(添加人數較多,請耐心等待)
????長按識別,關注小詹
(掃碼回復 1024 領取程序員大禮包)
總結
以上是生活随笔為你收集整理的【机器学习】高斯判别分析的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【机器学习】朴素贝叶斯
- 下一篇: 知乎上高赞的40个有趣回复,很精辟!