生成模型与判别模型区别
概念理解
監(jiān)督學(xué)習(xí)方法可分為兩大類(lèi),即生成方法與判別方法,它們所學(xué)到的模型稱(chēng)為生成模型與判別模型。
- 判別模型:判別模型是學(xué)得一個(gè)分類(lèi)面(即學(xué)得一個(gè)模型),該分類(lèi)面可用來(lái)區(qū)分不同的數(shù)據(jù)分別屬于哪一類(lèi);
- 生成模型:生成模型是學(xué)得各個(gè)類(lèi)別各自的特征(即可看成學(xué)得多個(gè)模型),可用這些特征數(shù)據(jù)和要進(jìn)行分類(lèi)的數(shù)據(jù)進(jìn)行比較,看新數(shù)據(jù)和學(xué)得的模型中哪個(gè)最相近,進(jìn)而確定新數(shù)據(jù)屬于哪一類(lèi)。
舉個(gè)例子:若分類(lèi)目標(biāo)是對(duì)圖像中的大象和狗進(jìn)行分類(lèi)。判別方法學(xué)得一個(gè)模型,這個(gè)模型可能是判斷圖中動(dòng)物鼻子的長(zhǎng)度是否大于某一閾值,若大于則判斷為大象,否則判斷為狗;生成學(xué)習(xí)則分別構(gòu)建一個(gè)大象的特征模型與狗的特征模型,來(lái)了一個(gè)新圖像后,分別用大象模型與狗模型與其進(jìn)行比較,若新圖像與狗相似度更高則判斷為狗,否則判斷為大象。
相關(guān)數(shù)學(xué)理論
若已知某分類(lèi)任務(wù)的生成模型,是可以求得該任務(wù)的判別模型,反之則不行。這和概率論中的全概率密度函數(shù)以及邊沿概率密度函數(shù)是一致的(即已知全概率密度可求得邊沿概率密度,但已知邊沿概率密度不能求得全概率密度)。
例如:若現(xiàn)在已知一個(gè)二分類(lèi)問(wèn)題獲得的5個(gè)訓(xùn)練數(shù)據(jù)為:(1,0),(1,0),(2,0),(2,1),(2,1)?
1、全概率分布P(X,Y)如下表所示
| 1 | 2/5 | 0 |
| 2 | 1/5 | 2/5 |
注意:根據(jù)全概率分布,可以推導(dǎo)出如下邊沿概率分布P(Y|X)以及P(X)。
2、邊沿概率分布P(Y|X)如下表所示
| 1 | 1 | 0 |
| 2 | 1/3 | 2/3 |
注意:根據(jù)邊沿概率分布,不可以推導(dǎo)出全概率分布。例如,此例中邊沿概率分布對(duì)應(yīng)的全概率分布可能如下:
| 1 | 4/7 | 0 |
| 2 | 1/7 | 2/7 |
由上述例子可知,生成模型的信息比判別模型信息要更全一些。
兩類(lèi)方法的特點(diǎn)
生成方法通常需要無(wú)窮多樣本,進(jìn)而學(xué)習(xí)一個(gè)聯(lián)合概率分布P(X,Y),然后求出條件概率分布P(Y|X)=P(X,Y)/P(X)來(lái)對(duì)新輸入的數(shù)據(jù)進(jìn)行分類(lèi)。
此類(lèi)方法之所以成為生成方法,是因?yàn)槟P捅硎玖私o定輸入X產(chǎn)生輸出Y的生成關(guān)系。典型的生成模型有:樸素貝葉斯法、馬爾科夫模型、高斯混合模型。這種方法一般建立在統(tǒng)計(jì)學(xué)和Bayes理論的基礎(chǔ)之上。
生成方法的特點(diǎn):
- 從統(tǒng)計(jì)的角度表示數(shù)據(jù)的分布情況,能夠反映同類(lèi)數(shù)據(jù)本身的相似度;
- 生成方法還原出聯(lián)合概率分布,而判別方法不能;
- 生成方法的學(xué)習(xí)收斂速度更快、即當(dāng)樣本容量增加的時(shí)候,學(xué)到的模型可以更快地收斂于真實(shí)模型;
- 當(dāng)存在隱變量時(shí),仍然可以用生成方法學(xué)習(xí),此時(shí)判別方法不能用
判別方法可以根據(jù)有限個(gè)樣本獲得一個(gè)判別函數(shù)(即判別模型),然后用它來(lái)對(duì)新數(shù)據(jù)進(jìn)行分類(lèi)。典型的判別模型包括:k近鄰法、感知機(jī)、決策樹(shù)、邏輯斯蒂回歸模型、最大熵模型、支持向量機(jī)、boosting方法和條件隨機(jī)場(chǎng)等。
判別方法的特點(diǎn):
- 判別方法尋找不同類(lèi)別之間的最優(yōu)分類(lèi)面,反映的是異類(lèi)數(shù)據(jù)之間的差異;
- 判別方法利用了訓(xùn)練數(shù)據(jù)的類(lèi)別標(biāo)識(shí)信息,直接學(xué)習(xí)的是條件概率P(Y|X)或者決策函數(shù)f(X),直接面對(duì)預(yù)測(cè),往往學(xué)習(xí)的準(zhǔn)確率更高;
- 由于直接學(xué)習(xí)條件概率P(Y|X)或者決策函數(shù)f(X),可以對(duì)數(shù)據(jù)進(jìn)行各種程度上的抽象、定義特征并使用特征,因此可以簡(jiǎn)化學(xué)習(xí)問(wèn)題;
- 缺點(diǎn)是不能反映訓(xùn)練數(shù)據(jù)本身的特性。
兩類(lèi)方法的應(yīng)用
根據(jù)所獲取的數(shù)據(jù),兩類(lèi)方法都有各自的用場(chǎng)。例如:我們?nèi)糁挥腥说膫?cè)面數(shù)據(jù),我們當(dāng)然不知道這個(gè)人是否長(zhǎng)得帥、美,但我們可做(男、女)、(有耳、無(wú)耳)分類(lèi)。用生成模型來(lái)做的話,則表示這個(gè)人全部信息都有了,當(dāng)然能做的分類(lèi)更多了。
?
轉(zhuǎn)載自:https://blog.csdn.net/quintind/article/details/77923147
轉(zhuǎn)載于:https://www.cnblogs.com/xiaoshayu520ly/p/9079435.html
總結(jié)
以上是生活随笔為你收集整理的生成模型与判别模型区别的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: USACO-Section2.2 Par
- 下一篇: sso登陆劫持漏洞(单点登录劫持,低危)