线性判别分析LDA的数学原理(二)
生活随笔
收集整理的這篇文章主要介紹了
线性判别分析LDA的数学原理(二)
小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.
1.關(guān)于PCA和LDA分類對(duì)比
PCA是無類別信息,不知道樣本屬于哪個(gè)類,用PCA通常對(duì)全體數(shù)據(jù)操作。LDA有類別信息投影到類內(nèi)間距最小&&類間間距最大。 首先我們應(yīng)該明白這兩個(gè)算法的原理是不一樣的,PCA是選擇投影后使得整個(gè)數(shù)據(jù)方差最大的方向來投影,假設(shè)就是方差越大,信息量越多,PCA是一種無監(jiān)督算法,沒有類別信息。而LDA是選擇投影后使得類內(nèi)方差小而類間方差大的方向來投影,用到了類別信息,所以選擇用哪種算法來降維應(yīng)該是根據(jù)具體的目的和場景來的,如果目的就是分類,那么顯然LDA的選擇標(biāo)準(zhǔn)更合理,如果沒有類別信息(無監(jiān)督),那就只能選PCA,總之,兩者選擇投影的方向的標(biāo)準(zhǔn)是不一樣的,看哪個(gè)和你的需要更契合。 下面我們來看一個(gè)實(shí)例:通過上面降維結(jié)果,我們能過看到: PCA研究對(duì)象是全局?jǐn)?shù)據(jù)對(duì)象,就是說PCA關(guān)心的是原始數(shù)據(jù)投影后包含信息量的大小,并沒有考慮分類信息。 LDA這是以分類信息為目標(biāo)函數(shù),關(guān)心的是投影后的數(shù)據(jù),既滿足類內(nèi)間距越小越好,類間間距越大越好。 PCA選擇樣本點(diǎn)投影具有最大方差的方向,LDA選擇分類性能最好的方向。
2.LDA的線性預(yù)測能力
LDA既然叫做線性判別分析,應(yīng)該具有一定的預(yù)測功能,比如新來一個(gè)樣例x,如何確定其類別?拿二值分類來說,我們可以將其投影到直線上,得到y(tǒng),然后看看y是否在超過某個(gè)閾值y0,超過是某一類,否則是另一類。而怎么尋找這個(gè)y0呢?
看
根據(jù)中心極限定理,獨(dú)立同分布的隨機(jī)變量符合高斯分布,然后利用極大似然估計(jì)求
?然后用決策理論里的公式來尋找最佳的y0,詳情請(qǐng)參閱PRML。
3.使用LDA的一些限制
3.1 LDA至多可生成C-1維子空間
LDA降維后的維度區(qū)間在[1,C-1],與原始特征數(shù)n無關(guān),對(duì)于二值分類,最多投影到1維。3.2 LDA不適合對(duì)非高斯分布樣本進(jìn)行降維。
上圖中紅色區(qū)域表示一類樣本,藍(lán)色區(qū)域表示另一類,由于是2類,所以最多投影到1維上。不管在直線上怎么投影,都難使紅色點(diǎn)和藍(lán)色點(diǎn)內(nèi)部凝聚,類間分離。
這個(gè)問題,現(xiàn)在已經(jīng)有了一些解決辦法,那就是利用基于核函數(shù)的線性判別分析。關(guān)于核函數(shù)的設(shè)計(jì)以及變換技巧,我在SVM系列文章中做過非常詳細(xì)的分析。
3.3?LDA在樣本分類信息依賴方差而不是均值時(shí),效果不好。
圖中,樣本點(diǎn)依靠方差信息進(jìn)行分類,而不是均值信息。LDA不能夠進(jìn)行有效分類,因?yàn)長DA過度依靠均值信息。
4.參看資料
[1] https://www.zhihu.com/question/35666712/answer/86915281[2]?http://www.cnblogs.com/jerrylead/archive/2011/04/21/2024389.html
總結(jié)
以上是生活随笔為你收集整理的线性判别分析LDA的数学原理(二)的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Windows Vista SP1 Te
- 下一篇: XPS文档阅读器