當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

线性判别分析LDA的数学原理（二）

發(fā)布時(shí)間：2025/3/15 编程问答 36 豆豆

生活随笔收集整理的這篇文章主要介紹了线性判别分析LDA的数学原理（二）小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

1.關(guān)于PCA和LDA分類對(duì)比

PCA是無類別信息，不知道樣本屬于哪個(gè)類，用PCA通常對(duì)全體數(shù)據(jù)操作。LDA有類別信息投影到類內(nèi)間距最小&&類間間距最大。首先我們應(yīng)該明白這兩個(gè)算法的原理是不一樣的，PCA是選擇投影后使得整個(gè)數(shù)據(jù)方差最大的方向來投影，假設(shè)就是方差越大，信息量越多，PCA是一種無監(jiān)督算法，沒有類別信息。而LDA是選擇投影后使得類內(nèi)方差小而類間方差大的方向來投影，用到了類別信息，所以選擇用哪種算法來降維應(yīng)該是根據(jù)具體的目的和場景來的，如果目的就是分類，那么顯然LDA的選擇標(biāo)準(zhǔn)更合理，如果沒有類別信息（無監(jiān)督），那就只能選PCA，總之，兩者選擇投影的方向的標(biāo)準(zhǔn)是不一樣的，看哪個(gè)和你的需要更契合。下面我們來看一個(gè)實(shí)例：
通過上面降維結(jié)果，我們能過看到： PCA研究對(duì)象是全局?jǐn)?shù)據(jù)對(duì)象，就是說PCA關(guān)心的是原始數(shù)據(jù)投影后包含信息量的大小，并沒有考慮分類信息。 LDA這是以分類信息為目標(biāo)函數(shù)，關(guān)心的是投影后的數(shù)據(jù)，既滿足類內(nèi)間距越小越好，類間間距越大越好。 PCA選擇樣本點(diǎn)投影具有最大方差的方向，LDA選擇分類性能最好的方向。

2.LDA的線性預(yù)測能力

LDA既然叫做線性判別分析，應(yīng)該具有一定的預(yù)測功能，比如新來一個(gè)樣例x，如何確定其類別？
拿二值分類來說，我們可以將其投影到直線上，得到y(tǒng)，然后看看y是否在超過某個(gè)閾值y0，超過是某一類，否則是另一類。而怎么尋找這個(gè)y0呢？
看

根據(jù)中心極限定理，獨(dú)立同分布的隨機(jī)變量符合高斯分布，然后利用極大似然估計(jì)求

?然后用決策理論里的公式來尋找最佳的y0，詳情請(qǐng)參閱PRML。

3.使用LDA的一些限制

3.1 LDA至多可生成C-1維子空間

LDA降維后的維度區(qū)間在[1,C-1]，與原始特征數(shù)n無關(guān)，對(duì)于二值分類，最多投影到1維。

3.2 LDA不適合對(duì)非高斯分布樣本進(jìn)行降維。

上圖中紅色區(qū)域表示一類樣本，藍(lán)色區(qū)域表示另一類，由于是2類，所以最多投影到1維上。不管在直線上怎么投影，都難使紅色點(diǎn)和藍(lán)色點(diǎn)內(nèi)部凝聚，類間分離。
這個(gè)問題，現(xiàn)在已經(jīng)有了一些解決辦法，那就是利用基于核函數(shù)的線性判別分析。關(guān)于核函數(shù)的設(shè)計(jì)以及變換技巧，我在SVM系列文章中做過非常詳細(xì)的分析。

3.3?LDA在樣本分類信息依賴方差而不是均值時(shí)，效果不好。

圖中,樣本點(diǎn)依靠方差信息進(jìn)行分類，而不是均值信息。LDA不能夠進(jìn)行有效分類，因?yàn)長DA過度依靠均值信息。

4.參看資料

[1] https://www.zhihu.com/question/35666712/answer/86915281
[2]?http://www.cnblogs.com/jerrylead/archive/2011/04/21/2024389.html

總結(jié)

以上是生活随笔為你收集整理的线性判别分析LDA的数学原理（二）的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇： Windows Vista SP1 Te
下一篇： XPS文档阅读器