机器学习笔记17-LDA算法
1. LDA算法簡(jiǎn)介
LDA(線性判別式分析 Linear Discriminant Analysis)屬于機(jī)器學(xué)習(xí)中的監(jiān)督學(xué)習(xí)算法,常用來(lái)做特征提取、數(shù)據(jù)降維和任務(wù)分類。在人臉識(shí)別、人臉檢測(cè)等領(lǐng)域發(fā)揮重要作用。LDA算法與PCA算法都是常用的降維技術(shù)。二者的區(qū)別在于:LDA是一種監(jiān)督學(xué)習(xí)的降維技術(shù),也就是說(shuō)它的每個(gè)樣本是有類別輸出的,而之前所學(xué)習(xí)的PCA算法是不考慮樣本類別輸出的無(wú)監(jiān)督降維技術(shù)。
LDA算法的目標(biāo)是使降維后的數(shù)據(jù)類內(nèi)方差最小,類間方差最大(即使數(shù)據(jù)在低維度上進(jìn)行投影,投影后希望每一種類別數(shù)據(jù)的投影點(diǎn)盡可能的接近,而不同類別的數(shù)據(jù)中心之間的距離盡可能的大。)
上圖中左圖為PCA算法的投影方式,它所做的知識(shí)將整組數(shù)據(jù)整體映射到最方便表示這組數(shù)據(jù)的坐標(biāo)軸上,映射時(shí)沒(méi)有利用任何數(shù)據(jù)內(nèi)部的分類信息。因此,雖然PCA可以使整組數(shù)據(jù)在表示上更加方便,但在分類上也許會(huì)變得更加困難。PCA沒(méi)有分類標(biāo)簽,降維之后需要采用K-means等無(wú)監(jiān)督的算法進(jìn)行分類。
右圖為L(zhǎng)DA算法的投影方式,可以看出在增加了分類信息之后,兩組輸入映射到了另一個(gè)坐標(biāo)軸上,這樣兩組數(shù)據(jù)之間就變得更易區(qū)分了,可以減少很大的運(yùn)算量。
LDA的優(yōu)化目標(biāo)為最大類間方差和最小類內(nèi)方差。LDA方法需分別計(jì)算“within-class”的分散程度Sw和“between-class”的分散程度Sb,而且希望Sb/Sw 越大越好,從而找到合適的映射向量w。其降維流程如下:
2. LDA降維流程
3. LDA算法與PCA的比較:
兩者相同點(diǎn):
- 兩者均可以對(duì)數(shù)據(jù)進(jìn)行降維
- 兩者在降維時(shí)均使用了矩陣特征分解的思想。
- 兩者都假設(shè)數(shù)據(jù)符合高斯分布
不同點(diǎn):
- LDA是有監(jiān)督的降維方法,而PCA是無(wú)監(jiān)督的降維方法
- LDA降維最多降到類別數(shù)K-1的維數(shù),而PCA沒(méi)有這個(gè)限制
- LDA除了可以用于降維,還可以用于分類
- LDA選擇分類性能最好的投影方向,而PCA選擇樣本點(diǎn)投影具有最大方差的方向。
- 有些時(shí)候LDA比PCA降維更優(yōu),有些時(shí)候PCA比LDA降維更優(yōu)。
4. LDA算法優(yōu)缺點(diǎn):
優(yōu)點(diǎn):
- LDA在樣本分類時(shí)信息依賴均值而不是方差的時(shí)候,比PCA分類的算法更優(yōu)
- 在降維過(guò)程中可以使用類別的先驗(yàn)知識(shí)經(jīng)驗(yàn),而像PCA這樣的無(wú)監(jiān)督學(xué)習(xí)則無(wú)法使用類別先驗(yàn)知識(shí)。
缺點(diǎn):
- LDA與PCA都不適合對(duì)非高斯分布的樣本進(jìn)行降維
- LDA降維最多降到類別數(shù)K-1的維數(shù)
- LDA在樣本分類信息依賴方差而不是均值的時(shí)候降維效果不好。
- LDA可能過(guò)度擬合數(shù)據(jù)。
總結(jié)
以上是生活随笔為你收集整理的机器学习笔记17-LDA算法的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 探讨基于球谐函数的全局光照
- 下一篇: Spark机器学习-LDA算法09