线性判别分析LDA的思想
1、分類原理:
??分類思想:訓(xùn)練時(shí),設(shè)法將訓(xùn)練樣本投影到一條直線上,這條直線上,同類樣本的投影點(diǎn)盡可能接近,異類樣本點(diǎn)的類別中心盡可能遠(yuǎn)離。預(yù)測(cè)時(shí),將樣本投影到學(xué)得的直線上,根據(jù)投影點(diǎn)的位置判斷其類別。
??分類過(guò)程:一個(gè)常見的LDA分類基本思想是假設(shè)各個(gè)類別的樣本數(shù)據(jù)符合高斯分布,這樣利用LDA進(jìn)行投影后,可以利用極大似然估計(jì)計(jì)算各個(gè)類別投影數(shù)據(jù)的均值和方差,進(jìn)而得到該類別高斯分布的概率密度函數(shù)。當(dāng)一個(gè)新的樣本到來(lái)后,我們可以將它投影,然后將投影后的樣本特征分別帶入各個(gè)類別的高斯分布概率密度函數(shù),計(jì)算它屬于這個(gè)類別的概率,最大的概率對(duì)應(yīng)的類別即為預(yù)測(cè)類別。
1.1 二類問(wèn)題:
??定義類內(nèi)散度矩陣和類間散度矩陣。最大化二者的廣義瑞利商,利用拉格朗日乘子法進(jìn)行優(yōu)化求解。
1.2 多分類問(wèn)題:
??多類問(wèn)題:新定義全局散度矩陣,重定義類內(nèi)散度矩陣為所有類別的散度矩陣之和,類間散度矩陣直接用總體散度矩陣減去類內(nèi)散度矩陣便可以,優(yōu)化目標(biāo)通過(guò)廣義特征值問(wèn)題求解,得到W的閉式解。
2、降維原理
??降維過(guò)程:確定類別數(shù)目,然后進(jìn)行隨機(jī)劃分,計(jì)算各個(gè)類的樣本均值向量,通過(guò)均值向量計(jì)算類內(nèi)散度矩陣SB和類內(nèi)散度矩陣SW。計(jì)算矩陣的特征向量和對(duì)應(yīng)的特征值。選擇D個(gè)最大特征值對(duì)應(yīng)的矩陣W。使用該矩陣對(duì)數(shù)據(jù)集X進(jìn)行降維Y=WTX。
??W是K個(gè)最大的廣義特征值的特征向量組成的矩陣。將W看成一個(gè)投影矩陣,那么實(shí)際上就是將原來(lái)的特征空間投影到了K維空間中,可以縮小樣本點(diǎn)的維度,而且利用了類別信息,是一種經(jīng)典的有監(jiān)督降維方法。
??LDA和PCA之間的區(qū)別:
相同點(diǎn):
兩者均可以對(duì)數(shù)據(jù)進(jìn)行降維。兩者在降維時(shí)均使用了矩陣特征分解的思想。
不同點(diǎn):
LDA是有監(jiān)督的降維方法,而PCA是無(wú)監(jiān)督的降維方法
LDA降維最多降到類別數(shù)C-1的維數(shù),而PCA沒(méi)有這個(gè)限制。
LDA除了可以用于降維,還可以用于分類。
LDA選擇分類性能最好的投影方向,而PCA選擇樣本點(diǎn)投影具有最大方差的方向。
總結(jié)
以上是生活随笔為你收集整理的线性判别分析LDA的思想的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 项目管理之项目风险管理
- 下一篇: UserBehavior 阿里巴巴淘宝用