當(dāng)前位置：首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

机器学习笔记17-LDA算法

發(fā)布時(shí)間：2023/12/31 编程问答 56 豆豆

生活随笔收集整理的這篇文章主要介紹了机器学习笔记17-LDA算法小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

1. LDA算法簡(jiǎn)介

LDA（線性判別式分析 Linear Discriminant Analysis）屬于機(jī)器學(xué)習(xí)中的監(jiān)督學(xué)習(xí)算法，常用來(lái)做特征提取、數(shù)據(jù)降維和任務(wù)分類。在人臉識(shí)別、人臉檢測(cè)等領(lǐng)域發(fā)揮重要作用。LDA算法與PCA算法都是常用的降維技術(shù)。二者的區(qū)別在于：LDA是一種監(jiān)督學(xué)習(xí)的降維技術(shù)，也就是說(shuō)它的每個(gè)樣本是有類別輸出的，而之前所學(xué)習(xí)的PCA算法是不考慮樣本類別輸出的無(wú)監(jiān)督降維技術(shù)。

LDA算法的目標(biāo)是使降維后的數(shù)據(jù)類內(nèi)方差最小，類間方差最大（即使數(shù)據(jù)在低維度上進(jìn)行投影，投影后希望每一種類別數(shù)據(jù)的投影點(diǎn)盡可能的接近，而不同類別的數(shù)據(jù)中心之間的距離盡可能的大。）

上圖中左圖為PCA算法的投影方式，它所做的知識(shí)將整組數(shù)據(jù)整體映射到最方便表示這組數(shù)據(jù)的坐標(biāo)軸上，映射時(shí)沒(méi)有利用任何數(shù)據(jù)內(nèi)部的分類信息。因此，雖然PCA可以使整組數(shù)據(jù)在表示上更加方便，但在分類上也許會(huì)變得更加困難。PCA沒(méi)有分類標(biāo)簽，降維之后需要采用K-means等無(wú)監(jiān)督的算法進(jìn)行分類。

右圖為L(zhǎng)DA算法的投影方式，可以看出在增加了分類信息之后，兩組輸入映射到了另一個(gè)坐標(biāo)軸上，這樣兩組數(shù)據(jù)之間就變得更易區(qū)分了，可以減少很大的運(yùn)算量。

LDA的優(yōu)化目標(biāo)為最大類間方差和最小類內(nèi)方差。LDA方法需分別計(jì)算“within-class”的分散程度Sw和“between-class”的分散程度Sb，而且希望Sb/Sw 越大越好，從而找到合適的映射向量w。其降維流程如下：

2. LDA降維流程

3. LDA算法與PCA的比較：

兩者相同點(diǎn)：

兩者均可以對(duì)數(shù)據(jù)進(jìn)行降維
兩者在降維時(shí)均使用了矩陣特征分解的思想。
兩者都假設(shè)數(shù)據(jù)符合高斯分布

不同點(diǎn)：

LDA是有監(jiān)督的降維方法，而PCA是無(wú)監(jiān)督的降維方法
LDA降維最多降到類別數(shù)K-1的維數(shù)，而PCA沒(méi)有這個(gè)限制
LDA除了可以用于降維，還可以用于分類
LDA選擇分類性能最好的投影方向，而PCA選擇樣本點(diǎn)投影具有最大方差的方向。
有些時(shí)候LDA比PCA降維更優(yōu)，有些時(shí)候PCA比LDA降維更優(yōu)。

4. LDA算法優(yōu)缺點(diǎn)：

優(yōu)點(diǎn)：

LDA在樣本分類時(shí)信息依賴均值而不是方差的時(shí)候，比PCA分類的算法更優(yōu)
在降維過(guò)程中可以使用類別的先驗(yàn)知識(shí)經(jīng)驗(yàn)，而像PCA這樣的無(wú)監(jiān)督學(xué)習(xí)則無(wú)法使用類別先驗(yàn)知識(shí)。

缺點(diǎn)：

LDA與PCA都不適合對(duì)非高斯分布的樣本進(jìn)行降維
LDA降維最多降到類別數(shù)K-1的維數(shù)
LDA在樣本分類信息依賴方差而不是均值的時(shí)候降維效果不好。
LDA可能過(guò)度擬合數(shù)據(jù)。

總結(jié)

以上是生活随笔為你收集整理的机器学习笔记17-LDA算法的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：探讨基于球谐函数的全局光照
下一篇： Spark机器学习-LDA算法09