日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

LDA算法和PCA算法的总结(原理和思想)

發(fā)布時間:2023/12/31 编程问答 28 豆豆
生活随笔 收集整理的這篇文章主要介紹了 LDA算法和PCA算法的总结(原理和思想) 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

LDA和PCA的對比(并沒有公式推導(dǎo),改日會寫)

先補一補數(shù)學(xué)(不需要):

  • 方差——概率論和統(tǒng)計方差衡量隨機變量或一組數(shù)據(jù)時離散程度的度量;概率論中方差用來度量隨機變量和其數(shù)學(xué)期望之間的偏離程度。統(tǒng)計中的方差(樣本方差)是每個樣本值與全體樣本值的平均數(shù)之差的平方值的平均數(shù)。

  • 期望——在概率論和統(tǒng)計學(xué)中,數(shù)學(xué)期望(mean)(或均值)是試驗中每次可能結(jié)果的概率乘以其結(jié)果的總和,是最基本的數(shù)學(xué)特征之一。它反映隨機變量平均取值的大小

  • 協(xié)方差——在概率論和統(tǒng)計學(xué)中用于衡量兩個變量的總體誤差。方差是協(xié)方差的一種特殊情況,即當(dāng)兩個變量是相同的情況,只表示一個變量誤差。如果兩個變量的變化趨勢一致,也就是說如果其中一個大于自身的期望值,另外一個也大于自身的期望值,那么兩個變量之間的協(xié)方差就是正值,表示兩個變量正相關(guān)。 如果兩個變量的變化趨勢相反,即其中一個大于自身的期望值,另外一個卻小于自身的期望值,那么兩個變量之間的協(xié)方差就是負值,表示兩個變量負相關(guān)。如果X與Y是統(tǒng)計獨立的,那么二者之間的協(xié)方差就是0,因為兩個獨立的隨機變量滿足E[XY]=E[X]E[Y]。協(xié)方差為0表示兩個變量是不相關(guān)的。

進入正題

LDA與PCA都是常用的降維技術(shù)。PCA主要是從特征的協(xié)方差角度,去找到比較好的投影方式,希望在所投影的維度上數(shù)據(jù)的方差盡量大LDA更多的是考慮了標(biāo)注即希望投影后不同類別之間數(shù)據(jù)點盡量遠離(距離盡量大),同一類別的數(shù)據(jù)點盡量聚集(方差盡量小)

先來看一下PCA對于數(shù)據(jù)的處理結(jié)果:

可以看到數(shù)據(jù)有紅色(1)和藍色(2)兩類,PCA主成分分析找到的主軸PC1和次軸PC2

  • 如上圖所示,依照這兩類的分布,PCA找到的第一個主軸PC1,所有數(shù)據(jù)點投影到該軸上是散的最開的,紅藍兩類所有點的投影幾乎遍布了整個PC1軸 (這時方差最大)。
  • 如上圖所示,PCA認為不重要的軸PC2 (次軸),兩類數(shù)據(jù)點投影到次軸上是最集中和密集的。

我們會發(fā)現(xiàn)PCA認為它找到的主軸要能夠處理把多類(簇)分開的任務(wù),這對應(yīng)于無標(biāo)簽且事先不知道要分幾類的無監(jiān)督算法。 而PCA認為不重要的次軸PC2,其實是對分類有幫助的,比如某個數(shù)據(jù)點屬于哪一類的分類任務(wù),這對應(yīng)于有標(biāo)簽的監(jiān)督算法

再來看一下LDA的:

我們可以觀察到LDA找到的第一個主軸LDA1(認為是對分類重要的軸),各數(shù)據(jù)點投影到該軸上很集中(方差小),并且LDA1軸正是PCA認為的不重要的軸,LDA找到的次軸是LDA2軸,可以看到LDA找到的兩個軸不是正交的。

把LDA和PCA找到的主軸(兩種算法認為最重要的軸)放在一起來看一下:

  • 如上圖所示,我們分別找到藍色和紅色數(shù)據(jù)樣本的中心,然后把這兩個中心分別投影在LDA1軸和PC1軸上,可以發(fā)現(xiàn)投影在LDA1軸上的兩類樣本中心點距離比投影到PC1軸上的兩類樣本中心點距離要遠

  • 其實LDA將原樣本映射到一個超平面上,使同一個類別在這個超平面上盡可能集中,而不同類別在這個超平面上盡可能分開。LDA1其實就是找到的超平面的一個法向量。

  • LDA認為不同類的樣本服從均值不同的高斯分布,主要根據(jù)均值(中心點)作為降維的導(dǎo)向,所以它在處理非高斯分布的數(shù)據(jù),或者不同類別的高斯分布的均值相同時,分類效果不夠好。

  • PCA請參考這里

總結(jié)一下

LDA和PCA一樣都是降維算法,但不同的是LDA是有監(jiān)督的降維算法,它的目的是將不同類別的數(shù)據(jù)降維后仍能較好的區(qū)別開。而PCA是無監(jiān)督的算法,它的目的是將樣本數(shù)據(jù)降維后仍保留樣本數(shù)據(jù)間的方差。

一些關(guān)于超平面補充(參考的博客):

我們對“平面”概念的理解,一般是定義在三維空間中的,即Ax+By+Cz+d=0

這個平面由兩個性質(zhì)定義:1、方程是線性的,是由空間點的各分量的線性組合。2、方程數(shù)量是1。這個平面是建立在“三維”上的。如果我們撇開“維度”這個限制,那么就有了超平面的定義。實際上,超平面是純粹的數(shù)學(xué)概念,不是物理概念,它是平面中的直線、空間中的平面的推廣,只有當(dāng)維度大于3,才稱為“超”平面。它的本質(zhì)是自由度比空間維度小1。

自由度的概念可以簡單的理解為至少要給定多少個分量的值才能確定一個點. 例如, 三維空間里的(超)平面只要給定了(x,y,z)中任意兩個分量, 剩下的一個的值就確定了. 先確定值的兩個分量是自由的, 因為它們想取什么值就能取什么值;剩下的那個是"不自由的", 因為它的值已經(jīng)由另外兩確定了。二維空間里的超平面為一條直線。一維空間里超平面為數(shù)軸上的一個點。

百度百科上對超平面的數(shù)學(xué)定義是這樣的:超平面H是從n維空間到n-1維空間的一個映射子空間,它有一個n維向量和一個實數(shù)定義。因為是子空間,所以超平面一定過原點。

這篇講超平面的博客也不錯點這里

總結(jié)

以上是生活随笔為你收集整理的LDA算法和PCA算法的总结(原理和思想)的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。