當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

机器学习降维算法一：PCA(主成分分析算法)

發(fā)布時間：2023/12/1 编程问答 79 豆豆

生活随笔收集整理的這篇文章主要介紹了机器学习降维算法一：PCA(主成分分析算法) 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

引言：

機器學習領域中所謂的降維就是指采用某種映射方法，將原高維空間中的數(shù)據(jù)點映射到低維度的空間中。降維的本質是學習一個映射函數(shù) f : x->y，其中x是原始數(shù)據(jù)點的表達，目前最多使用向量表達形式。 y是數(shù)據(jù)點映射后的低維向量表達，通常y的維度小于x的維度（當然提高維度也是可以的）。f可能是顯式的或隱式的、線性的或非線性的。

目前大部分降維算法處理向量表達的數(shù)據(jù)，也有一些降維算法處理高階張量表達的數(shù)據(jù)。之所以使用降維后的數(shù)據(jù)表示是因為在原始的高維空間中，包含有冗余信息以及噪音信息，在實際應用例如圖像識別中造成了誤差，降低了準確率；而通過降維,我們希望減少冗余信息所造成的誤差,提高識別（或其他應用）的精度。又或者希望通過降維算法來尋找數(shù)據(jù)內部的本質結構特征。

在很多算法中，降維算法成為了數(shù)據(jù)預處理的一部分，如PCA。事實上，有一些算法如果沒有降維預處理，其實是很難得到很好的效果的。

注：我寫的東西有一些口語化，而且受限于網(wǎng)頁blog的編輯功能，很多地方可能有一些簡單。

主成分分析算法（PCA）

Principal Component Analysis(PCA)是最常用的線性降維方法，它的目標是通過某種線性投影，將高維的數(shù)據(jù)映射到低維的空間中表示，并期望在所投影的維度上數(shù)據(jù)的方差最大，以此使用較少的數(shù)據(jù)維度，同時保留住較多的原數(shù)據(jù)點的特性。

通俗的理解，如果把所有的點都映射到一起，那么幾乎所有的信息（如點和點之間的距離關系）都丟失了，而如果映射后方差盡可能的大，那么數(shù)據(jù)點則會分散開來，以此來保留更多的信息。可以證明，PCA是丟失原始數(shù)據(jù)信息最少的一種線性降維方式。（實際上就是最接近原始數(shù)據(jù)，但是PCA并不試圖去探索數(shù)據(jù)內在結構）

設n維向量w為目標子空間的一個坐標軸方向（稱為映射向量），最大化數(shù)據(jù)映射后的方差，有：

其中m是數(shù)據(jù)實例的個數(shù)， xi是數(shù)據(jù)實例i的向量表達， x拔是所有數(shù)據(jù)實例的平均向量。定義W為包含所有映射向量為列向量的矩陣，經過線性代數(shù)變換，可以得到如下優(yōu)化目標函數(shù)：

?其中tr表示矩陣的跡，A是數(shù)據(jù)協(xié)方差矩陣。

容易得到最優(yōu)的W是由數(shù)據(jù)協(xié)方差矩陣前k個最大的特征值對應的特征向量作為列向量構成的。這些特征向量形成一組正交基并且最好地保留了數(shù)據(jù)中的信息。

PCA的輸出就是Y = W‘X，由X的原始維度降低到了k維。

PCA追求的是在降維之后能夠最大化保持數(shù)據(jù)的內在信息，并通過衡量在投影方向上的數(shù)據(jù)方差的大小來衡量該方向的重要性。但是這樣投影以后對數(shù)據(jù)的區(qū)分作用并不大，反而可能使得數(shù)據(jù)點揉雜在一起無法區(qū)分。這也是PCA存在的最大一個問題，這導致使用PCA在很多情況下的分類效果并不好。具體可以看下圖所示，若使用PCA將數(shù)據(jù)點投影至一維空間上時，PCA會選擇2軸，這使得原本很容易區(qū)分的兩簇點被揉雜在一起變得無法區(qū)分；而這時若選擇1軸將會得到很好的區(qū)分結果。

Discriminant Analysis所追求的目標與PCA不同，不是希望保持數(shù)據(jù)最多的信息，而是希望數(shù)據(jù)在降維后能夠很容易地被區(qū)分開來。后面會介紹LDA的方法，是另一種常見的線性降維方法。另外一些非線性的降維方法利用數(shù)據(jù)點的局部性質，也可以做到比較好地區(qū)分結果，例如LLE，Laplacian Eigenmap等。以后會介紹。

引用請注明：?http://blog.csdn.net/xbinworld/article/details/6773885

轉載于:https://www.cnblogs.com/yihaha/archive/2011/09/22/7265355.html

創(chuàng)作挑戰(zhàn)賽新人創(chuàng)作獎勵來咯，堅持創(chuàng)作打卡瓜分現(xiàn)金大獎

總結

以上是生活随笔為你收集整理的机器学习降维算法一：PCA(主成分分析算法)的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：导致女人不孕不育的主要原因是什么？
下一篇：万网与阿里巴巴业务关系图解

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

编程问答

机器学习降维算法一：PCA(主成分分析算法)

引言：

主成分分析算法（PCA）

總結