當(dāng)前位置：首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

主成分分析PCA以及特征值和特征向量的意义

發(fā)布時(shí)間：2024/7/23 编程问答 43 豆豆

生活随笔收集整理的這篇文章主要介紹了主成分分析PCA以及特征值和特征向量的意义小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

定義：

主成分分析（Principal Component Analysis，PCA），是一種統(tǒng)計(jì)方法。通過正交變換將一組可能存在相關(guān)性的變量轉(zhuǎn)換為一組線性不相關(guān)的變量，轉(zhuǎn)換后的這組變量叫主成分。PCA的思想是將n維特征映射到k維上（k<n），這k維是全新的正交特征。這k維特征稱為主成分，是重新構(gòu)造出來的k維特征，而不是簡(jiǎn)單地從n維特征中去除其余n-k維特征。

簡(jiǎn)單解釋：

具體的，假如我們的數(shù)據(jù)集是n維的，共有m個(gè)數(shù)據(jù)。我們希望將這m個(gè)數(shù)據(jù)的維度從n維降到k維，希望這m個(gè)k維的數(shù)據(jù)集盡可能的代表原始數(shù)據(jù)集。我們知道數(shù)據(jù)從n維降到k維肯定會(huì)有損失，但是我們希望損失盡可能的小。那么如何讓這k維的數(shù)據(jù)盡可能表示原來的數(shù)據(jù)呢？

我們先看看最簡(jiǎn)單的情況，也就是n=2，k=1,也就是將數(shù)據(jù)從二維降維到一維。數(shù)據(jù)如下圖。我們希望找到某一個(gè)維度方向，它可以代表這兩個(gè)維度的數(shù)據(jù)。圖中列了兩個(gè)向量方向，u1和u2，那么哪個(gè)向量可以更好的代表原始數(shù)據(jù)集呢？從直觀上也可以看出，u1比u2好，因?yàn)閿?shù)據(jù)在這個(gè)方向上投影后的樣本點(diǎn)之間方差最大。

?例子：

有兩維數(shù)據(jù)：

對(duì)X進(jìn)行歸一化，使X每一行減去其對(duì)應(yīng)的均值，得到：

求X的協(xié)方差矩陣：

求解C的特征值，利用線性代數(shù)知識(shí)或是MATLAB中eig函數(shù)可以得到：

對(duì)應(yīng)的特征向量分別是：

將原數(shù)據(jù)降為一維，選擇最大的特征值對(duì)應(yīng)的特征向量，因此P為：

降維后的數(shù)據(jù)：

?那么，為什么要求特征值和特征向量呢？

?特征值和特征向量：

轉(zhuǎn)自https://blog.csdn.net/fuming2021118535/article/details/51339881

定義：?設(shè)A是n階矩陣，如果數(shù)λ和n維非零向量x使關(guān)系式

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?……(1)

成立，那么，這樣的數(shù)λ稱為矩陣A的特征值，非零向量x稱為A的對(duì)應(yīng)于特征值λ的特征向量，（1）式還可以寫為 ??

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??……（2）

如果想求出矩陣對(duì)應(yīng)的特征值和特征向量就是求式（2）的解了。

那么，問題來了，這個(gè)式子要怎么理解呢？

首先得先弄清矩陣的概念:一個(gè)矩陣代表的是一個(gè)線性變換規(guī)則，而一個(gè)矩陣的乘法運(yùn)行代表的是一個(gè)變換;

比如有一個(gè)矩陣A：

一個(gè)列向量為X為：

一個(gè)矩陣的乘法為：

向量X通過矩陣A這個(gè)變化規(guī)則就可以變換為向量Y了

? ? ? ? ? ? ? ? ? ? ??

?知道了這個(gè)就可以從幾何上理解特征值和特征向量是什么意思了，由 ?

? ? ? ? ? ? ???

可知:

所以，確定了特征值之后，向量x的變換為：?

引用《線性代數(shù)的幾何意義》的描述：“矩陣乘法對(duì)應(yīng)了一個(gè)變換，是把任意一個(gè)向量變成另一個(gè)方向或長(zhǎng)度都大多不同的新向量。在這個(gè)變換的過程中，原向量主要發(fā)生旋轉(zhuǎn)、伸縮的變化。如果矩陣對(duì)某一個(gè)向量或某些向量只發(fā)生伸縮變換，不對(duì)這些向量產(chǎn)生旋轉(zhuǎn)的效果，那么這些向量就稱為這個(gè)矩陣的特征向量，伸縮的比例就是特征值。”

那么這樣定義的特征值和特征向量有什么實(shí)際用途呢?在這里我舉個(gè)數(shù)據(jù)挖掘算法中重要的一個(gè)算法：PCA（主成分分析）來給大家直觀的感受一下。

首先，理解一下信息量這個(gè)概念

看幾張圖：

如果我們單獨(dú)看某一個(gè)維度的話，比如看x1這個(gè)維度

可以看到將點(diǎn)投影到x1這個(gè)維度上看的話，圖1的數(shù)據(jù)離散性最高，圖3較低，圖2數(shù)據(jù)離散性是最低的。數(shù)據(jù)離散性越大，代表數(shù)據(jù)在所投影的維度上具有越高的區(qū)分度，這個(gè)區(qū)分度就是信息量。如果我們用方差來形容數(shù)據(jù)的離散性的話，就是數(shù)據(jù)方差越大，表示數(shù)據(jù)的區(qū)分度越高，也就是蘊(yùn)含的信息量是越大的。

?基于這個(gè)知識(shí)，如果我們想對(duì)數(shù)據(jù)進(jìn)行降維的話，比如圖1的兩個(gè)維度的數(shù)據(jù)降成一維，我們可以選擇保留X1這個(gè)維度的數(shù)據(jù)，因?yàn)樵谶@個(gè)維度上蘊(yùn)含的信息量更多。

同理，圖2就可以保留x2這個(gè)維度的數(shù)據(jù)。但是，問題來了，圖3應(yīng)該保留哪個(gè)維度的數(shù)據(jù)呢？答案是保留哪個(gè)維度都不好，都會(huì)丟失較大的信息量。但是，如果我們把圖3的坐標(biāo)軸旋轉(zhuǎn)一下

比較容易看出，圖3在新的坐標(biāo)軸下就能進(jìn)行降維了。所以選取正確的坐標(biāo)軸，然后根據(jù)各個(gè)維度上的數(shù)據(jù)方差大小，決定保留哪些維度的數(shù)據(jù)，這樣的做法就是主成分分析的核心思想。

選取正確的坐標(biāo)軸的過程中，我們需要一個(gè)矩陣變換，就類似于這樣： ??

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?

也就是：

其實(shí)，經(jīng)過數(shù)學(xué)上的推導(dǎo)的，我們就可以知道，特征值對(duì)應(yīng)的特征向量就是理想中想取得正確的坐標(biāo)軸，而特征值就等于數(shù)據(jù)在旋轉(zhuǎn)之后的坐標(biāo)上對(duì)應(yīng)維度上的方差。

也就是說，直接求出矩陣A的特征向量得出對(duì)應(yīng)的特征向量。我們就能找到旋轉(zhuǎn)后正確的坐標(biāo)軸。這個(gè)就是特征值和特征向量的一個(gè)實(shí)際應(yīng)用：“得出使數(shù)據(jù)在各個(gè)維度區(qū)分度達(dá)到最大的坐標(biāo)軸。”

所以，在數(shù)據(jù)挖掘中，就會(huì)直接用特征值來描述對(duì)應(yīng)特征向量方向上包含的信息量，而某一特征值除以所有特征值的和的值就為：該特征向量的方差貢獻(xiàn)率（方差貢獻(xiàn)率代表了該維度下蘊(yùn)含的信息量的比例）。

通常經(jīng)過特征向量變換下的數(shù)據(jù)被稱為變量的主成分，當(dāng)前m個(gè)主成分累計(jì)的方差貢獻(xiàn)率達(dá)到一個(gè)較高的百分?jǐn)?shù)（如85%以上）的話，就保留著這m個(gè)主成分的數(shù)據(jù)。實(shí)現(xiàn)了對(duì)數(shù)據(jù)進(jìn)行降維的目的。整個(gè)主成分分析的算法原理也就是這個(gè)。

創(chuàng)作挑戰(zhàn)賽新人創(chuàng)作獎(jiǎng)勵(lì)來咯，堅(jiān)持創(chuàng)作打卡瓜分現(xiàn)金大獎(jiǎng)

總結(jié)

以上是生活随笔為你收集整理的主成分分析PCA以及特征值和特征向量的意义的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：爬虫：突破有道翻译js加密（最新）
下一篇：树回归的介绍