日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

主成分分析PCA以及特征值和特征向量的意义

發(fā)布時(shí)間:2024/7/23 编程问答 43 豆豆
生活随笔 收集整理的這篇文章主要介紹了 主成分分析PCA以及特征值和特征向量的意义 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

定義:

主成分分析(Principal Component Analysis,PCA), 是一種統(tǒng)計(jì)方法。通過正交變換將一組可能存在相關(guān)性的變量轉(zhuǎn)換為一組線性不相關(guān)的變量,轉(zhuǎn)換后的這組變量叫主成分。PCA的思想是將n維特征映射到k維上(k<n),這k維是全新的正交特征。這k維特征稱為主成分,是重新構(gòu)造出來的k維特征,而不是簡(jiǎn)單地從n維特征中去除其余n-k維特征。

簡(jiǎn)單解釋:

具體的,假如我們的數(shù)據(jù)集是n維的,共有m個(gè)數(shù)據(jù)。我們希望將這m個(gè)數(shù)據(jù)的維度從n維降到k維,希望這m個(gè)k維的數(shù)據(jù)集盡可能的代表原始數(shù)據(jù)集。我們知道數(shù)據(jù)從n維降到k維肯定會(huì)有損失,但是我們希望損失盡可能的小。那么如何讓這k維的數(shù)據(jù)盡可能表示原來的數(shù)據(jù)呢?

我們先看看最簡(jiǎn)單的情況,也就是n=2,k=1,也就是將數(shù)據(jù)從二維降維到一維。數(shù)據(jù)如下圖。我們希望找到某一個(gè)維度方向,它可以代表這兩個(gè)維度的數(shù)據(jù)。圖中列了兩個(gè)向量方向,u1和u2,那么哪個(gè)向量可以更好的代表原始數(shù)據(jù)集呢?從直觀上也可以看出,u1比u2好,因?yàn)閿?shù)據(jù)在這個(gè)方向上投影后的樣本點(diǎn)之間方差最大。

?例子:

有兩維數(shù)據(jù):

對(duì)X進(jìn)行歸一化,使X每一行減去其對(duì)應(yīng)的均值,得到:

求X的協(xié)方差矩陣:

求解C的特征值,利用線性代數(shù)知識(shí)或是MATLAB中eig函數(shù)可以得到:

對(duì)應(yīng)的特征向量分別是:

將原數(shù)據(jù)降為一維,選擇最大的特征值對(duì)應(yīng)的特征向量,因此P為:

降維后的數(shù)據(jù):

?那么,為什么要求特征值和特征向量呢?

?特征值和特征向量:

轉(zhuǎn)自https://blog.csdn.net/fuming2021118535/article/details/51339881

定義:?設(shè)A是n階矩陣,如果數(shù)λ和n維非零向量x使關(guān)系式

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?……(1)

成立,那么,這樣的數(shù)λ稱為矩陣A的特征值,非零向量x稱為A的對(duì)應(yīng)于特征值λ的特征向量,(1)式還可以寫為 ??

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??……(2)

如果想求出矩陣對(duì)應(yīng)的特征值和特征向量就是求式(2)的解了。

那么,問題來了,這個(gè)式子要怎么理解呢?

首先得先弄清矩陣的概念:一個(gè)矩陣代表的是一個(gè)線性變換規(guī)則,而一個(gè)矩陣的乘法運(yùn)行代表的是一個(gè)變換;

比如有一個(gè)矩陣A:

一個(gè)列向量為X為:

一個(gè)矩陣的乘法為:

向量X通過矩陣A這個(gè)變化規(guī)則就可以變換為向量Y了

? ? ? ? ? ? ? ? ? ? ??

?

?知道了這個(gè)就可以從幾何上理解特征值和特征向量是什么意思了,由 ?

? ? ? ? ? ? ???

可知:

所以,確定了特征值之后,向量x的變換為:?

引用《線性代數(shù)的幾何意義》的描述:“矩陣乘法對(duì)應(yīng)了一個(gè)變換,是把任意一個(gè)向量變成另一個(gè)方向或長(zhǎng)度都大多不同的新向量。在這個(gè)變換的過程中,原向量主要發(fā)生旋轉(zhuǎn)、伸縮的變化。如果矩陣對(duì)某一個(gè)向量或某些向量只發(fā)生伸縮變換,不對(duì)這些向量產(chǎn)生旋轉(zhuǎn)的效果,那么這些向量就稱為這個(gè)矩陣的特征向量,伸縮的比例就是特征值。”

那么這樣定義的特征值和特征向量有什么實(shí)際用途呢?在這里我舉個(gè)數(shù)據(jù)挖掘算法中重要的一個(gè)算法:PCA(主成分分析)來給大家直觀的感受一下。

首先,理解一下信息量這個(gè)概念

看幾張圖:

如果我們單獨(dú)看某一個(gè)維度的話,比如看x1這個(gè)維度

可以看到將點(diǎn)投影到x1這個(gè)維度上看的話,圖1的數(shù)據(jù)離散性最高,圖3較低,圖2數(shù)據(jù)離散性是最低的。數(shù)據(jù)離散性越大,代表數(shù)據(jù)在所投影的維度上具有越高的區(qū)分度,這個(gè)區(qū)分度就是信息量。如果我們用方差來形容數(shù)據(jù)的離散性的話,就是數(shù)據(jù)方差越大,表示數(shù)據(jù)的區(qū)分度越高,也就是蘊(yùn)含的信息量是越大的。

?基于這個(gè)知識(shí),如果我們想對(duì)數(shù)據(jù)進(jìn)行降維的話,比如圖1的兩個(gè)維度的數(shù)據(jù)降成一維,我們可以選擇保留X1這個(gè)維度的數(shù)據(jù),因?yàn)樵谶@個(gè)維度上蘊(yùn)含的信息量更多。

同理,圖2就可以保留x2這個(gè)維度的數(shù)據(jù)。但是,問題來了,圖3應(yīng)該保留哪個(gè)維度的數(shù)據(jù)呢?答案是保留哪個(gè)維度都不好,都會(huì)丟失較大的信息量。但是,如果我們把圖3的坐標(biāo)軸旋轉(zhuǎn)一下

比較容易看出,圖3在新的坐標(biāo)軸下就能進(jìn)行降維了。所以選取正確的坐標(biāo)軸,然后根據(jù)各個(gè)維度上的數(shù)據(jù)方差大小,決定保留哪些維度的數(shù)據(jù),這樣的做法就是主成分分析的核心思想。

選取正確的坐標(biāo)軸的過程中,我們需要一個(gè)矩陣變換,就類似于這樣: ??

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?

也就是:

其實(shí),經(jīng)過數(shù)學(xué)上的推導(dǎo)的,我們就可以知道,特征值對(duì)應(yīng)的特征向量就是理想中想取得正確的坐標(biāo)軸,而特征值就等于數(shù)據(jù)在旋轉(zhuǎn)之后的坐標(biāo)上對(duì)應(yīng)維度上的方差

也就是說,直接求出矩陣A的特征向量得出對(duì)應(yīng)的特征向量。我們就能找到旋轉(zhuǎn)后正確的坐標(biāo)軸。這個(gè)就是特征值和特征向量的一個(gè)實(shí)際應(yīng)用:“得出使數(shù)據(jù)在各個(gè)維度區(qū)分度達(dá)到最大的坐標(biāo)軸。”

所以,在數(shù)據(jù)挖掘中,就會(huì)直接用特征值來描述對(duì)應(yīng)特征向量方向上包含的信息量,而某一特征值除以所有特征值的和的值就為:該特征向量的方差貢獻(xiàn)率(方差貢獻(xiàn)率代表了該維度下蘊(yùn)含的信息量的比例)。

通常經(jīng)過特征向量變換下的數(shù)據(jù)被稱為變量的主成分,當(dāng)前m個(gè)主成分累計(jì)的方差貢獻(xiàn)率達(dá)到一個(gè)較高的百分?jǐn)?shù)(如85%以上)的話,就保留著這m個(gè)主成分的數(shù)據(jù)。實(shí)現(xiàn)了對(duì)數(shù)據(jù)進(jìn)行降維的目的。整個(gè)主成分分析的算法原理也就是這個(gè)。

創(chuàng)作挑戰(zhàn)賽新人創(chuàng)作獎(jiǎng)勵(lì)來咯,堅(jiān)持創(chuàng)作打卡瓜分現(xiàn)金大獎(jiǎng)

總結(jié)

以上是生活随笔為你收集整理的主成分分析PCA以及特征值和特征向量的意义的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。