降维之主成分分析法(PCA)
這篇博客整理主成分分析法(PCA)相關(guān)的內(nèi)容,包括:
1、主成分分析法的思想
2、主成分的選擇
3、主成分矩陣的求解
4、主成分的方差貢獻(xiàn)率和累計(jì)方差貢獻(xiàn)率
5、基于投影方差最大化的數(shù)學(xué)推導(dǎo)
一、主成分分析法的思想
我們?cè)谘芯磕承﹩?wèn)題時(shí),需要處理帶有很多變量的數(shù)據(jù),比如研究房?jī)r(jià)的影響因素,需要考慮的變量有物價(jià)水平、土地價(jià)格、利率、就業(yè)率、城市化率等。變量和數(shù)據(jù)很多,但是可能存在噪音和冗余,因?yàn)檫@些變量中有些是相關(guān)的,那么就可以從相關(guān)的變量中選擇一個(gè),或者將幾個(gè)變量綜合為一個(gè)變量,作為代表。用少數(shù)變量來(lái)代表所有的變量,用來(lái)解釋所要研究的問(wèn)題,就能從化繁為簡(jiǎn),抓住關(guān)鍵,這也就是降維的思想。
主成分分析法(Principal Component Analysis,PCA)就是一種運(yùn)用線性代數(shù)的知識(shí)來(lái)進(jìn)行數(shù)據(jù)降維的方法,它將多個(gè)變量轉(zhuǎn)換為少數(shù)幾個(gè)不相關(guān)的綜合變量來(lái)比較全面地反映整個(gè)數(shù)據(jù)集。這是因?yàn)閿?shù)據(jù)集中的原始變量之間存在一定的相關(guān)關(guān)系,可用較少的綜合變量來(lái)綜合各原始變量之間的信息。這些綜合變量稱為主成分,各主成分之間彼此不相關(guān),即所代表的的信息不重疊。
那么主成分分析法是如何降維的呢?我們從坐標(biāo)變換的角度來(lái)獲得一個(gè)感性的認(rèn)識(shí)。
我們先從最簡(jiǎn)單的情形開(kāi)始,假定數(shù)據(jù)集中的原始變量只有兩個(gè),即數(shù)據(jù)是二維的,每個(gè)觀測(cè)值都用標(biāo)準(zhǔn)的X-y坐標(biāo)軸來(lái)表示。如果每一個(gè)維度都服從正態(tài)分布(這比較常見(jiàn)),那么這些數(shù)據(jù)就會(huì)形成橢圓形狀的點(diǎn)陣。如下圖所示,橢圓有一個(gè)長(zhǎng)軸和一個(gè)短軸,二者是垂直的。
在短軸上,觀測(cè)點(diǎn)數(shù)據(jù)的變化比較小,如果把這些點(diǎn)垂直地投影到短軸上,那么有很多點(diǎn)的投影會(huì)重合,這相當(dāng)于很多數(shù)據(jù)點(diǎn)的信息都沒(méi)有被充分利用到;而在長(zhǎng)軸上,觀測(cè)點(diǎn)的數(shù)據(jù)變化比較大。因此,如果坐標(biāo)軸和橢圓的長(zhǎng)短軸平行,那么代表長(zhǎng)軸的變量直接可以從數(shù)據(jù)集的原始變量中找到,它描述了數(shù)據(jù)的主要變化,而另一個(gè)原始變量就代表短軸的變量,描述的是數(shù)據(jù)的次要變化。在極端情況下,短軸退化成一個(gè)點(diǎn),那么就只能用長(zhǎng)軸的變量來(lái)解釋數(shù)據(jù)點(diǎn)的所有變化,就可以把二維數(shù)據(jù)降至一維。
但是,坐標(biāo)軸通常并不和橢圓的長(zhǎng)短軸平行,就像上圖所展示的那樣。因此,需要構(gòu)建新的坐標(biāo)系,使得新坐標(biāo)系的坐標(biāo)軸與橢圓的長(zhǎng)短軸重合或平行。這需要用到坐標(biāo)變換,把觀測(cè)點(diǎn)在原坐標(biāo)軸的坐標(biāo)轉(zhuǎn)換到新坐標(biāo)系下,同時(shí)也把原始變量轉(zhuǎn)換為了長(zhǎng)軸的變量和短軸的變量,這種轉(zhuǎn)換是通過(guò)對(duì)原始變量進(jìn)行線性組合的方式而完成的。
比如一個(gè)觀測(cè)點(diǎn)在原X-y坐標(biāo)系中的坐標(biāo)為(4,5),坐標(biāo)基為(1,0)和(0,1),如果長(zhǎng)軸為斜率是1的線,短軸為斜率是-1的線,新坐標(biāo)系以長(zhǎng)軸和短軸作為坐標(biāo)軸,那么新坐標(biāo)基可以取為(1/√2, 1/√2)和(-1/√2, 1/√2)。我們把兩個(gè)坐標(biāo)基按行放置,作為變換矩陣,乘以原坐標(biāo),也就是對(duì)原坐標(biāo)進(jìn)行線性組合,可以得到該點(diǎn)在新坐標(biāo)系下的坐標(biāo)。可以看到變換后長(zhǎng)軸變量的值遠(yuǎn)大于短軸變量的值。
如果長(zhǎng)軸變量解釋了數(shù)據(jù)集中的大部分變化,那么就可以用長(zhǎng)軸變量來(lái)代表原來(lái)的兩個(gè)變量,從而把二維數(shù)據(jù)降至一維。橢圓的長(zhǎng)軸和短軸的長(zhǎng)度相差越大,這種做法的效果也就越好。
接著我們把二維變量推廣到多維變量,具有多維變量的數(shù)據(jù)集其觀測(cè)點(diǎn)的形狀類似于一個(gè)高維橢球,同樣的,把高維橢球的軸都找出來(lái),再把代表數(shù)據(jù)大部分信息的k個(gè)最長(zhǎng)的軸作為新變量(相互垂直),也就是k個(gè)主成分,那么主成分分析就完成了。
選擇的主成分越少,越能體現(xiàn)降維二字的內(nèi)涵,可是不可避免會(huì)舍棄越多的信息。因此以什么標(biāo)準(zhǔn)來(lái)決定我們應(yīng)該選幾個(gè)主成分呢?
二、主成分的選擇問(wèn)題
到這里,我們應(yīng)該有三個(gè)問(wèn)題需要思考:一是進(jìn)行坐標(biāo)變換的矩陣是怎么得到的呢?二是用什么指標(biāo)來(lái)衡量一個(gè)主成分所能解釋的數(shù)據(jù)變化的大小?三是以什么標(biāo)準(zhǔn)來(lái)決定選多少個(gè)主成分呢?
首先來(lái)解決第二和第三個(gè)問(wèn)題。
假定我們有m個(gè)觀測(cè)值,每個(gè)觀測(cè)值有n個(gè)特征(變量),那么將其按列排成n行m列的矩陣,并且每一行都減去該行的均值,得到矩陣X(減去均值是為了下面方便求方差和協(xié)方差)。并按行把X整理成n個(gè)行向量的形式,即用X1, X2, ..., Xn來(lái)表示n個(gè)原始變量。
第一部分的例子說(shuō)明了通過(guò)一個(gè)n×n的轉(zhuǎn)換矩陣對(duì)數(shù)據(jù)集中的原始變量進(jìn)行線性組合,就可以得到n個(gè)新的變量。轉(zhuǎn)換矩陣可以有很多個(gè),也就是變換的坐標(biāo)系有很多個(gè),但是只有一個(gè)可以由原始變量得到主成分。我們先不管這個(gè)獨(dú)特的矩陣是怎么得到的,假定我們已經(jīng)得到了這個(gè)轉(zhuǎn)換矩陣P,那么把轉(zhuǎn)換后的n個(gè)主成分記為Y1, Y2, ..., Yn,那么由Y=PX,就可以得到主成分矩陣:
這n個(gè)行向量都是主成分,彼此之間是線性無(wú)關(guān)的,按照對(duì)數(shù)據(jù)變化解釋力的強(qiáng)度降序排列(并非被挑出來(lái)的前k個(gè)行向量才叫做主成分)。
那么如何衡量每一個(gè)主成分所能解釋的數(shù)據(jù)變化的大小呢?
我們先看n=2時(shí),主成分為Y1和Y2,原變量為X1和X2。從下圖可見(jiàn)Y1為長(zhǎng)軸變量,數(shù)據(jù)沿著這條軸的分布比較分散,數(shù)據(jù)的變化比較大,因此可以用Y1作為第一主成分來(lái)替代X1和X2。那用什么指標(biāo)來(lái)量化數(shù)據(jù)的變化和分散程度呢?用方差!
我們把向量X1和X2的元素記為x1t、x2t(t=1,2,...,m),把主成分Y1和Y2的元素記為y1t、y2t(t=1,2,...,m),那么整個(gè)數(shù)據(jù)集上的方差可以如下表示(數(shù)據(jù)早已經(jīng)減去均值,所以行向量的均值為0)。
第一主成分Y1所能解釋的數(shù)據(jù)的變化,可以用主成分的方差來(lái)衡量,也就是:
也可以用主成分的方差占總體方差的比重來(lái)衡量,這里假設(shè)為85%,這個(gè)比例越大,則反映的信息越多。
我們回到有n個(gè)原始變量和n個(gè)主成分的例子,那么選擇合適的轉(zhuǎn)換矩陣P來(lái)計(jì)算得到主成分矩陣Y時(shí),要讓單個(gè)主成分在數(shù)據(jù)集上的方差盡可能大。那么選擇主成分的第一個(gè)一般標(biāo)準(zhǔn)是少數(shù)k個(gè)主成分(1≤k<n)的方差占數(shù)據(jù)集總體方差的比例超過(guò)85%。
于是我們初步解決了第二個(gè)問(wèn)題和第三個(gè)問(wèn)題,也就是如果已知轉(zhuǎn)換矩陣P和主成分矩陣Y,那么就用一個(gè)主成分的方差占數(shù)據(jù)集總體方差的比例,來(lái)衡量該主成分能解釋的數(shù)據(jù)集方差的大小,然后按這個(gè)比例從大到小進(jìn)行排序,并進(jìn)行累加,如果到第k個(gè)主成分時(shí),累加的比例恰好等于或者超過(guò)85%,那么就選擇這k個(gè)主成分作為新變量,對(duì)數(shù)據(jù)集進(jìn)行降維。
接下來(lái)問(wèn)題倒回至第一個(gè)問(wèn)題,也就是求解第二個(gè)問(wèn)題和第三個(gè)問(wèn)題的前提:轉(zhuǎn)換矩陣P怎么算出來(lái)?
三、求解轉(zhuǎn)換矩陣和主成分矩陣
前面我們說(shuō)了主成分矩陣Y的一個(gè)特點(diǎn)是,單個(gè)主成分向量Yi的方差占總體方差的比例盡可能大,而且按照方差占比的大小,對(duì)所有的主成分進(jìn)行降序排列。另外還有一個(gè)特性是所有的主成分都是線性無(wú)關(guān)的,或者說(shuō)是正交的,那么所有主成分中,任意兩個(gè)主成分Yi和Yj的協(xié)方差都是0。
第一個(gè)特點(diǎn)涉及到主成分的方差,第二個(gè)特點(diǎn)涉及到主成分之間的協(xié)方差,這自然而然讓我們想到協(xié)方差矩陣的概念,因?yàn)橹鞒煞志仃嘫的協(xié)方差矩陣的對(duì)角元素,就是每個(gè)主成分的方差,而非對(duì)角元素就是協(xié)方差。由于協(xié)方差為0,那么主成分矩陣的協(xié)方差矩陣為一個(gè)對(duì)角矩陣,且對(duì)角元素是降序排列的!
由于數(shù)據(jù)集已經(jīng)減去了均值,那么同樣,主成分矩陣中的行向量也是0均值的,于是某兩個(gè)主成分的協(xié)方差為;
進(jìn)一步得到主成分矩陣Y的協(xié)方差矩陣為:
那知道了主成分矩陣Y的協(xié)方差矩陣是對(duì)角矩陣,對(duì)于我們求出轉(zhuǎn)換矩陣P和主成分矩陣有什么用呢?
有的,我們把Y=PX這個(gè)等式代入?yún)f(xié)方差矩陣中進(jìn)行變換,就把已知的數(shù)據(jù)X和需要求的P都放到了協(xié)方差矩陣中:
比較神奇的是,主成分矩陣Y的協(xié)方差矩陣可以由數(shù)據(jù)集X的協(xié)方差矩陣得到。
數(shù)據(jù)集X的協(xié)方差矩陣顯然是一個(gè)實(shí)對(duì)稱矩陣,實(shí)對(duì)稱矩陣有一系列好用的性質(zhì):
1、n階實(shí)對(duì)稱矩陣A必然可以對(duì)角化,而且相似對(duì)角陣的對(duì)角元素都是矩陣的特征值;
2、n階實(shí)對(duì)稱矩陣A的不同特征值對(duì)應(yīng)的特征向量是正交的(必然線性無(wú)關(guān));
3、n階實(shí)對(duì)稱矩陣A的某一特征值λk如果是k重特征根,那么必有k個(gè)線性無(wú)關(guān)的特征向量與之對(duì)應(yīng)。
因此數(shù)據(jù)集X的協(xié)方差矩陣作為n階實(shí)對(duì)稱矩陣,一定可以找到n個(gè)單位正交特征向量將其相似對(duì)角化。設(shè)這n個(gè)單位特征向量為e1, e2, ..., en,并按列組成一個(gè)矩陣:
那么數(shù)據(jù)集X的協(xié)方差矩陣可以對(duì)角化為:
相似對(duì)角陣上的元素λ1、λ2、... 、λn是協(xié)方差矩陣的特征值(可能存在多重特征值),E中對(duì)應(yīng)位置的列向量是特征值對(duì)應(yīng)的單位特征向量。
接下來(lái)是高能時(shí)刻。我們把這個(gè)對(duì)角陣Λ上的元素從大到小降序排列,相應(yīng)的把單位特征向量矩陣E里的特征向量也進(jìn)行排列。我們假設(shè)上面已經(jīng)是排列好之后的形式了,那么由于主成分矩陣的協(xié)方差矩陣也是元素從大到小降序排列的對(duì)角矩陣,那么就可以得到:
也就是取X的協(xié)方差矩陣的單位特征向量矩陣E,用它的轉(zhuǎn)置ET來(lái)作為轉(zhuǎn)換矩陣P,而X的協(xié)方差矩陣的特征值λ就是各主成分的方差!有了轉(zhuǎn)換矩陣P,那么由PX我們自然就可以得到主成分矩陣Y。如果我們想把數(shù)據(jù)從n維降至k維,那么從P中挑出前k個(gè)行向量,去乘以數(shù)據(jù)集X就行,就可以得到前k個(gè)主成分。
至此第一個(gè)問(wèn)題,也就是轉(zhuǎn)換矩陣P和主成分矩陣的求解就可以完成了。
四、主成分的方差貢獻(xiàn)率和累計(jì)方差貢獻(xiàn)率
我們來(lái)拆細(xì)了看各主成分是怎么得到的。主成分可以由協(xié)方差矩陣的單位特征向量和原始變量進(jìn)行線性組合得到。
P1就是由,X的協(xié)方差矩陣最大特征根λ1的單位特征向量e1轉(zhuǎn)置而成(列向量變?yōu)樾邢蛄浚谑堑谝恢鞒煞志褪牵?/p>
第一主成分的方差是最大的。然后第二主成分滿足:(1)和第一主成分正交,(2)在剩余的其他主成分中,方差最大,表達(dá)式為:
同理,第k個(gè)主成分的表達(dá)式為:
我們知道用主成分的方差來(lái)衡量其所能解釋的數(shù)據(jù)集的方差,而主成分的方差就是X的協(xié)方差矩陣的特征值λ,所以第k個(gè)主成分的方差就是λk。我們來(lái)定義一個(gè)指標(biāo),叫做主成分Yk的方差貢獻(xiàn)率,它是第k個(gè)主成分的方差占總方差的比例:
那么前k個(gè)主成分的方差累計(jì)貢獻(xiàn)率為:
如果前k個(gè)主成分的方差累計(jì)貢獻(xiàn)率超過(guò)了85%,那么說(shuō)明用前k個(gè)主成分去代替原來(lái)的n個(gè)變量后,不能解釋的方差不足15%,沒(méi)有損失太多信息,于是我們可以把n個(gè)變量減少為k個(gè)變量,達(dá)到降維的目的。
五、主成分分析法的流程總結(jié)
我們?yōu)榱送茖?dǎo)出主成分分析法的線性代數(shù)解法,鋪墊了很多,但推導(dǎo)出的結(jié)果卻是相當(dāng)簡(jiǎn)潔漂亮。現(xiàn)在我們省略中間的過(guò)程,看主成分分析法的計(jì)算流程。
假設(shè)我們拿到了一份數(shù)據(jù)集,有m個(gè)樣本,每個(gè)樣本由n個(gè)特征(變量)來(lái)描述,那么我們可以按照以下的步驟進(jìn)行降維:
1、將數(shù)據(jù)集中的每個(gè)樣本作為列向量,按列排列構(gòu)成一個(gè)n行m列的矩陣;
2、將矩陣的每一個(gè)行向量(每個(gè)變量)都減去該行向量的均值,從而使得新行向量的均值為0,得到新的數(shù)據(jù)集矩陣X;
3、求X的協(xié)方差矩陣,并求出協(xié)方差矩陣的特征值λ和單位特征向量e;
4、按照特征值從大到小的順序,將單位特征向量排列成矩陣,得到轉(zhuǎn)換矩陣P,并按PX計(jì)算出主成分矩陣;
5、用特征值計(jì)算方差貢獻(xiàn)率和方差累計(jì)貢獻(xiàn)率,取方差累計(jì)貢獻(xiàn)率超過(guò)85%的前k個(gè)主成分,或者想降至特定的k維,直接取前k個(gè)主成分。
六、主成分分析法計(jì)算的案例
為了更好地掌握主成分分析法的計(jì)算過(guò)程,我們來(lái)看一個(gè)例子。
假設(shè)我們想研究上海、北京房地產(chǎn)指數(shù)與其他價(jià)格指數(shù)之間的關(guān)系,設(shè)定了4個(gè)變量,如下表所示。
樣本數(shù)據(jù)取自1997年1月~2000年6月的統(tǒng)計(jì)資料,時(shí)間跨度為42個(gè)月,因此樣本容量為m=42,為了簡(jiǎn)單起見(jiàn),數(shù)據(jù)就不展示了。
第一步:計(jì)算數(shù)據(jù)集的協(xié)方差矩陣
將每個(gè)樣本作為列向量構(gòu)成一個(gè)矩陣,并對(duì)矩陣的每一個(gè)行向量進(jìn)行0均值化,得到了4行42列的數(shù)據(jù)集矩陣X。我們直接由X得到其協(xié)方差矩陣:
第二步:計(jì)算協(xié)方差矩陣的特征值和單位特征向量
我們用numpy來(lái)計(jì)算,代碼如下:
import numpy as np
from numpy import linalg
# 協(xié)方差矩陣
C = [[1,-0.339,0.444,0.525],
[-0.339,1,0.076,-0.374],
[0.444,0.076,1,0.853],
[0.525,-0.374,0.853,1]]
# 計(jì)算特征值和特征向量
value,vector = linalg.eig(C)
print('特征值為:',np.round(value,4),'
')
for i in range(4):
print('特征值',np.round(value[i],4),'對(duì)應(yīng)的特征向量為:
',np.round(vector[:,i].T,4),'
')
# 求每一列的L2范數(shù),如果都是1,則已經(jīng)單位化了。
print('特征向量已經(jīng)是單位特征向量了:',linalg.norm(vector,ord=2,axis=0))
特征值為: [2.3326 1.0899 0.5399 0.0376] 特征值 2.3326 對(duì)應(yīng)的特征向量為: [ 0.4947 -0.2687 0.5464 0.6201] 特征值 1.0899 對(duì)應(yīng)的特征向量為: [-0.2019 0.8378 0.5004 0.0832] 特征值 0.5399 對(duì)應(yīng)的特征向量為: [-0.844 -0.3399 0.1652 0.3805] 特征值 0.0376 對(duì)應(yīng)的特征向量為: [ 0.0458 0.3322 -0.651 0.681 ] 特征向量已經(jīng)是單位特征向量了: [1. 1. 1. 1.]
得到特征值是λ1=2.3326 ,λ2=1.0899 ,λ3=0.5399 ,λ4=0.0376,已經(jīng)是從大到小排列好的了。而且特征向量已經(jīng)是單位特征向量了。
第三步:得到轉(zhuǎn)換矩陣P和主成分矩陣Y
我們得到第一個(gè)主成分如下,也就是用最大特征值的特征向量對(duì)原始變量進(jìn)行線性組合。
其他三個(gè)主成分同樣可以得到。
第四步:計(jì)算主成分的方差貢獻(xiàn)率和累計(jì)方差貢獻(xiàn)率,選擇k個(gè)主成分
有了協(xié)方差矩陣的特征值,計(jì)算就非常簡(jiǎn)單了。
# 方差貢獻(xiàn)率
contrib_rate = value/sum(value)
print('方差貢獻(xiàn)率為:',np.round(contrib_rate,4))
# 累計(jì)方差貢獻(xiàn)率
cum_contrib_rate = np.cumsum(contrib_rate)
print('
累計(jì)方差貢獻(xiàn)率為:',np.round(cum_contrib_rate,4))
方差貢獻(xiàn)率為: [0.5831 0.2725 0.135 0.0094] 累計(jì)方差貢獻(xiàn)率為: [0.5831 0.8556 0.9906 1. ]
得到的結(jié)果整理如下。可以看到第一主成分Y1和第二主成分Y2的累積方差貢獻(xiàn)率已經(jīng)達(dá)到了85.56%,可以認(rèn)為用來(lái)代替4個(gè)原始變量,也不會(huì)造成太多信息損失。
七、基于投影方差最大化的數(shù)學(xué)推導(dǎo)
不要不耐煩,數(shù)學(xué)還是很有意思的,哈哈。我們下面用其他的方法來(lái)推導(dǎo)轉(zhuǎn)換矩陣和主成分的計(jì)算公式,可以把主成分的求解問(wèn)題轉(zhuǎn)換為一個(gè)約束條件下的求最大值的問(wèn)題。
假設(shè)數(shù)據(jù)集X有m個(gè)樣本,每個(gè)樣本是一個(gè)n維的列向量,我們把X整理成n行m列的矩陣:X=(X1, X2,..., Xn)T,且已經(jīng)對(duì)行向量進(jìn)行了0均值化。現(xiàn)在我們希望用主成分分析法將n維變量降至k維。首先進(jìn)行坐標(biāo)變換,經(jīng)過(guò)坐標(biāo)變換后的新坐標(biāo)系為W={w1, w2, ..., wn},其中wi是標(biāo)準(zhǔn)正交基,WTW是單位向量。如果第一主成分Y1的方向就是w1這條坐標(biāo)軸的方向,那么樣本投影到w1上之后會(huì)被廣泛散布,使得樣本之間的差別變得特別明顯,也就是投影的方差最大。
設(shè)數(shù)據(jù)集X在w1上的投影為z1=w1TX,那么問(wèn)題就成了希望在w1的L2范數(shù)平方為1的約束條件下,尋找向量w1,使得投影的方差最大化。記數(shù)據(jù)集X的協(xié)方差矩陣為Cov(X)=Σ,則投影方差最大化問(wèn)題為:
寫(xiě)成拉格朗日問(wèn)題:
對(duì)w1求導(dǎo)并令其為0,得到如下表達(dá)式。Σ是數(shù)據(jù)集X的協(xié)方差矩陣,所以w1可以看做是協(xié)方差矩陣的一個(gè)特征值λ的特征向量。
對(duì)于以上的式子,等式左右兩邊都左乘一個(gè)w1T,得到數(shù)據(jù)集X在w1上投影的方差,也就是特征值λ。由于w1是第一主成分Y1所在的坐標(biāo)軸,那么由方差最大得到λ是最大的特征值。
第一主成分怎么求出來(lái)呢?很簡(jiǎn)單,Y1=w1TX(這里的w1是特指方差最大化的解)就是了。
求出了第一主成分,我們可以再求第二主成分。假設(shè)第二主成分Y2在新坐標(biāo)軸w2的方向上,那么Y2應(yīng)該是剩余的主成分中,使數(shù)據(jù)集在w2上投影的方差最大的那個(gè)。
數(shù)據(jù)集X在w2上的投影為z2=w2TX,除了滿足w2的L2范數(shù)平方為1的條件外,還需要滿足w2Tw1=0,其中w1是我們已經(jīng)求出來(lái)的。于是投影方差最大化問(wèn)題寫(xiě)成拉格朗日的格式為:
對(duì)w2求導(dǎo),經(jīng)過(guò)一系列的推導(dǎo),我們最終可以得到Σw2=λw2。
那么w2可以看做是協(xié)方差矩陣Σ的特征向量,對(duì)應(yīng)的特征值為第二大特征值λ2,第二主成分Y2=w2TX。
類似的,其他主成分所在的坐標(biāo)軸的標(biāo)準(zhǔn)正交基wi是依次遞減的特征值所對(duì)應(yīng)的單位特征向量。
參考資料
1、《PCA數(shù)學(xué)原理》:http://www.360doc.com/content/13/1124/02/9482_331688889.shtml
2、主成分分析(PCA)原理總結(jié)
總結(jié)
以上是生活随笔為你收集整理的降维之主成分分析法(PCA)的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: dubbo服务降级
- 下一篇: base64格式的图片数据如何转成图片