日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 编程资源 > 综合教程 >内容正文

综合教程

降维之主成分分析法(PCA)

發(fā)布時(shí)間:2024/8/26 综合教程 44 生活家
生活随笔 收集整理的這篇文章主要介紹了 降维之主成分分析法(PCA) 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

這篇博客整理主成分分析法(PCA)相關(guān)的內(nèi)容,包括:

1、主成分分析法的思想

2、主成分的選擇

3、主成分矩陣的求解

4、主成分的方差貢獻(xiàn)率和累計(jì)方差貢獻(xiàn)率

5、基于投影方差最大化的數(shù)學(xué)推導(dǎo)

一、主成分分析法的思想

我們?cè)谘芯磕承﹩?wèn)題時(shí),需要處理帶有很多變量的數(shù)據(jù),比如研究房?jī)r(jià)的影響因素,需要考慮的變量有物價(jià)水平、土地價(jià)格、利率、就業(yè)率、城市化率等。變量和數(shù)據(jù)很多,但是可能存在噪音和冗余,因?yàn)檫@些變量中有些是相關(guān)的,那么就可以從相關(guān)的變量中選擇一個(gè),或者將幾個(gè)變量綜合為一個(gè)變量,作為代表。用少數(shù)變量來(lái)代表所有的變量,用來(lái)解釋所要研究的問(wèn)題,就能從化繁為簡(jiǎn),抓住關(guān)鍵,這也就是降維的思想。

主成分分析法(Principal Component Analysis,PCA)就是一種運(yùn)用線性代數(shù)的知識(shí)來(lái)進(jìn)行數(shù)據(jù)降維的方法,它將多個(gè)變量轉(zhuǎn)換為少數(shù)幾個(gè)不相關(guān)的綜合變量來(lái)比較全面地反映整個(gè)數(shù)據(jù)集。這是因?yàn)閿?shù)據(jù)集中的原始變量之間存在一定的相關(guān)關(guān)系,可用較少的綜合變量來(lái)綜合各原始變量之間的信息。這些綜合變量稱為主成分,各主成分之間彼此不相關(guān),即所代表的的信息不重疊。

那么主成分分析法是如何降維的呢?我們從坐標(biāo)變換的角度來(lái)獲得一個(gè)感性的認(rèn)識(shí)。

我們先從最簡(jiǎn)單的情形開(kāi)始,假定數(shù)據(jù)集中的原始變量只有兩個(gè),即數(shù)據(jù)是二維的,每個(gè)觀測(cè)值都用標(biāo)準(zhǔn)的X-y坐標(biāo)軸來(lái)表示。如果每一個(gè)維度都服從正態(tài)分布(這比較常見(jiàn)),那么這些數(shù)據(jù)就會(huì)形成橢圓形狀的點(diǎn)陣。如下圖所示,橢圓有一個(gè)長(zhǎng)軸和一個(gè)短軸,二者是垂直的。

在短軸上,觀測(cè)點(diǎn)數(shù)據(jù)的變化比較小,如果把這些點(diǎn)垂直地投影到短軸上,那么有很多點(diǎn)的投影會(huì)重合,這相當(dāng)于很多數(shù)據(jù)點(diǎn)的信息都沒(méi)有被充分利用到;而在長(zhǎng)軸上,觀測(cè)點(diǎn)的數(shù)據(jù)變化比較大。因此,如果坐標(biāo)軸和橢圓的長(zhǎng)短軸平行,那么代表長(zhǎng)軸的變量直接可以從數(shù)據(jù)集的原始變量中找到,它描述了數(shù)據(jù)的主要變化,而另一個(gè)原始變量就代表短軸的變量,描述的是數(shù)據(jù)的次要變化。在極端情況下,短軸退化成一個(gè)點(diǎn),那么就只能用長(zhǎng)軸的變量來(lái)解釋數(shù)據(jù)點(diǎn)的所有變化,就可以把二維數(shù)據(jù)降至一維。

但是,坐標(biāo)軸通常并不和橢圓的長(zhǎng)短軸平行,就像上圖所展示的那樣。因此,需要構(gòu)建新的坐標(biāo)系,使得新坐標(biāo)系的坐標(biāo)軸與橢圓的長(zhǎng)短軸重合或平行。這需要用到坐標(biāo)變換,把觀測(cè)點(diǎn)在原坐標(biāo)軸的坐標(biāo)轉(zhuǎn)換到新坐標(biāo)系下,同時(shí)也把原始變量轉(zhuǎn)換為了長(zhǎng)軸的變量和短軸的變量,這種轉(zhuǎn)換是通過(guò)對(duì)原始變量進(jìn)行線性組合的方式而完成的

比如一個(gè)觀測(cè)點(diǎn)在原X-y坐標(biāo)系中的坐標(biāo)為(4,5),坐標(biāo)基為(1,0)和(0,1),如果長(zhǎng)軸為斜率是1的線,短軸為斜率是-1的線,新坐標(biāo)系以長(zhǎng)軸和短軸作為坐標(biāo)軸,那么新坐標(biāo)基可以取為(1/√2, 1/√2)和(-1/√2, 1/√2)。我們把兩個(gè)坐標(biāo)基按行放置,作為變換矩陣,乘以原坐標(biāo),也就是對(duì)原坐標(biāo)進(jìn)行線性組合,可以得到該點(diǎn)在新坐標(biāo)系下的坐標(biāo)。可以看到變換后長(zhǎng)軸變量的值遠(yuǎn)大于短軸變量的值。

如果長(zhǎng)軸變量解釋了數(shù)據(jù)集中的大部分變化,那么就可以用長(zhǎng)軸變量來(lái)代表原來(lái)的兩個(gè)變量,從而把二維數(shù)據(jù)降至一維。橢圓的長(zhǎng)軸和短軸的長(zhǎng)度相差越大,這種做法的效果也就越好。

接著我們把二維變量推廣到多維變量,具有多維變量的數(shù)據(jù)集其觀測(cè)點(diǎn)的形狀類似于一個(gè)高維橢球,同樣的,把高維橢球的軸都找出來(lái),再把代表數(shù)據(jù)大部分信息的k個(gè)最長(zhǎng)的軸作為新變量(相互垂直),也就是k個(gè)主成分,那么主成分分析就完成了。

選擇的主成分越少,越能體現(xiàn)降維二字的內(nèi)涵,可是不可避免會(huì)舍棄越多的信息。因此以什么標(biāo)準(zhǔn)來(lái)決定我們應(yīng)該選幾個(gè)主成分呢?

二、主成分的選擇問(wèn)題

到這里,我們應(yīng)該有三個(gè)問(wèn)題需要思考:一是進(jìn)行坐標(biāo)變換的矩陣是怎么得到的呢?二是用什么指標(biāo)來(lái)衡量一個(gè)主成分所能解釋的數(shù)據(jù)變化的大小?三是以什么標(biāo)準(zhǔn)來(lái)決定選多少個(gè)主成分呢?

首先來(lái)解決第二和第三個(gè)問(wèn)題。

假定我們有m個(gè)觀測(cè)值,每個(gè)觀測(cè)值有n個(gè)特征(變量),那么將其按列排成n行m列的矩陣,并且每一行都減去該行的均值,得到矩陣X(減去均值是為了下面方便求方差和協(xié)方差)。并按行把X整理成n個(gè)行向量的形式,即用X1, X2, ..., Xn來(lái)表示n個(gè)原始變量。

第一部分的例子說(shuō)明了通過(guò)一個(gè)n×n的轉(zhuǎn)換矩陣對(duì)數(shù)據(jù)集中的原始變量進(jìn)行線性組合,就可以得到n個(gè)新的變量。轉(zhuǎn)換矩陣可以有很多個(gè),也就是變換的坐標(biāo)系有很多個(gè),但是只有一個(gè)可以由原始變量得到主成分。我們先不管這個(gè)獨(dú)特的矩陣是怎么得到的,假定我們已經(jīng)得到了這個(gè)轉(zhuǎn)換矩陣P,那么把轉(zhuǎn)換后的n個(gè)主成分記為Y1, Y2, ..., Yn,那么由Y=PX,就可以得到主成分矩陣:

這n個(gè)行向量都是主成分,彼此之間是線性無(wú)關(guān)的,按照對(duì)數(shù)據(jù)變化解釋力的強(qiáng)度降序排列(并非被挑出來(lái)的前k個(gè)行向量才叫做主成分)。

那么如何衡量每一個(gè)主成分所能解釋的數(shù)據(jù)變化的大小呢?

我們先看n=2時(shí),主成分為Y1和Y2,原變量為X1和X2。從下圖可見(jiàn)Y1為長(zhǎng)軸變量,數(shù)據(jù)沿著這條軸的分布比較分散,數(shù)據(jù)的變化比較大,因此可以用Y1作為第一主成分來(lái)替代X1和X2。那用什么指標(biāo)來(lái)量化數(shù)據(jù)的變化和分散程度呢?用方差!

我們把向量X1和X2的元素記為x1t、x2t(t=1,2,...,m),把主成分Y1和Y2的元素記為y1t、y2t(t=1,2,...,m),那么整個(gè)數(shù)據(jù)集上的方差可以如下表示(數(shù)據(jù)早已經(jīng)減去均值,所以行向量的均值為0)。

第一主成分Y1所能解釋的數(shù)據(jù)的變化,可以用主成分的方差來(lái)衡量,也就是:

也可以用主成分的方差占總體方差的比重來(lái)衡量,這里假設(shè)為85%,這個(gè)比例越大,則反映的信息越多。

我們回到有n個(gè)原始變量和n個(gè)主成分的例子,那么選擇合適的轉(zhuǎn)換矩陣P來(lái)計(jì)算得到主成分矩陣Y時(shí),要讓單個(gè)主成分在數(shù)據(jù)集上的方差盡可能大。那么選擇主成分的第一個(gè)一般標(biāo)準(zhǔn)是少數(shù)k個(gè)主成分(1≤k<n)的方差占數(shù)據(jù)集總體方差的比例超過(guò)85%。

于是我們初步解決了第二個(gè)問(wèn)題和第三個(gè)問(wèn)題,也就是如果已知轉(zhuǎn)換矩陣P和主成分矩陣Y,那么就用一個(gè)主成分的方差占數(shù)據(jù)集總體方差的比例,來(lái)衡量該主成分能解釋的數(shù)據(jù)集方差的大小,然后按這個(gè)比例從大到小進(jìn)行排序,并進(jìn)行累加,如果到第k個(gè)主成分時(shí),累加的比例恰好等于或者超過(guò)85%,那么就選擇這k個(gè)主成分作為新變量,對(duì)數(shù)據(jù)集進(jìn)行降維。

接下來(lái)問(wèn)題倒回至第一個(gè)問(wèn)題,也就是求解第二個(gè)問(wèn)題和第三個(gè)問(wèn)題的前提:轉(zhuǎn)換矩陣P怎么算出來(lái)?

三、求解轉(zhuǎn)換矩陣和主成分矩陣

前面我們說(shuō)了主成分矩陣Y的一個(gè)特點(diǎn)是,單個(gè)主成分向量Yi的方差占總體方差的比例盡可能大,而且按照方差占比的大小,對(duì)所有的主成分進(jìn)行降序排列。另外還有一個(gè)特性是所有的主成分都是線性無(wú)關(guān)的,或者說(shuō)是正交的,那么所有主成分中,任意兩個(gè)主成分Yi和Yj的協(xié)方差都是0。

第一個(gè)特點(diǎn)涉及到主成分的方差,第二個(gè)特點(diǎn)涉及到主成分之間的協(xié)方差,這自然而然讓我們想到協(xié)方差矩陣的概念,因?yàn)橹鞒煞志仃嘫的協(xié)方差矩陣的對(duì)角元素,就是每個(gè)主成分的方差,而非對(duì)角元素就是協(xié)方差。由于協(xié)方差為0,那么主成分矩陣的協(xié)方差矩陣為一個(gè)對(duì)角矩陣,且對(duì)角元素是降序排列的!

由于數(shù)據(jù)集已經(jīng)減去了均值,那么同樣,主成分矩陣中的行向量也是0均值的,于是某兩個(gè)主成分的協(xié)方差為;

進(jìn)一步得到主成分矩陣Y的協(xié)方差矩陣為:

那知道了主成分矩陣Y的協(xié)方差矩陣是對(duì)角矩陣,對(duì)于我們求出轉(zhuǎn)換矩陣P和主成分矩陣有什么用呢?

有的,我們把Y=PX這個(gè)等式代入?yún)f(xié)方差矩陣中進(jìn)行變換,就把已知的數(shù)據(jù)X和需要求的P都放到了協(xié)方差矩陣中:

比較神奇的是,主成分矩陣Y的協(xié)方差矩陣可以由數(shù)據(jù)集X的協(xié)方差矩陣得到。

數(shù)據(jù)集X的協(xié)方差矩陣顯然是一個(gè)實(shí)對(duì)稱矩陣,實(shí)對(duì)稱矩陣有一系列好用的性質(zhì):

1、n階實(shí)對(duì)稱矩陣A必然可以對(duì)角化,而且相似對(duì)角陣的對(duì)角元素都是矩陣的特征值;

2、n階實(shí)對(duì)稱矩陣A的不同特征值對(duì)應(yīng)的特征向量是正交的(必然線性無(wú)關(guān));

3、n階實(shí)對(duì)稱矩陣A的某一特征值λk如果是k重特征根,那么必有k個(gè)線性無(wú)關(guān)的特征向量與之對(duì)應(yīng)。

因此數(shù)據(jù)集X的協(xié)方差矩陣作為n階實(shí)對(duì)稱矩陣,一定可以找到n個(gè)單位正交特征向量將其相似對(duì)角化。設(shè)這n個(gè)單位特征向量為e1, e2, ..., en,并按列組成一個(gè)矩陣:

那么數(shù)據(jù)集X的協(xié)方差矩陣可以對(duì)角化為:

相似對(duì)角陣上的元素λ1、λ2、... 、λn是協(xié)方差矩陣的特征值(可能存在多重特征值),E中對(duì)應(yīng)位置的列向量是特征值對(duì)應(yīng)的單位特征向量。

接下來(lái)是高能時(shí)刻。我們把這個(gè)對(duì)角陣Λ上的元素從大到小降序排列,相應(yīng)的把單位特征向量矩陣E里的特征向量也進(jìn)行排列。我們假設(shè)上面已經(jīng)是排列好之后的形式了,那么由于主成分矩陣的協(xié)方差矩陣也是元素從大到小降序排列的對(duì)角矩陣,那么就可以得到:

也就是取X的協(xié)方差矩陣的單位特征向量矩陣E,用它的轉(zhuǎn)置ET來(lái)作為轉(zhuǎn)換矩陣P,而X的協(xié)方差矩陣的特征值λ就是各主成分的方差!有了轉(zhuǎn)換矩陣P,那么由PX我們自然就可以得到主成分矩陣Y。如果我們想把數(shù)據(jù)從n維降至k維,那么從P中挑出前k個(gè)行向量,去乘以數(shù)據(jù)集X就行,就可以得到前k個(gè)主成分。

至此第一個(gè)問(wèn)題,也就是轉(zhuǎn)換矩陣P和主成分矩陣的求解就可以完成了。

四、主成分的方差貢獻(xiàn)率和累計(jì)方差貢獻(xiàn)率

我們來(lái)拆細(xì)了看各主成分是怎么得到的。主成分可以由協(xié)方差矩陣的單位特征向量和原始變量進(jìn)行線性組合得到。

P1就是由,X的協(xié)方差矩陣最大特征根λ1的單位特征向量e1轉(zhuǎn)置而成(列向量變?yōu)樾邢蛄浚谑堑谝恢鞒煞志褪牵?/p>

第一主成分的方差是最大的。然后第二主成分滿足:(1)和第一主成分正交,(2)在剩余的其他主成分中,方差最大,表達(dá)式為:

同理,第k個(gè)主成分的表達(dá)式為:

我們知道用主成分的方差來(lái)衡量其所能解釋的數(shù)據(jù)集的方差,而主成分的方差就是X的協(xié)方差矩陣的特征值λ,所以第k個(gè)主成分的方差就是λk。我們來(lái)定義一個(gè)指標(biāo),叫做主成分Yk的方差貢獻(xiàn)率,它是第k個(gè)主成分的方差占總方差的比例:

那么前k個(gè)主成分的方差累計(jì)貢獻(xiàn)率為:

如果前k個(gè)主成分的方差累計(jì)貢獻(xiàn)率超過(guò)了85%,那么說(shuō)明用前k個(gè)主成分去代替原來(lái)的n個(gè)變量后,不能解釋的方差不足15%,沒(méi)有損失太多信息,于是我們可以把n個(gè)變量減少為k個(gè)變量,達(dá)到降維的目的。

五、主成分分析法的流程總結(jié)

我們?yōu)榱送茖?dǎo)出主成分分析法的線性代數(shù)解法,鋪墊了很多,但推導(dǎo)出的結(jié)果卻是相當(dāng)簡(jiǎn)潔漂亮。現(xiàn)在我們省略中間的過(guò)程,看主成分分析法的計(jì)算流程。

假設(shè)我們拿到了一份數(shù)據(jù)集,有m個(gè)樣本,每個(gè)樣本由n個(gè)特征(變量)來(lái)描述,那么我們可以按照以下的步驟進(jìn)行降維:

1、將數(shù)據(jù)集中的每個(gè)樣本作為列向量,按列排列構(gòu)成一個(gè)n行m列的矩陣;

2、將矩陣的每一個(gè)行向量(每個(gè)變量)都減去該行向量的均值,從而使得新行向量的均值為0,得到新的數(shù)據(jù)集矩陣X;

3、求X的協(xié)方差矩陣,并求出協(xié)方差矩陣的特征值λ和單位特征向量e;

4、按照特征值從大到小的順序,將單位特征向量排列成矩陣,得到轉(zhuǎn)換矩陣P,并按PX計(jì)算出主成分矩陣;

5、用特征值計(jì)算方差貢獻(xiàn)率和方差累計(jì)貢獻(xiàn)率,取方差累計(jì)貢獻(xiàn)率超過(guò)85%的前k個(gè)主成分,或者想降至特定的k維,直接取前k個(gè)主成分。

六、主成分分析法計(jì)算的案例

為了更好地掌握主成分分析法的計(jì)算過(guò)程,我們來(lái)看一個(gè)例子。

假設(shè)我們想研究上海、北京房地產(chǎn)指數(shù)與其他價(jià)格指數(shù)之間的關(guān)系,設(shè)定了4個(gè)變量,如下表所示。

樣本數(shù)據(jù)取自1997年1月~2000年6月的統(tǒng)計(jì)資料,時(shí)間跨度為42個(gè)月,因此樣本容量為m=42,為了簡(jiǎn)單起見(jiàn),數(shù)據(jù)就不展示了。

第一步:計(jì)算數(shù)據(jù)集的協(xié)方差矩陣

將每個(gè)樣本作為列向量構(gòu)成一個(gè)矩陣,并對(duì)矩陣的每一個(gè)行向量進(jìn)行0均值化,得到了4行42列的數(shù)據(jù)集矩陣X。我們直接由X得到其協(xié)方差矩陣:

第二步:計(jì)算協(xié)方差矩陣的特征值和單位特征向量

我們用numpy來(lái)計(jì)算,代碼如下:

import numpy as np
from numpy import linalg 

# 協(xié)方差矩陣
C = [[1,-0.339,0.444,0.525],
     [-0.339,1,0.076,-0.374],
     [0.444,0.076,1,0.853],
     [0.525,-0.374,0.853,1]]
# 計(jì)算特征值和特征向量
value,vector = linalg.eig(C)
print('特征值為:',np.round(value,4),'
')
for i in range(4):
    print('特征值',np.round(value[i],4),'對(duì)應(yīng)的特征向量為:
',np.round(vector[:,i].T,4),'
')

# 求每一列的L2范數(shù),如果都是1,則已經(jīng)單位化了。   
print('特征向量已經(jīng)是單位特征向量了:',linalg.norm(vector,ord=2,axis=0))
特征值為: [2.3326 1.0899 0.5399 0.0376] 

特征值 2.3326 對(duì)應(yīng)的特征向量為:
 [ 0.4947 -0.2687  0.5464  0.6201] 

特征值 1.0899 對(duì)應(yīng)的特征向量為:
 [-0.2019  0.8378  0.5004  0.0832] 

特征值 0.5399 對(duì)應(yīng)的特征向量為:
 [-0.844  -0.3399  0.1652  0.3805] 

特征值 0.0376 對(duì)應(yīng)的特征向量為:
 [ 0.0458  0.3322 -0.651   0.681 ] 

特征向量已經(jīng)是單位特征向量了: [1. 1. 1. 1.]

得到特征值是λ1=2.3326 ,λ2=1.0899 ,λ3=0.5399 ,λ4=0.0376,已經(jīng)是從大到小排列好的了。而且特征向量已經(jīng)是單位特征向量了。

第三步:得到轉(zhuǎn)換矩陣P和主成分矩陣Y

我們得到第一個(gè)主成分如下,也就是用最大特征值的特征向量對(duì)原始變量進(jìn)行線性組合。

其他三個(gè)主成分同樣可以得到。

第四步:計(jì)算主成分的方差貢獻(xiàn)率和累計(jì)方差貢獻(xiàn)率,選擇k個(gè)主成分

有了協(xié)方差矩陣的特征值,計(jì)算就非常簡(jiǎn)單了。

# 方差貢獻(xiàn)率
contrib_rate = value/sum(value)
print('方差貢獻(xiàn)率為:',np.round(contrib_rate,4))

# 累計(jì)方差貢獻(xiàn)率
cum_contrib_rate = np.cumsum(contrib_rate)
print('
累計(jì)方差貢獻(xiàn)率為:',np.round(cum_contrib_rate,4))
方差貢獻(xiàn)率為: [0.5831 0.2725 0.135  0.0094]

累計(jì)方差貢獻(xiàn)率為: [0.5831 0.8556 0.9906 1.    ]

得到的結(jié)果整理如下。可以看到第一主成分Y1和第二主成分Y2的累積方差貢獻(xiàn)率已經(jīng)達(dá)到了85.56%,可以認(rèn)為用來(lái)代替4個(gè)原始變量,也不會(huì)造成太多信息損失。

七、基于投影方差最大化的數(shù)學(xué)推導(dǎo)

不要不耐煩,數(shù)學(xué)還是很有意思的,哈哈。我們下面用其他的方法來(lái)推導(dǎo)轉(zhuǎn)換矩陣和主成分的計(jì)算公式,可以把主成分的求解問(wèn)題轉(zhuǎn)換為一個(gè)約束條件下的求最大值的問(wèn)題。

假設(shè)數(shù)據(jù)集X有m個(gè)樣本,每個(gè)樣本是一個(gè)n維的列向量,我們把X整理成n行m列的矩陣:X=(X1, X2,..., Xn)T,且已經(jīng)對(duì)行向量進(jìn)行了0均值化。現(xiàn)在我們希望用主成分分析法將n維變量降至k維。首先進(jìn)行坐標(biāo)變換,經(jīng)過(guò)坐標(biāo)變換后的新坐標(biāo)系為W={w1, w2, ..., wn},其中wi是標(biāo)準(zhǔn)正交基,WTW是單位向量。如果第一主成分Y1的方向就是w1這條坐標(biāo)軸的方向,那么樣本投影到w1上之后會(huì)被廣泛散布,使得樣本之間的差別變得特別明顯,也就是投影的方差最大。

設(shè)數(shù)據(jù)集X在w1上的投影為z1=w1TX,那么問(wèn)題就成了希望在w1的L2范數(shù)平方為1的約束條件下,尋找向量w1,使得投影的方差最大化。記數(shù)據(jù)集X的協(xié)方差矩陣為Cov(X)=Σ,則投影方差最大化問(wèn)題為:

寫(xiě)成拉格朗日問(wèn)題:

對(duì)w1求導(dǎo)并令其為0,得到如下表達(dá)式。Σ是數(shù)據(jù)集X的協(xié)方差矩陣,所以w1可以看做是協(xié)方差矩陣的一個(gè)特征值λ的特征向量。

對(duì)于以上的式子,等式左右兩邊都左乘一個(gè)w1T,得到數(shù)據(jù)集X在w1上投影的方差,也就是特征值λ。由于w1是第一主成分Y1所在的坐標(biāo)軸,那么由方差最大得到λ是最大的特征值。

第一主成分怎么求出來(lái)呢?很簡(jiǎn)單,Y1=w1TX(這里的w1是特指方差最大化的解)就是了。

求出了第一主成分,我們可以再求第二主成分。假設(shè)第二主成分Y2在新坐標(biāo)軸w2的方向上,那么Y2應(yīng)該是剩余的主成分中,使數(shù)據(jù)集在w2上投影的方差最大的那個(gè)。

數(shù)據(jù)集X在w2上的投影為z2=w2TX,除了滿足w2的L2范數(shù)平方為1的條件外,還需要滿足w2Tw1=0,其中w1是我們已經(jīng)求出來(lái)的。于是投影方差最大化問(wèn)題寫(xiě)成拉格朗日的格式為:

對(duì)w2求導(dǎo),經(jīng)過(guò)一系列的推導(dǎo),我們最終可以得到Σw2=λw2。

那么w2可以看做是協(xié)方差矩陣Σ的特征向量,對(duì)應(yīng)的特征值為第二大特征值λ2,第二主成分Y2=w2TX。

類似的,其他主成分所在的坐標(biāo)軸的標(biāo)準(zhǔn)正交基wi是依次遞減的特征值所對(duì)應(yīng)的單位特征向量。

參考資料

1、《PCA數(shù)學(xué)原理》:http://www.360doc.com/content/13/1124/02/9482_331688889.shtml

2、主成分分析(PCA)原理總結(jié)

總結(jié)

以上是生活随笔為你收集整理的降维之主成分分析法(PCA)的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。

主站蜘蛛池模板: 深田咏美中文字幕 | 永久免费未满 | 蜜桃av噜噜一区二区三区网址 | 91亚洲精品一区二区乱码 | 毛茸茸亚洲孕妇孕交片 | 成人中文字幕在线观看 | 一区二区在线精品 | 超碰97久久 | 久久久午夜精品福利内容 | www国产黄色 | 日日碰日日摸 | 俺也去网站 | 亚洲九区 | 特级少妇 | 成人在线观看一区 | a视频免费看| 成年人看的视频网站 | 特黄特色免费视频 | av美女在线观看 | 久久久久人妻精品色欧美 | 欧美人妻少妇一区二区三区 | 美女黄色小视频 | 国产美女福利在线 | 久久精品国产亚洲av成人 | 一个色综合导航 | 国产欧美亚洲一区二区 | 污网站在线免费看 | 在线尤物 | 欧美中文字幕视频 | 亚洲欧美日韩图片 | 视频在线观看免费大片 | 天堂在线8 | 男生女生羞羞网站 | 婷婷在线免费视频 | 一本色道久久hezyo无码 | 九九综合九九综合 | 岛国av在线播放 | 依人成人网| 久久久久久黄色片 | 欧美亚洲免费 | 夜夜草导航| 国产欧美日韩精品在线观看 | av一级大片 | 人妻久久一区二区 | 成人网免费视频 | 欧美性猛交aaaa片黑人 | 亚洲视频免费播放 | 激情综合五月婷婷 | 欧美日本 | 亚洲视频中文字幕 | 国产黄a三级三级看三级 | 亚洲乱码国产乱码精品精98午夜 | 一区二区视频免费在线观看 | 日本三级小视频 | 国产精品刺激 | 欧美亚洲视频一区 | 麻豆日韩 | 亚洲精品视频在线观看免费 | 天天网综合 | 国产 欧美 精品 | 国产欧美日韩视频 | 殴美一区二区 | www夜插内射视频网站 | 少妇无码一区二区三区免费 | a级欧美 | 欧美日韩亚 | 裸体一区二区 | 国模丫头1000人体 | 成人一区二区三区四区 | 欧美美女色图 | 天堂一区二区三区四区 | 2019中文字幕在线 | 久久色播| 欧美特级黄 | www爱爱| 国产三级漂亮女教师 | 国产精品免费91 | 在线免费观看av的网站 | 哺乳期喷奶水丰满少妇 | 中文字幕在线播放av | 黄色一级大片在线免费看国产 | 欧美亚州国产 | 日韩一二三区在线观看 | 两个人做羞羞的视频 | av午夜天堂 | 国产精品v日韩精品v在线观看 | 巨乳美女被爆操 | 日本专区在线 | 四虎影视成人 | 亚洲成人久久久 | 国产视频最新 | 欧美30p | 一区二区三区四区国产 | av手机网站 | 毛片大全免费 | 91女人18毛片水多国产 | 国产美女被草 | 亚洲精品日产精品乱码不卡 | 一区二区啪啪啪 |