主成分分析PAC
一、模型介紹
??維度災(zāi)難,常是指在涉及到向量的計(jì)算的問(wèn)題中,隨著變量維數(shù)的增加,計(jì)算量呈指數(shù)倍增長(zhǎng)的一種現(xiàn)象。變量過(guò)多導(dǎo)致原本簡(jiǎn)單的問(wèn)題復(fù)雜化,甚至出現(xiàn)了無(wú)法解決的情況。在維度災(zāi)難的背景下,主成分分析法(Principal components analysis)孕育而生,由于各變量間存在一定的相關(guān)關(guān)系,因此有可以用較少的綜合指標(biāo)來(lái)反映多維數(shù)據(jù)里的信息,利用這一思路就可以通過(guò)數(shù)學(xué)手段,把多個(gè)變量化為少數(shù)變量,實(shí)現(xiàn)數(shù)據(jù)降維。
二、符號(hào)說(shuō)明
| XXX | 原始數(shù)據(jù)矩陣 |
| CCC | 協(xié)方差矩陣 |
| λ\lambdaλ | 特征值 |
| ccc | 標(biāo)準(zhǔn)化后的特征向量 |
| PPP | 變換矩陣 |
| YYY | 降維新矩陣 |
三、模型步驟
3.1將原始數(shù)據(jù)按列組成 n 行 m 列矩陣 X
??將數(shù)據(jù)排列為矩陣,其中每一行為一種屬性,列為屬性的數(shù)據(jù)序列:
? X=(a11?a1ma21?a2m???an1?anm)X=\begin{pmatrix} a_{11} & \cdots & a_{1m}\\ a_{21} & \cdots & a_{2m}\\ \vdots & \ddots & \vdots\\ a_{n1} & \cdots & a_{nm} \end{pmatrix}X=??????a11?a21??an1???????a1m?a2m??anm????????
3.2數(shù)據(jù)標(biāo)準(zhǔn)化
??將X的每一行(代表一個(gè)屬性)進(jìn)行零均值化,即減去這一行的均值:
? aij=1m∑j=1maij?aija_{ij}=\frac{1}{m}\sum\limits_{j=1}^{m}a_{ij}-a_{ij}aij?=m1?j=1∑m?aij??aij?
3.3求協(xié)方差矩陣
? C=1mXXTC=\frac{1}{m}XX^{T}C=m1?XXT
??以兩種屬性的標(biāo)準(zhǔn)化數(shù)據(jù)為例,即:X=(a1a2?anb1b2?bn)X=\begin{pmatrix}a_{1}&a_{2}&\cdots&a_{n}\\b_{1}&b_{2}&\cdots&b_{n}\end{pmatrix}X=(a1?b1??a2?b2?????an?bn??)
則協(xié)方差矩陣如下:
? C=1mXXT(1m∑i=1mai21m∑i=1maibi1m∑i=1maibi1m∑i=1mbi2)=(Cov(a,a)Cov(a,b)Cov(b,a)Cov(b,b))C=\frac{1}{m}XX^{T}\begin{pmatrix}\frac{1}{m}\sum_{i=1}^{m}a_{i}^{2} & \frac{1}{m}\sum_{i=1}^{m}a_{i}b_{i}\\\frac{1}{m}\sum_{i=1}^{m}a_{i}b_{i}&\frac{1}{m}\sum_{i=1}^{m}b_{i}^{2}\end{pmatrix}=\begin{pmatrix}Cov(a,a)&Cov(a,b)\\Cov(b,a)&Cov(b,b)\end{pmatrix}C=m1?XXT(m1?∑i=1m?ai2?m1?∑i=1m?ai?bi??m1?∑i=1m?ai?bi?m1?∑i=1m?bi2??)=(Cov(a,a)Cov(b,a)?Cov(a,b)Cov(b,b)?)
3.4求矩陣特征值與特征向量
??計(jì)算協(xié)方差矩陣的特征值和特征向量,參考線代相關(guān)知識(shí)。
??求解后特征值為:λ1、λ2?λn\lambda_{1}、\lambda_{2}\cdots\lambda_{n}λ1?、λ2??λn?
??標(biāo)準(zhǔn)化后的特征向量為:c1、c2?cnc_{1}、c_{2}\cdots c_{n}c1?、c2??cn?
3.5得到變換矩陣P
??將特征向量按對(duì)應(yīng)特征值大小從上到下按行排列成矩陣,根據(jù)需要取前 k 行組成矩陣 P,那么 P 的前 K 行就是要尋找的基:
? P=(c1Tc2T?ckT)P=\begin{pmatrix}c_{1}^{T}\\c_{2}^{T}\\\vdots\\c_{k}^{T}\end{pmatrix}P=??????c1T?c2T??ckT????????
3.6Y=PXY=PXY=PX即為降維到 k 維后的數(shù)據(jù)
??用 P 的前 K 行組成的矩陣乘以 X 就使得 X 從 N 維降到了 K 維并滿足上述優(yōu)化條件。
四、PAC代碼
五、模型優(yōu)缺點(diǎn)
優(yōu)點(diǎn)
1、緩解維度災(zāi)難:PCA 算法通過(guò)舍去一部分信息之后能使得樣本的采樣密度增大(因?yàn)榫S數(shù)降低了),這是緩解維度災(zāi)難的重要手段。
2、降噪:當(dāng)數(shù)據(jù)受到噪聲影響時(shí),最小特征值對(duì)應(yīng)的特征向量往往與噪聲有關(guān),將它們舍棄能在一定程度上起到降噪的效果。
3、特征獨(dú)立具有:PCA 不僅將數(shù)據(jù)壓縮到低維,它也使得降維之后的數(shù)據(jù)各特征相互獨(dú)立;
缺點(diǎn)
1、過(guò)擬合:PCA 保留了主要信息,但這個(gè)主要信息只是針對(duì)訓(xùn)練集的,而且這個(gè)主要信息未必是重要信息。有可能舍棄了一些看似無(wú)用的信息,但是這些看似無(wú)用的信息恰好是重要信息,只是在訓(xùn)練集上沒(méi)有很大的表現(xiàn),所以 PCA 也可能加劇了過(guò)擬合。
2、新數(shù)據(jù)沒(méi)有合理科學(xué)解釋。
總結(jié)
- 上一篇: PAC—主成分分析方法
- 下一篇: 上网行为管理设备网关部署方式