日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

主成分分析PAC

發(fā)布時(shí)間:2024/3/12 编程问答 40 豆豆
生活随笔 收集整理的這篇文章主要介紹了 主成分分析PAC 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

一、模型介紹

??維度災(zāi)難,常是指在涉及到向量的計(jì)算的問(wèn)題中,隨著變量維數(shù)的增加,計(jì)算量呈指數(shù)倍增長(zhǎng)的一種現(xiàn)象。變量過(guò)多導(dǎo)致原本簡(jiǎn)單的問(wèn)題復(fù)雜化,甚至出現(xiàn)了無(wú)法解決的情況。在維度災(zāi)難的背景下,主成分分析法(Principal components analysis)孕育而生,由于各變量間存在一定的相關(guān)關(guān)系,因此有可以用較少的綜合指標(biāo)來(lái)反映多維數(shù)據(jù)里的信息,利用這一思路就可以通過(guò)數(shù)學(xué)手段,把多個(gè)變量化為少數(shù)變量,實(shí)現(xiàn)數(shù)據(jù)降維。

二、符號(hào)說(shuō)明

符號(hào)說(shuō)明
XXX原始數(shù)據(jù)矩陣
CCC協(xié)方差矩陣
λ\lambdaλ特征值
ccc標(biāo)準(zhǔn)化后的特征向量
PPP變換矩陣
YYY降維新矩陣

三、模型步驟

3.1將原始數(shù)據(jù)按列組成 n 行 m 列矩陣 X

??將數(shù)據(jù)排列為矩陣,其中每一行為一種屬性,列為屬性的數(shù)據(jù)序列:

? X=(a11?a1ma21?a2m???an1?anm)X=\begin{pmatrix} a_{11} & \cdots & a_{1m}\\ a_{21} & \cdots & a_{2m}\\ \vdots & \ddots & \vdots\\ a_{n1} & \cdots & a_{nm} \end{pmatrix}X=??????a11?a21??an1???????a1m?a2m??anm????????

3.2數(shù)據(jù)標(biāo)準(zhǔn)化

??將X的每一行(代表一個(gè)屬性)進(jìn)行零均值化,即減去這一行的均值:

? aij=1m∑j=1maij?aija_{ij}=\frac{1}{m}\sum\limits_{j=1}^{m}a_{ij}-a_{ij}aij?=m1?j=1m?aij??aij?

3.3求協(xié)方差矩陣

? C=1mXXTC=\frac{1}{m}XX^{T}C=m1?XXT

??以兩種屬性的標(biāo)準(zhǔn)化數(shù)據(jù)為例,即:X=(a1a2?anb1b2?bn)X=\begin{pmatrix}a_{1}&a_{2}&\cdots&a_{n}\\b_{1}&b_{2}&\cdots&b_{n}\end{pmatrix}X=(a1?b1??a2?b2?????an?bn??)

則協(xié)方差矩陣如下:

? C=1mXXT(1m∑i=1mai21m∑i=1maibi1m∑i=1maibi1m∑i=1mbi2)=(Cov(a,a)Cov(a,b)Cov(b,a)Cov(b,b))C=\frac{1}{m}XX^{T}\begin{pmatrix}\frac{1}{m}\sum_{i=1}^{m}a_{i}^{2} & \frac{1}{m}\sum_{i=1}^{m}a_{i}b_{i}\\\frac{1}{m}\sum_{i=1}^{m}a_{i}b_{i}&\frac{1}{m}\sum_{i=1}^{m}b_{i}^{2}\end{pmatrix}=\begin{pmatrix}Cov(a,a)&Cov(a,b)\\Cov(b,a)&Cov(b,b)\end{pmatrix}C=m1?XXT(m1?i=1m?ai2?m1?i=1m?ai?bi??m1?i=1m?ai?bi?m1?i=1m?bi2??)=(Cov(a,a)Cov(b,a)?Cov(a,b)Cov(b,b)?)

3.4求矩陣特征值與特征向量

??計(jì)算協(xié)方差矩陣的特征值和特征向量,參考線代相關(guān)知識(shí)。

??求解后特征值為:λ1、λ2?λn\lambda_{1}、\lambda_{2}\cdots\lambda_{n}λ1?λ2??λn?

??標(biāo)準(zhǔn)化后的特征向量為:c1、c2?cnc_{1}、c_{2}\cdots c_{n}c1?、c2??cn?

3.5得到變換矩陣P

??將特征向量按對(duì)應(yīng)特征值大小從上到下按行排列成矩陣,根據(jù)需要取前 k 行組成矩陣 P,那么 P 的前 K 行就是要尋找的基:

? P=(c1Tc2T?ckT)P=\begin{pmatrix}c_{1}^{T}\\c_{2}^{T}\\\vdots\\c_{k}^{T}\end{pmatrix}P=??????c1T?c2T??ckT????????

3.6Y=PXY=PXY=PX即為降維到 k 維后的數(shù)據(jù)

??用 P 的前 K 行組成的矩陣乘以 X 就使得 X 從 N 維降到了 K 維并滿足上述優(yōu)化條件。

四、PAC代碼

五、模型優(yōu)缺點(diǎn)

優(yōu)點(diǎn)

1、緩解維度災(zāi)難:PCA 算法通過(guò)舍去一部分信息之后能使得樣本的采樣密度增大(因?yàn)榫S數(shù)降低了),這是緩解維度災(zāi)難的重要手段。

2、降噪:當(dāng)數(shù)據(jù)受到噪聲影響時(shí),最小特征值對(duì)應(yīng)的特征向量往往與噪聲有關(guān),將它們舍棄能在一定程度上起到降噪的效果。

3、特征獨(dú)立具有:PCA 不僅將數(shù)據(jù)壓縮到低維,它也使得降維之后的數(shù)據(jù)各特征相互獨(dú)立;

缺點(diǎn)

1、過(guò)擬合:PCA 保留了主要信息,但這個(gè)主要信息只是針對(duì)訓(xùn)練集的,而且這個(gè)主要信息未必是重要信息。有可能舍棄了一些看似無(wú)用的信息,但是這些看似無(wú)用的信息恰好是重要信息,只是在訓(xùn)練集上沒(méi)有很大的表現(xiàn),所以 PCA 也可能加劇了過(guò)擬合。

2、新數(shù)據(jù)沒(méi)有合理科學(xué)解釋。

總結(jié)

以上是生活随笔為你收集整理的主成分分析PAC的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。