主成分分析之数学推导
記者:王老您好,上次您給我們清晰的介紹了什么是主成分,今年您是否有空給我們講一講如何用數(shù)學(xué)方法來(lái)分析主成分呢?
王老:可以的,但我現(xiàn)在手頭有點(diǎn)事,半個(gè)小時(shí)之后再來(lái)找我
記者:好的,一會(huì)兒見(jiàn)
半個(gè)小時(shí)后
王老:我們開(kāi)始吧,其實(shí)主成分分析一般分為兩個(gè)大的步驟,第一步是講把數(shù)組的平均值變成0并保證各個(gè)維度的數(shù)據(jù)在一個(gè)尺度上,第而步找到一個(gè)可以原來(lái)的特征空間映射到一個(gè)新的特征空間的矩陣和從新的特征空間中選擇足夠的維度來(lái)代表原數(shù)據(jù)。
記者:王老,我們?yōu)槭裁匆獙ふ疫@樣一個(gè)變換矩陣呢?
王老:我們?cè)谏洗斡懻摰臅r(shí)候已經(jīng)提過(guò),主成分不一定是原數(shù)據(jù)的維度中的幾個(gè),可以是原數(shù)據(jù)幾個(gè)維度的線性組合,而第一主成分就是所有可能的線性組合中方差最大的那個(gè)線性組合所構(gòu)成的新的維度
記者:王老,那怎么來(lái)求這個(gè)變換矩陣呢?
王老:一般我們都用奇異值分解來(lái)求,我們首先看一下什么是奇異值分解,有人說(shuō)奇異值分解是大學(xué)線性代數(shù)最應(yīng)該重點(diǎn)講的分解,但可惜的是很多老師都沒(méi)有好好去講它。任何一個(gè)矩陣A都可以分解成這樣的一個(gè)的形式
記者:王老,我真的聽(tīng)不懂
王老:沒(méi)事聽(tīng)不懂也沒(méi)關(guān)系,把前面的都忘了,就記住主成分分解的形式 A=UΣVT 下面我們開(kāi)始講如何用奇異值分解做主成分分析。如果我們有一組m維數(shù)據(jù)(就是我們從n個(gè)角度去描述一個(gè)事物),然后一共有n條數(shù)據(jù),這組數(shù)據(jù)可以寫(xiě)成一個(gè)矩陣 Dmn,我們把D的轉(zhuǎn)置做奇異值分解,也就是
DTmn=UΣVT ,也可以寫(xiě)成
DTmn=u1d1vT1+u2d2vT2+...
為了簡(jiǎn)化問(wèn)題,我們假設(shè)數(shù)據(jù)是兩維的
如果 d1遠(yuǎn)大于 d2,那么 u1d1vT1就可以近似的表示原數(shù)據(jù)了,而 v1就是數(shù)據(jù)的第一主成分,可以證明,原數(shù)據(jù)這這一維度上的方差最大。我們這里就不去證明了,如果有多維的話那么 vi就是第i主成分。
記者:那到底選多少個(gè)主成分合適呢?
王老:保證選擇的主成分對(duì)應(yīng)的d的值占多有d的和超過(guò)一定比例即可,一般是90%,也可以根據(jù)實(shí)際情況自己選擇這個(gè)比例
記者:好的,王老,我回去再好好消化一下,感謝您的耐心講解,再見(jiàn)
總結(jié)
以上是生活随笔為你收集整理的主成分分析之数学推导的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 概率论与数理统计(陈希孺)笔记2.2
- 下一篇: 遥感数字图像处理复习(朱文泉)