典型关联分析CCA(canonical correlation analysis)
先看兩個數(shù)學(xué)概念:
相關(guān)系數(shù)(參看百度百科)
? ? ?相關(guān)系數(shù)是用以反映變量之間相關(guān)關(guān)系密切程度的統(tǒng)計指標(biāo)。相關(guān)系數(shù)是按積差方法計算,同樣以兩變量與各自平均值的離差為基礎(chǔ),通過兩個離差相乘來反映兩變量之間相關(guān)程度
相關(guān)關(guān)系是一種非確定性的關(guān)系,相關(guān)系數(shù)是研究變量之間線性相關(guān)程度的量。由于研究對象的不同,相關(guān)系數(shù)有如下幾種定義方式:
簡單相關(guān)系數(shù):又叫相關(guān)系數(shù)或線性相關(guān)系數(shù),一般用字母r 表示,用來度量兩個變量間的線性關(guān)系。
復(fù)相關(guān)系數(shù):又叫多重相關(guān)系數(shù)。復(fù)相關(guān)是指因變量與多個自變量之間的相關(guān)關(guān)系。例如,某種商品的季節(jié)性需求量與其價格水平、職工收入水平等現(xiàn)象之間呈現(xiàn)復(fù)相關(guān)關(guān)系。
典型相關(guān)系數(shù):是先對原來各組變量進行主成分分析,得到新的線性關(guān)系的綜合指標(biāo),再通過綜合指標(biāo)之間的線性相關(guān)系數(shù)來研究原各組變量間相關(guān)關(guān)系。
相關(guān)系數(shù)矩陣(也叫相關(guān)矩陣)
設(shè)(X1,X2,X3...Xn)是一個n維隨機變量,任意Xi和Xj的相關(guān)系數(shù)Pij(I,j=1,2,3…n)存在,則以Pij為元素的n階矩陣稱為該維隨機向量的相關(guān)矩陣,記作R,即
其中
在一元統(tǒng)計分析中,用相關(guān)系數(shù)來衡量兩個隨機變量的線性相關(guān)關(guān)系,用復(fù)相關(guān)系數(shù)研究一個隨機變量與多個隨機變量的線性相關(guān)關(guān)系。而CCA則是利用綜合變量對之間的相關(guān)關(guān)系來反應(yīng)兩組指標(biāo)之間的整體相關(guān)性的多元統(tǒng)計分析方法。 CCA典型關(guān)聯(lián)分析CCA的基本原理:CCA從整體上把握兩組指標(biāo)之間的相關(guān)關(guān)系,首先,在每組變量中尋找出變量的線性組合,使得兩組的線性組合之間具有最大的相關(guān)系數(shù);然后選取和已經(jīng)挑選出的這對線性組合不相關(guān)的另一對線性組合,并使其相關(guān)系數(shù)最大,如此下去,直到兩組變量的相關(guān)性被提取完畢為止。被選出的線性組合配對稱為典型變量,它們的相關(guān)系數(shù)稱為典型相關(guān)系數(shù)。 CCA簡單相關(guān)系數(shù)描述兩組變量的相關(guān)關(guān)系的缺點:只考慮了組與組的相關(guān),并沒有考慮組內(nèi)的相關(guān)。兩組簡單相關(guān)系數(shù)很多,使問題顯得復(fù)雜,難以從整體描述。 ? ? 典型相關(guān)是簡單相關(guān),多重相關(guān)的推廣。典型相關(guān)是研究兩組變量之間相關(guān)性的一種統(tǒng)計學(xué)習(xí)方法,也是一種降維技術(shù)。 典型相關(guān)分析的實質(zhì)就是在兩組隨機變量中選取若干個有代表性的綜合指標(biāo)(變量的線性組合),用這些指標(biāo)的相關(guān)關(guān)系來表示原來的兩組變量的相關(guān)關(guān)系。這在兩組變量的相關(guān)分析中,可以起到合理的簡化作用。當(dāng)?shù)湫拖嚓P(guān)系數(shù)足夠大時,可以像回歸分析一樣由一組變量的數(shù)值預(yù)測另一組變量的線性組合的數(shù)值。 計算方法: 第一步假設(shè)每組變量的線性組合和求得已知變量的相關(guān)系數(shù)矩陣,matlab里面有函數(shù)cov可以計算協(xié)方差:
第二步求得假設(shè)的線性組合的方差,協(xié)方差和相關(guān)系數(shù):
第三步引入限制條件,求相關(guān)系數(shù)的最大值,這是其中的一種限制條件,可以求得第一對典型變量。
從上式就可以看出問題轉(zhuǎn)化為了求特征值問題,λ2就是特征值,a和b就是對應(yīng)的特征向量。也就是求出最大特征值及其對應(yīng)的特征向量。 這就是第一對典型變量對的求法。 第二對的典型變量對的求法就是更改一下第一對的求法里面的限制條件,在第三步里面。 第二對典型變量對的求法:
按照求第一對的方法解此方程就可以求得第二對典型變量對。 以此類推,然后可以得到最終的一條規(guī)律,那就是:
其中 matlab自帶CCA函數(shù) >> [A,B,R,U,V] = canoncorr(X,Y);
參考文獻: http://www.cnblogs.com/boostable/p/lec_canonical_correlation_analysis.html
http://blog.csdn.net/u012409883/article/details/17091861 ? 此文章有實例
總結(jié)
以上是生活随笔為你收集整理的典型关联分析CCA(canonical correlation analysis)的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: centos7.7 clamav 查杀病
- 下一篇: Kullback–Leibler div