应用多元统计分析
目錄
簡(jiǎn)單介紹
研究對(duì)象
研究?jī)?nèi)容
圖示方法
1. 多元正態(tài)分布&參數(shù)估計(jì)
1.1?隨機(jī)向量
1.1.1 隨即向量基本概念
1.1.2?隨機(jī)向量的數(shù)字特征
1.2?多元正態(tài)分布
1.2.1 多元正態(tài)分布的基本概念
1.2.2 條件分布
1.3 隨機(jī)矩陣的正態(tài)分布
1.4 多元正態(tài)分布的參數(shù)估計(jì)
1.4.1 多元正態(tài)樣本的數(shù)字特征
1.4.2 參數(shù)的極大似然估計(jì)
2. 多元正態(tài)總體參數(shù)的假設(shè)檢驗(yàn)
2.1 幾個(gè)重要的統(tǒng)計(jì)量
2.2 單總體均值向量的檢驗(yàn)
2.2.1假設(shè)檢驗(yàn)
2.2.2 通過似然比統(tǒng)計(jì)量進(jìn)行假設(shè)檢驗(yàn)
2.2.3 置信域
2.3 多總體均值向量的檢驗(yàn)
2.4 協(xié)方差陣的檢驗(yàn)
3. 回歸分析
4. 判別分析
4.1 距離判別法
4.1.1 距離的定義:
4.1.2 距離判別
4.2 貝葉斯判別法
4.2.1?先驗(yàn)概率
4.2.2?廣義平方判別法
4.2.3 后驗(yàn)概率
4.2.4 貝葉斯判別準(zhǔn)則
4.3 費(fèi)歇判別 Fisher
5. 聚類分析
5.1 距離
5.2 系統(tǒng)聚類法
5.2.1 系統(tǒng)聚類法的步驟
5.2.2 類間距離的定義
6. 主成分分析
6.1 總體的主成分
6.1.1 主成分的定義
6.1.2 求主成分
6.1.3 總體主成分的性質(zhì)
6.1.4 主成分的貢獻(xiàn)率
6.2 樣本主成分
6.2.1 主成分得分
6.2.2 樣本主成分性質(zhì)
7. 因子分析
7.1 因子模型
7.1.1 正交因子模型
7.1.2 統(tǒng)計(jì)意義
7.1.3 因子模型特性
7.2 參數(shù)估計(jì)方法
7.2.1 主成分法
7.2.2 主因子法
8. 對(duì)應(yīng)分析方法
9. 典型相關(guān)分析
10. 偏最小二乘回歸分析
簡(jiǎn)單介紹
研究對(duì)象:
p個(gè)變量的n次觀測(cè)組成的數(shù)據(jù)矩陣
研究?jī)?nèi)容:
(1) 降維問題(簡(jiǎn)化數(shù)據(jù)結(jié)構(gòu))
比如因子分析、主成分分析等等
(2) 歸類問題(分類與判別)
比如聚類分析、判別分析等等
(3) 變量間的相互聯(lián)系
比如回歸分析、典型相關(guān)分析等等
(4) 多元數(shù)據(jù)的統(tǒng)計(jì)推斷
參數(shù)估計(jì)、協(xié)方差陣的假設(shè)檢驗(yàn)問題。這里統(tǒng)計(jì)量巨多,每個(gè)統(tǒng)計(jì)量性質(zhì)一大堆,麻煩死了。
(5) 多元統(tǒng)計(jì)分析的理論基礎(chǔ)
如研究多維隨機(jī)向量、多維正態(tài)隨機(jī)向量的分布和性質(zhì)等等。是整個(gè)多元統(tǒng)計(jì)的基礎(chǔ)。
圖示方法:
一維二維三維都可以畫出來,但是更高維就難啦,因此可以選用其他作圖方法。
(1) 輪廓圖
橫坐標(biāo)為p個(gè)變量,縱坐標(biāo)為變量的觀測(cè)值大小,一條折線表示一組觀測(cè)。如下:
(2) 雷達(dá)圖
(3) 調(diào)和曲線圖
即將多維空間一個(gè)點(diǎn)對(duì)應(yīng)于二維空間一條曲線。p維數(shù)據(jù)對(duì)應(yīng)的曲線為:
(4) 散布圖矩陣
變量之間兩兩配對(duì)生成的散點(diǎn)圖矩陣,如下:
(6) 臉譜圖
1. 多元正態(tài)分布&參數(shù)估計(jì)
多元正態(tài)分布在多元統(tǒng)計(jì)里面非常非常重要,一方面是很多統(tǒng)計(jì)量都服從或是在大樣本的條件下近似服從正態(tài)分布,一方面是現(xiàn)在已經(jīng)有了一套關(guān)于正態(tài)分布的統(tǒng)計(jì)推斷方法。
1.1?隨機(jī)向量
1.1.1 隨即向量基本概念
隨機(jī)向量:多元統(tǒng)計(jì)討論的多變量總體,即將p個(gè)隨機(jī)變量放在一起形成的p維隨機(jī)向量X=(X1,X2,...,Xp).
樣品:對(duì)p個(gè)變量做一次觀測(cè)得到觀測(cè)值(x1,x2,...,xp).
樣本數(shù)據(jù)陣:觀測(cè)n次,n個(gè)樣品構(gòu)成一個(gè)樣本。將樣品排列成n*p矩陣,則構(gòu)成了樣本數(shù)據(jù)陣。在具體觀測(cè)前,樣本數(shù)據(jù)陣是一個(gè)隨機(jī)陣。
隨機(jī)向量的聯(lián)合分布:p維隨機(jī)向量X=(X1,X2,...,Xp)'的聯(lián)合分布為p元函數(shù)F(x1,x2,...,xp)=P{X1<=x1,X2<=x2,...,Xp<xp}。如果X為連續(xù)性隨機(jī)向量,還對(duì)應(yīng)存在聯(lián)合概率密度函數(shù) f(x1.x2,...,xp)。
隨機(jī)向量的邊緣分布:隨機(jī)向量X的部分分量的分布稱作邊緣分布。
隨機(jī)向量的條件分布:如對(duì)于2維隨機(jī)向量X=(X1,X2),當(dāng)給定X2時(shí),稱X1的分布為條件分布。同樣,當(dāng)X密度函數(shù)為f(x1,x2)時(shí),給定X2時(shí)X1的條件密度函數(shù)為 f(x1|x2)=f(x1,x2)/f(x2),其中f(x2)為X2的密度函數(shù)。
獨(dú)立性:若F(x1,x2,...,xp)=F(x1)F(x2)...F(xp)
1.1.2?隨機(jī)向量的數(shù)字特征
(1) 均值向量:
稱 E(X) = (E(X1)...E(Xp))' = ()' 為隨機(jī)向量X的均值向量(若E(Xi)均存在)。
(2) 協(xié)方差矩陣:
若隨機(jī)變量Xi,Xj的協(xié)方差Cov(Xi,Xj)均存在,稱D(X)=E[(X-E(X))(X-E(X))']為隨機(jī)向量X的協(xié)方差陣。
(3) 隨機(jī)向量X和Y的協(xié)方差陣:
若Xi和Yj的協(xié)方差均存在,則稱COV(Xi,Yj)=E[(X-E(X))(Y-E(Y))]為隨機(jī)向量X與Y的協(xié)方差陣。若COV(X,Y)=O,則認(rèn)為X,Y不相關(guān)。
隨機(jī)向量X的相關(guān)陣:
稱為相關(guān)陣,其中,而相關(guān)陣和協(xié)方差陣的關(guān)系可以如此表示——若記標(biāo)準(zhǔn)差矩陣為,則
均值向量與協(xié)方差陣的性質(zhì)(E(X)與D(X)):與一維情況類似
(4) 均值向量與協(xié)方差陣的性質(zhì)
a. 若A,B為常數(shù)矩陣,則
???? E(AX)=AE(X),
???? E(AXB)=AE(X)B,
???? D(AX)=AD(X)A',
???? COV(AX,BX)=ACOV(X,X)B'
b. 若X,Y相互獨(dú)立,則COV(X,Y)=O,即X,Y不相關(guān);但反之不一定成立。
c. 隨機(jī)向量X的協(xié)方差陣D(X)是對(duì)稱非負(fù)定矩陣。即 D(X)>=0 。
d.?,其中L為非負(fù)定矩陣。
因?yàn)??,可以利用線代中實(shí)對(duì)稱矩陣的對(duì)角化定理,存在正交矩陣?,使得
當(dāng)??時(shí),也就是說?正定時(shí),稱L為的平方根矩陣,記作,且此時(shí)存在非退化的p*p矩陣A,使得?,其中:
但若,一定存在p*q的矩陣A1,使得,其中:
,?為p*q正交陣 。?。
1.2?多元正態(tài)分布
1.2.1 多元正態(tài)分布的基本概念
(1) p維正態(tài)隨機(jī)向量定義:若U1,U2..Up為相互獨(dú)立且均服從標(biāo)準(zhǔn)正態(tài)分布的隨機(jī)變量,?為p維常數(shù)向量,A為p*q維常數(shù)矩陣,U=(U1,U2,...,Up)。
那么,稱??為p維正態(tài)隨機(jī)向量,其分布為p維正態(tài)分布,記作??。
(2) 性質(zhì)1:若B為s*p常數(shù)矩陣,d為s維常數(shù)向量,,,那么Y=BX+d 是s維正態(tài)隨機(jī)向量,記作:
?
(3) 性質(zhì)2:若??,,,則存在:
(4) 獨(dú)立性:接上,當(dāng)?(即不相關(guān))?是??? 相互獨(dú)立的充要條件。
因此類似的,若?,其中??為對(duì)角矩陣,則X1,X2,...,Xp相互獨(dú)立。
(5) X的部分?jǐn)?shù)字特征:
a. 均值?
b. 方差?
(6) p維正態(tài)隨機(jī)向量的聯(lián)合分布
1.2.2 條件分布
(1) 定義:若??,,,則??給定時(shí),?的條件分布為:
,且若為r維,?為p-r維,則此時(shí)??是 r 維正態(tài)隨機(jī)向量。
其中,?
?稱作條件期望,?為回歸系數(shù),?稱作條件協(xié)方差陣。
(2) 性質(zhì)1:
(3) 性質(zhì)2:
條件協(xié)方差陣??=,其中??稱作??給定時(shí) Xi和Xj的偏自相關(guān)系數(shù)。
1.3 隨機(jī)矩陣的正態(tài)分布
(1) 隨機(jī)矩陣 :
其中,?為一個(gè)樣本,即p維向量一組觀測(cè)值。
(2) 拉直運(yùn)算:,即將矩陣X的列一個(gè)接一個(gè)拉成一個(gè)np維的長(zhǎng)向量。如果想要將樣品一個(gè)一個(gè)連起來,那么應(yīng)該記作 Vec(X') 。
注意:對(duì)稱矩陣的拉直運(yùn)算??是將矩陣?yán)背?p(p+1)/2 維向量,因?yàn)閷?duì)稱矩陣?yán)锊皇呛琾*p個(gè)隨機(jī)向量而是含p(p+1)/2個(gè)。(即拉直對(duì)稱矩陣的一個(gè)三角形區(qū)域。)
(3) Kronecker積
(4) 隨機(jī)矩陣的正態(tài)分布
設(shè)隨機(jī)矩陣中的??為p維隨機(jī)向量的一個(gè)樣品,易得 :
1.4 多元正態(tài)分布的參數(shù)估計(jì)
1.4.1 多元正態(tài)樣本的數(shù)字特征
(1) 樣本均值向量
(2) 中心化數(shù)據(jù)陣
(3) 樣本離差陣
(4) 樣本離差陣
? 或者,
(5) 樣本相關(guān)陣
1.4.2 參數(shù)的極大似然估計(jì)
設(shè)??為p維正態(tài)總體??的隨機(jī)樣本,可以用極大似然法來求未知參數(shù)??。
將隨機(jī)數(shù)據(jù)陣X按行拉直,得到拉直矩陣Vec(X'),而拉直矩陣的聯(lián)合密度函數(shù)(即樣本的聯(lián)合密度)可以看作關(guān)于?的函數(shù),稱作?的似然函數(shù),記作??。我們要做的就是找出使得該聯(lián)合密度函數(shù)最大的?。
經(jīng)過一系列計(jì)算得到:
?性質(zhì):
(1)?
(2)?,其中,Zk為獨(dú)立的,且同標(biāo)準(zhǔn)正態(tài)分布。
(3)??相互獨(dú)立
(4)?
2. 多元正態(tài)總體參數(shù)的假設(shè)檢驗(yàn)
2.1 幾個(gè)重要的統(tǒng)計(jì)量
類似于一元正態(tài)總體參數(shù)的假設(shè)檢驗(yàn)里面需要卡方分布、t分布、F分布一樣,多元正態(tài)總體參數(shù)假設(shè)檢驗(yàn)里面也需要利用一些分布。
2.2 單總體均值向量的檢驗(yàn)
2.2.1假設(shè)檢驗(yàn)
關(guān)于正態(tài)總體均值的檢驗(yàn)大致有以下三種,我們這里主要討論第一種,即單總體均值向量的檢驗(yàn)。
(1) 當(dāng)?已知時(shí)
因?yàn)橐阎??,
提出假設(shè):原假設(shè)??
在原假設(shè)下構(gòu)造統(tǒng)計(jì)量:
給定顯著性水平α,進(jìn)行檢驗(yàn):
a. 法一:
查表得到卡方統(tǒng)計(jì)量的臨界值,若??則拒絕原假設(shè),認(rèn)為?和?之間有顯著差別。
b. 法二:
通過計(jì)算p值得到檢驗(yàn)結(jié)果。如果通過樣本計(jì)算得到 ?的值為d,則p值為?>d 的概率。若p<α,則拒絕原假設(shè)。
(2) 當(dāng)??未知時(shí)
提出假設(shè):原假設(shè)??
在原假設(shè)下構(gòu)造統(tǒng)計(jì)量:
?
可以利用F分布和T2分布之間的關(guān)系:
2.2.2 通過似然比統(tǒng)計(jì)量進(jìn)行假設(shè)檢驗(yàn)
p維正態(tài)總體密度函數(shù)為?,其中,為未知參數(shù)。
提出假設(shè):? ?
從總體中抽取n個(gè)樣本 ,樣本的聯(lián)合密度函數(shù)???即稱作樣本的似然函數(shù),記作???。
構(gòu)造統(tǒng)計(jì)量:
?,顯然,這是關(guān)于樣本 的函數(shù),稱作似然比統(tǒng)計(jì)量。
如果取值太小則說明原假設(shè)為真時(shí)觀測(cè)到此樣本的概率比不為真時(shí)觀測(cè)到的概率小得多,因此應(yīng)該拒絕原假設(shè)。
拒絕域?yàn)?#xff1a;
有些??存在精確分布,但有些分布還是未知的,那么未知的情況怎么辦呢?
經(jīng)過前人不斷實(shí)驗(yàn),我們現(xiàn)在已知,在大樣本下,有:
?,其中,f 為??的維度減去??的維度。
2.2.3 置信域
當(dāng)??未知時(shí),原假設(shè)???下有統(tǒng)計(jì)量:
?
F分布和T2分布之間的關(guān)系:
因此,均值向量 ?置信度為1-α的置信域?yàn)?#xff1a;
即若??落入置信域,則可以在顯著性水平為 α的情況下接受原假設(shè)。
2.3 多總體均值向量的檢驗(yàn)
(1) 兩總體的協(xié)方差矩陣相等但未知時(shí)
設(shè)??來自總體??的樣本;?為來自總體?,X,Y相互獨(dú)立。
提出假設(shè):?
構(gòu)造統(tǒng)計(jì)量:
由F分布和T2分布的關(guān)系有:
隨后進(jìn)行F檢驗(yàn)即可啦。
(2) 兩總體協(xié)方差陣不相等時(shí)
其實(shí)也沒有啥好辦法啦。
a. 當(dāng)樣本個(gè)數(shù)m=n時(shí),可以把樣本作為成對(duì)數(shù)據(jù)處理。構(gòu)造?,則回到了單總體均值假設(shè)檢驗(yàn)問題。
b. m和n不相等時(shí),構(gòu)造新總體Z的樣本?如下:
(3) 多個(gè)總體均值檢驗(yàn)
也稱多元方差分析。
a. p=1時(shí)
設(shè)有k個(gè)一元正態(tài)總體??,分別從k個(gè)總體中提取 個(gè)樣本:
提出假設(shè):?
寫出一些相關(guān)的樣本均值:
總偏差平方和:
組內(nèi)偏差平方和:
組間偏差平方和:
SST不變的時(shí)候,如果原假設(shè)成立,那么組間偏差平方和應(yīng)該比較小,也即SSA/SSE應(yīng)該比較小。
構(gòu)造統(tǒng)計(jì)量:
給定顯著性水平α,若??,則拒絕原假設(shè)。
b. p>1時(shí)
設(shè)有k個(gè)p元正態(tài)總體??,分別從k個(gè)總體中提取 個(gè)樣本:
提出假設(shè):?
寫出一些相關(guān)的樣本均值:
組內(nèi)離差陣:
組間離差陣:
總離差陣:
構(gòu)造統(tǒng)計(jì)量:
給定顯著性水平α,查表找到臨界值?,若?,則拒絕原假設(shè)。
2.4 協(xié)方差陣的檢驗(yàn)
設(shè)??為p維正態(tài)總體?的隨機(jī)樣本。
提出檢驗(yàn):?(為一已知協(xié)方差陣)
(1) 當(dāng)??時(shí)
利用似然比原則構(gòu)造檢驗(yàn)統(tǒng)計(jì)量:
由之前的知識(shí),不難得到:
故分子的自由度為p,分母的自由度為p+(p+1)p/2,因此f=(p+1)p/2 。
已知在大樣本下:
因此,在顯著性水平α下,查表得到臨界值??,若?,則拒絕原假設(shè)。
(2) 當(dāng)?時(shí)
存在正定矩陣,使得?,令?,則?,對(duì)??的協(xié)方差矩陣進(jìn)行類似(1)的過程即可。
3. 回歸分析
略
4. 判別分析
用于判別樣品屬于哪個(gè)總體的問題。
4.1 距離判別法
思想:樣本離哪個(gè)總體近,就判其屬于哪個(gè)總體。
4.1.1 距離的定義:
(1) 用dij表示樣品??和??之間的距離,應(yīng)該滿足:
a.?,等號(hào)成立僅當(dāng)?;
b.?
c.?
定義dij的方法有很多,考量?jī)?yōu)缺點(diǎn)之后我們選用馬氏距離法。
(2) 馬氏距離:
設(shè)總體G為m維總體,均值向量為?,協(xié)方差陣為?,則樣品與總體的馬氏距離定義為:
當(dāng)m=1時(shí),
4.1.2 距離判別
設(shè)有k個(gè)總體Gi (i=1,2,...,k),來自總體Gi的訓(xùn)練樣本為:
,其中,ni為第i個(gè)總體Gi的樣品個(gè)數(shù)。
因此均值向量??的樣本估計(jì)量為:
反映分散性的協(xié)方差陣??的樣本估計(jì)量為:
,也稱作組內(nèi)協(xié)方差陣,其中Ai稱作組內(nèi)離差陣。
其中,?
如果假定i個(gè)總體的協(xié)方差陣一樣,則協(xié)方差陣的估計(jì)量為:
其中,
(1) 兩總體判別 (當(dāng)協(xié)方差陣相等時(shí))
分別計(jì)算樣品到兩個(gè)總體的距離,離哪個(gè)總體近,則歸屬于哪個(gè)總體。
簡(jiǎn)化馬氏距離公式:
因此,比較樣品到各總體的馬氏距離時(shí),實(shí)際上只需要計(jì)算線性判別函數(shù):
則按距離最近的判別原則,有:
或者,也可以考察樣品到兩個(gè)總體的馬氏距離之差,也稱判別函數(shù):
據(jù)此,判別準(zhǔn)則也可以表示為:
錯(cuò)判概率:
(2) 兩總體判別 (當(dāng)協(xié)方差陣不相等時(shí))
就分別算出樣品到每個(gè)總體的馬氏距離在比較大小即可,只不過和上面的差別是馬氏距離不能化簡(jiǎn)了。
(3) 多總體判別
其實(shí)就類似于兩總體判別,也可以分總體協(xié)方差相等和不等的兩種情況。
4.2 貝葉斯判別法
距離判別法雖然簡(jiǎn)單方便,但是沒考慮總體出現(xiàn)的機(jī)會(huì)即先驗(yàn)概率,以及錯(cuò)判會(huì)造成的損失,因此我們繼續(xù)引出貝葉斯判別法。
4.2.1?先驗(yàn)概率
設(shè)有k個(gè)總體,在抽取樣品作判別分析之前,已知這k個(gè)總體出現(xiàn)的概率分別為 q1,q2,...,qk,且q1+q2+...+qk=1 。而這組概率就稱作先驗(yàn)概率,是一組權(quán)重。
貝葉斯判別準(zhǔn)則要求提供這組概率的值。
賦值方法:
(1) 利用歷史資料and經(jīng)驗(yàn)
(2) 按照訓(xùn)練樣本中各類樣品所占比例 (要求隨機(jī)抽樣)
(3) 假定 q1=q2=...=qk=1/k
4.2.2?廣義平方判別法
在正態(tài)總體的假設(shè)下,按照貝葉斯判別的思想,且認(rèn)為錯(cuò)判造成的損失相等,此時(shí)的判別方法稱作廣義平方判別法。
其實(shí)就是馬氏距離判別法在考慮先驗(yàn)概率以及協(xié)方差不等之后的推廣。
定義樣品X到第t個(gè)總體Gt的距離為:
其中,?為馬氏距離,
當(dāng)各總體的協(xié)方差均相等時(shí)為0,即:
當(dāng)各總體的先驗(yàn)概率均相等時(shí)為0,即:
4.2.3 后驗(yàn)概率
即條件概率,當(dāng)樣品X已知時(shí),它屬于總體Gt的概率,記為 P(Gt|X) 。
如果Gt的密度函數(shù)為,則有
??
4.2.4 貝葉斯判別準(zhǔn)則
給空間一個(gè)劃分D(即一個(gè)判別準(zhǔn)則),如果通過這個(gè)劃分來判別時(shí)平均損失最小,則稱這個(gè)劃分D為貝葉斯判別的解。進(jìn)行時(shí)要求該處錯(cuò)判概率、錯(cuò)判損失。
當(dāng)錯(cuò)判損失相等時(shí),廣義平方判別法即為貝葉斯判別的解。
擴(kuò)展內(nèi)容:
4.3 費(fèi)歇判別 Fisher
思想:將k組m維數(shù)據(jù)投影到某一方向,使得組與組之間盡可能分開(可以用一元方差分析判斷是否分開),利用方差分析導(dǎo)出判別函數(shù)。
5. 聚類分析
對(duì)樣品或者指標(biāo)進(jìn)行分類。
R型聚類分析:對(duì)指標(biāo)進(jìn)行分類。用處是可以了解變量之間的親疏關(guān)系,對(duì)變量進(jìn)行分類,在每一類中選出典型變量進(jìn)行回歸分析等等。
Q型聚類分析:對(duì)樣品進(jìn)行分類。是本章節(jié)主要將討論的問題。
5.1 距離
我們通常使用距離來描述樣品之間的親疏關(guān)系。
對(duì)n個(gè)樣品計(jì)算兩兩之間的距離dij后,可以排列成矩陣D:
其中,dij越小,表明兩個(gè)樣品越接近。
(1) 歐氏距離
聚類分析中運(yùn)用最多的。
5.2 系統(tǒng)聚類法
設(shè)有n個(gè)樣品,每個(gè)樣品均有m個(gè)指標(biāo)。
5.2.1 系統(tǒng)聚類法的步驟
數(shù)據(jù)預(yù)處理:對(duì)數(shù)據(jù)進(jìn)行中心化變換等等。并選擇要使用的定義樣品間距離的方法,如歐氏距離,以及定義類與類之間距離的方法,如最短距離法。
(1) 計(jì)算樣品兩兩之間的距離,得到初始距離矩陣??。
(2) 將n個(gè)樣品各成一類,此時(shí)類間距離就是樣品間距離,即?。
(3) 按照最小距離的原則,合并類間距離最小的兩個(gè)為一個(gè)新類,得到新的類間距離??。
(4) 重復(fù)步驟(3)知道類的個(gè)數(shù)為1.
(5) 畫出譜系聚類圖。
(6) 寫出分類的個(gè)數(shù)以及對(duì)應(yīng)類的成員。
5.2.2 類間距離的定義
(1) 最短距離法
定義類的距離為兩類中最近樣品的距離;
(2) 最長(zhǎng)距離法
定義類的距離為兩類中最遠(yuǎn)樣品的距離;
(3) 中間距離法
若將Gp和Gq合并為新類Gr之后,計(jì)算新類與其他類Gk的距離方法如下:
常取??。
(4) 重心法
每個(gè)類的重心即該類樣品的均值。
若將Gp和Gq合并為新類Gr之后,他們所包含的樣品個(gè)數(shù)分別為 np,nq,nr,重心分別為
計(jì)算新類與其他類Gk的距離方法如下:
d(X1,X2)為計(jì)算樣品間距離的方法。
(5) 類平均法
定義類間距離為兩類樣品兩兩之間的平均平方距離。
若將Gp和Gq合并為新類Gr之后,計(jì)算新類與其他類Gk的距離方法如下:
(6) 可變類平均法
(7) 可變法
即可變平均法中 np=nq 時(shí)。
且當(dāng)?時(shí),稱作相似分析法MCQ。
(8) 離差平方和法
要求樣品間距離為歐氏距離。
統(tǒng)一的公式:
6. 主成分分析
思想:降維。即將多個(gè)指標(biāo)重新組合為幾個(gè)互不相關(guān)綜合指標(biāo),盡可能多地反映原本信息。
6.1 總體的主成分
6.1.1 主成分的定義
設(shè)有p維隨機(jī)向量?,考慮其線性變量:,其中ai為常數(shù)向量,?。?
(1) 第一主成分:
若存在?a1'a1=1 使得Z1的方差達(dá)到最大,則稱Z1為第一主成分。
Z1的方差越大,表示Z1包含的信息越多,但是也需要一些限制,否則方差可能趨于無窮,而我們最常用的限制就是 a1'a1=1 。
(2) 第二主成分:
因?yàn)椴幌MdZ1中出現(xiàn)過的信息又出現(xiàn)在Z2里面,因此?。此外,在a2'a2=1的限制下,使得 ?最大的?稱作第二主成分。
類似可求其余主成分。
(3) 主成分性質(zhì)
由于X是p維的,因此對(duì)應(yīng)有p個(gè)主成分,每個(gè)主成分均是原變量的線性組合。
不同主成分是正交的,即互不相關(guān)。
6.1.2 求主成分
求第一主成分主要就是求a1,這是條件極值問題,可以采用拉格朗日乘法
即??
因?yàn)閍1不等于0,易得?,于是又成了求特征根和特征向量的問題。
若?為??最大特征根,則其對(duì)應(yīng)的單位特征向量即為a1 。
與此類似,若?,對(duì)應(yīng)的正交單位特征根為 a1,a2,...,ap,因此第i個(gè)主成分為:
。此時(shí) Zi 的方差??。
6.1.3 總體主成分的性質(zhì)
若Z=(Z1,Z2...Zp)',Z=AX,則其性質(zhì)有:
(1)?
(2)??,等號(hào)前面為原總體X的總方差。
(3)主成分Zk和原變量Xi的相關(guān)系數(shù)(因子負(fù)荷量)
(4)?
(5)?
6.1.4 主成分的貢獻(xiàn)率
(1) 貢獻(xiàn)率:稱??為主成分 Zk 的貢獻(xiàn)率
(2) 累計(jì)貢獻(xiàn)率:稱?為前m個(gè)主成分的累計(jì)貢獻(xiàn)率。表示m個(gè)主成分提取了多少信息。
一般累計(jì)貢獻(xiàn)率需要達(dá)到百分之七八十即可。
(3) 定義前m個(gè)主成分對(duì)變量Xi的貢獻(xiàn)率
6.2 樣本主成分
通常協(xié)方差未知,需要通過樣本估計(jì)。
若樣本協(xié)方差陣記為S,樣本相關(guān)陣記為R,當(dāng)每個(gè)變量的觀測(cè)數(shù)據(jù)是均已標(biāo)準(zhǔn)化(均值為0),則S=R。
6.2.1 主成分得分
若第i個(gè)主成分為? ,則將第t個(gè)樣品觀測(cè)值代入Zi中,得到樣品t第i個(gè)主成分的得分。記作:
稱??為樣品t的主成分得分向量。
n個(gè)樣品構(gòu)成主成分得分陣 Z 。
6.2.2 樣本主成分性質(zhì)
(1) 主成分得分陣的樣本協(xié)方差陣
(2) 樣本主成分具有使殘差平方和最小的優(yōu)良性質(zhì)
(3) 樣本貢獻(xiàn)率
因此有??,故而累計(jì)貢獻(xiàn)率為??
6.2.3 主成分個(gè)數(shù)
(1) 累計(jì)貢獻(xiàn)率達(dá)到一定程度。
(2) 計(jì)算樣本協(xié)方差陣特征根均值,取大于均值的那部分特征根對(duì)應(yīng)的主成分。
兩個(gè)方法常常結(jié)合使用。
7. 因子分析
是主成分分析的推廣,是一種降維的方法,將多個(gè)變量綜合為少數(shù)幾個(gè)因子,以再現(xiàn)原始變量和因子之間的相關(guān)關(guān)系。
R型:研究變量之間的相關(guān)關(guān)系,用以對(duì)變量進(jìn)行分類。
Q型:研究樣品之間相關(guān)關(guān)系,找出控制樣品的幾個(gè)主要變量。
7.1 因子模型
7.1.1 正交因子模型
p維隨機(jī)向量??為可觀測(cè)的隨機(jī)向量,且?;
m維隨機(jī)向量??為不可觀測(cè)的隨機(jī)向量,且 ;
p維隨機(jī)向量?與F相互獨(dú)立,且??;
假定:
(1) 公共因子Fi互不相關(guān),且
(2) 特殊因子互不相關(guān),且?
(3) 特殊因子與公共因子不相關(guān)。
正交因子模型如下:
用矩陣表示為??。
其中,F1,...,Fm稱作X的公共因子,稱作X的特殊因子。公共因子對(duì)X每個(gè)分量均有作用,而特殊因子只對(duì)Xi有作用。
A稱作因子載荷矩陣,為待估的系數(shù)矩陣。aij稱作第i個(gè)變量在第j個(gè)因子上的載荷,即因子載荷。
正交因子模型的協(xié)方差結(jié)構(gòu):
因此得到?。
因此得到??,故A中元素aij可以解釋Xi和Fj之間的相關(guān)性。
稱?,?為正交因子模型的協(xié)方差結(jié)構(gòu)。
因此,可以算出樣本協(xié)方差,再根據(jù)樣本協(xié)方差求出A,D,從而預(yù)測(cè)公共因子F1,F2...Fm。
7.1.2 統(tǒng)計(jì)意義
(1) 若數(shù)據(jù)經(jīng)過了標(biāo)準(zhǔn)化處理,則??。
因?yàn)??。此時(shí)aij就是第i個(gè)變量和第j個(gè)因子之間的相關(guān)系數(shù)。
(2) 變量共同度
即Xi的方差由兩部分組成,一部分是公因子方差,一部分是特殊方差。如果公因子方差比較大則表明Xi對(duì)公因子的依賴程度較大。
實(shí)際上,公因子方差即因子載荷矩陣A各行的元素平方和,也稱作變量Xi的共同度,記作:
(3) 公共因子的方差貢獻(xiàn)
因子載荷矩陣A各列的元素平方和表示公共因子Fj對(duì)所有變量的總影響。可以衡量公共因子的重要性。
?越大則表明因子Fj對(duì)X的貢獻(xiàn)越大。
7.1.3 因子模型特性
(1) 不受量綱影響
(2) 因子載荷矩陣A不唯一
7.2 參數(shù)估計(jì)方法
7.2.1 主成分法
7.2.2 主因子法
8. 對(duì)應(yīng)分析方法
9. 典型相關(guān)分析
10. 偏最小二乘回歸分析
總結(jié)
- 上一篇: python自动填表单_用python-
- 下一篇: 蚁群算法简介