多元统计分析最短距离法_多元统计分析方法 -
后與j間距離統(tǒng)一遞推公式:Dij2=αkDik2+αrDir2+βDkr2+γ Dik2?Dir2 , 最短距離法 最長距離法 中間距離法 重心法 離差平方和法 1/2 1/2 1/2 nk nk+nrni+nk nj+ni 1/2 1/2 1/2 nr nk+nrni+nr nj+ni 0 0 -1/4 ??nknr? njnjni nj+ni-1/2 1/2 0 0 0 K近鄰聚類:先將樣本大致分為k類,再按某種規(guī)則逐步修改至比較合適 法名 最小距離法 初步分類;修改 分類;重復至樣本分類不再變動 定義分類目標函數(shù)其值由分類結果確定,q值越大越合理;初始分類;遍歷樣本若q變化值為正則表示合理,按照最大值q變化值進行移動;重復直至樣本分類不再改變 類間平方和爬山法:q為類間離差平方和 爬山法 改變分類類別數(shù) 分解法:按>距離 常數(shù)C進行分裂 合并:類間距 離>b不斷合并 統(tǒng)計:m個正態(tài) 統(tǒng)計,有事先的置信度確定分割閾值 4.2 有序樣本的分類:分類結果不可打亂樣本次序 最優(yōu)分割法:類似于離差平方和法
Step1:定義類的直徑——該類樣本的離差平方和 Step2:定義誤差函數(shù):各類直徑之和D Step3:最小化誤差函數(shù)下的遞推公式:f(p(m,n))=min(f(p(m-1,j-1))+D(j,n)),n個樣本分成m類的最優(yōu)分法,可看成j-1樣本分成m-1類的最優(yōu)分法再加上最后(n+1-j)樣本形成的m類樣本合并而成。j可由m一直變到n,從中挑選出最優(yōu)的j。 Step4:聚類。
最優(yōu)分割法需要兩張表:類直徑一覽表D;最小誤差函數(shù)表f,根據(jù)類別數(shù),i可分別取到2,3,。。。,m.總樣本數(shù)j為2,3,4….n。根據(jù)遞推公式求出不同配對(i,j)下的f(p(I,j))進行不同i下的分類。
Ch5 兩組變量之間關系
5.1 典型相關分析:把原來較多變量化為少數(shù)幾個典型變量,通過這幾個典型變量間典型相關系數(shù)來綜合描述兩個多元隨機變量間關系的數(shù)學方法。 給出計算方法;
Step1:將n個樣本得到的二組原始矩陣Xpn,Yqn標準化,計算X,Y的相關矩陣Sxx,Syy,Sxy Step2:計算Sxx?1Sxy,Syy?1Syx Step3:D=Syy?1SyxSxx?1Sxy
Step4:求D的前k個特征根λj和特征向量v ,令歸一化后為vj=Step5:令uj=
1λj
1cj
v j,其中cj=v j′Syyv j
Sxx?1Sxyvj, uj,vj為相應于λj的一對典型變量的系數(shù)。
Step6:計算典型變量:zj=u′jx,wj=vj′y,(j=1,2,…,k)
5.2 多元線性回歸
X ′, Lxy=X Y ′=Lxy′, X ,Y 為中心化數(shù)據(jù) Step1:離差矩陣Lxx=X
Step2:計算系數(shù)矩陣B和常數(shù)項向量b0: LxxB′=Lxy,b0=y ?Bx ,y ,x 分別為X,Y的平均數(shù)。 Step3:計算剩余離差矩陣Q=Lyy?BLxy,計算剩余協(xié)方差矩陣S=Q/(n-q-1);
Ch6 特殊分布
6.1 多元正態(tài)分布和χ2分布
明確幾個從一維到多維推廣的基本概念
6.1.1多維正態(tài)變量的定義是從一維正態(tài)分布定義而來的:x是p維隨機變量,對任意p維向量a, x的線性函數(shù)y=a’x是遵從一維正態(tài)分布的隨機變量,則稱x是遵從p維正態(tài)分布的隨機變量。記平均向量為u,協(xié)方差矩陣為 σ2的p維正態(tài)變量x為x~Np(μ, σ2). 多維正態(tài)分布的性質:
1.若x~Np(μ, σ2),則對任意p維常向量a,有
a′x~N1 a′μ,a′ σ2 a ;
2.若x~Np(μ, σ2),A是qp矩陣,則
Ax~Nq Aμ,A σ2 A′
3. 若x~Np(μ, σ2),對p維常向量a,有
x?a~Np μ?a, σ2
4. Ax與Bx相互獨立的充要條件是cov(Ax,Bx)=A σ2 B’=0
5.若x1,x2,..,xk是相互獨立的p維正態(tài)變量,xi~Np μi, σi2 ,則對任意常數(shù)
kk22
a1,a2,..,ak, k1aixi~Np 1aiμi, 1aiσi
6.1.2 正態(tài)樣本矩陣
x1,x2,..,xn是相互獨立的p維隨機變量,服從同一正態(tài)分布,則Xpn=[x1,x2,..,xn]稱為正態(tài)樣本矩陣
定理6.1:對于Xpn,若其中各向量滿足xi~Np μi, σi2 ,則有以下兩個性質:
1.對任意p維向量a,X′a~Nn a′μ1n,a′ σ2 aIn , ,X′a為n個樣本的各指標間的線性組合,其各分量相互獨立。
2.對任意n維向量b, Xb~Np (1n′b)μ,bb′ σ2 ,Xb為p個指標各樣本間的線性組合,其各分量一般不相互獨立。
6.1.3 多元正態(tài)分布與χ2分布的關系
定理6.2:xi~Np 0, σi2 ,則二次型x′ σ2 ?1x~χ2(p)
6.1.4 χ2分布的幾條重要定理
定理6.3:若x′=[x1,x2,..,xn]~N1(0,σ2I),A是nn對稱冪等陣,秩為r,則x′Ax~σ2χ2(r) 定理6.4:若x′= x1,x2,..,xn ~N1 0,σ2I ,若A是對稱冪等陣,B為任意矩陣,BA=0,則正態(tài)分布Bx和χ2分布x′Ax相互獨立;若AB都是冪等陣,AB=0,則x′Ax與x′Bx相互獨立。 6.2維希特分布:χ2分布在多元統(tǒng)計變量中的推廣
6.2.1 維希特分布定義:n個p維變量x1,x2,..,xn~Np(0,σ2I),Xpn=[x1,x2,..,xn]是樣本矩
2
陣,則Wpp= n1xjxj′=XX′的分布為自由度為n的p維維希特分布,記為Wp(n, σ ) 6.2.2 維希特分布與χ2分布的關系
x~Np 0, σ2 x1,x2,..,xn是其n個樣本,任取一個p維向量a,則定義y=a′x~N1 0,a′ σ2 a ,則有y1=a′x1,y2=a′x2,…,yn=a′xn是總體y的n個樣本。按χ2分布
n22′22′22
的定義:Q= n。 1yj~a σ aχ(n),而Q= 1yj=a’XX’a=a’Wa,故a’Wa~a σ aχ(n),定理6.5:W服從維希特分布W(n, σ2 )的充要條件是對任意p維向量a,二次型Q=a’Wa~a′ σ2 aχ2(n) 6.2.3維希特分布的性質
定理6.6:若Ann是對稱冪等陣,秩為r, x1,x2,..,xn~Np 0, σ2 且相互獨立,令Xpn=[x1,x2,..,xn]是樣本矩陣,則XAX’ ~WP(r, σ2 )
定理6.7:x1,x2,..,xn~Np 0, σ2 且相互獨立,Xpn=[x1,x2,..,xn]是樣本矩陣,對任意n維向量a與對稱冪等陣Ann,若Aa=0, 則正態(tài)分布Xa和維希特分布XAX′相互獨立;若AB都是冪等陣,AB=0,則XAX′與XBX′相互獨立。 6.2.4 樣本離差矩陣的分布
x~Np μ, σ2 x1,x2,..,xn是其n個樣本,Xpn=[x1,x2,..,xn]是樣本矩陣,樣本離差矩陣定
11′ (I?111′)X ′,其中 義為:Qpp=X(I?n11′)X′= XX=X?μ1,(I?11′)是對稱冪等陣,秩為nn
n-1,則由定理6.6有Qpp~Wp n?1, σ2 。即由p元正態(tài)總體中抽出n個樣本,則其樣本離差平方和矩陣Q服從自由度為n-1的p維維希特分布。 6.3 統(tǒng)計量T2和Λ
6.3.1 統(tǒng)計量T2是一元t分布的推廣:若W~WP(n, σ2 ), y~Np 0,c σ2 ,c為一正常數(shù),W與y相互獨立,稱統(tǒng)計量T2=cy′W?1y是自由度為(p,n)的T2變量。 定理6.8:若T2變量服從T2(p,n),則有
n?p+1np
n
T2~F p,n?p+1
6.3.2 總體平均值的估計值與置信區(qū)域
x~Np μ, σ2 x1,x2,..,xn是其n個樣本,Xpn=[x1,x2,..,xn]是樣本矩陣,μ的無偏估計
σ 11
x =Xpn1, x ?μ= X1~Np 0,, Qpp~Wp n?1, σ2 ,且x ?μ與Q相互獨立,則 nnn
2
T2=n n?1 x ?μ ′Q?1(x ?μ) 自由度為(p,n-1)的T2變量,故中,
n?pp
n?1 ?p+1(n?1)p
T2~F p,n?p ,實際
x ?μ ′S?1(x ?μ)~F p,n?p ,其中S=Q/n是樣本協(xié)方差矩陣。
pF
應用:給定置信度α,即可求置信區(qū)域為 x ?μ ′S?1(x ?μ)≤n?α p
6.3.3 廣義方差:p維隨機變量x的協(xié)方差矩陣為 σ2, σ2 為廣義方差。 6.3.4 Λ統(tǒng)計量:F統(tǒng)計量的推廣
Λ統(tǒng)計量:W1~WP n1, σ2 ,W2~WP n2, σ2 ,Λ= W當p=1時,Λ=Q
Q1
1+Q2
W1
1+W2
為自由度為(p, n1,n2)的Λ分布
=
11+F
n2n1
Λ統(tǒng)計量的分布:當p>8, n2<8時,可以用Λα p,n1,n2 =Λα n2,n1+n2?m,p 查常用Λ表。 定理6.9:當n1+n2?小結
一維正態(tài)分布一元t分布一元F分布p+n2?1
2
較大時,v=?(n1+n2?
p+n2?1
2
)lnΛ p,n1,n2
多屬性卡方分布定理6.2多維正態(tài)分布多屬性所屬性定理6.5多樣本統(tǒng)計t方分布尖角分布維希特分布正態(tài)樣本矩陣ch7 假設檢查和方差分析
7.1 兩總體平均向量的假設檢查 7.1.1 一維 多維(平均值的檢驗) 多維(協(xié)方差矩陣的檢驗):采用極大似然比作為統(tǒng)計量進行檢驗 x~Np μ, σ2 x1,x2,..,xn是其n個樣本,假設: σ2= σ02, σ2是已知的正定陣,檢驗統(tǒng)計量λ1=FωFΩ總體方差已知,原假設:協(xié)方差矩陣已知,原假設總體平均μ=μ0,u=值向量μ=μ0,統(tǒng)計量 x ? ?μ0xσ n~N1 0,1 2′ σ ?1μ0 (n)(x ?μ0) ~χ2(p) ,有?2ln?(λ1)=n[tr S σ02 ?1 ?ln S σ02 ?1 ?p],其中tr S σ02 ?1 表示矩陣的跡,即對角線上元素之和。 當n較大時,?2ln?(λ1) ~χ2(p(p+1)2) 在n較小時,計算統(tǒng)計量L= (n?1)[tr n?1S σ02 ?1 ?ln n?1S σ02 ?1 ?p],當L≥Lα(p,n?1)時拒絕原假設 總體方差未知,原假設:總體協(xié)方差未知,原假設總體平均μ=μ0,t=Q n n?1 nn ?μ0x~t n?值向量μ=μ0,統(tǒng)計量(n?p)np x ?1 ,Q為樣本離差平方和 兩總體方差相同,原假設:μ=μ0,t= ? x1x2Q1+Q2n1+n2 n+n n12?21n2μ0 ′ Q ?1(x ?μ0) ~F(p,n?p) 假定兩協(xié)方差矩陣相等,原假設總體平均值向量μ=μ0,統(tǒng)計量n1n2 n1+n2?p?1 x 1p n1+n2 ~t n1+?n2?2 ,Q為樣本離差平方和 2x ′ Q1+Q2 ?1(x 1?x 2 ) ~F(p,n1+n2?p?1) 同時檢查m個總體的平平均向量各分量之間是否有關系 均數(shù)是否相同:方差分析 (線性關系用A,b表示),原假設:Aμ=b,統(tǒng)計量F=(n?q)nq Ax ?b ′ AQA′ ?1(Ax ?b) ~F(q,n?q) 協(xié)方差不等平均向量的假設檢查,原假設:μ1=μ2,假設量:12yi=x1i? xi+ n1n2n1n212 n1xi?n n 12xi2(n1≤n2),這樣有統(tǒng)21計F=(n1?p)n1p?1量 y ′ Qy (y ) ~F(p,n1?p),式中,令 12ui=x1i? nxi2n,則Qy=1 n )(ui?u )′ 1(ui?u7.2 協(xié)方差矩陣的檢查
最大似然比:沒有限制條件時最大似然值為FΩ,增加假設參數(shù)間的關系也即增加了限制條件,在滿足限制條件下求最大似然值Fω,引入統(tǒng)計量λω=
FωFΩ
,λω定義為最大似然比。Λω
越接近1,說明在加上假設的限制條件后與不加假設一樣 ,說明假設的限制條件是實際存在的,也即假設
的關系符合實際
總結
以上是生活随笔為你收集整理的多元统计分析最短距离法_多元统计分析方法 -的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 母函数
- 下一篇: 基于FPGA的数字视频信号处理器设计(上