當(dāng)前位置：首頁(yè) >

多元统计分析（一）：聚类分析

發(fā)布時(shí)間：2024/8/1 73 豆豆

生活随笔收集整理的這篇文章主要介紹了多元统计分析（一）：聚类分析小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

多元分析（multivariate analyses）是多變量的統(tǒng)計(jì)分析方法，是數(shù)理統(tǒng)計(jì)中應(yīng)用廣泛的一個(gè)重要分支，其內(nèi)容龐雜，視角獨(dú)特，方法多樣，深受工程技術(shù)人員的青睞和廣泛使用，并在使用中不斷完善和創(chuàng)新。由于變量的相關(guān)性，不能簡(jiǎn)單地把每個(gè)變量的結(jié) 果進(jìn)行匯總，這是多變量統(tǒng)計(jì)分析的基本出發(fā)點(diǎn)。?

聚類分析概述

1 ?相似性度量

1.1 ?樣本的相似性度量

? ? ? ? ? ?閔氏距離、絕對(duì)值距離、歐氏距離、切比雪夫距離? ? ? ? ? ? ? ? ?馬氏距離

?1.2 ?類與類間的相似性度量?

?1）最短距離法（nearest neighbor or single linkage method）?

2）最長(zhǎng)距離法（farthest neighbor or complete linkage method）?

3）重心法（centroid method）?

4）類平均法（group average method）?

5）離差平方和法（sum of squares method）、Ward 方法

2 ?系統(tǒng)聚類法 ?

生成聚類圖

2.2 ?最短距離法與最長(zhǎng)距離法 ?

1）pdist ?計(jì)算任意兩個(gè)樣本點(diǎn)間的歐氏距離

2）linkage ?：用短距離算法生成具層次結(jié)構(gòu)的聚類樹

3）cluster ?：從連接輸出（linkage）中創(chuàng)建聚類

4）zsore(X) ：標(biāo)準(zhǔn)化數(shù)據(jù)矩陣

?5）H＝dendrogram(Z,P) 畫聚類樹狀圖

6）T=clusterdata(X,cutoff) ? 將矩陣X的數(shù)據(jù)分類

7)squareform ?：將pdist的輸出轉(zhuǎn)換為方陣

8）cophenet ?計(jì)算相關(guān)系數(shù)

3 ?變量聚類法 ?

?3.1 ?變量相似性度量 ?

?1）相關(guān)系數(shù)?? ? ? ? ? ? ? ? ? ? ? ? ? ? ?2）夾角余弦?

3.2 ?變量聚類法 ?

1）最大系數(shù)法 ?? ? ? ? ? ? ? ? ? ? ? ?2) 最小系數(shù)法

2 ?聚類分析案例—我國(guó)各地區(qū)普通高等教育發(fā)展?fàn)顩r分析?

? ? ? ??2．案例研究過程

（1）建立綜合評(píng)價(jià)指標(biāo)體系? ? ? ? ? ? ? ? ? ? ? ? ? ? ??（2）數(shù)據(jù)資料?

（3）R型聚類分析 ?? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?（4）Q 型聚類分析

4．案例研究結(jié)果?

聚類分析概述

將認(rèn)識(shí)對(duì)象進(jìn)行分類是人類認(rèn)識(shí)世界的一種重要方法，比如有關(guān)世界的時(shí)間進(jìn)程的研究，就形成了歷史學(xué)，也有關(guān)世界空間地域的研究，則形成了地理學(xué)。又如在生物學(xué)中，為了研究生物的演變，需要對(duì)生物進(jìn)行分類，生物學(xué)家根據(jù)各種生物的特征，將它們歸屬于不同的界、門、綱、目、科、屬、種之中。事實(shí)上，分門別類地對(duì)事物進(jìn)行研究，要遠(yuǎn)比在一個(gè)混雜多變的集合中更清晰、明了和細(xì)致，這是因?yàn)橥活愂挛飼?huì)具有更多的近似特性。在企業(yè)的經(jīng)營(yíng)管理中，為了確定其目標(biāo)市場(chǎng)，首先要進(jìn)行市場(chǎng)細(xì)分。因?yàn)闊o論一個(gè)企業(yè)多么龐大和成功，它也無法滿足整個(gè)市場(chǎng)的各種需求。而市場(chǎng)細(xì)分，可以幫助企業(yè)找到適合自己特色，并使企業(yè)具有競(jìng)爭(zhēng)力的分市場(chǎng)，將其作為自己的重點(diǎn) 開發(fā)目標(biāo)。

通常，人們可以憑經(jīng)驗(yàn)和專業(yè)知識(shí)來實(shí)現(xiàn)分類。而聚類分析（cluster analyses）作為一種定量方法，將從數(shù)據(jù)分析的角度，給出一個(gè)更準(zhǔn)確、細(xì)致的分類工具。

1 ?相似性度量

1.1 ?樣本的相似性度量

要用數(shù)量化的方法對(duì)事物進(jìn)行分類，就必須用數(shù)量化的方法描述事物之間的相似程度。一個(gè)事物常常需要用多個(gè)變量來刻畫。如果對(duì)于一群有待分類的樣本點(diǎn)需用 p 個(gè)變量描述，則每個(gè)樣本點(diǎn)可以看成是空間中的一個(gè)點(diǎn)。因此，很自然地想到可以用?距離來度量樣本點(diǎn)間的相似程度。?

這一距離的定義是我們所熟知的，它滿足正定性，對(duì)稱性和三角不等式。在聚類分析中，對(duì)于定量變量，常用的是 Minkowski 距離

閔氏距離、絕對(duì)值距離、歐氏距離、切比雪夫距離

在 Minkowski 距離中，常用的是歐氏距離，它的主要優(yōu)點(diǎn)是當(dāng)坐標(biāo)軸進(jìn)行正交旋轉(zhuǎn)時(shí)，歐氏距離是保持不變的。因此，如果對(duì)原坐標(biāo)系進(jìn)行平移和旋轉(zhuǎn)變換，則變換后樣本點(diǎn)間的距離和變換前完全相同。 ?值得注意的是在采用 Minkowski 距離時(shí)，一定要采用相同量綱的變量。如果變量的量綱不同，測(cè)量值變異范圍相差懸殊時(shí)，建議首先進(jìn)行數(shù)據(jù)的標(biāo)準(zhǔn)化處理，然后再計(jì) 算距離。在采用 Minkowski 距離時(shí)，還應(yīng)盡可能地避免變量的多重相關(guān)性（multicollinearity）。多重相關(guān)性所造成的信息重疊，會(huì)片面強(qiáng)調(diào)某些變量的重要性。由于 Minkowski 距離的這些缺點(diǎn)，一種改進(jìn)的距離就是馬氏距離，定義如下?

馬氏距離

其中x, y ?為來自 p 維總體Z 的樣本觀測(cè)值，Σ為Z 的協(xié)方差矩陣，實(shí)際中Σ往往是不知道的，常常需要用樣本協(xié)方差來估計(jì)。馬氏距離對(duì)一切線性變換是不變的，故不受量綱的影響。 ?此外，還可采用樣本相關(guān)系數(shù)、夾角余弦和其它關(guān)聯(lián)性度量作為相似性度量。近年來隨著數(shù)據(jù)挖掘研究的深入，這方面的新方法層出不窮。

?1.2 ?類與類間的相似性度量?

?如果有兩個(gè)樣本類 1 G 和 2 G ，我們可以用下面的一系列方法度量它們間的距離：?

?1）最短距離法（nearest neighbor or single linkage method）?

它的直觀意義為兩個(gè)類中最近兩點(diǎn)間的距離。

2）最長(zhǎng)距離法（farthest neighbor or complete linkage method）?

它的直觀意義為兩個(gè)類中最遠(yuǎn)兩點(diǎn)間的距離。

3）重心法（centroid method）?

4）類平均法（group average method）?

5）離差平方和法（sum of squares method）、Ward 方法

事實(shí)上，若 ??內(nèi)部點(diǎn)與點(diǎn)距離很小，則它們能很好地各自聚為一類，并且這兩類又能夠充分分離（即 ?很大），這時(shí)必然有 ??很大。因此，按定義可以認(rèn)為，兩類 ?之間的距離很大。離差平方和法初是由 Ward 在 1936 年提出，后經(jīng) Orloci 等人 1976 年發(fā)展起來的，故又稱為 Ward 方法。

2 ?系統(tǒng)聚類法 ?

2.1 ?系統(tǒng)聚類法的功能與特點(diǎn)

系統(tǒng)聚類法是聚類分析方法中常用的一種方法。它的優(yōu)點(diǎn)在于可以指出由粗到細(xì) 的多種分類情況，典型的系統(tǒng)聚類結(jié)果可由一個(gè)聚類圖展示出來。?

生成聚類圖

顯而易見，這種系統(tǒng)歸類過程與計(jì)算類和類之間的距離有關(guān)，采用不同的距離定義，有可能得出不同的聚類結(jié)果。

2.2 ?最短距離法與最長(zhǎng)距離法 ?

如果使用短距離法來測(cè)量類與類之間的距離，即稱其為系統(tǒng)聚類法中的最短距離法（又稱近鄰法），先由 Florek 等人 1951 年和 Sneath1957 年引入。下面舉例說明最短距離法的計(jì)算步驟。?

完全類似于以上步驟，但以最長(zhǎng)距離法來計(jì)算類間距離，就稱為系統(tǒng)聚類法中的最長(zhǎng)距離法。計(jì)算的 MATLAB 程序如下：?

clc,clear a=[1,0;1,1;3,2;4,3;2,5]; [m,n]=size(a); d=zeros(m,m); for i=1:m for j=i+1:m d(i,j)=mandist(a(i,:),a(j,:)'); end end d nd=nonzeros(d); nd=union(nd,nd) for i=1:m-1 nd_min=min(nd); [row,col]=find(d==nd_min);tm=union(row,col); tm=reshape(tm,1,length(tm)); s(i)={char(['第',int2str(i),'次合成，平臺(tái)高度為',num2str(nd_min),' 時(shí)的分類結(jié)果為：',int2str(tm)])}; %上面大括號(hào){}代表建立數(shù)組 nd(find(nd==nd_min))=[]; if length(nd)==0 break end end s(:)

?或者使用MATLAB統(tǒng)計(jì)工具箱的相關(guān)命令，編寫如下程序：?

clc,clear a=[1,0;1,1;3,2;4,3;2,5]; y=pdist(a,'cityblock');yc=squareform(y) z=linkage(y) [h,t]=dendrogram(z)

MATLAB中相關(guān)命令的使用說明如下：

1）pdist ?計(jì)算任意兩個(gè)樣本點(diǎn)間的歐氏距離

2）linkage ?：用短距離算法生成具層次結(jié)構(gòu)的聚類樹

3）cluster ?：從連接輸出（linkage）中創(chuàng)建聚類

4）zsore(X) ：標(biāo)準(zhǔn)化數(shù)據(jù)矩陣

?5）H＝dendrogram(Z,P) 畫聚類樹狀圖

由linkage產(chǎn)生的數(shù)據(jù)矩陣Z畫聚類樹狀圖。P是結(jié)點(diǎn)數(shù)，默認(rèn)值是30。?

6）T=clusterdata(X,cutoff) ? 將矩陣X的數(shù)據(jù)分類

X為 m×n 矩陣，被看作m 個(gè)大小為n的向量。它與以下幾個(gè) 命令等價(jià)：

Y=pdist(X,’euclid’) Z=linkage(Y,’single’) T=cluster(Z,cutoff)

7)squareform ?：將pdist的輸出轉(zhuǎn)換為方陣

8）cophenet ?計(jì)算相關(guān)系數(shù)

c=cophenet(Z,Y) 計(jì)算相關(guān)系數(shù)，它是將Z中的距離信息（由linkage()函數(shù)產(chǎn)生）和Y中的距離信息（由pdist()）函數(shù)產(chǎn)生進(jìn)行比較。Z為（m-1）× 3 矩陣，距離信息包含在第三列。Y是（m-1)* m /2 ?維的行向量。

?例如，給定距離為Y的一組對(duì)象 { 1,2,...,m }，函數(shù)linkage()生成聚類樹。cophenet()函數(shù)用來度量這種分類的失真程度，即由分類所確定的結(jié)構(gòu)與數(shù)據(jù)間的擬合程度。輸出值c為相干系數(shù)。對(duì)于要求很高的解，該值的幅度應(yīng)非常接近1。它也可用來比較兩種由不同算法所生成的分類解。

3 ?變量聚類法 ?

在實(shí)際工作中，變量聚類法的應(yīng)用也是十分重要的。在系統(tǒng)分析或評(píng)估過程中，為避免遺漏某些重要因素，往往在一開始選取指標(biāo)時(shí)，盡可能多地考慮所有的相關(guān)因素。而這樣做的結(jié)果，則是變量過多，變量間的相關(guān)度高，給系統(tǒng)分析與建模帶來很大的不便。因此，人們常常希望能研究變量間的相似關(guān)系，按照變量的相似關(guān)系把它們聚合成若干類，進(jìn)而找出影響系統(tǒng)的主要因素。?

?3.1 ?變量相似性度量 ?

在對(duì)變量進(jìn)行聚類分析時(shí)，首先要確定變量的相似性度量，常用的變量相似性度量有兩種。

?1）相關(guān)系數(shù)?

2）夾角余弦?

各種定義的相似度量均應(yīng)具有以下兩個(gè)性質(zhì)：?

3.2 ?變量聚類法 ?

類似于樣本集合聚類分析中常用的最短距離法、最長(zhǎng)距離法等，變量聚類法采用了與系統(tǒng)聚類法相同的思路和過程。在變量聚類問題中，常用的有最大系數(shù)法、最小系數(shù)法等。 ?

1）最大系數(shù)法 ?

在最大系數(shù)法中，定義兩類變量的距離為?

2) 最小系數(shù)法

在最小系數(shù)法中，定義兩類變量的距離為?

例2 ?服裝標(biāo)準(zhǔn)制定中的變量聚類法。 ?在服裝標(biāo)準(zhǔn)制定中，對(duì)某地成年女子的各部位尺寸進(jìn)行了統(tǒng)計(jì)，通過14個(gè)部位的測(cè) 量資料，獲得各因素之間的相關(guān)系數(shù)表（見表2）。?

計(jì)算的MATLAB程序如下：?

%把下三角相關(guān)系數(shù)矩陣粘貼到純文本文件ch.txt中 a=textread('ch.txt'); for i=1:14 a(i,i)=0; end b=a(:);b=nonzeros(b);b=b';b=1-b; z=linkage(b,'complete'); y=cluster(z,2) dendrogram(z) ind1=find(y==2);ind1=ind1' ind2=find(y==1);ind2=ind2'

可以看出，人體的變量大體可以分為兩類：一類反映人高、矮的變量，如上體長(zhǎng)，手臂長(zhǎng)，前腰節(jié)高，后腰節(jié)高，總體長(zhǎng)，身高，下體長(zhǎng)；另一類是反映人體胖瘦的變量，如胸圍，頸圍，總肩圍，總胸寬，后背寬，腰圍，臀圍。?

2 ?聚類分析案例—我國(guó)各地區(qū)普通高等教育發(fā)展?fàn)顩r分析?

聚類分析又稱群分析，是對(duì)多個(gè)樣本（或指標(biāo)）進(jìn)行定量分類的一種多元統(tǒng)計(jì)分析方法。對(duì)樣本進(jìn)行分類稱為Q型聚類分析，對(duì)指標(biāo)進(jìn)行分類稱為R型聚類分析。

本案例運(yùn)用Q型和R型聚類分析方法對(duì)我國(guó)各地區(qū)普通高等教育的發(fā)展?fàn)顩r進(jìn)行分析。

?1．案例研究背景:??近年來，我國(guó)普通高等教育得到了迅速發(fā)展，為國(guó)家培養(yǎng)了大批人才。但由于我國(guó) 各地區(qū)經(jīng)濟(jì)發(fā)展水平不均衡，加之高等院校原有布局使各地區(qū)高等教育發(fā)展的起點(diǎn)不一致，因而各地區(qū)普通高等教育的發(fā)展水平存在一定的差異，不同的地區(qū)具有不同的特點(diǎn)。對(duì)我國(guó)各地區(qū)普通高等教育的發(fā)展?fàn)顩r進(jìn)行聚類分析，明確各類地區(qū)普通高等教育發(fā)展?fàn)顩r的差異與特點(diǎn)，有利于管理和決策部門從宏觀上把握我國(guó)普通高等教育的整體發(fā)展現(xiàn)狀，分類制定相關(guān)政策，更好的指導(dǎo)和規(guī)劃我國(guó)高教事業(yè)的整體健康發(fā)展。

2．案例研究過程

（1）建立綜合評(píng)價(jià)指標(biāo)體系

高等教育是依賴高等院校進(jìn)行的，高等教育的發(fā)展?fàn)顩r主要體現(xiàn)在高等院校的相關(guān)方面。遵循可比性原則，從高等教育的五個(gè)方面選取十項(xiàng)評(píng)價(jià)指標(biāo)，具體如圖4。

（2）數(shù)據(jù)資料?

（3）R型聚類分析 ?

定性考察反映高等教育發(fā)展?fàn)顩r的五個(gè)方面十項(xiàng)評(píng)價(jià)指標(biāo)，可以看出，某些指標(biāo)之間可能存在較強(qiáng)的相關(guān)性。比如每十萬人口高等院校畢業(yè)生數(shù)、每十萬人口高等院校招生數(shù)與每十萬人口高等院校在校生數(shù)之間可能存在較強(qiáng)的相關(guān)性，每十萬人口高等院校教職工數(shù)和每十萬人口高等院校專職教師數(shù)之間可能存在較強(qiáng)的相關(guān)性。為了驗(yàn)證這種想法，運(yùn)用MATLAB軟件計(jì)算十個(gè)指標(biāo)之間的相關(guān)系數(shù)，相關(guān)系數(shù)矩陣如表6所示。?

可以看出某些指標(biāo)之間確實(shí)存在很強(qiáng)的相關(guān)性，因此可以考慮從這些指標(biāo)中選取幾個(gè)有代表性的指標(biāo)進(jìn)行聚類分析。為此，把十個(gè)指標(biāo)根據(jù)其相關(guān)性進(jìn)行R型聚類，再從每個(gè)類中選取代表性的指標(biāo)。首先對(duì)每個(gè)變量（指標(biāo)）的數(shù)據(jù)分別進(jìn)行標(biāo)準(zhǔn)化處理。變量間相近性度量采用相關(guān)系數(shù)，類間相近性度量的計(jì)算選用類平均法。聚類樹型圖見圖5。?

計(jì)算的 MATLAB 程序如下：?

load gj.txt %把原始數(shù)據(jù)保存在純文本文件 gj.txt 中 r=corrcoef(gj); %計(jì)算相關(guān)系數(shù)矩陣 d=tril(r); %取出相關(guān)系數(shù)矩陣的下三角元素 for i=1:10 %對(duì)角線元素化成零 d(i,i)=0; end d=d(:); d=nonzeros(d); %取出非零元素 d=d';d=1-d; z=linkage(d) dendrogram(z)

從聚類圖中可以看出，每十萬人口高等院校招生數(shù)、每十萬人口高等院校在校生數(shù)、每十萬人口高等院校教職工數(shù)、每十萬人口高等院校專職教師數(shù)、每十萬人口高等院校畢業(yè)生數(shù) 5 個(gè)指標(biāo)之間有較大的相關(guān)性，先被聚到一起。如果將 10 個(gè)指標(biāo)分為 6 類，其它 5 個(gè)指標(biāo)各自為一類。這樣就從十個(gè)指標(biāo)中選定了六個(gè)分析指標(biāo)：?

可以根據(jù)這六個(gè)指標(biāo)對(duì)30 個(gè)地區(qū)進(jìn)行聚類分析。

（4）Q 型聚類分析

根據(jù)這六個(gè)指標(biāo)對(duì)30個(gè)地區(qū)進(jìn)行聚類分析。首先對(duì)每個(gè)變量的數(shù)據(jù)分別進(jìn)行標(biāo)準(zhǔn)化處理，樣本間相近性采用歐氏距離度量，類間距離的計(jì)算選用類平均法。聚類樹型圖見圖6。?

計(jì)算的MATLAB程序如下：?

load gj.txt %把原始數(shù)據(jù)保存在純文本文件gj.txt中 gj(:,3:6)=[]; gj=zscore(gj); y=pdist(gj); z=linkage(y) dendrogram(z,'average')

4．案例研究結(jié)果

各地區(qū)高等教育發(fā)展?fàn)顩r存在較大的差異，高教資源的地區(qū)分布很不均衡。

如果根據(jù)各地區(qū)高等教育發(fā)展?fàn)顩r把30 個(gè)地區(qū)分為三類，結(jié)果為： ?第一類：北京；第二類：西藏；第三類：其他地區(qū)。

如果根據(jù)各地區(qū)高等教育發(fā)展?fàn)顩r把30個(gè)地區(qū)分為四類，結(jié)果為：第一類：北京；第二類：西藏；第三類：上海天津；第四類：其他地區(qū)。

如果根據(jù)各地區(qū)高等教育發(fā)展?fàn)顩r把30個(gè)地區(qū)分為五類，結(jié)果為： ?第一類：北京；第二類：西藏；第三類：上海天津；第四類：寧夏、貴州、青海；第五類：其他地區(qū)。

從以上結(jié)果結(jié)合聚類圖中的合并距離可以看出，北京的高等教育狀況與其它地區(qū)相比有非常大的不同，主要表現(xiàn)在每百萬人口的學(xué)校數(shù)量和每十萬人口的學(xué)生數(shù)量以及國(guó)家財(cái)政預(yù)算內(nèi)普通高教經(jīng)費(fèi)占國(guó)內(nèi)生產(chǎn)總值的比重等方面遠(yuǎn)遠(yuǎn)高于其他地區(qū)，這與北京作為全國(guó)的政治、經(jīng)濟(jì)與文化中心的地位是吻合的。上海和天津作為另外兩個(gè)較早的直轄市，高等教育狀況和北京是類似的狀況。寧夏、貴州和青海的高等教育狀況極為類似，高等教育資源相對(duì)匱乏。西藏作為一個(gè)非常特殊的民族地區(qū)，其高等教育狀況具有和其他地區(qū)不同的情形，被單獨(dú)聚為一類，主要表現(xiàn)在每百萬人口高等院校數(shù)比較高，國(guó)家財(cái)政預(yù)算內(nèi)普通高教經(jīng)費(fèi)占國(guó)內(nèi)生產(chǎn)總值的比重和生均教育經(jīng)費(fèi)也相對(duì)較高，而高級(jí)職稱占專職教師的比例與平均每所高等院校的在校生數(shù)又都是全國(guó)低的。這正是西藏高等教育狀況的特殊之處：人口相對(duì)較少，經(jīng)費(fèi)比較充足，高等院校規(guī)模較小，師資力量薄弱。其他地區(qū)的高等教育狀況較為類似，共同被聚為一類。針對(duì)這種情況，有關(guān)部門可以采取相應(yīng)措施對(duì)寧夏、貴州、青海和西藏地區(qū)進(jìn)行扶持，促進(jìn)當(dāng)?shù)馗叩冉逃聵I(yè)的發(fā)展。

聚類算法的分類

總結(jié)

以上是生活随笔為你收集整理的多元统计分析（一）：聚类分析的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

统计分析

上一篇： webbrowser控件使用,冬日日记每
下一篇： Autodesk 3DSMax 2019

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

多元统计分析 （一）：聚类分析

聚類分析概述

1 ?相似性度量

1.1 ?樣本的相似性度量

閔氏距離、絕對(duì)值距離、歐氏距離、切比雪夫距離

馬氏距離

?1.2 ?類與類間的相似性度量?

?1）最短距離法（nearest neighbor or single linkage method）?

2）最長(zhǎng)距離法（farthest neighbor or complete linkage method）?

3）重心法（centroid method）?

4）類平均法（group average method）?

5）離差平方和法（sum of squares method）、Ward 方法

2 ?系統(tǒng)聚類法 ?

生成聚類圖

2.2 ?最短距離法與最長(zhǎng)距離法 ?

1）pdist ?計(jì)算任意兩個(gè)樣本點(diǎn)間的歐氏距離

2）linkage ?：用短距離算法生成具層次結(jié)構(gòu)的聚類樹

3）cluster ?：從連接輸出（linkage）中創(chuàng)建聚類

4）zsore(X) ：標(biāo)準(zhǔn)化數(shù)據(jù)矩陣

?5）H＝dendrogram(Z,P) 畫聚類樹狀圖

6）T=clusterdata(X,cutoff) ? 將矩陣X的數(shù)據(jù)分類

7)squareform ?：將pdist的輸出轉(zhuǎn)換為方陣

8）cophenet ?計(jì)算相關(guān)系數(shù)

3 ?變量聚類法 ?

?3.1 ?變量相似性度量 ?

?1）相關(guān)系數(shù)?

2）夾角余弦?

3.2 ?變量聚類法 ?

1）最大系數(shù)法 ?

2) 最小系數(shù)法

2 ?聚類分析案例—我國(guó)各地區(qū)普通高等教育發(fā)展?fàn)顩r分析?

2．案例研究過程

（1）建立綜合評(píng)價(jià)指標(biāo)體系

（2）數(shù)據(jù)資料?

（3）R型聚類分析 ?

（4）Q 型聚類分析

4．案例研究結(jié)果

聚類算法的分類

總結(jié)

多元统计分析（一）：聚类分析