日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) >

多元统计分析 (一):聚类分析

發(fā)布時(shí)間:2024/8/1 73 豆豆
生活随笔 收集整理的這篇文章主要介紹了 多元统计分析 (一):聚类分析 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

多元分析(multivariate analyses)是多變量的統(tǒng)計(jì)分析方法,是數(shù)理統(tǒng)計(jì)中應(yīng)用廣 泛的一個(gè)重要分支,其內(nèi)容龐雜,視角獨(dú)特,方法多樣,深受工程技術(shù)人員的青睞和廣 泛使用,并在使用中不斷完善和創(chuàng)新。由于變量的相關(guān)性,不能簡(jiǎn)單地把每個(gè)變量的結(jié) 果進(jìn)行匯總,這是多變量統(tǒng)計(jì)分析的基本出發(fā)點(diǎn)。?

目錄

聚類分析概述

1 ?相似性度量

1.1 ?樣本的相似性度量

? ? ? ? ? ?閔氏距離、絕對(duì)值距離、歐氏距離、切比雪夫距離? ? ? ? ? ? ? ? ?馬氏距離

?1.2 ?類與類間的相似性度量?

?1)最短距離法(nearest neighbor or single linkage method)?

2)最長(zhǎng)距離法(farthest neighbor or complete linkage method)?

3)重心法(centroid method)?

4)類平均法(group average method)?

5)離差平方和法(sum of squares method)、Ward 方法

2 ?系統(tǒng)聚類法 ?

生成聚類圖

2.2 ?最短距離法與最長(zhǎng)距離法 ?

1)pdist ?計(jì)算任意兩個(gè)樣本點(diǎn)間的歐氏距離

2)linkage ?:用短距離算法生成具層次結(jié)構(gòu)的聚類樹

3)cluster ?:從連接輸出(linkage)中創(chuàng)建聚類

4)zsore(X) :標(biāo)準(zhǔn)化數(shù)據(jù)矩陣

?5)H=dendrogram(Z,P) 畫聚類樹狀圖

6)T=clusterdata(X,cutoff) ? 將矩陣X的數(shù)據(jù)分類

7)squareform ?:將pdist的輸出轉(zhuǎn)換為方陣

8)cophenet ?計(jì)算相關(guān)系數(shù)

3 ?變量聚類法 ?

?3.1 ?變量相似性度量 ?

?1)相關(guān)系數(shù)?? ? ? ? ? ? ? ? ? ? ? ? ? ? ?2)夾角余弦?

3.2 ?變量聚類法 ?

1)最大系數(shù)法 ?? ? ? ? ? ? ? ? ? ? ? ?2) 最小系數(shù)法

2 ?聚類分析案例—我國(guó)各地區(qū)普通高等教育發(fā)展?fàn)顩r分析?

? ? ? ??2.案例研究過程

(1)建立綜合評(píng)價(jià)指標(biāo)體系? ? ? ? ? ? ? ? ? ? ? ? ? ? ??(2)數(shù)據(jù)資料?

(3)R型聚類分析 ?? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?(4)Q 型聚類分析

4.案例研究結(jié)果?


聚類分析概述

將認(rèn)識(shí)對(duì)象進(jìn)行分類是人類認(rèn)識(shí)世界的一種重要方法,比如有關(guān)世界的時(shí)間進(jìn)程 的研究,就形成了歷史學(xué),也有關(guān)世界空間地域的研究,則形成了地理學(xué)。又如在生物 學(xué)中,為了研究生物的演變,需要對(duì)生物進(jìn)行分類,生物學(xué)家根據(jù)各種生物的特征,將 它們歸屬于不同的界、門、綱、目、科、屬、種之中。事實(shí)上,分門別類地對(duì)事物進(jìn)行 研究,要遠(yuǎn)比在一個(gè)混雜多變的集合中更清晰、明了和細(xì)致,這是因?yàn)橥活愂挛飼?huì)具 有更多的近似特性。在企業(yè)的經(jīng)營(yíng)管理中,為了確定其目標(biāo)市場(chǎng),首先要進(jìn)行市場(chǎng)細(xì)分。 因?yàn)闊o論一個(gè)企業(yè)多么龐大和成功,它也無法滿足整個(gè)市場(chǎng)的各種需求。而市場(chǎng)細(xì)分, 可以幫助企業(yè)找到適合自己特色,并使企業(yè)具有競(jìng)爭(zhēng)力的分市場(chǎng),將其作為自己的重點(diǎn) 開發(fā)目標(biāo)。

通常,人們可以憑經(jīng)驗(yàn)和專業(yè)知識(shí)來實(shí)現(xiàn)分類。而聚類分析(cluster analyses)作 為一種定量方法,將從數(shù)據(jù)分析的角度,給出一個(gè)更準(zhǔn)確、細(xì)致的分類工具。

1 ?相似性度量

1.1 ?樣本的相似性度量

要用數(shù)量化的方法對(duì)事物進(jìn)行分類,就必須用數(shù)量化的方法描述事物之間的相似 程度。一個(gè)事物常常需要用多個(gè)變量來刻畫。如果對(duì)于一群有待分類的樣本點(diǎn)需用 p 個(gè)變量描述,則每個(gè)樣本點(diǎn)可以看成是 空間中的一個(gè)點(diǎn)。因此,很自然地想到可以用?距離來度量樣本點(diǎn)間的相似程度。?

這一距離的定義是我們所熟知的,它滿足正定性,對(duì)稱性和三角不等式。在聚類 分析中,對(duì)于定量變量,常用的是 Minkowski 距離

閔氏距離、絕對(duì)值距離、歐氏距離、切比雪夫距離

在 Minkowski 距離中,常用的是歐氏距離,它的主要優(yōu)點(diǎn)是當(dāng)坐標(biāo)軸進(jìn)行正交 旋轉(zhuǎn)時(shí),歐氏距離是保持不變的。因此,如果對(duì)原坐標(biāo)系進(jìn)行平移和旋轉(zhuǎn)變換,則變換 后樣本點(diǎn)間的距離和變換前完全相同。 ?值得注意的是在采用 Minkowski 距離時(shí),一定要采用相同量綱的變量。如果變量 的量綱不同,測(cè)量值變異范圍相差懸殊時(shí),建議首先進(jìn)行數(shù)據(jù)的標(biāo)準(zhǔn)化處理,然后再計(jì) 算距離。在采用 Minkowski 距離時(shí),還應(yīng)盡可能地避免變量的多重相關(guān)性 (multicollinearity)。多重相關(guān)性所造成的信息重疊,會(huì)片面強(qiáng)調(diào)某些變量的重要性。 由于 Minkowski 距離的這些缺點(diǎn),一種改進(jìn)的距離就是馬氏距離,定義如下?

馬氏距離

其中x, y ?為來自 p 維總體Z 的樣本觀測(cè)值,Σ為Z 的協(xié)方差矩陣,實(shí)際中Σ往往是不知道的,常常需要用樣本協(xié)方差來估計(jì)。馬氏距離對(duì)一切線性變換是不變的,故不受量綱的影響。 ?此外,還可采用樣本相關(guān)系數(shù)、夾角余弦和其它關(guān)聯(lián)性度量作為相似性度量。近年 來隨著數(shù)據(jù)挖掘研究的深入,這方面的新方法層出不窮。

?1.2 ?類與類間的相似性度量?

?如果有兩個(gè)樣本類 1 G 和 2 G ,我們可以用下面的一系列方法度量它們間的距離:?

?1)最短距離法(nearest neighbor or single linkage method)?

它的直觀意義為兩個(gè)類中最近兩點(diǎn)間的距離

2)最長(zhǎng)距離法(farthest neighbor or complete linkage method)?

它的直觀意義為兩個(gè)類中最遠(yuǎn)兩點(diǎn)間的距離。

3)重心法(centroid method)?

4)類平均法(group average method)?

5)離差平方和法(sum of squares method)、Ward 方法

事實(shí)上,若 ??內(nèi)部點(diǎn)與點(diǎn)距離很小,則它們能很好地各自聚為一類,并且這兩類又能夠充分分離(即 ?很大),這時(shí)必然有 ??很大。因此,按定義可以認(rèn)為,兩類 ?之間的距離很大。離差平方和法初是由 Ward 在 1936 年提出,后經(jīng) Orloci 等人 1976 年發(fā)展起來的,故又稱為 Ward 方法。

2 ?系統(tǒng)聚類法 ?

2.1 ?系統(tǒng)聚類法的功能與特點(diǎn)

系統(tǒng)聚類法是聚類分析方法中常用的一種方法。它的優(yōu)點(diǎn)在于可以指出由粗到細(xì) 的多種分類情況,典型的系統(tǒng)聚類結(jié)果可由一個(gè)聚類圖展示出來。?

生成聚類圖

顯而易見,這種系統(tǒng)歸類過程與計(jì)算類和類之間的距離有關(guān),采用不同的距離定 義,有可能得出不同的聚類結(jié)果。

2.2 ?最短距離法與最長(zhǎng)距離法 ?

如果使用短距離法來測(cè)量類與類之間的距離,即稱其為系統(tǒng)聚類法中的最短距離 法(又稱近鄰法),先由 Florek 等人 1951 年和 Sneath1957 年引入。下面舉例說明最 短距離法的計(jì)算步驟。?

完全類似于以上步驟,但以最長(zhǎng)距離法來計(jì)算類間距離,就稱為系統(tǒng)聚類法中的 最長(zhǎng)距離法。 計(jì)算的 MATLAB 程序如下:?

clc,clear a=[1,0;1,1;3,2;4,3;2,5]; [m,n]=size(a); d=zeros(m,m); for i=1:m for j=i+1:m d(i,j)=mandist(a(i,:),a(j,:)'); end end d nd=nonzeros(d); nd=union(nd,nd) for i=1:m-1 nd_min=min(nd); [row,col]=find(d==nd_min);tm=union(row,col); tm=reshape(tm,1,length(tm)); s(i)={char(['第',int2str(i),'次合成,平臺(tái)高度為',num2str(nd_min),' 時(shí)的分類結(jié)果為:',int2str(tm)])}; %上面大括號(hào){}代表建立數(shù)組 nd(find(nd==nd_min))=[]; if length(nd)==0 break end end s(:)

?或者使用MATLAB統(tǒng)計(jì)工具箱的相關(guān)命令,編寫如下程序:?

clc,clear a=[1,0;1,1;3,2;4,3;2,5]; y=pdist(a,'cityblock');yc=squareform(y) z=linkage(y) [h,t]=dendrogram(z)

MATLAB中相關(guān)命令的使用說明如下:

1)pdist ?計(jì)算任意兩個(gè)樣本點(diǎn)間的歐氏距離

2)linkage ?:用短距離算法生成具層次結(jié)構(gòu)的聚類樹

3)cluster ?:從連接輸出(linkage)中創(chuàng)建聚類

4)zsore(X) :標(biāo)準(zhǔn)化數(shù)據(jù)矩陣

?5)H=dendrogram(Z,P) 畫聚類樹狀圖

由linkage產(chǎn)生的數(shù)據(jù)矩陣Z畫聚類樹狀圖。P是結(jié)點(diǎn)數(shù),默認(rèn)值是30。?

6)T=clusterdata(X,cutoff) ? 將矩陣X的數(shù)據(jù)分類

X為 m×n 矩陣,被看作m 個(gè)大小為n的向量。它與以下幾個(gè) 命令等價(jià):

Y=pdist(X,’euclid’) Z=linkage(Y,’single’) T=cluster(Z,cutoff)

7)squareform ?:將pdist的輸出轉(zhuǎn)換為方陣

8)cophenet ?計(jì)算相關(guān)系數(shù)

c=cophenet(Z,Y) 計(jì)算相關(guān)系數(shù),它是將Z中的距離信息(由linkage()函數(shù)產(chǎn)生)和Y中的距離信息(由pdist())函數(shù)產(chǎn)生進(jìn)行比較。Z為(m-1)× 3 矩陣,距離信息包含在第三列。Y是(m-1)* m /2 ?維的行向量。

?例如,給定距離為Y的一組對(duì)象 { 1,2,...,m },函數(shù)linkage()生成聚類樹。cophenet()函數(shù)用來度量這種分類的失真程度,即由分類所確定的結(jié)構(gòu)與數(shù)據(jù)間的擬合程度。 輸出值c為相干系數(shù)。對(duì)于要求很高的解,該值的幅度應(yīng)非常接近1。它也可用來比 較兩種由不同算法所生成的分類解。

3 ?變量聚類法 ?

在實(shí)際工作中,變量聚類法的應(yīng)用也是十分重要的。在系統(tǒng)分析或評(píng)估過程中,為 避免遺漏某些重要因素,往往在一開始選取指標(biāo)時(shí),盡可能多地考慮所有的相關(guān)因素。 而這樣做的結(jié)果,則是變量過多,變量間的相關(guān)度高,給系統(tǒng)分析與建模帶來很大的不 便。因此,人們常常希望能研究變量間的相似關(guān)系,按照變量的相似關(guān)系把它們聚合成 若干類,進(jìn)而找出影響系統(tǒng)的主要因素。?

?3.1 ?變量相似性度量 ?

在對(duì)變量進(jìn)行聚類分析時(shí),首先要確定變量的相似性度量,常用的變量相似性度量 有兩種。

?1)相關(guān)系數(shù)?

2)夾角余弦?

各種定義的相似度量均應(yīng)具有以下兩個(gè)性質(zhì):?

3.2 ?變量聚類法 ?

類似于樣本集合聚類分析中常用的最短距離法、最長(zhǎng)距離法等,變量聚類法采用 了與系統(tǒng)聚類法相同的思路和過程。在變量聚類問題中,常用的有最大系數(shù)法、最小系 數(shù)法等。 ?

1)最大系數(shù)法 ?

在最大系數(shù)法中,定義兩類變量的距離為?

2) 最小系數(shù)法

在最小系數(shù)法中,定義兩類變量的距離為?

例2 ?服裝標(biāo)準(zhǔn)制定中的變量聚類法。 ?在服裝標(biāo)準(zhǔn)制定中,對(duì)某地成年女子的各部位尺寸進(jìn)行了統(tǒng)計(jì),通過14個(gè)部位的測(cè) 量資料,獲得各因素之間的相關(guān)系數(shù)表(見表2)。?

計(jì)算的MATLAB程序如下:?

%把下三角相關(guān)系數(shù)矩陣粘貼到純文本文件ch.txt中 a=textread('ch.txt'); for i=1:14 a(i,i)=0; end b=a(:);b=nonzeros(b);b=b';b=1-b; z=linkage(b,'complete'); y=cluster(z,2) dendrogram(z) ind1=find(y==2);ind1=ind1' ind2=find(y==1);ind2=ind2'

可以看出,人體的變量大體可以分為兩類:一類反映人高、矮的變量,如上體長(zhǎng), 手臂長(zhǎng),前腰節(jié)高,后腰節(jié)高,總體長(zhǎng),身高,下體長(zhǎng);另一類是反映人體胖瘦的變量, 如胸圍,頸圍,總肩圍,總胸寬,后背寬,腰圍,臀圍。?

2 ?聚類分析案例—我國(guó)各地區(qū)普通高等教育發(fā)展?fàn)顩r分析?

聚類分析又稱群分析,是對(duì)多個(gè)樣本(或指標(biāo))進(jìn)行定量分類的一種多元統(tǒng)計(jì)分析 方法。對(duì)樣本進(jìn)行分類稱為Q型聚類分析,對(duì)指標(biāo)進(jìn)行分類稱為R型聚類分析。

本案例 運(yùn)用Q型和R型聚類分析方法對(duì)我國(guó)各地區(qū)普通高等教育的發(fā)展?fàn)顩r進(jìn)行分析。

?1.案例研究背景:??近年來,我國(guó)普通高等教育得到了迅速發(fā)展,為國(guó)家培養(yǎng)了大批人才。但由于我國(guó) 各地區(qū)經(jīng)濟(jì)發(fā)展水平不均衡,加之高等院校原有布局使各地區(qū)高等教育發(fā)展的起點(diǎn)不一 致,因而各地區(qū)普通高等教育的發(fā)展水平存在一定的差異, 不同的地區(qū)具有不同的特 點(diǎn)。對(duì)我國(guó)各地區(qū)普通高等教育的發(fā)展?fàn)顩r進(jìn)行聚類分析,明確各類地區(qū)普通高等教育 發(fā)展?fàn)顩r的差異與特點(diǎn),有利于管理和決策部門從宏觀上把握我國(guó)普通高等教育的整體 發(fā)展現(xiàn)狀,分類制定相關(guān)政策,更好的指導(dǎo)和規(guī)劃我國(guó)高教事業(yè)的整體健康發(fā)展。

2.案例研究過程

(1)建立綜合評(píng)價(jià)指標(biāo)體系

高等教育是依賴高等院校進(jìn)行的,高等教育的發(fā)展?fàn)顩r主要體現(xiàn)在高等院校的相 關(guān)方面。遵循可比性原則,從高等教育的五個(gè)方面選取十項(xiàng)評(píng)價(jià)指標(biāo),具體如圖4。

(2)數(shù)據(jù)資料?

(3)R型聚類分析 ?

定性考察反映高等教育發(fā)展?fàn)顩r的五個(gè)方面十項(xiàng)評(píng)價(jià)指標(biāo),可以看出,某些指標(biāo)之 間可能存在較強(qiáng)的相關(guān)性。比如每十萬人口高等院校畢業(yè)生數(shù)、每十萬人口高等院校招 生數(shù)與每十萬人口高等院校在校生數(shù)之間可能存在較強(qiáng)的相關(guān)性, 每十萬人口高等院 校教職工數(shù)和每十萬人口高等院校專職教師數(shù)之間可能存在較強(qiáng)的相關(guān)性。為了驗(yàn)證這 種想法,運(yùn)用MATLAB軟件計(jì)算十個(gè)指標(biāo)之間的相關(guān)系數(shù),相關(guān)系數(shù)矩陣如表6所示。?

可以看出某些指標(biāo)之間確實(shí)存在很強(qiáng)的相關(guān)性,因此可以考慮從這些指標(biāo)中選取幾個(gè)有代表性的指標(biāo)進(jìn)行聚類分析。為此,把十個(gè)指標(biāo)根據(jù)其相關(guān)性進(jìn)行R型聚類,再 從每個(gè)類中選取代表性的指標(biāo)。首先對(duì)每個(gè)變量(指標(biāo))的數(shù)據(jù)分別進(jìn)行標(biāo)準(zhǔn)化處理。 變量間相近性度量采用相關(guān)系數(shù),類間相近性度量的計(jì)算選用類平均法。聚類樹型圖見 圖5。?

計(jì)算的 MATLAB 程序如下:?

load gj.txt %把原始數(shù)據(jù)保存在純文本文件 gj.txt 中 r=corrcoef(gj); %計(jì)算相關(guān)系數(shù)矩陣 d=tril(r); %取出相關(guān)系數(shù)矩陣的下三角元素 for i=1:10 %對(duì)角線元素化成零 d(i,i)=0; end d=d(:); d=nonzeros(d); %取出非零元素 d=d';d=1-d; z=linkage(d) dendrogram(z)

從聚類圖中可以看出,每十萬人口高等院校招生數(shù)、每十萬人口高等院校在校生數(shù)、 每十萬人口高等院校教職工數(shù)、每十萬人口高等院校專職教師數(shù)、每十萬人口高等院校 畢業(yè)生數(shù) 5 個(gè)指標(biāo)之間有較大的相關(guān)性,先被聚到一起。如果將 10 個(gè)指標(biāo)分為 6 類, 其它 5 個(gè)指標(biāo)各自為一類。這樣就從十個(gè)指標(biāo)中選定了六個(gè)分析指標(biāo):?

可以根據(jù)這六個(gè)指標(biāo)對(duì)30 個(gè)地區(qū)進(jìn)行聚類分析。

(4)Q 型聚類分析

根據(jù)這六個(gè)指標(biāo)對(duì)30個(gè)地區(qū)進(jìn)行聚類分析。首先對(duì)每個(gè)變量的數(shù)據(jù)分別進(jìn)行標(biāo)準(zhǔn)化 處理,樣本間相近性采用歐氏距離度量,類間距離的計(jì)算選用類平均法。聚類樹型圖見 圖6。?

計(jì)算的MATLAB程序如下:?

load gj.txt %把原始數(shù)據(jù)保存在純文本文件gj.txt中 gj(:,3:6)=[]; gj=zscore(gj); y=pdist(gj); z=linkage(y) dendrogram(z,'average')

4.案例研究結(jié)果

各地區(qū)高等教育發(fā)展?fàn)顩r存在較大的差異,高教資源的地區(qū)分布很不均衡。

如果根 據(jù)各地區(qū)高等教育發(fā)展?fàn)顩r把30 個(gè)地區(qū)分為三類,結(jié)果為: ?第一類:北京;第二類:西藏;第三類:其他地區(qū)。

如果根據(jù)各地區(qū)高等教育發(fā)展?fàn)顩r把30個(gè)地區(qū)分為四類,結(jié)果為: 第一類:北京;第二類:西藏;第三類:上海天津;第四類:其他地區(qū)。

如果根據(jù)各地區(qū)高等教育發(fā)展?fàn)顩r把30個(gè)地區(qū)分為五類,結(jié)果為: ?第一類:北京;第二類:西藏;第三類:上海天津;第四類:寧夏、貴州、青海; 第五類:其他地區(qū)。

從以上結(jié)果結(jié)合聚類圖中的合并距離可以看出,北京的高等教育狀況與其它地區(qū)相 比有非常大的不同,主要表現(xiàn)在每百萬人口的學(xué)校數(shù)量和每十萬人口的學(xué)生數(shù)量以及國(guó)家財(cái)政預(yù)算內(nèi)普通高教經(jīng)費(fèi)占國(guó)內(nèi)生產(chǎn)總值的比重等方面遠(yuǎn)遠(yuǎn)高于其他地區(qū),這與北京 作為全國(guó)的政治、經(jīng)濟(jì)與文化中心的地位是吻合的。上海和天津作為另外兩個(gè)較早的直 轄市,高等教育狀況和北京是類似的狀況。寧夏、貴州和青海的高等教育狀況極為類似, 高等教育資源相對(duì)匱乏。西藏作為一個(gè)非常特殊的民族地區(qū),其高等教育狀況具有和其 他地區(qū)不同的情形,被單獨(dú)聚為一類,主要表現(xiàn)在每百萬人口高等院校數(shù)比較高,國(guó)家 財(cái)政預(yù)算內(nèi)普通高教經(jīng)費(fèi)占國(guó)內(nèi)生產(chǎn)總值的比重和生均教育經(jīng)費(fèi)也相對(duì)較高,而高級(jí)職 稱占專職教師的比例與平均每所高等院校的在校生數(shù)又都是全國(guó)低的。這正是西藏高 等教育狀況的特殊之處:人口相對(duì)較少,經(jīng)費(fèi)比較充足,高等院校規(guī)模較小,師資力量 薄弱。其他地區(qū)的高等教育狀況較為類似,共同被聚為一類。針對(duì)這種情況,有關(guān)部門 可以采取相應(yīng)措施對(duì)寧夏、貴州、青海和西藏地區(qū)進(jìn)行扶持,促進(jìn)當(dāng)?shù)馗叩冉逃聵I(yè)的 發(fā)展。

聚類算法的分類

總結(jié)

以上是生活随笔為你收集整理的多元统计分析 (一):聚类分析的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。