日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 综合教程 >内容正文

综合教程

SPSS聚类与判别

發布時間:2023/12/25 综合教程 31 生活家
生活随笔 收集整理的這篇文章主要介紹了 SPSS聚类与判别 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

實驗目的

  學會使用SPSS簡單操作,掌握聚類與判別。

實驗要求

  使用SPSS。

實驗內容

實驗步驟

  (1)層次聚類法分析實例——為了反映中國各地區生活水平差異性,本報告對2002年中國部分省市的國民經濟數據進行聚類分析,依次了解我國各省市的生活差異水平,詳見“lx17.sav文件”。SPSS操作,點擊【分析】→【分類】→【系統聚類】,在打開的【系統聚類分析】對話框中,把GDP、Pindex_Revise等5個變量選入【變量】中,把省份選入【個案標注依據】,點擊【圖】,勾選【譜系圖】,“冰柱圖塊”勾選【無】→【繼續】。點擊【方法】,下拉列表,選擇【瓦爾德法】,“轉換值塊”勾選【Z得分】→【繼續】。點擊【保存】→【解的范圍】,3~8→【繼續】。單擊【確定】。

  運行分析,

集中計劃

階段

組合聚類

系數

首次出現聚類的階段

下一個階段

聚類 1

聚類 2

聚類 1

聚類 2

1

3

17

.111

0

0

2

2

3

12

.246

1

0

15

3

5

7

.407

0

0

4

4

5

8

.624

3

0

13

5

20

27

.857

0

0

11

6

29

30

1.121

0

0

20

7

28

31

1.390

0

0

20

8

4

14

1.666

0

0

10

9

15

23

2.102

0

0

14

10

4

25

2.751

8

0

21

11

20

24

3.419

5

0

12

12

20

22

4.167

11

0

19

13

5

6

5.010

4

0

19

14

15

16

6.127

9

0

23

15

3

18

7.428

2

0

18

16

21

26

8.813

0

0

21

17

11

19

10.248

0

0

22

18

3

10

12.010

15

0

23

19

5

20

13.835

13

12

25

20

28

29

16.130

7

6

27

21

4

21

18.530

10

16

25

22

11

13

21.298

17

0

28

23

3

15

24.620

18

14

29

24

1

2

28.412

0

0

26

25

4

5

32.928

21

19

27

26

1

9

41.666

24

0

28

27

4

28

54.441

25

20

29

28

1

11

68.972

26

22

30

29

3

4

87.757

23

27

30

30

1

3

150.000

28

29

0

  需要判別數據應該分成多少類別時,聚類系數那一列有著很好的參考價值。

  (1)方案一:分成6類或者5類。

  第1類:上海;第二類:北京、天津;第3類:河北、湖北、安徽、湖南、江蘇、山東、四川、河南;第4類:廣西、峽西、貴州、重慶、內蒙古、吉林、黑龍江、遼寧、山西、江西、云南、海南、西藏;第5類:浙江、廣東、福建;第6類:青海、寧夏、甘肅、新疆。

  事實上,由于在分成6類時,第1個類別只有上海一個城市,所以在這種聚類方法中更傾向于將31個省市分成5類,即將第1類和第2類合并為1類。

  (2)方案二:分成3類或2類。

  第1類:上海、北京、天津、浙江、廣東、福建;第2類:河北、湖北、安徽、湖南、江蘇、山東、四川、河南;第3類:青海、寧夏、甘肅、新疆、廣西、峽西、貴州、重慶、內蒙古、吉林、黑龍江、遼寧、山西、江西、云南、海南、西藏。

  其中第2類和第3類可以并為1類,這時總類別數2。但是由于分成兩類區分性不強。常更傾向于分成3類。

  代碼:

 1 DATASET DECLARE D0.6606863886229252.
 2 PROXIMITIES   GDP Population City_Consume Rural_Consume Pindex_revise
 3   /MATRIX OUT(D0.6606863886229252)
 4   /VIEW=CASE
 5   /MEASURE=SEUCLID
 6   /PRINT NONE
 7   /ID=province
 8   /STANDARDIZE=VARIABLE Z.
 9 
10 CLUSTER
11   /MATRIX IN(D0.6606863886229252)
12   /METHOD WARD
13   /ID=province
14   /PRINT SCHEDULE
15   /PLOT DENDROGRAM
16   /SAVE CLUSTER(3,8).

01

  進一步分析,【分析】→【比較平均值】→【平均值】。在【平均值】對話框中,把GDP等5個變量選入【因變量列表】,把Ward Method[CLU5_3]選入【層】中。

報告

平均值

Ward Method

人均GDP

人口數

城鎮居民家庭平均每人全年消費性支出

農村居民家庭平均每人生活消費支出

各地區居民消費價格指數-100

1

27686.4786

1343.0000

8415.3467

3452.0620

1.4333

2

7751.2991

7468.0625

4927.4875

1704.3075

.7250

3

6286.3535

3143.6154

4694.0031

1447.7899

.3692

4

13582.3095

5437.6667

7355.7100

2895.1985

-.7333

5

5787.7307

1388.0000

4661.4250

1299.2102

3.0500

總計

9377.1057

4080.8226

5367.7681

1828.8500

.8032

  代碼:

1 MEANS TABLES=GDP Population City_Consume Rural_Consume Pindex_revise BY CLU5_3
2   /CELLS=MEAN.

02

  【分析】→【比較平均值】→【單因素ANOVA檢驗】,在打開的對話框中,把GDP等5個變量選入【因變量列表】,把Ward Method[CLU5_3]選入【層】中。

ANOVA

平方和

自由度

均方

F

顯著性

人均GDP

組間

1255616794.261

4

313904198.565

28.659

.000

組內

284777747.752

26

10952990.298

總計

1540394542.013

30

人口數

組間

160221068.312

4

40055267.078

21.060

.000

組內

49451014.962

26

1901962.114

總計

209672083.274

30

城鎮居民家庭平均每人全年消費性支出

組間

49166873.689

4

12291718.422

23.651

.000

組內

13512763.997

26

519721.692

總計

62679637.686

30

農村居民家庭平均每人生活消費支出

組間

14449596.776

4

3612399.194

16.422

.000

組內

5719138.558

26

219966.868

總計

20168735.335

30

各地區居民消費價格指數-100

組間

30.964

4

7.741

7.360

.000

組內

27.346

26

1.052

總計

58.310

30

  代碼:

1 ONEWAY GDP Population City_Consume Rural_Consume Pindex_revise BY CLU5_3
2   /MISSING ANALYSIS.

03

  從上述兩個表看出,各個類別之間的5個變量都是有顯著性差異的,且這些差異均具有統計意義。

  所以最終的特征類別描述:

  第1類:高生活水平城市,北京、上海、天津。

  第2類:人口眾多,生活水平一般。北、湖北、安徽、湖南、江蘇、山東、四川、河南;

  第3類:生活水平一般,人口較少。廣西、峽西、貴州、重慶、內蒙古、吉林、黑龍江、遼寧、山西、江西、云南、海南、西藏;

  第4類:消費水平相對人均GDP較高,平均物價水平較低,消費價格指數都小于100。浙江、廣東、福建;

  第5類:人口稀少,生活水平低,平均物價水平高。青海、寧夏、甘肅、新疆。

  K-均值聚類法(又叫快速聚類)分析示例——移動電話客戶使用手機情況,數據詳見mobile.sav文件。SPSS操作,先對數據進行描述性統計,【分析】→【描述統計】→【描述】,

L-在【描述】對話框中,把前6個變量選入【變量】中。點擊【選項】,勾選【平均值】、【標準差】、【最大值】、【最小值】→【繼續】,單擊【確定】。(標準化數據:【分析】→【描述統計】→【描述】,在【描述】對話框中,把前6個變量選入【變量】中。勾選【將標準化值另存為變量】)。【分析】→【分類】→【K-均值聚類分析】,在打開的對話框中,把標準化的6個變量選入【變量】中,把客戶編號選入【個案標注依據】,【聚類數】填5;點擊【迭代】,【最大迭代次數】填寫100→【繼續】。點擊【保存】,勾選【聚類成員】→【繼續】。點擊【選項】→【統計】,勾選【ANOVA表】→【繼續】。單擊【確定】。

描述統計

N

最小值

最大值

均值

標準 偏差

工作日上班時期電話時長

3395

5.77

2846.40

708.3469

515.25799

工作日下班時期電話時長

3395

3.20

1058.40

301.8049

195.33152

周末電話時長

3395

.66

205.00

54.1649

35.26109

國際電話時長

3395

.01

1014.82

172.3492

146.68342

總通話時長

3395

54.81

3423.30

1064.3168

560.80133

平均每次通話時長

3395

.63

53.58

4.1267

3.80400

有效個案數(成列)

3395

  代碼:

1 DESCRIPTIVES VARIABLES=Peak_mins OffPeak_mins Weekend_mins International_mins Total_mins
2     average_mins
3   /STATISTICS=MEAN STDDEV MIN MAX.

04

  從表中可見,盡管數據的量綱是一樣的,但是數據的取值卻仍然有很大差別,平均數據從最小的4.1267到最大的1046.3168等。為了消除這種差異,需要事先對數據標準化。

  代碼:

1 DESCRIPTIVES VARIABLES=Peak_mins OffPeak_mins Weekend_mins International_mins Total_mins
2     average_mins
3   /SAVE
4   /STATISTICS=MEAN STDDEV MIN MAX.

05

初始聚類中心

聚類

1

2

3

4

5

Zscore: 工作日上班時期電話時長

3.21791

-1.16165

2.64849

.19729

1.93001

Zscore: 工作日下班時期電話時長

-.65276

-1.26557

-1.03058

3.87339

-.17204

Zscore: 周末電話時長

3.72181

3.11491

-.02169

-.90652

-1.21281

Zscore: 國際電話時長

4.90995

-1.16636

.29390

2.77257

.53252

Zscore: 總通話時長

2.96323

-1.31226

2.07308

1.47340

1.63709

Zscore: 平均每次通話時長

-.51651

.30760

5.49282

-.22792

12.99993

  它列出每一類別初始定義的中心點,實際上就是數據集中的某一條記錄,其選擇的原則是使得各初始類中心的散點在所有變量構成的空間中離的盡可能遠,而且能盡量廣地分布在空間中。

迭代歷史記錄a

迭代

聚類中心中的變動

1

2

3

4

5

1

3.894

3.450

3.201

3.605

3.458

2

.829

.207

.725

.312

1.943

3

.374

.127

.457

.262

.964

4

.208

.100

.330

.206

.504

5

.156

.060

.219

.141

.421

6

.116

.047

.168

.116

.337

7

.104

.041

.164

.105

.134

8

.110

.035

.140

.111

.188

9

.077

.028

.105

.101

.081

10

.069

.022

.117

.082

.057

11

.054

.020

.148

.079

.000

12

.028

.030

.198

.054

.063

13

.063

.055

.309

.044

.119

14

.105

.077

.363

.058

.263

15

.126

.074

.276

.068

.193

16

.118

.029

.140

.048

.152

17

.072

.016

.108

.049

.172

18

.046

.008

.080

.053

.087

19

.037

.011

.076

.050

.083

20

.034

.010

.055

.036

.113

21

.020

.009

.051

.036

.113

22

.017

.008

.028

.016

.115

23

.026

.006

.026

.014

.000

24

.010

.004

.032

.023

.000

25

.010

.004

.020

.015

.000

26

.009

.004

.013

.009

.053

27

.006

.002

.006

.007

.000

28

.000

.004

.004

.009

.000

29

.000

.003

.006

.006

.000

30

.000

.000

.010

.010

.000

31

.005

.002

.011

.009

.000

32

.008

.001

.007

.005

.000

33

.004

.000

.002

.001

.000

34

.007

.000

.004

.000

.000

35

.000

.000

.000

.000

.000

a. 由于聚類中心中不存在變動或者僅有小幅變動,因此實現了收斂。任何中心的最大絕對坐標變動為 .000。當前迭代為 35。初始中心之間的最小距離為 7.609。

  從上表可以看出,每一次迭代過程中類別中心的變化。類別中心點變化越來越小,知道趨近與0。整個迭代過程在第35步終止,因為此時已經滿足了上面提到的迭代終止的第2個標準,所以可以認為各類別中心已經收斂了。

最終聚類中心

聚類

1

2

3

4

5

Zscore: 工作日上班時期電話時長

1.60559

-.78990

.61342

-.33584

.37303

Zscore: 工作日下班時期電話時長

.46081

-.58917

-.49365

1.18873

-.29014

Zscore: 周末電話時長

-.14005

-.15010

.35845

-.02375

-.40407

Zscore: 國際電話時長

1.68250

-.64550

.04673

.02351

-.04415

Zscore: 總通話時長

1.62690

-.94040

.41420

.10398

.21627

Zscore: 平均每次通話時長

-.06590

-.14835

-.05337

-.14059

4.87718

  Means生成的另一個比較重要的結果是最終的類別中心點,也就是各個類別在各個變量上的平均值。

ANOVA

聚類

誤差

F

顯著性

均方

自由度

均方

自由度

Zscore: 工作日上班時期電話時長

582.315

4

.314

3390

1854.022

.000

Zscore: 工作日下班時期電話時長

468.001

4

.449

3390

1042.395

.000

Zscore: 周末電話時長

39.060

4

.955

3390

40.896

.000

Zscore: 國際電話時長

443.179

4

.478

3390

926.658

.000

Zscore: 總通話時長

605.770

4

.286

3390

2115.071

.000

Zscore: 平均每次通話時長

463.823

4

.454

3390

1021.872

.000

由于已選擇聚類以使不同聚類中個案之間的差異最大化,因此 F 檢驗只應該用于描述目的。實測顯著性水平并未因此進行修正,所以無法解釋為針對“聚類平均值相等”這一假設的檢驗。

  得出結論,各個變量對聚類結果的重要程度排序為:總通話時長>工作日上班電話時長>工作日下班時期電話時長>平均每次通話時長>國際電話時長>周末電話時長。

每個聚類中的個案數目

聚類

1

443.000

2

1239.000

3

831.000

4

806.000

5

76.000

有效

3395.000

缺失

.000

  可見人數最多的是第2類,而最少的是第5類,第1類人群也較少,各類人數的高低有時可以為最終類別特性的確定起都輔助作用。

  最終類別特征描述:

  第1類:高端商用客戶,總通話時間長,工作日上班通話比例高用戶,443人。

  第2類:少使用低端客戶,總通話時間短,各個時段通話時間都短,1239人。

  第3類:中端商用客戶,總通話時間居中,工作日上班通話比例高用戶,831人。

  第4類:中端日常用客戶,總通話時間居中,工作日下班通話比例高用戶,806人。

  第5類:長聊客戶,每次通話時間長客戶,76人。

1 QUICK CLUSTER ZPeak_mins ZOffPeak_mins ZWeekend_mins ZInternational_mins ZTotal_mins Zaverage_mins
2   /MISSING=LISTWISE
3   /CRITERIA=CLUSTER(5) MXITER(100) CONVERGE(0)
4   /METHOD=KMEANS(NOUPDATE)
5   /SAVE CLUSTER
6   /PRINT ID(Customer_ID) INITIAL ANOVA.

07

  兩步聚類法實例分析——例子是患有某種疾病的患者的病例數據,詳細見drug.sav數據文件。SPSS操作,【分析】→【分類】→【二階聚類】,把Sex,BP,Cholesterol選入【分類變量】中,把Age,Na,K選入【連續變量】中。點擊【輸出】,勾選【透視表】和【創建聚類成員變量】→【繼續】。單擊【確定】。

運行示例,

自動聚類

聚類數目

施瓦茲貝葉斯準則 (BIC)

BIC 變化量a

BIC 變化比率b

距離測量比率c

1

3579.426

2

2941.099

-638.327

1.000

1.835

3

2621.569

-319.530

.501

1.202

4

2366.305

-255.264

.400

1.715

5

2243.387

-122.918

.193

1.016

6

2123.381

-120.006

.188

1.046

7

2011.454

-111.926

.175

1.265

8

1935.996

-75.458

.118

1.139

9

1877.369

-58.627

.092

1.062

10

1825.830

-51.539

.081

1.100

11

1784.648

-41.181

.065

1.293

12

1766.882

-17.767

.028

2.591

13

1798.181

31.299

-.049

1.099

14

1832.250

34.070

-.053

1.037

15

1867.309

35.059

-.055

1.035

a. 變化量基于表中的先前聚類數目。

b. 變化比率相對于雙聚類解的變化。

c. 距離測量比率基于當前聚類數目而不是先前聚類數目。

  (1)確認最佳聚類類別數時最重要的指標是BIC值,即Bayes信息準則,其數值越小代表效果越好,而其右側的BIC Change列則反映相鄰兩種結果的BIC之差,可見BIC值以12類時最小,但在8類后,BIC下降不太明顯。綜合觀察,可以認為4~8類都是可供考慮的選擇范圍。

  (2)除BIC值外,兩步聚類法還會利用相鄰的兩步的最小間距離比來進一步確認最佳的類別數。最小間距離比共有3個高峰,分別對應了2類、4類和12類的情形。以12類時為例,其數值為2.655,意思是和聚為13類時的最小類間距相比,12類時的最小間距離是它的2.655倍。由于第2步是采用的是層次聚類法,這些結果是嵌套的關系,因此,這就意味著在原來12類的基礎上再拆分出的兩個新類相比之下其實差別很小,空拍意義不大。顯然,該指標越大,表示當前結果越好。結合前面的BIC大小,可以認定對于本利而言,4類或者12類時統計上認為最佳的類別數。

聚類分布

個案數

占組合的百分比

占總計的百分比

聚類

1

134

26.8%

26.8%

2

136

27.2%

27.2%

3

98

19.6%

19.6%

4

132

26.4%

26.4%

組合

500

100.0%

100.0%

總計

500

100.0%

  確定聚為4類后,可以看出每個類別包含記錄數目大體相差不大。

質心

年齡

鈉含量

鉀含量

平均值

標準 偏差

平均值

標準 偏差

平均值

標準 偏差

聚類

1

42.72

17.102

.7319

.11601

.0483

.01801

2

45.57

17.505

.6919

.11797

.0507

.01639

3

44.54

18.345

.7244

.11215

.0500

.01756

4

44.08

16.186

.6872

.11396

.0501

.01740

組合

44.21

17.210

.7078

.11661

.0498

.01730

  可見對于鈉含量而言,第3類的均數最高,而第4類中鈉含量的均數最低。

  代碼

 1 TWOSTEP CLUSTER
 2   /CATEGORICAL VARIABLES=血壓 膽固醇 性別
 3   /CONTINUOUS VARIABLES=年齡 鈉含量 鉀含量
 4   /DISTANCE LIKELIHOOD
 5   /NUMCLUSTERS AUTO 15 BIC
 6   /HANDLENOISE 0
 7   /MEMALLOCATE 64
 8   /CRITERIA INITHRESHOLD(0) MXBRANCH(8) MXLEVEL(3)
 9   /VIEWMODEL DISPLAY=YES
10   /PRINT IC COUNT SUMMARY
11   /SAVE VARIABLE=TSC_5167.

08

  數據作圖,【圖性】→【舊對話框】→【誤差條形圖】→【簡單】→【個案組摘要】,在打開的對話框中,把“鈉含量”選入【變量】,把“二階聚類編號”選入【類別軸】→【確定】。

1 GRAPH
2   /ERRORBAR(CI 95)=鈉含量 BY TSC_5167

09

  做圖分析,SPSS操作,【圖形】→【舊對話框】→【直方圖】,把“二階聚類編號”選入【變量】,把“性別”選入【列】→【確定】。

1 GRAPH
2   /HISTOGRAM=TSC_5167
3   /PANEL COLVAR=性別 COLOP=CROSS.

10

  由上所畫的統計圖可見鈉含量的變化情況和表格基本一致,而離散變量性別而言,第3類和第4類男性和女性基本是等比例的,而第1類中只有男性,第2類中只有女性。

  最終類別描述:

  第1類:女性、膽固醇濃度高。134人,占比26.8%,血液鈉含量高于平均水平。

  第2類:男性、膽固醇濃度高。136人,占比27.2%,血液鈉含量低于平均水平。

  第3類:高血壓、膽固醇濃度正常。此類病人數量為98人,占病人總數19.6%,全部為高血壓、膽固醇濃度正常,血壓無明顯特征,血液鈉含量高于平均水平。

  第4類:非高血壓、膽固醇濃度正常。132人,占比26.4%,血液鈉含量低于平均水平。

  (3)Fisher判別分析示例——鳶尾花資料,數據詳見iris.sav文件。SPSS操作,【分析】

→【分類】→【判別式】,在打開的對話框中,把spno選入【分組變量】,并【定義范圍】→【最大值】3→【最小值】1。把除編號外剩下的變量選入【自變量】中→【確定】。

運行示例,

特征值

函數

特征值

方差百分比

累積百分比

典型相關性

1

30.419a

99.0

99.0

.984

2

.293a

1.0

100.0

.476

a. 在分析中使用了前 2 個典則判別函數。

  提取了兩個判別函數且絕大部分信息在第1個判別函數上。

威爾克 Lambda

函數檢驗

威爾克 Lambda

卡方

自由度

顯著性

1 直至 2

.025

538.950

8

.000

2

.774

37.351

3

.000

  兩個判別函數各個變量的標準化系數,可用來判斷兩個函數分別主要受哪些變量的影響較大。

標準化典則判別函數系數

函數

1

2

花萼長

-.346

.039

花萼寬

-.525

.742

花瓣長

.846

-.386

花瓣寬

.613

.555

標準化典則判別函數系數

函數

1

2

花萼長

-.346

.039

花萼寬

-.525

.742

花瓣長

.846

-.386

花瓣寬

.613

.555

  變量名前加z表明是標準化后的數值。

結構矩陣

函數

1

2

花瓣長

.726*

.165

花萼寬

-.121

.879*

花瓣寬

.651

.718*

花萼長

.221

.340*

判別變量與標準化典則判別函數之間的匯聚組內相關性

變量按函數內相關性的絕對大小排序。

*. 每個變量與任何判別函數之間的最大絕對相關性

  給出各組的判別函數的重心。在得知各類的重心后,只需要為每個待判個案求出判別得分,然后計算出該個案的散點離哪一個中心最近,就可以得到該個案的判別結果了。

組質心處的函數

分類

函數

1

2

剛毛鳶尾花

-7.392

.219

變色鳶尾花

1.763

-.737

佛吉尼亞鳶尾花

5.629

.518

按組平均值進行求值的未標準化典則判別函數

  代碼:

1 DATASET ACTIVATE 數據集39.
2 DATASET CLOSE 數據集38.
3 DISCRIMINANT
4   /GROUPS=spno(1 3)
5   /VARIABLES=slen swid plen pwid
6   /ANALYSIS ALL
7   /PRIORS EQUAL
8   /CLASSIFY=NONMISSING POOLED.

11

  如果希望得到直接使用原始變量的判別函數,則可以在【判別分析】的對話框中,點擊【統計】,勾選【未標準化】,點擊【繼續】,【確定】。

  運行示例,

典則判別函數系數

函數

1

2

花萼長

-.063

.007

花萼寬

-.155

.218

花瓣長

.196

-.089

花瓣寬

.299

.271

(常量)

-2.526

-6.987

未標準化系數

1 DISCRIMINANT
2   /GROUPS=spno(1 3)
3   /VARIABLES=slen swid plen pwid
4   /ANALYSIS ALL
5   /PRIORS EQUAL
6   /STATISTICS=RAW
7   /CLASSIFY=NONMISSING POOLED.

12

  判別結果圖形化展示,在【判別分析】的對話框中,點擊【分類】,勾選【合并圖】和【鄰域圖】,點擊【繼續】,【確定】。

  運行示例,

領域圖

典則判別

函數 2

-16.0 -12.0 -8.0 -4.0 .0 4.0 8.0 12.0 16.0

+---------+---------+---------+---------+---------+---------+---------+---------+

16.0 + 13 +

I 13 I

I 13 I

I 123 I

I 123 I

I 12 23 I

12.0 + + + + 12 23 + + + +

I 12 23 I

I 12 23 I

I 12 23 I

I 12 23 I

I 12 23 I

8.0 + + + + 12 + 23 + + + +

I 12 23 I

I 12 23 I

I 12 23 I

I 12 23 I

I 12 23 I

4.0 + + + + 12 + 23 + + + +

I 12 23 I

I 12 23 I

I 12 23 I

I 12 23 I

I 12 23 * I

.0 + + + * + 12 + 23 + + +

I 12 * 23 I

I 12 23 I

I 12 23 I

I 12 23 I

I 12 23 I

-4.0 + + + + 12 + + 23 + + +

I 12 23 I

I 12 23 I

I 12 23 I

I 12 23 I

I 12 23 I

-8.0 + + + +12 + + 23 + + +

I 12 23 I

I 12 23 I

I 12 23 I

I 12 23 I

I 12 23 I

-12.0 + + + 12 + + 23 + +

I 12 23 I

I 12 23 I

I 12 23 I

I 12 23 I

I 12 23 I

-16.0 + 12 23 +

+---------+---------+---------+---------+---------+---------+---------+---------+

-16.0 -12.0 -8.0 -4.0 .0 4.0 8.0 12.0 16.0

典則判別函數 1

領域圖中使用的符號

符號 分組 標簽

------ ------ ----------------------

1 1 剛毛鳶尾花

2 2 變色鳶尾花

3 3 佛吉尼亞鳶尾

* 指示組質心

  當新案例被計算出來散點坐標后,即可被繪制在該圖形中,該坐標點落在那個范圍,就應當屬于哪個類別。演示領域圖的用法,

  從上圖可見,該案例顯然應當判為第1類,即毛鳶尾花,與實際相一致。如果需同時對一批未知樣本給出類別判斷,則可以使用save子對話框中的存儲功能。

  從這幅圖同樣可以看到第1判別軸上3中不同類型的植物區分得很清楚,而在第2判別軸上重合地非常厲害。

1 DISCRIMINANT
2   /GROUPS=spno(1 3)
3   /VARIABLES=slen swid plen pwid
4   /ANALYSIS ALL
5   /PRIORS EQUAL
6   /STATISTICS=RAW
7   /PLOT=COMBINED MAP
8   /CLASSIFY=NONMISSING POOLED.

13

  判別效果檢驗,在【判別分析】的對話框中,點擊【分類】,勾選【摘要表】,【繼續】,【確定】。

  運行示例,

分類結果a

分類

預測組成員信息

總計

剛毛鳶尾花

變色鳶尾花

佛吉尼亞鳶尾花

原始

計數

剛毛鳶尾花

50

0

0

50

變色鳶尾花

0

48

2

50

佛吉尼亞鳶尾花

0

1

49

50

%

剛毛鳶尾花

100.0

.0

.0

100.0

變色鳶尾花

.0

96.0

4.0

100.0

佛吉尼亞鳶尾花

.0

2.0

98.0

100.0

a. 正確地對 98.0% 個原始已分組個案進行了分類。

  上表可見,剛毛花全部正確預測,而另兩種花則存在錯判。(判斷率超過41.67%就可)。顯然,用本例建立的判別函數進行新樣品判別,效果將是令人非常滿意。

1 DISCRIMINANT
2   /GROUPS=spno(1 3)
3   /VARIABLES=slen swid plen pwid
4   /ANALYSIS ALL
5   /PRIORS EQUAL
6   /STATISTICS=RAW TABLE
7   /PLOT=COMBINED MAP
8   /CLASSIFY=NONMISSING POOLED.

14

  適用條件的判斷方法,在【判別分析】的對話框中,點擊【統計】,勾選【平均值】、【單變量ANOVA】、【博克斯】,【繼續】,【確定】。

運行示例

組平均值的同等檢驗

威爾克 Lambda

F

自由度 1

自由度 2

顯著性

花萼長

.397

111.847

2

147

.000

花萼寬

.598

49.371

2

147

.000

花瓣長

.059

1179.052

2

147

.000

花瓣寬

.071

960.007

2

147

.000

  由表中的最后的Sig值可見,很明顯各組間存在差異,因此這些變量的判別可能是有作用的。

對數決定因子

分類

對數決定因子

剛毛鳶尾花

4

5.353

變色鳶尾花

4

7.594

佛吉尼亞鳶尾花

4

10.495

匯聚組內

4

8.920

打印的決定因子的秩和自然對數是組協方差矩陣的相應信息。

  協方差齊性的博克斯檢驗,從右側的輸出可見組間協方差這一原假設被拒絕,竟然連Fisher給出的判別分析實例都違反這一適用條件,從這一點看出協方差齊性等要求往往是被忽視的。

1 DISCRIMINANT
2   /GROUPS=spno(1 3)
3   /VARIABLES=slen swid plen pwid
4   /ANALYSIS ALL
5   /PRIORS EQUAL
6   /STATISTICS=MEAN STDDEV UNIVF BOXM RAW TABLE
7   /PLOT=COMBINED MAP
8   /CLASSIFY=NONMISSING POOLED.

15

  貝葉斯判別分析,同樣的實例。SPSS操作,在【判別分析】的對話框中,點擊【統計】勾選【費希爾】,【繼續】;點擊【分類】,勾選【根據組大小計算】,【繼續】,【確定】。

  運行示例,

分類函數系數

分類

剛毛鳶尾花

變色鳶尾花

佛吉尼亞鳶尾花

花萼長

1.687

1.101

.865

花萼寬

2.695

1.070

.747

花瓣長

-.880

1.001

1.647

花瓣寬

-2.284

.197

1.695

(常量)

-80.268

-71.196

-103.890

費希爾線性判別函數

  SPSS認為貝葉斯判別的基本思想,即按判別函數值最大的一組進行歸類的思想是Fisher提出來的,因此稱該方法為Fisher線性判別函數。

  剛毛鳶尾花:

  變色鳶尾花:

  弗吉尼亞鳶尾花:

  下面利用判別式直接計算新觀測屬于各類的評分,得分最高的一類就是該觀測相應的類別。如由于剛毛花判別函數的得分最高,因此和前面一樣,判別結果將其歸為剛毛花一類,代碼:

1 DISCRIMINANT
2   /GROUPS=spno(1 3)
3   /VARIABLES=slen swid plen pwid
4   /ANALYSIS ALL
5   /PRIORS SIZE
6   /STATISTICS=MEAN STDDEV UNIVF BOXM COEFF TABLE
7   /PLOT=COMBINED MAP
8   /CLASSIFY=NONMISSING POOLED.

16

小結

  聚類方法的選擇:

聚類方法

對記錄聚類

對變量聚類

數據量<100

100-1000

>1000

連續變量

指定類別數量

層次聚類

√√

√樹狀圖×

非層次聚類

√樹狀圖×

K-均值聚類法

√樹狀圖×

√(可包含離散變量)

  判別分析的使用條件,

  (1)自變量和因變量的關系符合線性假定。

  (2)因變量的取值是獨立的,且必須是事先就已經確定的。

  (3)自變量服從多元正態分布。

  (4)所有自變量在各組件方差齊性,協方差矩陣也相等。

  (5)所有自變量不存在多重共線性。

  違背條件的處理方法,

  (1)當樣本的多元正態分布假設不能滿足的時候采取的措施和方法:

如果數據的超平面是若干分段結構的時候,采用分段判別分析。
如果數據滿足方差齊性和協方差齊性可以采用距離判別分析、經典判別分析、貝葉斯判別分析。(建議使用經典判別分析)
如果數據不滿足方差齊性和協方差齊性,則采用經典判別分析、非參數判別分析、距離判別分析。
進行變量變換。

(2)方差齊性和協方差齊性不滿足,

增加樣本。
采用經典判別分析、非參數判別分析、距離判別分析。

(3)存在多重共線,

增加樣本。
采用逐步判別分析。
采用嶺判別分析。
對成分進行主成分分析,用因子代替變量進行判別。
通過相關矩陣知識刪去共線性的自變量。

(4)當線性假設被違反,

離散型判別分析或混合型判別分析。
K最近鄰判別分析或核密度判別分析。
采用二次判別分析。

總結

以上是生活随笔為你收集整理的SPSS聚类与判别的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。