當前位置：首頁 > 编程资源 > 综合教程 >内容正文

综合教程

SPSS聚类与判别

發布時間：2023/12/25 综合教程 31 生活家

生活随笔收集整理的這篇文章主要介紹了 SPSS聚类与判别小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

實驗目的

　　學會使用SPSS簡單操作，掌握聚類與判別。

實驗要求

　　使用SPSS。

實驗內容

實驗步驟

　　（1）層次聚類法分析實例——為了反映中國各地區生活水平差異性，本報告對2002年中國部分省市的國民經濟數據進行聚類分析，依次了解我國各省市的生活差異水平，詳見“lx17.sav文件”。SPSS操作，點擊【分析】→【分類】→【系統聚類】，在打開的【系統聚類分析】對話框中，把GDP、Pindex_Revise等5個變量選入【變量】中，把省份選入【個案標注依據】，點擊【圖】，勾選【譜系圖】，“冰柱圖塊”勾選【無】→【繼續】。點擊【方法】，下拉列表，選擇【瓦爾德法】，“轉換值塊”勾選【Z得分】→【繼續】。點擊【保存】→【解的范圍】，3~8→【繼續】。單擊【確定】。

　　運行分析，

集中計劃
階段	組合聚類		系數	首次出現聚類的階段		下一個階段
階段	聚類 1	聚類 2	系數	聚類 1	聚類 2	下一個階段
1	3	17	.111	0	0	2
2	3	12	.246	1	0	15
3	5	7	.407	0	0	4
4	5	8	.624	3	0	13
5	20	27	.857	0	0	11
6	29	30	1.121	0	0	20
7	28	31	1.390	0	0	20
8	4	14	1.666	0	0	10
9	15	23	2.102	0	0	14
10	4	25	2.751	8	0	21
11	20	24	3.419	5	0	12
12	20	22	4.167	11	0	19
13	5	6	5.010	4	0	19
14	15	16	6.127	9	0	23
15	3	18	7.428	2	0	18
16	21	26	8.813	0	0	21
17	11	19	10.248	0	0	22
18	3	10	12.010	15	0	23
19	5	20	13.835	13	12	25
20	28	29	16.130	7	6	27
21	4	21	18.530	10	16	25
22	11	13	21.298	17	0	28
23	3	15	24.620	18	14	29
24	1	2	28.412	0	0	26
25	4	5	32.928	21	19	27
26	1	9	41.666	24	0	28
27	4	28	54.441	25	20	29
28	1	11	68.972	26	22	30
29	3	4	87.757	23	27	30
30	1	3	150.000	28	29	0

　　需要判別數據應該分成多少類別時，聚類系數那一列有著很好的參考價值。

　　（1）方案一：分成6類或者5類。

　　第1類：上海；第二類：北京、天津；第3類：河北、湖北、安徽、湖南、江蘇、山東、四川、河南；第4類：廣西、峽西、貴州、重慶、內蒙古、吉林、黑龍江、遼寧、山西、江西、云南、海南、西藏；第5類：浙江、廣東、福建；第6類：青海、寧夏、甘肅、新疆。

　　事實上，由于在分成6類時，第1個類別只有上海一個城市，所以在這種聚類方法中更傾向于將31個省市分成5類，即將第1類和第2類合并為1類。

　　（2）方案二：分成3類或2類。

　　第1類：上海、北京、天津、浙江、廣東、福建；第2類：河北、湖北、安徽、湖南、江蘇、山東、四川、河南；第3類：青海、寧夏、甘肅、新疆、廣西、峽西、貴州、重慶、內蒙古、吉林、黑龍江、遼寧、山西、江西、云南、海南、西藏。

　　其中第2類和第3類可以并為1類，這時總類別數2。但是由于分成兩類區分性不強。常更傾向于分成3類。

　　代碼：

 1 DATASET DECLARE D0.6606863886229252.
 2 PROXIMITIES   GDP Population City_Consume Rural_Consume Pindex_revise
 3   /MATRIX OUT(D0.6606863886229252)
 4   /VIEW=CASE
 5   /MEASURE=SEUCLID
 6   /PRINT NONE
 7   /ID=province
 8   /STANDARDIZE=VARIABLE Z.
 9 
10 CLUSTER
11   /MATRIX IN(D0.6606863886229252)
12   /METHOD WARD
13   /ID=province
14   /PRINT SCHEDULE
15   /PLOT DENDROGRAM
16   /SAVE CLUSTER(3,8).

　　進一步分析，【分析】→【比較平均值】→【平均值】。在【平均值】對話框中，把GDP等5個變量選入【因變量列表】，把Ward Method[CLU5_3]選入【層】中。

報告
平均值
Ward Method	人均GDP	人口數	城鎮居民家庭平均每人全年消費性支出	農村居民家庭平均每人生活消費支出	各地區居民消費價格指數-100
1	27686.4786	1343.0000	8415.3467	3452.0620	1.4333
2	7751.2991	7468.0625	4927.4875	1704.3075	.7250
3	6286.3535	3143.6154	4694.0031	1447.7899	.3692
4	13582.3095	5437.6667	7355.7100	2895.1985	-.7333
5	5787.7307	1388.0000	4661.4250	1299.2102	3.0500
總計	9377.1057	4080.8226	5367.7681	1828.8500	.8032

　　代碼：

1 MEANS TABLES=GDP Population City_Consume Rural_Consume Pindex_revise BY CLU5_3
2   /CELLS=MEAN.

　　【分析】→【比較平均值】→【單因素ANOVA檢驗】，在打開的對話框中，把GDP等5個變量選入【因變量列表】，把Ward Method[CLU5_3]選入【層】中。

ANOVA
		平方和	自由度	均方	F	顯著性
人均GDP	組間	1255616794.261	4	313904198.565	28.659	.000
	組內	284777747.752	26	10952990.298
	總計	1540394542.013	30
人口數	組間	160221068.312	4	40055267.078	21.060	.000
	組內	49451014.962	26	1901962.114
	總計	209672083.274	30
城鎮居民家庭平均每人全年消費性支出	組間	49166873.689	4	12291718.422	23.651	.000
	組內	13512763.997	26	519721.692
	總計	62679637.686	30
農村居民家庭平均每人生活消費支出	組間	14449596.776	4	3612399.194	16.422	.000
	組內	5719138.558	26	219966.868
	總計	20168735.335	30
各地區居民消費價格指數-100	組間	30.964	4	7.741	7.360	.000
	組內	27.346	26	1.052
	總計	58.310	30

　　代碼：

1 ONEWAY GDP Population City_Consume Rural_Consume Pindex_revise BY CLU5_3
2   /MISSING ANALYSIS.

　　從上述兩個表看出，各個類別之間的5個變量都是有顯著性差異的，且這些差異均具有統計意義。

　　所以最終的特征類別描述：

　　第1類：高生活水平城市，北京、上海、天津。

　　第2類：人口眾多，生活水平一般。北、湖北、安徽、湖南、江蘇、山東、四川、河南；

　　第3類：生活水平一般，人口較少。廣西、峽西、貴州、重慶、內蒙古、吉林、黑龍江、遼寧、山西、江西、云南、海南、西藏；

　　第4類：消費水平相對人均GDP較高，平均物價水平較低，消費價格指數都小于100。浙江、廣東、福建；

　　第5類：人口稀少，生活水平低，平均物價水平高。青海、寧夏、甘肅、新疆。

　　K-均值聚類法（又叫快速聚類）分析示例——移動電話客戶使用手機情況，數據詳見mobile.sav文件。SPSS操作，先對數據進行描述性統計，【分析】→【描述統計】→【描述】，

L-在【描述】對話框中，把前6個變量選入【變量】中。點擊【選項】，勾選【平均值】、【標準差】、【最大值】、【最小值】→【繼續】，單擊【確定】。（標準化數據：【分析】→【描述統計】→【描述】，在【描述】對話框中，把前6個變量選入【變量】中。勾選【將標準化值另存為變量】）。【分析】→【分類】→【K-均值聚類分析】，在打開的對話框中，把標準化的6個變量選入【變量】中，把客戶編號選入【個案標注依據】，【聚類數】填5；點擊【迭代】，【最大迭代次數】填寫100→【繼續】。點擊【保存】，勾選【聚類成員】→【繼續】。點擊【選項】→【統計】，勾選【ANOVA表】→【繼續】。單擊【確定】。

描述統計
	N	最小值	最大值	均值	標準偏差
工作日上班時期電話時長	3395	5.77	2846.40	708.3469	515.25799
工作日下班時期電話時長	3395	3.20	1058.40	301.8049	195.33152
周末電話時長	3395	.66	205.00	54.1649	35.26109
國際電話時長	3395	.01	1014.82	172.3492	146.68342
總通話時長	3395	54.81	3423.30	1064.3168	560.80133
平均每次通話時長	3395	.63	53.58	4.1267	3.80400
有效個案數（成列）	3395

　　代碼：

1 DESCRIPTIVES VARIABLES=Peak_mins OffPeak_mins Weekend_mins International_mins Total_mins
2     average_mins
3   /STATISTICS=MEAN STDDEV MIN MAX.

　　從表中可見，盡管數據的量綱是一樣的，但是數據的取值卻仍然有很大差別，平均數據從最小的4.1267到最大的1046.3168等。為了消除這種差異，需要事先對數據標準化。

　　代碼：

1 DESCRIPTIVES VARIABLES=Peak_mins OffPeak_mins Weekend_mins International_mins Total_mins
2     average_mins
3   /SAVE
4   /STATISTICS=MEAN STDDEV MIN MAX.

初始聚類中心
	聚類
	1	2	3	4	5
Zscore: 工作日上班時期電話時長	3.21791	-1.16165	2.64849	.19729	1.93001
Zscore: 工作日下班時期電話時長	-.65276	-1.26557	-1.03058	3.87339	-.17204
Zscore: 周末電話時長	3.72181	3.11491	-.02169	-.90652	-1.21281
Zscore: 國際電話時長	4.90995	-1.16636	.29390	2.77257	.53252
Zscore: 總通話時長	2.96323	-1.31226	2.07308	1.47340	1.63709
Zscore: 平均每次通話時長	-.51651	.30760	5.49282	-.22792	12.99993

　　它列出每一類別初始定義的中心點，實際上就是數據集中的某一條記錄，其選擇的原則是使得各初始類中心的散點在所有變量構成的空間中離的盡可能遠，而且能盡量廣地分布在空間中。

迭代歷史記錄^a
迭代	聚類中心中的變動
迭代	1	2	3	4	5
1	3.894	3.450	3.201	3.605	3.458
2	.829	.207	.725	.312	1.943
3	.374	.127	.457	.262	.964
4	.208	.100	.330	.206	.504
5	.156	.060	.219	.141	.421
6	.116	.047	.168	.116	.337
7	.104	.041	.164	.105	.134
8	.110	.035	.140	.111	.188
9	.077	.028	.105	.101	.081
10	.069	.022	.117	.082	.057
11	.054	.020	.148	.079	.000
12	.028	.030	.198	.054	.063
13	.063	.055	.309	.044	.119
14	.105	.077	.363	.058	.263
15	.126	.074	.276	.068	.193
16	.118	.029	.140	.048	.152
17	.072	.016	.108	.049	.172
18	.046	.008	.080	.053	.087
19	.037	.011	.076	.050	.083
20	.034	.010	.055	.036	.113
21	.020	.009	.051	.036	.113
22	.017	.008	.028	.016	.115
23	.026	.006	.026	.014	.000
24	.010	.004	.032	.023	.000
25	.010	.004	.020	.015	.000
26	.009	.004	.013	.009	.053
27	.006	.002	.006	.007	.000
28	.000	.004	.004	.009	.000
29	.000	.003	.006	.006	.000
30	.000	.000	.010	.010	.000
31	.005	.002	.011	.009	.000
32	.008	.001	.007	.005	.000
33	.004	.000	.002	.001	.000
34	.007	.000	.004	.000	.000
35	.000	.000	.000	.000	.000
a. 由于聚類中心中不存在變動或者僅有小幅變動，因此實現了收斂。任何中心的最大絕對坐標變動為 .000。當前迭代為 35。初始中心之間的最小距離為 7.609。

　　從上表可以看出，每一次迭代過程中類別中心的變化。類別中心點變化越來越小，知道趨近與0。整個迭代過程在第35步終止，因為此時已經滿足了上面提到的迭代終止的第2個標準，所以可以認為各類別中心已經收斂了。

最終聚類中心
	聚類
	1	2	3	4	5
Zscore: 工作日上班時期電話時長	1.60559	-.78990	.61342	-.33584	.37303
Zscore: 工作日下班時期電話時長	.46081	-.58917	-.49365	1.18873	-.29014
Zscore: 周末電話時長	-.14005	-.15010	.35845	-.02375	-.40407
Zscore: 國際電話時長	1.68250	-.64550	.04673	.02351	-.04415
Zscore: 總通話時長	1.62690	-.94040	.41420	.10398	.21627
Zscore: 平均每次通話時長	-.06590	-.14835	-.05337	-.14059	4.87718

　　Means生成的另一個比較重要的結果是最終的類別中心點，也就是各個類別在各個變量上的平均值。

ANOVA
	聚類		誤差		F	顯著性
	均方	自由度	均方	自由度	F	顯著性
Zscore: 工作日上班時期電話時長	582.315	4	.314	3390	1854.022	.000
Zscore: 工作日下班時期電話時長	468.001	4	.449	3390	1042.395	.000
Zscore: 周末電話時長	39.060	4	.955	3390	40.896	.000
Zscore: 國際電話時長	443.179	4	.478	3390	926.658	.000
Zscore: 總通話時長	605.770	4	.286	3390	2115.071	.000
Zscore: 平均每次通話時長	463.823	4	.454	3390	1021.872	.000
由于已選擇聚類以使不同聚類中個案之間的差異最大化，因此 F 檢驗只應該用于描述目的。實測顯著性水平并未因此進行修正，所以無法解釋為針對“聚類平均值相等”這一假設的檢驗。

　　得出結論，各個變量對聚類結果的重要程度排序為：總通話時長>工作日上班電話時長>工作日下班時期電話時長>平均每次通話時長>國際電話時長>周末電話時長。

每個聚類中的個案數目
聚類	1	443.000
	2	1239.000
	3	831.000
	4	806.000
	5	76.000
有效		3395.000
缺失		.000

　　可見人數最多的是第2類，而最少的是第5類，第1類人群也較少，各類人數的高低有時可以為最終類別特性的確定起都輔助作用。

　　最終類別特征描述：

　　第1類：高端商用客戶，總通話時間長，工作日上班通話比例高用戶，443人。

　　第2類：少使用低端客戶，總通話時間短，各個時段通話時間都短，1239人。

　　第3類：中端商用客戶，總通話時間居中，工作日上班通話比例高用戶，831人。

　　第4類：中端日常用客戶，總通話時間居中，工作日下班通話比例高用戶，806人。

　　第5類：長聊客戶，每次通話時間長客戶，76人。

1 QUICK CLUSTER ZPeak_mins ZOffPeak_mins ZWeekend_mins ZInternational_mins ZTotal_mins Zaverage_mins
2   /MISSING=LISTWISE
3   /CRITERIA=CLUSTER(5) MXITER(100) CONVERGE(0)
4   /METHOD=KMEANS(NOUPDATE)
5   /SAVE CLUSTER
6   /PRINT ID(Customer_ID) INITIAL ANOVA.

　　兩步聚類法實例分析——例子是患有某種疾病的患者的病例數據，詳細見drug.sav數據文件。SPSS操作，【分析】→【分類】→【二階聚類】，把Sex,BP,Cholesterol選入【分類變量】中，把Age,Na,K選入【連續變量】中。點擊【輸出】，勾選【透視表】和【創建聚類成員變量】→【繼續】。單擊【確定】。

運行示例，

自動聚類
聚類數目	施瓦茲貝葉斯準則 (BIC)	BIC 變化量^a	BIC 變化比率^b	距離測量比率^c
1	3579.426
2	2941.099	-638.327	1.000	1.835
3	2621.569	-319.530	.501	1.202
4	2366.305	-255.264	.400	1.715
5	2243.387	-122.918	.193	1.016
6	2123.381	-120.006	.188	1.046
7	2011.454	-111.926	.175	1.265
8	1935.996	-75.458	.118	1.139
9	1877.369	-58.627	.092	1.062
10	1825.830	-51.539	.081	1.100
11	1784.648	-41.181	.065	1.293
12	1766.882	-17.767	.028	2.591
13	1798.181	31.299	-.049	1.099
14	1832.250	34.070	-.053	1.037
15	1867.309	35.059	-.055	1.035
a. 變化量基于表中的先前聚類數目。
b. 變化比率相對于雙聚類解的變化。
c. 距離測量比率基于當前聚類數目而不是先前聚類數目。

　　（1）確認最佳聚類類別數時最重要的指標是BIC值，即Bayes信息準則，其數值越小代表效果越好，而其右側的BIC Change列則反映相鄰兩種結果的BIC之差，可見BIC值以12類時最小，但在8類后，BIC下降不太明顯。綜合觀察，可以認為4~8類都是可供考慮的選擇范圍。

　　（2）除BIC值外，兩步聚類法還會利用相鄰的兩步的最小間距離比來進一步確認最佳的類別數。最小間距離比共有3個高峰，分別對應了2類、4類和12類的情形。以12類時為例，其數值為2.655，意思是和聚為13類時的最小類間距相比，12類時的最小間距離是它的2.655倍。由于第2步是采用的是層次聚類法，這些結果是嵌套的關系，因此，這就意味著在原來12類的基礎上再拆分出的兩個新類相比之下其實差別很小，空拍意義不大。顯然，該指標越大，表示當前結果越好。結合前面的BIC大小，可以認定對于本利而言，4類或者12類時統計上認為最佳的類別數。

聚類分布
		個案數	占組合的百分比	占總計的百分比
聚類	1	134	26.8%	26.8%
	2	136	27.2%	27.2%
	3	98	19.6%	19.6%
	4	132	26.4%	26.4%
	組合	500	100.0%	100.0%
總計		500		100.0%

　　確定聚為4類后，可以看出每個類別包含記錄數目大體相差不大。

質心
		年齡		鈉含量		鉀含量
		平均值	標準偏差	平均值	標準偏差	平均值	標準偏差
聚類	1	42.72	17.102	.7319	.11601	.0483	.01801
	2	45.57	17.505	.6919	.11797	.0507	.01639
	3	44.54	18.345	.7244	.11215	.0500	.01756
	4	44.08	16.186	.6872	.11396	.0501	.01740
	組合	44.21	17.210	.7078	.11661	.0498	.01730

　　可見對于鈉含量而言，第3類的均數最高，而第4類中鈉含量的均數最低。

　　代碼

 1 TWOSTEP CLUSTER
 2   /CATEGORICAL VARIABLES=血壓 膽固醇 性別
 3   /CONTINUOUS VARIABLES=年齡 鈉含量 鉀含量
 4   /DISTANCE LIKELIHOOD
 5   /NUMCLUSTERS AUTO 15 BIC
 6   /HANDLENOISE 0
 7   /MEMALLOCATE 64
 8   /CRITERIA INITHRESHOLD(0) MXBRANCH(8) MXLEVEL(3)
 9   /VIEWMODEL DISPLAY=YES
10   /PRINT IC COUNT SUMMARY
11   /SAVE VARIABLE=TSC_5167.

　　數據作圖，【圖性】→【舊對話框】→【誤差條形圖】→【簡單】→【個案組摘要】，在打開的對話框中，把“鈉含量”選入【變量】，把“二階聚類編號”選入【類別軸】→【確定】。

1 GRAPH
2   /ERRORBAR(CI 95)=鈉含量 BY TSC_5167

　　做圖分析，SPSS操作，【圖形】→【舊對話框】→【直方圖】，把“二階聚類編號”選入【變量】，把“性別”選入【列】→【確定】。

1 GRAPH
2   /HISTOGRAM=TSC_5167
3   /PANEL COLVAR=性別 COLOP=CROSS.

　　由上所畫的統計圖可見鈉含量的變化情況和表格基本一致，而離散變量性別而言，第3類和第4類男性和女性基本是等比例的，而第1類中只有男性，第2類中只有女性。

　　最終類別描述：

　　第1類：女性、膽固醇濃度高。134人，占比26.8%，血液鈉含量高于平均水平。

　　第2類：男性、膽固醇濃度高。136人，占比27.2%，血液鈉含量低于平均水平。

　　第3類：高血壓、膽固醇濃度正常。此類病人數量為98人，占病人總數19.6%，全部為高血壓、膽固醇濃度正常，血壓無明顯特征，血液鈉含量高于平均水平。

　　第4類：非高血壓、膽固醇濃度正常。132人，占比26.4%，血液鈉含量低于平均水平。

　　（3）Fisher判別分析示例——鳶尾花資料，數據詳見iris.sav文件。SPSS操作，【分析】

→【分類】→【判別式】，在打開的對話框中，把spno選入【分組變量】，并【定義范圍】→【最大值】3→【最小值】1。把除編號外剩下的變量選入【自變量】中→【確定】。

運行示例，

特征值
函數	特征值	方差百分比	累積百分比	典型相關性
1	30.419^a	99.0	99.0	.984
2	.293^a	1.0	100.0	.476
a. 在分析中使用了前 2 個典則判別函數。

　　提取了兩個判別函數且絕大部分信息在第1個判別函數上。

威爾克 Lambda
函數檢驗	威爾克 Lambda	卡方	自由度	顯著性
1 直至 2	.025	538.950	8	.000
2	.774	37.351	3	.000

　　兩個判別函數各個變量的標準化系數，可用來判斷兩個函數分別主要受哪些變量的影響較大。

標準化典則判別函數系數
	函數
	1	2
花萼長	-.346	.039
花萼寬	-.525	.742
花瓣長	.846	-.386
花瓣寬	.613	.555

標準化典則判別函數系數
	函數
	1	2
花萼長	-.346	.039
花萼寬	-.525	.742
花瓣長	.846	-.386
花瓣寬	.613	.555

　　變量名前加z表明是標準化后的數值。

結構矩陣
	函數
	1	2
花瓣長	.726^*	.165
花萼寬	-.121	.879^*
花瓣寬	.651	.718^*
花萼長	.221	.340^*
判別變量與標準化典則判別函數之間的匯聚組內相關性變量按函數內相關性的絕對大小排序。
*. 每個變量與任何判別函數之間的最大絕對相關性

　　給出各組的判別函數的重心。在得知各類的重心后，只需要為每個待判個案求出判別得分，然后計算出該個案的散點離哪一個中心最近，就可以得到該個案的判別結果了。

組質心處的函數
分類	函數
分類	1	2
剛毛鳶尾花	-7.392	.219
變色鳶尾花	1.763	-.737
佛吉尼亞鳶尾花	5.629	.518
按組平均值進行求值的未標準化典則判別函數

　　代碼：

1 DATASET ACTIVATE 數據集39.
2 DATASET CLOSE 數據集38.
3 DISCRIMINANT
4   /GROUPS=spno(1 3)
5   /VARIABLES=slen swid plen pwid
6   /ANALYSIS ALL
7   /PRIORS EQUAL
8   /CLASSIFY=NONMISSING POOLED.

　　如果希望得到直接使用原始變量的判別函數，則可以在【判別分析】的對話框中，點擊【統計】，勾選【未標準化】，點擊【繼續】，【確定】。

　　運行示例，

典則判別函數系數
	函數
	1	2
花萼長	-.063	.007
花萼寬	-.155	.218
花瓣長	.196	-.089
花瓣寬	.299	.271
(常量)	-2.526	-6.987
未標準化系數

1 DISCRIMINANT
2   /GROUPS=spno(1 3)
3   /VARIABLES=slen swid plen pwid
4   /ANALYSIS ALL
5   /PRIORS EQUAL
6   /STATISTICS=RAW
7   /CLASSIFY=NONMISSING POOLED.

　　判別結果圖形化展示，在【判別分析】的對話框中，點擊【分類】，勾選【合并圖】和【鄰域圖】，點擊【繼續】，【確定】。

　　運行示例，

領域圖

典則判別

函數 2

-16.0 -12.0 -8.0 -4.0 .0 4.0 8.0 12.0 16.0

+---------+---------+---------+---------+---------+---------+---------+---------+

16.0 + 13 +

I 13 I

I 123 I

I 12 23 I

12.0 + + + + 12 23 + + + +

I 12 23 I

8.0 + + + + 12 + 23 + + + +

I 12 23 I

4.0 + + + + 12 + 23 + + + +

I 12 23 I

I 12 23 * I

.0 + + + * + 12 + 23 + + +

I 12 * 23 I

I 12 23 I

-4.0 + + + + 12 + + 23 + + +

I 12 23 I

-8.0 + + + +12 + + 23 + + +

I 12 23 I

-12.0 + + + 12 + + 23 + +

I 12 23 I

-16.0 + 12 23 +

+---------+---------+---------+---------+---------+---------+---------+---------+

-16.0 -12.0 -8.0 -4.0 .0 4.0 8.0 12.0 16.0

典則判別函數 1

領域圖中使用的符號

符號分組標簽

------ ------ ----------------------

1 1 剛毛鳶尾花

2 2 變色鳶尾花

3 3 佛吉尼亞鳶尾

* 指示組質心

　　當新案例被計算出來散點坐標后，即可被繪制在該圖形中，該坐標點落在那個范圍，就應當屬于哪個類別。演示領域圖的用法，

　　從上圖可見，該案例顯然應當判為第1類，即毛鳶尾花，與實際相一致。如果需同時對一批未知樣本給出類別判斷，則可以使用save子對話框中的存儲功能。

　　從這幅圖同樣可以看到第1判別軸上3中不同類型的植物區分得很清楚，而在第2判別軸上重合地非常厲害。

1 DISCRIMINANT
2   /GROUPS=spno(1 3)
3   /VARIABLES=slen swid plen pwid
4   /ANALYSIS ALL
5   /PRIORS EQUAL
6   /STATISTICS=RAW
7   /PLOT=COMBINED MAP
8   /CLASSIFY=NONMISSING POOLED.

　　判別效果檢驗，在【判別分析】的對話框中，點擊【分類】，勾選【摘要表】，【繼續】，【確定】。

　　運行示例，

分類結果^a
			分類		預測組成員信息						總計
					剛毛鳶尾花		變色鳶尾花		佛吉尼亞鳶尾花
原始	計數	剛毛鳶尾花		50		0		0		50
		變色鳶尾花		0		48		2		50
		佛吉尼亞鳶尾花		0		1		49		50
	%	剛毛鳶尾花		100.0		.0		.0		100.0
		變色鳶尾花		.0		96.0		4.0		100.0
		佛吉尼亞鳶尾花		.0		2.0		98.0		100.0
a. 正確地對 98.0% 個原始已分組個案進行了分類。

　　上表可見，剛毛花全部正確預測，而另兩種花則存在錯判。（判斷率超過41.67%就可）。顯然，用本例建立的判別函數進行新樣品判別，效果將是令人非常滿意。

1 DISCRIMINANT
2   /GROUPS=spno(1 3)
3   /VARIABLES=slen swid plen pwid
4   /ANALYSIS ALL
5   /PRIORS EQUAL
6   /STATISTICS=RAW TABLE
7   /PLOT=COMBINED MAP
8   /CLASSIFY=NONMISSING POOLED.

　　適用條件的判斷方法，在【判別分析】的對話框中，點擊【統計】，勾選【平均值】、【單變量ANOVA】、【博克斯】，【繼續】，【確定】。

運行示例

組平均值的同等檢驗
	威爾克 Lambda	F	自由度 1	自由度 2	顯著性
花萼長	.397	111.847	2	147	.000
花萼寬	.598	49.371	2	147	.000
花瓣長	.059	1179.052	2	147	.000
花瓣寬	.071	960.007	2	147	.000

　　由表中的最后的Sig值可見，很明顯各組間存在差異，因此這些變量的判別可能是有作用的。

對數決定因子
分類	秩	對數決定因子
剛毛鳶尾花	4	5.353
變色鳶尾花	4	7.594
佛吉尼亞鳶尾花	4	10.495
匯聚組內	4	8.920
打印的決定因子的秩和自然對數是組協方差矩陣的相應信息。

　　協方差齊性的博克斯檢驗，從右側的輸出可見組間協方差這一原假設被拒絕，竟然連Fisher給出的判別分析實例都違反這一適用條件，從這一點看出協方差齊性等要求往往是被忽視的。

1 DISCRIMINANT
2   /GROUPS=spno(1 3)
3   /VARIABLES=slen swid plen pwid
4   /ANALYSIS ALL
5   /PRIORS EQUAL
6   /STATISTICS=MEAN STDDEV UNIVF BOXM RAW TABLE
7   /PLOT=COMBINED MAP
8   /CLASSIFY=NONMISSING POOLED.

　　貝葉斯判別分析，同樣的實例。SPSS操作，在【判別分析】的對話框中，點擊【統計】勾選【費希爾】，【繼續】；點擊【分類】，勾選【根據組大小計算】，【繼續】，【確定】。

　　運行示例，

分類函數系數
	分類
	剛毛鳶尾花	變色鳶尾花	佛吉尼亞鳶尾花
花萼長	1.687	1.101	.865
花萼寬	2.695	1.070	.747
花瓣長	-.880	1.001	1.647
花瓣寬	-2.284	.197	1.695
(常量)	-80.268	-71.196	-103.890
費希爾線性判別函數

　　SPSS認為貝葉斯判別的基本思想，即按判別函數值最大的一組進行歸類的思想是Fisher提出來的，因此稱該方法為Fisher線性判別函數。

　　剛毛鳶尾花：

　　變色鳶尾花：

　　弗吉尼亞鳶尾花：

　　下面利用判別式直接計算新觀測屬于各類的評分，得分最高的一類就是該觀測相應的類別。如由于剛毛花判別函數的得分最高，因此和前面一樣，判別結果將其歸為剛毛花一類，代碼：

1 DISCRIMINANT
2   /GROUPS=spno(1 3)
3   /VARIABLES=slen swid plen pwid
4   /ANALYSIS ALL
5   /PRIORS SIZE
6   /STATISTICS=MEAN STDDEV UNIVF BOXM COEFF TABLE
7   /PLOT=COMBINED MAP
8   /CLASSIFY=NONMISSING POOLED.

小結

　　聚類方法的選擇：

聚類方法	對記錄聚類	對變量聚類	數據量<100	100-1000	>1000	連續變量	指定類別數量
層次聚類	√	√	√√	√樹狀圖×		√	√
非層次聚類	√		√	√樹狀圖×		√
K-均值聚類法	√		√	√樹狀圖×	√	√（可包含離散變量）	√

　　判別分析的使用條件，

　　（1）自變量和因變量的關系符合線性假定。

　　（2）因變量的取值是獨立的，且必須是事先就已經確定的。

　　（3）自變量服從多元正態分布。

　　（4）所有自變量在各組件方差齊性，協方差矩陣也相等。

　　（5）所有自變量不存在多重共線性。

　　違背條件的處理方法，

　　（1）當樣本的多元正態分布假設不能滿足的時候采取的措施和方法：

如果數據的超平面是若干分段結構的時候，采用分段判別分析。
如果數據滿足方差齊性和協方差齊性可以采用距離判別分析、經典判別分析、貝葉斯判別分析。（建議使用經典判別分析）
如果數據不滿足方差齊性和協方差齊性，則采用經典判別分析、非參數判別分析、距離判別分析。
進行變量變換。

（2）方差齊性和協方差齊性不滿足，

增加樣本。
采用經典判別分析、非參數判別分析、距離判別分析。

（3）存在多重共線，

增加樣本。
采用逐步判別分析。
采用嶺判別分析。
對成分進行主成分分析，用因子代替變量進行判別。
通過相關矩陣知識刪去共線性的自變量。

（4）當線性假設被違反，

離散型判別分析或混合型判別分析。
K最近鄰判別分析或核密度判別分析。
采用二次判別分析。

總結

以上是生活随笔為你收集整理的SPSS聚类与判别的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

SPSS

上一篇：热血传奇里的战士pk技巧是什么(《热血传
下一篇：硬盘存储结构及分区简介