SPSS的算法介绍与实现
文章目錄
- 1.聚類分析
- 1.1 K-均值聚類
- 1.2 系統聚類
- 2.主成分分析
- 3.時間序列
本文介紹一些常用的算法和如何使用SPSS實現
1.聚類分析
1.概述
聚類分析(cluster analysis)也稱群分析、點群分析,是一種無監督學習,與回歸分析、多元分析稱為多元分析的三大方法。是一個把數據對象劃分成子集的過程。每個子集是一個簇(cluster),使得簇中的對象彼此相似,但是與其他簇中的對象不相似。由聚類分析產生的一個簇的集合叫做一個聚類。
2.基本思想:
我們所研究的樣品或指標(變量)之間存在程度不同的相似性(親疏關系——以樣品間距離衡量)。于是根據一批樣品的多個觀測指標,具體找出一些能夠度量樣品或指標之間相似程度的統計量,以這些統計量為劃分類型的依據。把一些相似程度較大的樣品(或指標)聚合為一類,把另外一些彼此之間相似程度較大的樣品(或指標)又聚合為另一類,直到把所有的樣品(或指標)聚合完畢,滿足“類內差異小,類間差異大”,這就是分類的基本思想。也就是“物以類聚”的思想。
3.聚類分析的步驟
步驟1:選擇聚類分析變量;
這些變量應具備以下特點:
1)和聚類分析的目標相關;
2)反映了要分類對象的特征;
3)在不同對象的值具有明顯差異;
4)變量之間不應該高度相關
對于變量高度相關的處理辦法(兩種):
1)在對案例聚類分析之前,先對變量進行聚類分析,在各類中選擇具有代表性的變量作為聚類變量;
2)對變量做因素分析,產生一組不相關變量作為聚類變量。
步驟2:計算相似性
相似性(Similarity)是聚類分析的一個基本概念,反映了研究對象之間的親疏程度。聚類分析就是根據研究對象之間的相似性來進行分類的。
步驟3:聚類
選定聚類方法,確定形成的類數。
步驟4:聚類結果的解釋
得到聚類結果后,對結果進行驗證和解釋,以保證聚類解是可信的。
聚類分析的特征:
分組:聚類分析的過程就是把一個數據對象分成若干個組(或者簇)的過程。
相似:組內的對象具有很高的相似性,而對于另外一些組,則要求盡可能的不相似。
評估:聚類完成后,還需要一些評價函數對聚類結果進行度量,通常涉及距離度量。
具體幾種距離算法可見:聚類分析理論介紹
1.1 K-均值聚類
案例
結果:
1.2 系統聚類
2.主成分分析
3.時間序列
先定義數據
點擊確定
結果:
4.神經網絡
5.多元線性回歸
6.logistic回歸
后面再補充…
總結
以上是生活随笔為你收集整理的SPSS的算法介绍与实现的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 8.Excel数据与指标概述
- 下一篇: 9.Excel数据透视表