日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

聚类分析与SPSS实现——《社会统计分析方法》

發布時間:2024/8/1 编程问答 44 豆豆
生活随笔 收集整理的這篇文章主要介紹了 聚类分析与SPSS实现——《社会统计分析方法》 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

目錄

一、定義

二、常用的聚類分析方法

三、主要步驟

四、相似性測度

五、聚類方法及SPSS操作??????????????

(一)層次聚類法(hierarchical cluster procedures)

(二)迭代聚類法(K-均值聚類)

???????(三)二階聚類法(Two Step)

六、聚類方法的選擇

七、聚類結果的解釋和證實

八、注意事項???????


一、定義

????????根據研究對象的特征對研究對象進行分類,使得同一類個體之間有高度的同質性,不同類的個體之間有較高的異質性。

????????聚類分析是一種探索性的分析,在分類的過程中,人們不必事先給出一個分類的標準,聚類分析能夠從樣本數據出發,自動進行分類。聚類分析所使用方法的不同,常常會得到不同的結論。不同研究者對于同一組數據進行聚類分析,所得到的聚類數未必一致。

????????從實際應用的角度看,聚類分析是數據挖掘的主要任務之一。而且聚類能夠作為一個獨立的工具獲得數據的分布狀況,觀察每一簇數據的特征,集中對特定的聚簇集合作進一步地分析。聚類分析還可以作為其他算法(如分類和定性歸納算法)的預處理步驟。

聚類分析在SPSS26中的位置:“分析”——“分類”,再選擇相應的聚類方法即可。

二、常用的聚類分析方法

聚類方法

聚類對象

變量類型

分類數

樣本容量

系統聚類

個案或變量

連續或分類

固定分類或指定范圍

<200

K-均值聚類

個案

連續

固定分類數

大樣本

二階聚類

個案或變量

連續或分類

系統自動確定

大樣本

三、主要步驟

  • 根據研究目的選擇合適的聚類變量
  • 計算相似性測度
  • 選定聚類方法進行聚類
  • 對結果進行解釋和驗證
  • 四、相似性測度

    為了克服變量測度單位的影響,在計算相似測度之間,一般要對變量標準化處理。

    1.相關測度應用最廣泛的是皮爾遜相關系數(Person correlation),更大程度上反映了案例在聚類變量上變化模式的相似性,變量值大小差異對其影響不大,也被稱為形狀測度。

    2.距離測度:在m維空間中定義點和點的距離,距離越近的點,相似程度越高,聚類時更可能歸為一類。明可夫斯基距離是通用的距離測度公式 。

    3.關聯測度:度量聚類變量為分類變量的研究對象的相似性。

    (1)簡單匹配系數:只用于二分變量,兩個案例在所有的聚類變量上答案相同的情況。舉個例子,我們用1代表“是”,0代表“否”,如果兩個案例都回答1的次數為a,都回答0的次數為b,回答不同的次數為c+d(兩個案例分別回答1和0),則簡單匹配系數為:

    ???????

    (2)Jaccard系數:只用于二分變量,簡單匹配系數類似,但只保存都回答“是”的部分:

    ????????

    (3)Gower系數:允許聚類變量可以是名義變量、序次變量和間距測度變量

    ???????其中,為案例i和j在變量k上的相似性得分,為加權變量

    ???????對于間距測度或以上的變量:?

    ???????其中,是變量k的全距,即變量k的最大值與最小值的差

    五、聚類方法及SPSS操作??????????????

    (一)層次聚類法(hierarchical cluster procedures)

    SPSS窗口:

    此處選擇四個指數為聚類分析的變量,“省市區”作為個案標準依據。因為我們想對地區進行聚類,所以在“聚類”選項選擇“個案”。如果在其他案例中,是對表征同一對象不同特征的變量進行聚類,則選擇“變量” 。

    ? ? 基本思想:通過某種相似性測度計算節點之間的相似性,并按相似度由高到低排序,逐步重新連接個節點。

    ? ? 方法:

  • 最短聚類法:把兩個類之間的距離定義為一個類中的所有案例與另一類中的所有案例之間的距離最小者
  • 最長聚類法:把類與類之間的距離定義為兩類中離得最遠的兩個案例之間的距離???????
  • 平均聯結法——使用最廣泛
  • 組內聯結:在計算距離時把兩組所有個案之間的距離都考慮在內
  • 組間聯結:只考慮兩類之間個案之間的距離的平均,是SPSS中的默認設置
  • 矩心法:把兩類之間的距離定義為兩類矩心之間的距離,每一類的矩心是該類中所有案例在各個變量上的均值代表的點
  • 瓦爾德法(離差平方和法):基本思想是同一類內案例的離差平方和應該比較小,不同類之間案例的離差平方和應該較大
  • 聚類結果的表示:??

  • 聚類進度表:第一列表示聚類的順序,第二、三列表示每一步將哪兩列合并,新合并的類的序號取兩類中最小的;第四列表示被合并的兩類之間的距離,也稱為聚合系數(fusion coefficient),第五、六列表示被合并的兩類上一次合并是在哪一步形成的。

  • 冰柱圖
  • ???????縱向冰柱圖:水平方向表示案例,豎直方向表示類數

    ???????比如,最高的冰柱只到1,表示水平1一下所有案例為一類;而在水平2以下,此唯一的冰柱把案例分成兩類。在水平3上則有兩個冰柱,以它們為界把案例分為3類。具體來看第一步,案例1和案例13聚為1類,對應的分類數是29;第二步,??案例27和28聚為一?類,對應的分類數是28;每一步減少一類,直到所有案例歸為一類。??????????????

    (二)迭代聚類法(K-均值聚類)

    ?SPSS窗口:?

    在“迭代”窗口中,我們可以設置迭代的終止條件,即到達設定的最大值后將停止迭代分析,輸出聚類分析結果;

    ???????收斂性標準設置的是凝聚點改變的最大距離小于初始凝聚點的比例,小于設定值時,也會停止迭代,輸出結果;

    使用運行均值表示每次觀測后都重新計算凝聚點,這些設置保持默認即可。

    在“選項”窗口中,可以選擇輸出“初始聚類中心”“ANOVA表”(方差分析表)、“每個個案的聚類信息”。

    注意:由于類別選擇就是為了使得類別中心之間的差別最大化,因此ANOVA表中的F值和顯著性水平不能作為各聚類平均值是否相等的常規假設檢驗概率來理解。???????

    ???????基本思想:先隨機選取K個對象作為初始的聚類中心。然后計算每個對象與各個種子聚類中心之間的距離,把每個對象分配給距離它最近的聚類中心。聚類中心以及分配給它們的對象就代表一個聚類。一旦全部對象都被分配了,每個聚類的聚類中心會根據聚類中現有的對象被重新計算。這個過程將不斷重復直到滿足某個終止條件。

    步驟:

  • 指定要形成的聚類數,對樣本進行初始分類并計算每一類的中心
  • 調整分類。計算每個樣本到各類中心店的距離,把每個樣本點歸入距中心最近的那一類
  • 重新計算每一類的中心
  • 重復上述兩步,直到沒有樣本點可以調整為止
  • (三)二階聚類法(Two Step)

    SPSS窗口

    ? ??基本思想:以個案或變量間的距離為依據形成相應的聚類特征樹結點來構造聚類特征樹,再通過信息準則確定最優分組個數對各個節點進行分組。

    ? ? 優點:

  • 能同時處理分類變量和連續變量
  • 可自動選擇最優的分類個數
  • 適用于大樣本數據
  • ????分類數的確定準則:

  • 任何類都必須是在各鄰近類中最突出的,即各中心之間距離必須大
  • 各類包含的元素不要過多
  • 分類數目應該符合使用的目的
  • 若采用幾種不同的聚類方法處理,則在各自的聚類圖上應發現相同的類???????
  • 六、聚類方法的選擇

    ? ? ?選擇依據:

  • 類的結構(主要指類的形狀、規模和個數)
  • 異常值的存在,層次聚類法受影響比較大
  • 類與類之間重疊的程度
  • 相似程度的選擇
  • 注意:

  • 層次聚類法受異常值的影響比較大
  • 迭代聚類法對初始分類非常敏感,而且只能得到局部最優解
  • 迭代聚類法只能對個案間的聚類,只能對連續變量進行聚類
  • 七、聚類結果的解釋和證實

    ? ? ? ?在“統計(S)?”窗口可以選擇輸出聚類計劃表(A),距離矩陣(P)以及聚類成員,即每個案例屬于那一類,“單個解”輸出制定類數的聚類結果,“解的范圍”輸出制定類數范圍的聚類結果,如指定2-4,則輸出聚2、3、4類的聚類結果。

    不同的聚類方法的結果是不穩定的。通常的做法是把樣本分成兩組,分別做聚類分析,對結果進行比較,或者對同一數據采用不同的方法反復聚類。

    八、注意事項???????

    1. 選擇的聚類指標能代表研究對象

    聚類分析的基礎依據是比較研究主題的特征/性質的差異性,而特征/性質則以數量化的指標來表達。因此,做好聚類分析的關鍵前提,是要選對能很好地代表、衡量研究主題特征的指標。

    比如,希望依照學校的科研情況對高校進行分類,那就可以選擇參加科研人數、科研經費、立項課題數等變量指標作為聚類指標,而不應該選擇如在校人數、校園面積、年用水量等和研究主題無關的指標。

    2. 對數據進行標準化處理

    由于聚類分析主要是基于個案或變量之間的距離或者相似性,要保證可比性,就要求數據無量綱差異(如數量級、單位上的差異),能夠在同一標準下進行比較。因此,在聚類分析前,需要對數據進行處理,將原始數據轉化為無量綱的數據。常用的轉化方法有:

    (1)轉化為同標準的標準分:標準化處理是最常用的方法之一

    (2)用變量值除以全距(最大值減去最小值)

    (3)變量值減去最小值再除以全距

    (4)變量值除以最大值

    3. 聚類指標之間不應有較強的線性相關關系

    聚類分析是以各種距離來度量個案間或變量間的親疏程度。如果所選的聚類變量指標之間存在較高的線性關系,能夠相互替代,那么計算距離時同類變量將會重復起作用,將在距離中有較高的權重,從而導致聚類結果偏向該變量。

    此部分來源:https://zhuanlan.zhihu.com/p/397631854???????

    本文章數據來源:郭志剛《社會統計分析方法——SPSS軟件應用》配套數據

    總結

    以上是生活随笔為你收集整理的聚类分析与SPSS实现——《社会统计分析方法》的全部內容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。

    主站蜘蛛池模板: 日本xxxx在线观看 | 国产精品日日摸夜夜爽 | 九色福利视频 | av毛片观看 | 国产精品亚洲第一 | 人人爽人人爽人人爽人人爽 | 国产精品婷婷午夜在线观看 | 四色成人网 | 色无极亚洲影院 | 狠狠爱综合 | 国产熟女高潮一区二区三区 | 伊人成人在线观看 | 国产热99 | 爱情岛论坛亚洲品质自拍视频 | 999久久久国产 | 麻豆高清免费国产一区 | 欧美黄色精品 | 国产精品天干天干 | 午夜欧美精品 | 久久久亚洲欧美 | 强行挺进皇后紧窄湿润小说 | 青青草国内自拍 | 午夜在线播放视频 | 91免费高清在线观看 | 免费黄色的网站 | 佐佐木明希av在线 | 大尺度在线观看 | 久久精品欧美日韩 | 久久久久久久久久久久久av | 国产高清免费在线观看 | 人妻少妇被猛烈进入中文字幕 | 亚洲第一综合网站 | 双性人做受视频 | 人人爱av| 国产精品欧美久久久久天天影视 | 午夜成年人 | 一区二区视频免费看 | 日本r级电影在线观看 | 国产综合在线观看视频 | 一级福利视频 | 一级片啪啪 | 天海翼一区二区三区 | 国产在线不卡一区 | 狂野少女电影在线观看国语版免费 | 另类小说婷婷 | 国产精品自拍视频一区 | 秘密基地在线观看完整版免费 | 天堂网www在线 | 美女少妇直播 | 天天色亚洲 | 美女无遮挡免费网站 | 九热这里只有精品 | 国产一区二区三区欧美 | 奇米影视999 | 亚洲av无码国产精品色午夜 | 香蕉成视频人app下载安装 | 肉色丝袜脚交一区二区 | 精品视频一区二区 | 午夜精品一区二区在线观看 | 用力插视频| 青娱乐av在线 | 国产精品网友自拍 | 韩国一区二区三区在线观看 | 国产乱色精品成人免费视频 | 自拍天堂 | 国产免费一区二区三区在线播放 | 国产美女精品视频 | 亚洲午夜18毛片在线看 | 日本久久片 | 国产最新地址 | 国精产品一品二品国精品69xx | 国产一区黄 | 91官网视频 | 亚洲欧美日本国产 | 福利网站在线观看 | 97人妻精品一区二区三区动漫 | 国产尤物视频 | 黄色图片小说 | 欲色网站| 国产精品久久久久久久久久直播 | 色屋在线 | 亚洲av无码一区二区三区网站 | a级片免费观看 | 成人黄色在线网站 | 久久国产精 | 日韩av综合 | 亚洲综合激情在线 | 少妇免费直播 | 国产精品一二三区视频 | 久草av在线播放 | 99国产精品视频免费观看一公开 | 扒开jk护士狂揉免费 | 婷婷婷色 | 国产swag在线观看 | 操你妹影院 | 拔插拔插影库 | 国产乱码精品一区二三赶尸艳谈 | 熟女一区二区三区四区 | 欧美日韩在线一区二区 |