Python机器学习——Agglomerative层次聚类
層次聚類(hierarchical clustering)可在不同層次上對數據集進行劃分,形成樹狀的聚類結構。AggregativeClustering是一種常用的層次聚類算法。?
??其原理是:最初將每個對象看成一個簇,然后將這些簇根據某種規則被一步步合并,就這樣不斷合并直到達到預設的簇類個數。這里的關鍵在于:如何計算聚類簇之間的距離??
??由于每個簇就是一個集合,因此需要給出集合之間的距離。給定聚類簇Ci,CjCi,Cj,有如下三種距離:
?
Python實戰
??AgglomerativeClustering是scikit-learn提供的層級聚類算法模型,其原型為:
class sklearn.cluster.AgglomerativeClustering(n_clusters=2, affinity=’euclidean’, memory=None, connectivity=None, compute_full_tree=’auto’, linkage=’ward’, pooling_func=<function mean>)
參數
n_clusters:一個整數,指定分類簇的數量
connectivity:一個數組或者可調用對象或者None,用于指定連接矩陣
affinity:一個字符串或者可調用對象,用于計算距離。可以為:’euclidean’,’l1’,’l2’,’mantattan’,’cosine’,’precomputed’,如果linkage=’ward’,則affinity必須為’euclidean’
memory:用于緩存輸出的結果,默認為不緩存
n_components:在 v-0.18中移除
compute_full_tree:通常當訓練了n_clusters后,訓練過程就會停止,但是如果compute_full_tree=True,則會繼續訓練從而生成一顆完整的樹
linkage:一個字符串,用于指定鏈接算法?
‘ward’:單鏈接single-linkage,采用dmindmin
‘complete’:全鏈接complete-linkage算法,采用dmaxdmax
‘average’:均連接average-linkage算法,采用davgdavg
pooling_func:一個可調用對象,它的輸入是一組特征的值,輸出是一個數
?
屬性
labels:每個樣本的簇標記
n_leaves_:分層樹的葉節點數量
n_components:連接圖中連通分量的估計值
children:一個數組,給出了每個非節點數量
方法
fit(X[,y]):訓練樣本
fit_predict(X[,y]):訓練模型并預測每個樣本的簇標記
?
?
?
?
可以看到當n_clusters=4時,ARI指數最大,因為確實是從四個中心點產生的四個簇。
?可以看到,三種鏈接方式隨分類簇的數量的總體趨勢相差無幾。但是單鏈接方式ward的峰值最大,且峰值最大的分類簇的數量剛好等于實際生成的簇的數量。
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
總結
以上是生活随笔為你收集整理的Python机器学习——Agglomerative层次聚类的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Python机器学习——DBSCAN聚类
- 下一篇: __new__ __init__区别