當前位置：首頁 > 人文社科 > 生活经验 >内容正文

生活经验

Python机器学习——Agglomerative层次聚类

發布時間：2023/11/28 生活经验 52 豆豆

生活随笔收集整理的這篇文章主要介紹了 Python机器学习——Agglomerative层次聚类小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

層次聚類（hierarchical clustering）可在不同層次上對數據集進行劃分，形成樹狀的聚類結構。AggregativeClustering是一種常用的層次聚類算法。?
??其原理是：最初將每個對象看成一個簇，然后將這些簇根據某種規則被一步步合并，就這樣不斷合并直到達到預設的簇類個數。這里的關鍵在于：如何計算聚類簇之間的距離？?

??由于每個簇就是一個集合，因此需要給出集合之間的距離。給定聚類簇Ci,CjCi,Cj，有如下三種距離：

Python實戰

??AgglomerativeClustering是scikit-learn提供的層級聚類算法模型，其原型為：

class sklearn.cluster.AgglomerativeClustering(n_clusters=2, affinity=’euclidean’, memory=None, connectivity=None, compute_full_tree=’auto’, linkage=’ward’, pooling_func=<function mean>)

參數

n_clusters：一個整數，指定分類簇的數量
connectivity：一個數組或者可調用對象或者None，用于指定連接矩陣
affinity：一個字符串或者可調用對象，用于計算距離。可以為：’euclidean’，’l1’，’l2’，’mantattan’，’cosine’，’precomputed’，如果linkage=’ward’，則affinity必須為’euclidean’
memory：用于緩存輸出的結果，默認為不緩存
n_components：在 v-0.18中移除
compute_full_tree：通常當訓練了n_clusters后，訓練過程就會停止，但是如果compute_full_tree=True，則會繼續訓練從而生成一顆完整的樹
linkage：一個字符串，用于指定鏈接算法?
‘ward’：單鏈接single-linkage，采用dmindmin
‘complete’：全鏈接complete-linkage算法，采用dmaxdmax
‘average’：均連接average-linkage算法，采用davgdavg
pooling_func：一個可調用對象，它的輸入是一組特征的值，輸出是一個數
?

屬性

labels：每個樣本的簇標記
n_leaves_：分層樹的葉節點數量
n_components：連接圖中連通分量的估計值
children：一個數組，給出了每個非節點數量
方法

fit(X[,y])：訓練樣本
fit_predict(X[,y])：訓練模型并預測每個樣本的簇標記
?

可以看到當n_clusters=4時，ARI指數最大，因為確實是從四個中心點產生的四個簇。

?可以看到，三種鏈接方式隨分類簇的數量的總體趨勢相差無幾。但是單鏈接方式ward的峰值最大，且峰值最大的分類簇的數量剛好等于實際生成的簇的數量。
?

總結

以上是生活随笔為你收集整理的Python机器学习——Agglomerative层次聚类的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： Python机器学习——DBSCAN聚类
下一篇： __new__ __init__区别