當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

你聚类个数是靠拍的？

發布時間：2023/12/19 编程问答 75 豆豆

生活随笔收集整理的這篇文章主要介紹了你聚类个数是靠拍的？小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

總第210篇/張俊紅

關于聚類算法，大家應該都有一定的了解，就是把一群人或者其他數據分成若干類，大家習慣叫做n類，那這個n是怎么確定的呢？很多人可能會說靠拍，靠拍確實也不是不可以。但是總覺得不太科學。那應該怎么辦呢？因為聚類是無監督學習，也就是沒有正確答案，沒有辦法知道分幾類是正確的，那應該怎么辦呢，是不是只能靠拍了？

我們想想聚類的本質，其實就是把一群人(暫且可以理解成我們是對人進行分類)分成若干類，我們希望得到的一個結果就是，類與類之間差別(距離)要盡可能的大，同一類內部之間的差別要盡可能小，因為這樣的結果才是我們聚類的目的呀。明確了目標以后，我們就可以開始嘗試了，看n取多少的時候結果比較接近我們的目標。這個目標有一個比較正式的名字叫做輪廓系數(silhouette coefficient)。

輪廓系數的計算步驟如下：

計算樣本i到同一類中其他樣本的平均距離ai。ai越小，說明樣本i與同類中其他樣本的距離越近，即越相似。我們將ai稱為樣本i的類別內不相似度。
計算樣本i到其他類別的所有樣本的平均距離bi，稱為樣本i與其他類之間的不相似度。bi越大，說明樣本i與其他類之間距離越遠，即越不相似。
根據樣本i的簇內不相似度ai和簇間不相似度bi ，定義樣本i的輪廓系數為：

si的值介于[-1,1]之間，越接近于1說明bi越大ai越小，類別內部越相似，類別之間越不相似；越接近于0說明類別內部和類別之間的距離差不多，分界線很不明顯；越接近于-1說明類別之間越相似類別內部反而不相似。

了解清楚原理以后，我們來看下在Python中怎么實現，這個系數在Sklearn庫中是有現成的包可以供我們使用的：

silhouette_score是獲取模型總體的輪廓系數，
silhouette_samples是獲取每個樣本的輪廓系數。

接下來我們來一個實戰案例給大家演示下：

首先把我們需要用到的包導入進來：

from?sklearn.datasets?import?make_blobs from?sklearn.cluster?import?KMeans from?sklearn.metrics?import?silhouette_samples,?silhouette_score import?matplotlib.pyplot?as?plt import?matplotlib.cm?as?cm import?numpy?as?np

接下來生成一組模擬數據以備模型使用：

X,?y?=?make_blobs(n_samples=500,n_features=2,centers=4,cluster_std=1,center_box=(-10.0,?10.0),shuffle=True,random_state=1)

生成數據以后，開始訓練模型：

kmeans?=?KMeans(n_clusters?=?3,random_state?=?0) kmeans.fit(X) pred_y?=?kmeans.predict(X)??#?預測點在哪個聚類中 print(silhouette_score(X,?pred_y))

上面模型中我們隨便給定一個類別數3，會得出如果把我們的模擬數據生成3類的話輪廓系數是0.58。3個是不是最好的類別數呢？不知道，我們就試吧，寫一個for循環，遍歷[2,20]類，代碼如下：

score?=?[] for?n?in?range(2,20):kmeans?=?KMeans(n_clusters?=?n,random_state?=?0)kmeans.fit(X)pred_y?=?kmeans.predict(X)??#?預測點在哪個聚類中score.append([n,silhouette_score(X,?pred_y)]) pd.DataFrame(score).set_index(0).plot(legend?=?False) plt.xlabel("聚類個數") plt.ylabel("輪廓系數")

運行上面代碼可以得到不同類別數對應的輪廓系數值，我們根據輪廓系數和業務需求雙重目標來確定最佳的類別數。為什么還要考慮業務需求呢？因為我們聚類的結果一般都是需要拿給業務用的，比如用在精細化運營上，如果類別太多，可能不利于業務使用。所以要綜合考慮輪廓系數和業務訴求。

如果想要獲取每個樣本的輪廓系數，則可以使用silhouette_samples函數，使用方法與silhouette_score是一樣的，也是需要給定x值和預測的y值。

silhouette_samples(X,?pred_y)

掌握了輪廓系數法，以后聚類個數再也不用靠拍了。

公眾號推出根據關鍵詞搜索歷史文章的工具，點擊下面鏈接可以試試：

總結

以上是生活随笔為你收集整理的你聚类个数是靠拍的？的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

编程问答

你聚类个数是靠拍的？

總第210篇/張俊紅

總結