日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

你聚类个数是靠拍的?

發(fā)布時間:2023/12/19 编程问答 46 豆豆
生活随笔 收集整理的這篇文章主要介紹了 你聚类个数是靠拍的? 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

總第210篇/張俊紅

關(guān)于聚類算法,大家應(yīng)該都有一定的了解,就是把一群人或者其他數(shù)據(jù)分成若干類,大家習(xí)慣叫做n類,那這個n是怎么確定的呢?很多人可能會說靠拍,靠拍確實也不是不可以。但是總覺得不太科學(xué)。那應(yīng)該怎么辦呢?因為聚類是無監(jiān)督學(xué)習(xí),也就是沒有正確答案,沒有辦法知道分幾類是正確的,那應(yīng)該怎么辦呢,是不是只能靠拍了?

我們想想聚類的本質(zhì),其實就是把一群人(暫且可以理解成我們是對人進行分類)分成若干類,我們希望得到的一個結(jié)果就是,類與類之間差別(距離)要盡可能的大,同一類內(nèi)部之間的差別要盡可能小,因為這樣的結(jié)果才是我們聚類的目的呀。明確了目標以后,我們就可以開始嘗試了,看n取多少的時候結(jié)果比較接近我們的目標。這個目標有一個比較正式的名字叫做輪廓系數(shù)(silhouette coefficient)。

輪廓系數(shù)的計算步驟如下:

  • 計算樣本i到同一類中其他樣本的平均距離ai。ai越小,說明樣本i與同類中其他樣本的距離越近,即越相似。我們將ai稱為樣本i的類別內(nèi)不相似度。

  • 計算樣本i到其他類別的所有樣本的平均距離bi,稱為樣本i與其他類之間的不相似度。bi越大,說明樣本i與其他類之間距離越遠,即越不相似。

  • 根據(jù)樣本i的簇內(nèi)不相似度ai和簇間不相似度bi ,定義樣本i的輪廓系數(shù)為:

si的值介于[-1,1]之間,越接近于1說明bi越大ai越小,類別內(nèi)部越相似,類別之間越不相似;越接近于0說明類別內(nèi)部和類別之間的距離差不多,分界線很不明顯;越接近于-1說明類別之間越相似類別內(nèi)部反而不相似。

了解清楚原理以后,我們來看下在Python中怎么實現(xiàn),這個系數(shù)在Sklearn庫中是有現(xiàn)成的包可以供我們使用的:

silhouette_score是獲取模型總體的輪廓系數(shù),
silhouette_samples是獲取每個樣本的輪廓系數(shù)。

接下來我們來一個實戰(zhàn)案例給大家演示下:

首先把我們需要用到的包導(dǎo)入進來:

from?sklearn.datasets?import?make_blobs from?sklearn.cluster?import?KMeans from?sklearn.metrics?import?silhouette_samples,?silhouette_score import?matplotlib.pyplot?as?plt import?matplotlib.cm?as?cm import?numpy?as?np

接下來生成一組模擬數(shù)據(jù)以備模型使用:

X,?y?=?make_blobs(n_samples=500,n_features=2,centers=4,cluster_std=1,center_box=(-10.0,?10.0),shuffle=True,random_state=1)

生成數(shù)據(jù)以后,開始訓(xùn)練模型:

kmeans?=?KMeans(n_clusters?=?3,random_state?=?0) kmeans.fit(X) pred_y?=?kmeans.predict(X)??#?預(yù)測點在哪個聚類中 print(silhouette_score(X,?pred_y))

上面模型中我們隨便給定一個類別數(shù)3,會得出如果把我們的模擬數(shù)據(jù)生成3類的話輪廓系數(shù)是0.58。3個是不是最好的類別數(shù)呢?不知道,我們就試吧,寫一個for循環(huán),遍歷[2,20]類,代碼如下:

score?=?[] for?n?in?range(2,20):kmeans?=?KMeans(n_clusters?=?n,random_state?=?0)kmeans.fit(X)pred_y?=?kmeans.predict(X)??#?預(yù)測點在哪個聚類中score.append([n,silhouette_score(X,?pred_y)]) pd.DataFrame(score).set_index(0).plot(legend?=?False) plt.xlabel("聚類個數(shù)") plt.ylabel("輪廓系數(shù)")

運行上面代碼可以得到不同類別數(shù)對應(yīng)的輪廓系數(shù)值,我們根據(jù)輪廓系數(shù)和業(yè)務(wù)需求雙重目標來確定最佳的類別數(shù)。為什么還要考慮業(yè)務(wù)需求呢?因為我們聚類的結(jié)果一般都是需要拿給業(yè)務(wù)用的,比如用在精細化運營上,如果類別太多,可能不利于業(yè)務(wù)使用。所以要綜合考慮輪廓系數(shù)和業(yè)務(wù)訴求。

如果想要獲取每個樣本的輪廓系數(shù),則可以使用silhouette_samples函數(shù),使用方法與silhouette_score是一樣的,也是需要給定x值和預(yù)測的y值。

silhouette_samples(X,?pred_y)

掌握了輪廓系數(shù)法,以后聚類個數(shù)再也不用靠拍了。


公眾號推出根據(jù)關(guān)鍵詞搜索歷史文章的工具,點擊下面鏈接可以試試:

總結(jié)

以上是生活随笔為你收集整理的你聚类个数是靠拍的?的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。