你聚类个数是靠拍的?
總第210篇/張俊紅
關(guān)于聚類算法,大家應(yīng)該都有一定的了解,就是把一群人或者其他數(shù)據(jù)分成若干類,大家習(xí)慣叫做n類,那這個n是怎么確定的呢?很多人可能會說靠拍,靠拍確實也不是不可以。但是總覺得不太科學(xué)。那應(yīng)該怎么辦呢?因為聚類是無監(jiān)督學(xué)習(xí),也就是沒有正確答案,沒有辦法知道分幾類是正確的,那應(yīng)該怎么辦呢,是不是只能靠拍了?
我們想想聚類的本質(zhì),其實就是把一群人(暫且可以理解成我們是對人進行分類)分成若干類,我們希望得到的一個結(jié)果就是,類與類之間差別(距離)要盡可能的大,同一類內(nèi)部之間的差別要盡可能小,因為這樣的結(jié)果才是我們聚類的目的呀。明確了目標以后,我們就可以開始嘗試了,看n取多少的時候結(jié)果比較接近我們的目標。這個目標有一個比較正式的名字叫做輪廓系數(shù)(silhouette coefficient)。
輪廓系數(shù)的計算步驟如下:
計算樣本i到同一類中其他樣本的平均距離ai。ai越小,說明樣本i與同類中其他樣本的距離越近,即越相似。我們將ai稱為樣本i的類別內(nèi)不相似度。
計算樣本i到其他類別的所有樣本的平均距離bi,稱為樣本i與其他類之間的不相似度。bi越大,說明樣本i與其他類之間距離越遠,即越不相似。
根據(jù)樣本i的簇內(nèi)不相似度ai和簇間不相似度bi ,定義樣本i的輪廓系數(shù)為:
si的值介于[-1,1]之間,越接近于1說明bi越大ai越小,類別內(nèi)部越相似,類別之間越不相似;越接近于0說明類別內(nèi)部和類別之間的距離差不多,分界線很不明顯;越接近于-1說明類別之間越相似類別內(nèi)部反而不相似。
了解清楚原理以后,我們來看下在Python中怎么實現(xiàn),這個系數(shù)在Sklearn庫中是有現(xiàn)成的包可以供我們使用的:
silhouette_score是獲取模型總體的輪廓系數(shù),
silhouette_samples是獲取每個樣本的輪廓系數(shù)。
接下來我們來一個實戰(zhàn)案例給大家演示下:
首先把我們需要用到的包導(dǎo)入進來:
from?sklearn.datasets?import?make_blobs from?sklearn.cluster?import?KMeans from?sklearn.metrics?import?silhouette_samples,?silhouette_score import?matplotlib.pyplot?as?plt import?matplotlib.cm?as?cm import?numpy?as?np接下來生成一組模擬數(shù)據(jù)以備模型使用:
X,?y?=?make_blobs(n_samples=500,n_features=2,centers=4,cluster_std=1,center_box=(-10.0,?10.0),shuffle=True,random_state=1)生成數(shù)據(jù)以后,開始訓(xùn)練模型:
kmeans?=?KMeans(n_clusters?=?3,random_state?=?0) kmeans.fit(X) pred_y?=?kmeans.predict(X)??#?預(yù)測點在哪個聚類中 print(silhouette_score(X,?pred_y))上面模型中我們隨便給定一個類別數(shù)3,會得出如果把我們的模擬數(shù)據(jù)生成3類的話輪廓系數(shù)是0.58。3個是不是最好的類別數(shù)呢?不知道,我們就試吧,寫一個for循環(huán),遍歷[2,20]類,代碼如下:
score?=?[] for?n?in?range(2,20):kmeans?=?KMeans(n_clusters?=?n,random_state?=?0)kmeans.fit(X)pred_y?=?kmeans.predict(X)??#?預(yù)測點在哪個聚類中score.append([n,silhouette_score(X,?pred_y)]) pd.DataFrame(score).set_index(0).plot(legend?=?False) plt.xlabel("聚類個數(shù)") plt.ylabel("輪廓系數(shù)")運行上面代碼可以得到不同類別數(shù)對應(yīng)的輪廓系數(shù)值,我們根據(jù)輪廓系數(shù)和業(yè)務(wù)需求雙重目標來確定最佳的類別數(shù)。為什么還要考慮業(yè)務(wù)需求呢?因為我們聚類的結(jié)果一般都是需要拿給業(yè)務(wù)用的,比如用在精細化運營上,如果類別太多,可能不利于業(yè)務(wù)使用。所以要綜合考慮輪廓系數(shù)和業(yè)務(wù)訴求。
如果想要獲取每個樣本的輪廓系數(shù),則可以使用silhouette_samples函數(shù),使用方法與silhouette_score是一樣的,也是需要給定x值和預(yù)測的y值。
silhouette_samples(X,?pred_y)掌握了輪廓系數(shù)法,以后聚類個數(shù)再也不用靠拍了。
公眾號推出根據(jù)關(guān)鍵詞搜索歷史文章的工具,點擊下面鏈接可以試試:
總結(jié)
以上是生活随笔為你收集整理的你聚类个数是靠拍的?的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 讲讲什么是帕累托最优
- 下一篇: 时间序列预测(上)