日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

聚类效果评估指标总结

發(fā)布時間:2023/12/20 编程问答 34 豆豆
生活随笔 收集整理的這篇文章主要介紹了 聚类效果评估指标总结 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

前言

實際工作中經(jīng)常會用到一些聚類算法對一些數(shù)據(jù)進(jìn)行聚類處理,如何評估每次聚類效果的好壞?可選的方法有1、根據(jù)一些聚類效果的指標(biāo)來評估;2、直接打點。今天就主要總結(jié)下這段時間了解的聚類效果評估指標(biāo)。廢話少說,直接上干貨。

針對數(shù)據(jù)有類別標(biāo)簽的情況

Adjusted Rand index (ARI)

優(yōu)點: 1.1 對任意數(shù)量的聚類中心和樣本數(shù),隨機聚類的ARI都非常接近于0; 1.2 取值在[-1,1]之間,負(fù)數(shù)代表結(jié)果不好,越接近于1越好; 1.3 可用于聚類算法之間的比較 缺點: 1.4 ARI需要真實標(biāo)簽

Mutual Information based scores (MI) 互信息

優(yōu)點:除取值范圍在[0,1]之間,其他同ARI;可用于聚類模型選擇 缺點:需要先驗知識

針對數(shù)據(jù)無類別標(biāo)簽的情況

對于無類標(biāo)的情況,沒有唯一的評價指標(biāo)。對于數(shù)據(jù)凸分布的情況我們只能通過類內(nèi)聚合度、類間低耦合的原則來作為指導(dǎo)思想。

輪廓系數(shù)(Silhouette Coefficient)

定義
輪廓系數(shù)(Silhouette Coefficient),是聚類效果好壞的一種評價方式。最早由 Peter J. Rousseeuw 在 1986 提出。它結(jié)合內(nèi)聚度和分離度兩種因素。可以用來在相同原始數(shù)據(jù)的基礎(chǔ)上用來評價不同算法、或者算法不同運行方式對聚類結(jié)果所產(chǎn)生的影響。

原理

(1)計算樣本i到同簇其他樣本的平均距離ai。ai 越小,說明樣本i越應(yīng)該被聚類到該簇。將ai 稱為樣本i的簇內(nèi)不相似度。某一個簇C中所有樣本的a i 均值稱為簇C的簇不相似度

(2)計算樣本i到其他某簇Cj 的所有樣本的平均距離bij,稱為樣本i與簇Cj 的不相似度。定義為樣本i的簇間不相似度:bi =min{bi1, bi2, …, bik},即某一個樣本的簇間不相似度為該樣本到所有其他簇的所有樣本的平均距離中最小的那一個。
bi越大,說明樣本i越不屬于其他簇。

(3)根據(jù)樣本i的簇內(nèi)不相似度a i 和簇間不相似度b i ,定義某一個樣本樣本i的輪廓系數(shù):
樣例圖:

如上圖所示,最終整個數(shù)據(jù)的輪廓系數(shù)=每個樣本輪廓系數(shù)之和/n(即所有樣本輪廓系數(shù)的平均值)

(4)判斷:
si接近1,則說明樣本i聚類合理;
si接近-1,則說明樣本i更應(yīng)該分類到另外的簇;
若si 近似為0,則說明樣本i在兩個簇的邊界上。

(5) 所有樣本的輪廓系數(shù)S

所有樣本的s i 的均值稱為聚類結(jié)果的輪廓系數(shù),定義為S,是該聚類是否合理、有效的度量。聚類結(jié)果的輪廓系數(shù)的取值在【-1,1】之間,值越大,說明同類樣本相距約近,不同樣本相距越遠(yuǎn),則聚類效果越好

優(yōu)缺點總結(jié)
優(yōu)點:
對于不正確的 clustering (聚類),分?jǐn)?shù)為 -1 , highly dense clustering (高密度聚類)為 +1 。零點附近的分?jǐn)?shù)表示 overlapping clusters (重疊的聚類)。
當(dāng) clusters (簇)密集且分離較好時,分?jǐn)?shù)更高,這與 cluster (簇)的標(biāo)準(zhǔn)概念有關(guān)。
缺點:
convex clusters(凸的簇)的 Silhouette Coefficient 通常比其他類型的 cluster (簇)更高,例如通過 DBSCAN 獲得的基于密度的 cluster(簇)。不適用與基于密度的算法

使用:
sklearn中的接口

輪廓系數(shù)以及其他的評價函數(shù)都定義在sklearn.metrics模塊中,

在sklearn中函數(shù)silhouette_score()計算所有點的平均輪廓系數(shù),而silhouette_samples()返回每個點的輪廓系數(shù)。后面會給出具體的例子的。它的定義如下:

def silhouette_score(X, labels, metric='euclidean', sample_size=None, random_state=None, **kwds): ''' X:表示要聚類的樣本數(shù)據(jù),一般形如(samples,features)的格式 labels:即聚類之后得到的label標(biāo)簽,形如(samples,)的格式 metric:默認(rèn)是歐氏距離 '''

CH分?jǐn)?shù)(Calinski Harabasz Score )

原理:
也稱之為 Calinski-Harabaz Index
分?jǐn)?shù)S被定義為簇間離散與簇內(nèi)離散的比率,是通過評估類之間方差和類內(nèi)方差來計算得分。該分值越大說明聚類效果越好

其中k代表聚類類別數(shù),N代表全部數(shù)據(jù)數(shù)目。
n是樣本點數(shù),cq是在聚類q中的樣本點,Cq是在聚類q中的中心點,nq是聚類q中的樣本點數(shù)量,c是E的中心(E是所有的數(shù)據(jù)集)

trace只考慮了矩陣對角上的元素,即類q中所有數(shù)據(jù)點到類q中心點的歐幾里得距離。

類別內(nèi)部數(shù)據(jù)的協(xié)方差越小越好,類別之間的協(xié)方差越大越好,這樣的Calinski-Harabasz分?jǐn)?shù)會高。 總結(jié)起來一句話:CH index的數(shù)值越大越好。

在真實的分群label不知道的情況下,可以作為評估模型的一個指標(biāo)。 同時,數(shù)值越小可以理解為:組間協(xié)方差很小,組與組之間界限不明顯。
與輪廓系數(shù)的對比,最大的優(yōu)勢:快!相差幾百倍!毫秒級(原因:可能是計算簇間,簇內(nèi)不相似度對應(yīng)的數(shù)據(jù)量和計算復(fù)雜度不同。CH有中心點,只需要計算簇內(nèi)點到中心點的距離即可,簇間有整個樣本的中點,只需要計算各簇中心點到整個樣本的中心點即可;而輪廓系數(shù)則需要在簇內(nèi)計算樣本i到同簇其他所有樣本的平均距離等。一個是固定中心點計算,一個是沒有中心點,計算所有的樣本點距離。)

優(yōu)缺點總結(jié)
優(yōu)點
當(dāng) cluster (簇)密集且分離較好時,分?jǐn)?shù)更高,這與一個標(biāo)準(zhǔn)的 cluster(簇)有關(guān)。
得分計算很快。

缺點
凸的簇的 Calinski-Harabaz index(Calinski-Harabaz 指數(shù))通常高于其他類型的 cluster(簇),例如通過 DBSCAN 獲得的基于密度的 cluster(簇)。

使用
在sklearn中的接口

在scikit-learn中, Calinski-Harabasz Index對應(yīng)的方法是metrics.calinski_harabaz_score. 它的定義如下:

def calinski_harabasz_score(X, labels): ''' X:表示要聚類的樣本數(shù)據(jù),一般形如(samples,features)的格式 labels:即聚類之后得到的label標(biāo)簽,形如(samples,)的格式

戴維森堡丁指數(shù)(DBI)——davies_bouldin_score

定義
戴維森堡丁指數(shù)(DBI),又稱為分類適確性指標(biāo),是由大衛(wèi)L·戴維斯和唐納德·Bouldin提出的一種評估聚類算法優(yōu)劣的指標(biāo)

原理
DB計算任意兩類別的類內(nèi)距離平均距離(CP)之和除以兩聚類中心距離求最大值。DB越小意味著類內(nèi)距離越小同時類間距離越大
缺點:因使用歐式距離 所以對于環(huán)狀分布 聚類評測很差
分子:簇內(nèi)所有點到該簇質(zhì)心點的平均距離之和
分母d(ci,cj):兩類別質(zhì)心間的距離
max()最大值部分:選取每組比例中的最大值(即選取最糟糕的一組)
1/n求和部分:將所選比例加和除以類別數(shù)
結(jié)果意義:DB值越小表示聚類結(jié)果同簇內(nèi)部緊密,不同簇分離較遠(yuǎn)。即類內(nèi)距離越小,類間距離越大

實例

具體過程:
step1:計算每個聚類d(A),d(B),d?的平均內(nèi)部距離。
step2:計算任意質(zhì)心間的距離d(A,B),d(A,C)和d(B,C)。
step3:返回最大比例(任意內(nèi)部聚類之和與其質(zhì)心間距之比)

注意:DBI的值最小是0,值越小,代表聚類效果越好。

使用
DBI的sklearn中的定義:

def davies_bouldin_score(X, labels): ''' X:表示要聚類的樣本數(shù)據(jù),一般形如(samples,features)的格式 labels:即聚類之后得到的label標(biāo)簽,形如(samples,)的格式

Compactness(緊密性)(CP)


CP計算每一個類各點到聚類中心的平均距離CP越低意味著類內(nèi)聚類距離越近。著名的 K-Means 聚類算法就是基于此思想提出的。
缺點:沒有考慮類間效果

Separation(間隔性)(SP)


SP計算 各聚類中心兩兩之間平均距離,SP越高意味類間聚類距離越遠(yuǎn)
缺點:沒有考慮類內(nèi)效果

Dunn Validity Index (鄧恩指數(shù))(DVI)


DVI計算任意兩個簇元素的最短距離(類間)除以任意簇中的最大距離(類內(nèi))。 DVI越大意味著類間距離越大同時類內(nèi)距離越小
缺點:對離散點的聚類測評很高、對環(huán)狀分布測評效果差

其他

其他的一些指標(biāo)如:均一性(一個簇中只包含一個類別)和完整性(同類別被分到同簇中)就類似于之前半監(jiān)督中的準(zhǔn)確率和召回率。
V-measure:均一性和完整性的加權(quán)平均

兩個指標(biāo)用來衡量分類效果:即ARI就相當(dāng)于之前的F1,Fβ

總結(jié)

常用的聚類指標(biāo)可能就是輪廓系數(shù),CH分?jǐn)?shù),DBI等。針對不同的數(shù)據(jù)量,這些指標(biāo)的計算效率會有差距。若數(shù)據(jù)量小都可以嘗試使用,但要注意各個指標(biāo)的使用場景。若數(shù)據(jù)量大則建議使用CH分?jǐn)?shù),實測該指標(biāo)的計算效率的確很高,至于原因就如前文所描述的那樣。

總結(jié)

以上是生活随笔為你收集整理的聚类效果评估指标总结的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。