日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 人工智能 > pytorch >内容正文

pytorch

聚类dbi指数_人脸聚类常用评价指标

發(fā)布時(shí)間:2025/3/19 pytorch 50 豆豆
生活随笔 收集整理的這篇文章主要介紹了 聚类dbi指数_人脸聚类常用评价指标 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

1.概述

好的聚類算法,一般要求類簇具有:

  • 高的類內(nèi) (intra-cluster) 相似度
  • 低的類間 (inter-cluster) 相似度

評(píng)價(jià)一個(gè)聚類算法的指標(biāo)不像有監(jiān)督的分類算法計(jì)算其精確率,召回率等指標(biāo)那樣簡(jiǎn)單。聚類評(píng)估中不應(yīng)該將標(biāo)注結(jié)果作為聚類結(jié)果的評(píng)價(jià)指標(biāo),除非我們有相關(guān)的先驗(yàn)知識(shí)或某種假設(shè),知道評(píng)估的這種標(biāo)準(zhǔn)或相似性度量下其簇內(nèi)差距更小。

對(duì)于聚類算法大致可分為 外部評(píng)價(jià)標(biāo)準(zhǔn)和內(nèi)部評(píng)價(jià)標(biāo)準(zhǔn)。外部評(píng)價(jià)標(biāo)準(zhǔn)針對(duì)的是給定一個(gè)基準(zhǔn),譬如另外一種聚類結(jié)果,當(dāng)然人工標(biāo)注也可理解為一種算法,根據(jù)這些基準(zhǔn)數(shù)據(jù)對(duì)聚類結(jié)果進(jìn)行評(píng)價(jià)。

以sklearn給出的這圖為例,我們看上去哪種算法好,哪種不好,實(shí)際是我們給了他一種事實(shí)標(biāo)準(zhǔn),由此為基準(zhǔn)去評(píng)價(jià)的。

在數(shù)據(jù)分析中,包括有監(jiān)督和無(wú)監(jiān)督的機(jī)器學(xué)習(xí)算法,重要的是距離的衡量,就是我們?cè)趺凑J(rèn)為誰(shuí)跟誰(shuí)是最相似的度量標(biāo)準(zhǔn)。這距離常用的有歐式距離,曼哈頓距離,余弦距離等, 距離標(biāo)準(zhǔn)不一,自然聚類的結(jié)果不一。舉個(gè)不恰當(dāng)?shù)睦?#xff0c;三個(gè)人站這里,可以按年齡,性別,項(xiàng)目,籍貫等作為距離標(biāo)準(zhǔn),每種的結(jié)果是不一樣的。

針對(duì)人臉聚類的問(wèn)題,一個(gè)人的多張人臉其相似度差異是會(huì)很大的,尤其是圖像質(zhì)量的差異。下圖是我用github上開源的一份gan代碼 修改后跑出來(lái)的GAN人臉(git@github.com:a312863063/seeprettyface-generator-yellow.git),

用另一個(gè)完全無(wú)關(guān)的人臉識(shí)別模型去對(duì)這些圖片進(jìn)行align并進(jìn)行特征提取,align后如下

依次提特征后計(jì)算0024這張圖片與其他圖片的相似度,可以看出其與前幾張是完全不相似甚至為負(fù)余弦相似度的,跟隨后的那些也是相似度逐漸降低的。然后進(jìn)一步的計(jì)算n與n+1張的相似度,則都在0.8以上,要知道這里是原始的相似度,通常來(lái)說(shuō)聲稱的相似度是要經(jīng)過(guò)一道拉伸函數(shù)轉(zhuǎn)換的,這里的0.8都相當(dāng)于98%左右了.

再放一個(gè)類似的供觀摩:

如果把這些假臉當(dāng)做現(xiàn)實(shí)社會(huì)中采集的萬(wàn)千人臉挑出的些圖片的話,按這個(gè)排序,兩兩相似度都差不多95%以上,理應(yīng)是一個(gè)人,然而隨便相距較遠(yuǎn)的兩個(gè)圖又明顯不是一個(gè)人,這種情況該怎么劃分類簇?

實(shí)際情況遠(yuǎn)比這個(gè)復(fù)雜,不同的劃分標(biāo)準(zhǔn)及評(píng)價(jià)準(zhǔn)則都將影響聚類的算法及結(jié)果。

聚類的評(píng)價(jià)就是判斷聚類算法給每個(gè)數(shù)據(jù)的類別標(biāo)簽與真實(shí)標(biāo)簽的一致性程度。雖說(shuō)聚類是無(wú)監(jiān)督學(xué)習(xí),但常用的評(píng)價(jià)指標(biāo)均需要用到類別標(biāo)簽。

2. 機(jī)器學(xué)習(xí)中聚類的評(píng)價(jià)指標(biāo)

下面是sklearn中幾種聚類度量指標(biāo),

2.1 蘭德指數(shù)

蘭德指數(shù)RI(Rand Index),將聚類看成一對(duì)對(duì)點(diǎn)的決策過(guò)程,對(duì)N(N-1)/2對(duì)樣本依次計(jì)算其分類結(jié)果。

If C is a ground truth class assignment and K the clustering, let us define TP and TN as: TP:the number of pairs of elements that are in the same set in C and in the same set in K TN:the number of pairs of elements that are in different sets in C and in different sets in K

假設(shè)C是真實(shí)標(biāo)簽集,K是聚類的結(jié)果,定義TP為本來(lái)為一個(gè)類中的點(diǎn)對(duì)在聚類結(jié)果K中也在一個(gè)類中,定義TN為本來(lái)不在一個(gè)類中的點(diǎn)對(duì)在聚類結(jié)果中也不在一個(gè)類簇中。則蘭德系數(shù)可以表示為:

此處的RI進(jìn)一步的可以計(jì)算

以下供參考,

在RI中FP與FN的后果假設(shè)是一樣的,實(shí)際人臉聚類執(zhí)行中要考慮一人分多類的后果大還是多人混到一類的后果大,如果一人分成多類的后果更嚴(yán)重則可以采用

并令beta的值大于1

2.2 調(diào)整后的蘭德指數(shù)(Adjusted Rand index, ARI)

RI的指標(biāo)對(duì)于隨機(jī)劃分來(lái)說(shuō)其值不為0,用于衡量?jī)蓚€(gè)分布的相似程度,取值范圍[-1,1],數(shù)值越接近1越好,隨機(jī)產(chǎn)生標(biāo)簽時(shí)則值接近0

計(jì)算過(guò)程較麻煩,需要先生成列連表再計(jì)算。from sklearn.metrics import adjusted_rand_score labels_true = [0, 0, 1, 1, 2, 2] labels_pred = [0, 0, 1, 1, 1, 2] ari=adjusted_rand_score(labels_true, labels_pred) print('蘭德系數(shù)為:%f'%(ari)) 值為0.4444

即使將標(biāo)簽改變,譬如pred中的2改為3其分值也不變。

2.3 純度Purity

其中N表示總的樣本個(gè)數(shù),

表示聚類算法的劃分, 表示真是類別標(biāo)簽劃分。

在每個(gè)聚類簇中分配一個(gè)標(biāo)簽,且為此標(biāo)簽的樣本在該簇中出現(xiàn)次數(shù)最多,計(jì)算所有K個(gè)聚類簇中的這個(gè)次數(shù)之和與總數(shù)之比為純度。

(5+3+4)/(7+5+5)=12/17=0.706

這個(gè)指標(biāo)無(wú)法準(zhǔn)確反映聚類的質(zhì)量與簇個(gè)數(shù)的關(guān)系

2.4 NMI(Normalized Mutual Information)

Given the knowledge of the ground truth class assignments labels_true and our clustering algorithm assignments of the same samples labels_pred, the Mutual Information is a function that measures the agreement of the two assignments, ignoring permutations. Two different normalized versions of this measure are available, Normalized Mutual Information (NMI) and Adjusted Mutual Information (AMI). NMI is often used in the literature, while AMI was proposed more recently and is normalized against chance

在已知真實(shí)標(biāo)簽labels_true的數(shù)據(jù)集下利用聚類算法基于該樣本得到labels_pred, 互信息Mutual information不考慮標(biāo)簽排列的情況下測(cè)量?jī)蓚€(gè)標(biāo)簽分配的一致性。互信息有兩個(gè)標(biāo)準(zhǔn)化版本,歸一化互信息Normalized mutual information和調(diào)節(jié)互信息Adjusted mutual information。

其中

為互信息,互信息的最小值為0,當(dāng)類簇隨機(jī)劃分及聚類算法與真實(shí)標(biāo)簽完全獨(dú)立時(shí),互信息為0;如果聚類算法完整重現(xiàn)了真實(shí)標(biāo)簽,則互信息為1.

當(dāng)聚類的簇?cái)?shù)等于樣本個(gè)數(shù)時(shí)互信息MI也達(dá)到最大值,其未對(duì)簇?cái)?shù)目較大的劃分方式進(jìn)行懲罰。NMI則對(duì)MI進(jìn)行了修正,使得值落在[0,1]之間。

互信息的幾種實(shí)現(xiàn)其對(duì)于labels_true和labels_pred是對(duì)稱的,互換位置也沒(méi)關(guān)系。

優(yōu)點(diǎn):隨機(jī)分配的AMI接近0; 數(shù)值趨近1時(shí)說(shuō)明兩個(gè)分配有極高的一致性。

缺點(diǎn):同樣需要標(biāo)注數(shù)據(jù)

2.5 同質(zhì)性,完整性和V-measure

已知真實(shí)簇的標(biāo)簽分配,可以使用條件熵分析來(lái)定義一些直觀的度量。

Rosenberg 和 Hirschberg (2007) 為任何簇分配定義了以下兩個(gè)理想的目標(biāo):

  • 同質(zhì)性(homogeneity): 每個(gè)簇只包含一個(gè)類的成員
  • 完整性(completeness): 給定類的所有成員都分配給同一個(gè)簇。

這兩個(gè)分別有對(duì)應(yīng)的homogeneity_score和completeness_score作為分?jǐn)?shù)去衡量。

同質(zhì)性和完整性兩個(gè)分?jǐn)?shù)的調(diào)和平均成為V-measure,最新的sklearn中還支持帶beta參數(shù)的v_measure_score

這個(gè)例子中第二個(gè)pred提高了同質(zhì)性,但2依然分給了3,4兩個(gè)標(biāo)簽,完整性依然欠缺一點(diǎn)。比前一個(gè)減少了多人分一類,依然存在一人分多類的現(xiàn)象。

2.6 Fowlkes-Mallows(FMI)

FMI也要求標(biāo)簽已知,定義為成對(duì)的準(zhǔn)確率和召回率的幾何平均值:

其中其中的TP是真正例(True Positive)的數(shù)量(即,真實(shí)標(biāo)簽組和預(yù)測(cè)標(biāo)簽組中屬于相同簇的點(diǎn)對(duì)數(shù)),FP是假正例(False Positive)(即,在真實(shí)標(biāo)簽組中屬于同一簇的點(diǎn)對(duì)數(shù),而不在預(yù)測(cè)標(biāo)簽組中),FN是假負(fù)例(False Negative)的數(shù)量(即,預(yù)測(cè)標(biāo)簽組中屬于同一簇的點(diǎn)對(duì)數(shù),而不在真實(shí)標(biāo)簽組中)

計(jì)算可以使用sklearn的metrics.fowlkes_mallows_score(labels_true, labels_pred)進(jìn)行計(jì)算

以上這些都是要有真實(shí)標(biāo)簽數(shù)據(jù)的,對(duì)于沒(méi)有標(biāo)簽數(shù)據(jù)的則有Silhouette系數(shù),Calinski-Harabaz 指數(shù),Davies-Bouldin Index(DBI)等,因?yàn)闆](méi)有了標(biāo)簽數(shù)據(jù),所以衡量標(biāo)準(zhǔn)都依賴距離了,目標(biāo)只有一個(gè),刻畫類內(nèi)緊密,類間疏遠(yuǎn)的程度。考慮到人臉特征并非凸集及其高維特性,用這種刻畫想法很好,卻沒(méi)多少意義。

下面時(shí)cvpr2019,2020相關(guān)聚類算法及與其他算法在公開數(shù)據(jù)集上的benchmark指標(biāo),可以看出這人用的也是Precision/Recall/Fscore等基本指標(biāo),更專業(yè)點(diǎn)的是用Pairwise F-score,BCubed F-score,NMI三種。所以一般來(lái)說(shuō),選擇這其中的幾種可滿足研發(fā)需要了。

Pairwise F-score在介紹RI的時(shí)候提到的成對(duì)的precision與recall的時(shí)候介紹了,

BCubed precision表示一個(gè)類簇檔案中是否都是一個(gè)人的照片,相當(dāng)于同質(zhì)性。Bcubed recall表示一個(gè)人的照片是否都分到同一類簇檔案中去了,相當(dāng)于完整性。BCubed F-score就是綜合precision和recall的結(jié)果了。

Enrique Amigo, Julio Gonzalo, Javier Artiles, and Felisa ′ Verdejo. A comparison of extrinsic clustering evaluation metrics based on formal constraints. Information retrieval, 12(4):461–486, 2009

Yichun Shi, Charles Otto, and Anil K Jain. Face clustering: representation and pairwise constraints. IEEE Transactions on Information Forensics and Security, 13(7):1626– 1640, 2018

Zhongdao Wang, Liang Zheng, Yali Li, and Shengjin Wang. Linkage based face clustering via graph convolution network. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 1117–1125, 2019.

Lei Yang, Xiaohang Zhan, Dapeng Chen, Junjie Yan, Chen Change Loy, and Dahua Lin. Learning to cluster faces on an affinity graph. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 2298– 2306, 2019.

@inproceedings{yang2019learning,
title={Learning to Cluster Faces on an Affinity Graph},
author={Yang, Lei and Zhan, Xiaohang and Chen, Dapeng and Yan, Junjie and Loy, Chen Change and Lin, Dahua},
booktitle={Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR)},
year={2019}
}
@inproceedings{yang2020learning,
title={Learning to Cluster Faces via Confidence and Connectivity Estimation},
author={Yang, Lei and Chen, Dapeng and Zhan, Xiaohang and Zhao, Rui and Loy, Chen Change and Lin, Dahua},
booktitle={Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition},
year={2020}
}

總結(jié)

以上是生活随笔為你收集整理的聚类dbi指数_人脸聚类常用评价指标的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。

主站蜘蛛池模板: 色综合欧美 | 成人性生交大免费看 | 黄色网占| 国产不卡在线视频 | 国产精品久久久久影院老司 | 色狠狠干 | 波多野结衣1区2区3区 | 亚洲日本精品一区 | 韩日毛片| 爱情岛黄色 | 刘亦菲一区二区三区免费看 | 爽爽免费视频 | 高h校园不许穿内裤h调教 | 中文字幕丝袜诱惑 | 精品欧美在线观看 | 人人干人人搞 | 在线观看a网站 | 男人天堂1024 | 国产精品1| 精品在线一区二区三区 | 99久久人妻无码精品系列 | 色老大影院 | 人与性动交zzzzbbbb | 四虎成人在线 | 一本久久综合亚洲鲁鲁五月天 | 鲁丝片一区二区三区 | 欧洲亚洲一区二区 | 91丨porny丨 | 成人三级在线播放 | 凹凸国产熟女精品视频 | 免费av电影网站 | av图片在线观看 | 亚洲 欧美 日韩 国产综合 在线 | 国产妇女视频 | 欧美一区二区激情视频 | 日韩成人在线免费观看 | 就要操就要射 | 户外少妇对白啪啪野战 | 欧美h在线观看 | 欧美mv日韩mv国产 | 日日爽夜夜爽 | 国产又粗又硬 | 国产亚洲精品久久久久丝瓜 | 亚洲成人免费在线 | 精品久久人妻av中文字幕 | 久久激情片 | 国模精品一区二区三区 | 欧美色图30p | 国产欧美在线观看 | 国产精品乱码妇女bbbb | 日韩av在线资源 | 女人被男人操 | 免费看片色 | 色中文字幕在线观看 | 亚洲精品系列 | 婷婷色基地 | 91污在线观看| 中国免费黄色片 | 日韩a级大片 | 日韩操比| 手机av免费在线 | 亚洲欧美综合在线观看 | 日本精品一区二区视频 | 日韩理论片在线观看 | 亚洲第一激情 | 男女视频免费网站 | www.亚洲一区二区三区 | 国产精品水嫩水嫩 | av免费观看网址 | 欧美一区二区三区色 | 中文字幕一区二区三区免费看 | 黄色裸体片 | 福利片av | 国产一区第一页 | 欧美性大战久久久久久久 | 亚洲高清视频在线观看 | 国产精品无码一区 | 人妻丰满熟妇岳av无码区hd | 亚洲a√ | 精品久草 | 亚洲色图50p| 伊人网中文字幕 | 国产黄色的视频 | 男生尿隔着内裤呲出来视频 | 91亚洲精品久久久久久久久久久久 | 老妇高潮潮喷到猛进猛出 | 91视频爱爱 | 97人妻人人揉人人躁人人 | 国产做受高潮 | 三浦惠理子aⅴ一二三区 | 大粗鳮巴久久久久久久久 | 国产精品久久久久永久免费看 | 亚洲一区二区三区电影在线观看 | 少妇精品无码一区二区 | 玖玖久久 | 依人成人| 国产日韩欧美 | 青青青国产在线 | 99精品一级欧美片免费播放 |