日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 人工智能 > pytorch >内容正文

pytorch

celeba数据集_人脸识别常用数据集介绍(附下载链接)及常用评估指标

發(fā)布時間:2025/3/19 pytorch 41 豆豆
生活随笔 收集整理的這篇文章主要介紹了 celeba数据集_人脸识别常用数据集介绍(附下载链接)及常用评估指标 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

為什么要聊到數(shù)據(jù)集這個話題..因為數(shù)據(jù)集的noise對訓練效果的影響很大!很長一段時間MegaFace的效果都上不去,就是因為數(shù)據(jù)集噪聲的原因。而且自己在訓練人臉的時候,如果不對數(shù)據(jù)集的噪聲和屬性有一點了解,對訓練結果可能會有誤判,甚至越訓練越差...在選擇數(shù)據(jù)集的時候不要一味求大,有的時候選擇一個noise比例極高的大數(shù)據(jù)集,效果還不如選擇一個clean的小數(shù)據(jù)集呢,可以參見這篇論文The Devil of Face Recognition is in the Noise

LFW

全名是Labeled Faces in the Wild.這個數(shù)據(jù)集是人臉評估一定會用到的一個數(shù)據(jù)集,包含了來自1680的13000張人臉圖,數(shù)據(jù)是從網(wǎng)上搜索來的。基本都是正臉。這個數(shù)據(jù)集也是最簡單的,基本主流算法都能跑到99%以上,貌似有6對label錯了,所以最高正確率應該是99.9%左右。這個都跑不到99%的話別的數(shù)據(jù)集表現(xiàn)效果會更差。一般來說這個數(shù)據(jù)集是用來做人臉識別驗證的。

下載鏈接:LFW Face Database : Main

CelebFaces

總共包含10177個人的202599張圖片,也是從搜索引擎上爬過來的,噪聲不算多,適合作為訓練集。同時這個數(shù)據(jù)對人臉有一些二元標簽,比如是否微笑,是否戴帽子等。如果需要特定屬性的人臉,也可以從中獲取。40個屬性如下(引用自芯尚刃:CelebA數(shù)據(jù)集詳細介紹及其屬性提取源代碼 ):

  • 5_o_Clock_Shadow:剛長出的雙頰胡須
  • Arched_Eyebrows:柳葉眉
  • Attractive:吸引人的
  • Bags_Under_Eyes:眼袋
  • Bald:禿頭
  • Bangs:劉海
  • Big_Lips:大嘴唇
  • Big_Nose:大鼻子
  • Black_Hair:黑發(fā)
  • Blond_Hair:金發(fā)
  • Blurry:模糊的
  • Brown_Hair:棕發(fā)
  • Bushy_Eyebrows:濃眉
  • Chubby:圓胖的
  • Double_Chin:雙下巴
  • Eyeglasses:眼鏡
  • Goatee:山羊胡子
  • Gray_Hair:灰發(fā)或白發(fā)
  • Heavy_Makeup:濃妝
  • High_Cheekbones:高顴骨
  • Male:男性
  • Mouth_Slightly_Open:微微張開嘴巴
  • Mustache:胡子,髭
  • Narrow_Eyes:細長的眼睛
  • No_Beard:無胡子
  • Oval_Face:橢圓形的臉
  • Pale_Skin:蒼白的皮膚
  • Pointy_Nose:尖鼻子
  • Receding_Hairline:發(fā)際線后移
  • Rosy_Cheeks:紅潤的雙頰
  • Sideburns:連鬢胡子
  • Smiling:微笑
  • Straight_Hair:直發(fā)
  • Wavy_Hair:卷發(fā)
  • Wearing_Earrings:戴著耳環(huán)
  • Wearing_Hat:戴著帽子
  • Wearing_Lipstick:涂了唇膏
  • Wearing_Necklace:戴著項鏈
  • Wearing_Necktie:戴著領帶
  • Young:年輕人
  • 這些標簽的屬性在下載文件中的list_attr_celeba.txt中,在使用的時候,由于它不每一列都分開的,而是所有屬性按一列來讀取,所以在使用的時候,注意使用line.split()進行切分。(不是line.split(" "),因為每個屬性不全都是按一個空格隔開的,有的時候是用兩個空格隔開的,自己在這里踩過坑所以就記錄一下..

    下載鏈接:Large-scale CelebFaces Attributes (CelebA) Dataset

    CFP

    這個數(shù)據(jù)集由500個identity的約共7000張圖片組成,這個數(shù)據(jù)集的特別之處在于對于每個人,它有10張正面圖像和4張側面圖像,這對于想要做側臉識別的同學還是很有幫助的。我也寫了一篇關于側臉識別的博文:https://zhuanlan.zhihu.com/p/61304192 有興趣的可以看一看

    下載鏈接: http://www.cfpw.io/cfp-dataset.zip

    VGG-Face

    來自2622個人的2百萬張圖片。每個人大概要2000+圖片,跟MS-Celeb-1M有很多重疊的地方(因為都是從搜索引擎來的),這個數(shù)據(jù)集經(jīng)常作為訓練模型的數(shù)據(jù),噪聲比較小,相對來說能訓練出比較好的結果。

    下載鏈接:VGG Face Dataset

    CASIA-WebFace

    該數(shù)據(jù)集是從IMBb網(wǎng)站上搜集來的,含10K個人的500K張圖片。同時做了相似度聚類來去掉一部分噪聲。CAISA-WebFace的數(shù)據(jù)集源和IMDb-Face是一樣的,不過因為數(shù)據(jù)清洗的原因,會比IMDb-Face少一些圖片。噪聲不算特別多,適合作為訓練數(shù)據(jù)。

    下載鏈接:https://drive.google.com/file/d/1Of_EVz-yHV7QVWQGihYfvtny9Ne8qXVz/view

    MS-Celeb-1M

    100K人的共100M圖片,來自搜索引擎。這個數(shù)據(jù)集非常大,沒有清洗過,噪聲很大,很難。我用未經(jīng)過清洗的MS-Celeb-1M訓練google facenet和Insightface的accuracy都比較低。

    下載鏈接:MS-Celeb-1M: Challenge of Recognizing One Million Celebrities in the Real World - Microsoft Research

    然而沒有被請洗過的MS1M數(shù)據(jù)集噪聲太大,所以其實更推薦使用iBUG清洗過的數(shù)據(jù)集(以下鏈接來自insightface團隊):

    https://pan.baidu.com/s/1nxmSCch

    MegaFace

    672K人的4.7M張圖片,做過一些清洗,不過依然有噪聲,不同人的圖片可能混到了一起。相比來說噪聲可能比MS-Celeb-1M小一點,但還是挺大的..這個數(shù)據(jù)集是由兩個數(shù)據(jù)集組合而來:Facescrub和FGNet,所以如果你要使用多個數(shù)據(jù)集,注意有沒有重合哦!

    下載鏈接: MegaFace

    各個數(shù)據(jù)集的scale和噪聲比例見下圖(來自論文the devil of face recognition is in the Noise)。這篇論文也有提到清洗數(shù)據(jù)的噪聲能夠有效提升訓練表現(xiàn),所以大家自己在做人臉相關的檢測時也要心中有數(shù),除了可以優(yōu)化算法,優(yōu)化數(shù)據(jù)集也是一種方向。

    還有一些數(shù)據(jù)集陸陸續(xù)續(xù)地補充上去~

    人臉識別指標

    雖然跑庫的時候我們一般還是看Accuracy或者Recall,不過其實實際應用的時候更多的是會用TAR(True Accept Rate)和FAR(False Accept Rate)。

    這個指標的意思是我們拿一對不同的人的照片去測試的時候,如果兩個人的特征向量之差超過了設定的閾值(也就是把這兩個人認成了同一個人)的次數(shù)比上所有不同的人的pairs的對比次數(shù)。也就是把不同的人識別成同一個人的概率啦。當然是越小越好

    那么TAR則是表示正確接受的比例。就是同一個人的照片被判別為同一個人的概率。

    一般我們會計算的是在FAR為多少(比如

    )的情況下TAR為多少

    參考文獻:

    The Devil of Face Recognition is in the Noise

    deepinsight/insightface

    https://blog.csdn.net/liuweiyuxiang/article/details/81259492

    總結

    以上是生活随笔為你收集整理的celeba数据集_人脸识别常用数据集介绍(附下载链接)及常用评估指标的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。