當前位置：首頁 > 人工智能 > pytorch >内容正文

pytorch

「数据集」一文道尽人脸数据集

發布時間：2023/12/9 pytorch 50 豆豆

生活随笔收集整理的這篇文章主要介紹了「数据集」一文道尽人脸数据集小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

https://www.toutiao.com/i6696225669984027144/

這一次我將從人臉檢測，關鍵點檢測，人臉識別，人臉表情，人臉年齡，人臉姿態等幾個方向整理出人臉領域有用的數據集清單，不全也有9成全吧。

作者：言有三

編輯：言有三

01 人臉檢測

所謂人臉檢測任務，就是要定位出圖像中人臉的大概位置。

1.1 Caltech 10000

數據集地址：http://www.vision.caltech.edu/Image_Datasets/Caltech_10K_WebFaces/

發布于2007年，這是一個灰度人臉數據集，使用Google圖片搜索引擎用關鍵詞爬取所得，包含了7,092張圖，10,524個人臉，平均分辨率在304x312，除此之外還提供雙眼，鼻子和嘴巴共4個坐標位置。在早期被使用的較多，現在的方法已經很少用灰度數據集做評測。

1.2 AFW

發布于2013年。AFW數據集是人臉關鍵點檢測非常早期使用的數據集，共包含205個圖像，其中有473個標記的人臉。每一個人臉提供了方形邊界框，6個關鍵點和3個姿勢角度的標注。目前官網數據鏈接已經失效，可以通過其他渠道獲得。

1.3 FDDB

數據集地址：http://vis-www.cs.umass.edu/fddb/index.html

發布于2010年，這是被廣泛用于人臉檢測方法評測的一個數據集，FDDB全稱是Face Detection Data Set and Benchmark，它的提出是用于研究無約束人臉檢測。所謂無約束指的是人臉表情、尺度、姿態、外觀等具有較大的可變性。FDDB的圖片都來自于 Faces in the Wild 數據集，圖片來源于美聯社和路透社的新聞報道圖片，所以大部分都是名人，而且是自然環境下拍攝的。共2845張圖片，里面有5171張人臉圖像。

通常人臉檢測數據集的標注采用的是矩形標注，即通過矩形將人臉的前額，臉頰和下巴通過矩形包裹起來，但是由于人臉是橢圓狀的，所以不可能給出一個恰好包裹整個面部區域而無干擾的矩形。

在FDDB當中采用了橢圓標記法，它可以適應人臉的輪廓。具體來說，每個標注的橢圓形人臉由六個元素組成。(ra, rb, Θ, cx, cy, s)，其中ra，rb是橢圓的半長軸、半短軸，cx, cy是橢圓的中心點坐標，Θ是長軸與水平軸夾角（頭往左偏Θ為正，頭往右偏Θ為負），s則是置信度得分。標注的結果是通過多人獨立完成標注之后取標注的平均值，而且排除了符合以下條件的樣本。

長或寬小于20個像素的人臉區域。
設定一個閾值，將像素低于閾值的區域標記為非人臉。
遠離相機的人臉區域被標記為非人臉。
人臉被遮擋，2個眼睛都不在區域內的標記為非人臉。

1.4 WIDER Face

數據集地址：http://mmlab.ie.cuhk.edu.hk/projects/WIDERFace/

發布于2015年，FDDB評測標準由于只有幾千張圖像，這樣的數據集在人臉的姿態、尺度、表情、遮擋和背景等多樣性上非常有限，訓練出來的模型難以被很好的評判，算法很快就達到飽和。在這樣的背景下香港中文大學提出了Wider-face數據集，在很長一段時間里，大型互聯網公司和科研機構都在Wider-face上做人臉檢測算法競賽。

Wider-face總共有32203張圖片，共有393703張人臉,比FDDB數據集大10倍，而且在面部的尺寸、姿勢、遮擋、表情、妝容、光照上都有很大的變化，算法不僅標注了框，還提供了遮擋和姿態的信息，自發布后廣泛應用于評估性能比傳統方法更強大的卷積神經網絡。

1.5 MALF數據集

數據集地址：http://www.cbsr.ia.ac.cn/faceevaluation/

發布于2015年，全稱 Multi-Attribute Labelled Faces ，MALF是為了更加細粒度地評估野外環境中人臉檢測模型而設計的數據庫。數據主要來源于Internet，包含5250個圖像，11931個人臉。每一幅圖像包含正方形邊界框，頭部姿態的俯仰程度，包括小中大三個等級的標注。該數據集忽略了小于20*20或者非常難以檢測的人臉，共包含大約838個人臉，占該數據集的7%。同時該數據集還提供了性別，是否帶眼鏡，是否遮擋，是否是夸張的表情等輔助信息。

02 關鍵點檢測

檢測到人臉后，通常都需要定位出圖像的輪廓關鍵點，關鍵點是人臉形狀的稀疏表示，在人臉跟蹤，美顏等任務中都很重要，現在已經從最開始的5個關鍵點發展到了超過200個關鍵點的標注。

2.1 HELEN等

首先集中介紹一些比較小和比較老的數據集，AFW前面已經介紹。

XM2VTS，發布于1999年，http://www.ee.surrey.ac.uk/CVSSP/xm2vtsdb/，包含295個人，2360張正面圖，標注了68個關鍵點，大部分的圖像是無表情，而且在同樣的光照環境下。

AR Face Database發布于1998年，http://www2.ece.ohio-state.edu/~aleix/ARdatabase.html，包括126個人，超過4000張圖，標注了22個關鍵點。

FGVC-V2發布于2005年，https://www.nist.gov/programs-projects/face-recognition-grand-challenge-frgc，共466個人的4950張圖，包括均勻的光照條件下的高質量圖和不均勻的光照條件下的低質量圖，標注了5個關鍵點。

LFPW人臉數據庫，發布于2011年， https://neerajkumar.org/projects/face-parts/，包括1432張圖像，標注了29個關鍵點。

Helen人臉數據庫，發布于2012年，

http://www.ifp.illinois.edu/~vuongle2/helen/，包括訓練集和測試集，測試集包含了330張人臉圖片，訓練集包括了2000張人臉圖片，都被標注了68個特征點。

IBUG，發布于2013年，https://ibug.doc.ic.ac.uk/resources/facial-point-annotations/，這是隨著300W一起發布的數據集，包含了135張人臉圖片，每張人臉圖片被標注了68個特征點。

2.2 AFLW

數據集地址：https://www.tugraz.at/institute/icg/research/team-bischof/lrs/downloads/aflw/

AFLW(Annotated Facial Landmarks in the Wild)是一個包括多姿態、多視角的大規模人臉數據庫，一般用于評估面部關鍵點檢測效果，圖片來自于flickr的爬取。總共有21,997張圖，25,993張面孔，每張人臉標注21個關鍵點，共380k個關鍵點，由于是肉眼標記，不可見的關鍵點不進行標注。

除了關鍵點之外，還提供了矩形框和橢圓框的臉部位置標注，其中橢圓框的標注方法與FDDB相同。另外還有從平均3D人臉重建提供的3D的人臉姿態角標注。

大部分圖像是彩色圖，也有少部分是灰度圖，59%為女性，41%為男性，這個數據集非常適合做多角度多人臉檢測，關鍵點定位和頭部姿態估計，是關鍵點檢測領域里非常重要的一個數據集。

2.3 300W

數據集地址：https://ibug.doc.ic.ac.uk/resources/300-W/

發布于2013年，包含了300張室內圖和300張室外圖，其中數據集內部的表情，光照條件，姿態，遮擋，臉部大小變化非常大，因為是通過Google搜索“party”, “conference”等較難等場景搜集而來。該數據集標注了68個關鍵點，一定程度上在這個數據集能取得好結果的，在其他數據集也能取得好結果。

300-W challenge是非常有名的用于評測關鍵點檢測算法的基準，在ICCV 2013舉辦了第一次人臉關鍵點定位競賽。300-W challenge所使用的訓練數據集實際上并不是一個全新的數據集，它是采用了半監督的標注工具，將AFLW，AFW，Helen，IBUG，LFPW，FRGC-V2，XM2VTS等數據集進行了統一標注然后得到的，關鍵信息是68個點。

在ICCV2015年拓展成了視頻標注，即300 Videos in the Wild (300-VW)，數據集地址是https://ibug.doc.ic.ac.uk/resources/300-VW/，感興趣讀者可以關注。

2.4 MTFL/MAFL

數據集地址：http://mmlab.ie.cuhk.edu.hk/projects/TCDCN.html

發布于2014年，這里包含了兩個數據集。Multi-Task Facial Landmark (MTFL) 數據集包含了12,995 張臉，5個關鍵點標注，另外也提供了性別，是否微笑，是否佩戴眼鏡以及頭部姿態的信息。Multi-Attribute Facial Landmark (MAFL) 數據集則包含了20,000張臉，5個關鍵點標注與40個面部屬性，實際上后面被包含在了Celeba數據集中，該數據集我們后面會進行介紹。這兩個數據集都使用TCDCN方法將其拓展到了68個關鍵點的標注。

2.5 WFLW數據集

數據集地址：https://wywu.github.io/projects/LAB/WFLW.html

WFLW包含了10000張臉，其中7500用于訓練，2500張用于測試，共98個關鍵點。除了關鍵點之外，還有遮擋，姿態，妝容，光照，模糊和表情等信息的標注。

由于人臉關鍵點是整個人臉任務中非常基礎和重要的，所以在工業界有更多的關鍵點的標注，目前96點，106點都是非常常見的。因為商業價值，這些數據集一般不會進行公開。

03 人臉識別

人臉檢測和關鍵點檢測都是比較底層的任務，而人臉識別是更高層的任務，它就是要識別出檢測出來的人臉是誰，完成身份比對等任務，也是人臉領域里被研究最多的任務。

3.1 FERET

數據集地址：http://www.nist.gov/itl/iad/ig/colorferet.cfm

發布于1993年至1996年，由FERET項目創建，包含14,051張多姿態，不同光照的灰度人臉圖像，每幅圖中均只有一個人臉，在早期的人臉識別領域應用非常廣泛。

3.2 Yale/YaleB

數據集地址：http://vision.ucsd.edu/~iskwak/ExtYaleDatabase/Yale%20Face%20Database.htm

Yale人臉數據庫與YALE人臉數據庫B分別發布于1997年和2001年，這是兩個早期的灰度數據集。Yale人臉數據庫由耶魯大學計算視覺與控制中心創建，包含15位志愿者的165張圖片，包含光照，表情和姿態的變化。

后面將其拓展到YALE人臉數據庫B，包含了10個人的5760幅多姿態，多光照的圖像。具體包括9個姿態，64種光照變化，在實驗室嚴格控制的條件下進行。雖然每個人的圖像很多，但是由于采集人數較少,該數據庫的進一步應用受到了比較大的限制。

3.3 CAS-PEAL

數據集地址：http://www.jdl.ac.cn/peal/

發布于2008年，CAS-PEAL數據集是中國科學院收集建立的，它主要是為了提供一個大規模的中國人臉數據集用于訓練和評估對應東方人的算法，有灰度圖和彩色圖兩個版本。

目前，CAS-PEAL人臉數據庫由1040個人（595名男性和445名女性）的99594張圖像組成，在特定環境下具有不同的姿勢、表情、照明條件、表情以及是否佩戴眼鏡等信息。對于每個被拍攝的人，通過9個相機來同時捕獲不同姿態的圖像，平均每一個人采集了約900張圖像。

3.4 LFW數據集

數據集地址：http://vis-www.cs.umass.edu/lfw/index.html#download

發布于2007年，Labeled Faces in the Wild(簡稱LFW)，是為了研究非限制環境下的人臉識別問題而建立，這是比較早期而重要的測試人臉識別的數據集，所有的圖像都必須要能夠被經典的人臉檢測算法VJ算法檢測出來。

該數據集包含5749個人的13233張全世界知名人士的圖像，其中有1680人有2張或2張以上人臉圖片。它是在自然環境下拍攝的，因此包含不同背景、朝向、面部表情。

3.5 CMU PIE

CMU PIE數據集地址：https://www.ri.cmu.edu/publications/the-cmu-pose- illumination-and-expression-pie-database-of-human-faces/ Multi-PIE數據集地址： http://www.cs.cmu.edu/afs/cs/project/PIE/MultiPie/Multi-Pie/Home.html

CMU PIE數據集發布于2000年，PIE就是姿態(Pose)，光照(Illumination)和表情(Expression)的縮寫。包含68位志愿者的41,368張圖，每個人有13種姿態條件，43種光照條件和4種表情。其中的姿態和光照變化圖像也是在嚴格控制的條件下采集的，它在推動多姿勢和多光照的人臉識別研究方面具有非常大的影響力，不過仍然存在模式單一多樣性較差的問題。

為了解決這些問題，卡內基梅隆大學的研究人員在2009年建立了Multi-PIE數據集。它包含337個人，在15個角度，19個照明條件和不同的表情下記錄，最終超過750000個圖像。由于圖像質量較高，原始的圖片大小超過了300G，需要購買。

3.6 Pubfig

數據集地址：http://www.cs.columbia.edu/CAVE/databases/pubfig/

發布于2010年，這是哥倫比亞大學的公眾人物臉部數據集，包含有200個人的58797張人臉圖像，主要用于非限制場景下的人臉識別。與LFW相比，這個數據集更大，但是人更少，每個人的圖片更多。

3.7 MSRA-CFW

數據集地址：http://research.microsoft.com/en-us/projects/msra-cfw/

發布于2012年，由MSRA收集整理，包含1,583個人的202,792張圖像，采用了自動標注的方法。

3.8 CASIA WebFace

數據集地址：http://classif.ai/dataset/casia-webface/

發布于2014年，這是李子青實驗室開放的國內非常有名的數據集，包含10575個人494414張圖。

3.9 Celeba

數據集地址：http://mmlab.ie.cuhk.edu.hk/projects/CelebA.html

發布于2015年，這是由香港中文大學湯曉鷗教授實驗室發布的大型人臉識別數據集。該數據集包含10,177個名人的202,599張人臉圖片，人臉屬性有40多種，包括是否戴眼鏡，是否微笑等，主要用于人臉屬性的識別。

3.10 FaceScrub

數據集地址：http://vintage.winklerbros.net/facescrub.html

發布于2016年，總共包含了530個人的106863張圖片，其中男性女性各占265，每個人大概200張圖。

3.11 UMDFaces

數據集地址：http://www.umdfaces.io/

發布于2016年，這個數據集有靜態圖和視頻兩部分，其中靜態圖包含8277個人的367,888張臉，視頻包含22,075個視頻中的3,107個人的3,735,476張圖。同時標注了21個關鍵點，性別信息，以及人的3個姿態。

3.12 MegaFace

數據集地址：http://megaface.cs.washington.edu/dataset/download.html

發布于2016年，MegaFace數據集包含一百萬張圖片，共 690000個不同的人，所有數據都是華盛頓大學從Flickr組織收集。

這是第一個在一百萬規模級別的面部識別算法測試基準。現有臉部識別系統仍難以準確識別超過百萬的數據量。為了比較現有公開臉部識別算法的準確度，華盛頓大學在2017年底開展了一個名為“MegaFace Challenge”的公開競賽。這個項目旨在研究當數據庫規模提升數個量級時，現有的臉部識別系統能否維持可靠的準確率。

3.13 MS-Celeb-1M

數據集地址：https://www.msceleb.org/

發布于2016年，這是目前世界上規模最大、水平最高的圖像識別賽事之一，由MSRA（微軟亞洲研究院）發起，每年定期舉辦。參賽隊伍被要求基于微軟云服務，搭建包括人臉檢測、對齊、識別的完整人臉識別系統，而且識別系統必須先通過遠程實驗評估。

訓練集合包含10M 圖片，具體的操作是從1M個名人中，根據他們的受歡迎程度，選擇100K個。然后，利用搜索引擎，給100K個人，每人搜大概100張圖片。共得到100K*100=10M個圖片。測試集包括1000個名人，這1000個名人來自于1M個明星中隨機挑選，每個名人大概有20張圖片。

3.14 VGG Face

數據集地址： http://www.robots.ox.ac.uk/~vgg/data/vgg_face/ http://www.robots.ox.ac.uk/~vgg/data/vgg_face2/

VGG Face發布于2015年，包括2622個對象，每個對象擁有約1000副靜態圖像；

VGG Face2發布于2017年，包含了9131個人的3.31百萬張圖片，平均每一個人有362.6張圖。這個數據集人物ID較多，且每個ID包含的圖片個數也較多。數據集覆蓋了大范圍的姿態、年齡和種族，其中約有59.7%的男性。除了身份信息之外，數據集還包括人臉框，5個關鍵點、以及估計的年齡和姿態。

3.15 IMDB-Face

數據集地址：https://github.com/fwang91/IMDb-Face#data-download

發布于2018年，包含590000個人，17000000張圖，是現在人臉最多的數據集了。

3.16 YouTube Faces

數據集地址：http://www.cs.tau.ac.il/~wolf/ytfaces/results.html

發布于2011年，它包含了1,595個人的3,425段視頻，最短的為48幀，最長的為6070幀。和LFW不同的是，在這個數據集下，算法需要判斷兩段視頻里面是不是同一個人。有不少在照片上有效的方法，在視頻上未必有效/高效。

還有一些其他的視頻數據集，此處不再一一介紹，感興趣可以自行關注。

3.17 IARPA Janus

數據集地址：https://www.iarpa.gov/index.php/research-programs/janus

這是進幾年開啟的人臉識別比賽，由美國國家技術標準局（NIST）在2015年召開的CVPR上發布，當時是IJB-A人臉驗證與識別數據集, 包含500個對象的5396副靜態圖像和20412幀的視頻數據。

被拍攝者來自世界不同國家、地區和種族，具有廣泛的地域性，在完全無約束環境下采集的。面部姿態變化巨大，光照變化劇烈，所以難度非常大。

另外，數據集引入了“模板”的概念，一個模板就是一個集合，集合包括被拍攝者的靜態圖像和視頻片段，最終的人臉驗證與識別不是基于單個圖像，而是基于集合對集合。

此后，2017年迭代到IARPA Janus B，2018年迭代到IARPA Janus C，包括了138000人臉，11000個視頻，10000張非人臉，在這里拿下好名次，才能稱為真正的人臉識別好手。

人臉識別雖然在百萬級別的數據集如MegaFace等都已經達到相當高的水準，但是在現實世界中面臨各種姿態，分辨率，遮擋等問題，仍然有較大的研究空間。

04 人臉表情

人臉表情識別(facial expression recognition, FER)是人臉屬性識別技術中的一個重要組成部分，在人機交互、安全控制、直播娛樂、自動駕駛等領域都非常具有應用價值，因此在很早前就已經得到了研究。

4.1 JAFFE

數據集鏈接：http://www.kasrl.org/jaffe.html

1998年發布，這是比較小和老的數據庫。該數據庫是由10位日本女性在實驗環境下根據指示做出各種表情，再由照相機拍攝獲取的人臉表情圖像。整個數據庫一共有213張圖像，10個人，全部都是女性，每個人做出7種表情，這7種表情分別是：sad, happy, angry, disgust, surprise, fear, neutral，每組大概20張樣圖。

4.2 KDEF與AKDEF

數據集地址：http://www.emotionlab.se/kdef/

發布于1998年，這個數據集最初是被開發用于心理和醫學研究目的。它主要用于知覺，注意，情緒，記憶等實驗。在創建數據集的過程中，特意使用比較均勻，柔和的光照，被采集者身穿統一的T恤顏色。這個數據集，包含70個人，35個男性，35個女性，年齡在20至30歲之間。沒有胡須，耳環或眼鏡，且沒有明顯的化妝。7種不同的表情，每個表情有5個角度。總共4900張彩色圖，尺寸為562*762像素。

4.3 GENKI

數據集地址：http://mplab.ucsd.edu

發布于2009年，GENKI數據集是由加利福尼亞大學的機器概念實驗室收集。該數據集包含GENKI-R2009a，GENKI-4K，GENKI-SZSL三個部分。GENKI-R2009a包含11159個圖像，GENKI-4K包含4000個圖像，分為“笑”和“不笑”兩種，每個圖片擁有不同的尺度大小，姿勢，光照變化，頭部姿態，可專門用于做笑臉識別。這些圖像包括廣泛的背景，光照條件，地理位置，個人身份和種族等。

4.4 RaFD

數據集地址：http://www.socsci.ru.nl:8180/RaFD2/RaFD?p=main

發布于2010年，該數據集是Radboud大學Nijmegen行為科學研究所整理的，這是一個高質量的臉部數據庫，總共包含67個模特，其中20名白人男性成年人，19名白人女性成年人，4個白人男孩，6個白人女孩，18名摩洛哥男性成年人。總共8040張圖，包含8種表情，即憤怒，厭惡，恐懼，快樂，悲傷，驚奇，蔑視和中立。每一個表情，包含3個不同的注視方向，且使用5個相機從不同的角度同時拍攝的。

4.5 CK

數據集地址：http://www.pitt.edu/~emotion/ck-spread.htm

發布于2010年，這個數據庫是在Cohn-Kanade Dataset的基礎上擴展來的，它包含137個人的不同人臉表情視頻幀。這個數據庫比起JAFFE要大的多。而且也可以免費獲取，包含表情的標注和基本動作單元的標注。

4.6 Fer2013

數據集地址：https://www.kaggle.com/c/challenges-in-representation-learning-facial-expression-recognition-challenge/data

發布于2013年，該數據集包含共26190張48*48灰度圖，圖片的分辨率比較低，共6種表情。分別為0 anger生氣、1 disgust 厭惡、2 fear 恐懼、3 happy 開心、4 sad 傷心、5 surprised 驚訝、6 normal 中性。

4.7 RAF

數據集地址：http://www.whdeng.cn/RAF/model1.html

發布于2017年，包含總共29672 張圖片，其中7個基本表情和12 個復合表情，而且每張圖還提供了5個精確的人臉關鍵點，年齡范圍和性別標注。

4.8 EmotionNet

數據集地址：http://cbcsl.ece.ohio-state.edu/EmotionNetChallenge/

發布于2017年，共950,000張圖，其中包含基本表情，復合表情，以及表情單元的標注。

另外還有一些需要申請的數據集如SCFace等就不再介紹，表情識別目前的關注點已經從實驗室環境下轉移到具有挑戰性的真實場景條件下，研究者們開始利用深度學習技術來解決如光照變化、遮擋、非正面頭部姿勢等問題，仍然有很多的問題需要解決。

另一方面，盡管目前表情識別技術被廣泛研究，但是我們所定義的表情只涵蓋了特定種類的一小部分，尤其是面部表情，而實際上人類還有很多其他的表情。表情的研究相對于顏值年齡等要難得多，應用也要廣泛的多，相信這幾年會不斷出現有意思的應用。

05 人臉年齡與性別

人臉的年齡和性別識別在安全控制，人機交互領域有著非常廣泛的使用，而且由于人臉差異性，人臉的年齡估計仍然是一個難點。

5.1 FGNet

數據集地址：http://www-prima.inrialpes.fr/FGnet/html/benchmarks.html

發布于2000年，這是第一個意義重大的年齡數據集，包含了82個人的1002張圖，年齡范圍是0到69歲。

5.2 CACD2000

數據集地址：http://bcsiriuschen.github.io/CARC/

發布于2013年，這是一個名人數據集，包含了2,000個人的163446張名人圖片，其范圍是16到62歲。

5.3 Adience

數據集地址：https://www.openu.ac.il/home/hassner/Adience/data.html#frontalized

發布于2014年，這是采用iPhone5或更新的智能手機拍攝的數據，共2284個人26580張圖像。它的標注采用的是年齡段的形式而不是具體的年齡，其中年齡段為（0-2, 4-6, 8-13, 15-20, 25-32, 38-43, 48-53, 60+）。

5.4 IMDB-wiki

數據集地址：https://data.vision.ee.ethz.ch/cvl/rrothe/imdb-wiki/

發布于2015年，IMDB-WIKI人臉數據庫是由IMDB數據庫和Wikipedia數據庫組成，其中IMDB人臉數據庫包含了460,723張人臉圖片，而Wikipedia人臉數據庫包含了62,328張人臉數據庫，總共523,051張人臉數據。都是從IMDb和維基百科上爬取的名人圖片，根據照片拍攝時間戳和出生日期計算得到的年齡信息，以及性別信息，對于年齡識別和性別識別的研究有著重要的意義，這是目前年齡和性別識別最大的數據集。

5.5 MORPH

數據集地址：http://www.faceaginggroup.com/morph/

發布于2017年，包括13,000多個人的55,000張圖，年齡范圍是16到77。

06 人臉姿態

人臉的姿態估計在考勤，支付以及各類社交應用中有非常廣泛的應用。

6.1 3DMM

數據集地址：https://faces.dmi.unibas.ch/

發布于1999年，這是隨著著名的3DMM模型一起誕生的數據集，通過結構光和激光進行采集，未處理前每一個模型由70000個點描述，處理后由53490個點描述。

在數據庫的處理過程中，將所有模型的每一個點的位置都進行了精確一一匹配，也就是說，每一個點都有實際的物理意義，可能有右嘴角，可能是鼻尖。

數據集包含100個男性和100個女性的3D掃描數據，是人臉三維重建領域影響最大的數據集，堪稱3D人臉領域的“hello world”。在該數據集中，還標注了表情系數，紋理系數，68個關鍵點的坐標，以及相機的7個坐標。

6.2 Bosphorus

數據集地址：http://bosphorus.ee.boun.edu.tr/default.aspx

發布于2009年，這是一個研究三維人臉表情的數據集，通過結構光采集。包含105個人， 4666張人臉，每一個人臉有35種表情以及不同的仿真姿態。

6.3 BIWI

數據集地址：http://www.vision.ee.ethz.ch/datasets/b3dac2.en.html

發布于2010年，包含1000個高質量的3D掃描儀和專業麥克風采集的3D數據,其中14個人，6個男性，8個女性。采集以每秒25幀的速度獲取密集的動態面部掃描。

6.4 HPD

數據集地址：http://www-prima.inrialpes.fr/perso/Gourier/Faces/HPDatabase.html

發布于2013年，為灰度圖數據集，在實驗室采集，標注包括垂直角度和水平角度。包括5580張圖，其中372個人，每個人15張圖。

6.5 BIWI kinect

數據集地址：https://data.vision.ee.ethz.ch/cvl/gfanelli/head_pose/head_forest.html

發布于2013年，使用kinect進行采集，包含20個人的15000張圖片，有3D的標注，圖片大小為640*480。

6.6 FaceWarehouse

數據集地址：http://www.kunzhou.net/#facewarehouse

發布于2014年，這是浙江大學周昆實驗室開源的3D人臉數據集，與3DMM數據集的構建相似，不過數據集是中國人。共包含了150個人，年齡從7-80歲。相比于3DMM數據集，它增加了表情，每個人包含了20種不同的表情，1個中性表情，19個張嘴，微笑等表情。

6.7 TMU

發布于2015年，這是一個面部視頻數據庫，包含31,500個100名志愿者的視頻。每個志愿者在7個照明條件下由9組同步網絡攝像頭拍攝，并被要求完成一系列指定的動作，有不同的遮擋，照明，姿勢和表情的面部變化。與現有數據庫相比，THU人臉數據庫提供了具有嚴格時間同步的多視圖視頻序列，從而能夠對注視校正方法進行評估。

6.8 UPNA

數據集地址：http://gi4e.unavarra.es/databases/hpdb/

發布于2016年，10個人，其中6個男性，4個女性，每個人12個視頻，6個規定的動作，6個自由的動作。分辨率1280*720，30fps，每一個視頻10s，有3D標注信息。

6.9 300W-LP

數據集地址：http://www.cbsr.ia.ac.cn/users/xiangyuzhu/projects/3DDFA/main.htm

這是基于300W數據集和3DMM模型仿真得到的3D數據集，這是3D領域里使用最大，使用最廣泛的仿真數據集，包含了68個關鍵點，相機參數以及3DMM模型的系數的標注。

其他的還有USF Human ID 3-D Database，ICT-3DHP database，IDIAP等，讀者可以線下了解。由于3D數據集的構建代價很高，所以仿真數據集經常被使用，即通過從2D圖像構建3D模型然后進行姿態仿真。當然另一方面，研究擺脫3D數據集的運用的方法也不斷被提出，而且精度已經和基于3D數據集的方法可以比拼，因此這可能也是未來的重要研究方向。

07 其他數據集

人臉的應用領域還有美顏，風格化等，我們不再一一展開介紹，下面介紹在顏值和化妝領域比較重要的兩個數據集。

7.1 SCUT-FBP

數據集地址：https://github.com/HCIILAB/SCUT-FBP5500-Database-Release

發布于2017年，數據集共5500個正面人臉，年齡分布為15-60，全部都是自然表情。包含不同的性別分布和種族分布（2000亞洲女性，2000亞洲男性，750高加索男性，750高加索女性），數據分別來自于數據堂，US Adult database等。每一張圖由60個人進行評分，共評為5個等級，這60個人的年齡分布為18～27歲，均為年輕人。適用于基于apperance/shape等的模型研究。同時，每一個圖都提供了86個關鍵點的標注。

7.2 MakeUp

數據集地址：http://www.antitza.com/makeup-datasets.html

發布于2012年，這是一個女性面部化妝數據集，可用于研究化妝對面部識別的影響。

總共包括4個子數據集：

YMU（YouTube化妝）：這是從YouTube視頻化妝教程中獲取的面部圖像，

YouTube網址為http://www.antitza.com/URLs_YMU.txt。

VMU（虛擬化妝）：這是將從FRGC數據庫（http://www.nist.gov/itl/iad/ig/frgc.cfm）

中采集的高加索女性受試者的面部圖像，使用公開的軟件（http://www.taaz.com）來合成的虛擬化妝樣本。

MIW：從互聯網獲得有化妝和沒有化妝的受試者的前后對比面部圖像。

MIFS：化妝誘導面部欺騙數據集：這是從YouTube化妝視頻教程的107個化妝。每一組包含3張圖片，其中一張圖片是目標的化妝前的主體圖像，一個是化妝后的，另一個是其他人化同樣的妝試圖進行欺騙。

總結

以上是生活随笔為你收集整理的「数据集」一文道尽人脸数据集的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：机器学习的练功心法（三）——特征工程
下一篇：戴口罩人脸数据集和戴口罩人脸生成方法