face recognition[翻译][深度学习理解人脸]
本文譯自《Deep learning for understanding faces: Machines may be just as good, or better, than humans》。為了方便,文中論文索引位置保持不變,方便直接去原文中找參考文獻。
近些年深度卷積神經網絡的發展將各種目標檢測和識別問題大大的向前推進了不少。這同時也得益于大量的標注數據集和GPU的使用,這些方面的發展使得在無限制的圖片和視頻中理解人臉,自動執行諸如人臉檢測,姿態估計,關鍵點定位和人臉識別成為了可能。本文中,主要介紹人臉識別上應用的一些深度學習方法。討論了一個自動人臉識別系統中的各個不同模塊以及深度學習在其中扮演的角色。然后討論了下在人臉識別上深度卷積神經網絡尚未解決的一些問題。
1.我們能從人臉上學到什么?
人臉分析是CV中一個有挑戰的事情,也一直被研究了20多年[1]。其目標在于從人臉上提取盡可能多的信息,如位置,姿態,性別,ID,年齡,表情等等。這些技術可以應用在如視頻監控,手機的主動認證,支付驗證等等。
本文主要介紹了近些年基于深度學習的自動人臉驗證和識別系統。其中主要包含了三個模塊:
- 人臉檢測,用來在圖像或者視頻中進行人臉的定位。對于一個足夠魯棒的系統來說,人臉檢測需要在可變姿態,光照,尺度下進行檢測。同時人臉的定位和人臉框的大小應該盡可能精確,不要框到背景部分
- 關鍵點檢測,用來定位重要的人臉關鍵點,如眼睛中點,鼻尖,嘴巴兩個嘴角。這些點可以用來做人臉對齊,將人臉歸一化到規范的坐標系上,以此減輕人臉內在的旋轉和縮放帶來的影響
- 特征描述,用于從對齊的人臉上提取足夠辨識的信息。
在給定人臉表征基礎上,可以通過一個度量方式去計算人臉之間的相似性得分,如果該得分低于閾值,則證明這2個人臉來自同一個人。從1990年代開始,就有很多已經很好工作的人臉驗證和識別的方法,不過他們都基于約束條件下。然而這些方法一旦在姿態,光照,分辨率,表情,年齡,背景干擾和遮擋等情況下,準確度就急速下降。而且,視頻監控等場景下,目標需要從上百個低分辨率的視頻中驗證,這就對算法的魯棒性和實時性提出更嚴格的要求。
為了解決這些問題,研究者將深度學習引入進來,用來做所需要的特征提取。DCNN已經被證明在圖像分析[3]任務上十分強大。在這近5年,DCNN已經用來解決許多CV的問題,如目標識別[3]-[5]和目標檢測[6]-[8]。一個典型的DCNN就是多個卷積層和RELU激活函數不斷層級重復的網絡結構,其能夠學到豐富而且具有判別性的表征,DCNN近期已經成功用在如人臉檢測[2,9,10],關鍵點定位[2,10,11],人臉識別和驗證[12]。其中一個關鍵的成功因素仍歸功于大量標記的數據如:
- 用于人臉識別的數據集CASIA-WebFace[13],MegaFace[14,15],NS-Celeb-1M[16],VGGFace[17]
- 用于人臉檢測的數據集WIDER FACE[18]
這些數據集就包含了豐富的可變性,如姿態,光照,表情,遮擋等等。這些都能讓DCNN更魯棒的去學習這些變化并提取其中有價值的特征。
2.在無約束圖像中的人臉檢測
人臉檢測是人臉識別流程中關鍵的一環,給定一個圖片,人臉檢測需要提取圖片中所有的人臉位置,并且返回每個人臉的框坐標。之前在無約束人類檢測中,使用的特征如Haar 小波和HOG特征等都無法在不同分辨率,視角,光照,表情,皮膚顏色,遮擋,化妝等情況下抓取顯著的人臉信息。相對于分類器而言,特征提取不好導致的影響會更大。不過隨著近些年的深度學習技術和GPU的使用,DCNN可以更好的特征提取。如[3]中所述,在一個大型數據集上預訓練的DCNN可以成為一個比較有意義的特征提取器。然后這些深度特征可以用來廣泛的作為通常目標和人臉的檢測。基于DCNN的人臉檢測方法可以分成兩個大類: 基于區域的和基于劃框的。
基于區域的
基于區域的方法是生成一堆候選框(一張圖片大概2k個),然后DCNN用來分類那個是還不是包含人臉的候選框。其中大多數提取候選框的方式是基于[2,10,19]。比如采用slective search[20]先進行候選框生成,然后用DCNN進行特征提取,并用分類器去分類這些候選框是否是人臉。HyperFace[10]和All in one face[2]就是基于區域的方法的。
Faster rcnn
最近主流的特征提取器就是faster rcnn[19]了,其可以同時回歸每個人臉候選框的邊界坐標。Li[21]等人基于faster rcnn的框架提出了一個多任務人臉檢測,其將一個DCNN和一個三維平均臉模型進行整合,這個三維平均臉模型可以用來提升基于RPN的人臉檢測性能,這極大的增強了人臉歸一化后的候選框修剪和細化。同樣的,chen[22]通過訓練一個多任務RPN去進行人臉和關鍵點檢測,在減少冗余人臉候選框基礎上生成了高質量候選框,盡可能保持高召回率和準確率之間的平衡,這些候選框隨后通過檢測到的關鍵點進行歸一化,然后使用一個DCNN人臉分類器去改善性能。
基于劃框的
基于劃框的方法是在給定尺度基礎上,在feature map的每個位置上計算對應的人臉檢測得分和候選框坐標。該方法比區域方法要快,而且可以只適用卷積操作就能實現。不同尺度上進行檢測通常是通過構建一個圖像金字塔來完成。使用該方式的有DP2MFD[9]和DDFD[25],Faceness[26]在全人臉響應基礎上加上半臉響應,并基于空間配置將它們結合起來,最后去決定人臉得分,Li[27]提出了一個在多分辨率級聯結構,可以快速的在低分辨率階段上拒絕背景目標,然后在高分辨率階段就只剩下少量高難度的候選框了
single shot 檢測器
Liu[8]提出了ssd結構,該ssd結構是基于劃框的一種檢測器,它不通過生產圖像金字塔形式,而是利用了網絡結構本身內在的金字塔結構,通過在不同網絡層進行池化,將其輸送到最后一層來完成人臉分類和候選框回歸。因為檢測是一次前向傳輸,所以SSD總的計算時間要低于faster rcnn。也有一些基于SSD這種想法的網絡結構,如Yang提出ScaleFace[28]從網絡的不同層提取尺度信息,然后將它們融合到最后一層以完成人臉檢測。Zhang提出S3FD[29],其使用一個尺度均衡的框架和尺度補償的錨點匹配策略來提升對小臉的檢測效果。圖1就是該方法的架構。
因有大量可以訓練的無約束人臉檢測數據集的存在,如FDDB[30]數據集是主流的無約束人臉檢測數據集,它包含了2,845張圖片,一共5,171張人臉,都來自yahoo.com的新聞報道。MALF[31]數據集包含了5,250張高分辨率圖像,其中包含了11,931張人臉,這些圖片來自Flickr和baidu搜索引擎。這些數據集都在遮擋,姿態,光照下有不少的變化。
WIDER[18]人臉數據集包含32,203張圖片,其中50%用于訓練,10%用于驗證。該數據集中的人臉在姿態,光照,遮擋,尺度上也有不少變化。基于該數據集訓練的人臉檢測去獲得了更好的性能[19,23,28,29,32,33].該數據集評估的結果揭示了,在擁擠的環境下尋找小臉仍然是一個挑戰。近期有Hu[33]等人提出的方法顯示上下文信息有助于檢測小臉。它可以從更低層級特征中抓取語義信息并且從更高層級特征中抓取上下文信息,從而去檢測小臉。如圖2.
因本文篇幅所限,這里就不討論傳統的人臉檢測方法了,可以參考[34],其中介紹了更多傳統的級聯方法和可變形部件模型(deformable part-based model,DPM)。另外,對于有多個臉的視頻,可以通過人臉關聯方式去對每個對象進行人臉追蹤。可以參考[12],其中有關于基于視頻的人臉識別。圖3(a)提供了基于FDDB數據集上不同人臉檢測方法的性能對比
?
3.關鍵點檢測和頭部角度檢測
人臉關鍵點檢測同樣也是人臉識別和驗證中一個重要的預處理部分。人臉關鍵點如眼睛中心,鼻尖,嘴角等,可以用來將人臉對齊到規范化坐標中,這樣的人臉歸一化有助于人臉識別[35]和屬性檢測。頭部姿態評估同樣也是基于姿態的人臉分析所需要的過程。這兩個問題近些年也有不少研究成果,大多數現有的人臉關鍵點定位方法用的無非是:
- 基于模型的方法:
- 基于級聯回歸的方法
wang[36]有個基于傳統方法的綜述,包含了主動外觀模型(active appearance model, AAM),主動形狀模型(active shape model, ASM),受限局部模型(constrained local model, CLM),和一些回歸方法如有監督下降方法(supervised descent method,SDM
)。Chrysos[37]同樣總結了在視頻下使用傳統人臉檢測方法進行人臉關鍵點追蹤的工作。這里我們只是總結近些年基于DCNN進行人流檢測的方法。
基于模型的
基于模型的方法,如AAM,ASM,CLM等,是在訓練過程中學習一個形狀模型,然后用它去擬合測試過程中新的人臉。如Antonakos [43]提出了一種方法,先從區域中提取多個塊,然后在塊之間使用多個基于圖的成對正態分布(高斯馬爾可夫隨機場)方式,對人臉的形狀進行建模。然而所學到的模型還是無法很好適應復雜的姿態,表情,光照下變化,同樣的,其對梯度下降優化中的初始化也十分敏感。所以,大家也考慮如何基于3維空間進行人臉對齊。Jourabloo提出PIFA[44],使用三維空間中進行級聯回歸的方式去預測三維到二維投影矩陣的系數和基準形狀系數。另一個來自Jourabloo[45]的工作是將人臉對其問題看成一個密度三維模型擬合問題,其中照相機映射居住和三維形狀參數都通過一個基于DCNN回歸器級聯的方式去評估。Zhu提出的3DDFA[46],采用一個密度三維人臉模型去擬合圖像,其中的深度數據采用Z-buffer方式去建模。
基于級聯回歸的方法
因為人臉對齊是一個回歸問題,所以近些年就提出了不少基于回歸的方法。通常而言,這些方法學習一個模型去直接將圖像外觀映射到目標輸出上。然而,這些方法依賴于局部描述子的魯棒性。Sun[47]提出一個基于精心設計的DCNN的級聯方法,在每一個階段,多個網絡的輸出被融合,從而進行關鍵點的評估,從而獲得不錯的效果。Zhang[48]提出一個從粗粒度到細粒度的自動編碼器網絡,其通過級聯幾個序列堆疊的自動編碼器網絡(SAN),前面的SAN用于預測每個人臉關鍵點的粗略位置,然后后續的SAN通過在更高分辨率基礎上基于當前檢測的結果提取局部特征,并將該特征作為網絡的輸入,從而進行關鍵點的修正。Kumar[11]通過精心設計一個單一的DCNN結構去預測關鍵點,并獲得了更好的效果,如圖4。
Xiong[49]提出了領域依賴下降映射(domain-dependent descent map)。Zhu[38]觀察到優化基本形狀系數和投影之間并不是直接因果關系,因為較小的參數誤差不一定等于較小的對準誤差。因此他們提出了CCL[38],即基于頭姿態和領域選擇的回歸器(head-pose-based and domain selective regressors),首先基于頭部姿態將優化領域劃分到多個方向上,并將多個領域回歸器的結果通過組成評估函數(composition estimator function)結合起來。Trigeorigis[50]提出基于卷積遞歸神經網絡對回歸器進行端到端的學習,并將其用在級聯回歸框架中。他避免了獨立訓練每個回歸器的問題。Bulat[51]提出了一個DCNN結構,首先進行人臉的部分檢測,即使用DCNN的前面幾層的特征生成的得分map進行粗略的定位每個人臉關鍵點,然后通過一個回歸分支去對關鍵點進行修正。因此該算法對檢測到的人臉框質量不敏感,而且系統可以端到端的訓練。Kumar[52]同樣提出了一個在無約束條件下高效的去做關鍵點估計和姿態預測,其主要通過學習一個熱力圖的方式去解決人臉對齊問題,這里熱力圖中的值表示概率值,意在表示在具體位置上某個點存在的概率。
?
另一邊,不同的數據集也提供了不同的關鍵點標注,300 Faces in the Wild database(300 W) [53] 已經成為一個benchmark,用于衡量不同的關鍵點方法的性能,它包含了超過12000張帶有68個關鍵點的圖片,包括Labeled Face Parts in the Wild[36], Helen [36], AFW [36], Ibug [36], and 600 test images.(i.e., 300 indoor and 300 outdoor.)
除了使用二維變換進行面部對齊之外,Hassner等 [54]提出了一種在通用三維人臉模型的幫助下使面部正面化的有效方法。 然而,該方法的有效性也高度依賴于檢測到的面部關鍵點質量(即,當面部關鍵點質量差時,該方法通常會引入錯誤信息)。另外,也有不少方法是基于多任務(multitask learning,MTL)角度去做人臉檢測,它們都是同時訓練一個人臉檢測和對應的人臉關鍵點估計。MTL有助于網絡訓練更魯棒的特征,因為網絡得到了額外的監督。例如從關鍵點獲取的眼睛中心和鼻尖有助于網絡判別人臉的結構。Zhang[32],Chen[22],Li[21]和HyperFace[10]都采用這樣的思路,All in one face[2]基于MTL,將任務擴展到人臉驗證,性別,笑容和年齡的估計上,圖3(b)展現了基于AFW[55]數據集下不同算法對關鍵點估計的性能對比。
4.人臉識別和驗證
這部分介紹關于人臉驗證和識別的工作,圖5中,介紹了使用DCNN進行人臉驗證和識別的訓練及測試流程。
在其中有2個重要的組成部分:
?
- 魯棒的人臉表征;
- 一個判別分類模型(人臉識別)或者相似性度量(人臉驗證)。
因為本文只專注深度學習的方法,而[56]綜述中介紹了基于傳統方法,特征上如LBP,Fisher向量等,度量學習上如one-shot similarity(oss),Mahalanobis度量學習,cosine度量學習,large-margin最近鄰,基于屬性的分類器和聯合貝葉斯(joint bayesian,JB)等。
4.1 使用深度學習對人臉進行魯棒的特征學習
在人臉識別系統中,學習具有不變性和判別性的特征表征是很關鍵的一步。深度學習方法已經展示出可以在非常大的數據集上學到緊湊而具有判別性的表征。這里先總結下一些使用深度學習做特征表征學習的方法。
Huang[57]等人拋棄了傳統的手動設計特征的方法如LBP等,而是提出基于局部卷積受限玻爾茲曼機上采用卷積深度置信網去學習人臉表征。他們首先基于自然場景下未標記的圖片數據集,在無監督基礎上學習有用的表征,然后通過分類器(SVM)和度量學習方法(OSS)將這些學到的表征用在人臉驗證和識別上。該方法在未使用大規模標記人臉數據集訓練的情況下,在LFW數據集上的結果也十分滿意。
在早期基于三維空間的DCNN人臉識別的應用是由Taigman提出的DeepFace[58]。在該方法中,使用一個九層的DNN去學習人臉表征,其中包含了超過120百萬個參數,且使用了未權重共享的局部連接層,而不是標準的卷積層。采用的訓練集是包含4百萬張人臉,其中超過4000個ID的數據集。
因為收集大規模標注數據集十分耗時,Sun提出了DeepID結構[59-61],采用聯合貝葉斯方式(JB)去做人臉驗證,其中利用了集成學習的方法,里面都是相對DeepFace而言,更淺且更小的深度卷積網絡(每個DCNN包含四個卷積層,輸入大小為39×31×1),其使用的數據集是10177個目標的202599張圖片。基于大量不同ID的數據集和DCNN基于不同局部和全局人臉塊的訓練,是的DeepID學到了具有判別性和信息性的人臉表征。該方法也是首次在LFW數據集上超過人類的方法。
Schroff提出一個基于CNN的人臉識別方法叫做FaceNet[62],其直接優化人臉向量本身而不是如深度學習中那些bottleneck layer。他們基于大致對齊的匹配/非匹配面部塊的三元組,使用在線三元組挖掘(online triplet )方法。他們的數據集是一個大型的專有人臉數據集,由1億到2億個面部縮略圖組成,包含大約800萬個不同的ID。
Yang[13]收集了一個公開的大規模標注人臉數據集,CASIA-WebFace,從IMDB上收集的包含494414個人臉圖片10575個ID的數據集,網絡參數超過5百萬個。該模型也使用聯合貝葉斯方法,在LFW上獲得了滿意的結果。CASIA-WebFace也是一個主流數據集了。
Parkhi[17]同樣有一個公開的大規模人臉數據集,VGGFace,包含了2.6百萬個人臉,2600個ID。如同大名鼎鼎的VGGNet[24]可以用于做目標識別,他使用了triplet embedding來做人臉驗證。使用VGGFace訓練的DCNN模型在靜態人臉(LFW)和視頻人臉(youtube face, YTF)上都獲得了不錯的結果,且只適用單一的網絡結構,并且都已經開源。VGGFace數據集也是一個主流數據集。
在近些年的工作中,AdbAlmageed[63]通過基于DCNN,訓練正面,半輪廓和全輪廓姿態,以提高無約束環境下人臉識別性能,解決姿態變化的問題。Masi[64]利用一個3-D可變形模型去增強CASIA-WebFace數據集,通過大量合成的人臉去代替眾包注釋任務收集數據的過程。DIng[65]采用一個新的triplet loss,從不同網絡特征層基于人臉關鍵點周圍進行深度特征融合的方式達到了當時視頻上的人臉識別最好。Wen[66]提出了一個新的loss函數,其考慮了每個類別的中心點,并用它作為softmax loss的一個正則約束,基于殘差神經網絡去學習更具有判別性的人臉表征。Liu[67]基于修改的softmax loss,提出一個新穎的angular loss。它生成的判別性angular 特征表征是基于常見的相似的度量和cos距離進行優化的,該模型在基于更小的訓練集上訓練的結果獲得了可媲美最好模型的結果。Ranjan等 [68]也在最近發布的MS-Celeb-1M人臉數據集的子集上使用縮放的L2范數正則對softmax loss進行訓練,作者的工作顯示正則后的loss優化了類別之間的angular margin。該方法在IARPA benchmark A(IJB-A)數據集[69]上獲得了最好結果。除了常用的每幀視頻人臉表征的平均聚合,Yang提出一個神經聚合網絡[70]基于多個人臉圖像或者人臉視頻中人臉幀去執行動態權重聚合,獲得了 視頻人臉表征上簡潔而強大的表征。該方法在多個圖像集和視頻人臉集合上獲得了最好結果。Bodla[71]提出一個融合網絡,基于兩個不同的DCNN模型去組合人臉表征,提升識別性能。
4.2 人臉的判別性度量學習
從數據中學習一個分類器或者相似性度量是另一個提升人臉識別系統的關鍵部件。許多文獻中提出的方法本質上是使用人臉圖片或者人臉對中的標簽信息。Hu[72]用DNN結構去學習一個判別性度量。Schroff[62]和Parkhi[17]基于triplet loss優化了DCNN的參數,可以直接將DCNN特征嵌入到一個判別性子空間,從而提升了人臉驗證的結果。在[73]中,通過一個概率模型去學習判別性的低秩向量用于人臉驗證和聚類。宋 [74]提出了一種通過考慮樣本之間的逐對距離來批量充分的利用訓練數據的方法。
不同于基于DCNN的有監督人臉識別,Yang[75]提出在循環結構中聯合深度表征和圖像聚類。每個圖像在開始時被視為單獨的簇,并且使用該初始分組訓練深度網絡。深度表征和類別成員隨后通過迭代方式不斷修改,知道聚類個數達到了預定的值。該無監督方法學到的表征被證明可以用在各種任務上,如人臉識別,數據分類等等。Zhang[76]提出通過在深度表示自適應和聚類之間交替來聚類視頻中的人臉圖像。Trigeorgis[77]提出一個深度半監督的非負矩陣分解方式去學習隱藏的表征,這些表征允許他們自身根據給定人臉數據集不同的未知屬性(例如姿勢,情緒和身份)來解釋聚類。他們的方法同樣給予了困難人臉數據集上的解決希望。另一方面,Lin[78]提出了一種無監督聚類算法,該算法利用樣本之間的鄰域結構,隱式執行域自適應,以改進聚類性能。他們同樣用該方法制作了一個大規模噪音人臉數據集,如MS-Celeb-1M[79]。
4.3 實現
人臉識別可以劃分成2個任務:
- 人臉驗證;
- 人臉識別
對于人臉驗證來說,就是給定2張人臉圖片,系統去驗證這兩個人臉是不是來自同一個人。對于人臉識別,就是給定一個未知ID的人臉圖片,然后系統通過特征匹配的方式決定該圖片的ID是數據庫中的哪一個。
對于這兩個任務,獲得判別性和魯棒性的特征是十分重要的。對于人臉驗證,人臉首先需要通過人臉檢測檢測出來,然后通過檢測到的人臉關鍵點,采用相似性變換歸一化到規范的坐標上。然后每個人臉圖片再通過DCNN去獲取它的人臉表征,一旦該特征生產,就可以通過相似性度量去計算度量的得分。大多數使用的相似性度量有:
- 人臉特征之間的L2距離;
- cosine相似性,可以表示在angular 空間中特征之間相隔的距離。
同樣可以使用多個DCNN去融合網絡特征或者相似性得分,如DeepID架構[59-61]或者融合網絡[71]。對于人臉識別任務,訓練集中的人臉圖像會通過DCNN,然后每個ID的特征會存在數據庫中。當一個新的人臉圖片過來,先計算它的特征表征,然后計算與數據庫中每個特征的相似性得分。
4.4 人臉識別的訓練數據集
在表1中,我們總結了用來測試算法性能和訓練DCNN模型的公開數據集
?
- MS-Celeb-1M[79]是當前最大的的公開人臉識別數據集,包含超過10百萬個標記的人臉圖像,這1百萬個名人列表的前100000個ID有明顯的姿態,光照,遮擋和其他變化。因為該數據集同樣包含大量的標簽噪音,感興趣的讀者可以閱讀[78]。
- 對于其他數據集,如CelebA數據集[80],是包含了40個人臉屬性和5個關鍵點的數據集,其是通過專業的標注公司對202599個人臉圖片和10000個ID進標注的。
- CASIA-WebFace[13]同樣是一個主流的公開數據集,其包含484414張人臉圖片和10575個ID,都是來自IMDB網站。
- VGGFace[17]包含2.6百萬張人臉和2600個ID。
- MegaFace[14,15]可以用來測試人臉識別算法的魯棒性,其包含了1百萬個干擾在。該數據集包含了2個部分,第一個允許使用外部的訓練數據進行擴充,另一個提供了4.7百萬張人臉圖片和672000個ID。
- LFW[81]數據包含13233個人臉圖片和5749個ID,都來自網絡,其中1680個ID有兩個甚至更多的圖片。該數據集主要用來評估靜態人臉識別算法性能,大多數都是正臉。
- IJB-A[69]數據集包含500個ID和5397個圖片,其中2042個視頻劃分成了20412幀。該數據集設計用來測試基于較大姿態,光照和圖像視頻質量變化的基礎上的魯棒性。
- YTF[82]數據集包含3425個視頻,涉及1595個iD,是用來測試視頻人臉識別算法的標準數據集。
- PaSC[83]數據集包含2802個視頻,涉及293個ID,被用來測試基于大的姿態,光照和模糊變化下視頻人臉算法的性能,這些視頻都來自受控情況下抓取的。
- Celebrities in Frontal-Profile(CFP)[84]數據集包含7000個圖像和500個ID,用來測試極端姿態變化下的人臉驗證算法。
- UMDFaces[85]和UMDFace Video[35]數據集包含367888個靜態圖片和82777個ID,以及22075個視頻和3107個ID。這些數據集可以用來訓練靜態和視頻的人臉數據集,UMDFace Video中的ID也出現在UMDFaces中,這有助于讓模型從靜態人臉識別遷移到視頻領域。
最近,Bansal[35]研究了一個好的大規模數據集上不同特征,其中涉及到以下問題:
- 我們可以只在靜態圖片上訓練,然后將其擴展到視頻上嗎?
- 更深的數據集是否好于更廣的數據集,這里更深表示每個ID的圖片增多,更廣表示ID的數量很多?
- 增加標簽噪音是否總是能提升深度網絡性能?
- 人臉對齊對于人臉識別是否是必須的?
作者調研了CASIA-WebFace[13],UMDFaces[85]和他的視頻擴展[35],Youtube face[82]和IJB-A數據集[69]。他發現DCNN同時在靜態圖片和視頻幀上訓練可以獲得只在其一上訓練有更好的結果。基于這個實驗,他發現在更小的模型上,在更廣的數據集上訓練的結果要好于更深的數據集;而對于更深的模型,更廣的數據集效果往往更好。[35]的作者工作顯示標簽噪音通常損害人臉識別的性能,同時發現人臉對齊有助于人臉識別的性能提升。
4.5 性能總結
本文總結了在LFW和IJB-A數據集上人臉識別和驗證算法的性能結果
LFW 數據集
這里采用的人臉驗證算法是標準協議,定義3000正對和3000負對,將它們劃分到10個不重疊子集中。每個子集包含300個正對和300個負對。他包含7701個圖片和4281個ID。如表2,涉及的有DeepFace[58], DeepID2[61], DeepID3[86], FaceNet[62], Yi[13], Wang[87], Ding[88], parkhi[17], Wen[66], Liu[67], Ranjan[68], 和人類的結果
?
IJB-A benchmark
該數據集中即包含圖片也包含視頻,視頻幀如圖6
通過ROC曲線去衡量人臉驗證算法的好壞;用累積匹配特征(cumulative match characteristic,CMC)分數測量封閉集合下人臉識別算法的準確度。另外,IJB-A在十個分片集合上做人臉驗證(1:1匹配),每個集合包含大概11748對(1756個正對和9992個負對);類似的,在人臉識別上(1:N搜索)也包含了十個分片集合。在每個集合中,大約有112個訓練模板和1,763個預測模板(1,187個真正的預測模板和576個冒名頂替的預測模板)。訓練集包含333個ID,測試集包含167個沒有重復的ID。不同于LFW和YTF數據集,他們只是用一個負對稀疏集去做人臉驗證算法的評估,IJB-A數據集將圖像/視頻幀劃分成訓練和測試集和,所以所有可用的正和負對都能用來做評估,同樣的,每個訓練和預測集合都包含多個模板。每個模板(ID)包含來自多個圖像和視頻的樣本集合。而LFW和YTF數據集只包含由Viola Jones 人臉檢測器檢測的人臉,而IJB-A數據集包含極端姿態,光照,表情等變化。這些因素使得IJB-A變成一個具有挑戰的數據集。
?
CMC算法和ROC曲線可以用來做不同算法在人臉識別和驗證下的性能評估,如表3.
除了使用平均特征表征之外,我們還使用媒體平均,即首先平均來自同一個媒體(圖像或視頻)的特征,然后進一步平均,媒體平均特征,以生成最終特征表征,然后用triplet概率向量[73]。
表3總結了不同算法的得分,其中對比的算法有:
?
- DCNNcasiaDCNNcasia[87]
- DCNNbl(bilinearCNN)DCNNbl(bilinearCNN)[92]
- DCNNpose(multiposeDCNN模型[63])DCNNpose(multiposeDCNN模型[63])[70]
- DCNN3dDCNN3d[64]
- template adaptation(TP)[93]
- DCNNtpeDCNNtpe[73]
- DCNNallDCNNall?[2][all in one face]
- DCNNL2+tpeDCNNL2+tpe[68]
- [91]
每個算法詳細的對比在表4
5.人臉屬性
對于一個單一人臉,我們能夠驗證人臉的屬性如:性別,表情,年齡,皮膚顏色等等。這些屬性對于圖像檢索,表情檢測和手機安全都有幫助,在生物文獻中,人臉屬性被稱為soft-生物性[95].Kumar[56]將屬性概念引入到圖像描述子中,以此用來做人臉驗證。他們使用65個二值屬性來描述每個人臉圖像。Berg[56]對每個人臉對訓練分類器,然后用這些分類器去生成人臉分類器的特征。這里每個人都被描述為與他人的相似性。這是一種自動創建屬性集的方法,而不需要依賴很大的手工標注屬性數據集。近些年DCNN也用來做屬性分類,如深度屬性的姿態對齊網絡(pose aligned networks for deep attributes,panda)通過將part-based模型與pose-normalized DCNN來做屬性分類[96]。[97]在adience數據集上使用DCNN去關注年齡和性別,Liu使用兩個DCNN,一個用來做人臉檢測,另一個做屬性識別,其在Celeba和LFWA數據集上在許多屬性上效果要好于PANDA[80]。
[99]中不將每個屬性獨立看待,而是利用屬性之間的關聯性去提升圖像的排序和檢索,通過先在獨立訓練屬性分類器,然后學習這些分類器輸出對之間的相關性。Hand[100]訓練一個單一屬性網絡用來分類40個屬性,通過學習這40個屬性之間關系去共享網絡之間的信息,而不只是屬性對。Ranjan[2]用MTL去訓練一個單一網絡,其可以同時做人臉檢測,人臉關鍵點標注,人臉識別,三維頭部姿態估計,性別分類和年齡評估,笑容檢測。最近Gunther提出無需對齊的人臉屬性分類器技術(alignment-free facial attribute classifcation technique,affact)[101]算法去執行無需對齊的屬性分類,它使用了一個數據增強技術,以此允許網絡在不需要對齊的基礎上做人臉屬性分類,蓋蘇阿凡在CelebA數據集上以三個網絡的集成學習方式達到了最好的效果。
另外,一些人臉屬性可以用來加速手機認證性能[17]。近期提出的屬性連續認證[102,103]方法顯示了在大陸屬性的基礎上可以在手機上獲得很好的認證效果。同樣的,如果只學習人臉的一部分,那么就變得更容易了。通過使用這兩個優勢,Samangouei[98]設計了高效的DCNN網絡結構,其可以部署在手機設備上,圖7介紹了如何將人臉屬性用在手機認證上.
?
6.人臉分析的多任務學習
在這部分,介紹了幾種不同的用于人臉分析的MTL方法。Caruana[104]首先分析了MTL框架在機器學習中的應用,然后,MTL被用來解決CV中的多種問題。基于MTL的一個早期的人臉分析工作是由Zhu[55]提出的。該算法用來解決人臉檢測,關鍵點定位,頭部姿態評估。另一個方法叫JointCascade[105],通過結合訓練關鍵點標注任務來提升人臉檢測效果。這些算法都是基于手工設計的特征,使得難以將MTL方法擴展到更多的任務上。
在深度學習出來之前,MTL受限于部分數據集,因為不同任務解決的特征表征問題是不同的。例如人臉檢測通常使用HOG,而人臉識別使用LBP。類似的,關鍵點表征,練級和性別估計,屬性分類,不同任務自然需要不同特征。然而,隨著深度學習的出現,手工設計的特征可以拋棄了,從而訓練一個單一的網絡結構來實現人臉檢測,關鍵點定位,人臉屬性預測和人臉識別成為可能。
通常而言,當人類看圖片中的人臉時,他會檢測人臉在哪,然后判別其性別,大致姿態,年齡,標簽等等。而當機器執行這些任務時,通常需要設計獨立的算法去解決不同的任務。然而我們可以設計一個深度網絡去同時完成這些所有的任務,并利用任務之間的關系。Goodfellow[106]將MTL解釋為一個關于DCNN的正則。在采用MTL方法時,學到的參數可以即刻用在所有的任務上,這減少了過擬合,冰潔收斂于一個魯棒的解決方法。
HyperFace[10]和任務受限深度卷積網絡(Tasks-Constrained deep convolutional network, tcdcn)[107]. HyperFace被提出來解決人臉檢測,關鍵點定位,頭部姿態評估,和性別分類。他融合一個DCNN的中間層使得任務能夠利用豐富的語義特征。所以MTL可以提升獨立任務的性能。Zhang[107]提出TCDCN算法也能同時實現性別識別,笑容預測,眼睛檢測等等。在他們的算法中所有任務的預測都來自相同的特征空間。他們的工作顯示使用輔助任務例如眼睛檢測和笑容預測可以提升人臉關鍵點定位。
ranjan最近提出的all in one face[2]是使用單一的DCNN來同時完成人臉檢測,關鍵點標注,人臉識別,三維頭部姿態估計,笑容檢測,人臉年齡檢測和性別分類。該結構(圖8(a))
以一個預訓練的人臉識別網絡開始[73]。該網絡有7層卷積層和三層全連接層組成,他用來做基底網絡來訓練人臉識別任務,且其前6層卷積層的參數用來共享給其他人臉相關的任務。中心原則是在人臉識別任務上預訓練的CNN為通用人臉分析任務提供了更好的初始化,因為每一層的過濾器保留了有辨別力的人臉信息。
?
為了利用多個數據集上所有的信息,如人臉框,人臉關鍵點,姿態,性別,年齡,笑容,和ID信息,多個子網絡可以關于任務相關的數據集進行訓練,然后將參數進行共享,因為沒有一個單一的數據集包含所有人臉分析任務所需的標注信息。通過這種方法,我們可以用參數共享的方式來自適應整個領域,而不是去擬合具體任務領域。在測試的時候,這些子網絡融合到一個單一的all in one face中。表5列出了基于不同數據集下訓練all in one face。
具體的loss函數用來端到端的訓練該網絡。all in one face網絡輸出結果在圖9。
基于MTL的DCNN同樣可以用來決定多個人臉屬性。Depghan提出深度年齡,性別和表情識別(deep age, gender, and emotion recognition,dager)[111],基于DCNN網絡去識別年齡,性別,表情。類似all in one face[2],它基于不同的任務采用不同的數據集去訓練該DCNN。He[112]通過訓練一個網絡去聯合的做人臉檢測和人臉屬性分析。不同于其他MTL方法,他們使用整個圖片作為網絡的輸入,而不只是人臉本身的區域。一個基于faster rcnn的方法可以用來一起檢測人臉,表6總結了一些近期基于MTL方法的人臉分析任務
?
7.開放問題
我們簡短的討論了對于一個自動人臉驗證和失敗系統的每個組件上的設計思路。包括:
- 人臉檢測:相對通用目標檢測,人臉檢測是一個更具有挑戰的任務,因為涉及到人臉的多種變化,這些變化包含光照的,人臉表情的,人臉角度的,遮擋等等。其他因素如模糊和低分辨率一樣增大了該任務的難度;
- 關鍵點檢測:大多數數據集包含幾千張圖片,一個很大的標注和無約束數據集會使得人臉對齊系統具有更強的魯棒性來應對其中的挑戰,如極端的姿態,低光照和小的,模糊的人臉圖像。研究者們假設更深的CNN能夠抓取更魯棒的信息;然而目前為止,仍然未研究出哪些層能夠準確的提取局部特征來做人臉關鍵點檢測。
- 人臉驗證/識別:對于人臉識別和驗證而言,性能可以通過學習一個判別性距離度量來提升。由于受顯卡的內存限制,如何選擇信息對或三元組并使用大規模數據集上的在線方法(例如,隨機梯度下降)端到端地訓練網絡仍然是一個懸而未決的問題。要解決的另一個具有挑戰性的問題是在深度網絡中加入全動態視頻處理,以實現基于視頻的人臉分析。
8.總結
可以參考文獻[12]
參考文獻:
- R. Ranjan, S. Sankaranarayanan, A. Bansal, N. Bodla, J. C. Chen, V. M. Patel, C. D. Castillo, and R. Chellappa.?Deep learning for understanding faces: Machines may be just as good, or better, than humans?[J]. IEEE Signal Processing Magazine, 35(1):66–83, 2018
- Yiming Lin, Jie Shen, Shiyang Cheng, Maja Pantic.?Mobile Face Tracking: A Survey and Benchmark[J] arXiv Preprint, arXiv:1805.09749, 2018.
- Yuqian Zhou, Ding Liu, Thomas Huang.?Survey of Face Detection on Low-quality Images[J] arXiv Preprint, arXiv:1804.07362, 2018.
- Xin Jin, Xiaoyang Tan?Face Alignment In-the-Wild: A Survey[J] arXiv Preprint, arXiv:1608.04188, 2018.
[1] W. Y. Zhao, R. Chellappa, P. J. Phillips, and A. Rosenfeld, “Face recognition: aliterature survey,” ACM Comput. Surveys, vol. 35, no. 4, pp. 399–458, 2003.
[2] R. Ranjan, S. Sankaranarayanan, C. D. Castillo, and R. Chellappa, “An all-inone convolutional neural network for face analysis,” in Proc. IEEE Int. Conf.Automatic Face Gesture Recognition, 2017, pp. 17–24.
[3] A. Krizhevsky, I. Sutskever, and G. E. Hinton, “Imagenet classification with deep convolutional neural networks,” in Proc. Advances Neural Information Processing Systems Conf., 2012, pp. 1097–1105.
[4] C. Szegedy, W. Liu, Y. Jia, P. Sermanet, S. Reed, D. Anguelov, D. Erhan, V. Vanhoucke, and A. Rabinovich, “Going deeper with convolutions,” arXiv Preprint, arXiv:1409.4842, 2014.
[5] K. He, X. Zhang, S. Ren, and J. Sun, “Deep residual learning for image recognition,” in Proc. IEEE Conf. Computer Vision Pattern Recognition, 2016, pp. 770–778.
[6] R. Girshick, J. Donahue, T. Darrell, and J. Malik, “Rich feature hierarchies for accurate object detection and semantic segmentation,” in Proc. IEEE Conf. Computer Vision Pattern Recognition, 2014, pp. 580–587.
[7] S. Ren, K. He, R. Girshick, and J. Sun, “Faster R-CNN: Towards real-time object detection with region proposal networks,” in Proc. Advances Neural Information Processing Systems Conf., 2015, pp. 91–99.
[8] W. Liu, D. Anguelov, D. Erhan, C. Szegedy, S. Reed, C.-Y. Fu, and A. C. Berg, “SSD: Single shot multibox detector,” in Proc. European Conf. Computer Vision, 2016, pp. 21–37.
[9] R. Ranjan, V. M. Patel, and R. Chellappa, “A deep pyramid deformable part model for face detection,” in Proc. IEEE 7th Int. Conf. Biometrics Theory, Applications and Systems, 2015, pp. 1–8.
[10] R. Ranjan, V. Patel, and R. Chellappa, “Hyperface: a deep multi-task learning framework for face detection, landmark localization, pose estimation, and gender recognition,” arXiv Preprint, arXiv:1603.01249, 2016.
[11] A. Kumar, R. Ranjan, V. Patel, and R. Chellappa, “Face alignment by local deep descriptor regression,” arXiv Preprint, arXiv:1601.07950, 2016.
[12] J. Chen, R. Ranjan, S. Sankaranarayanan, A. Kumar, C. Chen, V. M. Patel, C. D. Castillo, and R. Chellappa, “Unconstrained still/video-based face verification with deep convolutional neural networks,” Int. J. Comput. Vis., pp. 1–20. 2017.
[13] D. Yi, Z. Lei, S. Liao, and S. Z. Li, “Learning face representation from scratch,” arXiv Preprint, arXiv:1411.7923, 2014.
[14] I. Kemelmacher-Shlizerman, S. M. Seitz, D. Miller, and E. Brossard, “The megaface benchmark: 1 million faces for recognition at scale,” in Proc. IEEE Conf. Computer Vision Pattern Recognition, 2016, pp. 4873–4882.
[15] A. Nech and I. Kemelmacher-Shlizerman, “Level playing field for million scale face recognition,” in Proc. IEEE Int. Conf. Computer Vision Pattern Recognition, 2017, pp. 873–4882.
[16] Y. Guo, L. Zhang, Y. Hu, X. He, and J. Gao, “Ms-celeb-1m: A data set and benchmark for large-scale face recognition,” in Proc. European Conf. Computer Vision, 2016, pp. 87–102.
[17] O. M. Parkhi, A. Vedaldi, and A. Zisserman, “Deep face recognition,” in Proc. British Machine Vision Conf., vol. 1, no. 3, 2015, p. 6.
[18] S. Yang, P. Luo, C.-C. Loy, and X. Tang, “Wider face: A face detection benchmark,” in Proc. IEEE Conf. Computer Vision Pattern Recognition, 2016, pp. 5525–5533.
[19] H. Jiang and E. Learned-Miller, “Face detection with the faster R-CNN,” arXiv Preprint, arXiv:1606.03473, 2016.
[20] J. R. Uijlings, K. E. van de Sande, T. Gevers, and A. W. Smeulders, “Selective search for object recognition,” Int. J. Comput. Vis., vol. 104, no. 2, pp. 154–171, 2013.
[21] Y. Li, B. Sun, T. Wu, and Y. Wang, “Face detection with end-to-end integration of a convnet and a 3D model,” in Proc. European Conf. Computer Vision, 2016, pp. 420–436.
[22] D. Chen, G. Hua, F. Wen, and J. Sun, “Supervised transformer network for efficient face detection,” in Proc. European Conf. Computer Vision, 2016, pp. 122–138.
[23] M. Najibi, P. Samangouei, R. Chellappa, and L. Davis, “SSH: Single stage headless face detector,” arXiv Preprint, arXiv:1708.03979, 2017.
[24] K. Simonyan and A. Zisserman, “Very deep convolutional networks for largescale image recognition,” arXiv Preprint, arXiv:1409.1556, 2014.
[25] S. S. Farfade, M. J. Saberian, and L.-J. Li, “Multi-view face detection using deep convolutional neural networks,” in Proc. ACM Int. Conf. Multimedia Retrievals, 2015, pp. 643–650.
[26] S. Yang, P. Luo, C.-C. Loy, and X. Tang, “From facial parts responses to face detection: A deep learning approach,” in Proc. IEEE Int. Conf. Computer Vision, 2015, pp. 3676–3684.
[27] H. Li, Z. Lin, X. Shen, J. Brandt, and G. Hua, “A convolutional neural network cascade for face detection,” in Proc. IEEE Conf. Computer Vision Pattern Recognition, 2015, pp. 5325–5334.
[28] S. Yang, Y. Xiong, C. C. Loy, and X. Tang, “Face detection through scalefriendly deep convolutional networks,” arXiv Preprint, arXiv:1706.02863,2017.
[29] S. Zhang, X. Zhu, Z. Lei, H. Shi, X. Wang, and S. Z. Li, “S3 FD: Single shot scale-invariant face detector,” arXiv Preprint, arXiv:1708.05237, 2017.
[30] V. Jain and E. Learned-Miller, “FDDB: A benchmark for face detection in unconstrained settings,” Tech. Rep. vol. 88, Univ. Massachusetts, Amherst, UM-CS-2010-009, 2010.
[31] B. Yang, J. Yan, Z. Lei, and, S. Z. Li, “Fine-grained evaluation on face detection in the wild,” in, Proc. 11th IEEE Int. Conf. WorkshopsAutomatic Face and Gesture Recognition, vol. 1, 2015, pp. 1–7.
[32] K. Zhang, Z. Zhang, Z. Li, and Y. Qiao, “Joint face detection and alignment using multitask cascaded convolutional networks,” IEEE Signal Processing Lett.,vol. 23, no. 10, pp. 1499–1503, 2016.
[33] P. Hu and D. Ramanan, “Finding tiny faces,” arXiv Prepr int, arXiv:1612.04402, 2016.
[34] S. Zafeiriou, C. Zhang, and Z. Zhang, “A survey on face detection in the wild:Past, present and future,” Comput. Vis. Image Understand., vol. 138, pp. 1–24,Sept. 2015.
[35] A. Bansal, C. D. Castillo, R. Ranjan, and R. Chellappa, “The do’s and don’ts for CNN-based face verification,” arXiv Preprint, arXiv:1705.07426, 2017.
[36] N. Wang, X. Gao, D. Tao, H. Yang, and X. Li, “Facial feature point detection: A comprehensive survey,” Neurocomputing, June 2017.
[37] G. G. Chrysos, E. Antonakos, P. Snape, A. Asthana, and S. Zafeiriou, “A comprehensive performance evaluation of deformable face tracking in-the-wild,” Int. J. Comput. Vis., pp. 1–35, 2016.
[38] S. Zhu, C. Li, C.-C. Loy, and X. Tang, “Unconstrained face alignment via cascaded compositional learning,” in Proc. IEEE Conf. Computer Vision Pattern Recognition, 2016, pp. 3409–3417.
[39] S. Ren, X. Cao, Y. Wei, and J. Sun, “Face alignment at 3000 fps via regressing local binary features,” in Proc. IEEE Conf. Computer Vision Pattern Recognition, June 2014, pp. 1685–1692.
[40] X. Xiong and F. D. la Torre, “Supervised descent method and its applications to face alignment,” in Proc. IEEE Conf. Computer Vision Pattern Recognition, 2013,pp. 532–539.
[41] V. Kazemi and J. Sullivan, “One millisecond face alignment with an ensemble of regression trees,” in Proc. IEEE Conf. Computer Vision Pattern Recognition, 2014, pp. 1867–1874.
[42] X. Burgos-Artizzu, P. Perona, and P. Dollár, “Robust face landmark estimation under occlusion,” in Proc. IEEE Int. Conf. Computer Vision, 2013, pp. 1513–1520.
[43] E. Antonakos, J. Alabort-i Medina, and S. Zafeiriou, “Active pictorial structures,” in Proc. IEEE Conf. Computer Vision Pattern Recognition, 2015, pp. 5435–5444.
[44] A. Jourabloo and X. Liu, “Pose-invariant 3D face alignment,” in Proc. IEEE Int. Conf. Computer Vision, 2015, pp. 3694–3702.
[45] A.Jourabloo and X. Liu, “Large-pose face alignment via CNN-based dense 3D model fitting,” in Proc. IEEE Conf. Computer Vision Pattern Recognition, 2016,pp. 4188–4196.
[46] X. Zhu, Z. Lei, X. Liu, H. Shi, and S. Z. Li, “Face alignment across large poses: A 3D solution,” in Proc. IEEE Conf. Computer Vision Pattern Recognition, 2016, pp. 146–155.
[47] Y. Sun, X. Wang, and X. Tang, “Deep convolutional network cascade for facial point detection,” in Proc. IEEE Conf. Computer Vision Pattern Recognition, 2013, pp. 3476–3483.
[48] J. Zhang, S. Shan, M. Kan, and X. Chen, “Coarse-to-fine auto-encoder networks for real-time face alignment,” in Proc. European Conf. Computer Vision, 2014, pp. 1–16.
[49] X. Xiong and F. D. la Torre, “Global supervised descent method,” in Proc. IEEE Conf. Computer Vision Pattern Recognition, 2015, pp. 2664–2673.
[50] G. Trigeorgis, P. Snape, M. A. Nicolaou, E. Antonakos, and S. Zafeiriou, “Mnemonic descent method: A recurrent process applied for end-to-end face alignment,” in Proc. IEEE Conf. Computer Vision Pattern Recognition, 2016, pp. 4177–4187.
[51] A. Bulat and G. Tzimiropoulos, “Convolutional aggregation of local evidence for large pose face alignment,” in Proc. British Machine Vision Conference (BMVC), Sept. 2016, pp. 86.1–86.12.
[52] A. Kumar, A. Alavi, and R. Chellappa, “Kepler: Keypoint and pose estimation of unconstrained faces by learning efficient H-CNN regressors,” in Proc. IEEE Int. Conf. Automatic Face Gesture Recognition, 2017. doi: 10.1109/FG.2017.149
[53] C. Sagonas, E. Antonakos, G. Tzimiropoulos, S. Zafeiriou, and M. Pantic, “300 Faces in-the-wild challenge: database and results,” Image Vis. Comput., vol.47, pp. 3–18, Mar. 2016.
[54] T. Hassner, S. Harel, E. Paz, and R. Enbar, “Effective face frontalization in unconstrained images,” in Proc. IEEE Int. Conf. Computer Vision Pattern Recognition, 2015, pp. 4295–4304.
[55] X. Zhu and D. Ramanan, “Face detection, pose estimation, and landmark localization in the wild,” in Proc. IEEE Conf. Computer Vision Pattern Recognition, June 2012, pp. 2879–2886.
[56] E. Learned-Miller, G. B. Huang, A. RoyChowdhury, H. Li, and G. Hua, “Labeled faces in the wild: A survey,” in Proc. Advances Face Detection Facial Image Analysis Conf., 2016, pp. 189–248.
[57] G. B. Huang, H. Lee, and E. Learned-Miller, “Learning hierarchical representations for face verification with convolutional deep belief networks,” in Proc. IEEE Int. Conf. Computer Vision Pattern Recognition, 2012, pp. 2518–2525.
[58] Y. Taigman, M. Yang, M. A. Ranzato, and L. Wolf, “Deepface: Closing the gap to human-level performance in face verification,” in Proc. IEEE Conf. Computer Vision Pattern Recognition, 2014, pp. 1701–1708.
[59] Y. Sun, X. Wang, and X. Tang, “Deep learning face representation from predicting 10000 classes,” in Proc. IEEE Conf. Computer Vision Pattern Recognition, 2014, pp. 1891–1898.
[60] Y. Sun, Y. Chen, X. Wang, and X. Tang, “Deep learning face representation by joint identification-verification,” in Proc. Advances Neural Information Processing Systems Conf., 2014, pp. 1988–1996.
[61] Y. Sun, X. Wang, and X. Tang, “Deeply learned face representations are sparse, selective, and robust,” arXiv Preprint, arXiv:1412.1265, 2014.
[62] F. Schroff, D. Kalenichenko, and J. Philbin, “Facenet: A unified embedding for face recognition and clustering,” arXiv Preprint, arXiv:1503.03832, 2015.
[63] W. AbdAlmageed, Y. Wu, S. Rawls, S. Harel, T. Hassne, I. Masi, J. Choi, J. Lekust, J. Kim, P. Natarajana, R. Nevatia, and G. Medioni, “Face recognition using deep multi-pose representations,” in Proc. IEEE Winter Conf. Applications Computer Vision, 2016, pp. 1–9.
[64] I. Masi, A. T. Tran, J. T. Leksut, T. Hassner, and G. Medioni, “Do we really need to collect millions of faces for effective face recognition?” arXiv Preprint, arXiv:1603.07057, 2016.
[65] C. Ding and D. Tao, “Trunk-branch ensemble convolutional neural networks for video-based face recognition,” arXiv Preprint, arXiv:1607.05427, 2016.
[66] Y. Wen, K. Zhang, Z. Li, and Y. Qiao, “A discriminative feature learning approach for deep face recognition,” in Proc. European Conf. Computer Vision, 2016, pp. 499–515.
[67] W. Liu, Y. Wen, Z. Yu, M. Li, B. Raj, and L. Song, “Sphereface: Deep hypersphere embedding for face recognition,” in Proc. IEEE Int. Conf. Computer Vision Pattern Recognition, 2017, pp. 212–220.
[68] R. Ranjan, C. D. Castillo, and R. Chellappa, “L2-constrained softmax loss for discriminative face verification,” arXiv Preprint, arXiv:1703.09507, 2017.
[69] B. F. Klare, B. Klein, E. Taborsky, A. Blanton, J. Cheney, K. Allen, P. Grother, A. Mah, M. Burge, and A. K. Jain, “Pushing the frontiers of unconstrained face detection and recognition: IARPA Janus Benchmark A,” in Proc. IEEE Conf. Computer Vision Pattern Recognition, 2015, pp. 1931–1939.
[70] J. Yang, P. Ren, D. Chen, F. Wen, H. Li, and G. Hua, “Neural aggregation network for video face recognition,” arXiv Preprint, arXiv:1603.05474, 2016.
[71] N. Bodla, J. Zheng, H. Xu, J.-C. Chen, C. Castillo, and R. Chellappa, “Deep heterogeneous feature fusion for template-based face recognition,” in Proc. IEEE Winter Conf. Applications Computer Vision, 2017, pp. 586–595.
[72] J. Hu, J. Lu, and Y.-P. Tan, “Discriminative deep metric learning for face verification in the wild,” in Proc. IEEE Conf. Computer Vision Pattern Recognition, 2014, pp. 1875–1882.
[73] S. Sankaranarayanan, A. Alavi, C. Castillo, and R. Chellappa, “Triplet probabilistic embedding for face verification and clustering,” arXiv Preprint, arXiv:1604.05417, 2016.
[74] H. O. Song, Y. Xiang, S. Jegelka, and S. Savarese, “Deep metric learning via lifted structured feature embedding,” in Proc. IEEE Conf. Computer Vision Pattern Recognition, 2016, pp. 4004–4012.
[75] J. Yang, D. Parikh, and D. Batra, “Joint unsupervised learning of deep representations and image clusters,” in Proc. IEEE Conf. Computer Vision Pattern Recognition, 2016, pp. 5147–5156.
[76] Z. Zhang, P. Luo, C. C. Loy, and X. Tang, “Joint face representation adaptation and clustering in videos,” in Proc. European Conf. Computer Vision, 2016, pp. 236–251.
[77] G. Trigeorgis, K. Bousmalis, S. Zafeiriou, and B. W. Schuller, “A deep matrix factorization method for learning attribute representations,” IEEE Trans. Pattern Anal. Mach. Intell., vol. 39, no. 3, pp. 417–429, 2017.
[78] W.-A. Lin, J.-C. Chen, and R. Chellappa, “A proximity-aware hierarchical clustering of faces,” in Proc. IEEE Conf. Automatic Face Gesture Recognition, 2017. doi: 10.1109/FG.2017.134
[79] Y. Guo, L. Zhang, Y. Hu, X. He, and J. Gao, “MS-celeb-1m: A data set and benchmark for large scale face recognition,” in Proc. European Conf. Computer Vision, 2016, pp. 87–102.
[80] Z. Liu, P. Luo, X. Wang, and X. Tang, “Deep learning face attributes in the wild,” in Proc. IEEE Int. Conf. Computer Vision, 2015, pp. 3730–3738.
[81] G. B. Huang, M. Mattar, T. Berg, and E. Learned-Miller, “Labeled faces in the wild: A database for studying face recognition in unconstrained environments,” vol.1, no. 2, p. 3, Tech. Rep. 07-49, Univ. Massachusetts, Amherst, 2007.
[82] L. Wolf, T. Hassner, and, I. Maoz, “Face recognition in unconstrained videos with matched background similarity,” in Proc. IEEE Conf. Computer Vision Pattern Recognition, 2011, pp. 529–534.
[83] J. R. Beveridge, P. J. Phillips, D. S. Bolme, B. A. Draper, G. H. Givens, Y. M. Lui, M. N. Teli, H. Zhang, W. T. Scruggs, K. W. Bowyer, and P. J. Flynn, “The challenge of face recognition from digital point-and-shoot cameras,” in Proc. IEEE
Int. Conf. Biometrics: Theory, Applications and Systems, 2013, pp. 1–8. [84] S. Sengupta, J.-C. Chen, C. Castillo, V. M. Patel, R. Chellappa, and D. W. Jacobs, “Frontal to profile face verification in the wild,” in Proc. IEEE Winter Conf. Applications of Computer Vision, 2016, pp. 1–9.
[85] A. Bansal, A. Nanduri, C. Castillo, R. Ranjan, and R. Chellappa, “Umdfaces: An annotated face data set for training deep networks,” arXiv Preprint, arXiv:1611.01484, 2016.
[86] Y. Sun, D. Liang, X. Wang, and X. Tang, “Deepid3: Face recognition with very deep neural networks,” arXiv Preprint, arXiv:1502.00873, 2015.
[87] D. Wang, C. Otto, and A. K. Jain, “Face search at scale: 80 million gallery,” arXiv Preprint, arXiv:1507.07242, 2015.
[88] C. Ding and D. Tao, “Robust face recognition via multimodal deep face representation,” arXiv Preprint, arXiv:1509.00244, 2015.
[89] L. Wolf, T. Hassner, and I. Maoz, “Face recognition in unconstrained videos with matched background similarity,” in Proc. IEEE Conf. Computer Vision Pattern Recognition, 2011, pp. 529–534.
[90] P. Viola and M. J. Jones, “Robust real-time face detection,” Int. J. Comput. Vis., vol. 57, no. 2, pp. 137–154, 2004.
[91] “IARPA Janus benchmark: A performance report,” National Institute of Standards and Technology (NIST), 2016.
[92] A. RoyChowdhury, T.-Y. Lin, S. Maji, and E. Learned-Miller, “One-to-many face recognition with bilinear CNNs,” in Proc. IEEE Winter Conf. Applications of Computer Vision, 2016, pp. 1–9.
[93] N. Crosswhite, J. Byrne, O. M. Parkhi, C. Stauffer, Q. Cao, and A. Zisserman, “Template adaptation for face verification and identification,” Proc. IEEE Int. Conf. Automatic Face Gesture Recognition, 2017, pp. 1–8.
[94] S. Xie, R. Girshick, P. Dollár, Z. Tu, and K. He, “Aggregated residual transformations for deep neural networks,” arXiv Preprint, arXiv:1611.05431, 2016.
[95] A. K. Jain, S. C. Dass, and K. Nandakumar, “Can soft biometric traits assist user recognition?” in Defense and Security. Orlando, FL: Int. Society Optics and Photonics, 2004, pp. 561–572.
[96] N. Zhang, M. Paluri, M. Ranzato, T. Darrell, and L. Bourdev, “Panda: Pose aligned networks for deep attribute modeling,” in Proc. IEEE Conf. Computer Vision Pattern Recognition, 2014, pp. 1637–1644.
[97] G. Levi and T. Hassner, “Age and gender classification using convolutional neural networks,” in Proc. IEEE Conf. Computer Vision Pattern Recognition Workshops, 2015, pp. 34–42.
[98] P. Samangouei and R. Chellappa, “Convolutional neural networks for attributebased active authentication on mobile devices,” in Proc. IEEE Int. Conf. Biometrics Theory Applications Systems, 2016, pp. 1–8.
[99] B. Siddiquie, R. S. Feris, and L. S. Davis, “Image ranking and retrieval based on multi-attribute queries,” in Proc. IEEE Conf. Computer Vision Pattern Recognition, 2011, pp. 801–808.
[100] E. M. Hand and R. Chellappa, “Attributes for improved attributes: A multitask network utilizing implicit and explicit relationships for facial attribute classification,” in Proc. AAAI Conf. Artificial Intelligence, 2017, pp. 4068–4074.
[101] M. Günther, A. Rozsa, and T. E. Boult, “Affact-alignment free facial attribute classification technique,” arXiv Preprint, arXiv:1611.06158, 2016.
[102] P. Samangouei, V. M. Patel, and R. Chellappa, “Attribute-based continuous user authentication on mobile devices,” in Proc. IEEE Int. Conf. Biometrics Theory Applications Systems, 2015, pp. 1–8.
[103] P. Samangouei, V. Patel, and R. Chellappa, “Facial attributes for active authentication on mobile devices,” Image Vis. Computing, vol. 58, pp. 181–192, Feb. 2017.
[104] R. Caruana, “Multitask learning,” in Learning to Learn. New York: Springer, 1998, pp. 95–133.
[105] Y. W. X. C. D. Chen, S. Ren, and J. Sun, “Joint cascade face detection and alignment,” in Proc. European Conf. Computer Vision, 2014, vol. 8694, pp. 109–122.
[106] I. Goodfellow, Y. Bengio, and A. Courville. (2016). Deep Learning. Cambridge, MA: MIT Press. [Online]. Available:?http://www.deeplearningbook?.org
[107] Z. Zhang, P. Luo, C. Loy, and X. Tang, “Facial landmark detection by deep multi-task learning,” in Proc. European Conf. Computer Vision, 2014, pp. 94–108.
[108] K. Ricanek and T. Tesafaye, “Morph: A longitudinal image database of normal adult age-progression,” in Proc. Int. Conf. Automatic Face Gesture Recognition, Apr. 2006, pp. 341–345.
[109] R. Rothe, R. Timofte, and L. V. Gool, “DEX: Deep expectation of apparent age from a single image,” in Proc. IEEE Int. Conf. Computer Vision Workshop ChaLearn Looking at People, 2015, pp. 10–15.
[110] M. Koestinger, P. Wohlhart, P. M. Roth, and H. Bischof, “Annotated facial landmarks in the wild: A large-scale, real-world database for facial landmark localization,”
in Proc. IEEE 1st Int. Workshop Benchmarking Facial Image Analysis Technologies, 2011, pp. 2144–2151.
[111] A. Dehghan, E. G. Ortiz, G. Shu, and S. Z. Masood, “DAGER: Deep age, gender and emotion recognition using convolutional neural network,” arXiv Preprint, arXiv:1702.04280, 2017.
[112] K. He, Y. Fu, and X. Xue, “A jointly learned deep architecture for facial attribute analysis and face detection in the wild,” arXiv Preprint, arXiv:1707.08705, 2017.
總結
以上是生活随笔為你收集整理的face recognition[翻译][深度学习理解人脸]的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: face recognition[翻译]
- 下一篇: Redis 数据类型介绍