face recognition[翻译][深度人脸识别:综述]
這里翻譯下《Deep face recognition: a survey v4》.
1 引言
由于它的非侵入性和自然特征,人臉識別已經(jīng)成為身份識別中重要的生物認證技術(shù),也已經(jīng)應(yīng)用到許多領(lǐng)域,如軍事,進入,公共安全和日常生活。FR自然在CVPR會議中也占據(jù)了十分長的時間。早在1990年代,隨著特征臉的提出[157],FR就成為了一個比較熱門的研究領(lǐng)域。過去基于特征進行FR的里程碑方法在圖1中有所展示
?
?
如圖1所示,其中介紹了4個主流技術(shù)的發(fā)展過程:
?
- holistic 方法:通過某種分布假設(shè)去直接獲取低維度的表征,如線性子空間[13,14,111],流行[43,67,191],稀疏表示[40,42,176,212]。該思想在1990年代占據(jù)了主流,直到2000年左右。然而,一個眾所周知的問題就是這些理論可解釋性的整體方法往往無法處理無約束下的人臉變化,因為它們都是來自預(yù)先假設(shè)的分布。
- 在2000年代,該問題轉(zhuǎn)化成了基于局部特征的FR,Gabor[98],LBP[5]還有它們的多級別和高維度的擴展版本[26,41,213]。基于局部過濾的方式,在一些不變性要求上獲得了較為魯棒的性能。可是,手工設(shè)計的特征缺少特異性和緊湊性。
- 在2010年代早期,人們又提出了基于學(xué)習(xí)的局部描述子方法[21,22,89],其中局部濾波器都是通過學(xué)習(xí)得到的,從而有了更好的特異性,而且編碼的編碼本也讓特征具有更好的緊湊性。然而這些淺層表征仍然有著不可避免的限制,它們對于復(fù)雜的非線性人臉外觀變化的魯棒性并不好。
- 淺層方法試圖通過一層或者2層表征學(xué)習(xí)來完成FR問題,而深度學(xué)習(xí)方法是用一個非線性處理單元的多層級聯(lián)去進行特征提取和變換。它們學(xué)到的多層表征可以對應(yīng)不同層級的抽取。這些層級構(gòu)成了概念的層次結(jié)構(gòu),顯示了在復(fù)雜數(shù)據(jù)集上的超越特征不變性,如圖2所示。
在2014年,DeepFace[153]和DeepID[145]在LFW[74]數(shù)據(jù)集上獲得了最好的效果,首次在無約束場景下超越人類。從這以后,研究者們就開始將研究目光轉(zhuǎn)向了深度學(xué)習(xí)的方法。FR不同于通用的目標分類任務(wù)[88],因為人臉天然的特殊性:
?
- 類間差別不大,因為大家臉都長得差不多;
- 類內(nèi)差別很大,同一個人在不同的姿態(tài),光照,表情,年齡,和遮擋下有著十分巨大的變化。
這些挑戰(zhàn)激發(fā)了許多新穎的結(jié)構(gòu)和損失函數(shù),從而提升了深度模型的判別性和泛化性。同時,越來越大的人臉數(shù)據(jù)集和更多人臉處理方法被提出。
正是因為大量的訓(xùn)練數(shù)據(jù)和GPU的普及,在近五年中,深度FR技術(shù)在學(xué)術(shù)benchmark數(shù)據(jù)集上不斷的刷新之前的記錄,而且隨后在真實世界中也有不少的應(yīng)用落地。在近些年,也有不少基于FR[3,18,78,136,222]和它的子領(lǐng)域綜述,如光照不變性FR[234],3D FR[136],姿態(tài)不變FR[216]等等。然而這些綜述都只覆蓋了淺層FR的方法,在本文中,作者關(guān)注最新的基于深度特征學(xué)習(xí)的FR進展,還有對應(yīng)的數(shù)據(jù)集的發(fā)展,人類處理方式和人臉匹配的發(fā)展等等。人臉檢測和人臉對齊超出了本文的討論范圍,可以看Ranjan的工作[123],其對完整的深度FR流程有簡潔的介紹。具體的,本文的貢獻如下:
- 是一個關(guān)于深度FR上網(wǎng)絡(luò)結(jié)構(gòu)和損失函數(shù)的系統(tǒng)性綜述,各種不同的損失函數(shù)被歸類為:基于歐式距離的,基于角/余弦邊際的損失,基于softmax損失和它的變種。主流的網(wǎng)絡(luò)結(jié)構(gòu)如DeepFace[153],DeepID系列[145,146,149,177],VGGFace[116],FaceNet[137]和VGGFace2[20],還有其他特別為FR設(shè)計的結(jié)構(gòu);
- 將人臉處理方法進行了歸類,劃分成2類:one-to-many的增強和many-to-one的歸一化,并討論了如何用GAN[53]去促進FR。
- 分析了幾大重要的數(shù)據(jù)集,主流的benchmark,如LFW[74],IJB-A/B/C[87,174],Megaface[83],MS-Celeb-1M[59]。在以下四個角度去進行介紹:訓(xùn)練方式,評估任務(wù),評估指標,識別場景。
- 總結(jié)了許多對深度FR來說仍然十分具有挑戰(zhàn)性的特定FR場景,如反欺騙,跨姿態(tài)FR,跨年齡FR。這些場景解釋了未來深度FR需要努力的方向。
本文組織架構(gòu)如下:
- 第二部分,介紹了一些背景概念和術(shù)語,然后簡短的介紹了FR每個組件;
- 第三部分,介紹了不同的網(wǎng)絡(luò)結(jié)構(gòu)和損失函數(shù);
- 第四部分,總結(jié)了人臉處理的一些算法;
- 第五部分,介紹了一些數(shù)據(jù)集和評估方法
- 第六部分, 介紹了在不同場景下的一些深度FR方法。
- 第七部分,總結(jié)和展望。
2 概述
2.1 背景概念和術(shù)語
如[123]所述,人臉識別包含三個部分,如圖3
?
- 人臉檢測:用來在圖像和視頻中定位人臉;
- 人臉關(guān)鍵點檢測:用來對齊人臉到規(guī)范化的坐標上;
- FR模塊:基于對齊的人臉做人臉驗證或者識別
本文主要關(guān)注上述的FR模塊。而FR模塊又可以劃分成人臉驗證和人臉識別。不論是哪種,都需要提供訓(xùn)練集(gallery)和測試集(probe)。人臉驗證是基于測試集和訓(xùn)練集計算當前兩張人臉是否屬于同一個人(1:1);人臉識別是計算當前測試人臉與人臉庫中哪一張最相近(1:N)。當測試的人臉出現(xiàn)在訓(xùn)練集中,該問題叫做閉集識別(closed-set identification),當測試的人臉不在訓(xùn)練集中,該問題叫開集識別(open-set identification)。
2.2 人臉識別的組成部分
在人臉圖片輸入到FR模塊之前,還需要進行人臉反欺騙(即活體檢測,用來識別當前的人臉是活的還是一張相片),從而避免一部分的攻擊(這在第六部分有所介紹)。然后就可以進行人臉識別了。如圖3(c),一個FR模塊包含人臉處理,深度特征提取,人臉匹配。其可以描述成:
?
M[F(Pi(Ii)),F(Pj(Ij))]M[F(Pi(Ii)),F(Pj(Ij))]
這里IiIi和IjIj是兩張人臉圖像;PP表示處理個人內(nèi)部變化,如姿態(tài),光照,表情和遮擋;FF表示特征提取,用于編碼身份信息;MM表示匹配算法,用于計算它們之間的相似度。
人臉處理
雖然深度學(xué)習(xí)方法展現(xiàn)了其強大的表征能力,Ghazi[52]還是發(fā)現(xiàn)對于不同的條件,如姿態(tài),光照,表情,遮擋等問題仍然影響著深度FR的性能,所以人臉處理依然是必須的,特別是姿態(tài)。因為姿態(tài)的變化一直被認為是自動FR應(yīng)用中一個主要的挑戰(zhàn)。本文主要總結(jié)了用深度學(xué)習(xí)去處理姿態(tài)的方法,其他的變化也可以用相似的方法去處理。
人臉處理方法可以劃分成2個類別:one-to-many的增強;many-to-one的歸一化,如表1所示。
?
- one-to-many增強:從單張圖片中生成許多塊或者圖片來進行姿態(tài)變化的多樣性,保證深度網(wǎng)絡(luò)能學(xué)到姿態(tài)不變性表征;
- many-to-one歸一化:從單張或多張非正臉圖片中恢復(fù)人臉圖片到規(guī)范的角度;然后FR可以如在約束條件下進行識別或驗證。
深度特征提取
主要涉及網(wǎng)絡(luò)結(jié)構(gòu)。網(wǎng)絡(luò)可以劃分成骨干網(wǎng)絡(luò)和多重網(wǎng)絡(luò),如表2
因為Imagenet的成功[131],大量經(jīng)典網(wǎng)絡(luò)層出不窮,如alexnet[88],vggnet[142],googlenet[151],resnet[64],senet[72],被廣泛用在FR的baseline模型中;當然在主流之外,仍然有很多特意為FR設(shè)計的網(wǎng)絡(luò)可以提升效率。更多地,當使用這些骨干網(wǎng)絡(luò)作為基本網(wǎng)絡(luò)構(gòu)建塊的時候,FR模塊通常會基于多個輸入或者任務(wù)訓(xùn)練多個不同的網(wǎng)絡(luò)。Hu[70]認為多重網(wǎng)絡(luò)可以累積結(jié)果從而提升準確度。
損失函數(shù):softmax損失因具有不錯的可分性而一直被用在目標識別中。然而對于FR,當類內(nèi)差異大于類間差異時,softmax就不足以很好的區(qū)分了。所以人們也在如何構(gòu)建新的損失函數(shù)使得學(xué)到的特征不但具有可分性還具有判別性。如表3
?
- 基于歐式距離的loss:基于歐式距離去壓縮類內(nèi)方差,并擴大類間方差;
- 基于角/余弦邊際的loss:以角的相似性去學(xué)習(xí)判別性的人臉特征,使得學(xué)到的特征有潛在更大的角/余弦分離;
- softmax和它的變種:直接使用softmax損失或者修改softmax以提升性能。如基于特征或者權(quán)重的L2正則,還有噪音注入。
人臉匹配
在深度網(wǎng)絡(luò)經(jīng)過大量的數(shù)據(jù)和合適的損失函數(shù)訓(xùn)練之后,可以將每個測試圖片經(jīng)過該網(wǎng)絡(luò),從而獲取該圖片的深度特征表征。一旦提取了該深度特征,就可以直接用許多去計算兩個特征之間的相似性,如余弦距離,L2距離;然后通過最近鄰或者閾值比較的方式去完成人臉識別和驗證的任務(wù)。另外還能通過對深度特征進行后處理阿榮你還提升人臉匹配的效率和速度,例如度量學(xué)習(xí),基于稀疏表示的分類器(sparse-representation-based classifier,SRC)。在圖4中,總結(jié)了FR各種模塊和他們通常使用的方法,以方便讀者對FR有個宏觀視角。
?
3 網(wǎng)絡(luò)結(jié)構(gòu)和訓(xùn)練損失函數(shù)
因為地球上有幾十億的人臉,所以在真實世界中,FR其實算得上是一個細粒度的目標分類任務(wù)。對于大多數(shù)應(yīng)用,是無法在訓(xùn)練階段包含需要判別人臉的(即測試的人臉通常不會在訓(xùn)練集中),這就使得FR成為了一個”zero-shot“學(xué)習(xí)任務(wù)。還好,因為所有的人臉的形狀和紋理都差不多,所以從一個小比例的人臉數(shù)據(jù)集上學(xué)到的表征能很好的泛化到剩下的地球人上。最簡單的方法自然是盡可能的擴大訓(xùn)練集中的ID。例如網(wǎng)絡(luò)巨頭Facebook和Google宣稱他們的可訓(xùn)練的人臉I(yè)D庫有106?107106?107個ID[137,153]。不過可惜的是,這些都是私有不公開的,還有這些巨頭的計算力也十分巨大。這些都是學(xué)術(shù)界無法得到的。當前學(xué)術(shù)界可用的公開訓(xùn)練集只包含103?105103?105個ID。然而學(xué)術(shù)界在不斷的嘗試設(shè)計高效的損失函數(shù)去使得在較小的訓(xùn)練數(shù)據(jù)及上深度特征更具有判別性。
在本部分,我們總結(jié)了學(xué)術(shù)界關(guān)于不同損失函數(shù)的發(fā)展。
3.1 判別性損失函數(shù)的演變
從目標分類網(wǎng)絡(luò)發(fā)展至今,如alexnet,最開始的FR網(wǎng)絡(luò)如Deepface[153]和DeepID[149]都是采用基于softmax loss的交叉時進行特征學(xué)習(xí)的。然后人們發(fā)現(xiàn)softmax不足以去學(xué)習(xí)有大邊際的特征,所以更多的研究者開始利用判別性損失函數(shù)去增強泛化能力。這也變成了深度FR研究中最火熱的研究點,如圖5.
?
?
在2017年之前,基于歐式距離的損失函數(shù)占據(jù)主流;在2017年,角/余弦邊際的損失函數(shù),特征與權(quán)重歸一化這兩個開始流行。雖然許多損失函數(shù)的基本思想差不多,不過最新的損失函數(shù)都是設(shè)計成采用更容易的參數(shù)或者采樣方法去方便訓(xùn)練。
?
基于歐式距離的loss
歐式距離loss是一種度量學(xué)習(xí)[171,185],即通過將圖片嵌入到歐式空間中,完成壓縮類內(nèi)方差擴大類間方差的目的。contrastive loss和triplet loss都是較為常用的損失函數(shù)。contrastive loss[145,146,150,177,198]需要人臉圖像對(face image pairs),然后將其中的正對(positive pairs)拉近,將負對(negative pairs)推遠。
這里yij=1yij=1意味著xixi和xjxj是匹配的樣本,當yij=?1yij=?1意味著他們是不匹配的樣本。f(?)f(?)是特征嵌入向量,?+?+和????控制著匹配對和不匹配對的邊際。DeepID2[177]通過將人臉識別(softmax)和人臉驗證(contrastive loss)的監(jiān)督信號結(jié)合起來去學(xué)習(xí)判別性表征,并用聯(lián)合貝葉斯(JB)去獲取一個魯棒性的嵌入向量空間。DeepID2+[145]增大了隱藏表征的維度并在前面的網(wǎng)絡(luò)層增加了監(jiān)督信號,而DeepID3[146]更是引入了VGGNet和GoogleNet。然而contrastive loss的主要問題是邊際參數(shù)十分難選擇。
不同于contrastive loss是計算匹配對和不匹配對的絕對距離,triplet loss考慮他們之間的相對距離。隨著google提出FaceNet[137],triplet loss[46,99,116,132,133,137]被引入到FR中。不過它需要人臉三元組,然后最小化錨點與同一個ID的其他正樣本之間的距離,最大化錨點與其他ID的負樣本之間的距離。FaceNet使用硬triplet人臉樣本去完成公式如
||f(xai)?f(xpi)||22+α<?||f(xai)?f(xni)||22||f(xia)?f(xip)||22+α<?||f(xia)?f(xin)||22
這里xaixia,xpixip,xnixin分別是錨點,正樣本和負樣本。αα是邊際;f(?)f(?)表示一個非線性變換通過將圖片嵌入到特征空間中。受FaceNet的啟發(fā),TPE[132]和TSE[133]是去學(xué)習(xí)一個線性映射WW到construct triplet loss,其中TPE滿足等式3,TSE部分滿足等式4
其他方法有結(jié)合triplet loss和softmax loss[36,46,99,228]。他們首先用softmax訓(xùn)練網(wǎng)絡(luò),然后用triplet loss做微調(diào)。然而,contrastive loss和triplet loss有時候會遇到訓(xùn)練的不穩(wěn)定,這主要與選擇的訓(xùn)練樣本有關(guān)。一些論文就開始尋找簡單的代替方法。center loss[173]和它的變種[39,183,215]對于壓縮類內(nèi)方差是個好選擇。在[173]中,center loss學(xué)到每個類的中心,然后懲罰深度特征和他們的類中心的距離。這個loss可以定義成如下形式
這里xixi表示屬于yiyi類的第ii個深度特征,cyicyi表示yiyi類的深度特征的中心。為了處理長尾問題,range loss[215]用于最小化一個類中k個最大range的harmonic均值,然后最大化一個batch中最短類間距離。Wu[183]提出了一個center-invariant loss,其用于懲罰每個類中心之間的距離。Deng[39]選擇最遠的類內(nèi)樣本和最近的類間樣本用于計算邊際損失(margin loss)。然而center loss和他的變種仍然受制于分類層在GPU內(nèi)存中的占用,而且最好每個ID有平衡的足夠的訓(xùn)練數(shù)據(jù)。
?
基于角/余弦邊際的loss
在2017年,人們對深度FR中的損失函數(shù)有了更深層次的理解,認為樣本應(yīng)該更嚴格的分離樣本以避免對困難樣本的誤分類。角/余弦邊際loss[38,100,101,102,162]被提出用來讓學(xué)到的特征在更大角/余弦距離上能夠潛在可分。Liu[101]將原始softmax loss重新定義到一個大邊際(large-margin softmax, L-softmax) loss,這需要||W1||||x||cos(mθ1)>||W2||||x||cos(θ2)||W1||||x||cos(mθ1)>||W2||||x||cos(θ2),這里mm是引入角邊際的正整數(shù),WW是最后一層全連接層的權(quán)重,xx表示深度特征,θθ是他們之間的角度。因為余弦函數(shù)的非單調(diào)性,在L-softmax中引入分段函數(shù)以保證單調(diào)性。該loss函數(shù)定義為:
其中
然而L-softmax比較難收斂,softmax loss總是被結(jié)合進去,以方便和確保收斂,然后通過一個動態(tài)超參數(shù)λλ去控制權(quán)重。通過增加額外的softmax loss,該loss的新形式為:
基于L-Softmax,A-Softmax loss隨之被提出[100],通過L2范數(shù)(||W||=1||W||=1)去歸一化權(quán)重WW,這樣歸一化后的向量就落在了超球面上,然后可以通過在超球面流行上學(xué)習(xí)一個角邊際(圖6)去獲取判別性的人臉特征。
Liu[102]引入一個深度超球面卷積網(wǎng)絡(luò)(SphereNet),采用超球面卷積作為其基本卷積算子,并通過角邊際的loss進行監(jiān)督。為了克服L-Softmax和A-Softmax的優(yōu)化困難,他們以乘法方式結(jié)合角邊際,ArcFace[38]和ConsineFace[162],AMS loss[164]各自引入一個額外的角/余弦邊際cos(θ+m)cos(θ+m)和cosθ?mcosθ?m。他們都很容易實現(xiàn),且沒有超參數(shù)λλ,而且更清晰,并且不需要通過softmax的監(jiān)督去完成收斂。表4中展示了基于二分類的決策面。
相對基于歐式距離的loss而言,角/余弦邊際loss顯式的在一個超球面流行上增加判別性約束,本質(zhì)上匹配了人臉落在該流行上的先驗。
?
softmax及其變種
在2017年,除了將softmax loss重定義到一個角/余弦邊際loss中,仍然有許多基于softmax本身的工作。如對softmax loss中的特征或者權(quán)重做歸一化。這可以寫成如下形式:
這里αα是一個尺度參數(shù)。縮放xx到一個固定的半徑αα是很重要的,如[163]證明了歸一化特征和權(quán)重到1 可以讓softmax loss在訓(xùn)練集上陷入到一個很大的值。特征和權(quán)重歸一化是高效的tricks,而且可以用在其他loss上。
在[38,100,102,162]中,loss函數(shù)只歸一化權(quán)重并用角/余弦邊際進行訓(xùn)練可以讓學(xué)到的特征更具判別性。相較之下,許多工作[60, 122] 自適應(yīng)特征歸一化只是解決了softmax的樣本分布的偏置。基于[115]的觀測結(jié)果,用softmax loss加上L2-范數(shù)學(xué)到的特征具有人臉質(zhì)量的信息性,L2-softmax[122]強制讓所有的特征通過特征歸一化使得他們具有相同的L2范數(shù),這樣高質(zhì)量的正臉和有著極端姿態(tài)的模糊人臉就有相似的注意力。Hasnet[60]不是通過縮放參數(shù)αα,而是用x^=x?μσ2√x^=x?μσ2來歸一化特征,這里μμ和σ2σ2是均值和方差。歸一化特征和權(quán)重[61,104,163]已經(jīng)變成了一個通用的策略了。在[163]中,Wang從分析角度和幾何角度揭示了歸一化操作的必須性。在特征和權(quán)重歸一化后,CoCo loss[104]優(yōu)化額數(shù)據(jù)特征內(nèi)部的余弦距離,而[61]使用von Mises-Fisher(vMF)混合模型區(qū)作為理論基礎(chǔ),提出了一個新穎的vMF混合loss和對應(yīng)的vMF 深度特征。
在歸一化之外,同時也有其他策略來修改softmax;如Chen[23]通過在softmax中注入退火噪音,提出一個噪音的softmax去模擬早期飽和。
?
3.2 網(wǎng)絡(luò)結(jié)構(gòu)的演變
骨干網(wǎng)絡(luò)
骨干網(wǎng)絡(luò),也就是主流結(jié)構(gòu),在深度FR中使用的網(wǎng)絡(luò)結(jié)構(gòu)基本都和深度目標分類一樣,都是從alexnet發(fā)展到senet。我們這里按照最具影響力的結(jié)構(gòu)發(fā)展來介紹,如圖7.
在2012年,Alexnet[88]在Imagenet上獲得了最好的結(jié)果,超過第二名一大截。alexnet包含了5層卷積層和三層全連接層,他同時整合了多種技術(shù),如ReLU,dropout,數(shù)據(jù)增強等等。然后在2014年,VGGNet[142]被提出,其中包含非常小的卷積過濾器(3x3),和在每次2x2池化之后,將通道數(shù)進行加倍。它成功的讓CNN的深度提升到了16-19層,其網(wǎng)絡(luò)結(jié)果表明了通過深度結(jié)構(gòu)學(xué)習(xí)非線性映射的靈活性。在2015年,22層的GooleNet[151]引入一個"inception模塊"。在2016年。。。。 主流結(jié)構(gòu)如圖8.
受到目標分類中的進展影響,深度FR也追尋著這些主流結(jié)構(gòu)的使用。在2014年,DeepFace[153]是第一個采用了7層局部連接層的一個9層CNN。通過對數(shù)據(jù)進行三維對齊,它在LFW上獲得了97.35%的準確度。在2015年,FaceNet[137]使用一個私有的人臉數(shù)據(jù)集去訓(xùn)練googlenet,通過一個新穎的在線triplet挖掘方式生成許多人臉塊,然后在對齊的匹配/不匹配人臉塊三元組上使用triplet loss函數(shù),獲得了99.63%的準確度。同年VGGface[116]也公開了一個人臉數(shù)據(jù)集,在該數(shù)據(jù)集上訓(xùn)練的VGGNet然后通過類似FaceNet的triplet loss進行微調(diào),在LFW上獲得了98.95%的結(jié)果。在2017年,SphereFace[100]使用一個64層的Resnet結(jié)構(gòu),并提出了angular softmax(A-softmax) loss,通過使用角邊際學(xué)到了判別性人臉表征,將結(jié)果提升到了99.42%。在2017年底,出現(xiàn)了一個新的人臉數(shù)據(jù)集,VGGface2[20],其包含了在姿態(tài),年齡,光照,種族,職業(yè)都有很大的變化。Cao首次用SEnet在Ms-celeb-1M[59]數(shù)據(jù)集上進行訓(xùn)練,然后用VGGFace2進行微調(diào),在IJB-A[87],IJB-B[174]上獲得了最好的效果。
?
特殊結(jié)構(gòu):在FR中有許多特定的網(wǎng)絡(luò)結(jié)構(gòu),Wu[179,180]提出了一個maxfeature-map(MFM)激活函數(shù),通過在CNN的全連接層中引入maxout。該MFM獲得了一個緊湊的表征并減少了計算代價。有感于[97],Chowdhury[34]在FR中應(yīng)用雙線性CNN(B-CNN),通過結(jié)合兩個CNN的每個位置上的輸出然后進行平均池化,獲得了雙線性特征表征的能力。Sun[150]提出基于權(quán)重選擇標準,從先前學(xué)習(xí)的更密集模型迭代地稀疏深度網(wǎng)絡(luò)。條件卷積神經(jīng)網(wǎng)絡(luò)(c-CNN)[186]依據(jù)樣本的模態(tài)動態(tài)的激活內(nèi)核集。雖然設(shè)計用來在手機端運行的如SqueezeNet[76],MobileNet[69],ShuffleNet[33]和Xception[217]等網(wǎng)絡(luò)目前還未被廣泛的用在FR上。
聯(lián)合對齊-表征的網(wǎng)絡(luò):最近,一個端到端的系統(tǒng)[29,63,178,227]可以用來聯(lián)合訓(xùn)練幾個模塊(人臉檢測,對齊等等)。相較于那些每個模塊根據(jù)不同的目標單獨優(yōu)化,這個端到端系統(tǒng)根據(jù)識別目標優(yōu)化每個模塊,從而為識別模型提供更充分和穩(wěn)健的輸入。例如,受spatial transformer[77]的感想,Hayat[63]提出一個基于CNN的數(shù)據(jù)驅(qū)動方法,同時進行注冊器的學(xué)習(xí)和人臉表征的學(xué)習(xí)(圖9)
Wu[178]設(shè)計了一個新穎的遞歸空間變換(recursive spatial transformer, ReST)模塊,讓CNN能夠同時進行人臉對齊和識別。
?
多重網(wǎng)絡(luò)
多輸入網(wǎng)絡(luò):對應(yīng)"one-to-many增強"是通過生成圖像的多個塊或者姿態(tài)的形式,該結(jié)構(gòu)也可以改成同時接受多個輸入的多重網(wǎng)絡(luò)。在[46,99,145,148,149,177,228]中,多重網(wǎng)絡(luò)都是在生成不同人臉塊之后進行構(gòu)件的,然后一個網(wǎng)絡(luò)去處理其中的一種數(shù)據(jù)類型。其他文獻[82,108,167]使用多重網(wǎng)絡(luò)去處理不同姿態(tài)的圖片。例如,Masi[108]先調(diào)整姿態(tài)到正臉(0o0o),半臉(half-profile)(40o40o),全貌(full-profile view)(75o75o),然后通過多角度網(wǎng)絡(luò)去處理姿態(tài)變化。在[82]中的多角度深度網(wǎng)絡(luò)(multi-view deep network, MvDN)包含特定角度的子網(wǎng)絡(luò)和通用子網(wǎng)絡(luò),前者用來移除特定角度的變化,后者獲取通常的表征。Wang[167]使用對SAE來應(yīng)對交叉角度FR(cross-view)
多任務(wù)學(xué)習(xí)網(wǎng)絡(luò):其他類型的多重網(wǎng)絡(luò)是多任務(wù)學(xué)習(xí),進行ID分類是其主要任務(wù),其他副任務(wù)如姿態(tài),光照,表情等等。在這些網(wǎng)絡(luò)中,低層網(wǎng)絡(luò)會基于所有任務(wù)進行共享,更高層就會分支到多個網(wǎng)絡(luò),以此生成具體任務(wù)的輸出。在[124]中,任務(wù)依賴的子網(wǎng)絡(luò)分叉出去學(xué)習(xí)人臉檢測,人臉對齊,姿態(tài)估計,性別識別,笑容檢測,年齡評估,人臉識別。Yin[203]提出了一個自動針對每個副任務(wù)賦予動態(tài)loss權(quán)重的方法。Peng[118]使用一個特征重構(gòu)度量學(xué)習(xí)去分叉CNN網(wǎng)絡(luò)到子網(wǎng)絡(luò)中去,用于做人臉識別和姿態(tài)估計,如圖10
?
3.3 用深度特征進行人臉匹配
在測試中,余弦距離和L2距離通常是用來對兩個深度特征x1x1,x2x2進行測量他們的相似度的。然后通過閾值對比或者最近鄰分類器去做人臉驗證和識別的任務(wù)。除了這兩個常用的方法,還有一些其他方法。
人臉驗證
度量學(xué)習(xí),意在找到一個新的度量,能夠讓兩個類更具有可分性,同樣可以用在基于人臉匹配的深度特征上。如聯(lián)合貝葉斯(JB)[25]模型是一個眾所周知的度量學(xué)習(xí)方法[145,146,149,177,198]。Hu[70]證明了其能很大的提升性能。在JB模型中,人臉特征xx以x=μ+?x=μ+?進行建模,這里μμ和??分別是ID和類內(nèi)方差。相似性得分r(x1,x2)r(x1,x2)可以表示成:
這里P(x1,x2|HI)P(x1,x2|HI)是兩個人臉圖片屬于同一個人的概率,P(x1,x2|HE)P(x1,x2|HE)是兩個人臉圖片屬于不同ID的概率。
?
人臉識別
在計算了余弦距離之后,Cheng[30]在多個CNN模型的魯棒性多視圖組合的相似性得分上提出了一個啟發(fā)式投票策略在MS-celeb-1M 2017的challege2上獲得了第一名。在[197],Yang在人臉圖像的局部區(qū)域上提取局部自適應(yīng)卷積特征,然后基于擴展的SRC在一個ID一個樣本上完成FR。Guo[56]將深度特征和SVM分類器結(jié)合起來去識別所有的類。基于深度特征,Wang[160]首次使用乘積量化(product quantization,PQ)[79]去直接檢索top-k個最相似的人臉,然后通過結(jié)合深度特征與COTS匹配器[54]進行人臉的重排序。另外,當訓(xùn)練集和測試集的ID有重復(fù)時,可以用softmax做人臉匹配。例如在MS-celeb-1M challenge2中,DIng[226]訓(xùn)練了一個21000類的softmax分類器,直接在通過條件GAN進行特征增強之后識別one-shot類和正常類的人臉圖片。Guo[58]通過訓(xùn)練結(jié)合了underrepresented-classes promotion loss項的softmax來增強該性能。
當訓(xùn)練集的分布和測試集的分布是一樣的,那么上述人臉匹配方法效果都很好。可是如果不一樣,那么效果就會急轉(zhuǎn)直下。遷移學(xué)習(xí)[113,166]也就被引入到深度FR中,其利用在一個相對的原領(lǐng)域(訓(xùn)練集)進行FR的訓(xùn)練,然后在目標領(lǐng)域(測試集)進行執(zhí)行FR。當存在領(lǐng)域遷移時,有時候這有助于人臉匹配。[36,187]采用了模板自適應(yīng),這是一種模板的遷移學(xué)習(xí),通過結(jié)合CNN特征與特定模板的線性SVM。但是大多數(shù),只在人臉匹配上進行遷移學(xué)習(xí)還是不夠的。遷移學(xué)習(xí)應(yīng)該潛入到深度模型中去學(xué)習(xí)更具遷移性的表征。Kan[81]提出一個bi-shifting自動編碼網(wǎng)絡(luò)(bi-shifting autoencoder network,BAE)在跨視角,種族和圖像成像傳感器之間進行領(lǐng)域自適應(yīng);而Luo[233]針對同一個目的采用了多核最大均值差異(multi-kernels maximum mean discrepancy,MMD)。Sohn[143]使用對抗學(xué)習(xí)[158]去將靜態(tài)圖片F(xiàn)R進行知識遷移到視頻FR上。先使用目標訓(xùn)練數(shù)據(jù)進行訓(xùn)練,在預(yù)訓(xùn)練好的模型上將CNN參數(shù)進行微調(diào)到新的數(shù)據(jù)集。在很多方法中都是這么用的[4,28,161]。
4 訓(xùn)練和識別中的人臉處理
當我們關(guān)注不同的人臉處理方法如圖11,就會發(fā)現(xiàn)每年都會有很多不同的主流方法
在2014年到2015年,大多數(shù)的方法還是SAE模型和CNN模型;在2016年3D模型占據(jù)了主流;在Goodfellow發(fā)明GAN[53]開始,GAN就被深度學(xué)習(xí)和機器視覺社區(qū)深入研究。它可以用在多個不同的領(lǐng)域,同樣也有人臉處理。在2017年,GAN顯示了其在FR的能力,他不但可以完成”one-to-many增強“,也能完成”many-to-one歸一化“,同時它打破了人臉合成需要基于有監(jiān)督的限制。雖然GAN還沒廣泛用在人臉處理和識別中,它還是很有潛力的。例如,Dual-Agent GANs(DA-GAN)[221]在NIST IJB-A 2017FR比賽上贏得了驗證和識別的第一名。
?
4.1 one-to-many的增強
收集一個大的數(shù)據(jù)集的代價是很大的,而”one-to-many增強“可以模擬數(shù)據(jù)收集的過程,然后用來增強訓(xùn)練數(shù)據(jù)集和測試數(shù)據(jù)集,我們將他們歸類為四類:
- 數(shù)據(jù)增強:
- 3D模型;
- CNN模型;
- GAN模型。
數(shù)據(jù)增強:常見的數(shù)據(jù)增強方法包括光度變換[88,142]]和幾何變換,如過采樣(通過不同尺度裁剪獲得的多個塊)[88],鏡像[193],以及旋轉(zhuǎn)[184]。近年來,數(shù)據(jù)增強已經(jīng)在深度FR算法[46,99,145,146,150,160,177,228]中普遍應(yīng)用了。例如Sun[145]通過crop了400個人臉塊,其中涉及了位置,尺度,顏色通道和鏡像等等。在[99]中,在人臉區(qū)域獲取7個不同的關(guān)鍵點,以其作為中心得到7個重疊圖像塊,然后用7個相同結(jié)構(gòu)的CNN去分別輸入這7個圖像塊。
3D模型:3D人臉重構(gòu)同樣是一個豐富訓(xùn)練數(shù)據(jù)的方法,有許多論文在這方面有研究,但是我們只關(guān)注使用深度方法去進行3D人臉重構(gòu)的部分。在[109]中,Masi用新的類內(nèi)外觀變化去生成人臉圖片,包括姿態(tài),形狀和表情,然后用VGG-19去訓(xùn)練真實和增強的數(shù)據(jù)。[107]使用通用3D人臉和渲染的固定視角去減少計算代價。Richardson[129]使用了一個迭代3D CNN,通過使用輔助輸入通道表示之前網(wǎng)絡(luò)的輸出作為用于重建3D人臉的圖像,如圖12
Dou[48]使用一個多任務(wù)CNN,將3D人臉重構(gòu)任務(wù)劃分成神經(jīng)3D重構(gòu)和表情3D重構(gòu)。Tran[155]直接通過一個非常深的CNN結(jié)構(gòu)去回歸3D可變型人臉模型(3d morphable face model,3DMM)。An[208]采用3DMM去合成各種姿態(tài)和表情的人臉圖片,然后通過MMD去減少合成數(shù)據(jù)與真實數(shù)據(jù)之間的鴻溝。
?
CNN模型:不采用先從2D圖像進行3D重構(gòu)然后將其映射回2D的各種不同的姿態(tài)的方法,CNN能直接生成2D的圖片。在多角度感知中(multi-view perceptron,MVP)[231],判別性的隱藏層神經(jīng)元可以學(xué)習(xí)ID特征,而隨機隱藏神經(jīng)元可以去抓取視角特征。通過采樣不同的隨機神經(jīng)元,不同姿態(tài)的人臉圖片都是合成的。類似[201],Qian[200]使用了7個Recon codes將人臉以7個不同的姿態(tài)進行旋轉(zhuǎn),然后提出了一個unpair-supervised方法去學(xué)習(xí)人臉變化的表征,而不是通過Recon code去做有監(jiān)督
GAN模型:在使用一個3D模型生成側(cè)面圖像,DA-GAN[221]可以通過GAN提煉該圖像,該GAN結(jié)合了數(shù)據(jù)分布和人臉知識(姿態(tài)和ID認知loss)的先驗。CVAE-GAN[11]通過將GAN與一個變分自動編碼器去增強數(shù)據(jù),然后利用了統(tǒng)計和成對的特征匹配去完成訓(xùn)練過程,且手里更快更穩(wěn)定。在從噪音中合成不同人臉之外,許多文獻也會去探索如何將ID和人臉的變化進行解耦,從而通過交換不同的變化來合成新的人臉。在CG-GAN[170]中,生成器直接將輸入圖像的每個表征解析為變化編碼和ID編碼,并重新組合這些編碼以進行交叉生成,而判別器確保生成的圖像的真實性。Bao[12]提取一個輸入圖片的表征和任何其他人臉圖片的屬性表征,然后通過重組這些表征生產(chǎn)新的人臉。該工作在生產(chǎn)真實和ID表示的人臉圖片上展現(xiàn)了超強的性能,甚至是訓(xùn)練集之外的數(shù)據(jù)。不同于之前的將分類器作為觀測者,FaceID-GAN[206]提出一個三角色GAN,其中分類器同時與判別器合作,去和生成器在兩個方面(人臉I(yè)D和圖像質(zhì)量)做競爭。
4.2 many-to-one的歸一化
該方法是生成正臉,并減少測試數(shù)據(jù)的變化性,從而讓人臉能夠容易做對齊和驗證。該方法可以簡單歸類為SAE,CNN和GAN三種。
SAE:提出的堆疊漸進式自動編碼器(stacked progressive autoencoders,SPAE)[80]漸進的將非正臉通過幾個自動編碼器進行堆疊映射到正臉上。在[195]中,一個結(jié)合了共享ID單元(identity units)和遞歸姿態(tài)單元的一個遞歸卷積編碼解碼網(wǎng)絡(luò)(recurrent convolutional encoder-decoder)在每個時間步上通過控制信號去渲染旋轉(zhuǎn)的目標。ZHang[218]通過設(shè)置正臉和多個隨機臉為目標值構(gòu)建了一個many-to-one編碼。
CNN:Zhu[230]在規(guī)范視角上,使用一個有特征提取模塊和正臉重構(gòu)模塊組成的CNN去提取人臉身份保留特征從而重構(gòu)人臉。Zhu[232]根據(jù)人臉圖像的對策和外形選擇規(guī)范視角的圖片,然后通過一個CNN基于最小化重構(gòu)loss去重構(gòu)正臉。Yim[201]提出一個多任務(wù)網(wǎng)絡(luò),其能夠通過使用用戶遠程編碼(user's remote code),旋轉(zhuǎn)一個任意姿態(tài)和光照的人臉到目標姿態(tài)人臉上。[73]根據(jù)它們之間的像素位移場將非正臉圖像變換為正臉圖像。
GAN:[75]提出一個兩路徑的生產(chǎn)對抗網(wǎng)絡(luò)(two-pathway GAN, TP-GAN),其包含四個定點關(guān)鍵點人臉塊網(wǎng)絡(luò)和一個全局的編碼解碼網(wǎng)絡(luò)。通過結(jié)合對抗loss,對稱loss和ID保留loss,TP-GAN生成一個正臉角度的同時保留了全局結(jié)構(gòu)和局部信息,如圖13.
在解耦表征學(xué)習(xí)生成對抗網(wǎng)絡(luò)(DR-GAN)[156]中,編碼器生成身份表征,并且解碼器使用該表征和姿態(tài)編碼合成指定姿態(tài)的人臉。Yin[204]將3DMM引入到GAN結(jié)構(gòu)中,以提供外形和外觀先驗,從而知道生成器生成正臉。
?
5 人臉數(shù)據(jù)集和評估方案
在過去三十多年中,人臉數(shù)據(jù)集從小型到大型從單源到多源,從約束場景到無約束的真實世界場景。如圖14
?
?
隨著虛弱簡單數(shù)據(jù)集變得飽和,越來越多復(fù)雜的數(shù)據(jù)集被不斷的提出。可以說數(shù)據(jù)集本身的提出,也幫助FR的發(fā)展指明了方向。在本部分中,主要簡單介紹下主流數(shù)據(jù)集。
?
5.1 大規(guī)模通用訓(xùn)練數(shù)據(jù)集
要想有很好的深度FR,必須要有足夠大的訓(xùn)練集。Zhou[228]認為深度學(xué)習(xí)加大量的數(shù)據(jù)可以提升FR的性能。MegaFace挑戰(zhàn)的結(jié)果揭示了之前的深度FR通常都是基于大于50十萬張圖片和2萬個ID上訓(xùn)練的。深度FR早期的工作通常都是基于私有訓(xùn)練數(shù)據(jù)集的。Facebook的深度人臉模型[153]是在4千個ID,4百萬張圖片上訓(xùn)練的;Google的FaceNet[137]是在3百萬個ID,2億張圖片上訓(xùn)練的;DeepID系列模型[145,146,149,177]是在1萬個Id,20十萬個圖片上。雖然他們宣稱打破了記錄,可是卻沒法通過公開的數(shù)據(jù)集去復(fù)現(xiàn)他們的結(jié)果。
為了處理這個問題,CASIA-WebFace[198]首次提供了一個超大數(shù)據(jù)集,其中包含1w個名人,50十萬張圖片。基于其數(shù)據(jù)集的量和簡單的使用方法,它變成了學(xué)術(shù)界的一個標準數(shù)據(jù)集。然而因為其數(shù)據(jù)量和ID不夠多,還是無法推進更多更好的深度學(xué)習(xí)方法。當前已經(jīng)有了不少公開的數(shù)據(jù)集,如MS-Celeb-1M[59], VGGface2[20], MegaFace[83,112].圖15
這些大型訓(xùn)練集都是從深度和廣度上進行擴展。VGGFace2的是基于深度的大規(guī)模訓(xùn)練集,其限制了ID的個數(shù)擴展了每個ID的圖片個數(shù)。數(shù)據(jù)集的深度增強了模型處理較大類內(nèi)變化的能力,例如光照,姿態(tài)和年齡;而MS-Celeb-1M和Megeface(挑戰(zhàn)2)提供了基于廣度的大規(guī)模訓(xùn)練集,其中包含了很多iD,不過限制了每個ID的圖片個數(shù)。數(shù)據(jù)集的廣度增強了模型處理類間變化的能力。Cao[20]在VGGFace2和MS-celeb1-M上進行模型訓(xùn)練并做了系統(tǒng)性研究,并發(fā)現(xiàn)首先在MS-celeb-1M(廣度)上訓(xùn)練然后在VGGFace2(深度)進行微調(diào)可以得到最優(yōu)的結(jié)果。
?
當然不同數(shù)據(jù)集之間的對長尾分布的使用也是不同的,在MS-Celeb-1M挑戰(zhàn)2中,該數(shù)據(jù)集特別用尾數(shù)據(jù)來研究low-shot學(xué)習(xí);中心部分用來作為挑戰(zhàn)1的任務(wù)且每個ID圖像的個數(shù)都逼近100張;VGGFace和VGGFace2只用了其分布前面部分;MegaFace使用了整個分布,盡可能包含所有圖片,其中每個ID最少3個圖片,最多2469個圖片。
在大多數(shù)數(shù)據(jù)集中會存在數(shù)據(jù)偏置問題,一個主要的原因就是每個數(shù)據(jù)集只覆蓋了人臉數(shù)據(jù)的部分分布。另一個原因是大多數(shù)數(shù)據(jù)集(VGGface2,Ms-celeb-1M)中的名人是在空開場合:笑著,化妝了,年輕,且漂亮。所以它們就和從日常生活中采集的(Megaface)不同。因此,基于這些數(shù)據(jù)集訓(xùn)練的深度模型不能直接在一些特定場景使用,因為數(shù)據(jù)偏置。需要重新收集大量的標簽數(shù)據(jù)去從頭訓(xùn)練一個模型或者重新收集無標簽塑化劑去進行領(lǐng)域自適應(yīng)[166]或者使用其他方法。
幾個主流的benchmark如LFW無約束方案,MegaFace挑戰(zhàn)1,Ms-Celeb-1M挑戰(zhàn) 1&2,都是顯式的鼓勵研究者去收集和清洗一個大型數(shù)據(jù)集,從而增強網(wǎng)絡(luò)的能力。雖然數(shù)據(jù)工程對CV研究者是一個有價值的問題,可是工業(yè)界的人才往往熟知該門道。如lederboards上展示的,大多數(shù)都是由公司所占據(jù),因為他們有著巨大計算力和數(shù)據(jù)。這個現(xiàn)象對于學(xué)術(shù)界開發(fā)新模型是不利的。
對于學(xué)術(shù)界,建立一個足夠大和干凈的數(shù)據(jù)集是十分有意義的。Deng[38]發(fā)現(xiàn)Ms-Celeb-1M里面有不少標簽噪音,他減少了該噪音,然后公開了清洗后的數(shù)據(jù)集。Microsoft和Deepglint聯(lián)合公開了從MS-Celeb-1M清洗后的最大干凈標簽數(shù)據(jù)集,其中包含4百萬張圖片和10萬個亞洲名人。
5.2 訓(xùn)練方案
在訓(xùn)練方案(training protocol)中,FR模型可以通過目標依賴或者獨立環(huán)境下進行評估,如圖16
?
?
目標依賴(subject-dependent):所有的測試ID都出現(xiàn)在訓(xùn)練集中,所以該情況的問題可以看成是一個分類問題,其中特征都期望是可分的。該方案是FR發(fā)展的最早階段(2000年之前),如FERET[120],AR[106],只適合在一些小范圍的應(yīng)用。MS-Celeb-1M是目前唯一的使用該方案的大型數(shù)據(jù)集。
目標獨立(subject-independent):測試ID通常不出現(xiàn)在訓(xùn)練集中。因為無法將人臉分類給訓(xùn)練集,所以目標獨立的表征是有必要的。因為人臉總是表現(xiàn)的相似的類內(nèi)變化,深度模型可以在一個足夠大的通用ID數(shù)據(jù)集上學(xué)到很好的泛化能力,其中的關(guān)鍵就是學(xué)到判別性的大邊際深度特征。幾乎所有主流的人臉識別benchmark如LFW,PaSC[14],IJB-A/B/C和MegaFace,都需要測試的模型先基于目標獨立方案上進行訓(xùn)練。
?
5.3 評估任務(wù)和性能指標
為了評估一個深度模型是否解決了現(xiàn)實生活中遇到的不同F(xiàn)R問題,設(shè)計了許多基于不同任務(wù)的測試集和場景,如表9.
在測試任務(wù)中,人臉識別模型的性能會基于人臉驗證,閉集人臉識別,開集人臉識別上評估,如圖16。每個人物都有對應(yīng)的性能指標。
?
人臉驗證:人臉驗證與訪問控制系統(tǒng),Re-ID和FR算法的應(yīng)用程序獨立評估相關(guān)。它通常使用(receiver operating characteristic,ROC)和平均(accuracy,ACC)進行評估。給定一個閾值(獨立變量),ROC分析可以測量真接受率(true accept rate,tar),真正超過閾值的結(jié)果所占比例;假接受率(false accept rate,far)是不正確的超過閾值的結(jié)果所占比例。ACC是LFW采用的一個簡化指標,表示正確分類的比例。隨著深度FR的發(fā)展,測試數(shù)據(jù)集上的指標越來越嚴格地考慮安全程度,以便在大多數(shù)安全認證場景中當FAR保持在非常低的比例時,TAR能夠符合客戶的要求。PaSC在FAR等于10?210?2時對TAR進行評估;IJB-A將其提高到TAR@10?3FARTAR@10?3FAR;Megaface專注于TAR@10?6FARTAR@10?6FAR; 而在MS-celeb-1M 挑戰(zhàn)3上,指標是TAR@10?9FARTAR@10?9FAR.
閉集人臉識別:就是基于用戶的搜索,Rank-N和累積匹配特征(cumulative match characteristic, CMC)是該場景中常用的指標。Rank-N基于測試樣本搜索在排序結(jié)果前K個中返回測試樣本的正確結(jié)果百分比。CMC曲線表示在給定rank(獨立變量)測試樣本識別的比例。IJB-A/B/C主要使用rank-1和rank-5識別率。MegaFace挑戰(zhàn)系統(tǒng)性評估rank-1識別率,其中最好的結(jié)果在表6。
MS-Celeb-1M使用precision-coverage曲線去基于可變閾值tt下測試識別性能。當?shù)梅值陀陂撝祎t,則該測試樣本會被拒絕。算法之間對比就是看測試樣本到底測試正確了多少,如95%,99%,不同算法的評估在表7。
?
開集人臉識別:該場景是人臉搜索系統(tǒng)中較為常見的。這里識別系統(tǒng)應(yīng)該拒絕那些未注冊的用戶。現(xiàn)在來說,很少有數(shù)據(jù)集是基于該任務(wù)考慮的。IJB-A引入了一個決策誤差權(quán)衡(decision errr tradeoff, DET),以將FNIR表征為FPIR的函數(shù)。The false positive identification rate (FPIR) measures what fraction of comparisons between
probe templates and non-mate gallery templates result in a match score exceeding T。the false negative identification rate (FNIR) measures what fraction of probe
searches will fail to match a mated gallery template above a score of T。算法基于低FPIR基礎(chǔ)(1%,10%)上,以FNIR來評估IJB-A數(shù)據(jù)集上算法的結(jié)果,如表8
?
5.4 評估場景和數(shù)據(jù)
有許多不同的數(shù)據(jù)集用于模擬現(xiàn)實生活中不同的場景,如表9。按照它們各自的特色,我們將這些場景劃分成四個:
- 跨因素的人臉識別;
- 異質(zhì)的人臉識別;
- 多(單)媒體的人臉識別;
- 工業(yè)界人臉識別
跨因素的人臉識別:因為復(fù)雜的非線性人臉外觀,由許多是人類自身導(dǎo)致的變化,如跨姿態(tài),跨年齡,化妝。例如CALFW[225],MORPH[128],CACD[24]和FG-NET[1]都是基于不同年齡段的;CTP[138]只關(guān)注正臉和側(cè)臉,CPLFW[223]從LFW中提取的基于不同姿態(tài)的。
?
異質(zhì)的人臉識別:主要是為了基于不同的視覺領(lǐng)域進行人臉匹配。領(lǐng)域鴻溝主要有傳感器設(shè)備和照相機設(shè)置引起的,如可見光和近紅外,照相和素描。例如,相片和素描的數(shù)據(jù)集,CUFSF[213]要難于CUFS[168]因為光照變化和變形。
多(單)媒體的人臉識別:理論上深度模型都是基于每個ID大量的圖片上訓(xùn)練,然后基于每個ID一張圖片上測試。可是現(xiàn)實是,訓(xùn)練集中每個ID的圖片很少,被稱為low-shot FR,例如MS-Celeb-1M 挑戰(zhàn)2;或者測試機中每個ID人臉通常采集自圖片和視頻,被稱為set-based FR,例如IJB-A和PaSC。
工業(yè)界人臉識別:雖然深度FR在一些標準benchmark上效果超過了人類,不過當深度FR在工業(yè)上應(yīng)用的時候,我們需要關(guān)注更多的細節(jié),如反欺騙(CASIA-FASD[219])和3D FR(Bosphorus[134],BU-3DFE[202]和FRGCv2[119]).對比公開的可用2D數(shù)據(jù)集,3D掃描很難獲取,而且開源的3D人臉數(shù)據(jù)集也受限掃描的圖片個數(shù)和ID個數(shù),這也阻礙了3D深度FR的發(fā)展。
6 不同的識別場景
為了應(yīng)對不同場景的數(shù)據(jù)集,需要很好的深度模型在大量數(shù)據(jù)集上訓(xùn)練。然而,因為隱私問題,公開的數(shù)據(jù)集大部分來自名人的照片,基本沒法覆蓋不同場景下日常生活的圖像抓取。不同LFW中的高準確度,在megaface中,效果仍然沒法達到現(xiàn)實應(yīng)用的地步。對于工業(yè)界,就是基于不同的目標場景收集一個較大數(shù)據(jù)集然后以此來提升效果。然而,這只是一個方面。因此,需要考慮如何在受限數(shù)據(jù)集基礎(chǔ)上采用更好的算法來明顯的提升結(jié)果。本部分,我們介紹幾個基于不同場景下的特殊算法。
6.1 跨因素的人臉識別
跨姿態(tài)人臉識別:如[138]中說明的,許多現(xiàn)存算法在正臉-正臉驗證改成正臉-側(cè)臉驗證時準確度降低10%,交叉姿態(tài)FR仍然是一個極端挑戰(zhàn)的場景。之前提到的方法包括"one-to-many增強",“many-to-one歸一化”,多輸入網(wǎng)絡(luò)和多任務(wù)學(xué)習(xí)還有其他算法都是用來應(yīng)對該場景的方法。考慮這些方法需要額外的代價,[19]首次嘗試在深度特征空間中使用正臉化,而不是圖像空間中。一個深度殘差等效映射(deep residual equviariant mapping,DREAM)塊動態(tài)的在輸入表征上增加殘差去將側(cè)臉映射到正臉上。[27]提出結(jié)合特征提取與多角度子空間學(xué)習(xí)去同時讓特征變得姿態(tài)魯棒和判別性。
跨年齡人臉識別:跨年齡FR一直是一個極端的挑戰(zhàn),因為隨著年齡的改變,人臉的外觀也伴隨巨大變化。一個直接的方法就是將輸入圖片以特定年齡進行合成。[49]提出的生成概率模型可以以短期階段進行建模年齡變化。Antipov[7]提出通過GAN進行年齡人臉合成,但是合成的人臉不能直接用來做人臉驗證,因為它是對ID的不完美表征。[6]使用局部流行自適應(yīng)(local mainfold adaptation,LMA)方法去解決[7]中的問題。一個代替的方案是將年齡/ID組件進行解耦,然后提取年齡不變性表征。[172]提出了一個潛在ID分析(latent identity analysis,LIA)層去分別這兩個組件,如圖18.
在[224]中,年齡不變特征可以通過在年齡評估任務(wù)中基于表征減去年齡指定的因子。另外,還有其他方法用在跨年齡FR上,如,[15,60]微調(diào)CNN去做知識遷移。Wang[169]提出基于siamese深度網(wǎng)絡(luò)的多任務(wù)學(xué)習(xí)去應(yīng)對年齡評估。Li[95]通過深度CNN整合了特征提取和度量學(xué)習(xí)。Yang[192]涉及了人臉驗證和年齡評估,利用一個復(fù)合訓(xùn)練評價,整合簡單的像素級別的懲罰,基于年齡的GAN loss去達到年齡變換,其中的個人依賴評價可以保持ID信息的穩(wěn)定。
?
化妝人臉識別:在化妝如此平常的今天,也同時因為明顯的人臉外觀改變給FR帶來巨大挑戰(zhàn),基于匹配化妝和不化妝的人臉圖像研究一直受到持續(xù)性關(guān)注。[94]通過一個bi-level對抗網(wǎng)絡(luò)(BLAN)上從化妝的圖片上生成不化妝的圖片,然后用該合成的不化妝圖片進行驗證,如圖19.
[147]在開源的視頻上訓(xùn)練了一個triplet網(wǎng)絡(luò),然后基于小的化妝和不化妝數(shù)據(jù)集進行微調(diào)。
?
6.2 異質(zhì)的人臉識別
NIR-VIS人臉識別:由于在低光場景下近紅外光譜(NIS)圖像的優(yōu)異性能,NIS圖像被廣泛應(yīng)用于監(jiān)視系統(tǒng)。NIS圖像廣泛用在監(jiān)控系統(tǒng)中,因為大多數(shù)數(shù)據(jù)集有可見光(visible light,VIS)圖譜圖像,如何從VIS圖像中識別出一個NIR人臉也成了熱點。[103,135]通過微調(diào)遷移這個VIS深度網(wǎng)絡(luò)到NIR領(lǐng)域中。[90]使用一個VIS CNN以交叉光譜幻視的方式變換NIR圖像到VIS人臉,然后從低秩嵌入向量上恢復(fù)一個低秩結(jié)構(gòu)。[127]訓(xùn)練了兩個網(wǎng)絡(luò),一個VISNet(可見圖像)和一個NIRNet(近紅外線圖像),通過創(chuàng)建一個siamese網(wǎng)絡(luò)耦合他們輸出的特征。[65,66]將該網(wǎng)絡(luò)的高層劃分到一個NIR層,一個VIS層和一個NIR-VIS共享層;然后,通過NIR-VIs共享層學(xué)習(xí)一個模態(tài)不變特征。[144]將交叉光譜人臉幻視和判別性特征學(xué)習(xí)嵌入到一個端到端的對抗網(wǎng)絡(luò)中。在[181]中,低秩相關(guān)和交叉模態(tài)排序用來緩解該語義鴻溝。
低分辨率人臉識別:雖然深度網(wǎng)絡(luò)對于低分辨率有一定的魯棒性,仍他有一些文獻研究如何提升低分辨率的FR。例如[207]提出一個有兩個分叉結(jié)構(gòu)的CNN(一個超分辨率網(wǎng)絡(luò)和一個特征提取網(wǎng)絡(luò))去映射高和低分辨率圖片到一個通用空間上,該空間中類內(nèi)距離小于類間距離。
相片-素描人臉識別:照片-素描FR可以有助于法律人士快速進行嫌疑人認證。通常該領(lǐng)域的使用可以劃分成兩類:
- 一個是使用遷移學(xué)習(xí)去直接將照片匹配到素描上,這里深度網(wǎng)絡(luò)受限使用一個照片人臉數(shù)據(jù)集去訓(xùn)練,然后使用小的素描數(shù)據(jù)集[51,110]去微調(diào);
- 使用圖像到圖像的變換,將照片變換到素描上,或者將素描變換到照片上,然后在目標領(lǐng)域中進行FR。[211]將生成損失和判別性正則加到全卷積網(wǎng)絡(luò)上實現(xiàn)相片到素描的變換。
[209]利用一個分支的全卷積神經(jīng)網(wǎng)絡(luò)(branched fully convolutional neural network, BFCN)去生成一個結(jié)構(gòu)保留的素描和一個紋理保留的素描,然后將它們通過一個概率方法進行融合。近期,GAN在圖片生成上獲得了不小的轟動。[86,199,229]使用兩個生成器GAGA和GBGB,生成從相片到素描和素描到相片,圖20
基于[229],[165]提出一個多對抗網(wǎng)絡(luò)通過利用生成器網(wǎng)絡(luò)中不同分辨率的特征圖的隱式表征去避免偽造的圖片。
?
6.3 多(單)媒體的人臉識別
low-shot人臉識別:
對于許多具體應(yīng)用,如監(jiān)控和安保,FR系統(tǒng)應(yīng)該基于很少的訓(xùn)練樣本或者一個ID一個樣本進行訓(xùn)練。low-shot學(xué)習(xí)可以歸類為增大訓(xùn)練數(shù)據(jù)和學(xué)習(xí)更強的特征。[68]使用3D模型去生成各個姿態(tài)的圖像,然后適應(yīng)深度領(lǐng)域去處理其他變化,例如模糊,遮擋和表情(圖21).
[32]使用數(shù)據(jù)增強方法和GAN去做姿態(tài)變換和屬性加速,以增大訓(xùn)練數(shù)據(jù)集的規(guī)模。[182]提出一個使用CNN和最近鄰模型的混合分類器。[58]使用one-shot類和正常類的權(quán)重向量的范數(shù)對齊以解決數(shù)據(jù)不平衡問題。[30]提出一個增強softmax以包含最優(yōu)dropout,選擇性衰減,L2 歸一化模型級別的優(yōu)化。Yin[205]通過將主成分從常規(guī)類轉(zhuǎn)移到low-shot類來增強low-shot類的特征空間,以鼓勵low-shot類的方差來模擬常規(guī)類的方差。
?
set/template-based人臉識別:set/template-based FR問題假設(shè)測試樣本和訓(xùn)練樣本都是用媒體集來表示的如圖像和視頻,而不只是其中一個。在從每個媒體上獨立的學(xué)習(xí)了表征集合,基于其應(yīng)用兩個不同的策略做FR:
- 使用這些表征做基于兩個集合的相似性對比,然后將結(jié)果池化到一個,最終的得分,就和最大池化[108],平均池化[105]和它們的變種[220,17]。
- 通過平均或者最大池化將人臉表征融合起來,然后對每個集合生產(chǎn)一個單一表征,然后進行兩個集合的對比,這里我們成為特征池化[28,108,132]。
另外,還有許多其他基于該方向的應(yīng)用,如[62]提出一個深度異質(zhì)特征融合網(wǎng)絡(luò)來利用不同CNN生成的特征完備性信息。
視頻人臉識別:視頻人臉識別中有兩個關(guān)鍵問題:
- 整合基于不同幀之間的信息去構(gòu)建一個視頻人臉的表征,
- 要處理視頻自帶的模糊,姿態(tài)變化和遮擋。
對于幀融合,[196]提出一個神經(jīng)融合網(wǎng)絡(luò)(neural aggregation network,nan ),在融合模塊中,有基于一個memory驅(qū)動的兩個注意力塊,生成128維的特征向量,(圖22).
Rao[125]直接基于度量學(xué)習(xí)和對抗學(xué)習(xí)進行組合,去融合原始視頻幀。在處理壞幀時,[126]通過將該操作時為一個馬爾可夫決策過程去丟棄該幀,然后通過一個深度強化學(xué)習(xí)框架去訓(xùn)練這個注意力模型。[47]人工去模糊清晰的圖片,然后用來訓(xùn)練去學(xué)習(xí)模糊魯棒性的人臉表征。Parchami[114]使用CNN用高質(zhì)量人臉去重構(gòu)一個低質(zhì)量的視頻。
?
6.4 工業(yè)界的人臉識別
3D人臉識別:3D FR繼承了2D方法上的優(yōu)勢,但是3DFR沒有太多深度網(wǎng)絡(luò)的使用研究,主要是因為缺少大量的標簽數(shù)據(jù)。為了增強3D訓(xùn)練數(shù)據(jù)集,大多數(shù)工作主要是使用"one-to-many增強"去合成3D人臉。然而,提取3D人臉的深度特征的高效方法依然需要探索。[84]基于少量的3D掃描去微調(diào)一個2DCNN。[235]使用一個3通道圖像(對應(yīng)正常向量的深度,方位和elevation 角度)作為輸入然后最小化平均預(yù)測log-loss。[210]從candide-3人臉模型去選擇30個特征點來屬性化人臉,然后進行了無監(jiān)督的人臉深度數(shù)據(jù)預(yù)訓(xùn)練和有監(jiān)督微調(diào)。
人臉反欺騙:隨著FR技術(shù)的成功,伴隨的是各種欺騙攻擊,比如打印欺騙,視頻播放欺騙,3D面具欺騙等等。人臉反欺騙也成了識別人臉是否是活的一個重要部分。因為他同時需要識別人臉(真還是假ID),所以我們將它看成是一種FR場景。[8]提出一個新穎的兩流CNN,其中局部特征獨立于空間人臉區(qū)域的判別欺騙圖像塊,整體深度圖確保輸入的活體樣本具有類似面部的深度。[190]提出一個LSTM-CNN結(jié)構(gòu),學(xué)習(xí)時序特征去聯(lián)合預(yù)測一個視頻中多個人臉。[91,117]在一個包含了真,假人臉數(shù)據(jù)集上微調(diào)一個預(yù)訓(xùn)練的模型。
移動端人臉識別:隨著手機的出現(xiàn),平板電腦和增強現(xiàn)實,FR已應(yīng)用于移動設(shè)備。因為計算力的限制,在這些設(shè)備中的識別任務(wù)需要輕量級而且實時的運行。基于之前提到的[33,69,76,217]提出了輕量級的深度網(wǎng)絡(luò),這些網(wǎng)絡(luò)可以用在這里的場景。[152]提出一個人多batch方法,首先生成k個人臉的batch,然后基于這個minibatch,通過依賴所有k2?kk2?k對構(gòu)建一個全梯度的無偏估計。
7 總結(jié)
[139,140]對如何減少人臉欺騙做了一些 工作
[166]關(guān)于深度領(lǐng)域適應(yīng)值得關(guān)注。
參考文獻:
- Wang M, Deng W.?Deep Face Recognition: A Survey[J]. arXiv preprint arXiv:1804.06655, 2018.
- Li, Pei, et al. "Face Recognition in Low Quality Images: A Survey." arXiv preprint arXiv:1805.11519 (2018).
- Sneha, Sanjay Sharma. "Face Recognition Techniques: A Survey." (2018).
- Changxing Ding, Dacheng Tao.?A Comprehensive Survey on Pose-Invariant Face Recognition[J]. arXiv preprint arXiv:1502.04383, 2015.
- Shuxin Ouyang, Timothy Hospedales, Yi-Zhe Song, Xueming Li.?A Survey on Heterogeneous Face Recognition: Sketch, Infra-red, 3D and Low-resolution[J]. arXiv preprint arXiv:1409.5114, 2014.
- D. Johnvictor, G. Selvavinayagam.?Survey on Sparse Coded Features for Content Based Face Image Retrieval[J]. arXiv preprint arXiv:1402.4888, 2014.
[1] Fg-net aging database. http://www.fgnet.rsunit.com.
[2] Ms-celeb-1m challenge 3. http://trillionpairs.deepglint.com.
[3] A. F. Abate, M. Nappi, D. Riccio, and G. Sabatino. 2d and 3d face recognition: A survey. Pattern recognition letters, 28(14):1885–1906, 2007.
[4] W. Abdalmageed, Y. Wu, S. Rawls, S. Harel, T. Hassner, I. Masi, J. Choi, J. Lekust, J. Kim, and P. Natarajan. Face recognition using deep multi-pose representations. In WACV, pages 1–9, 2016.
[5] T. Ahonen, A. Hadid, and M. Pietikainen. Face description with local binary patterns: Application to face recognition. IEEE Trans. Pattern Anal. Machine Intell., 28(12):2037–2041, 2006.
[6] G. Antipov, M. Baccouche, and J.-L. Dugelay. Boosting cross-age face verification via generative age normalization. In IJCB, 2017.
[7] G. Antipov, M. Baccouche, and J.-L. Dugelay. Face aging with conditional generative adversarial networks. arXiv preprint arXiv:1702.01983, 2017.
[8] Y. Atoum, Y. Liu, A. Jourabloo, and X. Liu. Face anti-spoofing using patch and depth-based cnns. In IJCB, pages 319–328. IEEE, 2017.
[9] A. Bansal, C. Castillo, R. Ranjan, and R. Chellappa. The dos and donts for cnn-based face verification. arXiv preprint arXiv:1705.07426, 5, 2017.
[10] A. Bansal, A. Nanduri, C. Castillo, R. Ranjan, and R. Chellappa. Umdfaces: An annotated face dataset for training deep networks. arXiv preprint arXiv:1611.01484, 2016.
[11] J. Bao, D. Chen, F. Wen, H. Li, and G. Hua. Cvae-gan: finegrained image generation through asymmetric training. arXiv preprint arXiv:1703.10155, 2017.
[12] J. Bao, D. Chen, F. Wen, H. Li, and G. Hua. Towards open-set identity preserving face synthesis. In CVPR, pages 6713–6722, 2018.
[13] P. N. Belhumeur, J. P. Hespanha, and D. J. Kriegman. Eigenfaces vs. fisherfaces: Recognition using class specific linear projection. IEEE Trans. Pattern Anal. Mach. Intell., 19(7):711–720, 1997.
[14] J. R. Beveridge, P. J. Phillips, D. S. Bolme, B. A. Draper, G. H. Givens, Y. M. Lui, M. N. Teli, H. Zhang, W. T. Scruggs, K. W. Bowyer, et al. The challenge of face recognition from digital point-and-shoot cameras. In BTAS, pages 1–8. IEEE, 2013.
[15] S. Bianco. Large age-gap face verification by feature injection in deep networks. Pattern Recognition Letters, 90:36–42, 2017.
[16] V. Blanz and T. Vetter. Face recognition based on fitting a 3d morphable model. IEEE Transactions on pattern analysis and machine intelligence, 25(9):1063–1074, 2003.
[17] N. Bodla, J. Zheng, H. Xu, J.-C. Chen, C. Castillo, and R. Chellappa. Deep heterogeneous feature fusion for template-based face recognition. In WACV, pages 586–595. IEEE, 2017.
[18] K. W. Bowyer, K. Chang, and P. Flynn. A survey of approaches and challenges in 3d and multi-modal 3d+ 2d face recognition. Computer vision and image understanding, 101(1):1–15, 2006.
[19] K. Cao, Y. Rong, C. Li, X. Tang, and C. C. Loy. Pose-robust face recognition via deep residual equivariant mapping. arXiv preprint arXiv:1803.00839, 2018.
[20] Q. Cao, L. Shen, W. Xie, O. M. Parkhi, and A. Zisserman. Vggface2: A dataset for recognising faces across pose and age. arXiv preprint arXiv:1710.08092, 2017.
[21] Z. Cao, Q. Yin, X. Tang, and J. Sun. Face recognition with learningbased descriptor. In CVPR, pages 2707–2714. IEEE, 2010.
[22] T.-H. Chan, K. Jia, S. Gao, J. Lu, Z. Zeng, and Y. Ma. Pcanet: A simple deep learning baseline for image classification? IEEE Transactions on Image Processing, 24(12):5017–5032, 2015.
[23] B. Chen, W. Deng, and J. Du. Noisy softmax: improving the generalization ability of dcnn via postponing the early softmax saturation. arXiv preprint arXiv:1708.03769, 2017.
[24] B.-C. Chen, C.-S. Chen, and W. H. Hsu. Cross-age reference coding for age-invariant face recognition and retrieval. In ECCV, pages 768–783. Springer, 2014.
[25] D. Chen, X. Cao, L. Wang, F. Wen, and J. Sun. Bayesian face revisited: A joint formulation. In ECCV, pages 566–579. Springer, 2012.
[26] D. Chen, X. Cao, F. Wen, and J. Sun. Blessing of dimensionality: Highdimensional feature and its efficient compression for face verification. In CVPR, pages 3025–3032, 2013.
[27] G. Chen, Y. Shao, C. Tang, Z. Jin, and J. Zhang. Deep transformation learning for face recognition in the unconstrained scene. Machine Vision and Applications, pages 1–11, 2018.
[28] J.-C. Chen, V. M. Patel, and R. Chellappa. Unconstrained face verification using deep cnn features. In WACV, pages 1–9. IEEE, 2016.
[29] J.-C. Chen, R. Ranjan, A. Kumar, C.-H. Chen, V. M. Patel, and R. Chellappa. An end-to-end system for unconstrained face verification with deep convolutional neural networks. In ICCV Workshops, pages 118–126, 2015.
[30] Y. Cheng, J. Zhao, Z. Wang, Y. Xu, K. Jayashree, S. Shen, and J. Feng. Know you at one glance: A compact vector representation for low-shot learning. In CVPR, pages 1924–1932, 2017.
[31] I. Chingovska, A. Anjos, and S. Marcel. On the effectiveness of local binary patterns in face anti-spoofing. 2012.
[32] J. Choe, S. Park, K. Kim, J. H. Park, D. Kim, and H. Shim. Face generation for low-shot learning using generative adversarial networks. In ICCV Workshops, pages 1940–1948. IEEE, 2017.
[33] F. Chollet. Xception: Deep learning with depthwise separable convolutions. arXiv preprint, 2016.
[34] A. R. Chowdhury, T.-Y. Lin, S. Maji, and E. Learned-Miller. One-tomany face recognition with bilinear cnns. In WACV, pages 1–9. IEEE, 2016.
[35] F. Cole, D. Belanger, D. Krishnan, A. Sarna, I. Mosseri, and W. T. Freeman. Synthesizing normalized faces from facial identity features. In CVPR, pages 3386–3395, 2017.
[36] N. Crosswhite, J. Byrne, C. Stauffer, O. Parkhi, Q. Cao, and A. Zisserman. Template adaptation for face verification and identification. In FG 2017, pages 1–8, 2017.
[37] J. Deng, S. Cheng, N. Xue, Y. Zhou, and S. Zafeiriou. Uv-gan: Adversarial facial uv map completion for pose-invariant face recognition. arXiv preprint arXiv:1712.04695, 2017.
[38] J. Deng, J. Guo, and S. Zafeiriou. Arcface: Additive angular margin loss for deep face recognition. arXiv preprint arXiv:1801.07698, 2018.
[39] J. Deng, Y. Zhou, and S. Zafeiriou. Marginal loss for deep face recognition. In CVPR Workshops, volume 4, 2017.
[40] W. Deng, J. Hu, and J. Guo. Extended src: Undersampled face recognition via intraclass variant dictionary. IEEE Trans. Pattern Anal. Machine Intell., 34(9):1864–1870, 2012.
[41] W. Deng, J. Hu, and J. Guo. Compressive binary patterns: Designing a robust binary face descriptor with random-field eigenfilters. IEEE Trans. Pattern Anal. Mach. Intell., PP(99):1–1, 2018.
[42] W. Deng, J. Hu, and J. Guo. Face recognition via collaborative representation: Its discriminant nature and superposed representation. IEEE Trans. Pattern Anal. Mach. Intell., PP(99):1–1, 2018.
[43] W. Deng, J. Hu, J. Guo, H. Zhang, and C. Zhang. Comments on “globally maximizing, locally minimizing: Unsupervised discriminant projection with applications to face and palm biometrics”. IEEE Trans. Pattern Anal. Mach. Intell., 30(8):1503–1504, 2008.
[44] W. Deng, J. Hu, J. Lu, and J. Guo. Transform-invariant pca: A unified approach to fully automatic facealignment, representation, and recognition. IEEE Trans. Pattern Anal. Mach. Intell., 36(6):1275–1284, June 2014.
[45] W. Deng, J. Hu, N. Zhang, B. Chen, and J. Guo. Fine-grained face verification: Fglfw database, baselines, and human-dcmn partnership. Pattern Recognition, 66:63–73, 2017.
[46] C. Ding and D. Tao. Robust face recognition via multimodal deep face representation. IEEE Transactions on Multimedia, 17(11):2049–2058, 2015.
[47] C. Ding and D. Tao. Trunk-branch ensemble convolutional neural networks for video-based face recognition. IEEE transactions on pattern analysis and machine intelligence, 2017.
[48] P. Dou, S. K. Shah, and I. A. Kakadiaris. End-to-end 3d face reconstruction with deep neural networks. In CVPR, volume 5, 2017.
[49] C. N. Duong, K. G. Quach, K. Luu, M. Savvides, et al. Temporal nonvolume preserving approach to facial age-progression and age-invariant face recognition. arXiv preprint arXiv:1703.08617, 2017.
[50] H. El Khiyari and H. Wechsler. Age invariant face recognition using convolutional neural networks and set distances. Journal of Information Security, 8(03):174, 2017.
[51] C. Galea and R. A. Farrugia. Forensic face photo-sketch recognition using a deep learning-based architecture. IEEE Signal Processing Letters, 24(11):1586–1590, 2017.
[52] M. M. Ghazi and H. K. Ekenel. A comprehensive analysis of deep learning based representation for face recognition. In CVPR Workshops, volume 26, pages 34–41, 2016.
[53] I. Goodfellow, J. Pouget-Abadie, M. Mirza, B. Xu, D. Warde-Farley, S. Ozair, A. Courville, and Y. Bengio. Generative adversarial nets. In NIPS, pages 2672–2680, 2014.
[54] P. J. Grother and L. N. Mei. Face recognition vendor test (frvt) performance of face identification algorithms nist ir 8009. NIST Interagency/Internal Report (NISTIR) - 8009, 2014.
[55] G. Guo, L. Wen, and S. Yan. Face authentication with makeup changes. IEEE Transactions on Circuits and Systems for Video Technology, 24(5):814–825, 2014.
[56] S. Guo, S. Chen, and Y. Li. Face recognition based on convolutional neural network and support vector machine. In IEEE International Conference on Information and Automation, pages 1787–1792, 2017.
[57] Y. Guo, J. Zhang, J. Cai, B. Jiang, and J. Zheng. 3dfacenet: Real-time dense face reconstruction via synthesizing photo-realistic face images. 2017.
[58] Y. Guo and L. Zhang. One-shot face recognition by promoting underrepresented classes. arXiv preprint arXiv:1707.05574, 2017.
[59] Y. Guo, L. Zhang, Y. Hu, X. He, and J. Gao. Ms-celeb-1m: A dataset and benchmark for large-scale face recognition. In ECCV, pages 87– 102. Springer, 2016.
[60] A. Hasnat, J. Bohn′e, J. Milgram, S. Gentric, and L. Chen. Deepvisage: Making face recognition simple yet with powerful generalization skills. arXiv preprint arXiv:1703.08388, 2017.
[61] M. Hasnat, J. Bohn′e, J. Milgram, S. Gentric, L. Chen, et al. von mises-fisher mixture model-based deep learning: Application to face verification. arXiv preprint arXiv:1706.04264, 2017.
[62] M. Hayat, M. Bennamoun, and S. An. Learning non-linear reconstruction models for image set classification. In CVPR, pages 1907–1914, 2014.
[63] M. Hayat, S. H. Khan, N. Werghi, and R. Goecke. Joint registration and representation learning for unconstrained face identification. In CVPR, pages 2767–2776, 2017.
[64] K. He, X. Zhang, S. Ren, and J. Sun. Deep residual learning for image recognition. In CVPR, pages 770–778, 2016.
[65] R. He, X. Wu, Z. Sun, and T. Tan. Learning invariant deep representation for nir-vis face recognition. In AAAI, volume 4, page 7, 2017.
[66] R. He, X. Wu, Z. Sun, and T. Tan. Wasserstein cnn: Learning invariant features for nir-vis face recognition. arXiv preprint arXiv:1708.02412, 2017.
[67] X. He, S. Yan, Y. Hu, P. Niyogi, and H.-J. Zhang. Face recognition using laplacianfaces. IEEE Trans. Pattern Anal. Mach. Intell., 27(3):328–340, 2005.
[68] S. Hong, W. Im, J. Ryu, and H. S. Yang. Sspp-dan: Deep domain adaptation network for face recognition with single sample per person. arXiv preprint arXiv:1702.04069, 2017.
[69] A. G. Howard, M. Zhu, B. Chen, D. Kalenichenko, W. Wang, T. Weyand, M. Andreetto, and H. Adam. Mobilenets: Efficient convolutional neural networks for mobile vision applications. arXiv preprint arXiv:1704.04861, 2017.
[70] G. Hu, Y. Yang, D. Yi, J. Kittler, W. Christmas, S. Z. Li, and T. Hospedales. When face recognition meets with deep learning: an evaluation of convolutional neural networks for face recognition. In ICCV workshops, pages 142–150, 2015.
[71] J. Hu, Y. Ge, J. Lu, and X. Feng. Makeup-robust face verification. In ICASSP, pages 2342–2346. IEEE, 2013.
[72] J. Hu, L. Shen, and G. Sun. Squeeze-and-excitation networks. arXiv preprint arXiv:1709.01507, 2017.
[73] L. Hu, M. Kan, S. Shan, X. Song, and X. Chen. Ldf-net: Learning a displacement field network for face recognition across pose. In FG 2017, pages 9–16. IEEE, 2017.
[74] G. B. Huang, M. Ramesh, T. Berg, and E. Learned-Miller. Labeled faces in the wild: A database for studying face recognition in unconstrained environments. Technical report, Technical Report 07-49, University of Massachusetts, Amherst, 2007.
[75] R. Huang, S. Zhang, T. Li, R. He, et al. Beyond face rotation: Global and local perception gan for photorealistic and identity preserving frontal view synthesis. arXiv preprint arXiv:1704.04086, 2017.
[76] F. N. Iandola, S. Han, M. W. Moskewicz, K. Ashraf, W. J. Dally, and K. Keutzer. Squeezenet: Alexnet-level accuracy with 50x fewer parameters and? 0.5 mb model size. arXiv preprint arXiv:1602.07360, 2016.
[77] M. Jaderberg, K. Simonyan, A. Zisserman, et al. Spatial transformer networks. In NIPS, pages 2017–2025, 2015.
[78] R. Jafri and H. R. Arabnia. A survey of face recognition techniques. Jips, 5(2):41–68, 2009.
[79] H. Jegou, M. Douze, and C. Schmid. Product quantization for nearest neighbor search. IEEE Transactions on Pattern Analysis & Machine Intelligence, 33(1):117, 2011.
[80] M. Kan, S. Shan, H. Chang, and X. Chen. Stacked progressive autoencoders (spae) for face recognition across poses. In CVPR, pages 1883–1890, 2014.
[81] M. Kan, S. Shan, and X. Chen. Bi-shifting auto-encoder for unsupervised domain adaptation. In ICCV, pages 3846–3854, 2015.
[82] M. Kan, S. Shan, and X. Chen. Multi-view deep network for cross-view classification. In CVPR, pages 4847–4855, 2016.
[83] I. Kemelmacher-Shlizerman, S. M. Seitz, D. Miller, and E. Brossard. The megaface benchmark: 1 million faces for recognition at scale. In CVPR, pages 4873–4882, 2016.
[84] D. Kim, M. Hernandez, J. Choi, and G. Medioni. Deep 3d face identification. arXiv preprint arXiv:1703.10714, 2017.
[85] M. Kim, S. Kumar, V. Pavlovic, and H. Rowley. Face tracking and recognition with visual constraints in real-world videos. In CVPR, pages 1–8. IEEE, 2008.
[86] T. Kim, M. Cha, H. Kim, J. Lee, and J. Kim. Learning to discover crossdomain relations with generative adversarial networks. arXiv preprint arXiv:1703.05192, 2017.
[87] B. F. Klare, B. Klein, E. Taborsky, A. Blanton, J. Cheney, K. Allen, P. Grother, A. Mah, and A. K. Jain. Pushing the frontiers of unconstrained face detection and recognition: Iarpa janus benchmark a. In CVPR, pages 1931–1939, 2015.
[88] A. Krizhevsky, I. Sutskever, and G. E. Hinton. Imagenet classification with deep convolutional neural networks. In NIPS, pages 1097–1105, 2012.
[89] Z. Lei, M. Pietikainen, and S. Z. Li. Learning discriminant face descriptor. IEEE Trans. Pattern Anal. Machine Intell., 36(2):289–302, 2014.
[90] J. Lezama, Q. Qiu, and G. Sapiro. Not afraid of the dark: Nir-vis face recognition via cross-spectral hallucination and low-rank embedding. In CVPR, pages 6807–6816. IEEE, 2017.
[91] L. Li, X. Feng, Z. Boulkenafet, Z. Xia, M. Li, and A. Hadid. An original face anti-spoofing approach using partial convolutional neural network. In IPTA, pages 1–6. IEEE, 2016.
[92] S. Z. Li, D. Yi, Z. Lei, and S. Liao. The casia nir-vis 2.0 face database. In CVPR workshops, pages 348–353. IEEE, 2013.
[93] S. Z. Li, L. Zhen, and A. Meng. The hfb face database for heterogeneous face biometrics research. In CVPR Workshops, pages 1–8, 2009.
[94] Y. Li, L. Song, X. Wu, R. He, and T. Tan. Anti-makeup: Learning a bi-level adversarial network for makeup-invariant face verification. arXiv preprint arXiv:1709.03654, 2017.
[95] Y. Li, G. Wang, L. Nie, Q. Wang, and W. Tan. Distance metric optimization driven convolutional neural network for age invariant face recognition. Pattern Recognition, 75:51–62, 2018.
[96] L. Lin, G. Wang, W. Zuo, X. Feng, and L. Zhang. Cross-domain visual matching via generalized similarity measure and feature learning. IEEE Transactions on Pattern Analysis & Machine Intelligence, 39(6):1089– 1102, 2016.
[97] T.-Y. Lin, A. RoyChowdhury, and S. Maji. Bilinear cnn models for fine-grained visual recognition. In ICCV, pages 1449–1457, 2015.
[98] C. Liu and H. Wechsler. Gabor feature based classification using the enhanced fisher linear discriminant model for face recognition. Image processing, IEEE Transactions on, 11(4):467–476, 2002.
[99] J. Liu, Y. Deng, T. Bai, Z. Wei, and C. Huang. Targeting ultimate accuracy: Face recognition via deep embedding. arXiv preprint arXiv:1506.07310, 2015.
[100] W. Liu, Y. Wen, Z. Yu, M. Li, B. Raj, and L. Song. Sphereface: Deep hypersphere embedding for face recognition. In CVPR, volume 1, 2017.
[101] W. Liu, Y. Wen, Z. Yu, and M. Yang. Large-margin softmax loss for convolutional neural networks. In ICML, pages 507–516, 2016.
[102] W. Liu, Y.-M. Zhang, X. Li, Z. Yu, B. Dai, T. Zhao, and L. Song. Deep hyperspherical learning. In NIPS, pages 3953–3963, 2017.
[103] X. Liu, L. Song, X. Wu, and T. Tan. Transferring deep representation for nir-vis heterogeneous face recognition. In ICB, pages 1–8. IEEE, 2016.
[104] Y. Liu, H. Li, and X. Wang. Rethinking feature discrimination and polymerization for large-scale recognition. arXiv preprint arXiv:1710.00870, 2017.
[105] J. Lu, G. Wang, W. Deng, P. Moulin, and J. Zhou. Multi-manifold deep metric learning for image set classification. In CVPR, pages 1137–1145, 2015.
[106] A. M. Martinez. The ar face database. CVC Technical Report24, 1998.
[107] I. Masi, T. Hassner, A. T. Tran, and G. Medioni. Rapid synthesis of massive face sets for improved face recognition. In FG 2017, pages 604–611. IEEE, 2017.
[108] I. Masi, S. Rawls, G. Medioni, and P. Natarajan. Pose-aware face recognition in the wild. In CVPR, pages 4838–4846, 2016.
[109] I. Masi, A. T. Tr?n, T. Hassner, J. T. Leksut, and G. Medioni. Do we really need to collect millions of faces for effective face recognition? In ECCV, pages 579–596. Springer, 2016.
[110] P. Mittal, M. Vatsa, and R. Singh. Composite sketch recognition via deep network-a transfer learning approach. In ICB, pages 251–256. IEEE, 2015.
[111] B. Moghaddam, W. Wahid, and A. Pentland. Beyond eigenfaces: probabilistic matching for face recognition. Automatic Face and Gesture Recognition, 1998. Proc. Third IEEE Int. Conf., pages 30–35, Apr 1998.
[112] A. Nech and I. Kemelmacher-Shlizerman. Level playing field for million scale face recognition. In CVPR, pages 3406–3415. IEEE, 2017.
[113] S. J. Pan and Q. Yang. A survey on transfer learning. IEEE Transactions on knowledge and data engineering, 22(10):1345–1359, 2010.
[114] M. Parchami, S. Bashbaghi, E. Granger, and S. Sayed. Using deep autoencoders to learn robust domain-invariant representations for stillto- video face recognition. In AVSS, pages 1–6. IEEE, 2017.
[115] C. J. Parde, C. Castillo, M. Q. Hill, Y. I. Colon, S. Sankaranarayanan, J.-C. Chen, and A. J. O’Toole. Deep convolutional neural network features and the original image. arXiv preprint arXiv:1611.01751, 2016.
[116] O. M. Parkhi, A. Vedaldi, A. Zisserman, et al. Deep face recognition. In BMVC, volume 1, page 6, 2015.
[117] K. Patel, H. Han, and A. K. Jain. Cross-database face antispoofing with robust feature representation. In Chinese Conference on Biometric Recognition, pages 611–619. Springer, 2016.
[118] X. Peng, X. Yu, K. Sohn, D. N. Metaxas, and M. Chandraker. Reconstruction-based disentanglement for pose-invariant face recognition. intervals, 20:12, 2017.
[119] P. J. Phillips, P. J. Flynn, T. Scruggs, K. W. Bowyer, J. Chang, K. Hoffman, J. Marques, J. Min, and W. Worek. Overview of the face recognition grand challenge. In CVPR, volume 1, pages 947–954. IEEE, 2005.
[120] P. J. Phillips, H. Wechsler, J. Huang, and P. J. Rauss. The feret database and evaluation procedure for face-recognition algorithms. Image & Vision Computing J, 16(5):295–306, 1998.
[121] X. Qi and L. Zhang. Face recognition via centralized coordinate learning. arXiv preprint arXiv:1801.05678, 2018.
[122] R. Ranjan, C. D. Castillo, and R. Chellappa. L2-constrained softmax loss for discriminative face verification. arXiv preprint arXiv:1703.09507, 2017.
[123] R. Ranjan, S. Sankaranarayanan, A. Bansal, N. Bodla, J. C. Chen, V. M. Patel, C. D. Castillo, and R. Chellappa. Deep learning for understanding faces: Machines may be just as good, or better, than humans. IEEE Signal Processing Magazine, 35(1):66–83, 2018.
[124] R. Ranjan, S. Sankaranarayanan, C. D. Castillo, and R. Chellappa. An all-in-one convolutional neural network for face analysis. In FG 2017, pages 17–24. IEEE, 2017.
[125] Y. Rao, J. Lin, J. Lu, and J. Zhou. Learning discriminative aggregation network for video-based face recognition. In CVPR, pages 3781–3790, 2017.
[126] Y. Rao, J. Lu, and J. Zhou. Attention-aware deep reinforcement learning for video face recognition. In CVPR, pages 3931–3940, 2017.
[127] C. Reale, N. M. Nasrabadi, H. Kwon, and R. Chellappa. Seeing the forest from the trees: A holistic approach to near-infrared heterogeneous face recognition. In CVPR Workshops, pages 320–328. IEEE, 2016.
[128] K. Ricanek and T. Tesafaye. Morph: A longitudinal image database of normal adult age-progression. In FGR, pages 341–345. IEEE, 2006.
[129] E. Richardson, M. Sela, and R. Kimmel. 3d face reconstruction by learning from synthetic data. In 3DV, pages 460–469. IEEE, 2016.
[130] E. Richardson, M. Sela, R. Or-El, and R. Kimmel. Learning detailed face reconstruction from a single image. In CVPR, pages 5553–5562. IEEE, 2017.
[131] O. Russakovsky, J. Deng, H. Su, J. Krause, S. Satheesh, S. Ma, Z. Huang, A. Karpathy, A. Khosla, M. Bernstein, et al. Imagenet large scale visual recognition challenge. International Journal of Computer Vision, 115(3):211–252, 2015.
[132] S. Sankaranarayanan, A. Alavi, C. D. Castillo, and R. Chellappa. Triplet probabilistic embedding for face verification and clustering. In BTAS, pages 1–8. IEEE, 2016.
[133] S. Sankaranarayanan, A. Alavi, and R. Chellappa. Triplet similarity embedding for face verification. arXiv preprint arXiv:1602.03418, 2016.
[134] A. Savran, N. Aly¨uz, H. Dibeklio?glu, O. C? eliktutan, B. G¨okberk, B. Sankur, and L. Akarun. Bosphorus database for 3d face analysis. In European Workshop on Biometrics and Identity Management, pages 47–56. Springer, 2008.
[135] S. Saxena and J. Verbeek. Heterogeneous face recognition with cnns. In ECCV, pages 483–491. Springer, 2016.
[136] A. Scheenstra, A. Ruifrok, and R. C. Veltkamp. A survey of 3d face recognition methods. In International Conference on Audio-and Videobased Biometric Person Authentication, pages 891–899. Springer, 2005.
[137] F. Schroff, D. Kalenichenko, and J. Philbin. Facenet: A unified embedding for face recognition and clustering. In CVPR, pages 815– 823, 2015.
[138] S. Sengupta, J.-C. Chen, C. Castillo, V. M. Patel, R. Chellappa, and D. W. Jacobs. Frontal to profile face verification in the wild. In WACV, pages 1–9. IEEE, 2016.
[139] M. Sharif, S. Bhagavatula, L. Bauer, and M. K. Reiter. Accessorize to a crime: Real and stealthy attacks on state-of-the-art face recognition. In Proceedings of the 2016 ACM SIGSAC Conference on Computer and Communications Security, pages 1528–1540. ACM, 2016.
[140] M. Sharif, S. Bhagavatula, L. Bauer, and M. K. Reiter. Adversarial generative nets: Neural network attacks on state-of-the-art face recognition. arXiv preprint arXiv:1801.00349, 2017.
[141] A. Shrivastava, T. Pfister, O. Tuzel, J. Susskind, W. Wang, and R. Webb. Learning from simulated and unsupervised images through adversarial training. In CVPR, volume 3, page 6, 2017.
[142] K. Simonyan and A. Zisserman. Very deep convolutional networks for large-scale image recognition. arXiv preprint arXiv:1409.1556, 2014.
[143] K. Sohn, S. Liu, G. Zhong, X. Yu, M.-H. Yang, and M. Chandraker. Unsupervised domain adaptation for face recognition in unlabeled videos. arXiv preprint arXiv:1708.02191, 2017.
[144] L. Song, M. Zhang, X. Wu, and R. He. Adversarial discriminative heterogeneous face recognition. arXiv preprint arXiv:1709.03675, 2017.
[145] Y. Sun, Y. Chen, X. Wang, and X. Tang. Deep learning face representation by joint identification-verification. In NIPS, pages 1988– 1996, 2014.
[146] Y. Sun, D. Liang, X. Wang, and X. Tang. Deepid3: Face recognition with very deep neural networks. arXiv preprint arXiv:1502.00873, 2015.
[147] Y. Sun, L. Ren, Z. Wei, B. Liu, Y. Zhai, and S. Liu. A weakly supervised method for makeup-invariant face verification. Pattern Recognition, 66:153–159, 2017.
[148] Y. Sun, X. Wang, and X. Tang. Hybrid deep learning for face verification. In ICCV, pages 1489–1496. IEEE, 2013.
[149] Y. Sun, X. Wang, and X. Tang. Deep learning face representation from predicting 10,000 classes. In CVPR, pages 1891–1898, 2014.
[150] Y. Sun, X. Wang, and X. Tang. Sparsifying neural network connections for face recognition. In CVPR, pages 4856–4864, 2016.
[151] C. Szegedy, W. Liu, Y. Jia, P. Sermanet, S. Reed, D. Anguelov, D. Erhan, V. Vanhoucke, A. Rabinovich, et al. Going deeper with convolutions. Cvpr, 2015.
[152] O. Tadmor, Y. Wexler, T. Rosenwein, S. Shalev-Shwartz, and A. Shashua. Learning a metric embedding for face recognition using the multibatch method. arXiv preprint arXiv:1605.07270, 2016.
[153] Y. Taigman, M. Yang, M. Ranzato, and L. Wolf. Deepface: Closing the gap to human-level performance in face verification. In CVPR, pages 1701–1708, 2014.
[154] A. Tewari, M. Zollh¨ofer, H. Kim, P. Garrido, F. Bernard, P. Perez, and C. Theobalt. Mofa: Model-based deep convolutional face autoencoder for unsupervised monocular reconstruction. In ICCV, volume 2, 2017.
[155] A. T. Tran, T. Hassner, I. Masi, and G. Medioni. Regressing robust and discriminative 3d morphable models with a very deep neural network. In CVPR, pages 1493–1502. IEEE, 2017.
[156] L. Tran, X. Yin, and X. Liu. Disentangled representation learning gan for pose-invariant face recognition. In CVPR, volume 3, page 7, 2017.
[157] M. Turk and A. Pentland. Eigenfaces for recognition. Journal of cognitive neuroscience, 3(1):71–86, 1991.
[158] E. Tzeng, J. Hoffman, K. Saenko, and T. Darrell. Adversarial discriminative domain adaptation. In CVPR, volume 1, page 4, 2017.
[159] C. Wang, X. Lan, and X. Zhang. How to train triplet networks with 100k identities? In ICCV workshops, volume 00, pages 1907–1915, 2017.
[160] D. Wang, C. Otto, and A. K. Jain. Face search at scale: 80 million gallery. arXiv preprint arXiv:1507.07242, 2015.
[161] D. Wang, C. Otto, and A. K. Jain. Face search at scale. IEEE transactions on pattern analysis and machine intelligence, 39(6):1122– 1136, 2017.
[162] F. Wang, W. Liu, H. Liu, and J. Cheng. Additive margin softmax for face verification. arXiv preprint arXiv:1801.05599, 2018.
[163] F. Wang, X. Xiang, J. Cheng, and A. L. Yuille. Normface: l 2 hypersphere embedding for face verification. arXiv preprint arXiv:1704.06369, 2017.
[164] H. Wang, Y. Wang, Z. Zhou, X. Ji, Z. Li, D. Gong, J. Zhou, and W. Liu. Cosface: Large margin cosine loss for deep face recognition. arXiv preprint arXiv:1801.09414, 2018.
[165] L. Wang, V. A. Sindagi, and V. M. Patel. High-quality facial photosketch synthesis using multi-adversarial networks. arXiv preprint arXiv:1710.10182, 2017.
[166] M. Wang and W. Deng. Deep visual domain adaptation: A survey. arXiv preprint arXiv:1802.03601, 2018.
[167] W. Wang, Z. Cui, H. Chang, S. Shan, and X. Chen. Deeply coupled auto-encoder networks for cross-view classification. arXiv preprint arXiv:1402.2031, 2014.
[168] X. Wang and X. Tang. Face photo-sketch synthesis and recognition. IEEE Transactions on Pattern Analysis and Machine Intelligence, 31(11):1955–1967, 2009.
[169] X. Wang, Y. Zhou, D. Kong, J. Currey, D. Li, and J. Zhou. Unleash the black magic in age: a multi-task deep neural network approach for cross-age face verification. In FG 2017, pages 596–603. IEEE, 2017.
[170] W. D. Weilong Chai and H. Shen. Cross-generating gan for facial identity preserving. In FG, pages 130–134. IEEE, 2018.
[171] K. Q. Weinberger and L. K. Saul. Distance metric learning for large margin nearest neighbor classification. Journal of Machine Learning Research, 10(Feb):207–244, 2009.
[172] Y. Wen, Z. Li, and Y. Qiao. Latent factor guided convolutional neural networks for age-invariant face recognition. In CVPR, pages 4893– 4901, 2016.
[173] Y. Wen, K. Zhang, Z. Li, and Y. Qiao. A discriminative feature learning approach for deep face recognition. In ECCV, pages 499–515. Springer, 2016.
[174] C. Whitelam, K. Allen, J. Cheney, P. Grother, E. Taborsky, A. Blanton, B. Maze, J. Adams, T. Miller, and N. Kalka. Iarpa janus benchmark-b face dataset. In CVPR Workshops, pages 592–600, 2017.
[175] L. Wolf, T. Hassner, and I. Maoz. Face recognition in unconstrained videos with matched background similarity. In CVPR, pages 529–534. IEEE, 2011.
[176] J. Wright, A. Yang, A. Ganesh, S. Sastry, and Y. Ma. Robust Face Recognition via Sparse Representation. IEEE Trans. Pattern Anal. Machine Intell., 31(2):210–227, 2009.
[177] W.-S. T. WST. Deeply learned face representations are sparse, selective, and robust. perception, 31:411–438, 2008.
[178] W. Wu, M. Kan, X. Liu, Y. Yang, S. Shan, and X. Chen. Recursive spatial transformer (rest) for alignment-free face recognition. In CVPR, pages 3772–3780, 2017.
[179] X. Wu, R. He, and Z. Sun. A lightened cnn for deep face representation. In CVPR, volume 4, 2015.
[180] X. Wu, R. He, Z. Sun, and T. Tan. A light cnn for deep face representation with noisy labels. arXiv preprint arXiv:1511.02683, 2015.
[181] X. Wu, L. Song, R. He, and T. Tan. Coupled deep learning for heterogeneous face recognition. arXiv preprint arXiv:1704.02450, 2017.
[182] Y. Wu, H. Liu, and Y. Fu. Low-shot face recognition with hybrid classifiers. In CVPR, pages 1933–1939, 2017.
[183] Y. Wu, H. Liu, J. Li, and Y. Fu. Deep face recognition with center invariant loss. In Proceedings of the on Thematic Workshops of ACM Multimedia 2017, pages 408–414. ACM, 2017.
[184] S. Xie and Z. Tu. Holistically-nested edge detection. In ICCV, pages 1395–1403, 2015.
[185] E. P. Xing, M. I. Jordan, S. J. Russell, and A. Y. Ng. Distance metric learning with application to clustering with side-information. In NIPS, pages 521–528, 2003.
[186] C. Xiong, X. Zhao, D. Tang, K. Jayashree, S. Yan, and T.-K. Kim. Conditional convolutional neural network for modality-aware face recognition. In ICCV, pages 3667–3675. IEEE, 2015.
[187] L. Xiong, J. Karlekar, J. Zhao, J. Feng, S. Pranata, and S. Shen. A good practice towards top performance of face recognition: Transferred deep feature fusion. arXiv preprint arXiv:1704.00438, 2017.
[188] Y. Xu, Y. Cheng, J. Zhao, Z. Wang, L. Xiong, K. Jayashree, H. Tamura, T. Kagaya, S. Pranata, S. Shen, J. Feng, and J. Xing. High performance large scale face recognition with multi-cognition softmax and feature retrieval. In ICCV workshops, volume 00, pages 1898–1906, 2017.
[189] Y. Xu, S. Shen, J. Feng, J. Xing, Y. Cheng, J. Zhao, Z. Wang, L. Xiong, K. Jayashree, and H. Tamura. High performance large scale face recognition with multi-cognition softmax and feature retrieval. In ICCV Workshop, pages 1898–1906, 2017.
[190] Z. Xu, S. Li, and W. Deng. Learning temporal features using lstm-cnn architecture for face anti-spoofing. In ACPR, pages 141–145. IEEE, 2015.
[191] S. Yan, D. Xu, B. Zhang, and H.-J. Zhang. Graph embedding: A general framework for dimensionality reduction. Computer Vision and Pattern Recognition, IEEE Computer Society Conference on, 2:830–837, 2005.
[192] H. Yang, D. Huang, Y. Wang, and A. K. Jain. Learning face age progression: A pyramid architecture of gans. arXiv preprint arXiv:1711.10352, 2017.
[193] H. Yang and I. Patras. Mirror, mirror on the wall, tell me, is the error small? In CVPR, pages 4685–4693, 2015.
[194] J. Yang, Z. Lei, and S. Z. Li. Learn convolutional neural network for face anti-spoofing. arXiv preprint arXiv:1408.5601, 2014.
[195] J. Yang, S. E. Reed, M.-H. Yang, and H. Lee. Weakly-supervised disentangling with recurrent transformations for 3d view synthesis. In NIPS, pages 1099–1107, 2015.
[196] J. Yang, P. Ren, D. Chen, F. Wen, H. Li, and G. Hua. Neural aggregation network for video face recognition. arXiv preprint arXiv:1603.05474, 2016.
[197] M. Yang, X. Wang, G. Zeng, and L. Shen. Joint and collaborative representation with local adaptive convolution feature for face recognition with single sample per person. Pattern Recognition, 66(C):117–128, 2016.
[198] D. Yi, Z. Lei, S. Liao, and S. Z. Li. Learning face representation from scratch. arXiv preprint arXiv:1411.7923, 2014.
[199] Z. Yi, H. Zhang, P. Tan, and M. Gong. Dualgan: Unsupervised dual learning for image-to-image translation. arXiv preprint, 2017.
[200] J. H. Yichen Qian, Weihong Deng. Task specific networks for identity and face variation. In FG, pages 271–277. IEEE, 2018.
[201] J. Yim, H. Jung, B. Yoo, C. Choi, D. Park, and J. Kim. Rotating your face using multi-task deep neural network. In CVPR, pages 676–684, 2015.
[202] L. Yin, X. Wei, Y. Sun, J. Wang, and M. J. Rosato. A 3d facial expression database for facial behavior research. In FGR, pages 211– 216. IEEE, 2006.
[203] X. Yin and X. Liu. Multi-task convolutional neural network for poseinvariant face recognition. TIP, 2017.
[204] X. Yin, X. Yu, K. Sohn, X. Liu, and M. Chandraker. Towards largepose face frontalization in the wild. arXiv preprint arXiv:1704.06244, 2017.
[205] X. Yin, X. Yu, K. Sohn, X. Liu, and M. Chandraker. Feature transfer learning for deep face recognition with long-tail data. arXiv preprint arXiv:1803.09014, 2018.
[206] J. Y. X. W. X. T. Yujun Shen, Ping Luo. Faceid-gan: Learning a symmetry three-player gan for identity-preserving face synthesis. In CVPR, pages 416–422. IEEE, 2018.
[207] E. Zangeneh, M. Rahmati, and Y. Mohsenzadeh. Low resolution face recognition using a two-branch deep convolutional neural network architecture. arXiv preprint arXiv:1706.06247, 2017.
[208] T. Y. J. H. Zhanfu An, Weihong Deng. Deep transfer network with 3d morphable models for face recognition. In FG, pages 416–422. IEEE, 2018.
[209] D. Zhang, L. Lin, T. Chen, X. Wu, W. Tan, and E. Izquierdo. Contentadaptive sketch portrait generation by decompositional representation learning. IEEE Transactions on Image Processing, 26(1):328–339, 2017.
[210] J. Zhang, Z. Hou, Z. Wu, Y. Chen, and W. Li. Research of 3d face recognition algorithm based on deep learning stacked denoising autoencoder theory. In ICCSN, pages 663–667. IEEE, 2016.
[211] L. Zhang, L. Lin, X. Wu, S. Ding, and L. Zhang. End-to-end photosketch generation via fully convolutional representation learning. In Proceedings of the 5th ACM on International Conference on Multimedia Retrieval, pages 627–634. ACM, 2015.
[212] L. Zhang, M. Yang, and X. Feng. Sparse representation or collaborative representation: Which helps face recognition? In ICCV, 2011.
[213] W. Zhang, S. Shan,W. Gao, X. Chen, and H. Zhang. Local gabor binary pattern histogram sequence (lgbphs): A novel non-statistical model for face representation and recognition. In ICCV, volume 1, pages 786– 791. IEEE, 2005.
[214] W. Zhang, X. Wang, and X. Tang. Coupled information-theoretic encoding for face photo-sketch recognition. In CVPR, pages 513–520. IEEE, 2011.
[215] X. Zhang, Z. Fang, Y. Wen, Z. Li, and Y. Qiao. Range loss for deep face recognition with long-tail. arXiv preprint arXiv:1611.08976, 2016.
[216] X. Zhang and Y. Gao. Face recognition across pose: A review. Pattern Recognition, 42(11):2876–2896, 2009.
[217] X. Zhang, X. Zhou, M. Lin, and J. Sun. Shufflenet: An extremely efficient convolutional neural network for mobile devices. arXiv preprint arXiv:1707.01083, 2017.
[218] Y. Zhang, M. Shao, E. K. Wong, and Y. Fu. Random faces guided sparse many-to-one encoder for pose-invariant face recognition. In ICCV, pages 2416–2423. IEEE, 2013.
[219] Z. Zhang, J. Yan, S. Liu, Z. Lei, D. Yi, and S. Z. Li. A face antispoofing database with diverse attacks. In ICB, pages 26–31, 2012.
[220] J. Zhao, J. Han, and L. Shao. Unconstrained face recognition using a set-to-set distance measure on deep learned features. IEEE Transactions on Circuits and Systems for Video Technology, 2017.
[221] J. Zhao, L. Xiong, P. K. Jayashree, J. Li, F. Zhao, Z. Wang, P. S. Pranata, P. S. Shen, S. Yan, and J. Feng. Dual-agent gans for photorealistic and identity preserving profile face synthesis. In NIPS, pages 65–75, 2017.
[222] W. Zhao, R. Chellappa, P. J. Phillips, and A. Rosenfeld. Face recognition: A literature survey. ACM computing surveys (CSUR), 35(4):399–458, 2003.
[223] T. Zheng and W. Deng. Cross-pose lfw: A database for studying crosspose face recognition in unconstrained environments. Technical Report 18-01, Beijing University of Posts and Telecommunications, February 2018.
[224] T. Zheng, W. Deng, and J. Hu. Age estimation guided convolutional neural network for age-invariant face recognition. In CVPR Workshops, pages 1–9, 2017.
[225] T. Zheng, W. Deng, and J. Hu. Cross-age lfw: A database for studying cross-age face recognition in unconstrained environments. arXiv preprint arXiv:1708.08197, 2017.
[226] L. Z. Zhengming Ding, Yandong Guo and Y. Fu. One-shot face recognition via generative learning. In FG, pages 1–7. IEEE, 2018.
[227] Y. Zhong, J. Chen, and B. Huang. Toward end-to-end face recognition through alignment learning. IEEE signal processing letters, 24(8):1213–1217, 2017.
[228] E. Zhou, Z. Cao, and Q. Yin. Naive-deep face recognition: Touching the limit of lfw benchmark or not? arXiv preprint arXiv:1501.04690, 2015.
[229] J.-Y. Zhu, T. Park, P. Isola, and A. A. Efros. Unpaired image-to-image translation using cycle-consistent adversarial networks. arXiv preprint arXiv:1703.10593, 2017.
[230] Z. Zhu, P. Luo, X. Wang, and X. Tang. Deep learning identitypreserving face space. In ICCV, pages 113–120. IEEE, 2013.
[231] Z. Zhu, P. Luo, X. Wang, and X. Tang. Multi-view perceptron: a deep model for learning face identity and view representations. In NIPS, pages 217–225, 2014.
[232] Z. Zhu, P. Luo, X. Wang, and X. Tang. Recover canonical-view faces in the wild with deep neural networks. arXiv preprint arXiv:1404.3543, 2014.
[233] W. D. H. S. Zimeng Luo, Jiani Hu. Deep unsupervised domain adaptation for face recognition. In FG, pages 453–457. IEEE, 2018.
[234] X. Zou, J. Kittler, and K. Messer. Illumination invariant face recognition: A survey. In BTAS, pages 1–8. IEEE, 2007.
[235] S. Zulqarnain Gilani and A. Mian. Learning from millions of 3d scans for large-scale 3d face recognition. arXiv preprint arXiv:1711.05942, 2017.
總結(jié)
以上是生活随笔為你收集整理的face recognition[翻译][深度人脸识别:综述]的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 会场安排问题
- 下一篇: face recognition[翻译]