自然场景人脸检测技术实践
一、 背景
人臉檢測(cè)技術(shù)是通過(guò)人工智能分析的方法自動(dòng)返回圖片中的人臉坐標(biāo)位置和尺寸大小,是人臉智能分析應(yīng)用的核心組成部分,具有廣泛的學(xué)術(shù)研究?jī)r(jià)值和業(yè)務(wù)應(yīng)用價(jià)值,比如人臉識(shí)別、人臉屬性分析(年齡估計(jì)、性別識(shí)別、顏值打分和表情識(shí)別)、人臉Avatar、智能視頻監(jiān)控、人臉圖像過(guò)濾、智能圖像裁切、人臉AR游戲等等。因拍攝的場(chǎng)景不同,自然場(chǎng)景環(huán)境復(fù)雜多變,光照因素也不可控,人臉本身多姿態(tài)以及群體間的相互遮擋給檢測(cè)任務(wù)帶來(lái)了很大的挑戰(zhàn)(如圖1所示)。在過(guò)去20年里,該任務(wù)一直是學(xué)術(shù)界和產(chǎn)業(yè)界共同關(guān)注的熱點(diǎn)。
自然場(chǎng)景人臉檢測(cè)在美團(tuán)業(yè)務(wù)中也有著廣泛的應(yīng)用需求,為了應(yīng)對(duì)自然場(chǎng)景應(yīng)用本身的技術(shù)挑戰(zhàn),同時(shí)滿足業(yè)務(wù)的性能需求,美團(tuán)視覺智能中心(Vision Intelligence Center,VIC)從底層算法模型和系統(tǒng)架構(gòu)兩個(gè)方面進(jìn)行了改進(jìn),開發(fā)了高精度人臉檢測(cè)模型VICFace。而且VICFace在國(guó)際知名的公開測(cè)評(píng)集WIDER?FACE上達(dá)到了行業(yè)主流水平。
圖1??自然場(chǎng)景人臉檢測(cè)樣本示例
二、?技術(shù)發(fā)展現(xiàn)狀
跟深度學(xué)習(xí)不同,傳統(tǒng)方法解決自然場(chǎng)景人臉檢測(cè)會(huì)從特征表示和分類器學(xué)習(xí)兩個(gè)方面進(jìn)行設(shè)計(jì)。最有代表性的工作是Viola-Jones算法[2],它利用手工設(shè)計(jì)的Haar-like特征和Adaboost算法來(lái)完成模型訓(xùn)練。傳統(tǒng)方法在CPU上檢測(cè)速度快,結(jié)果可解釋性強(qiáng),在相對(duì)可控的環(huán)境下可以達(dá)到較好的性能。但是,當(dāng)訓(xùn)練數(shù)據(jù)規(guī)模成指數(shù)增長(zhǎng)時(shí),傳統(tǒng)方法的性能提升相對(duì)有限,在一些復(fù)雜場(chǎng)景下,甚至無(wú)法滿足應(yīng)用需求。
隨著計(jì)算機(jī)算力的提升和訓(xùn)練數(shù)據(jù)的增長(zhǎng),基于深度學(xué)習(xí)的方法在人臉檢測(cè)任務(wù)上取得了突破性進(jìn)展,在檢測(cè)性能上相對(duì)于傳統(tǒng)方法具有壓倒性優(yōu)勢(shì)。基于深度學(xué)習(xí)的人臉檢測(cè)算法從算法結(jié)構(gòu)上可以大致分為三類:
1)基于級(jí)聯(lián)的人臉檢測(cè)算法。
2)兩階段人臉檢測(cè)算法。
3)單階段人臉檢測(cè)算法。
其中,第一類基于級(jí)聯(lián)的人臉檢測(cè)方法(如Cascade?CNN[3]、MTCNN[4])運(yùn)行速度較快、檢測(cè)性能適中,適用于算力有限、背景簡(jiǎn)單且人臉數(shù)量較少的場(chǎng)景。第二類兩階段人臉檢測(cè)方法一般基于Faster-RCNN[6]框架,在第一階段生成候選區(qū)域,然后在第二階段對(duì)候選區(qū)域進(jìn)行分類和回歸,其檢測(cè)準(zhǔn)確率較高,缺點(diǎn)是檢測(cè)速度較慢,代表方法有Face R-CNN[9] 、ScaleFace[10]、FDNet[11]。最后一類單階段的人臉檢測(cè)方法主要基于Anchor的分類和回歸,通常會(huì)在經(jīng)典框架(如SSD[12]、RetinaNet[13])的基礎(chǔ)上進(jìn)行優(yōu)化,其檢測(cè)速度較兩階段法快,檢測(cè)性能較級(jí)聯(lián)法優(yōu),是一種檢測(cè)性能和速度平衡的算法,也是當(dāng)前人臉檢測(cè)算法優(yōu)化的主流方向。
三、?優(yōu)化思路和業(yè)務(wù)應(yīng)用
在自然場(chǎng)景應(yīng)用中,為了同時(shí)滿足精度需求以及達(dá)到實(shí)用的目標(biāo),美團(tuán)視覺智能中心(Vision Intelligence Center,VIC)采用了主流的Anchor-Based單階段人臉檢測(cè)方案,同時(shí)在數(shù)據(jù)增強(qiáng)和采樣策略、模型結(jié)構(gòu)設(shè)計(jì)和損失函數(shù)等三方面分別進(jìn)行了優(yōu)化,開發(fā)了高精度人臉檢測(cè)模型VICFace,以下是相關(guān)技術(shù)細(xì)節(jié)的介紹。
1.?數(shù)據(jù)增強(qiáng)和采樣策略
單階段通用目標(biāo)檢測(cè)算法對(duì)數(shù)據(jù)增強(qiáng)方式比較敏感,如經(jīng)典的SSD算法在VOC2007[50]數(shù)據(jù)集上通過(guò)數(shù)據(jù)增強(qiáng)性能指標(biāo)mAP提升6.7。經(jīng)典單階段人臉檢測(cè)算法S3FD[17]也設(shè)計(jì)了樣本增強(qiáng)策略,使用了圖片隨機(jī)裁切,圖片固定寬高比縮放,圖像色彩擾動(dòng)和水平翻轉(zhuǎn)等。
百度在ECCV2018發(fā)表的PyramidBox[18]提出了Data-Anchor采樣方法,將圖像中一個(gè)隨機(jī)選擇的人臉進(jìn)行尺度變換變成一個(gè)更小Anchor附近尺寸的人臉,同時(shí)訓(xùn)練圖像的尺寸也進(jìn)行同步變換。這樣做的好處是通過(guò)將較大的人臉生成較小的人臉,提高了小尺度上樣本的多樣性,在WIDER?FACE[1]數(shù)據(jù)集Easy、Medium、Hard集合上分別提升0.4(94.3->94.7),0.4(93.3->93.7),0.6(86.1->86.7)。ISRN[19]將SSD的樣本增強(qiáng)方式和Data-Anchor采樣方法結(jié)合,模型檢測(cè)性能進(jìn)一步提高。
而VICFace在ISRN樣本增強(qiáng)方式的基礎(chǔ)上對(duì)語(yǔ)義模糊的超小人臉做了過(guò)濾。而mixup[22]在圖像分類和目標(biāo)檢測(cè)中已經(jīng)被驗(yàn)證有效,現(xiàn)在用于人臉檢測(cè),有效地防止了模型過(guò)擬合問(wèn)題。考慮到業(yè)務(wù)數(shù)據(jù)中人臉存在多姿態(tài)、遮擋和模糊的樣本,且這些樣本在訓(xùn)練集中占比小,檢測(cè)難度大,因此在模型訓(xùn)練時(shí)動(dòng)態(tài)的給這些難樣本賦予更高的權(quán)重從而有可能提升這些樣本的召回率。
2.?模型結(jié)構(gòu)設(shè)計(jì)
人臉檢測(cè)模型結(jié)構(gòu)設(shè)計(jì)主要包括檢測(cè)框架、主干網(wǎng)絡(luò)、預(yù)測(cè)模塊、Anchor設(shè)置與正負(fù)樣本劃分等四個(gè)部分,是單階段人臉檢測(cè)方法優(yōu)化的核心。
- 檢測(cè)框架
近年來(lái)單階段人臉檢測(cè)框架取得了重要的發(fā)展,代表性的結(jié)構(gòu)有S3FD[17]中使用的SSD,SFDet[25]中使用的RetinaNet,SRN[23]中使用的兩步結(jié)構(gòu)(后簡(jiǎn)稱SRN)以及DSFD[24]中使用的雙重結(jié)構(gòu)(后簡(jiǎn)稱DSFD),如下圖2所示。其中,SRN是一種單階段兩步人臉檢測(cè)方法,利用第一步的檢測(cè)結(jié)果,在小尺度人臉上過(guò)濾易分類的負(fù)樣本,改善正負(fù)樣本數(shù)量的均衡性,針對(duì)大尺度的人臉采用迭代求精的方式進(jìn)行人臉定位,改善大尺度人臉的定位精度,提升了人臉檢測(cè)的準(zhǔn)確率。在WIDER FACE上測(cè)評(píng)SRN取得了最好的檢測(cè)效果(按標(biāo)準(zhǔn)協(xié)議用AP平均精度來(lái)衡量),如表1所示。
S3FD:
SFDet:
SRN:
DSFD:
圖2?四種檢測(cè)結(jié)構(gòu)
表1??Backbone為ResNet50時(shí),四種檢測(cè)結(jié)構(gòu)在WIDER FACE上的評(píng)估結(jié)果
VICFace繼承了當(dāng)前性能最好的SRN檢測(cè)結(jié)構(gòu),同時(shí)為了更好的融合自底向上和自頂向下的特征,為不同特征不同通道賦予不同的權(quán)重,以P4為例,其計(jì)算式為:
?
其中WC4向量的元素個(gè)數(shù)與Conv(C4)特征的通道數(shù)相等,WP4與Upsample(P5)的通道數(shù)相等,WC4與WP4是可學(xué)習(xí)的,其元素值均大于0,且WC4與WP4對(duì)應(yīng)元素之和為1,結(jié)構(gòu)如圖3所示。
圖3 視覺智能中心VICFace網(wǎng)絡(luò)整體結(jié)構(gòu)圖
- 主干網(wǎng)絡(luò)
單階段人臉檢測(cè)模型的主干網(wǎng)絡(luò)通常使用分類任務(wù)中的經(jīng)典結(jié)構(gòu)(如VGG[26]、ResNet[27]等)。其中,主干網(wǎng)絡(luò)在ImageNet數(shù)據(jù)集上分類任務(wù)表現(xiàn)越好,其在WIDER?FACE上的人臉檢測(cè)性能也越高,如表2所示。為了保證檢測(cè)網(wǎng)絡(luò)得到更高的召回,在性能測(cè)評(píng)時(shí)VICFace主干網(wǎng)絡(luò)使用了在ImageNet上性能較優(yōu)的ResNet152網(wǎng)絡(luò)(其在ImageNet上Top1分類準(zhǔn)確率為80.26),并且在實(shí)現(xiàn)時(shí)將Kernel為7x7,Stride為2的卷積模塊調(diào)整為為3個(gè)3x3的卷積模塊,其中第一個(gè)模塊的Stride為2,其它的為1;將Kernel為1x1,Stride為2的下采樣模塊替換為Stride為2的Avgpool模塊。
表2 不同主干網(wǎng)絡(luò)在ImageNet的性能對(duì)比和其在RetinaNet框架下的檢測(cè)精度
- 預(yù)測(cè)模塊?
利用上下文信息可以進(jìn)一步提高模型的檢測(cè)性能。SSH[36]是將上下文信息用于單階段人臉檢測(cè)模型的早期方案,PyramidBox、SRN、DSFD等也設(shè)計(jì)了不同上下文模塊。如圖4所示,SRN上下文模塊使用1xk,kx1的卷積層提供多種矩形感受野,多種不同形狀的感受野助于檢測(cè)極端姿勢(shì)的人臉;DSFD使用多個(gè)帶孔洞的卷積,極大的提升了感受野的范圍。
圖4 不同網(wǎng)絡(luò)結(jié)構(gòu)中的Context Module
在VICFace中,將帶孔洞的卷積模塊和1xk,kx1的卷積模塊聯(lián)合作為Context Module,既提升了感受野的范圍也有助于檢測(cè)極端姿勢(shì)的人臉,同時(shí)使用Maxout模塊提升召回率,降低誤檢率。它還利用Cn層特征預(yù)測(cè)的人臉位置,校準(zhǔn)Pn層特征對(duì)應(yīng)的區(qū)域,如圖5所示。Cn層預(yù)測(cè)的人臉位置相對(duì)特征位置的偏移作為可變卷積的Offset輸入,Pn層特征作為可變卷積的Data輸入,經(jīng)過(guò)可變卷積后特征對(duì)應(yīng)的區(qū)域與人臉區(qū)域?qū)?yīng)更好,相對(duì)更具有表示能力,可以提升人臉檢測(cè)模型的性能。
圖5 自研檢測(cè)模型結(jié)構(gòu)中的預(yù)測(cè)模塊
- Anchor設(shè)置與正負(fù)樣本劃分
基于Anchor的單階段人臉檢方法通過(guò)Anchor的合理設(shè)置可以有效的控制正負(fù)樣本比例和緩解不同尺度人臉定位損失差異大的問(wèn)題。現(xiàn)有主流人臉檢測(cè)方法中Anchor的大小設(shè)置主要有以下三種(S代表Stride):
根據(jù)數(shù)據(jù)集中人臉的特點(diǎn),Anchor的寬高也可以進(jìn)一步豐富,如{1},{0.8},{1,0.67}。
在自研方案中,在C3、P3層,Anchor的大小為2S和4S,其它層Anchor大小為4S(S代表對(duì)應(yīng)層的Stride),這樣的Anchor設(shè)置方式在保證人臉召回率的同時(shí),減少了負(fù)樣本的數(shù)量,在一定程度上緩解了正負(fù)樣本不均衡現(xiàn)象。根據(jù)人臉樣本寬高比的統(tǒng)計(jì)信息,將Anchor的寬高比設(shè)置為0.8,同時(shí)將Cn層IoU大于0.7的樣本劃分為正樣本,小于0.3的劃分為負(fù)樣本,Pn層IoU大于0.5的樣本劃分為正樣本,小于0.4的劃分為負(fù)樣本。
3.?損失函數(shù)
人臉檢測(cè)的優(yōu)化目標(biāo)不僅需要區(qū)分正負(fù)樣本(是否是人臉),還需要定位出人臉位置和尺寸。S3FD中區(qū)分正負(fù)樣本使用交叉熵?fù)p失函數(shù),定位人臉位置和尺寸使用Smooth L1?Loss,同時(shí)使用困難負(fù)樣本挖掘解決正負(fù)樣本數(shù)量不均衡的問(wèn)題。另一種緩解正負(fù)樣本不均衡帶來(lái)的性能損失更直接的方式是Lin等人提出Focal?Loss[13]。UnitBox[41]提出IoU?Loss可以緩解不同尺度人臉的定位損失差異大導(dǎo)致的性能損失。AlnnoFace[40]同時(shí)使用Focal?Loss和IoU?Loss提升了人臉檢測(cè)模型的性能。引入其它相關(guān)輔助任務(wù)也可以提升人臉檢測(cè)算法的性能,RetinaFace[42]引入關(guān)鍵點(diǎn)定位任務(wù),提升人臉檢測(cè)算法的定位精度;DFS[43]引入人臉?lè)指钊蝿?wù),提升了特征的表示能力。
綜合前述方法的優(yōu)點(diǎn),VICFace充分利用人臉檢測(cè)及相關(guān)任務(wù)的互補(bǔ)信息,使用多任務(wù)方式訓(xùn)練人臉檢測(cè)模型。在人臉?lè)诸愔惺褂肍ocal Loss來(lái)緩解樣本不均衡問(wèn)題,同時(shí)使用人臉關(guān)鍵點(diǎn)定位和人臉?lè)指顏?lái)輔助分類目標(biāo)的訓(xùn)練,從而提升整體的分類準(zhǔn)確率。在人臉定位中使用Complete IoU?Loss[47],以目標(biāo)與預(yù)測(cè)框的交并比作為損失函數(shù),緩解不同尺度人臉損失的差異較大的問(wèn)題,同時(shí)兼顧目標(biāo)和預(yù)測(cè)框的中心點(diǎn)距離和寬高比差異,從而可以達(dá)到更好整體檢測(cè)性能。
4.?優(yōu)化結(jié)果和業(yè)務(wù)應(yīng)用
在集群平臺(tái)的支持下,美團(tuán)視覺智能中心的自然場(chǎng)景人臉檢測(cè)基礎(chǔ)模型VICFace與現(xiàn)有主流方案進(jìn)行了性能對(duì)比,在國(guó)際公開人臉檢測(cè)測(cè)評(píng)集WIDER?FACE的三個(gè)驗(yàn)證集Easy、Medium、Hard中均達(dá)到領(lǐng)先水平(AP為平均精度,數(shù)值越高越好),如圖6和表3所示。
圖6 VICFace以及當(dāng)前主流人臉檢測(cè)方法在WIDER?FACE上的測(cè)評(píng)結(jié)果
表3 VICFace以及當(dāng)前主流人臉檢測(cè)方法在WIDER?FACE上的測(cè)評(píng)結(jié)果注:SRN是中科院在AAAI2019提出的新方法,DSFD是騰訊優(yōu)圖在CVPR2019提出的新方法,PyramidBox++是百度在2019年提出的新方法,AInnoFace是創(chuàng)新奇智在2019提出的新方法,RetinaFace是ICCV2019 Wider Challenge亞軍。
在業(yè)務(wù)應(yīng)用中,自然場(chǎng)景人臉檢測(cè)服務(wù)目前已接入美團(tuán)多個(gè)業(yè)務(wù)線,滿足了業(yè)務(wù)在UGC圖像智能過(guò)濾和廣告POI圖像展示等應(yīng)用的性能需求,前者保護(hù)用戶隱私,預(yù)防侵犯用戶肖像權(quán),后者可以有效的預(yù)防圖像中人臉局部被裁切的現(xiàn)象,從而提升了用戶體驗(yàn)。此外,VICFace還為其它人臉智能分析應(yīng)用提供了核心基礎(chǔ)模型,如自動(dòng)檢測(cè)后廚工作人員的著裝合規(guī)性(是否穿戴帽子和口罩),為食品安全增加了一道保障。
在未來(lái)的工作中,為了給用戶提供更好的體驗(yàn),同時(shí)滿足高并發(fā)的需求,在模型結(jié)構(gòu)設(shè)計(jì)和模型推理效率方面將會(huì)做進(jìn)一步探索和優(yōu)化。此外,在算法設(shè)計(jì)方面,基于Anchor-Free的單階段目標(biāo)檢測(cè)方法近年來(lái)在通用目標(biāo)檢測(cè)領(lǐng)域表現(xiàn)出較高的潛力,也是視覺智能中心未來(lái)會(huì)關(guān)注的重要方向。
參考文獻(xiàn)
1.?Yang S, Luo P, Loy C C, et al. Wider face: A face detection benchmark[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2016: 5525-5533.
2.?Viola P, Jones M J. Robust real-time face detection[J]. International journal of computer vision, 2004, 57(2): 137-154.
3.?Li H, Lin Z, Shen X, et al. A convolutional neural network cascade for face detection[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2015: 5325-5334.
4.?Zhang K, Zhang Z, Li Z, et al. Joint face detection and alignment using multitask cascaded convolutional networks[J]. IEEE Signal Processing Letters, 2016, 23(10): 1499-1503.
5.?Hao Z, Liu Y, Qin H, et al. Scale-aware face detection[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2017: 6186-6195.
6.?Ren S, He K, Girshick R, et al. Faster r-cnn: Towards real-time object detection with region proposal networks[C]//Advances in neural information processing systems. 2015: 91-99.
7.?Lin T Y, Dollár P, Girshick R, et al. Feature pyramid networks for object detection[C]. Proceedings of the IEEE conference on computer vision and pattern recognition. 2017: 2117-2125.
8.?Jiang H, Learned-Miller E. Face detection with the faster R-CNN[C]//2017 12th IEEE International Conference on Automatic Face & Gesture Recognition (FG 2017). IEEE, 2017: 650-657.
9.?Wang H, Li Zhif, et al. Face R-CNN. arXiv preprint arXiv: 1706.01061, 2017.
10.?Yang S, Xiong Y, Loy C C, et al. Face detection through scale-friendly deep convolutional networks[J]. arXiv preprint arXiv:1706.02863, 2017.
11.?Zhang C, Xu X, Tu D. Face detection using improved faster rcnn[J]. arXiv preprint arXiv:1802.02142, 2018.
12.?Liu W, Anguelov D, Erhan D, et al. Ssd: Single shot multibox detector[C]//European conference on computer vision. Springer, Cham, 2016: 21-37.
13.?Lin T Y, Goyal P, Girshick R, et al. Focal loss for dense object detection[C]//Proceedings of the IEEE international conference on computer vision. 2017: 2980-2988.
14.?Huang L, Yang Y, Deng Y, et al. Densebox: Unifying landmark localization with end to end object detection[J]. arXiv preprint arXiv:1509.04874, 2015.
15.?Liu W, Liao S, Ren W, et al. High-level Semantic Feature Detection: A New Perspective for Pedestrian Detection[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2019: 5187-5196.
16.?Zhang Z, He T, Zhang H, et al. Bag of freebies for training object detection neural networks[J]. arXiv preprint arXiv:1902.04103, 2019.
17.?Zhang S, Zhu X, Lei Z, et al. S3fd: Single shot scale-invariant face detector[C]//Proceedings of the IEEE International Conference on Computer Vision. 2017: 192-201.
18.?Tang X, Du D K, He Z, et al. Pyramidbox: A context-assisted single shot face detector[C]//Proceedings of the European Conference on Computer Vision (ECCV). 2018: 797-813.
19.?Zhang S, Zhu R, Wang X, et al. Improved selective refinement network for face detection[J]. arXiv preprint arXiv:1901.06651, 2019.
20.?Li Z, Tang X, Han J, et al. PyramidBox++: High Performance Detector for Finding Tiny Face[J]. arXiv preprint arXiv:1904.00386, 2019.
21.?Zhang S, Zhu X, Lei Z, et al. Faceboxes: A CPU real-time face detector with high accuracy[C]//2017 IEEE International Joint Conference on Biometrics (IJCB). IEEE, 2017: 1-9.
22.?Zhang H, Cisse M, Dauphin Y N, et al. mixup: Beyond empirical risk minimization[J]. arXiv preprint arXiv:1710.09412, 2017.
23.?Chi C, Zhang S, Xing J, et al. Selective refinement network for high performance face detection[C]//Proceedings of the AAAI Conference on Artificial Intelligence. 2019, 33: 8231-8238.
24.?Li J, Wang Y, Wang C, et al. Dsfd: dual shot face detector[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2019: 5060-5069.
25.?Zhang S, Wen L, Shi H, et al. Single-shot scale-aware network for real-time face detection[J]. International Journal of Computer Vision, 2019, 127(6-7): 537-559.
26.?Simonyan K, Zisserman A. Very deep convolutional networks for large-scale image recognition[J]. arXiv preprint arXiv:1409.1556, 2014.
27.?He K, Zhang X, Ren S, et al. Deep residual learning for image recognition[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2016: 770-778.
28.?Xie S, Girshick R, Dollár P, et al. Aggregated residual transformations for deep neural networks[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2017: 1492-1500.
29.?Iandola F, Moskewicz M, Karayev S, et al. Densenet: Implementing efficient convnet descriptor pyramids[J]. arXiv preprint arXiv:1404.1869, 2014.
30.?Howard A G, Zhu M, Chen B, et al. Mobilenets: Efficient convolutional neural networks for mobile vision applications[J]. arXiv preprint arXiv:1704.04861, 2017.
31.?Sandler M, Howard A, Zhu M, et al. Mobilenetv2: Inverted residuals and linear bottlenecks[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018: 4510-4520.
32.?Bazarevsky V, Kartynnik Y, Vakunov A, et al. BlazeFace: Sub-millisecond Neural Face Detection on Mobile GPUs[J]. arXiv preprint arXiv:1907.05047, 2019.
33.?He Y, Xu D, Wu L, et al. LFFD: A Light and Fast Face Detector for Edge Devices[J]. arXiv preprint arXiv:1904.10633, 2019.
34.?Zhu R, Zhang S, Wang X, et al. Scratchdet: Exploring to train single-shot object detectors from scratch[J]. arXiv preprint arXiv:1810.08425, 2018, 2.
35.?Lin T Y, Maire M, Belongie S, et al. Microsoft coco: Common objects in context[C]//European conference on computer vision. Springer, Cham, 2014: 740-755.
36.?Najibi M, Samangouei P, Chellappa R, et al. Ssh: Single stage headless face detector[C]//Proceedings of the IEEE International Conference on Computer Vision. 2017: 4875-4884.
37.?Sa. Earp, P. Noinongyao, J. Cairns, A. Ganguly?Face Detection with Feature Pyramids and Landmarks. arXiv preprint arXiv:1912.00596, 2019.
38.?Goodfellow I J, Warde-Farley D, Mirza M, et al. Maxout networks[J]. arXiv preprint arXiv:1302.4389, 2013.
39.?Zhu C, Tao R, Luu K, et al. Seeing Small Faces from Robust Anchor’s Perspective[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018: 5127-5136.
40.?F. Zhang, X. Fan, G. Ai, J. Song, Y. Qin, J. Wu?Accurate Face Detection for High Performance. arXiv preprint arXiv:1905.01585, 2019.
41.?Yu J, Jiang Y, Wang Z, et al. Unitbox: An advanced object detection network[C]//Proceedings of the 24th ACM international conference on Multimedia. ACM, 2016: 516-520.
42.?Deng J, Guo J, Zhou Y, et al. RetinaFace: Single-stage Dense Face Localisation in the Wild[J]. arXiv preprint arXiv:1905.00641, 2019.
43.?Tian W, Wang Z, Shen H, et al. Learning better features for face detection with feature fusion and segmentation supervision[J]. arXiv preprint arXiv:1811.08557, 2018.
44.?Y. Zhang, X. Xu, X. Liu?Robust and High Performance Face Detector. arXiv preprint arXiv:1901.02350, 2019.
45.?S. Zhang, C. Chi, Z. Lei, Stan Z. Li?RefineFace: Refinement Neural Network for High Performance Face Detection. arXiv preprint arXiv:1909.04376, 2019.
46.?Wang J, Yuan Y, Li B, et al. Sface: An efficient network for face detection in large scale variations[J]. arXiv preprint arXiv:1804.06559, 2018.
47.?Zheng Z, Wang P, Liu W, et al. Distance-IoU Loss: Faster and Better Learning for Bounding Box Regression[J]. arXiv preprint arXiv:1911.08287, 2019.
48.?Bay H, Tuytelaars T, Van Gool L. Surf: Speeded up robust features[C]//European conference on computer vision. Springer, Berlin, Heidelberg, 2006: 404-417.
49.?Yang B, Yan J, Lei Z, et al. Aggregate channel features for multi-view face detection[C]//IEEE international joint conference on biometrics. IEEE, 2014: 1-8.
50.?Everingham M, Van Gool L, Williams C K I, et al. The PASCAL visual object classes challenge 2007 (VOC2007) results[J]. 2007.
51.?Redmon J, Farhadi A. Yolov3: An incremental improvement[J]. arXiv preprint arXiv:1804.02767, 2018.
作者簡(jiǎn)介
振華、歡歡、曉林,均為美團(tuán)視覺智能中心工程師。
招聘信息
美團(tuán)視覺智能中心基礎(chǔ)視覺組的主要職責(zé)是夯實(shí)視覺智能底層核心基礎(chǔ)技術(shù),為集團(tuán)業(yè)務(wù)提供平臺(tái)級(jí)視覺解決方案。主要方向有基礎(chǔ)模型優(yōu)化、大規(guī)模分布式訓(xùn)練、Server效率優(yōu)化、移動(dòng)端適配優(yōu)化和創(chuàng)新產(chǎn)品孵化。
歡迎計(jì)算機(jī)視覺相關(guān)領(lǐng)域小伙伴加入我們,簡(jiǎn)歷可發(fā)郵件至 tech@meituan.com(郵件標(biāo)題注明:美團(tuán)視覺智能中心基礎(chǔ)視覺組)。
總結(jié)
以上是生活随笔為你收集整理的自然场景人脸检测技术实践的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 阿里P8架构师谈:流量高峰时期的性能瓶颈
- 下一篇: 梳理百年深度学习发展史-七月在线机器学习