【论文解读】让特征感受野更灵活,腾讯优图提出非对称卡通人脸检测,推理速度仅50ms...
該文是騰訊優(yōu)圖&東南大學(xué)聯(lián)合提出一種的非對(duì)稱卡通人臉檢測(cè)算法,該方法取得了2020 iCartoon Face Challenge(Under 200MB)競(jìng)賽的冠軍,推理速度僅為50ms且無(wú)需任何預(yù)訓(xùn)練模型。該文包含不少的trick,是檢測(cè)領(lǐng)域不錯(cuò)的文章,推薦大家了解一下。
Abstract
由于諸多復(fù)雜場(chǎng)景導(dǎo)致卡通人臉檢測(cè)比常規(guī)人臉檢測(cè)更具挑戰(zhàn)性,針對(duì)卡通人臉特性(huge difference within intra-face),該文提出一種非對(duì)稱卡通人臉檢測(cè)算法,稱之為ACFD。 所提方法包含這樣幾個(gè)模塊:(1)一種新穎的骨干網(wǎng)絡(luò)VoVNetV3,該骨干網(wǎng)絡(luò)有多個(gè)非對(duì)稱匯聚模塊(AOSA)構(gòu)成;(2)非對(duì)稱雙向特征金字塔網(wǎng)絡(luò)(ABi-FPN);(3) 動(dòng)態(tài)錨點(diǎn)匹配策略(DAM);(4)邊界二值分類損失(MBC)。
特別的,為生成具有靈活感受野的特征,采用VoVNetV3提取多尺度金字塔特征,然后采用ABi-FPN同時(shí)進(jìn)行融合與增強(qiáng)以處理極限姿態(tài)的人臉。除此之外,采用DAM對(duì)每個(gè)人臉匹配充足的高質(zhì)量錨點(diǎn),并采用MBC提升強(qiáng)判別性能。
基于上述模塊的有效性,所提方法ACFD取得了2020 iCartoon Face Challenge(Under 200MB)競(jìng)賽的冠軍,推理速度僅為50ms且無(wú)需任何預(yù)訓(xùn)練模型。
該文主要有這樣幾點(diǎn)貢獻(xiàn):
提出一種新穎的骨干網(wǎng)絡(luò)VoVNetV3;
提出一種ABi-FPN同時(shí)進(jìn)行多尺度特征融合與語(yǔ)義信息增強(qiáng);
提出DAM策略匹配高質(zhì)量錨點(diǎn);
提出MBC模塊提升卡通人臉判別能力
所提方法取得了2020 iCartoon Face Challenge競(jìng)賽檢測(cè)賽道冠軍。
Method
下圖給出了所提ACFD的網(wǎng)絡(luò)架構(gòu)圖,它采用VoVNetV3-51作為骨干網(wǎng)絡(luò)(包含6個(gè)階段生stride=4到128的特征),然后采用ABi-FPN進(jìn)行多尺度特征融合與增強(qiáng),最后采用錨點(diǎn)Head網(wǎng)絡(luò)輸出稠密預(yù)測(cè)。
VoVNetV3
VoVNet是一種計(jì)算高效的骨干網(wǎng)絡(luò),其OSA模塊可以輸出靈活的特征表達(dá);VoVNetV2通過添加殘差連接方式解決了VoVNet訓(xùn)練的局限性,同時(shí)引入一種高效的注意力機(jī)制(eSE)。為進(jìn)一步提升特征的靈活性,作者提出了一種更有效的骨干網(wǎng)絡(luò)VoVNetV3,其核心模塊如下所示。
VoVNet與VoVNetV2的OSA模塊采用了不同于DenseNet的稠密連接方式,而是采用相對(duì)稀疏連接的方式生成特征,每個(gè)特征與前接卷積特征相連從而生成更大感受野的特征,最后將所有特征進(jìn)行一次Concat融合。可以看到:OSA模塊可以生成更豐富感受野的特征。然而OSA僅僅處理方框感受野,這種處理方式可能會(huì)影響不同角度的人臉檢測(cè)性能。受啟發(fā)于ACNet,作者提出了一種非對(duì)稱OSA模塊,稱之為AOSA,見上圖右。
作者采用所提AOSA模塊構(gòu)建VoVNetV3-51骨干網(wǎng)絡(luò),網(wǎng)絡(luò)結(jié)構(gòu)信息見下表。
ABi-FPN
目前,大多人臉檢測(cè)器采用ResNet或VGG提取多尺度特征,然而它們僅僅可以處理方框感受野的,這可能會(huì)影響極限角度的人臉檢測(cè)。而卡通人臉中大約有10%的比例大于2.0或小于0.5.
為解決上述局限問題,PyramidBox、DSFD、RefineFace等在特征融合模塊之后添加了一個(gè)額外的模塊進(jìn)行感受野進(jìn)行精煉處理(盡管有效果但是低效率)。不同于前述方法,該文提出一種有效且高效的ABi-FPN模塊同時(shí)進(jìn)行特征融合、語(yǔ)義信息增強(qiáng)以及感受野精煉處理。采用ACB模塊替換Bi-FPN中的卷積即可得到所提出的ABi-FPN模塊,它可以使得特征感受野更靈活。
Dynamic Anchor Match
HamBox發(fā)現(xiàn)一個(gè)有趣的現(xiàn)象:某些不匹配的錨點(diǎn)具有非常強(qiáng)的回歸能力,見上圖b。具有強(qiáng)回歸能力的錨點(diǎn)將得到一個(gè)具有大IoU得分的邊界框(盡管它本身的IoU非常小)。
受上述現(xiàn)象啟發(fā),作者提出一種DAM策略以充分利用這些具有強(qiáng)回歸能力的錨點(diǎn),從而更好的為每個(gè)GT人臉匹配充足的高質(zhì)量錨點(diǎn)。首先,IoU得分大于閾值的錨點(diǎn)被設(shè)置為正;然后,如果對(duì)應(yīng)回歸框的IoU得分大于閾值將被補(bǔ)償為正。算法細(xì)節(jié)如下,挺有意思的一種處理策略。
Margin Binary Classification Loss
正如前面所提到的,DAM可以為每個(gè)人臉匹配充足的高質(zhì)量錨點(diǎn),然而這些高質(zhì)量錨點(diǎn)可能距離GT人臉比較遠(yuǎn),從而影響訓(xùn)練過程中的損失。為此,作者提出在第一步分開計(jì)算匹配錨點(diǎn)損失權(quán)值,并在第二部對(duì)高質(zhì)量錨點(diǎn)進(jìn)行補(bǔ)償,其中回歸與分類損失定義如下:
其中分別表示匹配錨點(diǎn)與補(bǔ)充錨點(diǎn)的數(shù)量,表示對(duì)應(yīng)的加權(quán)系數(shù)。
為提出網(wǎng)絡(luò)的分類性能(即判別哪些人臉與背景相似),作者將人臉識(shí)別領(lǐng)域常用的邊界損失(通過添加額外硬邊界約束促使最大化類間差異,最小化類內(nèi)差異)引入到人臉檢測(cè)領(lǐng)域。在邊界二分類應(yīng)用中,假設(shè)表示網(wǎng)絡(luò)的輸出,那么邊界預(yù)測(cè)可以定義如下:
其中表示對(duì)應(yīng)的one-hot標(biāo)簽,m表示硬邊界約束,用于計(jì)算分類損失。
Experimetns
在訓(xùn)練數(shù)據(jù)方面,作者將50000張iCartoon Face圖像分為45000用于訓(xùn)練5000用于測(cè)試。在最后的競(jìng)賽提交階段,所有模型均用于訓(xùn)練。
在數(shù)據(jù)增廣方面,作者采用了:
color distort for training images,
expand the images with a random range [1*,* 4] by mean-padding to augment the small faces
crop the images with a random size at a random position to augment the big faces
random tile the faces to anchor scales, finally, resize the images to 640×640 for feeding into the network.
在錨點(diǎn)設(shè)置方面,每個(gè)檢測(cè)層一個(gè)錨點(diǎn)且尺度為4,比例為1:1.因此總計(jì)有34125個(gè)錨點(diǎn),且可以覆蓋16-512大小的人臉。
在訓(xùn)練方面,模型采用kaiming方式進(jìn)行初始化,優(yōu)化器為SGD,momentum=0.9,權(quán)值衰減因子為,batch=64,同時(shí)采用warmup策略。在200、250、280epoch進(jìn)行學(xué)習(xí)率x0.1,合計(jì)訓(xùn)練300epoch。
其他超參數(shù),動(dòng)態(tài)錨點(diǎn)匹配參數(shù),加權(quán)系數(shù)為,分類損失中的邊界參數(shù)為0.2.
在推理階段,采用了多尺度()方式提交測(cè)試。先看看效果再說(shuō)。
首先,給出了不同骨干網(wǎng)絡(luò)下的模型性能對(duì)比,見下表。所提方法VoVNetV3-51取得了最佳得分。
然后,給出了ResNet50作為骨干網(wǎng)絡(luò)時(shí)不同Head的性能,ABi-FPN獲勝。
其次,給出了DAM的消融實(shí)驗(yàn)結(jié)果。可以看到:DAM以1.3%的指標(biāo)高于baseline。
與此同時(shí),給出了MBC分類損失的消融實(shí)驗(yàn)結(jié)果。
最后,作者給出了卡通人臉檢測(cè)方案一步步改進(jìn)對(duì)比表。而最終參賽的模型取得了92.91%的指標(biāo),高居榜首。
最后的最后,作者還提供了算法的推理耗時(shí)優(yōu)化(競(jìng)賽要求推理耗時(shí)不超過50ms,而前述模型肯定是超過了)。首先,進(jìn)行ACB的合并,下圖給出了ACB的合并示意圖;然后,進(jìn)行Conv與BatchNorm的合并;最后,采用torch2rt工具將Pytorch模型轉(zhuǎn)為TensorRT加速。
Conclusion
為解決卡通人臉檢測(cè)困難問題,作者提出了一種新穎的非對(duì)稱卡通人臉檢測(cè)器ACFD。ACFD包含(1)一個(gè)新提出的VoVNetV3骨干網(wǎng)絡(luò)用于提取多尺度特征;(2)一種ABi-FPN模塊同時(shí)進(jìn)行特征融合與增強(qiáng);(3)一種動(dòng)態(tài)錨點(diǎn)匹配策略;(4)引入邊界二值分類損失進(jìn)一步增強(qiáng)網(wǎng)絡(luò)的判別能力。
該文最核心的創(chuàng)新可能是DAM與MBC兩塊,而VoVNetV3則是VoVNetV2與ACNet的組合,ABi-FPN則是Bi-FPN與ACNet的組合。但不管怎么說(shuō),能奪冠的方法就是好方法。
◎作者檔案
Happy,一個(gè)愛“胡思亂想”的AI行者
個(gè)人公眾號(hào):AIWalker
往期精彩回顧適合初學(xué)者入門人工智能的路線及資料下載機(jī)器學(xué)習(xí)及深度學(xué)習(xí)筆記等資料打印機(jī)器學(xué)習(xí)在線手冊(cè)深度學(xué)習(xí)筆記專輯《統(tǒng)計(jì)學(xué)習(xí)方法》的代碼復(fù)現(xiàn)專輯 AI基礎(chǔ)下載機(jī)器學(xué)習(xí)的數(shù)學(xué)基礎(chǔ)專輯獲取一折本站知識(shí)星球優(yōu)惠券,復(fù)制鏈接直接打開:https://t.zsxq.com/yFQV7am本站qq群1003271085。加入微信群請(qǐng)掃碼進(jìn)群:總結(jié)
以上是生活随笔為你收集整理的【论文解读】让特征感受野更灵活,腾讯优图提出非对称卡通人脸检测,推理速度仅50ms...的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【深度学习】在PyTorch中构建高效的
- 下一篇: 【深度学习】Pytorch编写代码基本步