當(dāng)前位置：首頁(yè) > 人工智能 > pytorch >内容正文

pytorch

【论文解读】让特征感受野更灵活，腾讯优图提出非对称卡通人脸检测，推理速度仅50ms...

發(fā)布時(shí)間：2025/3/8 pytorch 36 豆豆

生活随笔收集整理的這篇文章主要介紹了【论文解读】让特征感受野更灵活，腾讯优图提出非对称卡通人脸检测，推理速度仅50ms... 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

該文是騰訊優(yōu)圖&東南大學(xué)聯(lián)合提出一種的非對(duì)稱卡通人臉檢測(cè)算法，該方法取得了2020 iCartoon Face Challenge（Under 200MB）競(jìng)賽的冠軍，推理速度僅為50ms且無(wú)需任何預(yù)訓(xùn)練模型。該文包含不少的trick，是檢測(cè)領(lǐng)域不錯(cuò)的文章，推薦大家了解一下。

Abstract

由于諸多復(fù)雜場(chǎng)景導(dǎo)致卡通人臉檢測(cè)比常規(guī)人臉檢測(cè)更具挑戰(zhàn)性，針對(duì)卡通人臉特性(huge difference within intra-face)，該文提出一種非對(duì)稱卡通人臉檢測(cè)算法，稱之為ACFD。所提方法包含這樣幾個(gè)模塊：(1)一種新穎的骨干網(wǎng)絡(luò)VoVNetV3，該骨干網(wǎng)絡(luò)有多個(gè)非對(duì)稱匯聚模塊(AOSA)構(gòu)成;(2)非對(duì)稱雙向特征金字塔網(wǎng)絡(luò)(ABi-FPN)；(3) 動(dòng)態(tài)錨點(diǎn)匹配策略(DAM)；(4)邊界二值分類損失(MBC)。

特別的，為生成具有靈活感受野的特征，采用VoVNetV3提取多尺度金字塔特征，然后采用ABi-FPN同時(shí)進(jìn)行融合與增強(qiáng)以處理極限姿態(tài)的人臉。除此之外，采用DAM對(duì)每個(gè)人臉匹配充足的高質(zhì)量錨點(diǎn)，并采用MBC提升強(qiáng)判別性能。

基于上述模塊的有效性，所提方法ACFD取得了2020 iCartoon Face Challenge（Under 200MB）競(jìng)賽的冠軍，推理速度僅為50ms且無(wú)需任何預(yù)訓(xùn)練模型。

該文主要有這樣幾點(diǎn)貢獻(xiàn)：

提出一種新穎的骨干網(wǎng)絡(luò)VoVNetV3；
提出一種ABi-FPN同時(shí)進(jìn)行多尺度特征融合與語(yǔ)義信息增強(qiáng)；
提出DAM策略匹配高質(zhì)量錨點(diǎn)；
提出MBC模塊提升卡通人臉判別能力
所提方法取得了2020 iCartoon Face Challenge競(jìng)賽檢測(cè)賽道冠軍。

Method

下圖給出了所提ACFD的網(wǎng)絡(luò)架構(gòu)圖，它采用VoVNetV3-51作為骨干網(wǎng)絡(luò)(包含6個(gè)階段生stride=4到128的特征)，然后采用ABi-FPN進(jìn)行多尺度特征融合與增強(qiáng)，最后采用錨點(diǎn)Head網(wǎng)絡(luò)輸出稠密預(yù)測(cè)。

VoVNetV3

VoVNet是一種計(jì)算高效的骨干網(wǎng)絡(luò)，其OSA模塊可以輸出靈活的特征表達(dá)；VoVNetV2通過添加殘差連接方式解決了VoVNet訓(xùn)練的局限性，同時(shí)引入一種高效的注意力機(jī)制(eSE)。為進(jìn)一步提升特征的靈活性，作者提出了一種更有效的骨干網(wǎng)絡(luò)VoVNetV3，其核心模塊如下所示。

VoVNet與VoVNetV2的OSA模塊采用了不同于DenseNet的稠密連接方式，而是采用相對(duì)稀疏連接的方式生成特征，每個(gè)特征與前接卷積特征相連從而生成更大感受野的特征，最后將所有特征進(jìn)行一次Concat融合。可以看到：OSA模塊可以生成更豐富感受野的特征。然而OSA僅僅處理方框感受野，這種處理方式可能會(huì)影響不同角度的人臉檢測(cè)性能。受啟發(fā)于ACNet，作者提出了一種非對(duì)稱OSA模塊，稱之為AOSA，見上圖右。

作者采用所提AOSA模塊構(gòu)建VoVNetV3-51骨干網(wǎng)絡(luò)，網(wǎng)絡(luò)結(jié)構(gòu)信息見下表。

ABi-FPN

目前，大多人臉檢測(cè)器采用ResNet或VGG提取多尺度特征，然而它們僅僅可以處理方框感受野的，這可能會(huì)影響極限角度的人臉檢測(cè)。而卡通人臉中大約有10%的比例大于2.0或小于0.5.

為解決上述局限問題，PyramidBox、DSFD、RefineFace等在特征融合模塊之后添加了一個(gè)額外的模塊進(jìn)行感受野進(jìn)行精煉處理(盡管有效果但是低效率)。不同于前述方法，該文提出一種有效且高效的ABi-FPN模塊同時(shí)進(jìn)行特征融合、語(yǔ)義信息增強(qiáng)以及感受野精煉處理。采用ACB模塊替換Bi-FPN中的卷積即可得到所提出的ABi-FPN模塊，它可以使得特征感受野更靈活。

Dynamic Anchor Match

HamBox發(fā)現(xiàn)一個(gè)有趣的現(xiàn)象：某些不匹配的錨點(diǎn)具有非常強(qiáng)的回歸能力，見上圖b。具有強(qiáng)回歸能力的錨點(diǎn)將得到一個(gè)具有大IoU得分的邊界框(盡管它本身的IoU非常小)。

受上述現(xiàn)象啟發(fā)，作者提出一種DAM策略以充分利用這些具有強(qiáng)回歸能力的錨點(diǎn)，從而更好的為每個(gè)GT人臉匹配充足的高質(zhì)量錨點(diǎn)。首先，IoU得分大于閾值的錨點(diǎn)被設(shè)置為正；然后，如果對(duì)應(yīng)回歸框的IoU得分大于閾值將被補(bǔ)償為正。算法細(xì)節(jié)如下，挺有意思的一種處理策略。

Margin Binary Classification Loss

正如前面所提到的，DAM可以為每個(gè)人臉匹配充足的高質(zhì)量錨點(diǎn)，然而這些高質(zhì)量錨點(diǎn)可能距離GT人臉比較遠(yuǎn)，從而影響訓(xùn)練過程中的損失。為此，作者提出在第一步分開計(jì)算匹配錨點(diǎn)損失權(quán)值，并在第二部對(duì)高質(zhì)量錨點(diǎn)進(jìn)行補(bǔ)償，其中回歸與分類損失定義如下：

其中分別表示匹配錨點(diǎn)與補(bǔ)充錨點(diǎn)的數(shù)量，表示對(duì)應(yīng)的加權(quán)系數(shù)。

為提出網(wǎng)絡(luò)的分類性能(即判別哪些人臉與背景相似)，作者將人臉識(shí)別領(lǐng)域常用的邊界損失(通過添加額外硬邊界約束促使最大化類間差異，最小化類內(nèi)差異)引入到人臉檢測(cè)領(lǐng)域。在邊界二分類應(yīng)用中，假設(shè)表示網(wǎng)絡(luò)的輸出，那么邊界預(yù)測(cè)可以定義如下：

其中表示對(duì)應(yīng)的one-hot標(biāo)簽，m表示硬邊界約束，用于計(jì)算分類損失。

Experimetns

在訓(xùn)練數(shù)據(jù)方面，作者將50000張iCartoon Face圖像分為45000用于訓(xùn)練5000用于測(cè)試。在最后的競(jìng)賽提交階段，所有模型均用于訓(xùn)練。

在數(shù)據(jù)增廣方面，作者采用了：

color distort for training images,
expand the images with a random range [1*,* 4] by mean-padding to augment the small faces
crop the images with a random size at a random position to augment the big faces
random tile the faces to anchor scales, finally, resize the images to 640×640 for feeding into the network.

在錨點(diǎn)設(shè)置方面，每個(gè)檢測(cè)層一個(gè)錨點(diǎn)且尺度為4，比例為1：1.因此總計(jì)有34125個(gè)錨點(diǎn)，且可以覆蓋16-512大小的人臉。

在訓(xùn)練方面，模型采用kaiming方式進(jìn)行初始化，優(yōu)化器為SGD，momentum=0.9，權(quán)值衰減因子為，batch=64,同時(shí)采用warmup策略。在200、250、280epoch進(jìn)行學(xué)習(xí)率x0.1，合計(jì)訓(xùn)練300epoch。

其他超參數(shù)，動(dòng)態(tài)錨點(diǎn)匹配參數(shù)，加權(quán)系數(shù)為，分類損失中的邊界參數(shù)為0.2.

在推理階段，采用了多尺度()方式提交測(cè)試。先看看效果再說(shuō)。

首先，給出了不同骨干網(wǎng)絡(luò)下的模型性能對(duì)比，見下表。所提方法VoVNetV3-51取得了最佳得分。

然后，給出了ResNet50作為骨干網(wǎng)絡(luò)時(shí)不同Head的性能，ABi-FPN獲勝。

其次，給出了DAM的消融實(shí)驗(yàn)結(jié)果。可以看到：DAM以1.3%的指標(biāo)高于baseline。

與此同時(shí)，給出了MBC分類損失的消融實(shí)驗(yàn)結(jié)果。

最后，作者給出了卡通人臉檢測(cè)方案一步步改進(jìn)對(duì)比表。而最終參賽的模型取得了92.91%的指標(biāo)，高居榜首。

最后的最后，作者還提供了算法的推理耗時(shí)優(yōu)化(競(jìng)賽要求推理耗時(shí)不超過50ms，而前述模型肯定是超過了)。首先，進(jìn)行ACB的合并，下圖給出了ACB的合并示意圖；然后，進(jìn)行Conv與BatchNorm的合并；最后，采用torch2rt工具將Pytorch模型轉(zhuǎn)為TensorRT加速。

Conclusion

為解決卡通人臉檢測(cè)困難問題，作者提出了一種新穎的非對(duì)稱卡通人臉檢測(cè)器ACFD。ACFD包含(1)一個(gè)新提出的VoVNetV3骨干網(wǎng)絡(luò)用于提取多尺度特征；(2)一種ABi-FPN模塊同時(shí)進(jìn)行特征融合與增強(qiáng)；(3)一種動(dòng)態(tài)錨點(diǎn)匹配策略；(4)引入邊界二值分類損失進(jìn)一步增強(qiáng)網(wǎng)絡(luò)的判別能力。

該文最核心的創(chuàng)新可能是DAM與MBC兩塊，而VoVNetV3則是VoVNetV2與ACNet的組合，ABi-FPN則是Bi-FPN與ACNet的組合。但不管怎么說(shuō)，能奪冠的方法就是好方法。

◎作者檔案

Happy，一個(gè)愛“胡思亂想”的AI行者

個(gè)人公眾號(hào)：AIWalker

往期精彩回顧適合初學(xué)者入門人工智能的路線及資料下載機(jī)器學(xué)習(xí)及深度學(xué)習(xí)筆記等資料打印機(jī)器學(xué)習(xí)在線手冊(cè)深度學(xué)習(xí)筆記專輯《統(tǒng)計(jì)學(xué)習(xí)方法》的代碼復(fù)現(xiàn)專輯 AI基礎(chǔ)下載機(jī)器學(xué)習(xí)的數(shù)學(xué)基礎(chǔ)專輯獲取一折本站知識(shí)星球優(yōu)惠券，復(fù)制鏈接直接打開：https://t.zsxq.com/yFQV7am本站qq群1003271085。加入微信群請(qǐng)掃碼進(jìn)群：