BorderDet论文解读
簡(jiǎn)介
目前密集目標(biāo)檢測(cè)器很受歡迎,其速度很快且精度不低,不過(guò)這種這種基于點(diǎn)的特征雖然使用方便,但會(huì)缺少關(guān)鍵的邊界信息。曠視于 ECCV2020 發(fā)表的這篇 BorderDet,其中的核心就是設(shè)計(jì)了 Border Align 操作來(lái)從邊界極限點(diǎn)提取邊界特征用于加強(qiáng)點(diǎn)的特征。以此為基礎(chǔ)設(shè)計(jì)了 BorderDet 框架,該框架依據(jù) FCOS 的 baseline 插入 Border Align 構(gòu)成,其在多個(gè)數(shù)據(jù)集上漲點(diǎn)明顯。Border Align 是適用于幾乎所有基于點(diǎn)的密集目標(biāo)檢測(cè)算法的即插即用模塊。
-
論文標(biāo)題
BorderDet: Border Feature for Dense Object Detection
-
論文地址
https://arxiv.org/abs/2007.11056
-
論文源碼
https://github.com/Megvii-BaseDetection/BorderDet
介紹
目前大多數(shù) point-based 的目標(biāo)檢測(cè)算法(如 SSD、RetinaNet、FCOS 等方法)都使用特征圖上的 single-point 進(jìn)行目標(biāo)的回歸和分類(lèi),但是,single-point 特征沒(méi)有足夠的信息表示一個(gè)目標(biāo)實(shí)例,主要是因?yàn)槿狈吔缧畔ⅰ4饲坝泻芏喾椒▉?lái)補(bǔ)充 single-point 的表示能力,但是這些方法往往帶來(lái)較大計(jì)算量的同時(shí)并沒(méi)有引入太多有用的信息,反而帶來(lái)一些無(wú)用的背景信息。這篇文章設(shè)計(jì)了新的特征提取操作 BorderAlign 來(lái)直接利用邊界特征優(yōu)化 single-point 特征,以 BorderAlign 為拓展配合作為 baseline 的 FCOS,提出新的檢測(cè)框架 BorderDet,實(shí)現(xiàn) SOTA。
本文的貢獻(xiàn)文中列了不少,但在我看來(lái),只有一個(gè)核心:分析密集目標(biāo)檢測(cè)器的特征表示,發(fā)現(xiàn)邊界信息對(duì) single-point 特征的重要性,并設(shè)計(jì)了一個(gè)高效的邊界特征提取器 BorderAlign。 其他的貢獻(xiàn)都是順理成章的附屬產(chǎn)物。
BorderAlign
BorderAlign 的提出是基于大量的實(shí)驗(yàn)對(duì)比的,我這邊就按照作者的思路來(lái)進(jìn)行闡述。首先,采用如上圖不同的特征增強(qiáng)方式在 FCOS 的基礎(chǔ)上評(píng)估效果,結(jié)果如下表,根據(jù)效果最好的二四兩行,發(fā)現(xiàn),只使用邊界上中心點(diǎn)做增強(qiáng)效果媲美 region-based 的方法。因此,得出結(jié)論,point-based 方法做目標(biāo)檢測(cè)確實(shí)缺乏完整的目標(biāo)特征,但從完整的邊界框中密集提取特征是沒(méi)必要且冗余的,高效的邊界特征提取策略可以獲得更好的特征增強(qiáng)效果。
針對(duì)上述結(jié)論,一種高效顯式自適應(yīng)提取邊界特征的方法,BorderAlign 被提出。如下圖所示,一個(gè)5C5C5C的 border-sensitive 特征圖作為輸入,其中4C4C4C維度對(duì)應(yīng)邊界框的四條邊,另外CCC維度對(duì)應(yīng)原始 anchor 點(diǎn)的特征。對(duì)于一個(gè) anchor 點(diǎn)預(yù)測(cè)的邊界框,對(duì)其四個(gè)邊界在特征圖上的特征做池化操作,由于框的位置是小數(shù),所以采用雙線性插值取邊界特征。
這里具體的實(shí)現(xiàn)如下:假設(shè)輸入的 5 個(gè)通道表示(single point, left border, top border, right border, bottom border),那么對(duì) anchor 點(diǎn)(i,j)(i, j)(i,j)對(duì)應(yīng)的 bbox 各邊均勻采樣NNN個(gè)點(diǎn),NNN默認(rèn)是 5,如下圖所示。采樣點(diǎn)的值采用上面所說(shuō)的雙線性插值,然后通過(guò)逐通道最大池化得到輸出,每個(gè)邊只會(huì)輸出值最大的采樣點(diǎn),那么每個(gè) anchor 點(diǎn)最后采用 5 個(gè)點(diǎn)的特征作為輸出,所以輸出也是5C5C5C維度的。
輸出特征圖相對(duì)輸入特征圖,各通道計(jì)算式如下,(x0,y0,x!,y1)(x_0, y_0, x_!, y_1)(x0?,y0?,x!?,y1?)為 anchor 點(diǎn)預(yù)測(cè)的 bbox。
顯然,BorderAlign 是一種自適應(yīng)的通過(guò)邊界極限點(diǎn)得到邊界特征的方法。文章中對(duì)其進(jìn)行了一些可視化工作,下圖所示的邊上的小圓圈是邊界極限點(diǎn),大圓圈是不同 channel 上預(yù)測(cè)的邊界極限點(diǎn)。
BAM(Border Alignment Module)
該模塊用于修正粗糙的 detection 結(jié)果,因而必須保證輸入輸出是同維張量,而其中的 BorderAlign 需求的是 5 個(gè)通道,所以必然要經(jīng)歷降維、特征增強(qiáng)、升維的過(guò)程,為了驗(yàn)證 border feature 的效果,BAM 采用 1x1 卷積實(shí)現(xiàn)維度變換。
BorderDet
上圖的框架采用 FCOS 作為 baseline,上面是分類(lèi)分支,下面是回歸分支,coarse cls score 和 coarse box reg 表示 FCOS 的輸出。在四個(gè)卷積層后引出一個(gè)分支做 BorderAlign 操作,也就是進(jìn)入 BAM 模塊,該模塊需要 bbox 位置信息,所以看到 coarse box reg 送入兩個(gè) BAM 中。最終這兩個(gè) BAM 預(yù)測(cè)得到 border cls score 和 border box reg,和檢測(cè)器原始輸出組合變?yōu)樽罱K輸出。
最后補(bǔ)充一點(diǎn),BorderDet 在推理時(shí)對(duì)兩種分類(lèi)結(jié)果進(jìn)行直接的相乘輸出,而對(duì)于 bbox 定位則使用 border 定位預(yù)測(cè)對(duì)初步定位的 bbox 進(jìn)行原論文中公式(2)的反向轉(zhuǎn)換,對(duì)所有的結(jié)果進(jìn)行 NMS 輸出(IOU 閾值設(shè)置為 0.6)。
實(shí)驗(yàn)
論文進(jìn)行了非常豐富的消融實(shí)驗(yàn)以對(duì)比 BorderAlign 的效果。
各分支效果
相比其他特征增強(qiáng)效果
和其他經(jīng)典的特征增強(qiáng)手段相比,BorderAlign 在速度(使用 CUDA 實(shí)現(xiàn)了 BorderAlign)和精度上都有突破。
集成到檢測(cè)器漲點(diǎn)效果
有比較明顯的改進(jìn)。
和主流檢測(cè)器對(duì)比
可以看到,即使不使用多尺度策略,BorderDet 和當(dāng)前 SOTA 相比效果也是不遑多讓的。
總結(jié)
邊界信息對(duì)于 OD 問(wèn)題十分重要,BorderDet 的核心思想 BorderAlign 高效地將邊界特征融入到目標(biāo)預(yù)測(cè)中,而且能夠 PnP 融入到各種 point-based 目標(biāo)檢測(cè)算法中以帶來(lái)較大的性能提升。
參考文獻(xiàn)
[1]Qiu H, Ma Y, Li Z, et al. BorderDet: Border Feature for Dense Object Detection[J]. arXiv preprint arXiv:2007.11056, 2020.
[2]https://zhuanlan.zhihu.com/p/163044323
總結(jié)
以上是生活随笔為你收集整理的BorderDet论文解读的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: Dynamic ReLU论文解读
- 下一篇: DLA论文解读