M2Det目标检测
tags: 單階段;多尺度特征金字塔
代碼: https://github.com/qijiezhao/M2Det
地址:https://arxiv.org/abs/1811.04533
前言
FPN現(xiàn)在已經(jīng)是目標(biāo)檢測(cè)的標(biāo)配,其利用自底向上的特征金字塔搭建成自頂向下的特征,從而利用這些特征進(jìn)行預(yù)測(cè),在一定程度上解決了不同尺度目標(biāo)的檢測(cè)。然而,卷積層的金字塔形式最原始的設(shè)計(jì)是用來(lái)解決分類問(wèn)題,與檢測(cè)問(wèn)題有所區(qū)別。
本文嘗試搭建更為有效的用于檢測(cè)的特征金字塔:
提出緣由
現(xiàn)有的基礎(chǔ)網(wǎng)絡(luò)的目標(biāo)都是針對(duì)圖像分類而言的,因此對(duì)于檢測(cè)任務(wù)并不是十分友好。而且現(xiàn)有的金字塔基本上都是從礎(chǔ)框架中的某一特征層建立的,缺乏足夠信息。深層次的特征對(duì)于分類而言,更具有說(shuō)服力;而淺層次的特征對(duì)于目標(biāo)的位置更友好。而且,淺層特征對(duì)于描述目標(biāo)的簡(jiǎn)單特征更有力,深層特征對(duì)于描述目標(biāo)的復(fù)雜特征更有力。然而,對(duì)于比如遠(yuǎn)處的人和近處的交通標(biāo)志而言,其在某個(gè)特征層可能具有同樣大小,但其特征復(fù)雜性卻完全不同。所以,對(duì)于單層特征來(lái)說(shuō),要么對(duì)簡(jiǎn)單特征有很好的表達(dá)能力,要么對(duì)復(fù)雜特征有很好的表達(dá)能力,兩者之間是不能同時(shí)滿足的。因此如何解決這個(gè)問(wèn)題就是本文算法的思路。
M2Det
M2Det整體框架網(wǎng)絡(luò)同樣是密集采樣的形式,一共包含三個(gè)模塊:
從上圖中可以看到,FFMv1將主干網(wǎng)絡(luò)中的語(yǔ)義特征進(jìn)行了融合,得到了基礎(chǔ)特征(base feature);TUM和FFMv2模塊交替 ,前者從基礎(chǔ)特征中提取多尺度特征,后者將基礎(chǔ)特征與TUM產(chǎn)生的特征進(jìn)行融合,最終將這些多尺度特征送入SFAM模塊中,構(gòu)建了基于不同尺度特征的金字塔,并進(jìn)行了多層次的劃分。
以VGG為例,具體如下:
第一個(gè)TUM只接受基礎(chǔ)特征作為輸入,后面TUM接受的是FFMv2的處理結(jié)果,而FFMv2要將基礎(chǔ)特征和第一個(gè)TUM的處理結(jié)果相融合。
該結(jié)構(gòu)中,conv5_3經(jīng)過(guò)conv之后變?yōu)?0x20x512,上采樣之后變?yōu)?0x40x512;conv4_3經(jīng)過(guò)conv之后,變?yōu)?0x40x256,然后將這兩個(gè)結(jié)果特征圖進(jìn)行拼接,最終產(chǎn)生的維度為768x40x40,也就是基礎(chǔ)特征圖
FFMv2結(jié)構(gòu)768x40x40大小的基礎(chǔ)特征經(jīng)過(guò)conv之后,變?yōu)?0x40x128,與TUM產(chǎn)生的128x40x40特征進(jìn)行拼接后,變?yōu)?56x40x40
TUM結(jié)構(gòu)TUM接收FFMv2的結(jié)果作為輸入,經(jīng)過(guò)內(nèi)部的一個(gè)類似U型的編碼-解碼操作,產(chǎn)生了不同尺度的分支,這些分支用來(lái)預(yù)測(cè)不同大小的目標(biāo)。上面的TUM負(fù)責(zé)預(yù)測(cè)小目標(biāo),中間的為中等目標(biāo),下面的為大目標(biāo)。
SFAM結(jié)構(gòu)該層是為了將前面各個(gè)TUM模塊的結(jié)果進(jìn)行匯合,從而產(chǎn)生多尺度,多層次的特征金字塔。聚合的過(guò)程如上圖:因?yàn)榍懊娴拿總€(gè)金字塔都有6中不同大小的尺度,分別為1x1,3x3,5x5,10x10,20x20,40x40,那么在該層中,通過(guò)將三種TUM模塊中尺度對(duì)應(yīng)的特征圖進(jìn)行拼接,這樣就形成了6種拼接之后的特征圖,其大小不變,厚度卻增加了。然而,僅僅通過(guò)增加厚度還不夠理想,所以通過(guò)了一個(gè)SE模塊,使金字塔各層更關(guān)注于與自己更適應(yīng)的目標(biāo)尺度。
訓(xùn)練問(wèn)題
太耗時(shí)!太耗內(nèi)存!
實(shí)驗(yàn)結(jié)果
數(shù)據(jù)集coco
總結(jié)
本文提出了新的構(gòu)建特征金字塔的方式,比FPN使用的基礎(chǔ)層少,而且效果還不錯(cuò)。雖然整體框架看著很復(fù)雜,但是不難理解,佩服作者的腦洞。等硬件資源充足了,可以試試!
總結(jié)
- 上一篇: 学习matlab(十八)——小波分析
- 下一篇: 目标检测M2Det论文总结