M2Det
『寫在前面』
Single-shot目標檢測新模型,使用multi-level特征。
作者機構:Qijie Zhao等,北京大學&阿里達摩院
文章標題:《M2Det: A Single-Shot Object Detector based on Multi-Level Feature Pyramid》
原文鏈接:https://arxiv.org/abs/1811.04533
相關repo:https://github.com/qijiezhao/M2Det
? ? ? ? ? ? ? ? ??https://github.com/tadax/m2det
目錄
摘要
介紹
所提方法
MLFPN詳解
網絡配置
實驗部分
摘要
- 提出多級特征金字塔網絡MLFPN
- 基于提出的MLFPN,結合SSD,提出一種新的Single-shot目標檢測模型M2Det
- 在MS-COCO benchmark上,M2Det的單尺度版本和多尺度版本AP分別達到41.0和44.2?
介紹
為了解決目標實例的尺度變化問題,主流做法有兩種:
- 一是在測試階段使用圖像金字塔(如Cascade RCNN),即將原始圖像進行一系列縮放,毫無疑問這會大幅增加內存和計算開銷;?
- 二是在從輸入圖像提取出的特征金字塔上進行檢測,該方法可以同時用于訓練和測試階段中,相對開銷較小,易于集成,適合end-to-end。
如下圖所示,文中列舉了四種風格的特征金字塔:SSD型、FPN型、STDN型,以及本文所提出的?MLFPN型。并總結了前三種特征金字塔的缺點,主要有兩點:一是均基于分類網絡作為主干提取,對目標檢測任務而言特征表示可能不夠;二是每個feature map僅由主干網絡的single level給出,不夠全面(一般來說,高層特征利于進行分類,低層特征利于回歸目標位置)。
- SSD型:使用了主干網絡的最后兩層,再加上4個使用stride=2卷積的下采樣層構成;
- FPN型:也稱為U型網絡,經過上采樣操作,然后對應融合相同的scale;
- STDN型:基于DenseNet的最后一個dense block,通過池化和scale-transfer操作來構建;
- MLFPN型:本文新提出,整體思想是Multi-level&Multi-scale,下文詳述。
為了更好地解決目標檢測中尺度變化帶來的問題,本文提出一種更有效的特征金字塔結構MLFPN,?其大致流程如下圖所示:首先,對主干網絡提取到的特征進行融合;然后通過TUM和FFM提取更有代表性的Multi-level&Mutli-scale特征;最后通過SFAM融合多級特征,得到多級特征金字塔用于最終階段的預測。
所提方法
M2Det使用主干網絡+MLFPN來提取圖像特征,然后采用類似SSD的方式預測密集的包圍框和類別得分,通過NMS得到最后的檢測結果。
MLFPN詳解
如上圖所示,MLFPN主要有3個模塊組成:
1)特征融合模塊FFM;
2)細化U型模塊TUM;
3)尺度特征聚合模塊SFAM.
首先,?FFMv1對主干網絡提取到的淺層和深層特征進行融合,得到base feature;
其次,堆疊多個TUM和FFMv2,每個TUM可以產生多個不同scale的feature map,每個FFMv2融合base feature和上一個TUM的輸出,并給到下一個TUM作為輸入(更高level)。每個level的輸出如下公式所述;
最后,SFAM通過scale-wise拼接和channel-wise attention來聚合multi-level&multi-scale的特征。
特征融合模塊FFM
FFM用于融合M2Det中不同級別的特征,先通過1x1卷積壓縮通道數,再進行拼接。具體而言:
細化U型模塊TUM
TUM使用了比FPN和RetinaNet更薄的U型網絡。在上采樣和元素相加操作之后加上1x1卷積來加強學習能力和保持特征平滑度。TUM中每個解碼器的輸出共同構成了該TUM的multi-scale輸出。每個TUM的輸出共同構成了multi-level&multi-scale特征,前面的TUM提供low level feature,后面的TUM提供high level feature.TUM的細節如下圖所示:
尺度特征聚合模塊SFAM
SFAM旨在聚合TUMs產生的多級多尺度特征,以構造一個多級特征金字塔。在first stage,SFAM沿著channel維度將擁有相同scale的feature map進行拼接,這樣得到的每個scale的特征都包含了多個level的信息。然后在second stage,借鑒SENet的思想,加入channel-wise attention,以更好地捕捉有用的特征。SFAM的細節如下圖所示:
網絡配置
M2Det的主干網絡采用VGG-16和ResNet-101
MLFPN的默認配置包含有8個TUM,每個TUM包含5個跨步卷積核5個上采樣操作,所以每個TUM的輸出包含了6個不同scale的特征。
在檢測階段,為6組金字塔特征每組后面添加兩個卷積層,以分別實現位置回歸和分類。
后處理階段,使用soft-NMS來過濾無用的包圍框。
實驗部分
?貼一張效率VS精度的對比圖。
總結
- 上一篇: 华硕电脑安装键盘灯驱动步骤
- 下一篇: 高级编程技术(一)