當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

M2Det

發布時間：2023/12/31 编程问答 46 豆豆

生活随笔收集整理的這篇文章主要介紹了 M2Det 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

『寫在前面』

Single-shot目標檢測新模型，使用multi-level特征。

作者機構：Qijie Zhao等，北京大學&阿里達摩院

文章標題：《M2Det: A Single-Shot Object Detector based on Multi-Level Feature Pyramid》

原文鏈接：https://arxiv.org/abs/1811.04533

相關repo：https://github.com/qijiezhao/M2Det

? ? ? ? ? ? ? ? ??https://github.com/tadax/m2det

摘要

介紹

所提方法

MLFPN詳解

網絡配置

實驗部分

摘要

提出多級特征金字塔網絡MLFPN
基于提出的MLFPN，結合SSD，提出一種新的Single-shot目標檢測模型M2Det
在MS-COCO benchmark上，M2Det的單尺度版本和多尺度版本AP分別達到41.0和44.2?

介紹

為了解決目標實例的尺度變化問題，主流做法有兩種：

一是在測試階段使用圖像金字塔（如Cascade RCNN），即將原始圖像進行一系列縮放，毫無疑問這會大幅增加內存和計算開銷；?
二是在從輸入圖像提取出的特征金字塔上進行檢測，該方法可以同時用于訓練和測試階段中，相對開銷較小，易于集成，適合end-to-end。

如下圖所示，文中列舉了四種風格的特征金字塔：SSD型、FPN型、STDN型，以及本文所提出的?MLFPN型。并總結了前三種特征金字塔的缺點，主要有兩點：一是均基于分類網絡作為主干提取，對目標檢測任務而言特征表示可能不夠；二是每個feature map僅由主干網絡的single level給出，不夠全面（一般來說，高層特征利于進行分類，低層特征利于回歸目標位置）。

SSD型：使用了主干網絡的最后兩層，再加上4個使用stride=2卷積的下采樣層構成；
FPN型：也稱為U型網絡，經過上采樣操作，然后對應融合相同的scale；
STDN型：基于DenseNet的最后一個dense block，通過池化和scale-transfer操作來構建；
MLFPN型：本文新提出，整體思想是Multi-level&Multi-scale，下文詳述。

為了更好地解決目標檢測中尺度變化帶來的問題，本文提出一種更有效的特征金字塔結構MLFPN，?其大致流程如下圖所示：首先，對主干網絡提取到的特征進行融合；然后通過TUM和FFM提取更有代表性的Multi-level&Mutli-scale特征；最后通過SFAM融合多級特征，得到多級特征金字塔用于最終階段的預測。

所提方法

M2Det使用主干網絡+MLFPN來提取圖像特征，然后采用類似SSD的方式預測密集的包圍框和類別得分，通過NMS得到最后的檢測結果。

MLFPN詳解

如上圖所示，MLFPN主要有3個模塊組成：

1）特征融合模塊FFM；

2）細化U型模塊TUM；

3）尺度特征聚合模塊SFAM.

首先，?FFMv1對主干網絡提取到的淺層和深層特征進行融合，得到base feature；

其次，堆疊多個TUM和FFMv2，每個TUM可以產生多個不同scale的feature map，每個FFMv2融合base feature和上一個TUM的輸出，并給到下一個TUM作為輸入（更高level）。每個level的輸出如下公式所述；

最后，SFAM通過scale-wise拼接和channel-wise attention來聚合multi-level&multi-scale的特征。

特征融合模塊FFM

FFM用于融合M2Det中不同級別的特征，先通過1x1卷積壓縮通道數，再進行拼接。具體而言：

FFMv1使用兩種不同scale的feature map作為輸入，所以在拼接操作之前加入了上采樣操作來調整大小；

FFMv2的兩個輸入的scale相同，所以比較簡單。兩種FFM的細節如下圖所示。

細化U型模塊TUM

TUM使用了比FPN和RetinaNet更薄的U型網絡。在上采樣和元素相加操作之后加上1x1卷積來加強學習能力和保持特征平滑度。TUM中每個解碼器的輸出共同構成了該TUM的multi-scale輸出。每個TUM的輸出共同構成了multi-level&multi-scale特征，前面的TUM提供low level feature，后面的TUM提供high level feature.TUM的細節如下圖所示：

尺度特征聚合模塊SFAM

SFAM旨在聚合TUMs產生的多級多尺度特征，以構造一個多級特征金字塔。在first stage，SFAM沿著channel維度將擁有相同scale的feature map進行拼接，這樣得到的每個scale的特征都包含了多個level的信息。然后在second stage，借鑒SENet的思想，加入channel-wise attention，以更好地捕捉有用的特征。SFAM的細節如下圖所示：

網絡配置

M2Det的主干網絡采用VGG-16和ResNet-101

MLFPN的默認配置包含有8個TUM，每個TUM包含5個跨步卷積核5個上采樣操作，所以每個TUM的輸出包含了6個不同scale的特征。

在檢測階段，為6組金字塔特征每組后面添加兩個卷積層，以分別實現位置回歸和分類。

后處理階段，使用soft-NMS來過濾無用的包圍框。

實驗部分

?貼一張效率VS精度的對比圖。

總結

以上是生活随笔為你收集整理的M2Det的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

M2Det