日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

M2Det

發布時間:2023/12/31 编程问答 46 豆豆
生活随笔 收集整理的這篇文章主要介紹了 M2Det 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

『寫在前面』

Single-shot目標檢測新模型,使用multi-level特征。

作者機構:Qijie Zhao等,北京大學&阿里達摩院

文章標題:《M2Det: A Single-Shot Object Detector based on Multi-Level Feature Pyramid》

原文鏈接:https://arxiv.org/abs/1811.04533

相關repo:https://github.com/qijiezhao/M2Det

? ? ? ? ? ? ? ? ??https://github.com/tadax/m2det


目錄

摘要

介紹

所提方法

MLFPN詳解

網絡配置

實驗部分


摘要

  • 提出多級特征金字塔網絡MLFPN
  • 基于提出的MLFPN,結合SSD,提出一種新的Single-shot目標檢測模型M2Det
  • 在MS-COCO benchmark上,M2Det的單尺度版本和多尺度版本AP分別達到41.044.2?

介紹

為了解決目標實例的尺度變化問題,主流做法有兩種:

  • 一是在測試階段使用圖像金字塔(如Cascade RCNN),即將原始圖像進行一系列縮放,毫無疑問這會大幅增加內存和計算開銷;?
  • 二是在從輸入圖像提取出的特征金字塔上進行檢測,該方法可以同時用于訓練和測試階段中,相對開銷較小,易于集成,適合end-to-end。

如下圖所示,文中列舉了四種風格的特征金字塔:SSD型、FPN型、STDN型,以及本文所提出的?MLFPN型。并總結了前三種特征金字塔的缺點,主要有兩點:一是均基于分類網絡作為主干提取,對目標檢測任務而言特征表示可能不夠;二是每個feature map僅由主干網絡的single level給出,不夠全面(一般來說,高層特征利于進行分類,低層特征利于回歸目標位置)。

  • SSD型:使用了主干網絡的最后兩層,再加上4個使用stride=2卷積的下采樣層構成;
  • FPN型:也稱為U型網絡,經過上采樣操作,然后對應融合相同的scale;
  • STDN型:基于DenseNet的最后一個dense block,通過池化和scale-transfer操作來構建;
  • MLFPN型:本文新提出,整體思想是Multi-level&Multi-scale,下文詳述。

為了更好地解決目標檢測中尺度變化帶來的問題,本文提出一種更有效的特征金字塔結構MLFPN,?其大致流程如下圖所示:首先,對主干網絡提取到的特征進行融合;然后通過TUM和FFM提取更有代表性的Multi-level&Mutli-scale特征;最后通過SFAM融合多級特征,得到多級特征金字塔用于最終階段的預測。

所提方法

M2Det使用主干網絡+MLFPN來提取圖像特征,然后采用類似SSD的方式預測密集的包圍框和類別得分,通過NMS得到最后的檢測結果。

MLFPN詳解

如上圖所示,MLFPN主要有3個模塊組成:

1)特征融合模塊FFM;

2)細化U型模塊TUM;

3)尺度特征聚合模塊SFAM.

首先,?FFMv1對主干網絡提取到的淺層和深層特征進行融合,得到base feature;

其次,堆疊多個TUM和FFMv2,每個TUM可以產生多個不同scale的feature map,每個FFMv2融合base feature和上一個TUM的輸出,并給到下一個TUM作為輸入(更高level)。每個level的輸出如下公式所述;

最后,SFAM通過scale-wise拼接和channel-wise attention來聚合multi-level&multi-scale的特征。

特征融合模塊FFM

FFM用于融合M2Det中不同級別的特征,先通過1x1卷積壓縮通道數,再進行拼接。具體而言:

  • FFMv1使用兩種不同scale的feature map作為輸入,所以在拼接操作之前加入了上采樣操作來調整大小;
  • FFMv2的兩個輸入的scale相同,所以比較簡單。兩種FFM的細節如下圖所示。
  • 細化U型模塊TUM

    TUM使用了比FPN和RetinaNet更薄的U型網絡。在上采樣和元素相加操作之后加上1x1卷積來加強學習能力和保持特征平滑度。TUM中每個解碼器的輸出共同構成了該TUM的multi-scale輸出。每個TUM的輸出共同構成了multi-level&multi-scale特征,前面的TUM提供low level feature,后面的TUM提供high level feature.TUM的細節如下圖所示:

    尺度特征聚合模塊SFAM

    SFAM旨在聚合TUMs產生的多級多尺度特征,以構造一個多級特征金字塔。在first stage,SFAM沿著channel維度將擁有相同scale的feature map進行拼接,這樣得到的每個scale的特征都包含了多個level的信息。然后在second stage,借鑒SENet的思想,加入channel-wise attention,以更好地捕捉有用的特征。SFAM的細節如下圖所示:

    網絡配置

    M2Det的主干網絡采用VGG-16和ResNet-101

    MLFPN的默認配置包含有8個TUM,每個TUM包含5個跨步卷積核5個上采樣操作,所以每個TUM的輸出包含了6個不同scale的特征。

    在檢測階段,為6組金字塔特征每組后面添加兩個卷積層,以分別實現位置回歸和分類。

    后處理階段,使用soft-NMS來過濾無用的包圍框。

    實驗部分

    ?貼一張效率VS精度的對比圖。

    總結

    以上是生活随笔為你收集整理的M2Det的全部內容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。