M2Det 论文解读
?【AAAI 2019】M2Det ?A Single-Shot Object Detector based on Multi-Level FPN
論文鏈接:??https://arxiv.org/abs/1811.04533
github:https://github.com/qijiezhao/M2Det
?
?
TL,DL
AAAI 2019的一篇文章,單階段檢測器,考慮到FPN的結構,只能區分不同scale的特征,具有一定的局限性,比如一張圖片中的人和交通燈,具有相同的scale,但是語義信息不同,單純的靠FPN區分不夠準確,因此本文提出了一個Multi-Level Feature Pyramid Network(MLFPN)的結構,能夠融合mutil-level mutil-scale的特征,(mutil-level體現在多個TUM上,mutil-scale體現在后面的FPN上)相當于在不同level,不同scale的特征被更加區分開來。具體結構上就是,基于SSD,首先fuse FPN的特征后,經過了級聯的類似hourglass的結構(本文稱之為TUM),每一個TUM都會出多scale的特征,最后將所有的TUM的相同scale特征進行concate,在經過一個SE操作,接上2個conv,出最后的回歸和分類結果。MS-COCO AP 41.0,11.8FPS。
Motivation
首先,FPN中每層的特征是從backbone中直接拿到的,而backbone是為了classification設計的,對object detection任務不是太好(并不是說FPN對object detection效果不好),而且每層特征僅僅考慮了單level的語義信息,一般來講,high-level的信息更具有全局信息,對分類效果比較好,low-level的特征對定位效果更好,所以需要更好的結合不同level的信息,所以本文的想法就是在FPN結構的mutil-scale的基礎上,增加mutil-level的信息。設計出了MLFPN網絡結構。
基本做法就是下面幾張圖的內容,都挺直觀
NetWork Architecture
具體的網絡結構如下
MLFPN主要有三部分組成,FFMs,TUM,SFAM,下面分別介紹:
FFMs
首先圖2中的FFMv1 fuse了VGG的conv4_3和conv5_3的feature,具體做法在圖4(a)中,輸出的結果作為base feature,而后的每個TUM的輸出,都要和base feature進行fuse,然后作為下一個level TUM的輸入,從最后結果看,這個base feature的融合還是很有效果的。
TUMs
圖4(c),文章使用的結構是8個TUM(8 level),每個TUM出6個scale的feature,從最后結果看,這個mutil-level的效果提點也不錯。需要注意的是:下一級TUM的輸入,由上一級TUM的輸出和base feature組成。
SFAM
如圖3,將不同level的相同scale的特征concate在一起,然后接一個SE結構,然后作為最后的feature map,后面接兩個conv出最后的結果。
Experiment
訓練部分還是很耗時的,VGG-16 backbone,320x320,512x512和800x800的輸入尺寸,在4塊Titan X訓練分別需要3天,6天和14天;ResNet 101 320x320需要5天,512x512在2塊V100上需要11天。
實驗結果如表1,可以看出來,對比單階段方法,效果可以,速度比corner net快一倍,而且速度和準確率都比RetinaNet800好。
Ablation study
可以看出來,本文的提出的結構都能漲點,漲點比較多的事8-TUM和Base feature,但是增加TUM之后APlarge會明顯下降。可能的原因主要是context對小物體更優化?
不同的TUM數量和Channel的實驗,都是越多效果越好,但是channel的增加會使得參數增長的很快,所以還是選擇了增加TUM的數量。
Speed
最后,這張圖也證明了開頭說到的,當物體scale相同的時候,FPN的效果可能未必好,從上圖可以看得出來,相同scale的物體基本都在相同scale中相應比較大,而不同object由于語義信息不同,會在不同的level中響應。
Thought
本文的值得借鑒的是設計的這個類似hourglass的級聯結構,能夠提取到更多的語義信息,對不同類的識別效果有幫助,同時也可以看得出來,base feature的重要性。
總結
以上是生活随笔為你收集整理的M2Det 论文解读的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: c语言队列的作用,C语言队列
- 下一篇: 分享一些学习资料-大量PDF电子书