在物体检测任务上进行预训练的实验分析
?PaperWeekly 原創 · 作者|費玥姣
學校|西湖大學博士生
研究方向|視頻預測
論文標題:An Analysis of Pre-Training on Object Detection
論文鏈接:https://arxiv.org/abs/1904.05871
摘要
本工作主要將在物體檢測上進行預訓練的 CNN 模型在不同的視覺任務上的結果進行分析:
在大的數據集(包括 OpenImagesV4, ImageNet Localization and COCO)預訓練檢測器,再將特征用到分類、分割、小數據集檢測上(比如 PASCAL-VOC, Caltech-256, SUN-397, Flowers-102)。
分析的結果:
OD 預訓練對于小數據集的 OD 有很好的效果
OD 預訓練有利于分割但是不利于分類
檢測中的圖像特征和分類中的更接近,但是反之不是
神經元可視化反應分割網絡更注重整體而分類網絡更注重細節
簡介
對于多種視覺任務如物體檢測、圖像分割、圖片分類等,通常會在大型數據集上進行預訓練,實驗證明預訓練往往能幫助模型獲得更好的結果,更快收斂。
然后預訓練往往基于圖像分類任務,在大型的分類數據集(如 ImageNet,Places,JFT 等)上進行,再遷移到其他任務或者數據集上進行 finetune,而很少在物體檢測任務上預訓練。但是分類任務是物體檢測的子任務,我們是否可以猜想物體檢測模型獲得比分類很豐富的特征?
分析
預訓練步驟:
Finetune數據集:
3.1 物體檢測的Finetune:
檢測預訓練在?PASCAL-VOC 上 finetune?后,在不同 IoU 閾值上都有提升。
尤其在大 IoU 閾值,OD 預訓練能夠提高更多 mAP,在 PASCAL-VOC 數據集上,IoU=0.7 時提高了 4.8mAP,IoU=0.5 時只提高 2.2mAP。
并且 OpenImage 預訓練模型能更好的處理遮擋情況。
3.2 語義分割
Baseline:還是 Deformable ConvNets 作為 Backbone 模型,在 PASCAL-VOC 2012 進行語義分割 finetune,結果發現有 3 個點的提升:
進行了 trimap experiment 判斷這個提升是否是由于邊緣像素點的分割效果更好造成的。trimap experiment 計算針對距離邊緣長度為 x 的像素分類精確度,anti-trimap experiment計 算除去邊緣的像素分類精確度。
發現隨著邊緣區域的增大,兩種預訓練模型的 IoU 之間的差別不變,對于遠離邊緣的像素點來說也是一樣,因此得出結論分割模型的好壞不是由于邊緣像素分類精確度造成的。
上方是分類預訓練的分割結果,下方是檢測預訓練的分割結果,可見檢測預訓練模型能夠覆蓋整個物體,即分類模型無法理解物體邊界。Detection pre-training provides a better prior about the spatial extent of an instance which helps in recognizing parts of an object.
3.3 圖像分類
在不同分類數據集上測試不同預訓練模型的表現,發現物體檢測預訓練(前三個數據集)對于圖像分類(IMAGENET-CLS)效果表現更差:
為了研究為什么會產生這樣的現象,這里將圖片分類的預訓練模型中的特征提取出來進行分析。
Conv5 features 在 OPENIMAGES 和 IMAGENET-CLS 上預訓練的模型的 Conv5 進行平均池化,softmax 后加上一個線性分類器,進行圖像分類。發現進行檢測預訓練的模型效果比分類模型差非常多:
中間層特征 還選擇了在 OPENIMAGES 上預訓練的檢測模型的 detection head 中中間層特征的分類表現,發現 ConvProj blob(256) 上的效果是最好的,FC1 好于 FC2。
語義和特征分析 Conv5 在 ImageNet 上距離最近的圖片對(圖中可能有多個物體)|Conv5 在 ImageNet 上距離近,但是在 OpenImage 上遠的圖片對|Conv5 在 OpenImages 上最近的圖片對(形狀和大小都差不多)。衡量距離用 L2 distance。
用 k-means 聚類,檢查在 OpenImages 的 embedding 里是同一個 cluster 的圖片對,在 ImageNet Cls 的 embedding 里是否是一個 cluster 中的,反之亦然,得到的結果如下,在 OpenImages 特征空間中相似的圖片,在 ImageNet Cls 中更可能相似,而反之不是這樣。
在 ImgaNet Cls 特征空間中,不同大小和紋理的同種物體相對于在 OpenImages 特征空間中可能會更加接近。
同 tSNE 可視化平均池化的 Conv5 特征,發現在 ImageNet Cls 特征空間中,同一種物體的特征在相同的 cluster 中且距離更近。然而 OpenImages 特征比較分散。
3.4?可視化
Activations 可視化:這里將 CNN activation(Conv5)可視化出來,發現 IMAGENET-CLS 預訓練的 activations 更加集中于明顯的區域,OpenImages 預訓練的模型的 activations 更注重整個物體的覆蓋。
Mask-out可視化:用一個 60x60 的空白遮罩在圖像中移動,得到遮罩在不同位置的輸出正確類別的置信度。下圖可見在 ImageNet-CLS 中的許多位置(如狗和駱駝的頭部)分類得分接近于零,而在 OpenImage 中不是。
因為檢測依靠物體全局的空間特征去檢測,因此對局部的變化不敏感。而分類問題依靠明顯部位進行識別,當關鍵區域被遮住,就容易無法識別。
更多閱讀
#投 稿?通 道#
?讓你的論文被更多人看到?
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學習心得或技術干貨。我們的目的只有一個,讓知識真正流動起來。
?????來稿標準:
? 稿件確系個人原創作品,來稿需注明作者個人信息(姓名+學校/工作單位+學歷/職位+研究方向)?
? 如果文章并非首發,請在投稿時提醒并附上所有已發布鏈接?
? PaperWeekly 默認每篇文章都是首發,均會添加“原創”標志
?????投稿郵箱:
? 投稿郵箱:hr@paperweekly.site?
? 所有文章配圖,請單獨在附件中發送?
? 請留下即時聯系方式(微信或手機),以便我們在編輯發布時和作者溝通
????
現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
關于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
總結
以上是生活随笔為你收集整理的在物体检测任务上进行预训练的实验分析的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 电喷车打火打不着车高压怎么回事?
- 下一篇: OKGAN:线上训练GAN的方法