日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 人工智能 > 目标检测 >内容正文

目标检测

(十九)论文阅读 | 目标检测之SNIP

發(fā)布時(shí)間:2023/12/18 目标检测 40 豆豆
生活随笔 收集整理的這篇文章主要介紹了 (十九)论文阅读 | 目标检测之SNIP 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

簡介

圖1:論文原文

作者以COCO{\rm COCO}COCO數(shù)據(jù)集為例分析,并指出當(dāng)前目標(biāo)檢測任務(wù)存在的一大挑戰(zhàn)是數(shù)據(jù)集中目標(biāo)尺寸的分布較大,尤其是對(duì)小目標(biāo)的檢測方法有待改進(jìn)。由此論文提出ScaleNormalizationfor{\rm Scale\ Normalization\ for}Scale?Normalization?forImagePyramids,SNIP{\rm Image\ Pyramids,SNIP}Image?Pyramids,SNIP方法以改善上述情況。實(shí)驗(yàn)結(jié)果為在COCO{\rm COCO}COCO數(shù)據(jù)集上單個(gè)模型的mAP{\rm mAP}mAP45.7%45.7\%45.7%,集成三個(gè)模型的mAP{\rm mAP}mAP48.3%48.3\%48.3%。
論文原文 源碼


0. Abstract

作者通過對(duì)比在ImageNet{\rm ImageNet}ImageNet數(shù)據(jù)集上不同分類模型對(duì)于小目標(biāo)的分類結(jié)果,指出卷積神經(jīng)網(wǎng)絡(luò)對(duì)輸入尺度變化不具魯棒性,即CNN{\rm CNN}CNN不能很好地處理尺度變化的問題。論文提出一種在相同尺度的圖像金字塔上訓(xùn)練模型,即保持金字塔每一層的訓(xùn)練樣本尺度在特定的范圍內(nèi)。
論文貢獻(xiàn):(一)指出不同數(shù)據(jù)集間的遷移學(xué)習(xí)會(huì)帶來domain–shift{\rm domain–shift}domainshift問題,即數(shù)據(jù)集分布差異帶來的模型間的不吻合;(二)利用圖像金字塔上訓(xùn)練模型,在金字塔的特定層上只處理特定尺寸范圍內(nèi)的樣本,以此保證樣本尺度的標(biāo)準(zhǔn)化。


1. Introduction

在引言部分,作者首先指出自AlexNet{\rm AlexNet}AlexNet以來,基于深度學(xué)習(xí)的分類模型的分類錯(cuò)誤率由15%15\%15%降低至2%2\%2%,而目標(biāo)檢測模型的提升不如前者。隨后,作者認(rèn)為數(shù)據(jù)集中目標(biāo)尺度的多樣化,以及小目標(biāo)檢測是導(dǎo)致上述問題的主要因素。

圖2:ImageNet和COCO的對(duì)比

上圖是ImageNet{\rm ImageNet}ImageNetCOCO{\rm COCO}COCO的對(duì)比,其中橫坐標(biāo)表示目標(biāo)占整幅圖像的大小,縱坐標(biāo)表示累計(jì)分布。可以看到,在COCO{\rm COCO}COCO數(shù)據(jù)集曲線上的(0.106,0.5)(0.106,0.5)(0.106,0.5)點(diǎn)可以得出近一半目標(biāo)的尺寸僅占整幅圖像的1/101/101/10左右,即小目標(biāo)是COCO{\rm COCO}COCO數(shù)據(jù)集的主體。此外,在COCO{\rm COCO}COCO數(shù)據(jù)集中,尺寸最小的第9/109/109/10的目標(biāo)占比是尺寸最小的第1/101/101/10的目標(biāo)占比的202020倍,即在COCO{\rm COCO}COCO數(shù)據(jù)集中,目標(biāo)尺寸的分布變化較大。由于在訓(xùn)練目標(biāo)檢測模型時(shí)通常使用基于ImageNet{\rm ImageNet}ImageNet數(shù)據(jù)集的分類模型,而由圖可知二者目標(biāo)分布差異較大,使用遷移學(xué)習(xí)會(huì)產(chǎn)生相關(guān)問題(文中稱為domain–shift{\rm domain–shift}domainshift問題)。針對(duì)上述問題,前人工作已提出相關(guān)解決方案:


2. Related Work

利用較大分辨率的特征圖保留了更豐富的小目標(biāo)信息的特點(diǎn),SDP{\rm SDP}SDPSSH{\rm SSH}SSH、MS–CNN{\rm MS–CNN}MSCNN等采用在不同分辨率的特征圖下獨(dú)立地檢測不同尺度目標(biāo)的方法;FPN{\rm FPN}FPN、Mask–RCNN{\rm Mask–RCNN}MaskRCNNRetinaNet{\rm RetinaNet}RetinaNet等以特征金字塔的形式融合不同分辨率的特征圖,使得檢測特征圖里包含不同尺度的上下文信息。總的來說,對(duì)于數(shù)據(jù)集中尺度變化的問題,主要使用圖像金字塔特征金字塔兩類方法。本文基于后者,使用SNIP+D–RFCN{\rm SNIP+D–RFCN}SNIPDRFCN模型在COCO{\rm COCO}COCO數(shù)據(jù)集上的AP50{\rm AP_{50}}AP50?達(dá)69.7%{\rm 69.7\%}69.7%,相比于原D–RFCN{\rm D–RFCN}DRFCN模型提高7.4{\rm 7.4}7.4個(gè)百分點(diǎn)。


3. Image Classification at Multiple Scales

圖3:對(duì)比實(shí)驗(yàn)設(shè)計(jì)

如上圖,CNN–B{\rm CNN–B}CNNB的過程是:首先使用ImageNet{\rm ImageNet}ImageNet數(shù)據(jù)集224×224{\rm 224×224}224×224的圖片訓(xùn)練CNN{\rm CNN}CNN模型,然后通過下采樣從ImageNet{\rm ImageNet}ImageNet數(shù)據(jù)集中分別獲得分辨率為48×48{\rm 48×48}48×48、64×64{\rm 64×64}64×64、80×80{\rm 80×80}80×8096×96{\rm 96×96}96×96128128128×128×128×128的圖片,最后通過上采樣將其尺寸統(tǒng)一至224×224{\rm 224×224}224×224后作為測試集。可以看到此時(shí)的輸入圖像分辨率較低,該部分實(shí)驗(yàn)的目的是測試數(shù)據(jù)集和訓(xùn)練數(shù)據(jù)集使用不同分辨率圖片的對(duì)比。依次得到的分類結(jié)果如下圖(a)(a)(a)

圖4:ImageNet上的分類結(jié)果

(a){\rm (a)}(a)的橫坐標(biāo)表示測試數(shù)據(jù)集的分辨率,由圖可知測試數(shù)據(jù)集的分辨率與訓(xùn)練數(shù)據(jù)集的分辨率相差越大,則效果越差。由此,作者進(jìn)行了接下來的實(shí)驗(yàn)。CNN–B{\rm CNN–B}CNNBCNN–B–FT{\rm CNN–B–FT}CNNBFT中訓(xùn)練數(shù)據(jù)集和測試數(shù)據(jù)集的分辨率相同,分別為48×48{\rm 48×48}48×4896×96{\rm 96×96}96×96。不同的是CNN–B–FT{\rm CNN–B–FT}CNNBFT所使用的是在低分辨率圖像上上采樣后的數(shù)據(jù)。實(shí)驗(yàn)結(jié)果如圖(b){\rm (b)}(b)(c){\rm (c)}(c)所示,圖(b){\rm (b)}(b)表示均使用48×48{\rm 48×48}48×48大小數(shù)據(jù)集作為測試集的實(shí)驗(yàn)結(jié)果,可以得到當(dāng)訓(xùn)練數(shù)據(jù)集的分辨率同測試數(shù)據(jù)集的分辨率一致時(shí)可以提高檢測分類準(zhǔn)確率;圖(c){\rm (c)}(c)表示均使用96×96{\rm 96×96}96×96大小數(shù)據(jù)集作為測試集的實(shí)驗(yàn)結(jié)果。由CNN–B{\rm CNN–B}CNNBCNN–B–FT{\rm CNN–B–FT}CNNBFT的實(shí)驗(yàn)結(jié)果可以得到,使用高分辨率的訓(xùn)練數(shù)據(jù)的確能夠提高模型的分類準(zhǔn)確率。


4. Background

由于論文實(shí)驗(yàn)大都是基于對(duì)D–RFCN{\rm D–RFCN}DRFCN的改進(jìn),本部分首先介紹D–RFCN{\rm D–RFCN}DRFCN的相關(guān)內(nèi)容。RCNN{\rm RCNN}RCNN系列目標(biāo)檢測方法以RoI{\rm RoI}RoI池化層為界,被分為兩個(gè)階段。前一個(gè)階段是CNN{\rm CNN}CNN提取特征,第二階段是處理候選框。但這兩個(gè)階段基本上是獨(dú)立計(jì)算的,即RoI{\rm RoI}RoI池化每次僅計(jì)算一個(gè)感興趣區(qū)域,不能實(shí)現(xiàn)共享計(jì)算。作者為了將FCN{\rm FCN}FCN引入目標(biāo)檢測任務(wù)中,提出位置敏感得分圖,使得池化操作的計(jì)算可以共享,從而得到了R–FCN{\rm R–FCN}RFCN目標(biāo)檢測模型。

圖5:position-sensitive score maps

上圖展示了R–FCN{\rm R–FCN}RFCN的核心模塊。首先,輸入圖像經(jīng)過卷積產(chǎn)生特征圖,然后通過卷積產(chǎn)生一個(gè)k2(C+1)k^2(C+1)k2(C+1)維的位置敏感得分圖,其中k=3k=3k=3表示位置敏感得分圖的大小、CCC表示類別數(shù)。對(duì)于每一個(gè)由RPN{\rm RPN}RPN生成的RoI{\rm RoI}RoI區(qū)域,通過池化得到一個(gè)大小為k×k×(C+1)k×k×(C+1)k×k×(C+1)的特征圖(池化的方式是,對(duì)于輸出為橙色的位置,其根據(jù)特征圖的對(duì)應(yīng)顏色通道的池化得到;其余位置類似),得分圖上每個(gè)位置的值分別對(duì)應(yīng)于該方向上存在類別為ccc的目標(biāo)的概率。九種不同顏色對(duì)應(yīng)于左上、正上等共九個(gè)方向。然后根據(jù)對(duì)得到的特征圖的值進(jìn)行投票,判斷該位置是否存在目標(biāo)。下圖是R–FCN{\rm R–FCN}RFCN整體結(jié)構(gòu):

圖6:R-FCN

R–FCN{\rm R–FCN}RFCN是基于Faster–RCNN{\rm Faster–RCNN}FasterRCNN得到的,上面分支使用RPN{\rm RPN}RPN模塊產(chǎn)生感興趣區(qū)域,然后通過論文提出的位置敏感得分圖,結(jié)合FCN{\rm FCN}FCN完成目標(biāo)檢測。而D–RFCN{\rm D–RFCN}DRFCN就是將可變形卷積模塊集成到R–FCN{\rm R–FCN}RFCN中,可變形卷積的知識(shí)可以參考這里。


5. Data Variation or Correct Scale?

首先來看一組實(shí)驗(yàn)結(jié)果:

圖7:實(shí)驗(yàn)結(jié)果對(duì)比

首先上述實(shí)驗(yàn)結(jié)果是在使用1400×2000{\rm 1400×2000}1400×2000大小的圖像訓(xùn)練的模型,800all800_{all}800all?表示測試集的大小為800×1400{\rm 800×1400}800×1400、1400all1400_{all}1400all?表示測試集的大小為1400×2000{\rm 1400×2000}1400×2000,有圖可知后者的效果要好于前者,這與前面分類模型實(shí)驗(yàn)結(jié)果的對(duì)比一致。但同時(shí)也觀察到,這里的提升非常小,作者猜測是由于對(duì)于原數(shù)據(jù)的分辨率進(jìn)行放大(原為480×640{\rm 480×640}480×640)后,圖像本來較大的目標(biāo)變得更大而使得模型難以訓(xùn)練。對(duì)應(yīng)于圖888中的(1)(1)(1)
777中的1400<80px1400_{<80px}140080px?表示模型使用1400×2000{\rm 1400×2000}1400×2000大小的圖像訓(xùn)練,同時(shí)忽略圖中的大目標(biāo)(大于808080像素)。但由圖可知,其得到的結(jié)果不如前者。作者猜測是由于圖像中的大目標(biāo)約占總目標(biāo)數(shù)的3/103/103/10左右,大量數(shù)據(jù)的損失帶來了模型性能的下降。對(duì)應(yīng)于圖888中的(2)(2)(2)。
MST{\rm MST}MST表示傳統(tǒng)意義上常用的多尺度訓(xùn)練,即在訓(xùn)練過程中隨機(jī)采樣輸入圖像的尺寸。但由圖可知,該項(xiàng)的實(shí)驗(yàn)結(jié)果僅與800all800_{all}800all?相當(dāng)。這與論文一直貫徹的數(shù)據(jù)集中目標(biāo)尺度分布較大是影響目標(biāo)檢測方法性能的主要因素的觀點(diǎn)一致。對(duì)應(yīng)于圖888中的(3)(3)(3)。圖中最后一項(xiàng)實(shí)驗(yàn)是使用本文方法SNIP{\rm SNIP}SNIP所得到的結(jié)果,提升較為明顯。對(duì)應(yīng)于圖888中的(4)(4)(4)。

圖8:實(shí)驗(yàn)設(shè)計(jì)


6. Object Detection on Image Pyramid

千呼萬喚始出來,經(jīng)過前面大量對(duì)比實(shí)驗(yàn)作者驗(yàn)證了(1)(1)(1)訓(xùn)練數(shù)據(jù)集使用的尺寸與測試數(shù)據(jù)集使用尺寸不一致時(shí)會(huì)影響模型的性能;(2)(2)(2)較大的訓(xùn)練圖像的分辨率的確能夠提高模型的性能;(3)(3)(3)過大的輸入圖像分辨率中大目標(biāo)會(huì)使得模型難以訓(xùn)練,可能不會(huì)帶來想象中的提升;(4)(4)(4)傳統(tǒng)使用的多尺度訓(xùn)練方法取得的效果可以單純通過增大輸入訓(xùn)練圖像分辨率而達(dá)到等。然后給出SNIP{\rm SNIP}SNIP的細(xì)節(jié)信息:
SNIP{\rm SNIP}SNIP是對(duì)MST{\rm MST}MST的改進(jìn),在訓(xùn)練過程中,僅使用與預(yù)訓(xùn)練模型采用的數(shù)據(jù)的分辨率接近的樣本參與訓(xùn)練。具體地,為了消除極端大或小的樣本帶來的影響,在SNIP{\rm SNIP}SNIP中,只對(duì)尺寸在特定范圍內(nèi)的目標(biāo)反向傳播訓(xùn)練。

圖9:SNIP

上圖描述了SNIP{\rm SNIP}SNIP的詳細(xì)過程。由輸入圖像得到圖像金字塔,對(duì)于圖像金字塔的每一層通過RPN{\rm RPN}RPN產(chǎn)生候選區(qū)域。在此過程中,以圖像金字塔中分辨率最大的圖像為例,只選擇位于該層所規(guī)定的范圍內(nèi)的標(biāo)注框作為有效樣本。如圖中左側(cè)的紫色虛線的標(biāo)注框被視為無效,同時(shí)將與其交并比大于0.30.30.3的先驗(yàn)框視為無效,小于0.30.30.3的視為有效樣本(即使用無效的標(biāo)注框來篩選出無效的先驗(yàn)框)。在論文中,RCN{\rm RCN}RCN是一個(gè)分類網(wǎng)絡(luò),用于篩選出不符合規(guī)定范圍的先驗(yàn)框(圖中最右部分的紫色邊界看)。這樣,圖像金字塔的每一層都有相應(yīng)的有效標(biāo)注框及有效先驗(yàn)框,規(guī)避了使用該層處理過大或過小的目標(biāo)的問題。(這一段可以參考原文,具體實(shí)現(xiàn)細(xì)節(jié)可能要閱讀源碼了,有不適當(dāng)?shù)牡胤綒g迎指正)


7. Experiments

圖10:實(shí)驗(yàn)結(jié)果對(duì)比


8. Conclusion

作者從ImageNet{\rm ImageNet}ImageNetCOCO{\rm COCO}COCO數(shù)據(jù)集入手分析了數(shù)據(jù)集中目標(biāo)分布的不平衡,指出目標(biāo)檢測性能受目標(biāo)尺寸分布大的影響。同時(shí)采用一系列實(shí)驗(yàn)證明了訓(xùn)練模型數(shù)據(jù)集的分辨率同測試集的分辨率差異越大,檢測的結(jié)果越差。根據(jù)前面實(shí)驗(yàn)的鋪墊,作者提出了SNIP{\rm SNIP}SNIP,基于圖像金字塔實(shí)現(xiàn)多尺度訓(xùn)練。同時(shí),在金字塔的每層限制了在該層處理的標(biāo)注框和先驗(yàn)框的尺寸。

由于沒有閱讀源碼,本文只總結(jié)了SNIP{\rm SNIP}SNIP的大體結(jié)構(gòu)和信息,詳細(xì)內(nèi)容請(qǐng)閱讀論文原文。


參考

  • Singh B, Davis L S. An analysis of scale invariance in object detection snip[C]// Proceedings of the IEEE conference on computer vision and pattern recognition. 2018: 3578-3587.
  • Dai J, Li Y, He K, et al. R-fcn: Object detection via region-based fully convolutional networks[C]//Advances in neural information processing systems. 2016: 379-387.
  • https://blog.csdn.net/u014380165/article/details/80793334.


  • 總結(jié)

    以上是生活随笔為你收集整理的(十九)论文阅读 | 目标检测之SNIP的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。