日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

SNIP论文学习

發(fā)布時間:2023/12/18 编程问答 37 豆豆
生活随笔 收集整理的這篇文章主要介紹了 SNIP论文学习 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

論文:An Analysis of Scale Invariance in Object Detection – SNIP
論文鏈接:https://arxiv.org/abs/1711.08189
代碼鏈接:http://bit.ly/2yXVg4c

?? 論文分析COCO數(shù)據(jù)集,認(rèn)為目前目標(biāo)檢測算法的難點在于數(shù)據(jù)集中object的尺寸分布較大,尤其對于小目標(biāo)的檢測效果也有待提高,因此提出Scale Normalization for Image Pyramids (SNIP)算法。

SNIP是CVPR2018 oral,并獲得了COCO2017 challenge的Best Student Entry。

small object占總的object比例太小,遠(yuǎn)不如ImageNet的數(shù)據(jù)分布來得合理。COCO數(shù)據(jù)集中,大部分的object面積只有圖像面積的1%以下,這說明在COCO數(shù)據(jù)集中小目標(biāo)占比要比ImageNet數(shù)據(jù)集大。另外,從Figure1中的COCO曲線可以看出,第90%的倍數(shù)(0.472)差不多是第10%的倍數(shù)(0.106)的20倍!這說明在COCO數(shù)據(jù)集中的object尺寸變化范圍非常大。

ImageNet預(yù)訓(xùn)練的模型在遷移到樣本大小差異較大的COCO中時很可能產(chǎn)生一定的domain-shift偏差。因此作者產(chǎn)生這樣的motivation:

??? 1.現(xiàn)在檢測網(wǎng)絡(luò)為了提高對小目標(biāo)的效果,都采用upsample的方法,這個真的是必要的嗎?我能不能直接用低分辨率的圖像不做upsample來訓(xùn)練網(wǎng)絡(luò)(需要調(diào)小strides)?
??? 2.能不能通過挑選樣本的方式來增加網(wǎng)絡(luò)效果的,比如我upsample調(diào)整了大小以后,只用64x64~256x256的ground truth來訓(xùn)練?用所有的gt來訓(xùn)練真的更好嗎?

?現(xiàn)在有很多針對小目標(biāo)的措施和改良:

?? 1.? 使用dilated/strous或者deformable這類特殊的卷積來提高檢測器對分辨率的敏感度
?? 2. 最常用的,upsample來rezie網(wǎng)絡(luò)輸入圖像的大小
?? 3. 使用FPN這種把淺層特征和深層特征融合的,或者最后在預(yù)測的時候,使用淺層特征和深層特征一起預(yù)測;也有比較直接地在淺層和深層的feature map上直接各自獨立做預(yù)測的;這個也就是我們常說的尺度問題(scales)


作者通過一系列的探究性實驗證明了upsample對小目標(biāo)物體的檢測是有一定效果的。

三種網(wǎng)絡(luò):

  • CNN-B使用高分辨率圖像訓(xùn)練,分類經(jīng)過降采樣和upsample的圖片
  • CNN-S使用低分辨率圖像訓(xùn)練,分類經(jīng)過降采樣的圖片
  • CNN-B-FT使用高分辨率圖像訓(xùn)練,然后在低分辨率圖像上fine-tune,分類經(jīng)過降采樣和upsample的圖片?

?CNN網(wǎng)絡(luò)沒有尺度不變形,沒有把scale這個隱藏變量學(xué)習(xí)到的機制,只能通過大量參數(shù)來強行記憶不同scale的物體。而下面部分談到的方法也很可能只是治標(biāo)不治本,關(guān)鍵還是怎么把scale這個隱藏變量抽離出來,甚至可以直接學(xué)習(xí);或者直接賦予網(wǎng)絡(luò)學(xué)習(xí)scale的能力。

?

1.每個pipe-line的RPN只負(fù)責(zé)一個scale range的proposal生成。

2.對于大size的feature map,對應(yīng)的RPN只負(fù)責(zé)預(yù)測被放大的小物體;對于小size的feature map,對應(yīng)的RPN只負(fù)責(zé)預(yù)測被縮小的大物體;這樣的設(shè)計保證了每個CNN分支在判別proposal是否為前景時,只需針對最易分類的中等range的proposal進(jìn)行訓(xùn)練

劃分了三個尺度,對應(yīng)三種不同分辨率的圖像。每個分辨率i下的RoI都有其指定范圍,如果gt的box大小在這個范圍內(nèi),就被標(biāo)記做valid,否則就被標(biāo)記為invalid。

experiment:

1. 作者使用的是Deformable RFCN detector而不是常見的一般卷積,當(dāng)然受制于實驗自身,需要作出一定的改變
2. 作者使用的網(wǎng)絡(luò)結(jié)構(gòu)是Dual path networks(DPN)和ResNet-101,由于需要內(nèi)存很大,為了適應(yīng)GPU內(nèi)存,作者對圖像進(jìn)行了采樣,具體方法是選取一個1000x1000的包含最多目標(biāo)的區(qū)域作為子圖像,然后重復(fù)該步驟直到所有目標(biāo)都被選取
3. 作者為了提升RPN的效果,嘗試了使用7個尺度,連接conv4和conv5的輸出

結(jié)果:

思考:

SNIP相當(dāng)于開了三個pipe-line,其中包括了三個并行的feature extraction,速度簡直不要太慢,顯存占用簡直不要太大,一般的顯卡根本帶不動。

accuracy很高,但speed太慢,model太大,沒有實用性。

SNIP在沒有改進(jìn)之前,是一個華麗而不實用的算法。所幸SNIPER對其進(jìn)行了改進(jìn)

參考blog:

https://blog.csdn.net/u014380165/article/details/80793334

https://blog.csdn.net/qq_21949357/article/details/80031891

https://blog.csdn.net/jningwei/article/details/80332984

總結(jié)

以上是生活随笔為你收集整理的SNIP论文学习的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。