日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 >

【目标检测】RCNN算法详解

發(fā)布時間:2025/3/21 204 豆豆
生活随笔 收集整理的這篇文章主要介紹了 【目标检测】RCNN算法详解 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.
轉(zhuǎn)載自:http://blog.csdn.net/shenxiaolu1984/article/details/51066975

Region CNN(RCNN)可以說是利用深度學(xué)習(xí)進行目標(biāo)檢測的開山之作。作者Ross Girshick多次在PASCAL VOC的目標(biāo)檢測競賽中折桂,2010年更帶領(lǐng)團隊獲得終身成就獎,如今供職于Facebook旗下的FAIR。
這篇文章思路簡潔,在DPM方法多年平臺期后,效果提高顯著。包括本文在內(nèi)的一系列目標(biāo)檢測算法:RCNN,Fast RCNN, Faster RCNN代表當(dāng)下目標(biāo)檢測的前沿水平,在github都給出了基于Caffe的源碼

思想

本文解決了目標(biāo)檢測中的兩個關(guān)鍵問題。

問題一:速度

經(jīng)典的目標(biāo)檢測算法使用滑動窗法依次判斷所有可能的區(qū)域。本文則預(yù)先提取一系列較可能是物體的候選區(qū)域,之后僅在這些候選區(qū)域上提取特征,進行判斷。

問題二:訓(xùn)練集

經(jīng)典的目標(biāo)檢測算法在區(qū)域中提取人工設(shè)定的特征(Haar,HOG)。本文則需要訓(xùn)練深度網(wǎng)絡(luò)進行特征提取。可供使用的有兩個數(shù)據(jù)庫:
一個較大的識別庫(ImageNet ILSVC 2012):標(biāo)定每張圖片中物體的類別。一千萬圖像,1000類。
一個較小的檢測庫(PASCAL VOC 2007):標(biāo)定每張圖片中,物體的類別和位置。一萬圖像,20類。
本文使用識別庫進行預(yù)訓(xùn)練,而后用檢測庫調(diào)優(yōu)參數(shù)。最后在檢測庫上評測。

流程

RCNN算法分為4個步驟
- 一張圖像生成1K~2K個候選區(qū)域
- 對每個候選區(qū)域,使用深度網(wǎng)絡(luò)提取特征
- 特征送入每一類的SVM 分類器,判別是否屬于該類
- 使用回歸器精細修正候選框位置

候選區(qū)域生成

使用了Selective Search1方法從一張圖像生成約2000-3000個候選區(qū)域。基本思路如下:
- 使用一種過分割手段,將圖像分割成小區(qū)域
- 查看現(xiàn)有小區(qū)域,合并可能性最高的兩個區(qū)域。重復(fù)直到整張圖像合并成一個區(qū)域位置
- 輸出所有曾經(jīng)存在過的區(qū)域,所謂候選區(qū)域

候選區(qū)域生成和后續(xù)步驟相對獨立,實際可以使用任意算法進行。

合并規(guī)則

優(yōu)先合并以下四種區(qū)域:
- 顏色(顏色直方圖)相近的
- 紋理(梯度直方圖)相近的
- 合并后總面積小的
- 合并后,總面積在其BBOX中所占比例大的

第三條,保證合并操作的尺度較為均勻,避免一個大區(qū)域陸續(xù)“吃掉”其他小區(qū)域。

例:設(shè)有區(qū)域a-b-c-d-e-f-g-h。較好的合并方式是:ab-cd-ef-gh -> abcd-efgh -> abcdefgh。
不好的合并方法是:ab-c-d-e-f-g-h ->abcd-e-f-g-h ->abcdef-gh -> abcdefgh。

第四條,保證合并后形狀規(guī)則。

例:左圖適于合并,右圖不適于合并。

上述四條規(guī)則只涉及區(qū)域的顏色直方圖、紋理直方圖、面積和位置。合并后的區(qū)域特征可以直接由子區(qū)域特征計算而來,速度較快。

多樣化與后處理

為盡可能不遺漏候選區(qū)域,上述操作在多個顏色空間中同時進行(RGB,HSV,Lab等)。在一個顏色空間中,使用上述四條規(guī)則的不同組合進行合并。所有顏色空間與所有規(guī)則的全部結(jié)果,在去除重復(fù)后,都作為候選區(qū)域輸出。

作者提供了Selective Search的源碼,內(nèi)含較多.p文件和.mex文件,難以細查具體實現(xiàn)。

特征提取

預(yù)處理

使用深度網(wǎng)絡(luò)提取特征之前,首先把候選區(qū)域歸一化成同一尺寸227×227。
此處有一些細節(jié)可做變化:外擴的尺寸大小,形變時是否保持原比例,對框外區(qū)域直接截取還是補灰。會輕微影響性能。

預(yù)訓(xùn)練

網(wǎng)絡(luò)結(jié)構(gòu)
基本借鑒Hinton 2012年在Image Net上的分類網(wǎng)絡(luò)2,略作簡化3。

此網(wǎng)絡(luò)提取的特征為4096維,之后送入一個4096->1000的全連接(fc)層進行分類。
學(xué)習(xí)率0.01。

訓(xùn)練數(shù)據(jù)
使用ILVCR 2012的全部數(shù)據(jù)進行訓(xùn)練,輸入一張圖片,輸出1000維的類別標(biāo)號。

調(diào)優(yōu)訓(xùn)練

網(wǎng)絡(luò)結(jié)構(gòu)
同樣使用上述網(wǎng)絡(luò),最后一層換成4096->21的全連接網(wǎng)絡(luò)。
學(xué)習(xí)率0.001,每一個batch包含32個正樣本(屬于20類)和96個背景。

訓(xùn)練數(shù)據(jù)
使用PASCAL VOC 2007的訓(xùn)練集,輸入一張圖片,輸出21維的類別標(biāo)號,表示20類+背景。
考察一個候選框和當(dāng)前圖像上所有標(biāo)定框重疊面積最大的一個。如果重疊比例大于0.5,則認(rèn)為此候選框為此標(biāo)定的類別;否則認(rèn)為此候選框為背景。

類別判斷

分類器
對每一類目標(biāo),使用一個線性SVM二類分類器進行判別。輸入為深度網(wǎng)絡(luò)輸出的4096維特征,輸出是否屬于此類。
由于負(fù)樣本很多,使用hard negative mining方法。
正樣本
本類的真值標(biāo)定框。
負(fù)樣本
考察每一個候選框,如果和本類所有標(biāo)定框的重疊都小于0.3,認(rèn)定其為負(fù)樣本

位置精修

目標(biāo)檢測問題的衡量標(biāo)準(zhǔn)是重疊面積:許多看似準(zhǔn)確的檢測結(jié)果,往往因為候選框不夠準(zhǔn)確,重疊面積很小。故需要一個位置精修步驟。
回歸器
對每一類目標(biāo),使用一個線性脊回歸器進行精修。正則項λ=10000?
輸入為深度網(wǎng)絡(luò)pool5層的4096維特征,輸出為xy方向的縮放和平移。
訓(xùn)練樣本
判定為本類的候選框中,和真值重疊面積大于0.6的候選框。

結(jié)果

論文發(fā)表的2014年,DPM已經(jīng)進入瓶頸期,即使使用復(fù)雜的特征和結(jié)構(gòu)得到的提升也十分有限。本文將深度學(xué)習(xí)引入檢測領(lǐng)域,一舉將PASCAL VOC上的檢測率從35.1%提升到53.7%
本文的前兩個步驟(候選區(qū)域提取+特征提取)與待檢測類別無關(guān),可以在不同類之間共用。這兩步在GPU上約需13秒。
同時檢測多類時,需要倍增的只有后兩步驟(判別+精修),都是簡單的線性運算,速度很快。這兩步對于100K類別只需10秒。

以本論文為基礎(chǔ),后續(xù)的fast RCNN4(參看這篇博客)和faster RCNN5(參看這篇博客)在速度上有突飛猛進的發(fā)展,基本解決了PASCAL VOC上的目標(biāo)檢測問題。


  • J. Uijlings, K. van de Sande, T. Gevers, and A. Smeulders. Selective search for object recognition. IJCV, 2013.?
  • A. Krizhevsky, I. Sutskever, and G. Hinton. ImageNet classification with deep convolutional neural networks. In NIPS, 2012?
  • 所有層都是串行的。relu層為in-place操作,偏左繪制。 ?
  • Girshick, Ross. “Fast r-cnn.” Proceedings of the IEEE International Conference on Computer Vision. 2015.?
  • Ren, Shaoqing, et al. “Faster R-CNN: Towards real-time object detection with region proposal networks.” Advances in Neural Information Processing Systems. 2015.?

  • 總結(jié)

    以上是生活随笔為你收集整理的【目标检测】RCNN算法详解的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。