當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

R-CNN详解

發(fā)布時(shí)間：2025/3/17 编程问答 37 豆豆

生活随笔收集整理的這篇文章主要介紹了 R-CNN详解小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

paper鏈接：Rich feature hierarchies for accurate object detection and semantic segmentation

&創(chuàng)新點(diǎn)

采用CNN網(wǎng)絡(luò)提取圖像特征，從經(jīng)驗(yàn)驅(qū)動(dòng)的人造特征范式HOG、SIFT到數(shù)據(jù)驅(qū)動(dòng)的表示學(xué)習(xí)范式，提高特征對(duì)樣本的表示能力；

采用大樣本下有監(jiān)督預(yù)訓(xùn)練+小樣本微調(diào)的方式解決小樣本難以訓(xùn)練甚至過擬合等問題。

&問題是什么

近10年以來，以人工經(jīng)驗(yàn)特征為主導(dǎo)的物體檢測(cè)任務(wù)mAP【物體類別和位置的平均精度】提升緩慢；

隨著ReLu激勵(lì)函數(shù)、dropout正則化手段和大規(guī)模圖像樣本集ILSVRC的出現(xiàn)，在2012年ImageNet大規(guī)模視覺識(shí)別挑戰(zhàn)賽中，Hinton及他的學(xué)生采用CNN特征獲得了最高的圖像識(shí)別精確度；

上述比賽后，引發(fā)了一股“是否可以采用CNN特征來提高當(dāng)前一直停滯不前的物體檢測(cè)準(zhǔn)確率“的熱潮。

【寫給小白：一圖理解圖像分類，圖像定位，目標(biāo)檢測(cè)和實(shí)例分割】?

&如何解決問題

。測(cè)試過程

輸入一張多目標(biāo)圖像，采用selective search算法提取約2000個(gè)建議框；

先在每個(gè)建議框周圍加上16個(gè)像素值為建議框像素平均值的邊框，再直接變形為227×227的大小；

先將所有建議框像素減去該建議框像素平均值后【預(yù)處理操作】，再依次將每個(gè)227×227的建議框輸入AlexNet CNN網(wǎng)絡(luò)獲取4096維的特征【比以前的人工經(jīng)驗(yàn)特征低兩個(gè)數(shù)量級(jí)】，2000個(gè)建議框的CNN特征組合成2000×4096維矩陣；

將2000×4096維特征與20個(gè)SVM組成的權(quán)值矩陣4096×20相乘【20種分類，SVM是二分類器，則有20個(gè)SVM】，獲得2000×20維矩陣表示每個(gè)建議框是某個(gè)物體類別的得分；

分別對(duì)上述2000×20維矩陣中每一列即每一類進(jìn)行非極大值抑制剔除重疊建議框，得到該列即該類中得分最高的一些建議框；

分別用20個(gè)回歸器對(duì)上述20個(gè)類別中剩余的建議框進(jìn)行回歸操作，最終得到每個(gè)類別的修正后的得分最高的bounding box。

。解釋分析

selective search?
采取過分割手段，將圖像分割成小區(qū)域，再通過顏色直方圖，梯度直方圖相近等規(guī)則進(jìn)行合并，最后生成約2000個(gè)建議框的操作，具體見博客。

為什么要將建議框變形為227×227？怎么做？?
本文采用AlexNet CNN網(wǎng)絡(luò)進(jìn)行CNN特征提取，為了適應(yīng)AlexNet網(wǎng)絡(luò)的輸入圖像大小：227×227，故將所有建議框變形為227×227。?
那么問題來了，如何進(jìn)行變形操作呢？作者在補(bǔ)充材料中給出了四種變形方式：

① 考慮context【圖像中context指RoI周邊像素】的各向同性變形，建議框像周圍像素?cái)U(kuò)充到227×227，若遇到圖像邊界則用建議框像素均值填充，下圖第二列；?
② 不考慮context的各向同性變形，直接用建議框像素均值填充至227×227，下圖第三列；?
③ 各向異性變形，簡(jiǎn)單粗暴對(duì)圖像就行縮放至227×227，下圖第四列；?
④ 變形前先進(jìn)行邊界像素填充【padding】處理，即向外擴(kuò)展建議框邊界，以上三種方法中分別采用padding=0下圖第一行，padding=16下圖第二行進(jìn)行處理；

經(jīng)過作者一系列實(shí)驗(yàn)表明采用padding=16的各向異性變形即下圖第二行第三列效果最好，能使mAP提升3-5%。?

?

CNN特征如何可視化？?
文中采用了巧妙的方式將AlexNet CNN網(wǎng)絡(luò)中Pool5層特征進(jìn)行了可視化。該層的size是6×6×256，即有256種表示不同的特征，這相當(dāng)于原始227×227圖片中有256種195×195的感受視野【相當(dāng)于對(duì)227×227的輸入圖像，卷積核大小為195×195，padding=4，step=8，輸出大小(227-195+2×4)/8+1=6×6】；
文中將這些特征視為”物體檢測(cè)器”，輸入10million的Region Proposal集合，計(jì)算每種6×6特征即“物體檢測(cè)器”的激活量，之后進(jìn)行非極大值抑制【下面解釋】，最后展示出每種6×6特征即“物體檢測(cè)器”前幾個(gè)得分最高的Region Proposal，從而給出了這種6×6的特征圖表示了什么紋理、結(jié)構(gòu)，很有意思。

為什么要進(jìn)行非極大值抑制？非極大值抑制又如何操作？?
先解釋什么叫IoU。如下圖所示IoU即表示(A∩B)/(A∪B)?

?

在測(cè)試過程完成到第4步之后，獲得2000×20維矩陣表示每個(gè)建議框是某個(gè)物體類別的得分情況，此時(shí)會(huì)遇到下圖所示情況，同一個(gè)車輛目標(biāo)會(huì)被多個(gè)建議框包圍，這時(shí)需要非極大值抑制操作去除得分較低的候選框以減少重疊框。?

?

具體怎么做呢？?
① 對(duì)2000×20維矩陣中每列按從大到小進(jìn)行排序；?
② 從每列最大的得分建議框開始，分別與該列后面的得分建議框進(jìn)行IoU計(jì)算，若IoU>閾值，則剔除得分較小的建議框，否則認(rèn)為圖像中存在多個(gè)同一類物體；?
③ 從每列次大的得分建議框開始，重復(fù)步驟②；?
④ 重復(fù)步驟③直到遍歷完該列所有建議框；?
⑤ 遍歷完2000×20維矩陣所有列，即所有物體種類都做一遍非極大值抑制；?
⑥ 最后剔除各個(gè)類別中剩余建議框得分少于該類別閾值的建議框?！?span style="color:rgb(0,187,255);">文中沒有講，博主覺得有必要做】

為什么要采用回歸器？回歸器是什么有什么用？如何進(jìn)行操作？?
首先要明確目標(biāo)檢測(cè)不僅是要對(duì)目標(biāo)進(jìn)行識(shí)別，還要完成定位任務(wù)，所以最終獲得的bounding-box也決定了目標(biāo)檢測(cè)的精度。?
這里先解釋一下什么叫定位精度：定位精度可以用算法得出的物體檢測(cè)框與實(shí)際標(biāo)注的物體邊界框的IoU值來近似表示。

如下圖所示，綠色框?yàn)閷?shí)際標(biāo)準(zhǔn)的卡宴車輛框，即Ground Truth；黃色框?yàn)閟elective search算法得出的建議框，即Region Proposal。即使黃色框中物體被分類器識(shí)別為卡宴車輛，但是由于綠色框和黃色框IoU值并不大，所以最后的目標(biāo)檢測(cè)精度并不高。采用回歸器是為了對(duì)建議框進(jìn)行校正，使得校正后的Region Proposal與selective search更接近，以提高最終的檢測(cè)精度。論文中采用bounding-box回歸使mAP提高了3~4%。?

?

那么問題來了，回歸器如何設(shè)計(jì)呢？?

?

如上圖，黃色框口P表示建議框Region Proposal，綠色窗口G表示實(shí)際框Ground Truth，紅色窗口表示Region Proposal進(jìn)行回歸后的預(yù)測(cè)窗口，現(xiàn)在的目標(biāo)是找到P到的線性變換【當(dāng)Region Proposal與Ground Truth的IoU>0.6時(shí)可以認(rèn)為是線性變換】，使得與G越相近，這就相當(dāng)于一個(gè)簡(jiǎn)單的可以用最小二乘法解決的線性回歸問題，具體往下看。?
讓我們先來定義P窗口的數(shù)學(xué)表達(dá)式：，其中表示第一個(gè)i窗口的中心點(diǎn)坐標(biāo)，，分別為第i個(gè)窗口的寬和高；G窗口的數(shù)學(xué)表達(dá)式為：；窗口的數(shù)學(xué)表達(dá)式為：。以下省去i上標(biāo)。?
這里定義了四種變換函數(shù)，，，，。和通過平移對(duì)x和y進(jìn)行變化，和通過縮放對(duì)w和h進(jìn)行變化，即下面四個(gè)式子所示：?

每一個(gè)【*表示x，y，w，h】都是一個(gè)AlexNet CNN網(wǎng)絡(luò)Pool5層特征的線性函數(shù)，即?，這里就是所需要學(xué)習(xí)的回歸參數(shù)。損失函數(shù)即為：

損失函數(shù)中加入正則項(xiàng)是為了避免歸回參數(shù)過大。其中，回歸目標(biāo)由訓(xùn)練輸入對(duì)按下式計(jì)算得來：

①構(gòu)造樣本對(duì)。為了提高每類樣本框回歸的有效性，對(duì)每類樣本都僅僅采集與Ground Truth相交IoU最大的Region Proposal，并且IoU>0.6的Region Proposal作為樣本對(duì)，一共產(chǎn)生20對(duì)樣本對(duì)【20個(gè)類別】；?
②每種類型的回歸器單獨(dú)訓(xùn)練，輸入該類型樣本對(duì)N個(gè)：以及所對(duì)應(yīng)的AlexNet CNN網(wǎng)絡(luò)Pool5層特征；?
③利用(6)-(9)式和輸入樣本對(duì)計(jì)算；?
④利用和，根據(jù)損失函數(shù)(5)進(jìn)行回歸，得到使損失函數(shù)最小的參數(shù)。

。訓(xùn)練過程

有監(jiān)督預(yù)訓(xùn)練

樣本來源

正樣本	ILSVRC2012
負(fù)樣本	ILSVRC2012

ILSVRC樣本集上僅有圖像類別標(biāo)簽，沒有圖像物體位置標(biāo)注；?
采用AlexNet CNN網(wǎng)絡(luò)進(jìn)行有監(jiān)督預(yù)訓(xùn)練，學(xué)習(xí)率=0.01；?
該網(wǎng)絡(luò)輸入為227×227的ILSVRC訓(xùn)練集圖像，輸出最后一層為4096維特征->1000類的映射，訓(xùn)練的是網(wǎng)絡(luò)參數(shù)。

特定樣本下的微調(diào)

樣本來源

正樣本	Ground Truth+與Ground Truth相交IoU>0.5的建議框【由于Ground Truth太少了】
負(fù)樣本	與Ground Truth相交IoU≤0.5的建議框

PASCAL VOC 2007樣本集上既有圖像中物體類別標(biāo)簽，也有圖像中物體位置標(biāo)簽；?
采用訓(xùn)練好的AlexNet CNN網(wǎng)絡(luò)進(jìn)行PASCAL VOC 2007樣本集下的微調(diào)，學(xué)習(xí)率=0.001【0.01/10為了在學(xué)習(xí)新東西時(shí)不至于忘記之前的記憶】；?
mini-batch為32個(gè)正樣本和96個(gè)負(fù)樣本【由于正樣本太少】；?
該網(wǎng)絡(luò)輸入為建議框【由selective search而來】變形后的227×227的圖像，修改了原來的1000為類別輸出，改為21維【20類+背景】輸出，訓(xùn)練的是網(wǎng)絡(luò)參數(shù)。

SVM訓(xùn)練

樣本來源

正樣本	Ground Truth
負(fù)樣本	與Ground Truth相交IoU＜0.3的建議框

由于SVM是二分類器，需要為每個(gè)類別訓(xùn)練單獨(dú)的SVM；?
SVM訓(xùn)練時(shí)輸入正負(fù)樣本在AlexNet CNN網(wǎng)絡(luò)計(jì)算下的4096維特征，輸出為該類的得分，訓(xùn)練的是SVM權(quán)重向量；?
由于負(fù)樣本太多，采用hard negative mining的方法在負(fù)樣本中選取有代表性的負(fù)樣本，該方法具體見。

Bounding-box regression訓(xùn)練

樣本來源

正樣本	與Ground Truth相交IoU最大的Region Proposal，并且IoU>0.6的Region Proposal

輸入數(shù)據(jù)為某類型樣本對(duì)N個(gè)：以及所對(duì)應(yīng)的AlexNet CNN網(wǎng)絡(luò)Pool5層特征，輸出回歸后的建議框Bounding-box，訓(xùn)練的是，，，四種變換操作的權(quán)重向量。具體見前面分析。

。解釋分析

什么叫有監(jiān)督預(yù)訓(xùn)練？為什么要進(jìn)行有監(jiān)督預(yù)訓(xùn)練？

有監(jiān)督預(yù)訓(xùn)練也稱之為遷移學(xué)習(xí)，舉例說明：若有大量標(biāo)注信息的人臉年齡分類的正負(fù)樣本圖片，利用樣本訓(xùn)練了CNN網(wǎng)絡(luò)用于人臉年齡識(shí)別；現(xiàn)在要通過人臉進(jìn)行性別識(shí)別，那么就可以去掉已經(jīng)訓(xùn)練好的人臉年齡識(shí)別網(wǎng)絡(luò)CNN的最后一層或幾層，換成所需要的分類層，前面層的網(wǎng)絡(luò)參數(shù)直接使用為初始化參數(shù)，修改層的網(wǎng)絡(luò)參數(shù)隨機(jī)初始化，再利用人臉性別分類的正負(fù)樣本圖片進(jìn)行訓(xùn)練，得到人臉性別識(shí)別網(wǎng)絡(luò)，這種方法就叫做有監(jiān)督預(yù)訓(xùn)練。這種方式可以很好地解決小樣本數(shù)據(jù)無法訓(xùn)練深層CNN網(wǎng)絡(luò)的問題，我們都知道小樣本數(shù)據(jù)訓(xùn)練很容易造成網(wǎng)絡(luò)過擬合，但是在大樣本訓(xùn)練后利用其參數(shù)初始化網(wǎng)絡(luò)可以很好地訓(xùn)練小樣本，這解決了小樣本訓(xùn)練的難題。?
這篇文章最大的亮點(diǎn)就是采用了這種思想，ILSVRC樣本集上用于圖片分類的含標(biāo)注類別的訓(xùn)練集有1millon之多，總共含有1000類；而PASCAL VOC 2007樣本集上用于物體檢測(cè)的含標(biāo)注類別和位置信息的訓(xùn)練集只有10k，總共含有20類，直接用這部分?jǐn)?shù)據(jù)訓(xùn)練容易造成過擬合，因此文中利用ILSVRC2012的訓(xùn)練集先進(jìn)行有監(jiān)督預(yù)訓(xùn)練。

ILSVRC 2012與PASCAL VOC 2007數(shù)據(jù)集有冗余嗎？

即使圖像分類與目標(biāo)檢測(cè)任務(wù)本質(zhì)上是不同的，理論上應(yīng)該不會(huì)出現(xiàn)數(shù)據(jù)集冗余問題，但是作者還是通過兩種方式測(cè)試了PASCAL 2007測(cè)試集和ILSVRC 2012訓(xùn)練集、驗(yàn)證集的重合度：第一種方式是檢查網(wǎng)絡(luò)相冊(cè)IDs，4952個(gè)PASCAL 2007測(cè)試集一共出現(xiàn)了31張重復(fù)圖片，0.63%重復(fù)率；第二種方式是用GIST描述器匹配的方法，4952個(gè)PASCAL 2007測(cè)試集一共出現(xiàn)了38張重復(fù)圖片【包含前面31張圖片】，0.77%重復(fù)率，這說明PASCAL 2007測(cè)試集和ILSVRC 2012訓(xùn)練集、驗(yàn)證集基本上不重合，沒有數(shù)據(jù)冗余問題存在。

可以不進(jìn)行特定樣本下的微調(diào)嗎？可以直接采用AlexNet CNN網(wǎng)絡(luò)的特征進(jìn)行SVM訓(xùn)練嗎？

文中設(shè)計(jì)了沒有進(jìn)行微調(diào)的對(duì)比實(shí)驗(yàn)，分別就AlexNet CNN網(wǎng)絡(luò)的pool5、fc6、fc7層進(jìn)行特征提取，輸入SVM進(jìn)行訓(xùn)練，這相當(dāng)于把AlexNet CNN網(wǎng)絡(luò)當(dāng)做萬精油使用，類似HOG、SIFT等做特征提取一樣，不針對(duì)特征任務(wù)。實(shí)驗(yàn)結(jié)果發(fā)現(xiàn)f6層提取的特征比f7層的mAP還高，pool5層提取的特征與f6、f7層相比mAP差不多；?
在PASCAL VOC 2007數(shù)據(jù)集上采取了微調(diào)后fc6、fc7層特征較pool5層特征用于SVM訓(xùn)練提升mAP十分明顯；?
由此作者得出結(jié)論：不針對(duì)特定任務(wù)進(jìn)行微調(diào)，而將CNN當(dāng)成特征提取器，pool5層得到的特征是基礎(chǔ)特征，類似于HOG、SIFT，類似于只學(xué)習(xí)到了人臉共性特征；從fc6和fc7等全連接層中所學(xué)習(xí)到的特征是針對(duì)特征任務(wù)特定樣本的特征，類似于學(xué)習(xí)到了分類性別分類年齡的個(gè)性特征。

為什么微調(diào)時(shí)和訓(xùn)練SVM時(shí)所采用的正負(fù)樣本閾值【0.5和0.3】不一致？

微調(diào)階段是由于CNN對(duì)小樣本容易過擬合，需要大量訓(xùn)練數(shù)據(jù)，故對(duì)IoU限制寬松：Ground Truth+與Ground Truth相交IoU>0.5的建議框?yàn)檎龢颖?#xff0c;否則為負(fù)樣本；?
SVM這種機(jī)制是由于其適用于小樣本訓(xùn)練，故對(duì)樣本IoU限制嚴(yán)格：Ground Truth為正樣本，與Ground Truth相交IoU＜0.3的建議框?yàn)樨?fù)樣本。

為什么不直接采用微調(diào)后的AlexNet CNN網(wǎng)絡(luò)最后一層SoftMax進(jìn)行21分類【20類+背景】？

因?yàn)槲⒄{(diào)時(shí)和訓(xùn)練SVM時(shí)所采用的正負(fù)樣本閾值不同，微調(diào)階段正樣本定義并不強(qiáng)調(diào)精準(zhǔn)的位置，而SVM正樣本只有Ground Truth；并且微調(diào)階段的負(fù)樣本是隨機(jī)抽樣的，而SVM的負(fù)樣本是經(jīng)過hard negative mining方法篩選的；導(dǎo)致在采用SoftMax會(huì)使PSACAL VOC 2007測(cè)試集上mAP從54.2%降低到50.9%。

&結(jié)果怎么樣

PASCAL VOC 2010測(cè)試集上實(shí)現(xiàn)了53.7%的mAP；

PASCAL VOC 2012測(cè)試集上實(shí)現(xiàn)了53.3%的mAP；

計(jì)算Region Proposals和features平均所花時(shí)間：13s/image on a GPU；53s/image on a CPU。

&還存在什么問題

很明顯，最大的缺點(diǎn)是對(duì)一張圖片的處理速度慢，這是由于一張圖片中由selective search算法得出的約2k個(gè)建議框都需要經(jīng)過變形處理后由CNN前向網(wǎng)絡(luò)計(jì)算一次特征，這其中涵蓋了對(duì)一張圖片中多個(gè)重復(fù)區(qū)域的重復(fù)計(jì)算，很累贅；

知乎上有人說R-CNN網(wǎng)絡(luò)需要兩次CNN前向計(jì)算，第一次得到建議框特征給SVM分類識(shí)別，第二次對(duì)非極大值抑制后的建議框再次進(jìn)行CNN前向計(jì)算獲得Pool5特征，以便對(duì)建議框進(jìn)行回歸得到更精確的bounding-box，這里文中并沒有說是怎么做的，博主認(rèn)為也可能在計(jì)算2k個(gè)建議框的CNN特征時(shí)，在硬盤上保留了2k個(gè)建議框的Pool5特征，雖然這樣做只需要一次CNN前向網(wǎng)絡(luò)運(yùn)算，但是耗費(fèi)大量磁盤空間；

訓(xùn)練時(shí)間長(zhǎng)，雖然文中沒有明確指出具體訓(xùn)練時(shí)間，但由于采用RoI-centric sampling【從所有圖片的所有建議框中均勻取樣】進(jìn)行訓(xùn)練，那么每次都需要計(jì)算不同圖片中不同建議框CNN特征，無法共享同一張圖的CNN特征，訓(xùn)練速度很慢；

整個(gè)測(cè)試過程很復(fù)雜，要先提取建議框，之后提取每個(gè)建議框CNN特征，再用SVM分類，做非極大值抑制，最后做bounding-box回歸才能得到圖片中物體的種類以及位置信息；同樣訓(xùn)練過程也很復(fù)雜，ILSVRC 2012上預(yù)訓(xùn)練CNN，PASCAL VOC 2007上微調(diào)CNN，做20類SVM分類器的訓(xùn)練和20類bounding-box回歸器的訓(xùn)練；這些不連續(xù)過程必然涉及到特征存儲(chǔ)、浪費(fèi)磁盤空間等問題。

版權(quán)聲明：本文為博主原創(chuàng)文章，未經(jīng)博主允許不得轉(zhuǎn)載。

http://blog.csdn.net/u011534057/article/details/51218250
基于R-CNN的物體檢測(cè)

參考地址：http://blog.csdn.NET/hjimce/article/details/50187029

一、相關(guān)理論

? ?本篇博文主要講解2014年CVPR上的經(jīng)典paper：《Rich feature hierarchies?for?Accurate Object Detection and Segmentation》，這篇文章的算法思想又被稱之為：R-CNN（Regions with Convolutional Neural Network Features），是物體檢測(cè)領(lǐng)域曾經(jīng)獲得state-of-art精度的經(jīng)典文獻(xiàn)。

? ?這篇paper的思想，改變了物體檢測(cè)的總思路，現(xiàn)在好多文獻(xiàn)關(guān)于深度學(xué)習(xí)的物體檢測(cè)的算法，基本上都是繼承了這個(gè)思想，比如：《Spatial Pyramid Pooling in Deep Convolutional?Networks for Visual Recognition》，所以學(xué)習(xí)經(jīng)典算法，有助于我們以后搞物體檢測(cè)的其它paper。

? ? 之前剛開始接觸物體檢測(cè)算法的時(shí)候，老是分不清deep learning中，物體檢測(cè)和圖片分類算法上的區(qū)別，弄得我頭好暈，終于在這篇paper上，看到了解釋。物體檢測(cè)和圖片分類的區(qū)別：圖片分類不需要定位，而物體檢測(cè)需要定位出物體的位置，也就是相當(dāng)于把物體的bbox檢測(cè)出來，還有一點(diǎn)物體檢測(cè)是要把所有圖片中的物體都識(shí)別定位出來。

(筆記后感by ym：
個(gè)人理解testing整個(gè)流程即：先將region通過ss檢測(cè)出來(2k+)，然后根據(jù)cnn提取的region特征丟入svm進(jìn)行分類(compute score)，得到的就是一個(gè)region-bbox以及對(duì)應(yīng)的類別,再利用(IoU->nms)得到具體的框，目的防止泛濫，為了精確bbox，再根據(jù)pool5 feature做了個(gè)bbox regression來decrease location error，training的trick則為hnm＋finetuning)

------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------

Selective Search

因?yàn)檠芯縍CNN的需要，在這里看一下Selective Search的操作流程

原文鏈接：http://koen.me/research/pub/uijlings-ijcv2013-draft.pdf

選擇性搜索遵循如下的原則：

圖片中目標(biāo)的尺寸不一，邊緣清晰程度也不一樣，選擇性搜索應(yīng)該能夠?qū)⑺械那闆r都考慮進(jìn)去，如下圖，最好的辦法就是使用分層算法來實(shí)現(xiàn)

區(qū)域合并的算法應(yīng)該多元化。初始的小的圖像區(qū)域（Graph-Based Image Segmentation得到）可能是根據(jù)顏色、紋理、部分封閉等原因得到的，一個(gè)單一的策略很難能適應(yīng)所有的情況將小區(qū)域合并在一起，因此需要有一個(gè)多元化的策略集，能夠在不同場(chǎng)合都有效。

能夠快速計(jì)算。

------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------

二、基礎(chǔ)知識(shí)

1、有監(jiān)督預(yù)訓(xùn)練與無監(jiān)督預(yù)訓(xùn)練

(1)無監(jiān)督預(yù)訓(xùn)練(Unsupervised pre-training)

無監(jiān)督預(yù)訓(xùn)練這個(gè)名詞我們比較熟悉，棧式自編碼、DBM采用的都是采用無監(jiān)督預(yù)訓(xùn)練。因?yàn)轭A(yù)訓(xùn)練階段的樣本不需要人工標(biāo)注數(shù)據(jù)，所以就叫做無監(jiān)督預(yù)訓(xùn)練。

(2)有監(jiān)督預(yù)訓(xùn)練(Supervised pre-training)

所謂的有監(jiān)督預(yù)訓(xùn)練，我們也可以把它稱之為遷移學(xué)習(xí)。比如你已經(jīng)有一大堆標(biāo)注好的人臉年齡分類的圖片數(shù)據(jù)，訓(xùn)練了一個(gè)CNN，用于人臉的年齡識(shí)別。然后當(dāng)你遇到新的項(xiàng)目任務(wù)是：人臉性別識(shí)別，那么這個(gè)時(shí)候你可以利用已經(jīng)訓(xùn)練好的年齡識(shí)別CNN模型，去掉最后一層，然后其它的網(wǎng)絡(luò)層參數(shù)就直接復(fù)制過來，繼續(xù)進(jìn)行訓(xùn)練。這就是所謂的遷移學(xué)習(xí)，說的簡(jiǎn)單一點(diǎn)就是把一個(gè)任務(wù)訓(xùn)練好的參數(shù)，拿到另外一個(gè)任務(wù)，作為神經(jīng)網(wǎng)絡(luò)的初始參數(shù)值,這樣相比于你直接采用隨機(jī)初始化的方法，精度可以有很大的提高。

圖片分類標(biāo)注好的訓(xùn)練數(shù)據(jù)非常多，但是物體檢測(cè)的標(biāo)注數(shù)據(jù)卻很少，如何用少量的標(biāo)注數(shù)據(jù)，訓(xùn)練高質(zhì)量的模型，這就是文獻(xiàn)最大的特點(diǎn)，這篇paper采用了遷移學(xué)習(xí)的思想。文獻(xiàn)就先用了ILSVRC2012這個(gè)訓(xùn)練數(shù)據(jù)庫（這是一個(gè)圖片分類訓(xùn)練數(shù)據(jù)庫），先進(jìn)行網(wǎng)絡(luò)的圖片分類訓(xùn)練。這個(gè)數(shù)據(jù)庫有大量的標(biāo)注數(shù)據(jù)，共包含了1000種類別物體，因此預(yù)訓(xùn)練階段cnn模型的輸出是1000個(gè)神經(jīng)元，或者我們也直接可以采用Alexnet訓(xùn)練好的模型參數(shù)。

2、IOU的定義

因?yàn)闆]有搞過物體檢測(cè)不懂IOU這個(gè)概念，所以就簡(jiǎn)單介紹一下。物體檢測(cè)需要定位出物體的bounding box，就像下面的圖片一樣，我們不僅要定位出車輛的bounding box 我們還要識(shí)別出bounding box 里面的物體就是車輛。對(duì)于bounding box的定位精度，有一個(gè)很重要的概念，因?yàn)槲覀兯惴ú豢赡馨俜职俑斯?biāo)注的數(shù)據(jù)完全匹配，因此就存在一個(gè)定位精度評(píng)價(jià)公式：IOU。

IOU定義了兩個(gè)bounding box的重疊度，如下圖所示：

矩形框A、B的一個(gè)重合度IOU計(jì)算公式為：

IOU=(A∩B)/(A∪B)

就是矩形框A、B的重疊面積占A、B并集的面積比例:

IOU=SI/(SA+SB-SI)

3、非極大值抑制

因?yàn)橐粫?huì)兒講RCNN算法，會(huì)從一張圖片中找出n多個(gè)可能是物體的矩形框，然后為每個(gè)矩形框?yàn)樽鲱悇e分類概率：

就像上面的圖片一樣，定位一個(gè)車輛，最后算法就找出了一堆的方框，我們需要判別哪些矩形框是沒用的。非極大值抑制：先假設(shè)有6個(gè)矩形框，根據(jù)分類器類別分類概率做排序，從小到大分別屬于車輛的概率分別為A、B、C、D、E、F。

(1)從最大概率矩形框F開始，分別判斷A~E與F的重疊度IOU是否大于某個(gè)設(shè)定的閾值;

(2)假設(shè)B、D與F的重疊度超過閾值，那么就扔掉B、D；并標(biāo)記第一個(gè)矩形框F，是我們保留下來的。

(3)從剩下的矩形框A、C、E中，選擇概率最大的E，然后判斷E與A、C的重疊度，重疊度大于一定的閾值，那么就扔掉；并標(biāo)記E是我們保留下來的第二個(gè)矩形框。

就這樣一直重復(fù)，找到所有被保留下來的矩形框。

非極大值抑制（NMS）非極大值抑制顧名思義就是抑制不是極大值的元素，搜索局部的極大值。這個(gè)局部代表的是一個(gè)鄰域，鄰域有兩個(gè)參數(shù)可變，一是鄰域的維數(shù)，二是鄰域的大小。這里不討論通用的NMS算法，而是用于在目標(biāo)檢測(cè)中用于提取分?jǐn)?shù)最高的窗口的。例如在行人檢測(cè)中，滑動(dòng)窗口經(jīng)提取特征，經(jīng)分類器分類識(shí)別后，每個(gè)窗口都會(huì)得到一個(gè)分?jǐn)?shù)。但是滑動(dòng)窗口會(huì)導(dǎo)致很多窗口與其他窗口存在包含或者大部分交叉的情況。這時(shí)就需要用到NMS來選取那些鄰域里分?jǐn)?shù)最高（是行人的概率最大），并且抑制那些分?jǐn)?shù)低的窗口。

------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------

canny detection(canny NMS)：

對(duì)梯度幅值進(jìn)行非極大值抑制

?? ? ? ?圖像梯度幅值矩陣中的元素值越大，說明圖像中該點(diǎn)的梯度值越大，但這不不能說明該點(diǎn)就是邊緣（這僅僅是屬于圖像增強(qiáng)的過程）。在Canny算法中，非極大值抑制是進(jìn)行邊緣檢測(cè)的重要步驟，通俗意義上是指尋找像素點(diǎn)局部最大值，將非極大值點(diǎn)所對(duì)應(yīng)的灰度值置為0，這樣可以剔除掉一大部分非邊緣的點(diǎn)（這是本人的理解）。

圖1 非極大值抑制原理

?? ? ? ?根據(jù)圖1 可知，要進(jìn)行非極大值抑制，就首先要確定像素點(diǎn)C的灰度值在其8值鄰域內(nèi)是否為最大。圖1中藍(lán)色的線條方向?yàn)镃點(diǎn)的梯度方向，這樣就可以確定其局部的最大值肯定分布在這條線上，也即出了C點(diǎn)外，梯度方向的交點(diǎn)dTmp1和dTmp2這兩個(gè)點(diǎn)的值也可能會(huì)是局部最大值。因此，判斷C點(diǎn)灰度與這兩個(gè)點(diǎn)灰度大小即可判斷C點(diǎn)是否為其鄰域內(nèi)的局部最大灰度點(diǎn)。如果經(jīng)過判斷，C點(diǎn)灰度值小于這兩個(gè)點(diǎn)中的任一個(gè)，那就說明C點(diǎn)不是局部極大值，那么則可以排除C點(diǎn)為邊緣。這就是非極大值抑制的工作原理。

?? ? ? ?作者認(rèn)為，在理解的過程中需要注意以下兩點(diǎn)：

?? ? ? ?1）中非最大抑制是回答這樣一個(gè)問題：“當(dāng)前的梯度值在梯度方向上是一個(gè)局部最大值嗎？” 所以,要把當(dāng)前位置的梯度值與梯度方向上兩側(cè)的梯度值進(jìn)行比較；

?? ? ? ?2）梯度方向垂直于邊緣方向。

?? ? ? ?但實(shí)際上，我們只能得到C點(diǎn)鄰域的8個(gè)點(diǎn)的值，而dTmp1和dTmp2并不在其中，要得到這兩個(gè)值就需要對(duì)該兩個(gè)點(diǎn)兩端的已知灰度進(jìn)行線性插值，也即根據(jù)圖1中的g1和g2對(duì)dTmp1進(jìn)行插值，根據(jù)g3和g4對(duì)dTmp2進(jìn)行插值，這要用到其梯度方向，這是上文Canny算法中要求解梯度方向矩陣Thita的原因。

?? ? ? ?完成非極大值抑制后，會(huì)得到一個(gè)二值圖像，非邊緣的點(diǎn)灰度值均為0，可能為邊緣的局部灰度極大值點(diǎn)可設(shè)置其灰度為128。根據(jù)下文的具體測(cè)試圖像可以看出，這樣一個(gè)檢測(cè)結(jié)果還是包含了很多由噪聲及其他原因造成的假邊緣。因此還需要進(jìn)一步的處理。

------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------

4、VOC物體檢測(cè)任務(wù)

這個(gè)就相當(dāng)于一個(gè)競(jìng)賽，里面包含了20個(gè)物體類別：http://host.robots.ox.ac.uk/pascal/VOC/voc2012/examples/index.html? 還有一個(gè)背景，總共就相當(dāng)于21個(gè)類別，因此一會(huì)設(shè)計(jì)fine-tuning CNN的時(shí)候，我們softmax分類輸出層為21個(gè)神經(jīng)元。

三、算法總體思路?

? ? 開始講解paper前，我們需要先把握總體思路，才容易理解paper的算法。

(作者通過在recongnition using regions操作的方法來解決CNN的定位問題，這個(gè)方法在目標(biāo)檢測(cè)和語義分割中都取得了成功。測(cè)試階段，這個(gè)方法對(duì)每一個(gè)輸入的圖片產(chǎn)生近2000個(gè)不分種類的“region proposals，使用CNNs從每個(gè)region proposals”中提取一個(gè)固定長(zhǎng)度的特征向量，然后對(duì)每個(gè)region proposal(SS for Detction)提取的特征向量使用特定種類的線性SVM進(jìn)行分類(CNN+SVM for classification)。)

? ? 圖片分類與物體檢測(cè)不同，物體檢測(cè)需要定位出物體的位置，這種就相當(dāng)于回歸問題，求解一個(gè)包含物體的方框。而圖片分類其實(shí)是邏輯回歸。這種方法對(duì)于單物體檢測(cè)還不錯(cuò)，但是對(duì)于多物體檢測(cè)就……

? ? 因此paper采用的方法是：首先輸入一張圖片，我們先定位出2000個(gè)物體候選框，然后采用CNN提取每個(gè)候選框中圖片的特征向量，特征向量的維度為4096維，接著采用svm算法對(duì)各個(gè)候選框中的物體進(jìn)行分類識(shí)別。也就是總個(gè)過程分為三個(gè)程序：a、找出候選框；b、利用CNN提取特征向量；c、利用SVM進(jìn)行特征向量分類。具體的流程如下圖片所示：

后面我們將根據(jù)這三個(gè)過程，進(jìn)行每個(gè)步驟的詳細(xì)講解。

四、候選框搜索階段

(作者也考慮過使用一個(gè)滑動(dòng)窗口的方法，然而由于更深的網(wǎng)絡(luò)，更大的輸入圖片和滑動(dòng)步長(zhǎng)，使得使用滑動(dòng)窗口來定位的方法充滿了挑戰(zhàn))

1、實(shí)現(xiàn)方式

當(dāng)我們輸入一張圖片時(shí)，我們要搜索出所有可能是物體的區(qū)域，這個(gè)采用的方法是傳統(tǒng)文獻(xiàn)的算法：《search for object recognition》，通過這個(gè)算法我們搜索出2000個(gè)候選框。然后從上面的總流程圖中可以看到，搜出的候選框是矩形的，而且是大小各不相同。然而CNN對(duì)輸入圖片的大小是有固定的，如果把搜索到的矩形選框不做處理，就扔進(jìn)CNN中，肯定不行。因此對(duì)于每個(gè)輸入的候選框都需要縮放到固定的大小。下面我們講解要怎么進(jìn)行縮放處理，為了簡(jiǎn)單起見我們假設(shè)下一階段CNN所需要的輸入圖片大小是個(gè)正方形圖片227*227。因?yàn)槲覀兘?jīng)過selective search 得到的是矩形框，paper試驗(yàn)了兩種不同的處理方法：

(1)各向異性縮放

這種方法很簡(jiǎn)單，就是不管圖片的長(zhǎng)寬比例，管它是否扭曲，進(jìn)行縮放就是了，全部縮放到CNN輸入的大小227*227，如下圖(D)所示；

(2)各向同性縮放

因?yàn)閳D片扭曲后，估計(jì)會(huì)對(duì)后續(xù)CNN的訓(xùn)練精度有影響，于是作者也測(cè)試了“各向同性縮放”方案。這個(gè)有兩種辦法

A、直接在原始圖片中，把bounding box的邊界進(jìn)行擴(kuò)展延伸成正方形，然后再進(jìn)行裁剪；如果已經(jīng)延伸到了原始圖片的外邊界，那么就用bounding box中的顏色均值填充；如下圖(B)所示;

B、先把bounding box圖片裁剪出來，然后用固定的背景顏色填充成正方形圖片(背景顏色也是采用bounding box的像素顏色均值),如下圖(C)所示;

對(duì)于上面的異性、同性縮放，文獻(xiàn)還有個(gè)padding處理，上面的示意圖中第1、3行就是結(jié)合了padding=0,第2、4行結(jié)果圖采用padding=16的結(jié)果。經(jīng)過最后的試驗(yàn)，作者發(fā)現(xiàn)采用各向異性縮放、padding=16的精度最高，具體不再啰嗦。

OK，上面處理完后，可以得到指定大小的圖片，因?yàn)槲覀兒竺孢€要繼續(xù)用這2000個(gè)候選框圖片，繼續(xù)訓(xùn)練CNN、SVM。然而人工標(biāo)注的數(shù)據(jù)一張圖片中就只標(biāo)注了正確的bounding box，我們搜索出來的2000個(gè)矩形框也不可能會(huì)出現(xiàn)一個(gè)與人工標(biāo)注完全匹配的候選框。

因此我們需要用IOU為2000個(gè)bounding box打標(biāo)簽，以便下一步CNN訓(xùn)練使用。在CNN階段，如果用selective?search挑選出來的候選框與物體的人工標(biāo)注矩形框的重疊區(qū)域IoU大于0.5，那么我們就把這個(gè)候選框標(biāo)注成物體類別，否則我們就把它當(dāng)做背景類別。SVM階段的正負(fù)樣本標(biāo)簽問題，等到了svm講解階段我再具體講解。

五、CNN特征提取階段

1、算法實(shí)現(xiàn)

a、網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)階段

網(wǎng)絡(luò)架構(gòu)我們有兩個(gè)可選方案：第一選擇經(jīng)典的Alexnet；第二選擇VGG16。經(jīng)過測(cè)試Alexnet精度為58.5%，VGG16精度為66%。VGG這個(gè)模型的特點(diǎn)是選擇比較小的卷積核、選擇較小的跨步，這個(gè)網(wǎng)絡(luò)的精度高，不過計(jì)算量是Alexnet的7倍。后面為了簡(jiǎn)單起見，我們就直接選用Alexnet，并進(jìn)行講解；Alexnet特征提取部分包含了5個(gè)卷積層、2個(gè)全連接層，在Alexnet中p5層神經(jīng)元個(gè)數(shù)為9216、?f6、f7的神經(jīng)元個(gè)數(shù)都是4096，通過這個(gè)網(wǎng)絡(luò)訓(xùn)練完畢后，最后提取特征每個(gè)輸入候選框圖片都能得到一個(gè)4096維的特征向量。

b、網(wǎng)絡(luò)有監(jiān)督預(yù)訓(xùn)練階段

參數(shù)初始化部分：物體檢測(cè)的一個(gè)難點(diǎn)在于，物體標(biāo)簽訓(xùn)練數(shù)據(jù)少，如果要直接采用隨機(jī)初始化CNN參數(shù)的方法，那么目前的訓(xùn)練數(shù)據(jù)量是遠(yuǎn)遠(yuǎn)不夠的。這種情況下，最好的是采用某些方法，把參數(shù)初始化了，然后在進(jìn)行有監(jiān)督的參數(shù)微調(diào)，這邊文獻(xiàn)采用的是有監(jiān)督的預(yù)訓(xùn)練。所以paper在設(shè)計(jì)網(wǎng)絡(luò)結(jié)構(gòu)的時(shí)候，是直接用Alexnet的網(wǎng)絡(luò)，然后連參數(shù)也是直接采用它的參數(shù)，作為初始的參數(shù)值，然后再fine-tuning訓(xùn)練。

網(wǎng)絡(luò)優(yōu)化求解：采用隨機(jī)梯度下降法，學(xué)習(xí)速率大小為0.001；

C、fine-tuning階段

我們接著采用selective?search?搜索出來的候選框，然后處理到指定大小圖片，繼續(xù)對(duì)上面預(yù)訓(xùn)練的cnn模型進(jìn)行fine-tuning訓(xùn)練。假設(shè)要檢測(cè)的物體類別有N類，那么我們就需要把上面預(yù)訓(xùn)練階段的CNN模型的最后一層給替換掉，替換成N+1個(gè)輸出的神經(jīng)元(加1，表示還有一個(gè)背景) (20 + 1bg)，然后這一層直接采用參數(shù)隨機(jī)初始化的方法，其它網(wǎng)絡(luò)層的參數(shù)不變；接著就可以開始繼續(xù)SGD訓(xùn)練了。開始的時(shí)候，SGD學(xué)習(xí)率選擇0.001，在每次訓(xùn)練的時(shí)候，我們batch?size大小選擇128，其中32個(gè)事正樣本、96個(gè)事負(fù)樣本（正負(fù)樣本的定義前面已經(jīng)提過，不再解釋）。

2、問題解答

OK，看完上面的CNN過程后，我們會(huì)有一些細(xì)節(jié)方面的疑問。首先，反正CNN都是用于提取特征，那么我直接用Alexnet做特征提取，省去fine-tuning階段可以嗎？這個(gè)是可以的，你可以不需重新訓(xùn)練CNN，直接采用Alexnet模型，提取出p5、或者f6、f7的特征，作為特征向量，然后進(jìn)行訓(xùn)練svm，只不過這樣精度會(huì)比較低。那么問題又來了，沒有fine-tuning的時(shí)候，要選擇哪一層的特征作為cnn提取到的特征呢？我們有可以選擇p5、f6、f7，這三層的神經(jīng)元個(gè)數(shù)分別是9216、4096、4096。從p5到p6這層的參數(shù)個(gè)數(shù)是：4096*9216?，從f6到f7的參數(shù)是4096*4096。那么具體是選擇p5、還是f6，又或者是f7呢？

文獻(xiàn)paper給我們證明了一個(gè)理論，如果你不進(jìn)行fine-tuning，也就是你直接把Alexnet模型當(dāng)做萬金油使用，類似于HOG、SIFT一樣做特征提取，不針對(duì)特定的任務(wù)。然后把提取的特征用于分類，結(jié)果發(fā)現(xiàn)p5的精度竟然跟f6、f7差不多，而且f6提取到的特征還比f7的精度略高；如果你進(jìn)行fine-tuning了，那么f7、f6的提取到的特征最會(huì)訓(xùn)練的svm分類器的精度就會(huì)飆漲。

據(jù)此我們明白了一個(gè)道理，如果不針對(duì)特定任務(wù)進(jìn)行fine-tuning，而是把CNN當(dāng)做特征提取器，卷積層所學(xué)到的特征其實(shí)就是基礎(chǔ)的共享特征提取層，就類似于SIFT算法一樣，可以用于提取各種圖片的特征，而f6、f7所學(xué)習(xí)到的特征是用于針對(duì)特定任務(wù)的特征。
打個(gè)比方：對(duì)于人臉性別識(shí)別來說，一個(gè)CNN模型前面的卷積層所學(xué)習(xí)到的特征就類似于學(xué)習(xí)人臉共性特征，然后全連接層所學(xué)習(xí)的特征就是針對(duì)性別分類的特征了。

還有另外一個(gè)疑問：CNN訓(xùn)練的時(shí)候，本來就是對(duì)bounding?box的物體進(jìn)行識(shí)別分類訓(xùn)練，是一個(gè)端到端的任務(wù)，在訓(xùn)練的時(shí)候最后一層softmax就是分類層.

那么為什么作者閑著沒事干要先用CNN做特征提取（提取fc7層數(shù)據(jù)），然后再把提取的特征用于訓(xùn)練svm分類器？

這個(gè)是因?yàn)閟vm訓(xùn)練和cnn訓(xùn)練過程的正負(fù)樣本定義方式各有不同，導(dǎo)致最后采用CNN softmax輸出比采用svm精度還低。

事情是這樣的，cnn在訓(xùn)練的時(shí)候，對(duì)訓(xùn)練數(shù)據(jù)做了比較寬松的標(biāo)注，比如一個(gè)bounding?box可能只包含物體的一部分，那么我也把它標(biāo)注為正樣本，用于訓(xùn)練cnn；采用這個(gè)方法的主要原因在于因?yàn)镃NN容易過擬合，所以需要大量的訓(xùn)練數(shù)據(jù)，所以在CNN訓(xùn)練階段我們是對(duì)Bounding box的位置限制條件限制的比較松(IOU只要大于0.5都被標(biāo)注為正樣本了)；

然而svm訓(xùn)練的時(shí)候，因?yàn)閟vm適用于少樣本訓(xùn)練，所以對(duì)于訓(xùn)練樣本數(shù)據(jù)的IOU要求比較嚴(yán)格，我們只有當(dāng)bounding?box把整個(gè)物體都包含進(jìn)去了，我們才把它標(biāo)注為物體類別，然后訓(xùn)練svm，具體請(qǐng)看下文。

六、SVM訓(xùn)練、測(cè)試階段

這是一個(gè)二分類問題，我么假設(shè)我們要檢測(cè)車輛。我們知道只有當(dāng)bounding?box把整量車都包含在內(nèi)，那才叫正樣本；如果bounding box 沒有包含到車輛，那么我們就可以把它當(dāng)做負(fù)樣本。但問題是當(dāng)我們的檢測(cè)窗口只有部分包好物體，那該怎么定義正負(fù)樣本呢？作者測(cè)試了IOU閾值各種方案數(shù)值0,0.1,0.2,0.3,0.4,0.5。最后我們通過訓(xùn)練發(fā)現(xiàn)，如果選擇IOU閾值為0.3效果最好（選擇為0精度下降了4個(gè)百分點(diǎn)，選擇0.5精度下降了5個(gè)百分點(diǎn)）,即當(dāng)重疊度小于0.3的時(shí)候，我們就把它標(biāo)注為負(fù)樣本。一旦CNN f7層特征被提取出來，那么我們將為每個(gè)物體累訓(xùn)練一個(gè)svm分類器。當(dāng)我們用CNN提取2000個(gè)候選框，可以得到2000*4096這樣的特征向量矩陣，然后我們只需要把這樣的一個(gè)矩陣與svm權(quán)值矩陣4096*N點(diǎn)（Therefore，the pool5 need to be set as）乘(N為分類類別數(shù)目，因?yàn)槲覀冇?xùn)練的N個(gè)svm，每個(gè)svm包好了4096個(gè)W)，就可以得到結(jié)果了。

參考文獻(xiàn)：

1、《Rich feature hierarchies?for?Accurate Object Detection and Segmentation》

2、《Spatial Pyramid Pooling in Deep Convolutional?Networks for Visual Recognition》

reference link:?http://blog.csdn.NET/shenxiaolu1984/article/details/51066975

Region CNN(RCNN)可以說是利用深度學(xué)習(xí)進(jìn)行目標(biāo)檢測(cè)的開山之作。作者Ross Girshick多次在PASCAL VOC的目標(biāo)檢測(cè)競(jìng)賽中折桂，2010年更帶領(lǐng)團(tuán)隊(duì)獲得終身成就獎(jiǎng)，如今供職于Facebook旗下的FAIR。?
這篇文章思路簡(jiǎn)潔，在DPM方法多年平臺(tái)期后，效果提高顯著。包括本文在內(nèi)的一系列目標(biāo)檢測(cè)算法：RCNN,Fast RCNN,?Faster RCNN代表當(dāng)下目標(biāo)檢測(cè)的前沿水平，在github都給出了基于Caffe的源碼。

思想

本文解決了目標(biāo)檢測(cè)中的兩個(gè)關(guān)鍵問題。

問題一：速度

經(jīng)典的目標(biāo)檢測(cè)算法使用滑動(dòng)窗法依次判斷所有可能的區(qū)域。本文則預(yù)先提取一系列較可能是物體的候選區(qū)域，之后僅在這些候選區(qū)域上提取特征，進(jìn)行判斷。

問題二：訓(xùn)練集

經(jīng)典的目標(biāo)檢測(cè)算法在區(qū)域中提取人工設(shè)定的特征（Haar，HOG）。本文則需要訓(xùn)練深度網(wǎng)絡(luò)進(jìn)行特征提取。可供使用的有兩個(gè)數(shù)據(jù)庫：?
一個(gè)較大的識(shí)別庫（ImageNet ILSVC 2012）：標(biāo)定每張圖片中物體的類別。一千萬圖像，1000類。?
一個(gè)較小的檢測(cè)庫（PASCAL VOC 2007）：標(biāo)定每張圖片中，物體的類別和位置。一萬圖像，20類。?
本文使用識(shí)別庫進(jìn)行預(yù)訓(xùn)練，而后用檢測(cè)庫調(diào)優(yōu)參數(shù)。最后在檢測(cè)庫上評(píng)測(cè)。

流程

RCNN算法分為4個(gè)步驟?
- 一張圖像生成1K~2K個(gè)候選區(qū)域?
- 對(duì)每個(gè)候選區(qū)域，使用深度網(wǎng)絡(luò)提取特征?
- 特征送入每一類的SVM?分類器，判別是否屬于該類?
- 使用回歸器精細(xì)修正候選框位置?

候選區(qū)域生成

使用了Selective Search1方法從一張圖像生成約2000-3000個(gè)候選區(qū)域?；舅悸啡缦?#xff1a;?
- 使用一種過分割手段，將圖像分割成小區(qū)域?
- 查看現(xiàn)有小區(qū)域，合并可能性最高的兩個(gè)區(qū)域。重復(fù)直到整張圖像合并成一個(gè)區(qū)域位置?
- 輸出所有曾經(jīng)存在過的區(qū)域，所謂候選區(qū)域

候選區(qū)域生成和后續(xù)步驟相對(duì)獨(dú)立，實(shí)際可以使用任意算法進(jìn)行。

合并規(guī)則

優(yōu)先合并以下四種區(qū)域：?
- 顏色（顏色直方圖）相近的?
- 紋理（梯度直方圖）相近的?
- 合并后總面積小的?
- 合并后，總面積在其BBOX中所占比例大的

第三條，保證合并操作的尺度較為均勻，避免一個(gè)大區(qū)域陸續(xù)“吃掉”其他小區(qū)域。

例：設(shè)有區(qū)域a-b-c-d-e-f-g-h。較好的合并方式是：ab-cd-ef-gh -> abcd-efgh -> abcdefgh。?
不好的合并方法是：ab-c-d-e-f-g-h ->abcd-e-f-g-h ->abcdef-gh -> abcdefgh。

第四條，保證合并后形狀規(guī)則。

例：左圖適于合并，右圖不適于合并。?

上述四條規(guī)則只涉及區(qū)域的顏色直方圖、紋理直方圖、面積和位置。合并后的區(qū)域特征可以直接由子區(qū)域特征計(jì)算而來，速度較快。

多樣化與后處理

為盡可能不遺漏候選區(qū)域，上述操作在多個(gè)顏色空間中同時(shí)進(jìn)行（RGB,HSV,Lab等）。在一個(gè)顏色空間中，使用上述四條規(guī)則的不同組合進(jìn)行合并。所有顏色空間與所有規(guī)則的全部結(jié)果，在去除重復(fù)后，都作為候選區(qū)域輸出。

作者提供了Selective Search的源碼，內(nèi)含較多.p文件和.mex文件，難以細(xì)查具體實(shí)現(xiàn)。

特征提取

預(yù)處理

使用深度網(wǎng)絡(luò)提取特征之前，首先把候選區(qū)域歸一化成同一尺寸227×227。?
此處有一些細(xì)節(jié)可做變化：外擴(kuò)的尺寸大小，形變時(shí)是否保持原比例，對(duì)框外區(qū)域直接截取還是補(bǔ)灰。會(huì)輕微影響性能。

預(yù)訓(xùn)練

網(wǎng)絡(luò)結(jié)構(gòu)?
基本借鑒Hinton 2012年在Image Net上的分類網(wǎng)絡(luò)2，略作簡(jiǎn)化3。?
?
此網(wǎng)絡(luò)提取的特征為4096維，之后送入一個(gè)4096->1000的全連接(fc)層進(jìn)行分類。?
學(xué)習(xí)率0.01。

訓(xùn)練數(shù)據(jù)?
使用ILVCR 2012的全部數(shù)據(jù)進(jìn)行訓(xùn)練，輸入一張圖片，輸出1000維的類別標(biāo)號(hào)。

調(diào)優(yōu)訓(xùn)練

網(wǎng)絡(luò)結(jié)構(gòu)?
同樣使用上述網(wǎng)絡(luò)，最后一層換成4096->21的全連接網(wǎng)絡(luò)。?
學(xué)習(xí)率0.001，每一個(gè)batch包含32個(gè)正樣本（屬于20類）和96個(gè)背景。

訓(xùn)練數(shù)據(jù)?
使用PASCAL VOC 2007的訓(xùn)練集，輸入一張圖片，輸出21維的類別標(biāo)號(hào)，表示20類+背景。?
考察一個(gè)候選框和當(dāng)前圖像上所有標(biāo)定框重疊面積最大的一個(gè)。如果重疊比例大于0.5，則認(rèn)為此候選框?yàn)榇藰?biāo)定的類別；否則認(rèn)為此候選框?yàn)楸尘啊?/p>

類別判斷

分類器?
對(duì)每一類目標(biāo)，使用一個(gè)線性SVM二類分類器進(jìn)行判別。輸入為深度網(wǎng)絡(luò)輸出的4096維特征，輸出是否屬于此類。?
由于負(fù)樣本很多，使用hard negative mining方法。?
正樣本?
本類的真值標(biāo)定框。?
負(fù)樣本?
考察每一個(gè)候選框，如果和本類所有標(biāo)定框的重疊都小于0.3，認(rèn)定其為負(fù)樣本

位置精修

目標(biāo)檢測(cè)問題的衡量標(biāo)準(zhǔn)是重疊面積：許多看似準(zhǔn)確的檢測(cè)結(jié)果，往往因?yàn)楹蜻x框不夠準(zhǔn)確，重疊面積很小。故需要一個(gè)位置精修步驟。?
回歸器?
對(duì)每一類目標(biāo)，使用一個(gè)線性脊回歸器進(jìn)行精修。正則項(xiàng)。?
輸入為深度網(wǎng)絡(luò)pool5層的4096維特征，輸出為xy方向的縮放和平移。?
訓(xùn)練樣本?
判定為本類的候選框中，和真值重疊面積大于0.6的候選框。

結(jié)果

論文發(fā)表的2014年，DPM已經(jīng)進(jìn)入瓶頸期，即使使用復(fù)雜的特征和結(jié)構(gòu)得到的提升也十分有限。本文將深度學(xué)習(xí)引入檢測(cè)領(lǐng)域，一舉將PASCAL VOC上的檢測(cè)率從35.1%提升到53.7%。?
本文的前兩個(gè)步驟（候選區(qū)域提取+特征提取）與待檢測(cè)類別無關(guān)，可以在不同類之間共用。這兩步在GPU上約需13秒。?
同時(shí)檢測(cè)多類時(shí)，需要倍增的只有后兩步驟（判別+精修），都是簡(jiǎn)單的線性運(yùn)算，速度很快。這兩步對(duì)于100K類別只需10秒。

以本論文為基礎(chǔ)，后續(xù)的fast RCNN4（參看這篇博客）和faster RCNN5（參看這篇博客）在速度上有突飛猛進(jìn)的發(fā)展，基本解決了PASCAL VOC上的目標(biāo)檢測(cè)問題。

J. Uijlings, K. van de Sande, T. Gevers, and A. Smeulders. Selective search for object recognition. IJCV, 2013.??

A. Krizhevsky, I. Sutskever, and G. Hinton. ImageNet classification with deep convolutional neural networks. In NIPS, 2012??

所有層都是串行的。relu層為in-place操作，偏左繪制。??

Girshick, Ross. “Fast r-cnn.” Proceedings of the IEEE International Conference on Computer Vision. 2015.??

Ren, Shaoqing, et al. “Faster R-CNN: Towards real-time object detection with region proposal networks.” Advances in Neural Information Processing Systems.?

總結(jié)

以上是生活随笔為你收集整理的R-CNN详解的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

详解
CNN

上一篇： aspnet_regsql在哪里怎么运
下一篇：数据结构基础(14) --链式队列的设