R-CNN详解
paper鏈接:Rich feature hierarchies for accurate object detection and semantic segmentation
&創(chuàng)新點(diǎn)
采用CNN網(wǎng)絡(luò)提取圖像特征,從經(jīng)驗(yàn)驅(qū)動(dòng)的人造特征范式HOG、SIFT到數(shù)據(jù)驅(qū)動(dòng)的表示學(xué)習(xí)范式,提高特征對(duì)樣本的表示能力;
采用大樣本下有監(jiān)督預(yù)訓(xùn)練+小樣本微調(diào)的方式解決小樣本難以訓(xùn)練甚至過擬合等問題。
&問題是什么
近10年以來,以人工經(jīng)驗(yàn)特征為主導(dǎo)的物體檢測(cè)任務(wù)mAP【物體類別和位置的平均精度】提升緩慢;
隨著ReLu激勵(lì)函數(shù)、dropout正則化手段和大規(guī)模圖像樣本集ILSVRC的出現(xiàn),在2012年ImageNet大規(guī)模視覺識(shí)別挑戰(zhàn)賽中,Hinton及他的學(xué)生采用CNN特征獲得了最高的圖像識(shí)別精確度;
上述比賽后,引發(fā)了一股“是否可以采用CNN特征來提高當(dāng)前一直停滯不前的物體檢測(cè)準(zhǔn)確率“的熱潮。
【寫給小白:一圖理解圖像分類,圖像定位,目標(biāo)檢測(cè)和實(shí)例分割】?
&如何解決問題
。測(cè)試過程
輸入一張多目標(biāo)圖像,采用selective search算法提取約2000個(gè)建議框;
先在每個(gè)建議框周圍加上16個(gè)像素值為建議框像素平均值的邊框,再直接變形為227×227的大小;
先將所有建議框像素減去該建議框像素平均值后【預(yù)處理操作】,再依次將每個(gè)227×227的建議框輸入AlexNet CNN網(wǎng)絡(luò)獲取4096維的特征【比以前的人工經(jīng)驗(yàn)特征低兩個(gè)數(shù)量級(jí)】,2000個(gè)建議框的CNN特征組合成2000×4096維矩陣;
將2000×4096維特征與20個(gè)SVM組成的權(quán)值矩陣4096×20相乘【20種分類,SVM是二分類器,則有20個(gè)SVM】,獲得2000×20維矩陣表示每個(gè)建議框是某個(gè)物體類別的得分;
分別對(duì)上述2000×20維矩陣中每一列即每一類進(jìn)行非極大值抑制剔除重疊建議框,得到該列即該類中得分最高的一些建議框;
分別用20個(gè)回歸器對(duì)上述20個(gè)類別中剩余的建議框進(jìn)行回歸操作,最終得到每個(gè)類別的修正后的得分最高的bounding box。
。解釋分析
selective search?
采取過分割手段,將圖像分割成小區(qū)域,再通過顏色直方圖,梯度直方圖相近等規(guī)則進(jìn)行合并,最后生成約2000個(gè)建議框的操作,具體見博客。
為什么要將建議框變形為227×227?怎么做??
本文采用AlexNet CNN網(wǎng)絡(luò)進(jìn)行CNN特征提取,為了適應(yīng)AlexNet網(wǎng)絡(luò)的輸入圖像大小:227×227,故將所有建議框變形為227×227。?
那么問題來了,如何進(jìn)行變形操作呢?作者在補(bǔ)充材料中給出了四種變形方式:
① 考慮context【圖像中context指RoI周邊像素】的各向同性變形,建議框像周圍像素?cái)U(kuò)充到227×227,若遇到圖像邊界則用建議框像素均值填充,下圖第二列;?
② 不考慮context的各向同性變形,直接用建議框像素均值填充至227×227,下圖第三列;?
③ 各向異性變形,簡(jiǎn)單粗暴對(duì)圖像就行縮放至227×227,下圖第四列;?
④ 變形前先進(jìn)行邊界像素填充【padding】處理,即向外擴(kuò)展建議框邊界,以上三種方法中分別采用padding=0下圖第一行,padding=16下圖第二行進(jìn)行處理;
經(jīng)過作者一系列實(shí)驗(yàn)表明采用padding=16的各向異性變形即下圖第二行第三列效果最好,能使mAP提升3-5%。?
?
CNN特征如何可視化??
文中采用了巧妙的方式將AlexNet CNN網(wǎng)絡(luò)中Pool5層特征進(jìn)行了可視化。該層的size是6×6×256,即有256種表示不同的特征,這相當(dāng)于原始227×227圖片中有256種195×195的感受視野【相當(dāng)于對(duì)227×227的輸入圖像,卷積核大小為195×195,padding=4,step=8,輸出大小(227-195+2×4)/8+1=6×6】;
文中將這些特征視為”物體檢測(cè)器”,輸入10million的Region Proposal集合,計(jì)算每種6×6特征即“物體檢測(cè)器”的激活量,之后進(jìn)行非極大值抑制【下面解釋】,最后展示出每種6×6特征即“物體檢測(cè)器”前幾個(gè)得分最高的Region Proposal,從而給出了這種6×6的特征圖表示了什么紋理、結(jié)構(gòu),很有意思。
為什么要進(jìn)行非極大值抑制?非極大值抑制又如何操作??
先解釋什么叫IoU。如下圖所示IoU即表示(A∩B)/(A∪B)?
?
在測(cè)試過程完成到第4步之后,獲得2000×20維矩陣表示每個(gè)建議框是某個(gè)物體類別的得分情況,此時(shí)會(huì)遇到下圖所示情況,同一個(gè)車輛目標(biāo)會(huì)被多個(gè)建議框包圍,這時(shí)需要非極大值抑制操作去除得分較低的候選框以減少重疊框。?
?
具體怎么做呢??
① 對(duì)2000×20維矩陣中每列按從大到小進(jìn)行排序;?
② 從每列最大的得分建議框開始,分別與該列后面的得分建議框進(jìn)行IoU計(jì)算,若IoU>閾值,則剔除得分較小的建議框,否則認(rèn)為圖像中存在多個(gè)同一類物體;?
③ 從每列次大的得分建議框開始,重復(fù)步驟②;?
④ 重復(fù)步驟③直到遍歷完該列所有建議框;?
⑤ 遍歷完2000×20維矩陣所有列,即所有物體種類都做一遍非極大值抑制;?
⑥ 最后剔除各個(gè)類別中剩余建議框得分少于該類別閾值的建議框?!?span style="color:rgb(0,187,255);">文中沒有講,博主覺得有必要做】
為什么要采用回歸器?回歸器是什么有什么用?如何進(jìn)行操作??
首先要明確目標(biāo)檢測(cè)不僅是要對(duì)目標(biāo)進(jìn)行識(shí)別,還要完成定位任務(wù),所以最終獲得的bounding-box也決定了目標(biāo)檢測(cè)的精度。?
這里先解釋一下什么叫定位精度:定位精度可以用算法得出的物體檢測(cè)框與實(shí)際標(biāo)注的物體邊界框的IoU值來近似表示。
如下圖所示,綠色框?yàn)閷?shí)際標(biāo)準(zhǔn)的卡宴車輛框,即Ground Truth;黃色框?yàn)閟elective search算法得出的建議框,即Region Proposal。即使黃色框中物體被分類器識(shí)別為卡宴車輛,但是由于綠色框和黃色框IoU值并不大,所以最后的目標(biāo)檢測(cè)精度并不高。采用回歸器是為了對(duì)建議框進(jìn)行校正,使得校正后的Region Proposal與selective search更接近, 以提高最終的檢測(cè)精度。論文中采用bounding-box回歸使mAP提高了3~4%。?
?
那么問題來了,回歸器如何設(shè)計(jì)呢??
?
如上圖,黃色框口P表示建議框Region Proposal,綠色窗口G表示實(shí)際框Ground Truth,紅色窗口表示Region Proposal進(jìn)行回歸后的預(yù)測(cè)窗口,現(xiàn)在的目標(biāo)是找到P到的線性變換【當(dāng)Region Proposal與Ground Truth的IoU>0.6時(shí)可以認(rèn)為是線性變換】,使得與G越相近,這就相當(dāng)于一個(gè)簡(jiǎn)單的可以用最小二乘法解決的線性回歸問題,具體往下看。?
讓我們先來定義P窗口的數(shù)學(xué)表達(dá)式:,其中表示第一個(gè)i窗口的中心點(diǎn)坐標(biāo),,分別為第i個(gè)窗口的寬和高;G窗口的數(shù)學(xué)表達(dá)式為:;窗口的數(shù)學(xué)表達(dá)式為:。以下省去i上標(biāo)。?
這里定義了四種變換函數(shù),,,,。和通過平移對(duì)x和y進(jìn)行變化,和通過縮放對(duì)w和h進(jìn)行變化,即下面四個(gè)式子所示:?
每一個(gè)【*表示x,y,w,h】都是一個(gè)AlexNet CNN網(wǎng)絡(luò)Pool5層特征的線性函數(shù),即?,這里就是所需要學(xué)習(xí)的回歸參數(shù)。損失函數(shù)即為:
損失函數(shù)中加入正則項(xiàng)是為了避免歸回參數(shù)過大。其中,回歸目標(biāo)由訓(xùn)練輸入對(duì)按下式計(jì)算得來:
①構(gòu)造樣本對(duì)。為了提高每類樣本框回歸的有效性,對(duì)每類樣本都僅僅采集與Ground Truth相交IoU最大的Region Proposal,并且IoU>0.6的Region Proposal作為樣本對(duì),一共產(chǎn)生20對(duì)樣本對(duì)【20個(gè)類別】;?
②每種類型的回歸器單獨(dú)訓(xùn)練,輸入該類型樣本對(duì)N個(gè):以及所對(duì)應(yīng)的AlexNet CNN網(wǎng)絡(luò)Pool5層特征;?
③利用(6)-(9)式和輸入樣本對(duì)計(jì)算;?
④利用和,根據(jù)損失函數(shù)(5)進(jìn)行回歸,得到使損失函數(shù)最小的參數(shù)。
。訓(xùn)練過程
有監(jiān)督預(yù)訓(xùn)練
| 正樣本 | ILSVRC2012 |
| 負(fù)樣本 | ILSVRC2012 |
ILSVRC樣本集上僅有圖像類別標(biāo)簽,沒有圖像物體位置標(biāo)注;?
采用AlexNet CNN網(wǎng)絡(luò)進(jìn)行有監(jiān)督預(yù)訓(xùn)練,學(xué)習(xí)率=0.01;?
該網(wǎng)絡(luò)輸入為227×227的ILSVRC訓(xùn)練集圖像,輸出最后一層為4096維特征->1000類的映射,訓(xùn)練的是網(wǎng)絡(luò)參數(shù)。
特定樣本下的微調(diào)
| 正樣本 | Ground Truth+與Ground Truth相交IoU>0.5的建議框【由于Ground Truth太少了】 |
| 負(fù)樣本 | 與Ground Truth相交IoU≤0.5的建議框 |
PASCAL VOC 2007樣本集上既有圖像中物體類別標(biāo)簽,也有圖像中物體位置標(biāo)簽;?
采用訓(xùn)練好的AlexNet CNN網(wǎng)絡(luò)進(jìn)行PASCAL VOC 2007樣本集下的微調(diào),學(xué)習(xí)率=0.001【0.01/10為了在學(xué)習(xí)新東西時(shí)不至于忘記之前的記憶】;?
mini-batch為32個(gè)正樣本和96個(gè)負(fù)樣本【由于正樣本太少】;?
該網(wǎng)絡(luò)輸入為建議框【由selective search而來】變形后的227×227的圖像,修改了原來的1000為類別輸出,改為21維【20類+背景】輸出,訓(xùn)練的是網(wǎng)絡(luò)參數(shù)。
SVM訓(xùn)練
| 正樣本 | Ground Truth |
| 負(fù)樣本 | 與Ground Truth相交IoU<0.3的建議框 |
由于SVM是二分類器,需要為每個(gè)類別訓(xùn)練單獨(dú)的SVM;?
SVM訓(xùn)練時(shí)輸入正負(fù)樣本在AlexNet CNN網(wǎng)絡(luò)計(jì)算下的4096維特征,輸出為該類的得分,訓(xùn)練的是SVM權(quán)重向量;?
由于負(fù)樣本太多,采用hard negative mining的方法在負(fù)樣本中選取有代表性的負(fù)樣本,該方法具體見。
Bounding-box regression訓(xùn)練
| 正樣本 | 與Ground Truth相交IoU最大的Region Proposal,并且IoU>0.6的Region Proposal |
輸入數(shù)據(jù)為某類型樣本對(duì)N個(gè):以及所對(duì)應(yīng)的AlexNet CNN網(wǎng)絡(luò)Pool5層特征,輸出回歸后的建議框Bounding-box,訓(xùn)練的是,,,四種變換操作的權(quán)重向量。具體見前面分析。
。解釋分析
什么叫有監(jiān)督預(yù)訓(xùn)練?為什么要進(jìn)行有監(jiān)督預(yù)訓(xùn)練?
有監(jiān)督預(yù)訓(xùn)練也稱之為遷移學(xué)習(xí),舉例說明:若有大量標(biāo)注信息的人臉年齡分類的正負(fù)樣本圖片,利用樣本訓(xùn)練了CNN網(wǎng)絡(luò)用于人臉年齡識(shí)別;現(xiàn)在要通過人臉進(jìn)行性別識(shí)別,那么就可以去掉已經(jīng)訓(xùn)練好的人臉年齡識(shí)別網(wǎng)絡(luò)CNN的最后一層或幾層,換成所需要的分類層,前面層的網(wǎng)絡(luò)參數(shù)直接使用為初始化參數(shù),修改層的網(wǎng)絡(luò)參數(shù)隨機(jī)初始化,再利用人臉性別分類的正負(fù)樣本圖片進(jìn)行訓(xùn)練,得到人臉性別識(shí)別網(wǎng)絡(luò),這種方法就叫做有監(jiān)督預(yù)訓(xùn)練。這種方式可以很好地解決小樣本數(shù)據(jù)無法訓(xùn)練深層CNN網(wǎng)絡(luò)的問題,我們都知道小樣本數(shù)據(jù)訓(xùn)練很容易造成網(wǎng)絡(luò)過擬合,但是在大樣本訓(xùn)練后利用其參數(shù)初始化網(wǎng)絡(luò)可以很好地訓(xùn)練小樣本,這解決了小樣本訓(xùn)練的難題。?
這篇文章最大的亮點(diǎn)就是采用了這種思想,ILSVRC樣本集上用于圖片分類的含標(biāo)注類別的訓(xùn)練集有1millon之多,總共含有1000類;而PASCAL VOC 2007樣本集上用于物體檢測(cè)的含標(biāo)注類別和位置信息的訓(xùn)練集只有10k,總共含有20類,直接用這部分?jǐn)?shù)據(jù)訓(xùn)練容易造成過擬合,因此文中利用ILSVRC2012的訓(xùn)練集先進(jìn)行有監(jiān)督預(yù)訓(xùn)練。
ILSVRC 2012與PASCAL VOC 2007數(shù)據(jù)集有冗余嗎?
即使圖像分類與目標(biāo)檢測(cè)任務(wù)本質(zhì)上是不同的,理論上應(yīng)該不會(huì)出現(xiàn)數(shù)據(jù)集冗余問題,但是作者還是通過兩種方式測(cè)試了PASCAL 2007測(cè)試集和ILSVRC 2012訓(xùn)練集、驗(yàn)證集的重合度:第一種方式是檢查網(wǎng)絡(luò)相冊(cè)IDs,4952個(gè)PASCAL 2007測(cè)試集一共出現(xiàn)了31張重復(fù)圖片,0.63%重復(fù)率;第二種方式是用GIST描述器匹配的方法,4952個(gè)PASCAL 2007測(cè)試集一共出現(xiàn)了38張重復(fù)圖片【包含前面31張圖片】,0.77%重復(fù)率,這說明PASCAL 2007測(cè)試集和ILSVRC 2012訓(xùn)練集、驗(yàn)證集基本上不重合,沒有數(shù)據(jù)冗余問題存在。
可以不進(jìn)行特定樣本下的微調(diào)嗎?可以直接采用AlexNet CNN網(wǎng)絡(luò)的特征進(jìn)行SVM訓(xùn)練嗎?
文中設(shè)計(jì)了沒有進(jìn)行微調(diào)的對(duì)比實(shí)驗(yàn),分別就AlexNet CNN網(wǎng)絡(luò)的pool5、fc6、fc7層進(jìn)行特征提取,輸入SVM進(jìn)行訓(xùn)練,這相當(dāng)于把AlexNet CNN網(wǎng)絡(luò)當(dāng)做萬精油使用,類似HOG、SIFT等做特征提取一樣,不針對(duì)特征任務(wù)。實(shí)驗(yàn)結(jié)果發(fā)現(xiàn)f6層提取的特征比f7層的mAP還高,pool5層提取的特征與f6、f7層相比mAP差不多;?
在PASCAL VOC 2007數(shù)據(jù)集上采取了微調(diào)后fc6、fc7層特征較pool5層特征用于SVM訓(xùn)練提升mAP十分明顯;?
由此作者得出結(jié)論:不針對(duì)特定任務(wù)進(jìn)行微調(diào),而將CNN當(dāng)成特征提取器,pool5層得到的特征是基礎(chǔ)特征,類似于HOG、SIFT,類似于只學(xué)習(xí)到了人臉共性特征;從fc6和fc7等全連接層中所學(xué)習(xí)到的特征是針對(duì)特征任務(wù)特定樣本的特征,類似于學(xué)習(xí)到了分類性別分類年齡的個(gè)性特征。
為什么微調(diào)時(shí)和訓(xùn)練SVM時(shí)所采用的正負(fù)樣本閾值【0.5和0.3】不一致?
微調(diào)階段是由于CNN對(duì)小樣本容易過擬合,需要大量訓(xùn)練數(shù)據(jù),故對(duì)IoU限制寬松:Ground Truth+與Ground Truth相交IoU>0.5的建議框?yàn)檎龢颖?#xff0c;否則為負(fù)樣本;?
SVM這種機(jī)制是由于其適用于小樣本訓(xùn)練,故對(duì)樣本IoU限制嚴(yán)格:Ground Truth為正樣本,與Ground Truth相交IoU<0.3的建議框?yàn)樨?fù)樣本。
為什么不直接采用微調(diào)后的AlexNet CNN網(wǎng)絡(luò)最后一層SoftMax進(jìn)行21分類【20類+背景】?
因?yàn)槲⒄{(diào)時(shí)和訓(xùn)練SVM時(shí)所采用的正負(fù)樣本閾值不同,微調(diào)階段正樣本定義并不強(qiáng)調(diào)精準(zhǔn)的位置,而SVM正樣本只有Ground Truth;并且微調(diào)階段的負(fù)樣本是隨機(jī)抽樣的,而SVM的負(fù)樣本是經(jīng)過hard negative mining方法篩選的;導(dǎo)致在采用SoftMax會(huì)使PSACAL VOC 2007測(cè)試集上mAP從54.2%降低到50.9%。
&結(jié)果怎么樣
PASCAL VOC 2010測(cè)試集上實(shí)現(xiàn)了53.7%的mAP;
PASCAL VOC 2012測(cè)試集上實(shí)現(xiàn)了53.3%的mAP;
計(jì)算Region Proposals和features平均所花時(shí)間:13s/image on a GPU;53s/image on a CPU。
&還存在什么問題
很明顯,最大的缺點(diǎn)是對(duì)一張圖片的處理速度慢,這是由于一張圖片中由selective search算法得出的約2k個(gè)建議框都需要經(jīng)過變形處理后由CNN前向網(wǎng)絡(luò)計(jì)算一次特征,這其中涵蓋了對(duì)一張圖片中多個(gè)重復(fù)區(qū)域的重復(fù)計(jì)算,很累贅;
知乎上有人說R-CNN網(wǎng)絡(luò)需要兩次CNN前向計(jì)算,第一次得到建議框特征給SVM分類識(shí)別,第二次對(duì)非極大值抑制后的建議框再次進(jìn)行CNN前向計(jì)算獲得Pool5特征,以便對(duì)建議框進(jìn)行回歸得到更精確的bounding-box,這里文中并沒有說是怎么做的,博主認(rèn)為也可能在計(jì)算2k個(gè)建議框的CNN特征時(shí),在硬盤上保留了2k個(gè)建議框的Pool5特征,雖然這樣做只需要一次CNN前向網(wǎng)絡(luò)運(yùn)算,但是耗費(fèi)大量磁盤空間;
訓(xùn)練時(shí)間長(zhǎng),雖然文中沒有明確指出具體訓(xùn)練時(shí)間,但由于采用RoI-centric sampling【從所有圖片的所有建議框中均勻取樣】進(jìn)行訓(xùn)練,那么每次都需要計(jì)算不同圖片中不同建議框CNN特征,無法共享同一張圖的CNN特征,訓(xùn)練速度很慢;
整個(gè)測(cè)試過程很復(fù)雜,要先提取建議框,之后提取每個(gè)建議框CNN特征,再用SVM分類,做非極大值抑制,最后做bounding-box回歸才能得到圖片中物體的種類以及位置信息;同樣訓(xùn)練過程也很復(fù)雜,ILSVRC 2012上預(yù)訓(xùn)練CNN,PASCAL VOC 2007上微調(diào)CNN,做20類SVM分類器的訓(xùn)練和20類bounding-box回歸器的訓(xùn)練;這些不連續(xù)過程必然涉及到特征存儲(chǔ)、浪費(fèi)磁盤空間等問題。
版權(quán)聲明:本文為博主原創(chuàng)文章,未經(jīng)博主允許不得轉(zhuǎn)載。
http://blog.csdn.net/u011534057/article/details/51218250
基于R-CNN的物體檢測(cè)
參考地址:http://blog.csdn.NET/hjimce/article/details/50187029
一、相關(guān)理論
? ?本篇博文主要講解2014年CVPR上的經(jīng)典paper:《Rich feature hierarchies?for?Accurate Object Detection and Segmentation》,這篇文章的算法思想又被稱之為:R-CNN(Regions with Convolutional Neural Network Features),是物體檢測(cè)領(lǐng)域曾經(jīng)獲得state-of-art精度的經(jīng)典文獻(xiàn)。
? ?這篇paper的思想,改變了物體檢測(cè)的總思路,現(xiàn)在好多文獻(xiàn)關(guān)于深度學(xué)習(xí)的物體檢測(cè)的算法,基本上都是繼承了這個(gè)思想,比如:《Spatial Pyramid Pooling in Deep Convolutional?Networks for Visual Recognition》,所以學(xué)習(xí)經(jīng)典算法,有助于我們以后搞物體檢測(cè)的其它paper。
? ? 之前剛開始接觸物體檢測(cè)算法的時(shí)候,老是分不清deep learning中,物體檢測(cè)和圖片分類算法上的區(qū)別,弄得我頭好暈,終于在這篇paper上,看到了解釋。物體檢測(cè)和圖片分類的區(qū)別:圖片分類不需要定位,而物體檢測(cè)需要定位出物體的位置,也就是相當(dāng)于把物體的bbox檢測(cè)出來,還有一點(diǎn)物體檢測(cè)是要把所有圖片中的物體都識(shí)別定位出來。
(筆記后感by ym:
個(gè)人理解testing整個(gè)流程即:先將region通過ss檢測(cè)出來(2k+),然后根據(jù)cnn提取的region特征丟入svm進(jìn)行分類(compute score),得到的就是一個(gè)region-bbox以及對(duì)應(yīng)的類別,再利用(IoU->nms)得到具體的框,目的防止泛濫,為了精確bbox,再根據(jù)pool5 feature做了個(gè)bbox regression來decrease location error,training的trick則為hnm+finetuning)
------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Selective Search
因?yàn)檠芯縍CNN的需要,在這里看一下Selective Search的操作流程
原文鏈接:http://koen.me/research/pub/uijlings-ijcv2013-draft.pdf
選擇性搜索遵循如下的原則:
------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
二、基礎(chǔ)知識(shí)
1、有監(jiān)督預(yù)訓(xùn)練與無監(jiān)督預(yù)訓(xùn)練
(1)無監(jiān)督預(yù)訓(xùn)練(Unsupervised pre-training)
無監(jiān)督預(yù)訓(xùn)練這個(gè)名詞我們比較熟悉,棧式自編碼、DBM采用的都是采用無監(jiān)督預(yù)訓(xùn)練。因?yàn)轭A(yù)訓(xùn)練階段的樣本不需要人工標(biāo)注數(shù)據(jù),所以就叫做無監(jiān)督預(yù)訓(xùn)練。
(2)有監(jiān)督預(yù)訓(xùn)練(Supervised pre-training)
所謂的有監(jiān)督預(yù)訓(xùn)練,我們也可以把它稱之為遷移學(xué)習(xí)。比如你已經(jīng)有一大堆標(biāo)注好的人臉年齡分類的圖片數(shù)據(jù),訓(xùn)練了一個(gè)CNN,用于人臉的年齡識(shí)別。然后當(dāng)你遇到新的項(xiàng)目任務(wù)是:人臉性別識(shí)別,那么這個(gè)時(shí)候你可以利用已經(jīng)訓(xùn)練好的年齡識(shí)別CNN模型,去掉最后一層,然后其它的網(wǎng)絡(luò)層參數(shù)就直接復(fù)制過來,繼續(xù)進(jìn)行訓(xùn)練。這就是所謂的遷移學(xué)習(xí),說的簡(jiǎn)單一點(diǎn)就是把一個(gè)任務(wù)訓(xùn)練好的參數(shù),拿到另外一個(gè)任務(wù),作為神經(jīng)網(wǎng)絡(luò)的初始參數(shù)值,這樣相比于你直接采用隨機(jī)初始化的方法,精度可以有很大的提高。
圖片分類標(biāo)注好的訓(xùn)練數(shù)據(jù)非常多,但是物體檢測(cè)的標(biāo)注數(shù)據(jù)卻很少,如何用少量的標(biāo)注數(shù)據(jù),訓(xùn)練高質(zhì)量的模型,這就是文獻(xiàn)最大的特點(diǎn),這篇paper采用了遷移學(xué)習(xí)的思想。文獻(xiàn)就先用了ILSVRC2012這個(gè)訓(xùn)練數(shù)據(jù)庫(這是一個(gè)圖片分類訓(xùn)練數(shù)據(jù)庫),先進(jìn)行網(wǎng)絡(luò)的圖片分類訓(xùn)練。這個(gè)數(shù)據(jù)庫有大量的標(biāo)注數(shù)據(jù),共包含了1000種類別物體,因此預(yù)訓(xùn)練階段cnn模型的輸出是1000個(gè)神經(jīng)元,或者我們也直接可以采用Alexnet訓(xùn)練好的模型參數(shù)。
2、IOU的定義
因?yàn)闆]有搞過物體檢測(cè)不懂IOU這個(gè)概念,所以就簡(jiǎn)單介紹一下。物體檢測(cè)需要定位出物體的bounding box,就像下面的圖片一樣,我們不僅要定位出車輛的bounding box 我們還要識(shí)別出bounding box 里面的物體就是車輛。對(duì)于bounding box的定位精度,有一個(gè)很重要的概念,因?yàn)槲覀兯惴ú豢赡馨俜职俑斯?biāo)注的數(shù)據(jù)完全匹配,因此就存在一個(gè)定位精度評(píng)價(jià)公式:IOU。
IOU定義了兩個(gè)bounding box的重疊度,如下圖所示:
矩形框A、B的一個(gè)重合度IOU計(jì)算公式為:
IOU=(A∩B)/(A∪B)
就是矩形框A、B的重疊面積占A、B并集的面積比例:
IOU=SI/(SA+SB-SI)
3、非極大值抑制
因?yàn)橐粫?huì)兒講RCNN算法,會(huì)從一張圖片中找出n多個(gè)可能是物體的矩形框,然后為每個(gè)矩形框?yàn)樽鲱悇e分類概率:
就像上面的圖片一樣,定位一個(gè)車輛,最后算法就找出了一堆的方框,我們需要判別哪些矩形框是沒用的。非極大值抑制:先假設(shè)有6個(gè)矩形框,根據(jù)分類器類別分類概率做排序,從小到大分別屬于車輛的概率分別為A、B、C、D、E、F。
(1)從最大概率矩形框F開始,分別判斷A~E與F的重疊度IOU是否大于某個(gè)設(shè)定的閾值;
(2)假設(shè)B、D與F的重疊度超過閾值,那么就扔掉B、D;并標(biāo)記第一個(gè)矩形框F,是我們保留下來的。
(3)從剩下的矩形框A、C、E中,選擇概率最大的E,然后判斷E與A、C的重疊度,重疊度大于一定的閾值,那么就扔掉;并標(biāo)記E是我們保留下來的第二個(gè)矩形框。
就這樣一直重復(fù),找到所有被保留下來的矩形框。
非極大值抑制(NMS)非極大值抑制顧名思義就是抑制不是極大值的元素,搜索局部的極大值。這個(gè)局部代表的是一個(gè)鄰域,鄰域有兩個(gè)參數(shù)可變,一是鄰域的維數(shù),二是鄰域的大小。這里不討論通用的NMS算法,而是用于在目標(biāo)檢測(cè)中用于提取分?jǐn)?shù)最高的窗口的。例如在行人檢測(cè)中,滑動(dòng)窗口經(jīng)提取特征,經(jīng)分類器分類識(shí)別后,每個(gè)窗口都會(huì)得到一個(gè)分?jǐn)?shù)。但是滑動(dòng)窗口會(huì)導(dǎo)致很多窗口與其他窗口存在包含或者大部分交叉的情況。這時(shí)就需要用到NMS來選取那些鄰域里分?jǐn)?shù)最高(是行人的概率最大),并且抑制那些分?jǐn)?shù)低的窗口。
------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
canny detection(canny NMS):對(duì)梯度幅值進(jìn)行非極大值抑制
?? ? ? ?圖像梯度幅值矩陣中的元素值越大,說明圖像中該點(diǎn)的梯度值越大,但這不不能說明該點(diǎn)就是邊緣(這僅僅是屬于圖像增強(qiáng)的過程)。在Canny算法中,非極大值抑制是進(jìn)行邊緣檢測(cè)的重要步驟,通俗意義上是指尋找像素點(diǎn)局部最大值,將非極大值點(diǎn)所對(duì)應(yīng)的灰度值置為0,這樣可以剔除掉一大部分非邊緣的點(diǎn)(這是本人的理解)。圖1 非極大值抑制原理
?? ? ? ?根據(jù)圖1 可知,要進(jìn)行非極大值抑制,就首先要確定像素點(diǎn)C的灰度值在其8值鄰域內(nèi)是否為最大。圖1中藍(lán)色的線條方向?yàn)镃點(diǎn)的梯度方向,這樣就可以確定其局部的最大值肯定分布在這條線上,也即出了C點(diǎn)外,梯度方向的交點(diǎn)dTmp1和dTmp2這兩個(gè)點(diǎn)的值也可能會(huì)是局部最大值。因此,判斷C點(diǎn)灰度與這兩個(gè)點(diǎn)灰度大小即可判斷C點(diǎn)是否為其鄰域內(nèi)的局部最大灰度點(diǎn)。如果經(jīng)過判斷,C點(diǎn)灰度值小于這兩個(gè)點(diǎn)中的任一個(gè),那就說明C點(diǎn)不是局部極大值,那么則可以排除C點(diǎn)為邊緣。這就是非極大值抑制的工作原理。
?? ? ? ?作者認(rèn)為,在理解的過程中需要注意以下兩點(diǎn):
?? ? ? ?1)中非最大抑制是回答這樣一個(gè)問題:“當(dāng)前的梯度值在梯度方向上是一個(gè)局部最大值嗎?” 所以,要把當(dāng)前位置的梯度值與梯度方向上兩側(cè)的梯度值進(jìn)行比較;
?? ? ? ?2)梯度方向垂直于邊緣方向。
?? ? ? ?但實(shí)際上,我們只能得到C點(diǎn)鄰域的8個(gè)點(diǎn)的值,而dTmp1和dTmp2并不在其中,要得到這兩個(gè)值就需要對(duì)該兩個(gè)點(diǎn)兩端的已知灰度進(jìn)行線性插值,也即根據(jù)圖1中的g1和g2對(duì)dTmp1進(jìn)行插值,根據(jù)g3和g4對(duì)dTmp2進(jìn)行插值,這要用到其梯度方向,這是上文Canny算法中要求解梯度方向矩陣Thita的原因。
?? ? ? ?完成非極大值抑制后,會(huì)得到一個(gè)二值圖像,非邊緣的點(diǎn)灰度值均為0,可能為邊緣的局部灰度極大值點(diǎn)可設(shè)置其灰度為128。根據(jù)下文的具體測(cè)試圖像可以看出,這樣一個(gè)檢測(cè)結(jié)果還是包含了很多由噪聲及其他原因造成的假邊緣。因此還需要進(jìn)一步的處理。------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
4、VOC物體檢測(cè)任務(wù)
這個(gè)就相當(dāng)于一個(gè)競(jìng)賽,里面包含了20個(gè)物體類別:http://host.robots.ox.ac.uk/pascal/VOC/voc2012/examples/index.html? 還有一個(gè)背景,總共就相當(dāng)于21個(gè)類別,因此一會(huì)設(shè)計(jì)fine-tuning CNN的時(shí)候,我們softmax分類輸出層為21個(gè)神經(jīng)元。
三、算法總體思路?
? ? 開始講解paper前,我們需要先把握總體思路,才容易理解paper的算法。
(作者通過在recongnition using regions操作的方法來解決CNN的定位問題,這個(gè)方法在目標(biāo)檢測(cè)和語義分割中都取得了成功。測(cè)試階段,這個(gè)方法對(duì)每一個(gè)輸入的圖片產(chǎn)生近2000個(gè)不分種類的“region proposals,使用CNNs從每個(gè)region proposals”中提取一個(gè)固定長(zhǎng)度的特征向量,然后對(duì)每個(gè)region proposal(SS for Detction)提取的特征向量使用特定種類的線性SVM進(jìn)行分類(CNN+SVM for classification)。)
? ? 圖片分類與物體檢測(cè)不同,物體檢測(cè)需要定位出物體的位置,這種就相當(dāng)于回歸問題,求解一個(gè)包含物體的方框。而圖片分類其實(shí)是邏輯回歸。這種方法對(duì)于單物體檢測(cè)還不錯(cuò),但是對(duì)于多物體檢測(cè)就……
? ? 因此paper采用的方法是:首先輸入一張圖片,我們先定位出2000個(gè)物體候選框,然后采用CNN提取每個(gè)候選框中圖片的特征向量,特征向量的維度為4096維,接著采用svm算法對(duì)各個(gè)候選框中的物體進(jìn)行分類識(shí)別。也就是總個(gè)過程分為三個(gè)程序:a、找出候選框;b、利用CNN提取特征向量;c、利用SVM進(jìn)行特征向量分類。具體的流程如下圖片所示:
后面我們將根據(jù)這三個(gè)過程,進(jìn)行每個(gè)步驟的詳細(xì)講解。
四、候選框搜索階段
(作者也考慮過使用一個(gè)滑動(dòng)窗口的方法,然而由于更深的網(wǎng)絡(luò),更大的輸入圖片和滑動(dòng)步長(zhǎng),使得使用滑動(dòng)窗口來定位的方法充滿了挑戰(zhàn))
1、實(shí)現(xiàn)方式
當(dāng)我們輸入一張圖片時(shí),我們要搜索出所有可能是物體的區(qū)域,這個(gè)采用的方法是傳統(tǒng)文獻(xiàn)的算法:《search for object recognition》,通過這個(gè)算法我們搜索出2000個(gè)候選框。然后從上面的總流程圖中可以看到,搜出的候選框是矩形的,而且是大小各不相同。然而CNN對(duì)輸入圖片的大小是有固定的,如果把搜索到的矩形選框不做處理,就扔進(jìn)CNN中,肯定不行。因此對(duì)于每個(gè)輸入的候選框都需要縮放到固定的大小。下面我們講解要怎么進(jìn)行縮放處理,為了簡(jiǎn)單起見我們假設(shè)下一階段CNN所需要的輸入圖片大小是個(gè)正方形圖片227*227。因?yàn)槲覀兘?jīng)過selective search 得到的是矩形框,paper試驗(yàn)了兩種不同的處理方法:
(1)各向異性縮放
這種方法很簡(jiǎn)單,就是不管圖片的長(zhǎng)寬比例,管它是否扭曲,進(jìn)行縮放就是了,全部縮放到CNN輸入的大小227*227,如下圖(D)所示;
(2)各向同性縮放
因?yàn)閳D片扭曲后,估計(jì)會(huì)對(duì)后續(xù)CNN的訓(xùn)練精度有影響,于是作者也測(cè)試了“各向同性縮放”方案。這個(gè)有兩種辦法
A、直接在原始圖片中,把bounding box的邊界進(jìn)行擴(kuò)展延伸成正方形,然后再進(jìn)行裁剪;如果已經(jīng)延伸到了原始圖片的外邊界,那么就用bounding box中的顏色均值填充;如下圖(B)所示;
B、先把bounding box圖片裁剪出來,然后用固定的背景顏色填充成正方形圖片(背景顏色也是采用bounding box的像素顏色均值),如下圖(C)所示;
對(duì)于上面的異性、同性縮放,文獻(xiàn)還有個(gè)padding處理,上面的示意圖中第1、3行就是結(jié)合了padding=0,第2、4行結(jié)果圖采用padding=16的結(jié)果。經(jīng)過最后的試驗(yàn),作者發(fā)現(xiàn)采用各向異性縮放、padding=16的精度最高,具體不再啰嗦。
OK,上面處理完后,可以得到指定大小的圖片,因?yàn)槲覀兒竺孢€要繼續(xù)用這2000個(gè)候選框圖片,繼續(xù)訓(xùn)練CNN、SVM。然而人工標(biāo)注的數(shù)據(jù)一張圖片中就只標(biāo)注了正確的bounding box,我們搜索出來的2000個(gè)矩形框也不可能會(huì)出現(xiàn)一個(gè)與人工標(biāo)注完全匹配的候選框。
因此我們需要用IOU為2000個(gè)bounding box打標(biāo)簽,以便下一步CNN訓(xùn)練使用。在CNN階段,如果用selective?search挑選出來的候選框與物體的人工標(biāo)注矩形框的重疊區(qū)域IoU大于0.5,那么我們就把這個(gè)候選框標(biāo)注成物體類別,否則我們就把它當(dāng)做背景類別。SVM階段的正負(fù)樣本標(biāo)簽問題,等到了svm講解階段我再具體講解。
五、CNN特征提取階段
1、算法實(shí)現(xiàn)
a、網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)階段
網(wǎng)絡(luò)架構(gòu)我們有兩個(gè)可選方案:第一選擇經(jīng)典的Alexnet;第二選擇VGG16。經(jīng)過測(cè)試Alexnet精度為58.5%,VGG16精度為66%。VGG這個(gè)模型的特點(diǎn)是選擇比較小的卷積核、選擇較小的跨步,這個(gè)網(wǎng)絡(luò)的精度高,不過計(jì)算量是Alexnet的7倍。后面為了簡(jiǎn)單起見,我們就直接選用Alexnet,并進(jìn)行講解;Alexnet特征提取部分包含了5個(gè)卷積層、2個(gè)全連接層,在Alexnet中p5層神經(jīng)元個(gè)數(shù)為9216、?f6、f7的神經(jīng)元個(gè)數(shù)都是4096,通過這個(gè)網(wǎng)絡(luò)訓(xùn)練完畢后,最后提取特征每個(gè)輸入候選框圖片都能得到一個(gè)4096維的特征向量。
b、網(wǎng)絡(luò)有監(jiān)督預(yù)訓(xùn)練階段
參數(shù)初始化部分:物體檢測(cè)的一個(gè)難點(diǎn)在于,物體標(biāo)簽訓(xùn)練數(shù)據(jù)少,如果要直接采用隨機(jī)初始化CNN參數(shù)的方法,那么目前的訓(xùn)練數(shù)據(jù)量是遠(yuǎn)遠(yuǎn)不夠的。這種情況下,最好的是采用某些方法,把參數(shù)初始化了,然后在進(jìn)行有監(jiān)督的參數(shù)微調(diào),這邊文獻(xiàn)采用的是有監(jiān)督的預(yù)訓(xùn)練。所以paper在設(shè)計(jì)網(wǎng)絡(luò)結(jié)構(gòu)的時(shí)候,是直接用Alexnet的網(wǎng)絡(luò),然后連參數(shù)也是直接采用它的參數(shù),作為初始的參數(shù)值,然后再fine-tuning訓(xùn)練。
網(wǎng)絡(luò)優(yōu)化求解:采用隨機(jī)梯度下降法,學(xué)習(xí)速率大小為0.001;
C、fine-tuning階段
我們接著采用selective?search?搜索出來的候選框,然后處理到指定大小圖片,繼續(xù)對(duì)上面預(yù)訓(xùn)練的cnn模型進(jìn)行fine-tuning訓(xùn)練。假設(shè)要檢測(cè)的物體類別有N類,那么我們就需要把上面預(yù)訓(xùn)練階段的CNN模型的最后一層給替換掉,替換成N+1個(gè)輸出的神經(jīng)元(加1,表示還有一個(gè)背景) (20 + 1bg),然后這一層直接采用參數(shù)隨機(jī)初始化的方法,其它網(wǎng)絡(luò)層的參數(shù)不變;接著就可以開始繼續(xù)SGD訓(xùn)練了。開始的時(shí)候,SGD學(xué)習(xí)率選擇0.001,在每次訓(xùn)練的時(shí)候,我們batch?size大小選擇128,其中32個(gè)事正樣本、96個(gè)事負(fù)樣本(正負(fù)樣本的定義前面已經(jīng)提過,不再解釋)。
2、問題解答
OK,看完上面的CNN過程后,我們會(huì)有一些細(xì)節(jié)方面的疑問。首先,反正CNN都是用于提取特征,那么我直接用Alexnet做特征提取,省去fine-tuning階段可以嗎?這個(gè)是可以的,你可以不需重新訓(xùn)練CNN,直接采用Alexnet模型,提取出p5、或者f6、f7的特征,作為特征向量,然后進(jìn)行訓(xùn)練svm,只不過這樣精度會(huì)比較低。那么問題又來了,沒有fine-tuning的時(shí)候,要選擇哪一層的特征作為cnn提取到的特征呢?我們有可以選擇p5、f6、f7,這三層的神經(jīng)元個(gè)數(shù)分別是9216、4096、4096。從p5到p6這層的參數(shù)個(gè)數(shù)是:4096*9216?,從f6到f7的參數(shù)是4096*4096。那么具體是選擇p5、還是f6,又或者是f7呢?
文獻(xiàn)paper給我們證明了一個(gè)理論,如果你不進(jìn)行fine-tuning,也就是你直接把Alexnet模型當(dāng)做萬金油使用,類似于HOG、SIFT一樣做特征提取,不針對(duì)特定的任務(wù)。然后把提取的特征用于分類,結(jié)果發(fā)現(xiàn)p5的精度竟然跟f6、f7差不多,而且f6提取到的特征還比f7的精度略高;如果你進(jìn)行fine-tuning了,那么f7、f6的提取到的特征最會(huì)訓(xùn)練的svm分類器的精度就會(huì)飆漲。
據(jù)此我們明白了一個(gè)道理,如果不針對(duì)特定任務(wù)進(jìn)行fine-tuning,而是把CNN當(dāng)做特征提取器,卷積層所學(xué)到的特征其實(shí)就是基礎(chǔ)的共享特征提取層,就類似于SIFT算法一樣,可以用于提取各種圖片的特征,而f6、f7所學(xué)習(xí)到的特征是用于針對(duì)特定任務(wù)的特征。
打個(gè)比方:對(duì)于人臉性別識(shí)別來說,一個(gè)CNN模型前面的卷積層所學(xué)習(xí)到的特征就類似于學(xué)習(xí)人臉共性特征,然后全連接層所學(xué)習(xí)的特征就是針對(duì)性別分類的特征了。
還有另外一個(gè)疑問:CNN訓(xùn)練的時(shí)候,本來就是對(duì)bounding?box的物體進(jìn)行識(shí)別分類訓(xùn)練,是一個(gè)端到端的任務(wù),在訓(xùn)練的時(shí)候最后一層softmax就是分類層.
那么為什么作者閑著沒事干要先用CNN做特征提取(提取fc7層數(shù)據(jù)),然后再把提取的特征用于訓(xùn)練svm分類器?
這個(gè)是因?yàn)閟vm訓(xùn)練和cnn訓(xùn)練過程的正負(fù)樣本定義方式各有不同,導(dǎo)致最后采用CNN softmax輸出比采用svm精度還低。
事情是這樣的,cnn在訓(xùn)練的時(shí)候,對(duì)訓(xùn)練數(shù)據(jù)做了比較寬松的標(biāo)注,比如一個(gè)bounding?box可能只包含物體的一部分,那么我也把它標(biāo)注為正樣本,用于訓(xùn)練cnn;采用這個(gè)方法的主要原因在于因?yàn)镃NN容易過擬合,所以需要大量的訓(xùn)練數(shù)據(jù),所以在CNN訓(xùn)練階段我們是對(duì)Bounding box的位置限制條件限制的比較松(IOU只要大于0.5都被標(biāo)注為正樣本了);
然而svm訓(xùn)練的時(shí)候,因?yàn)閟vm適用于少樣本訓(xùn)練,所以對(duì)于訓(xùn)練樣本數(shù)據(jù)的IOU要求比較嚴(yán)格,我們只有當(dāng)bounding?box把整個(gè)物體都包含進(jìn)去了,我們才把它標(biāo)注為物體類別,然后訓(xùn)練svm,具體請(qǐng)看下文。
六、SVM訓(xùn)練、測(cè)試階段
這是一個(gè)二分類問題,我么假設(shè)我們要檢測(cè)車輛。我們知道只有當(dāng)bounding?box把整量車都包含在內(nèi),那才叫正樣本;如果bounding box 沒有包含到車輛,那么我們就可以把它當(dāng)做負(fù)樣本。但問題是當(dāng)我們的檢測(cè)窗口只有部分包好物體,那該怎么定義正負(fù)樣本呢?作者測(cè)試了IOU閾值各種方案數(shù)值0,0.1,0.2,0.3,0.4,0.5。最后我們通過訓(xùn)練發(fā)現(xiàn),如果選擇IOU閾值為0.3效果最好(選擇為0精度下降了4個(gè)百分點(diǎn),選擇0.5精度下降了5個(gè)百分點(diǎn)),即當(dāng)重疊度小于0.3的時(shí)候,我們就把它標(biāo)注為負(fù)樣本。一旦CNN f7層特征被提取出來,那么我們將為每個(gè)物體累訓(xùn)練一個(gè)svm分類器。當(dāng)我們用CNN提取2000個(gè)候選框,可以得到2000*4096這樣的特征向量矩陣,然后我們只需要把這樣的一個(gè)矩陣與svm權(quán)值矩陣4096*N點(diǎn)(Therefore,the pool5 need to be set as)乘(N為分類類別數(shù)目,因?yàn)槲覀冇?xùn)練的N個(gè)svm,每個(gè)svm包好了4096個(gè)W),就可以得到結(jié)果了。
參考文獻(xiàn):
1、《Rich feature hierarchies?for?Accurate Object Detection and Segmentation》
2、《Spatial Pyramid Pooling in Deep Convolutional?Networks for Visual Recognition》
reference link:?http://blog.csdn.NET/shenxiaolu1984/article/details/51066975
Region CNN(RCNN)可以說是利用深度學(xué)習(xí)進(jìn)行目標(biāo)檢測(cè)的開山之作。作者Ross Girshick多次在PASCAL VOC的目標(biāo)檢測(cè)競(jìng)賽中折桂,2010年更帶領(lǐng)團(tuán)隊(duì)獲得終身成就獎(jiǎng),如今供職于Facebook旗下的FAIR。?
這篇文章思路簡(jiǎn)潔,在DPM方法多年平臺(tái)期后,效果提高顯著。包括本文在內(nèi)的一系列目標(biāo)檢測(cè)算法:RCNN,Fast RCNN,?Faster RCNN代表當(dāng)下目標(biāo)檢測(cè)的前沿水平,在github都給出了基于Caffe的源碼。
思想
本文解決了目標(biāo)檢測(cè)中的兩個(gè)關(guān)鍵問題。
問題一:速度
經(jīng)典的目標(biāo)檢測(cè)算法使用滑動(dòng)窗法依次判斷所有可能的區(qū)域。本文則預(yù)先提取一系列較可能是物體的候選區(qū)域,之后僅在這些候選區(qū)域上提取特征,進(jìn)行判斷。
問題二:訓(xùn)練集
經(jīng)典的目標(biāo)檢測(cè)算法在區(qū)域中提取人工設(shè)定的特征(Haar,HOG)。本文則需要訓(xùn)練深度網(wǎng)絡(luò)進(jìn)行特征提取。可供使用的有兩個(gè)數(shù)據(jù)庫:?
一個(gè)較大的識(shí)別庫(ImageNet ILSVC 2012):標(biāo)定每張圖片中物體的類別。一千萬圖像,1000類。?
一個(gè)較小的檢測(cè)庫(PASCAL VOC 2007):標(biāo)定每張圖片中,物體的類別和位置。一萬圖像,20類。?
本文使用識(shí)別庫進(jìn)行預(yù)訓(xùn)練,而后用檢測(cè)庫調(diào)優(yōu)參數(shù)。最后在檢測(cè)庫上評(píng)測(cè)。
流程
RCNN算法分為4個(gè)步驟?
- 一張圖像生成1K~2K個(gè)候選區(qū)域?
- 對(duì)每個(gè)候選區(qū)域,使用深度網(wǎng)絡(luò)提取特征?
- 特征送入每一類的SVM?分類器,判別是否屬于該類?
- 使用回歸器精細(xì)修正候選框位置?
候選區(qū)域生成
使用了Selective Search1方法從一張圖像生成約2000-3000個(gè)候選區(qū)域?;舅悸啡缦?#xff1a;?
- 使用一種過分割手段,將圖像分割成小區(qū)域?
- 查看現(xiàn)有小區(qū)域,合并可能性最高的兩個(gè)區(qū)域。重復(fù)直到整張圖像合并成一個(gè)區(qū)域位置?
- 輸出所有曾經(jīng)存在過的區(qū)域,所謂候選區(qū)域
候選區(qū)域生成和后續(xù)步驟相對(duì)獨(dú)立,實(shí)際可以使用任意算法進(jìn)行。
合并規(guī)則
優(yōu)先合并以下四種區(qū)域:?
- 顏色(顏色直方圖)相近的?
- 紋理(梯度直方圖)相近的?
- 合并后總面積小的?
- 合并后,總面積在其BBOX中所占比例大的
第三條,保證合并操作的尺度較為均勻,避免一個(gè)大區(qū)域陸續(xù)“吃掉”其他小區(qū)域。
例:設(shè)有區(qū)域a-b-c-d-e-f-g-h。較好的合并方式是:ab-cd-ef-gh -> abcd-efgh -> abcdefgh。?
不好的合并方法是:ab-c-d-e-f-g-h ->abcd-e-f-g-h ->abcdef-gh -> abcdefgh。
第四條,保證合并后形狀規(guī)則。
例:左圖適于合并,右圖不適于合并。?
上述四條規(guī)則只涉及區(qū)域的顏色直方圖、紋理直方圖、面積和位置。合并后的區(qū)域特征可以直接由子區(qū)域特征計(jì)算而來,速度較快。
多樣化與后處理
為盡可能不遺漏候選區(qū)域,上述操作在多個(gè)顏色空間中同時(shí)進(jìn)行(RGB,HSV,Lab等)。在一個(gè)顏色空間中,使用上述四條規(guī)則的不同組合進(jìn)行合并。所有顏色空間與所有規(guī)則的全部結(jié)果,在去除重復(fù)后,都作為候選區(qū)域輸出。
作者提供了Selective Search的源碼,內(nèi)含較多.p文件和.mex文件,難以細(xì)查具體實(shí)現(xiàn)。
特征提取
預(yù)處理
使用深度網(wǎng)絡(luò)提取特征之前,首先把候選區(qū)域歸一化成同一尺寸227×227。?
此處有一些細(xì)節(jié)可做變化:外擴(kuò)的尺寸大小,形變時(shí)是否保持原比例,對(duì)框外區(qū)域直接截取還是補(bǔ)灰。會(huì)輕微影響性能。
預(yù)訓(xùn)練
網(wǎng)絡(luò)結(jié)構(gòu)?
基本借鑒Hinton 2012年在Image Net上的分類網(wǎng)絡(luò)2,略作簡(jiǎn)化3。?
?
此網(wǎng)絡(luò)提取的特征為4096維,之后送入一個(gè)4096->1000的全連接(fc)層進(jìn)行分類。?
學(xué)習(xí)率0.01。
訓(xùn)練數(shù)據(jù)?
使用ILVCR 2012的全部數(shù)據(jù)進(jìn)行訓(xùn)練,輸入一張圖片,輸出1000維的類別標(biāo)號(hào)。
調(diào)優(yōu)訓(xùn)練
網(wǎng)絡(luò)結(jié)構(gòu)?
同樣使用上述網(wǎng)絡(luò),最后一層換成4096->21的全連接網(wǎng)絡(luò)。?
學(xué)習(xí)率0.001,每一個(gè)batch包含32個(gè)正樣本(屬于20類)和96個(gè)背景。
訓(xùn)練數(shù)據(jù)?
使用PASCAL VOC 2007的訓(xùn)練集,輸入一張圖片,輸出21維的類別標(biāo)號(hào),表示20類+背景。?
考察一個(gè)候選框和當(dāng)前圖像上所有標(biāo)定框重疊面積最大的一個(gè)。如果重疊比例大于0.5,則認(rèn)為此候選框?yàn)榇藰?biāo)定的類別;否則認(rèn)為此候選框?yàn)楸尘啊?/p>
類別判斷
分類器?
對(duì)每一類目標(biāo),使用一個(gè)線性SVM二類分類器進(jìn)行判別。輸入為深度網(wǎng)絡(luò)輸出的4096維特征,輸出是否屬于此類。?
由于負(fù)樣本很多,使用hard negative mining方法。?
正樣本?
本類的真值標(biāo)定框。?
負(fù)樣本?
考察每一個(gè)候選框,如果和本類所有標(biāo)定框的重疊都小于0.3,認(rèn)定其為負(fù)樣本
位置精修
目標(biāo)檢測(cè)問題的衡量標(biāo)準(zhǔn)是重疊面積:許多看似準(zhǔn)確的檢測(cè)結(jié)果,往往因?yàn)楹蜻x框不夠準(zhǔn)確,重疊面積很小。故需要一個(gè)位置精修步驟。?
回歸器?
對(duì)每一類目標(biāo),使用一個(gè)線性脊回歸器進(jìn)行精修。正則項(xiàng)。?
輸入為深度網(wǎng)絡(luò)pool5層的4096維特征,輸出為xy方向的縮放和平移。?
訓(xùn)練樣本?
判定為本類的候選框中,和真值重疊面積大于0.6的候選框。
結(jié)果
論文發(fā)表的2014年,DPM已經(jīng)進(jìn)入瓶頸期,即使使用復(fù)雜的特征和結(jié)構(gòu)得到的提升也十分有限。本文將深度學(xué)習(xí)引入檢測(cè)領(lǐng)域,一舉將PASCAL VOC上的檢測(cè)率從35.1%提升到53.7%。?
本文的前兩個(gè)步驟(候選區(qū)域提取+特征提取)與待檢測(cè)類別無關(guān),可以在不同類之間共用。這兩步在GPU上約需13秒。?
同時(shí)檢測(cè)多類時(shí),需要倍增的只有后兩步驟(判別+精修),都是簡(jiǎn)單的線性運(yùn)算,速度很快。這兩步對(duì)于100K類別只需10秒。
以本論文為基礎(chǔ),后續(xù)的fast RCNN4(參看這篇博客)和faster RCNN5(參看這篇博客)在速度上有突飛猛進(jìn)的發(fā)展,基本解決了PASCAL VOC上的目標(biāo)檢測(cè)問題。
總結(jié)
- 上一篇: aspnet_regsql在哪里 怎么运
- 下一篇: 数据结构基础(14) --链式队列的设