當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Fast R-CNN论文详解

發(fā)布時(shí)間：2024/9/21 编程问答 30 豆豆

生活随笔收集整理的這篇文章主要介紹了 Fast R-CNN论文详解小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

Fast R-CNN論文詳解

作者：ture_dream

&創(chuàng)新點(diǎn)

規(guī)避R-CNN中冗余的特征提取操作，只對(duì)整張圖像全區(qū)域進(jìn)行一次特征提取；

用RoI pooling層取代最后一層max pooling層，同時(shí)引入建議框信息，提取相應(yīng)建議框特征；

Fast R-CNN網(wǎng)絡(luò)末尾采用并行的不同的全連接層，可同時(shí)輸出分類結(jié)果和窗口回歸結(jié)果，實(shí)現(xiàn)了end-to-end的多任務(wù)訓(xùn)練【建議框提取除外】，也不需要額外的特征存儲(chǔ)空間【R-CNN中這部分特征是供SVM和Bounding-box regression進(jìn)行訓(xùn)練的】；

采用SVD對(duì)Fast R-CNN網(wǎng)絡(luò)末尾并行的全連接層進(jìn)行分解，減少計(jì)算復(fù)雜度，加快檢測速度。

&問題是什么

R-CNN網(wǎng)絡(luò)訓(xùn)練、測試速度都很慢：R-CNN網(wǎng)絡(luò)中，一張圖經(jīng)由selective search算法提取約2k個(gè)建議框【這2k個(gè)建議框大量重疊】，而所有建議框變形后都要輸入AlexNet CNN網(wǎng)絡(luò)提取特征【即約2k次特征提取】，會(huì)出現(xiàn)上述重疊區(qū)域多次重復(fù)提取特征，提取特征操作冗余；

R-CNN網(wǎng)絡(luò)訓(xùn)練、測試繁瑣：R-CNN網(wǎng)絡(luò)訓(xùn)練過程分為ILSVRC 2012樣本下有監(jiān)督預(yù)訓(xùn)練、PASCAL VOC 2007該特定樣本下的微調(diào)、20類即20個(gè)SVM分類器訓(xùn)練、20類即20個(gè)Bounding-box 回歸器訓(xùn)練，該訓(xùn)練流程繁瑣復(fù)雜；同理測試過程也包括提取建議框、提取CNN特征、SVM分類和Bounding-box 回歸等步驟，過于繁瑣；

R-CNN網(wǎng)絡(luò)訓(xùn)練需要大量存儲(chǔ)空間：20類即20個(gè)SVM分類器和20類即20個(gè)Bounding-box 回歸器在訓(xùn)練過程中需要大量特征作為訓(xùn)練樣本，這部分從CNN提取的特征會(huì)占用大量存儲(chǔ)空間；

R-CNN網(wǎng)絡(luò)需要對(duì)建議框進(jìn)行形變操作后【形變?yōu)?27×227 size】再輸入CNN網(wǎng)絡(luò)提取特征，其實(shí)像AlexNet CNN等網(wǎng)絡(luò)在提取特征過程中對(duì)圖像的大小并無要求，只是在提取完特征進(jìn)行全連接操作的時(shí)候才需要固定特征尺寸【R-CNN中將輸入圖像形變?yōu)?27×227可正好滿足AlexNet CNN網(wǎng)絡(luò)最后的特征尺寸要求】，然后才使用SVM分類器分類，R-CNN需要進(jìn)行形變操作的問題在Fast R-CNN已經(jīng)不存在，具體見下。

&如何解決問題

。測試過程
Fast R-CNN的網(wǎng)絡(luò)結(jié)構(gòu)如下圖所示。

任意size圖片輸入CNN網(wǎng)絡(luò)，經(jīng)過若干卷積層與池化層，得到特征圖；

在任意size圖片上采用selective search算法提取約2k個(gè)建議框；

根據(jù)原圖中建議框到特征圖映射關(guān)系，在特征圖中找到每個(gè)建議框?qū)?yīng)的特征框【深度和特征圖一致】，并在RoI池化層中將每個(gè)特征框池化到H×W【VGG-16網(wǎng)絡(luò)是7×7】的size；

固定H×W【VGG-16網(wǎng)絡(luò)是7×7】大小的特征框經(jīng)過全連接層得到固定大小的特征向量；

第4步所得特征向量經(jīng)由各自的全連接層【由SVD分解實(shí)現(xiàn)】，分別得到兩個(gè)輸出向量：一個(gè)是softmax的分類得分，一個(gè)是Bounding-box窗口回歸；

利用窗口得分分別對(duì)每一類物體進(jìn)行非極大值抑制剔除重疊建議框，最終得到每個(gè)類別中回歸修正后的得分最高的窗口。

。解釋分析

整個(gè)測試過程為什么可以只進(jìn)行一次CNN特征提取操作？
先看R-CNN網(wǎng)絡(luò)，它首先采用selective search算法提取約2k個(gè)建議框，并對(duì)所有建議框都進(jìn)行了CNN特征提取操作，會(huì)出現(xiàn)重疊區(qū)域多次重復(fù)提取特征，這些操作非常耗時(shí)、耗空間。事實(shí)上我們并不需要對(duì)每個(gè)建議框都進(jìn)行CNN特征提取操作，只需要對(duì)原始的整張圖片進(jìn)行1次CNN特征提取操作即可，因?yàn)閟elective search算法提取的建議框?qū)儆谡麖垐D片，因此對(duì)整張圖片提取出特征圖后，再找出相應(yīng)建議框在特征圖中對(duì)應(yīng)的區(qū)域，這樣就可以避免冗余的特征提取操作，節(jié)省大量時(shí)間。

為什么要將每個(gè)建議框?qū)?yīng)的特征框池化到H×W 的size？如何實(shí)現(xiàn)？
問題4中已經(jīng)指出像AlexNet CNN等網(wǎng)絡(luò)在提取特征過程中對(duì)圖像的大小并無要求，只是在提取完特征進(jìn)行全連接操作的時(shí)候才需要固定特征尺寸，利用這一點(diǎn)，Fast R-CNN可輸入任意size圖片，并在全連接操作前加入RoI池化層，將建議框?qū)?yīng)特征圖中的特征框池化到H×W 的size，以便滿足后續(xù)操作對(duì)size的要求；

具體如何實(shí)現(xiàn)呢?
首先假設(shè)建議框?qū)?yīng)特征圖中的特征框大小為h×w，將其劃分H×W個(gè)子窗口，每個(gè)子窗口大小為h/H×w/W，然后對(duì)每個(gè)子窗口采用max pooling下采樣操作，每個(gè)子窗口只取一個(gè)最大值，則特征框最終池化為H×W的size【特征框各深度同理】，這將各個(gè)大小不一的特征框轉(zhuǎn)化為大小統(tǒng)一的數(shù)據(jù)輸入下一層。

為什么要采用SVD分解實(shí)現(xiàn)Fast R-CNN網(wǎng)絡(luò)中最后的全連接層？具體如何實(shí)現(xiàn)？
圖像分類任務(wù)中，用于卷積層計(jì)算的時(shí)間比用于全連接層計(jì)算的時(shí)間多，而在目標(biāo)檢測任務(wù)中，selective search算法提取的建議框比較多【約2k】，幾乎有一半的前向計(jì)算時(shí)間被花費(fèi)于全連接層，就Fast R-CNN而言，RoI池化層后的全連接層需要進(jìn)行約2k次【每個(gè)建議框都要計(jì)算】，因此在Fast R-CNN中可以采用SVD分解加速全連接層計(jì)算；

具體如何實(shí)現(xiàn)呢?
① 物體分類和窗口回歸都是通過全連接層實(shí)現(xiàn)的，假設(shè)全連接層輸入數(shù)據(jù)為x，輸出數(shù)據(jù)為y，全連接層參數(shù)為W，尺寸為u×v，那么該層全連接計(jì)算為:

y=Wx

計(jì)算復(fù)雜度為u×v；

② 若將W進(jìn)行SVD分解，并用前t個(gè)特征值近似代替，即:

W=U∑VT≈U(u,1:t)?∑(1:t,1:t)?V(v,1:t)T

那么原來的前向傳播分解成兩步:

y=Wx=U?(∑?VT)?x=U?z

計(jì)算復(fù)雜度為u×t+v×t，若t<min(u,v)，則這種分解會(huì)大大減少計(jì)算量；

在實(shí)現(xiàn)時(shí)，相當(dāng)于把一個(gè)全連接層拆分為兩個(gè)全連接層，第一個(gè)全連接層不含偏置，第二個(gè)全連接層含偏置；實(shí)驗(yàn)表明，SVD分解全連接層能使mAP只下降0.3%的情況下提升30%的速度，同時(shí)該方法也不必再執(zhí)行額外的微調(diào)操作。

文中僅采用selective search算法提取約2k個(gè)候選區(qū)域，那候選區(qū)域越多越好嗎？
文中利用selective search算法提取1k~10k中10種數(shù)目【1k，2k…】的候選區(qū)域進(jìn)行訓(xùn)練測試，發(fā)現(xiàn)隨著候選區(qū)域個(gè)數(shù)的增加，mAP成先增加后緩慢下滑的趨勢，這表明更多的候選區(qū)域會(huì)有損精度；與此同時(shí)，作者也做了召回率【所謂召回率即候選區(qū)域?yàn)檎娴拇翱谂cGround Truth的比值【IoU大于閾值即為真】】分析實(shí)驗(yàn)，發(fā)現(xiàn)隨著候選區(qū)域個(gè)數(shù)的增加，召回率并沒有和mAP成很好的相關(guān)性，而是一直不斷增加，也就是說更高的召回率并不意味著更高的mAP；

文中也以selective search算法提取的2k個(gè)候選區(qū)域?yàn)榛A(chǔ)，每次增加1000 × {2, 4, 6, 8, 10, 32, 45}個(gè)密集box【滑動(dòng)窗口方法】進(jìn)行訓(xùn)練測試，發(fā)現(xiàn)mAP比只有selective search方法的2k候選區(qū)域下降幅度更大，最終達(dá)到53%。

如何處理尺度不變性問題？即如何使24×24和1080×720的車輛同時(shí)在一個(gè)訓(xùn)練好的網(wǎng)絡(luò)中都能正確識(shí)別？
文中提及兩種方式處理：brute-force（單一尺度）和image pyramids（多尺度）。單一尺度直接在訓(xùn)練和測試階段將image定死為某種scale，直接輸入網(wǎng)絡(luò)訓(xùn)練就好，然后期望網(wǎng)絡(luò)自己能夠?qū)W習(xí)到scale-invariance的表達(dá)；多尺度在訓(xùn)練階段隨機(jī)從圖像金字塔【縮放圖片的scale得到，相當(dāng)于擴(kuò)充數(shù)據(jù)集】中采樣訓(xùn)練，測試階段將圖像縮放為金字塔中最為相似的尺寸進(jìn)行測試；

可以看出，多尺度應(yīng)該比單一尺度效果好。作者在5.2節(jié)對(duì)單一尺度和多尺度分別進(jìn)行了實(shí)驗(yàn)，不管哪種方式下都定義圖像短邊像素為s，單一尺度下s=600【維持長寬比進(jìn)行縮放】，長邊限制為1000像素；多尺度s={480,576,688,864,1200}【維持長寬比進(jìn)行縮放】，長邊限制為2000像素，生成圖像金字塔進(jìn)行訓(xùn)練測試；實(shí)驗(yàn)結(jié)果表明AlexNet【S for small】、VGG_CNN_M_1024【M for medium】下單一尺度比多尺度mAP差1.2%~1.5%，但測試時(shí)間上卻快不少，VGG-16【L for large】下僅單一尺度就達(dá)到了66.9%的mAP【由于GPU顯存限制多尺度無法實(shí)現(xiàn)】，該實(shí)驗(yàn)證明了深度神經(jīng)網(wǎng)絡(luò)善于直接學(xué)習(xí)尺度不變形，對(duì)目標(biāo)的scale不敏感。

為什么不沿用R-CNN中的形式繼續(xù)采用SVM進(jìn)行分類？
為什么R-CNN中采用SVM分類而不直接用CNN網(wǎng)絡(luò)輸出端進(jìn)行分類已經(jīng)在R-CNN博客中說明，針對(duì)Fast R-CNN，文中分別進(jìn)行實(shí)驗(yàn)并對(duì)比了采用SVM和采用softmax的mAP結(jié)果，不管AlexNet【S for small】、VGG_CNN_M_1024【M for medium】、VGG-16【L for large】中任意網(wǎng)絡(luò)，采用softmax的mAP都比采用SVM的mAP高0.1%~0.8%，這是由于softmax在分類過程中引入了類間競爭，分類效果更好；

Fast R-CNN去掉了SVM這一步，所有的特征都暫存在顯存中，就不需要額外的磁盤空間。

。訓(xùn)練過程

有監(jiān)督預(yù)訓(xùn)練

樣本來源

正樣本	ILSVRC 20XX
負(fù)樣本	ILSVRC 20XX

ILSVRC 20XX樣本只有類別標(biāo)簽，有1000種物體；
文中采用AlexNet【S for small】、VGG_CNN_M_1024【M for medium】、VGG-16【L for large】這三種網(wǎng)絡(luò)分別進(jìn)行訓(xùn)練測試，下面僅以VGG-16舉例。

特定樣本下的微調(diào)

樣本比例來源

正樣本	25%	與某類Ground Truth相交IoU∈[0.5,1]的候選框
負(fù)樣本	75%	與20類Ground Truth相交IoU中最大值∈[0.1,0.5）的候選框

PASCAL VOC數(shù)據(jù)集中既有物體類別標(biāo)簽，也有物體位置標(biāo)簽，有20種物體；
正樣本僅表示前景，負(fù)樣本僅表示背景；
回歸操作僅針對(duì)正樣本進(jìn)行；
該階段訓(xùn)練集擴(kuò)充方式：50%概率水平翻轉(zhuǎn)；

微調(diào)前，需要對(duì)有監(jiān)督預(yù)訓(xùn)練后的模型進(jìn)行3步轉(zhuǎn)化：
①RoI池化層取代有監(jiān)督預(yù)訓(xùn)練后的VGG-16網(wǎng)絡(luò)最后一層池化層；
②兩個(gè)并行層取代上述VGG-16網(wǎng)絡(luò)的最后一層全連接層和softmax層，并行層之一是新全連接層1+原softmax層1000個(gè)分類輸出修改為21個(gè)分類輸出【20種類+背景】，并行層之二是新全連接層2+候選區(qū)域窗口回歸層，如下圖所示；
③上述網(wǎng)絡(luò)由原來單輸入：一系列圖像修改為雙輸入：一系列圖像和這些圖像中的一系列候選區(qū)域；

SGD超參數(shù)選擇：
除了修改增加的層，原有的層參數(shù)已經(jīng)通過預(yù)訓(xùn)練方式初始化；
用于分類的全連接層以均值為0、標(biāo)準(zhǔn)差為0.01的高斯分布初始化，用于回歸的全連接層以均值為0、標(biāo)準(zhǔn)差為0.001的高斯分布初始化，偏置都初始化為0；
針對(duì)PASCAL VOC 2007和2012訓(xùn)練集，前30k次迭代全局學(xué)習(xí)率為0.001，每層權(quán)重學(xué)習(xí)率為1倍，偏置學(xué)習(xí)率為2倍，后10k次迭代全局學(xué)習(xí)率更新為0.0001；
動(dòng)量設(shè)置為0.9，權(quán)重衰減設(shè)置為0.0005。

。解釋分析

Fast R-CNN如何采樣進(jìn)行SGD訓(xùn)練，和R-CNN、SPPnet中SGD采樣方式有什么區(qū)別和優(yōu)勢？
R-CNN和SPPnet中采用RoI-centric sampling：從所有圖片的所有候選區(qū)域中均勻取樣，這樣每個(gè)SGD的mini-batch中包含了不同圖像的樣本，不同圖像之間不能共享卷積計(jì)算和內(nèi)存，運(yùn)算開銷大；
Fast R-CNN中采用image-centric sampling： mini-batch采用層次采樣，即先對(duì)圖像采樣【N個(gè)】，再在采樣到的圖像中對(duì)候選區(qū)域采樣【每個(gè)圖像中采樣R/N個(gè)，一個(gè)mini-batch共計(jì)R個(gè)候選區(qū)域樣本】，同一圖像的候選區(qū)域卷積共享計(jì)算和內(nèi)存，降低了運(yùn)算開銷；
image-centric sampling方式采樣的候選區(qū)域來自于同一圖像，相互之間存在相關(guān)性，可能會(huì)減慢訓(xùn)練收斂的速度，但是作者在實(shí)際實(shí)驗(yàn)中并沒有出現(xiàn)這樣的擔(dān)憂，反而使用N=2，R=128的RoI-centric sampling方式比R-CNN收斂更快。

這里解釋一下為什么SPPnet不能更新spatial pyramid pooling層前面的卷積層，而只能更新后面的全連接層？
博主沒有看過SPPnet的論文，有網(wǎng)友解釋說卷積特征是線下計(jì)算的，從而無法在微調(diào)階段反向傳播誤差；另一種解釋是，反向傳播需要計(jì)算每一個(gè)RoI感受野的卷積層梯度，通常所有RoI會(huì)覆蓋整個(gè)圖像，如果用RoI-centric sampling方式會(huì)由于計(jì)算too much整幅圖像梯度而變得又慢又耗內(nèi)存。

訓(xùn)練數(shù)據(jù)越多效果越好嗎？

實(shí)驗(yàn)訓(xùn)練集測試集mAP

實(shí)驗(yàn)1	VOC 2007訓(xùn)練集	VOC 2007測試集	66.9%
實(shí)驗(yàn)1	VOC 2007+VOC 2012訓(xùn)練集	VOC 2007測試集	70.0%
實(shí)驗(yàn)2	VOC 2012訓(xùn)練集	VOC 2010測試集	66.1%
實(shí)驗(yàn)2	VOC 2007+VOC 2012訓(xùn)練集+VOC2007測試集	VOC 2010測試集	68.8%
實(shí)驗(yàn)3	VOC 2012訓(xùn)練集	VOC 2012測試集	65.7%
實(shí)驗(yàn)3	VOC 2007+VOC 2012訓(xùn)練集+VOC2007測試集	VOC 2012測試集	68.4%

文中分別在VOC 2007、VOC 2010、VOC 2012測試集上測試，發(fā)現(xiàn)訓(xùn)練數(shù)據(jù)越多，效果確實(shí)更好。這里微調(diào)時(shí)采用100k次迭代，每40k次迭代學(xué)習(xí)率都縮小10倍。

哪些層參數(shù)需要被微調(diào)？
SPPnet論文中采用ZFnet【AlexNet的改進(jìn)版】這樣的小網(wǎng)絡(luò)，其在微調(diào)階段僅對(duì)全連接層進(jìn)行微調(diào)，就足以保證較高的精度，作者文中采用VGG-16【L for large】網(wǎng)路，若僅僅只對(duì)全連接層進(jìn)行微調(diào)，mAP會(huì)從66.9%降低到61.4%，所以文中也需要對(duì)RoI池化層之前的卷積層進(jìn)行微調(diào)；

那么問題來了？向前微調(diào)多少層呢？所有的卷積層都需要微調(diào)嗎？
作者經(jīng)過實(shí)驗(yàn)發(fā)現(xiàn)僅需要對(duì)conv3_1及以后卷積層【即9-13號(hào)卷積層】進(jìn)行微調(diào)，才使得mAP、訓(xùn)練速度、訓(xùn)練時(shí)GPU占用顯存三個(gè)量得以權(quán)衡；
作者說明所有AlexNet【S for small】、VGG_CNN_M_1024【M for medium】的實(shí)驗(yàn)結(jié)果都是從conv2往后微調(diào)，所有VGG-16【L for large】的實(shí)驗(yàn)結(jié)果都是從conv3_1往后微調(diào)。

Fast R-CNN如何進(jìn)行多任務(wù)訓(xùn)練？多任務(wù)訓(xùn)練有效果嗎？
Fast R-CNN網(wǎng)絡(luò)分類損失和回歸損失如下圖所示【僅針對(duì)一個(gè)RoI即一類物體說明】，黃色框表示訓(xùn)練數(shù)據(jù)，綠色框表示輸入目標(biāo)：

-cls_score層用于分類，輸出K+1維數(shù)組p，表示屬于K類物體和背景的概率；
-bbox_predict層用于調(diào)整候選區(qū)域位置，輸出4*K維數(shù)組，也就是說對(duì)于每個(gè)類別都會(huì)訓(xùn)練一個(gè)單獨(dú)的回歸器；
-loss_cls層評(píng)估分類代價(jià)，由真實(shí)分類u對(duì)應(yīng)的概率決定：

Lcls(p,u)=?logpu

-loss_bbox評(píng)估回歸損失代價(jià)，比較真實(shí)分類u對(duì)應(yīng)的預(yù)測平移縮放參數(shù)tu=(tux,tuy,tuw，tuh)?和真實(shí)平移縮放參數(shù)v=(vx,vy,vw,vh)??的差距：

Lloc(tu,v)=∑i∈{x,y,w,h}smoothL1(tui?vi)

smoothL1(x)={0.5x2,|x|?0.5,?|x|<1?otherwise

smooth L1損失函數(shù)曲線如下圖所示，相比于L2損失函數(shù)，其對(duì)離群點(diǎn)、異常值不敏感，可控制梯度的量級(jí)使訓(xùn)練時(shí)不容易跑飛；

結(jié)合分類損失和回歸損失，Fast R-CNN微調(diào)階段總的損失函數(shù)為：

L(p,u,tu,v)=Lcls(p,u)+λ[u≥1]Lloc(tu,v)

[u≥1]={1,0,u>1?otherwise

約定u=0為背景分類，那么[u≥1]??函數(shù)表示背景候選區(qū)域即負(fù)樣本不參與回歸損失，不需要對(duì)候選區(qū)域進(jìn)行回歸操作；
λ 控制分類損失和回歸損失的平衡，文中所有實(shí)驗(yàn)λ=1；

那多任務(wù)訓(xùn)練有效果嗎？
首先不看多任務(wù)訓(xùn)練效果，至少比起R-CNN其訓(xùn)練方便、簡潔。多任務(wù)訓(xùn)練考慮各任務(wù)間共享卷積層的相互影響，是有潛在可能提高檢測效果的；
文中通過實(shí)驗(yàn)發(fā)現(xiàn)AlexNet【S for small】、VGG_CNN_M_1024【M for medium】、VGG-16【L for large】三種網(wǎng)絡(luò)采用多任務(wù)訓(xùn)練比不采用mAP提高了0.8%~1.1%【測試時(shí)不采用Bounding-box regression】。

5. RoI池化層如何進(jìn)行反向求導(dǎo)訓(xùn)練？
首先看普通max pooling層如何求導(dǎo)，設(shè)xi為輸入層節(jié)點(diǎn)，yi為輸出層節(jié)點(diǎn)，那么損失函數(shù)L對(duì)輸入層節(jié)點(diǎn)xi的梯度為：

?L?xi={0,?L?yj,δ(i,j)=false?δ(i,j)=true

其中判決函數(shù)δ(i,j)表示輸入i節(jié)點(diǎn)是否被輸出j節(jié)點(diǎn)選為最大值輸出。不被選中【δ(i,j)=false】有兩種可能：xi不在yi范圍內(nèi)，或者xi不是最大值。若選中【δ(i,j)=true】則由鏈?zhǔn)揭?guī)則可知損失函數(shù)L相對(duì)xi的梯度等于損失函數(shù)L相對(duì)yi的梯度×（yi對(duì)xi的梯度->恒等于1），故可得上述所示公式；

對(duì)于RoI max pooling層，設(shè)xi為輸入層的節(jié)點(diǎn)，yri 為第r個(gè)候選區(qū)域的第j個(gè)輸出節(jié)點(diǎn)，一個(gè)輸入節(jié)點(diǎn)可能和多個(gè)輸出節(jié)點(diǎn)相關(guān)連，如下圖所示，輸入節(jié)點(diǎn)7和兩個(gè)候選區(qū)域輸出節(jié)點(diǎn)相關(guān)連；

該輸入節(jié)點(diǎn)7的反向傳播如下圖所示。對(duì)于不同候選區(qū)域，節(jié)點(diǎn)7都存在梯度，所以反向傳播中損失函數(shù)L對(duì)輸入層節(jié)點(diǎn)xi的梯度為損失函數(shù)L對(duì)各個(gè)有可能的候選區(qū)域r【xi被候選區(qū)域r的第j個(gè)輸出節(jié)點(diǎn)選為最大值】輸出yri梯度的累加，具體如下公式所示：

?L?xi=∑r∑j[i=i?(r,j)]?L?yrj

[i=i?(r,j)]={1,0,i=i?(r,j)≥1?otherwise

判決函數(shù)[i=i?(r,j)]表示i節(jié)點(diǎn)是否被候選區(qū)域r的第j個(gè)輸出節(jié)點(diǎn)選為最大值輸出，若是，則由鏈?zhǔn)揭?guī)則可知損失函數(shù)L相對(duì)xi的梯度等于損失函數(shù)L相對(duì)yrj的梯度×（yrj對(duì)xi的梯度->恒等于1)，上圖已然解釋該輸入節(jié)點(diǎn)可能會(huì)和不同的yrj有關(guān)系，故損失函數(shù)L相對(duì)xi的梯度為求和形式。

&結(jié)果怎么樣

PASCAL VOC 2007訓(xùn)練集上，使用VGG-16【L for large】網(wǎng)絡(luò)Fast R-CNN訓(xùn)練時(shí)間為9.5h，同等條件下R-CNN需要84h，快8.8倍；

PASCAL VOC 2007測試集上，使用VGG-16【L for large】網(wǎng)絡(luò)不采用SVD Fast R-CNN測試時(shí)間為0.32s/image【不包括候選區(qū)域提取時(shí)間】，同等條件下R-CNN需要47.0s/image，快146倍；采用SVD測試時(shí)間為0.22s/image【不包括候選區(qū)域提取時(shí)間】，快213倍；

PASCAL VOC 2007測試集上，使用VGG-16【L for large】網(wǎng)絡(luò)不采用SVD Fast R-CNN mAP為66.9%，同等條件下R-CNN mAP為66.0%；Fast R-CNN采用SVD mAP為66.6%。

&還存在什么問題

Fast R-CNN中采用selective search算法提取候選區(qū)域，而目標(biāo)檢測大多數(shù)時(shí)間都消耗在這里【selective search算法候選區(qū)域提取需要2~3s，而提特征分類只需要0.32s】，這無法滿足實(shí)時(shí)應(yīng)用需求，而且Fast R-CNN并沒有實(shí)現(xiàn)真正意義上的端到端訓(xùn)練模式【候選區(qū)域是使用selective search算法先提取出來的】；

那有沒有可能使用CNN直接產(chǎn)生候選區(qū)域并對(duì)其分類呢？Faster R-CNN框架就是符合這樣需求的目標(biāo)檢測框架，請(qǐng)看Faster R-CNN博客。

原文：

http://blog.csdn.net/WoPawn/article/details/52463853

總結(jié)

以上是生活随笔為你收集整理的Fast R-CNN论文详解的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：关于Faster R-CNN的一切——笔
下一篇： [深度学习] RCNNs系列（1） Ub