日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Fast R-CNN论文详解

發(fā)布時(shí)間:2024/9/21 编程问答 30 豆豆
生活随笔 收集整理的這篇文章主要介紹了 Fast R-CNN论文详解 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

Fast R-CNN論文詳解

作者:ture_dream

&創(chuàng)新點(diǎn)
  • 規(guī)避R-CNN中冗余的特征提取操作,只對(duì)整張圖像全區(qū)域進(jìn)行一次特征提取;

  • 用RoI pooling層取代最后一層max pooling層,同時(shí)引入建議框信息,提取相應(yīng)建議框特征;

  • Fast R-CNN網(wǎng)絡(luò)末尾采用并行的不同的全連接層,可同時(shí)輸出分類結(jié)果和窗口回歸結(jié)果,實(shí)現(xiàn)了end-to-end的多任務(wù)訓(xùn)練【建議框提取除外】,也不需要額外的特征存儲(chǔ)空間【R-CNN中這部分特征是供SVM和Bounding-box regression進(jìn)行訓(xùn)練的】;

  • 采用SVD對(duì)Fast R-CNN網(wǎng)絡(luò)末尾并行的全連接層進(jìn)行分解,減少計(jì)算復(fù)雜度,加快檢測速度。



  • &問題是什么

  • R-CNN網(wǎng)絡(luò)訓(xùn)練、測試速度都很慢:R-CNN網(wǎng)絡(luò)中,一張圖經(jīng)由selective search算法提取約2k個(gè)建議框【這2k個(gè)建議框大量重疊】,而所有建議框變形后都要輸入AlexNet CNN網(wǎng)絡(luò)提取特征【即約2k次特征提取】,會(huì)出現(xiàn)上述重疊區(qū)域多次重復(fù)提取特征,提取特征操作冗余;

  • R-CNN網(wǎng)絡(luò)訓(xùn)練、測試繁瑣:R-CNN網(wǎng)絡(luò)訓(xùn)練過程分為ILSVRC 2012樣本下有監(jiān)督預(yù)訓(xùn)練、PASCAL VOC 2007該特定樣本下的微調(diào)、20類即20個(gè)SVM分類器訓(xùn)練、20類即20個(gè)Bounding-box 回歸器訓(xùn)練,該訓(xùn)練流程繁瑣復(fù)雜;同理測試過程也包括提取建議框、提取CNN特征、SVM分類和Bounding-box 回歸等步驟,過于繁瑣;

  • R-CNN網(wǎng)絡(luò)訓(xùn)練需要大量存儲(chǔ)空間:20類即20個(gè)SVM分類器和20類即20個(gè)Bounding-box 回歸器在訓(xùn)練過程中需要大量特征作為訓(xùn)練樣本,這部分從CNN提取的特征會(huì)占用大量存儲(chǔ)空間;

  • R-CNN網(wǎng)絡(luò)需要對(duì)建議框進(jìn)行形變操作后【形變?yōu)?27×227 size】再輸入CNN網(wǎng)絡(luò)提取特征,其實(shí)像AlexNet CNN等網(wǎng)絡(luò)在提取特征過程中對(duì)圖像的大小并無要求,只是在提取完特征進(jìn)行全連接操作的時(shí)候才需要固定特征尺寸【R-CNN中將輸入圖像形變?yōu)?27×227可正好滿足AlexNet CNN網(wǎng)絡(luò)最后的特征尺寸要求】,然后才使用SVM分類器分類,R-CNN需要進(jìn)行形變操作的問題在Fast R-CNN已經(jīng)不存在,具體見下。



  • &如何解決問題

    。測試過程
    Fast R-CNN的網(wǎng)絡(luò)結(jié)構(gòu)如下圖所示。

  • 任意size圖片輸入CNN網(wǎng)絡(luò),經(jīng)過若干卷積層與池化層,得到特征圖;

  • 在任意size圖片上采用selective search算法提取約2k個(gè)建議框;

  • 根據(jù)原圖中建議框到特征圖映射關(guān)系,在特征圖中找到每個(gè)建議框?qū)?yīng)的特征框【深度和特征圖一致】,并在RoI池化層中將每個(gè)特征框池化到H×W【VGG-16網(wǎng)絡(luò)是7×7】的size;

  • 固定H×W【VGG-16網(wǎng)絡(luò)是7×7】大小的特征框經(jīng)過全連接層得到固定大小的特征向量;

  • 第4步所得特征向量經(jīng)由各自的全連接層【由SVD分解實(shí)現(xiàn)】,分別得到兩個(gè)輸出向量:一個(gè)是softmax的分類得分,一個(gè)是Bounding-box窗口回歸;

  • 利用窗口得分分別對(duì)每一類物體進(jìn)行非極大值抑制剔除重疊建議框,最終得到每個(gè)類別中回歸修正后的得分最高的窗口。


  • 。解釋分析

  • 整個(gè)測試過程為什么可以只進(jìn)行一次CNN特征提取操作?
    先看R-CNN網(wǎng)絡(luò),它首先采用selective search算法提取約2k個(gè)建議框,并對(duì)所有建議框都進(jìn)行了CNN特征提取操作,會(huì)出現(xiàn)重疊區(qū)域多次重復(fù)提取特征,這些操作非常耗時(shí)、耗空間。事實(shí)上我們并不需要對(duì)每個(gè)建議框都進(jìn)行CNN特征提取操作,只需要對(duì)原始的整張圖片進(jìn)行1次CNN特征提取操作即可,因?yàn)閟elective search算法提取的建議框?qū)儆谡麖垐D片,因此對(duì)整張圖片提取出特征圖后,再找出相應(yīng)建議框在特征圖中對(duì)應(yīng)的區(qū)域,這樣就可以避免冗余的特征提取操作,節(jié)省大量時(shí)間。

  • 為什么要將每個(gè)建議框?qū)?yīng)的特征框池化到H×W 的size?如何實(shí)現(xiàn)?
    問題4中已經(jīng)指出像AlexNet CNN等網(wǎng)絡(luò)在提取特征過程中對(duì)圖像的大小并無要求,只是在提取完特征進(jìn)行全連接操作的時(shí)候才需要固定特征尺寸,利用這一點(diǎn),Fast R-CNN可輸入任意size圖片,并在全連接操作前加入RoI池化層,將建議框?qū)?yīng)特征圖中的特征框池化到H×W 的size,以便滿足后續(xù)操作對(duì)size的要求;

    具體如何實(shí)現(xiàn)呢?
    首先假設(shè)建議框?qū)?yīng)特征圖中的特征框大小為h×w,將其劃分H×W個(gè)子窗口,每個(gè)子窗口大小為h/H×w/W,然后對(duì)每個(gè)子窗口采用max pooling下采樣操作,每個(gè)子窗口只取一個(gè)最大值,則特征框最終池化為H×W的size【特征框各深度同理】,這將各個(gè)大小不一的特征框轉(zhuǎn)化為大小統(tǒng)一的數(shù)據(jù)輸入下一層。

  • 為什么要采用SVD分解實(shí)現(xiàn)Fast R-CNN網(wǎng)絡(luò)中最后的全連接層?具體如何實(shí)現(xiàn)?
    圖像分類任務(wù)中,用于卷積層計(jì)算的時(shí)間比用于全連接層計(jì)算的時(shí)間多,而在目標(biāo)檢測任務(wù)中,selective search算法提取的建議框比較多【約2k】,幾乎有一半的前向計(jì)算時(shí)間被花費(fèi)于全連接層,就Fast R-CNN而言,RoI池化層后的全連接層需要進(jìn)行約2k次【每個(gè)建議框都要計(jì)算】,因此在Fast R-CNN中可以采用SVD分解加速全連接層計(jì)算;

    具體如何實(shí)現(xiàn)呢?
    ① 物體分類和窗口回歸都是通過全連接層實(shí)現(xiàn)的,假設(shè)全連接層輸入數(shù)據(jù)為x,輸出數(shù)據(jù)為y,全連接層參數(shù)為W,尺寸為u×v,那么該層全連接計(jì)算為:

    y=Wx

    計(jì)算復(fù)雜度為u×v;

    ② 若將W進(jìn)行SVD分解,并用前t個(gè)特征值近似代替,即:

    W=UVTU(u,1:t)?(1:t,1:t)?V(v,1:t)T

    那么原來的前向傳播分解成兩步:

    y=Wx=U?(?VT)?x=U?z

    計(jì)算復(fù)雜度為u×t+v×t,若t<min(u,v),則這種分解會(huì)大大減少計(jì)算量;

    在實(shí)現(xiàn)時(shí),相當(dāng)于把一個(gè)全連接層拆分為兩個(gè)全連接層,第一個(gè)全連接層不含偏置,第二個(gè)全連接層含偏置;實(shí)驗(yàn)表明,SVD分解全連接層能使mAP只下降0.3%的情況下提升30%的速度,同時(shí)該方法也不必再執(zhí)行額外的微調(diào)操作。

  • 文中僅采用selective search算法提取約2k個(gè)候選區(qū)域,那候選區(qū)域越多越好嗎?
    文中利用selective search算法提取1k~10k中10種數(shù)目【1k,2k…】的候選區(qū)域進(jìn)行訓(xùn)練測試,發(fā)現(xiàn)隨著候選區(qū)域個(gè)數(shù)的增加,mAP成先增加后緩慢下滑的趨勢,這表明更多的候選區(qū)域會(huì)有損精度;與此同時(shí),作者也做了召回率【所謂召回率即候選區(qū)域?yàn)檎娴拇翱谂cGround Truth的比值【IoU大于閾值即為真】】分析實(shí)驗(yàn),發(fā)現(xiàn)隨著候選區(qū)域個(gè)數(shù)的增加,召回率并沒有和mAP成很好的相關(guān)性,而是一直不斷增加,也就是說更高的召回率并不意味著更高的mAP;

    文中也以selective search算法提取的2k個(gè)候選區(qū)域?yàn)榛A(chǔ),每次增加1000 × {2, 4, 6, 8, 10, 32, 45}個(gè)密集box【滑動(dòng)窗口方法】進(jìn)行訓(xùn)練測試,發(fā)現(xiàn)mAP比只有selective search方法的2k候選區(qū)域下降幅度更大,最終達(dá)到53%。

  • 如何處理尺度不變性問題?即如何使24×24和1080×720的車輛同時(shí)在一個(gè)訓(xùn)練好的網(wǎng)絡(luò)中都能正確識(shí)別?
    文中提及兩種方式處理:brute-force(單一尺度)和image pyramids(多尺度)。單一尺度直接在訓(xùn)練和測試階段將image定死為某種scale,直接輸入網(wǎng)絡(luò)訓(xùn)練就好,然后期望網(wǎng)絡(luò)自己能夠?qū)W習(xí)到scale-invariance的表達(dá);多尺度在訓(xùn)練階段隨機(jī)從圖像金字塔【縮放圖片的scale得到,相當(dāng)于擴(kuò)充數(shù)據(jù)集】中采樣訓(xùn)練,測試階段將圖像縮放為金字塔中最為相似的尺寸進(jìn)行測試;

    可以看出,多尺度應(yīng)該比單一尺度效果好。作者在5.2節(jié)對(duì)單一尺度和多尺度分別進(jìn)行了實(shí)驗(yàn),不管哪種方式下都定義圖像短邊像素為s,單一尺度下s=600【維持長寬比進(jìn)行縮放】,長邊限制為1000像素;多尺度s={480,576,688,864,1200}【維持長寬比進(jìn)行縮放】,長邊限制為2000像素,生成圖像金字塔進(jìn)行訓(xùn)練測試;實(shí)驗(yàn)結(jié)果表明AlexNet【S for small】、VGG_CNN_M_1024【M for medium】下單一尺度比多尺度mAP差1.2%~1.5%,但測試時(shí)間上卻快不少,VGG-16【L for large】下僅單一尺度就達(dá)到了66.9%的mAP【由于GPU顯存限制多尺度無法實(shí)現(xiàn)】,該實(shí)驗(yàn)證明了深度神經(jīng)網(wǎng)絡(luò)善于直接學(xué)習(xí)尺度不變形,對(duì)目標(biāo)的scale不敏感。

  • 為什么不沿用R-CNN中的形式繼續(xù)采用SVM進(jìn)行分類?
    為什么R-CNN中采用SVM分類而不直接用CNN網(wǎng)絡(luò)輸出端進(jìn)行分類已經(jīng)在R-CNN博客中說明,針對(duì)Fast R-CNN,文中分別進(jìn)行實(shí)驗(yàn)并對(duì)比了采用SVM和采用softmax的mAP結(jié)果,不管AlexNet【S for small】、VGG_CNN_M_1024【M for medium】、VGG-16【L for large】中任意網(wǎng)絡(luò),采用softmax的mAP都比采用SVM的mAP高0.1%~0.8%,這是由于softmax在分類過程中引入了類間競爭,分類效果更好;

    Fast R-CNN去掉了SVM這一步,所有的特征都暫存在顯存中,就不需要額外的磁盤空間。


  • 。訓(xùn)練過程

  • 有監(jiān)督預(yù)訓(xùn)練

    樣本來源
    正樣本ILSVRC 20XX
    負(fù)樣本ILSVRC 20XX


    ILSVRC 20XX樣本只有類別標(biāo)簽,有1000種物體;
    文中采用AlexNet【S for small】、VGG_CNN_M_1024【M for medium】、VGG-16【L for large】這三種網(wǎng)絡(luò)分別進(jìn)行訓(xùn)練測試,下面僅以VGG-16舉例。

  • 特定樣本下的微調(diào)

    樣本比例來源
    正樣本25%與某類Ground Truth相交IoU∈[0.5,1]的候選框
    負(fù)樣本75%與20類Ground Truth相交IoU中最大值∈[0.1,0.5)的候選框


    PASCAL VOC數(shù)據(jù)集中既有物體類別標(biāo)簽,也有物體位置標(biāo)簽,有20種物體;
    正樣本僅表示前景,負(fù)樣本僅表示背景;
    回歸操作僅針對(duì)正樣本進(jìn)行;
    該階段訓(xùn)練集擴(kuò)充方式:50%概率水平翻轉(zhuǎn);

    微調(diào)前,需要對(duì)有監(jiān)督預(yù)訓(xùn)練后的模型進(jìn)行3步轉(zhuǎn)化:
    ①RoI池化層取代有監(jiān)督預(yù)訓(xùn)練后的VGG-16網(wǎng)絡(luò)最后一層池化層;
    ②兩個(gè)并行層取代上述VGG-16網(wǎng)絡(luò)的最后一層全連接層和softmax層,并行層之一是新全連接層1+原softmax層1000個(gè)分類輸出修改為21個(gè)分類輸出【20種類+背景】,并行層之二是新全連接層2+候選區(qū)域窗口回歸層,如下圖所示;
    ③上述網(wǎng)絡(luò)由原來單輸入:一系列圖像修改為雙輸入:一系列圖像和這些圖像中的一系列候選區(qū)域;

    SGD超參數(shù)選擇
    除了修改增加的層,原有的層參數(shù)已經(jīng)通過預(yù)訓(xùn)練方式初始化;
    用于分類的全連接層以均值為0、標(biāo)準(zhǔn)差為0.01的高斯分布初始化,用于回歸的全連接層以均值為0、標(biāo)準(zhǔn)差為0.001的高斯分布初始化,偏置都初始化為0;
    針對(duì)PASCAL VOC 2007和2012訓(xùn)練集,前30k次迭代全局學(xué)習(xí)率為0.001,每層權(quán)重學(xué)習(xí)率為1倍,偏置學(xué)習(xí)率為2倍,后10k次迭代全局學(xué)習(xí)率更新為0.0001;
    動(dòng)量設(shè)置為0.9,權(quán)重衰減設(shè)置為0.0005。


  • 。解釋分析

  • Fast R-CNN如何采樣進(jìn)行SGD訓(xùn)練,和R-CNN、SPPnet中SGD采樣方式有什么區(qū)別和優(yōu)勢?
    R-CNN和SPPnet中采用RoI-centric sampling:從所有圖片的所有候選區(qū)域中均勻取樣,這樣每個(gè)SGD的mini-batch中包含了不同圖像的樣本,不同圖像之間不能共享卷積計(jì)算和內(nèi)存,運(yùn)算開銷大;
    Fast R-CNN中采用image-centric sampling: mini-batch采用層次采樣,即先對(duì)圖像采樣【N個(gè)】,再在采樣到的圖像中對(duì)候選區(qū)域采樣【每個(gè)圖像中采樣R/N個(gè),一個(gè)mini-batch共計(jì)R個(gè)候選區(qū)域樣本】,同一圖像的候選區(qū)域卷積共享計(jì)算和內(nèi)存,降低了運(yùn)算開銷;
    image-centric sampling方式采樣的候選區(qū)域來自于同一圖像,相互之間存在相關(guān)性,可能會(huì)減慢訓(xùn)練收斂的速度,但是作者在實(shí)際實(shí)驗(yàn)中并沒有出現(xiàn)這樣的擔(dān)憂,反而使用N=2,R=128的RoI-centric sampling方式比R-CNN收斂更快。

    這里解釋一下為什么SPPnet不能更新spatial pyramid pooling層前面的卷積層,而只能更新后面的全連接層?
    博主沒有看過SPPnet的論文,有網(wǎng)友解釋說卷積特征是線下計(jì)算的,從而無法在微調(diào)階段反向傳播誤差;另一種解釋是,反向傳播需要計(jì)算每一個(gè)RoI感受野的卷積層梯度,通常所有RoI會(huì)覆蓋整個(gè)圖像,如果用RoI-centric sampling方式會(huì)由于計(jì)算too much整幅圖像梯度而變得又慢又耗內(nèi)存。

  • 訓(xùn)練數(shù)據(jù)越多效果越好嗎?

    實(shí)驗(yàn)訓(xùn)練集測試集mAP
    實(shí)驗(yàn)1VOC 2007訓(xùn)練集VOC 2007測試集66.9%
    實(shí)驗(yàn)1VOC 2007+VOC 2012訓(xùn)練集VOC 2007測試集70.0%
    實(shí)驗(yàn)2VOC 2012訓(xùn)練集VOC 2010測試集66.1%
    實(shí)驗(yàn)2VOC 2007+VOC 2012訓(xùn)練集+VOC2007測試集VOC 2010測試集68.8%
    實(shí)驗(yàn)3VOC 2012訓(xùn)練集VOC 2012測試集65.7%
    實(shí)驗(yàn)3VOC 2007+VOC 2012訓(xùn)練集+VOC2007測試集VOC 2012測試集68.4%


    文中分別在VOC 2007、VOC 2010、VOC 2012測試集上測試,發(fā)現(xiàn)訓(xùn)練數(shù)據(jù)越多,效果確實(shí)更好。這里微調(diào)時(shí)采用100k次迭代,每40k次迭代學(xué)習(xí)率都縮小10倍。

  • 哪些層參數(shù)需要被微調(diào)?
    SPPnet論文中采用ZFnet【AlexNet的改進(jìn)版】這樣的小網(wǎng)絡(luò),其在微調(diào)階段僅對(duì)全連接層進(jìn)行微調(diào),就足以保證較高的精度,作者文中采用VGG-16【L for large】網(wǎng)路,若僅僅只對(duì)全連接層進(jìn)行微調(diào),mAP會(huì)從66.9%降低到61.4%, 所以文中也需要對(duì)RoI池化層之前的卷積層進(jìn)行微調(diào);

    那么問題來了?向前微調(diào)多少層呢?所有的卷積層都需要微調(diào)嗎?
    作者經(jīng)過實(shí)驗(yàn)發(fā)現(xiàn)僅需要對(duì)conv3_1及以后卷積層【即9-13號(hào)卷積層】進(jìn)行微調(diào),才使得mAP、訓(xùn)練速度、訓(xùn)練時(shí)GPU占用顯存三個(gè)量得以權(quán)衡;
    作者說明所有AlexNet【S for small】、VGG_CNN_M_1024【M for medium】的實(shí)驗(yàn)結(jié)果都是從conv2往后微調(diào),所有VGG-16【L for large】的實(shí)驗(yàn)結(jié)果都是從conv3_1往后微調(diào)。

  • Fast R-CNN如何進(jìn)行多任務(wù)訓(xùn)練?多任務(wù)訓(xùn)練有效果嗎?
    Fast R-CNN網(wǎng)絡(luò)分類損失和回歸損失如下圖所示【僅針對(duì)一個(gè)RoI即一類物體說明】,黃色框表示訓(xùn)練數(shù)據(jù),綠色框表示輸入目標(biāo):

    -cls_score層用于分類,輸出K+1維數(shù)組p,表示屬于K類物體和背景的概率;
    -bbox_predict層用于調(diào)整候選區(qū)域位置,輸出4*K維數(shù)組,也就是說對(duì)于每個(gè)類別都會(huì)訓(xùn)練一個(gè)單獨(dú)的回歸器;
    -loss_cls層評(píng)估分類代價(jià),由真實(shí)分類u對(duì)應(yīng)的概率決定:

    Lcls(p,u)=?logpu

    -loss_bbox評(píng)估回歸損失代價(jià),比較真實(shí)分類u對(duì)應(yīng)的預(yù)測平移縮放參數(shù)tu=(tux,tuy,tuwtuh)?和真實(shí)平移縮放參數(shù)v=(vx,vy,vw,vh)??的差距:

    Lloc(tu,v)=i{x,y,w,h}smoothL1(tui?vi) smoothL1(x)={0.5x2,|x|?0.5,?|x|<1?otherwise

    smooth L1損失函數(shù)曲線如下圖所示,相比于L2損失函數(shù),其對(duì)離群點(diǎn)、異常值不敏感,可控制梯度的量級(jí)使訓(xùn)練時(shí)不容易跑飛;

  • 結(jié)合分類損失和回歸損失,Fast R-CNN微調(diào)階段總的損失函數(shù)為:

    L(p,u,tu,v)=Lcls(p,u)+λ[u1]Lloc(tu,v) [u1]={1,0,u>1?otherwise

    約定u=0為背景分類,那么[u1]??函數(shù)表示背景候選區(qū)域即負(fù)樣本不參與回歸損失,不需要對(duì)候選區(qū)域進(jìn)行回歸操作;
    λ 控制分類損失和回歸損失的平衡,文中所有實(shí)驗(yàn)λ=1

    那多任務(wù)訓(xùn)練有效果嗎?
    首先不看多任務(wù)訓(xùn)練效果,至少比起R-CNN其訓(xùn)練方便、簡潔。多任務(wù)訓(xùn)練考慮各任務(wù)間共享卷積層的相互影響,是有潛在可能提高檢測效果的;
    文中通過實(shí)驗(yàn)發(fā)現(xiàn)AlexNet【S for small】、VGG_CNN_M_1024【M for medium】、VGG-16【L for large】三種網(wǎng)絡(luò)采用多任務(wù)訓(xùn)練比不采用mAP提高了0.8%~1.1%【測試時(shí)不采用Bounding-box regression】。

    5. RoI池化層如何進(jìn)行反向求導(dǎo)訓(xùn)練?
    首先看普通max pooling層如何求導(dǎo),設(shè)xi為輸入層節(jié)點(diǎn),yi為輸出層節(jié)點(diǎn),那么損失函數(shù)L對(duì)輸入層節(jié)點(diǎn)xi的梯度為:

    ?L?xi={0,?L?yj,δ(i,j)=false?δ(i,j)=true

    其中判決函數(shù)δ(i,j)表示輸入i節(jié)點(diǎn)是否被輸出j節(jié)點(diǎn)選為最大值輸出。不被選中【δ(i,j)=false】有兩種可能:xi不在yi范圍內(nèi),或者xi不是最大值。若選中【δ(i,j)=true】則由鏈?zhǔn)揭?guī)則可知損失函數(shù)L相對(duì)xi的梯度等于損失函數(shù)L相對(duì)yi的梯度×(yi對(duì)xi的梯度->恒等于1),故可得上述所示公式;

    對(duì)于RoI max pooling層,設(shè)xi為輸入層的節(jié)點(diǎn),yri 為第r個(gè)候選區(qū)域的第j個(gè)輸出節(jié)點(diǎn),一個(gè)輸入節(jié)點(diǎn)可能和多個(gè)輸出節(jié)點(diǎn)相關(guān)連,如下圖所示,輸入節(jié)點(diǎn)7和兩個(gè)候選區(qū)域輸出節(jié)點(diǎn)相關(guān)連;

    該輸入節(jié)點(diǎn)7的反向傳播如下圖所示。對(duì)于不同候選區(qū)域,節(jié)點(diǎn)7都存在梯度,所以反向傳播中損失函數(shù)L對(duì)輸入層節(jié)點(diǎn)xi的梯度為損失函數(shù)L對(duì)各個(gè)有可能的候選區(qū)域r【xi被候選區(qū)域r的第j個(gè)輸出節(jié)點(diǎn)選為最大值】輸出yri梯度的累加,具體如下公式所示:

    ?L?xi=rj[i=i?(r,j)]?L?yrj
    [i=i?(r,j)]={1,0,i=i?(r,j)1?otherwise

    判決函數(shù)[i=i?(r,j)]表示i節(jié)點(diǎn)是否被候選區(qū)域r的第j個(gè)輸出節(jié)點(diǎn)選為最大值輸出,若是,則由鏈?zhǔn)揭?guī)則可知損失函數(shù)L相對(duì)xi的梯度等于損失函數(shù)L相對(duì)yrj的梯度×(yrj對(duì)xi的梯度->恒等于1),上圖已然解釋該輸入節(jié)點(diǎn)可能會(huì)和不同的yrj有關(guān)系,故損失函數(shù)L相對(duì)xi的梯度為求和形式。



    &結(jié)果怎么樣

  • PASCAL VOC 2007訓(xùn)練集上,使用VGG-16【L for large】網(wǎng)絡(luò)Fast R-CNN訓(xùn)練時(shí)間為9.5h,同等條件下R-CNN需要84h,快8.8倍;

  • PASCAL VOC 2007測試集上,使用VGG-16【L for large】網(wǎng)絡(luò)不采用SVD Fast R-CNN測試時(shí)間為0.32s/image【不包括候選區(qū)域提取時(shí)間】,同等條件下R-CNN需要47.0s/image,快146倍;采用SVD測試時(shí)間為0.22s/image【不包括候選區(qū)域提取時(shí)間】,快213倍;

  • PASCAL VOC 2007測試集上,使用VGG-16【L for large】網(wǎng)絡(luò)不采用SVD Fast R-CNN mAP為66.9%,同等條件下R-CNN mAP為66.0%;Fast R-CNN采用SVD mAP為66.6%。



  • &還存在什么問題

  • Fast R-CNN中采用selective search算法提取候選區(qū)域,而目標(biāo)檢測大多數(shù)時(shí)間都消耗在這里【selective search算法候選區(qū)域提取需要2~3s,而提特征分類只需要0.32s】,這無法滿足實(shí)時(shí)應(yīng)用需求,而且Fast R-CNN并沒有實(shí)現(xiàn)真正意義上的端到端訓(xùn)練模式【候選區(qū)域是使用selective search算法先提取出來的】;

    那有沒有可能使用CNN直接產(chǎn)生候選區(qū)域并對(duì)其分類呢?Faster R-CNN框架就是符合這樣需求的目標(biāo)檢測框架,請(qǐng)看Faster R-CNN博客。

  • 原文:

    http://blog.csdn.net/WoPawn/article/details/52463853


    總結(jié)

    以上是生活随笔為你收集整理的Fast R-CNN论文详解的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。

    主站蜘蛛池模板: 一区视频在线免费观看 | 欧美狠狠干| 国产超碰精品 | 久久精品99国产精品日本 | av免费久久| 久久久久久久无码 | 日韩视频国产 | 黄av在线 | 一区二区三区免费毛片 | 操操操视频 | 黑人巨大精品欧美一区免费视频 | 亚洲小说区图片区 | 国产精品自拍一区 | 亚洲第一第二区 | 亚洲人成网站999久久久综合 | 欧美日韩综合网 | 99re国产| 欧美黑人一级片 | 午夜爱爱免费视频 | 黑人精品一区二区 | 亚洲天堂网在线观看视频 | 香蕉黄视频 | 天天干,夜夜操 | 看黄色大片 | 日本不卡一区二区三区视频 | 黄色片在线免费观看视频 | 国产绳艺sm调教室论坛 | 亚洲一级在线播放 | 青青草狠狠操 | av福利片 | 久久久久国产精品无码免费看 | 亚洲911精品成人18网站 | 欧美日韩黄色网 | 日韩欧美精品一区二区 | 操操插插 | xxxxwww一片| 免费毛片视频网站 | 99热播| 精品在线视频一区 | 日韩一区不卡 | 国产毛片精品国产一区二区三区 | 国产精品美女一区 | 亚洲粉嫩| 欧美日韩不卡在线 | 五月av| 国产日韩欧美精品在线观看 | 麻豆午夜 | 亚洲综合网址 | 亚洲韩国精品 | 天堂网成人| 好吊一区二区三区 | 免费观看高清在线 | 亚洲av成人一区二区国产精品 | 99av视频| 国产精品一区网站 | 亚洲二级片 | 西西毛片 | 在线免费观看视频黄 | 中国少妇色 | av亚洲在线 | 午夜亚洲aⅴ无码高潮片苍井空 | 黄色av免费在线播放 | 少妇人妻偷人精品无码视频新浪 | 国产精品卡一 | 天堂√8在线中文 | 欧亚av | 性综合网 | 久久久久亚洲av成人网人人软件 | 亚洲综合色婷婷 | av在线一 | 麻豆传媒网页 | 成人黄色免费视频 | 日本性爱视频在线观看 | 超碰中文在线 | 一级特黄免费视频 | 国产精品久久久久久久久久久久久久久 | 亚洲欧美日本韩国 | 91高清无打码 | 夜夜嗨av一区二区 | 亚洲黄色免费看 | 色94色欧美 | 婷婷综合社区 | www.久久精品 | 亚洲日本网站 | 91精品国产高清一区二区三密臀 | 乐播av一区二区三区 | 欧美黑人性猛交xxxx | 国产精品国产精品国产 | 777米奇影视第四色 五月丁香久久婷婷 | 国产精品久久久久免费 | 韩国av一区二区三区 | 欧美黑人欧美精品刺激 | 国产a级黄色| 欧美三级手机在线观看 | 激情欧美一区二区免费视频 | 日韩一片 | 成人精品影院 | 福利免费在线观看 | 翔田千里在线播放 |