當前位置：首頁 >

cnn 句向量_深度学习目标检测Fast R-CNN论文解读

發布時間：2023/12/19 60 豆豆

生活随笔收集整理的這篇文章主要介紹了 cnn 句向量_深度学习目标检测Fast R-CNN论文解读小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

前言

我們知道，R-CNN存在著以下幾個問題：

分步驟進行，過程繁瑣。Selective Search生成候選區域region proposal->fine tune預訓練網絡->針對每個類別都訓練一個SVM分類器->用regressors對bounding-box進行回歸。

時間和內存消耗比較大。在訓練SVM和回歸的時候需要用CNN網絡訓練的特征作為輸入，特征保存在磁盤上再讀入的時間消耗比較大。

重疊區域特征重復計算。測試時每個region proposal都要做卷積。

馨意：深度學習目標檢測R-CNN論文解讀?zhuanlan.zhihu.com

SPP-net算法解決了R-CNN中重復卷積的問題，但是R-CNN的其他缺點在SPP-net上依舊存在。

馨意：深度學習目標檢測SPP-net論文解讀?zhuanlan.zhihu.com

Fast R-CNN是R-CNN作者對RCNN的改進版。Fast R-CNN只進行一次特征提取，并將RCNN的SVMs使用softmax所替代，并將分類目標函數和框預測目標函數合并為多任務目標函數，速度和精度都大大提高。

論文名稱：

Fast R-CNN

論文下載：

https://www.cv-foundation.org/openaccess/content_iccv_2015/papers/Girshick_Fast_R-CNN_ICCV_2015_paper.pdf?www.cv-foundation.org

論文解讀：

Fast R-CNN架構，該架構屬于端到端的多任務訓練。

上圖即為Fast R-CNN架構，具體流程為：

Fast R-CNN網絡將整個圖像和所有RoI（也就是R-CNN中所說的proposal）作為輸入。

網絡首先使用幾個卷積層和最大池化層處理整個圖像，以生成特征圖feature map。

然后在最后一個卷積層上對每個ROI求取映射關系，并用一個RoI pooling layer（也就是一個單層的SPP layer）來統一到相同的大小。

之后經過兩個全連接層FCs生成一個固定尺寸的特征向量RoI feature vector。

特征向量RoI feature vector連接兩個新的全連接層FC，得到兩個輸出向量：第一個是分類，使用softmax，第二個是每一類的bounding box回歸。

RoI pooling layer

RoI pooling layer是在SPP-net中使用的空間金字塔池化層SPP的特例，SPP有三層，而在RoI pooling layer中金字塔層只有一個。

Pre-trained networks

用了3個預訓練的ImageNet網絡（CaffeNet/VGG_CNN_M_1024/VGG16）。

預訓練的網絡初始化Fast R-CNN要經過三次變形：

最后一個max pooling層替換為RoI pooling層。

最后一個全連接層和softmax（原本是1000個類）替換為softmax的對K+1個類別的分類層，和bounding box 回歸層。

輸入修改為兩種數據：圖像列表和這些圖像中的RoI列表。

Fine-tuning

我們知道，SPPnet只能微調SPP層后面的全連接層，所以SPPnet就可以采用隨機梯度下降（SGD）來訓練。

SPPnet采用的RoI-centric sampling：從所有圖片的所有RoI中均勻取樣，這樣每個SGD的mini-batch中包含了不同圖像中的樣本。

反向傳播需要計算每一個RoI感受野的卷積層，通常會覆蓋整個圖像，如果一個一個用RoI-centric sampling的話就又慢又耗內存。

Fast R-CNN采用的image-centric sampling：mini-batch采用層次取樣，先對圖像取樣，再對RoI取樣，同一圖像的RoI共享計算和內存。另外，Fast R-CNN在一次微調中聯合優化softmax分類器和bbox回歸。

看似一步，實際包含了：多任務損失（multi-task loss）、小批量取樣（mini-batch sampling）、RoI pooling層的反向傳播（backpropagation through RoI pooling layers）、SGD超參數（SGD hyperparameters）。

Multi-task loss

兩個輸出層，一個對每個RoI輸出離散概率分布：

一個輸出bounding box回歸的位移：

k表示類別的索引，前兩個參數是指相對于object proposal尺度不變的平移，后兩個參數是指對數空間中相對于object proposal的高與寬。把這兩個輸出的損失寫到一起：

k*是真實類別，式中第一項是分類損失，第二項是定位損失，L由R個輸出取均值而來。

Mini-batch sampling

在微調時，每個SGD的mini-batch是隨機找兩個圖片，R為128，因此每個圖上取樣64個RoI。從object proposal中選25%的RoI，就是和ground-truth交疊至少為0.5的。剩下的作為背景。

在調優訓練時，每一個mini-batch中首先加入N張完整圖片，而后加入從N張圖片中選取的R個候選框。這R個候選框可以復用N張圖片前5個階段的網絡特征。

實際選擇N=2， R=128－> 每一個mini-batch中首先加入2張完整圖片，而后加入從2張圖片中選取的128個候選框。這128個候選框可以復用2張圖片前5個階段的網絡特征。

總結

最后一層的softmax換成兩個：一個是對區域的分類，另一個是對Bounding box的微調。
訓練時所有特征不在存到硬盤中，提升了速度。
添加ROI pooling層，實現了不同大小區域特征圖的pooling。

參考

https://www.cv-foundation.org/openaccess/content_iccv_2015/papers/Girshick_Fast_R-CNN_ICCV_2015_paper.pdf?www.cv-foundation.org人工智能_目標檢測_嗶哩嗶哩 (゜-゜)つロ干杯~-bilibili?www.bilibili.comFast RCNN算法詳解_網絡_AI之路-CSDN博客?blog.csdn.netRCNN學習筆記(4)：fast rcnn?blog.csdn.net

總結

以上是生活随笔為你收集整理的cnn 句向量_深度学习目标检测Fast R-CNN论文解读的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：油锅着火时，用什么方法灭火更合适？蚂蚁庄
下一篇： pascal行人voc_利用Pascal

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

cnn 句向量_深度学习目标检测Fast R-CNN论文解读

前言

論文名稱：

論文下載：

論文解讀：

參考

總結