當前位置：首頁 >

图像理解之物体检测object detection，模型rcnn/fastrcnn/fasterrcnn原理及概念

發布時間：2025/4/16 38 豆豆

生活随笔收集整理的這篇文章主要介紹了图像理解之物体检测object detection，模型rcnn/fastrcnn/fasterrcnn原理及概念小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

A,https://www.cnblogs.com/zhengzhe/p/7783270.html

RCNN選擇性搜索（Selective Search）

基于：

1）圖片大小

2）顏色

3）紋理

4）附件

算法一：分組分類算法

輸入：（圖層顏色）圖片

輸出：對象位置假設集L

Obtain initial regions R = {r1,··· ,rn} using [13]

Initialise similarity set S = 空集

foreach Neighbouring region pair (ri,rj) do? ? ? ? //遍歷所有臨近的像素對

　　Calculate similarity s(ri,rj)? ? ? ? ? ??　　　　//計算所有像素對之間的相似度

　　S= S∪s(ri,rj)　　　　　　　　　　　　　//把相應的相似度保存在集合S中

while S≠空集 do

　　Get highest similarity s(ri,rj) = max(S)　　　　　　　　　　//從集合S中取出相似度最高的像素對

　　Merge corresponding regions rt = ri ∪rj　　　　　　　　　//把兩個像素進行合并

　　Remove similarities regarding ri : S = S \ s(ri,r?)　　　　　　//從集合S中除去和ri有關的相似度

　　Remove similarities regarding rj : S = S \ s(r?,rj)　　　　　　//從集合S中除去和rj有關的相似度

　　Calculate similarity set St between rt and its neighbours　　　　//計算rt和臨近像素點的相似度

　　S = S∪St　　　　　　　　　　　　　　　　　　　　　　//將相似度存入集合S中

　　R = R∪rt　　　　　　　　　　　　　　　　　　　　　　//將rt存入集合R中

Extract object location boxes L from all regions in R

優先合并以下四種區域：?
- 顏色（顏色直方圖）相近的?
- 紋理（梯度直方圖）相近的?
- 合并后總面積小的?
- 合并后，總面積在其BBOX中所占比例大的

第三條，保證合并操作的尺度較為均勻，避免一個大區域陸續“吃掉”其他小區域。（Get highest similarity s(ri,rj) = max(S)通過此處實現）

例：設有區域a-b-c-d-e-f-g-h。較好的合并方式是：ab-cd-ef-gh -> abcd-efgh -> abcdefgh。?
不好的合并方法是：ab-c-d-e-f-g-h ->abcd-e-f-g-h ->abcdef-gh -> abcdefgh。

第四條，保證合并后形狀規則。

例：左圖適于合并，右圖不適于合并。

上述四條規則只涉及區域的顏色直方圖、紋理直方圖、面積和位置。合并后的區域特征可以直接由子區域特征計算而來，速度較快。

B,https://www.cnblogs.com/dudumiaomiao/p/6560841.html

R-CNN --> FAST-RCNN --> FASTER-RCNN

R-CNN:

(1)輸入測試圖像；

(2)利用selective search 算法在圖像中從上到下提取2000個左右的Region Proposal；

(3)將每個Region Proposal縮放(warp)成227*227的大小并輸入到CNN，將CNN的fc7層的輸出作為特征；

(4)將每個Region Proposal提取的CNN特征輸入到SVM進行分類；

(5)對于SVM分好類的Region Proposal做邊框回歸，用Bounding box回歸值校正原來的建議窗口，生成預測窗口坐標.

缺陷:

(1)???? 訓練分為多個階段，步驟繁瑣：微調網絡+訓練SVM+訓練邊框回歸器；

(2)???? 訓練耗時，占用磁盤空間大；5000張圖像產生幾百G的特征文件；

(3)???? 速度慢：使用GPU，VGG16模型處理一張圖像需要47s；

(4)???? 測試速度慢：每個候選區域需要運行整個前向CNN計算；

(5)???? SVM和回歸是事后操作，在SVM和回歸過程中CNN特征沒有被學習更新.

FAST-RCNN:

(1)輸入測試圖像；

(2)利用selective search 算法在圖像中從上到下提取2000個左右的建議窗口(Region Proposal)；

(3)將整張圖片輸入CNN，進行特征提取；

(4)把建議窗口映射到CNN的最后一層卷積feature map上；

(5)通過RoI pooling層使每個建議窗口生成固定尺寸的feature map；

(6)利用Softmax Loss(探測分類概率) 和Smooth L1 Loss(探測邊框回歸)對分類概率和邊框回歸(Bounding box regression)聯合訓練.

相比R-CNN，主要兩處不同:

(1)最后一層卷積層后加了一個ROI pooling layer；

(2)損失函數使用了多任務損失函數(multi-task loss)，將邊框回歸直接加入到CNN網絡中訓練

改進:

(1)???? 測試時速度慢：R-CNN把一張圖像分解成大量的建議框，每個建議框拉伸形成的圖像都會單獨通過CNN提取特征.實際上這些建議框之間大量重疊，特征值之間完全可以共享，造成了運算能力的浪費.

FAST-RCNN將整張圖像歸一化后直接送入CNN，在最后的卷積層輸出的feature map上，加入建議框信息，使得在此之前的CNN運算得以共享.

(2)???? 訓練時速度慢：R-CNN在訓練時，是在采用SVM分類之前，把通過CNN提取的特征存儲在硬盤上.這種方法造成了訓練性能低下，因為在硬盤上大量的讀寫數據會造成訓練速度緩慢.

FAST-RCNN在訓練時，只需要將一張圖像送入網絡，每張圖像一次性地提取CNN特征和建議區域，訓練數據在GPU內存里直接進Loss層，這樣候選區域的前幾層特征不需要再重復計算且不再需要把大量數據存儲在硬盤上.

(3)???? 訓練所需空間大：R-CNN中獨立的SVM分類器和回歸器需要大量特征作為訓練樣本，需要大量的硬盤空間.FAST-RCNN把類別判斷和位置回歸統一用深度網絡實現，不再需要額外存儲.

FASTER -RCNN:

(1)輸入測試圖像；

(2)將整張圖片輸入CNN，進行特征提取；

(3)用RPN生成建議窗口(proposals)，每張圖片生成300個建議窗口；

(4)把建議窗口映射到CNN的最后一層卷積feature map上；

(5)通過RoI pooling層使每個RoI生成固定尺寸的feature map；

(6)利用Softmax Loss(探測分類概率) 和Smooth L1 Loss(探測邊框回歸)對分類概率和邊框回歸(Bounding box regression)聯合訓練.

相比FASTER-RCNN，主要兩處不同:

(1)使用RPN(Region Proposal Network)代替原來的Selective Search方法產生建議窗口；

(2)產生建議窗口的CNN和目標檢測的CNN共享

改進:

(1)???? 如何高效快速產生建議框？

FASTER-RCNN創造性地采用卷積網絡自行產生建議框，并且和目標檢測網絡共享卷積網絡，使得建議框數目從原有的約2000個減少為300個，且建議框的質量也有本質的提高.

概念解釋:

1、常用的Region Proposal有：

-Selective Search

-Edge Boxes

2、softmax-loss
softmax-loss 層和 softmax 層計算大致是相同的. softmax 是一個分類器，計算的是類別的概率（Likelihood），是 Logistic Regression 的一種推廣. Logistic Regression 只能用于二分類，
而 softmax 可以用于多分類.
softmax 與 softmax-loss 的區別：
softmax 計算公式：

關于兩者的區別更加具體的介紹，可參考： softmax vs. softmax-loss
用戶可能最終目的就是得到各個類別的概率似然值，這個時候就只需要一個 Softmax 層，而不一定要進行 softmax-Loss 操作；或者是用戶有通過其他什么方式已經得到了某種概率似然值，然后要做最大似然估計，此時則只需要后面的 softmax-Loss 而不需要前面的 Softmax操作.因此提供兩個不同的 Layer 結構比只提供一個合在一起的 Softmax-Loss Layer 要靈活許多.不管是 softmax layer 還是 softmax-loss layer,都是沒有參數的，只是層類型不同而已
softmax-loss layer：輸出 loss 值
layer {
name: "loss"
type: "SoftmaxWithLoss"
bottom: "ip1"
bottom: "label"
top: "loss"
}
softmax layer: 輸出似然值
layers {
bottom: "cls3_fc"
top: "prob"
name: "prob"
type: “Softmax"
}

3、Selective Search

這個策略其實是借助了層次聚類的思想(可以搜索了解一下"層次聚類算法"),將層次聚類的思想應用到區域的合并上面;

總體思路:

l? 假設現在圖像上有n個預分割的區域(Efficient Graph-Based Image Segmentation),表示為R={R1, R2, ..., Rn},

l? 計算每個region與它相鄰region(注意是相鄰的區域)的相似度,這樣會得到一個n*n的相似度矩陣(同一個區域之間和一個區域與不相鄰區域之間的相似度可設為NaN),從矩陣中找出最大相似度值對應的兩個區域,將這兩個區域合二為一,這時候圖像上還剩下n-1個區域;

l? 重復上面的過程(只需要計算新的區域與它相鄰區域的新相似度,其他的不用重復計算),重復一次,區域的總數目就少1,知道最后所有的區域都合并稱為了同一個區域(即此過程進行了n-1次,區域總數目最后變成了1).算法的流程圖如下圖所示:

4、SPP-NET

SSP-Net：Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition

? ?先看一下R-CNN為什么檢測速度這么慢，一張圖都需要47s！仔細看下R-CNN框架發現，對圖像提完Region Proposal（2000個左右）之后將每個Proposal當成一張圖像進行后續處理(CNN提特征+SVM分類)，實際上對一張圖像進行了2000次提特征和分類的過程！這2000個Region Proposal不都是圖像的一部分嗎，那么我們完全可以對圖像提一次卷積層特征，然后只需要將Region Proposal在原圖的位置映射到卷積層特征圖上，這樣對于一張圖像我們只需要提一次卷積層特征，然后將每個Region Proposal的卷積層特征輸入到全連接層做后續操作.（對于CNN來說，大部分運算都耗在卷積操作上，這樣做可以節省大量時間）.

? ?現在的問題是每個Region Proposal的尺度不一樣，直接這樣輸入全連接層肯定是不行的，因為全連接層輸入必須是固定的長度.SPP-NET恰好可以解決這個問題.

? ? ?

? ?由于傳統的CNN限制了輸入必須固定大小（比如AlexNet是224x224），所以在實際使用中往往需要對原圖片進行crop或者warp的操作：
?? - crop：截取原圖片的一個固定大小的patch
? ?- warp：將原圖片的ROI縮放到一個固定大小的patch

? ?無論是crop還是warp，都無法保證在不失真的情況下將圖片傳入到CNN當中：
? ?- crop：物體可能會產生截斷，尤其是長寬比大的圖片.
? ?- warp：物體被拉伸，失去“原形”，尤其是長寬比大的圖片

? ?SPP為的就是解決上述的問題，做到的效果為：不管輸入的圖片是什么尺度，都能夠正確的傳入網絡.
? ?具體思路為：CNN的卷積層是可以處理任意尺度的輸入的，只是在全連接層處有限制尺度——換句話說，如果找到一個方法，在全連接層之前將其輸入限制到等長，那么就解決了這個問題.

? ?具體方案如下圖所示：

? ?

如果原圖輸入是224x224，對于conv5出來后的輸出，是13x13x256的，可以理解成有256個這樣的filter，每個filter對應一張13x13的activation map.如果像上圖那樣將activation?map pooling成4x4 2x2 1x1三張子圖，做max pooling后，出來的特征就是固定長度的(16+4+1)x256那么多的維度了.如果原圖的輸入不是224x224，出來的特征依然是(16+4+1)x256；直覺地說，可以理解成將原來固定大小為(3x3)窗口的pool5改成了自適應窗口大小，窗口的大小和activation map成比例，保證了經過pooling后出來的feature的長度是一致的.

5、Bounding box regression

R-CNN中的bounding box回歸

下面先介紹R-CNN和Fast R-CNN中所用到的邊框回歸方法.

(1)?? 什么是IOU?

(2)?? 為什么要做Bounding-box regression？?
?
如上圖所示，綠色的框為飛機的Ground Truth，紅色的框是提取的Region Proposal.那么即便紅色的框被分類器識別為飛機，但是由于紅色的框定位不準(IoU<0.5)，那么這張圖相當于沒有正確的檢測出飛機.如果我們能對紅色的框進行微調，使得經過微調后的窗口跟Ground Truth更接近，這樣豈不是定位會更準確.確實，Bounding-box regression 就是用來微調這個窗口的.

(3)?? 回歸/微調的對象是什么？?

(4)?? Bounding-box regression（邊框回歸）?
那么經過何種變換才能從圖11中的窗口P變為窗口呢？比較簡單的思路就是：?
?

注意：只有當Proposal和Ground Truth比較接近時（線性問題），我們才能將其作為訓練樣本訓練我們的線性回歸模型，否則會導致訓練的回歸模型不work（當Proposal跟GT離得較遠，就是復雜的非線性問題了，此時用線性回歸建模顯然不合理）.這個也是G-CNN: an Iterative Grid Based Object Detector多次迭代實現目標準確定位的關鍵.?
線性回歸就是給定輸入的特征向量X，學習一組參數W，使得經過線性回歸后的值跟真實值Y(Ground Truth)非常接近.即.那么Bounding-box中我們的輸入以及輸出分別是什么呢？?

?????

? ? ? ? ? ? ? ? ? ? ?

6、Region Proposal Network

RPN的實現方式：在conv5-3的卷積feature map上用一個n*n的滑窗（論文中作者選用了n=3，即3*3的滑窗）生成一個長度為256（對應于ZF網絡）或512（對應于VGG網絡）維長度的全連接特征.然后在這個256維或512維的特征后產生兩個分支的全連接層：

(1)reg-layer,用于預測proposal的中心錨點對應的proposal的坐標x，y和寬高w，h；

(2)cls-layer，用于判定該proposal是前景還是背景.sliding window的處理方式保證reg-layer和cls-layer關聯了conv5-3的全部特征空間.事實上，作者用全連接層實現方式介紹RPN層實現容易幫助我們理解這一過程，但在實現時作者選用了卷積層實現全連接層的功能.

(3)個人理解：全連接層本來就是特殊的卷積層，如果產生256或512維的fc特征，事實上可以用Num_out=256或512, kernel_size=3*3, stride=1的卷積層實現conv5-3到第一個全連接特征的映射.然后再用兩個Num_out分別為2*9=18和4*9=36，kernel_size=1*1，stride=1的卷積層實現上一層特征到兩個分支cls層和reg層的特征映射.

(4)注意：這里2*9中的2指cls層的分類結果包括前后背景兩類，4*9的4表示一個Proposal的中心點坐標x，y和寬高w，h四個參數.采用卷積的方式實現全連接處理并不會減少參數的數量，但是使得輸入圖像的尺寸可以更加靈活.在RPN網絡中，我們需要重點理解其中的anchors概念，Loss fucntions計算方式和RPN層訓練數據生成的具體細節.

Anchors:字面上可以理解為錨點，位于之前提到的n*n的sliding window的中心處.對于一個sliding window,我們可以同時預測多個proposal，假定有k個.k個proposal即k個reference boxes，每一個reference box又可以用一個scale，一個aspect_ratio和sliding window中的錨點唯一確定.所以，我們在后面說一個anchor,你就理解成一個anchor box 或一個reference box.作者在論文中定義k=9，即3種scales和3種aspect_ratio確定出當前sliding window位置處對應的9個reference boxes， 4*k個reg-layer的輸出和2*k個cls-layer的score輸出.對于一幅W*H的feature map,對應W*H*k個錨點.所有的錨點都具有尺度不變性.

Loss functions:

在計算Loss值之前，作者設置了anchors的標定方法.正樣本標定規則：

1)?? 如果Anchor對應的reference box與ground truth的IoU值最大，標記為正樣本；

2)?? 如果Anchor對應的reference box與ground truth的IoU>0.7，標記為正樣本.事實上，采用第2個規則基本上可以找到足夠的正樣本，但是對于一些極端情況，例如所有的Anchor對應的reference box與groud truth的IoU不大于0.7,可以采用第一種規則生成.

3)?? 負樣本標定規則：如果Anchor對應的reference box與ground truth的IoU<0.3，標記為負樣本.

4)?? 剩下的既不是正樣本也不是負樣本，不用于最終訓練.

5)?? 訓練RPN的Loss是有classification loss （即softmax loss）和regression loss （即L1 loss）按一定比重組成的.

計算softmax loss需要的是anchors對應的groundtruth標定結果和預測結果，計算regression loss需要三組信息：

?? i. ? ? 預測框，即RPN網絡預測出的proposal的中心位置坐標x,y和寬高w,h；

?ii.????? 錨點reference box:

? ? ? ? 之前的9個錨點對應9個不同scale和aspect_ratio的reference boxes，每一個reference boxes都有一個中心點位置坐標x_a,y_a和寬高w_a,h_a；

iii. ?ground truth:標定的框也對應一個中心點位置坐標x*,y*和寬高w*,h*.因此計算regression loss和總Loss方式如下：?

RPN訓練設置：

(1)在訓練RPN時，一個Mini-batch是由一幅圖像中任意選取的256個proposal組成的，其中正負樣本的比例為1：1.

(2)如果正樣本不足128，則多用一些負樣本以滿足有256個Proposal可以用于訓練，反之亦然.

(3)訓練RPN時，與VGG共有的層參數可以直接拷貝經ImageNet訓練得到的模型中的參數；剩下沒有的層參數用標準差=0.01的高斯分布初始化.

7、RoI Pooling

ROI pooling layer實際上是SPP-NET的一個精簡版，SPP-NET對每個proposal使用了不同大小的金字塔映射，而ROI pooling layer只需要下采樣到一個7x7的特征圖.對于VGG16網絡conv5_3有512個特征圖，這樣所有region proposal對應了一個7*7*512維度的特征向量作為全連接層的輸入.

RoI Pooling就是實現從原圖區域映射到conv5區域最后pooling到固定大小的功能.

8、smooth L1 Loss

為了處理不可導的懲罰,Faster RCNN提出來的計算距離loss的smooth_L1_Loss.smooth L1近似理解見http://pages.cs.wisc.edu/~gfung/GeneralL1/L1_approx_bounds.pdf

C,https://www.cnblogs.com/wangyong/p/8513563.html

Faster RCNN 學習筆記

下面的介紹都是基于VGG16 的Faster RCNN網絡，各網絡的差異在于Conv layers層提取特征時有細微差異，至于后續的RPN層、Pooling層及全連接的分類和目標定位基本相同.

一）、整體框架

我們先整體的介紹下上圖中各層主要的功能

1)、Conv layers提取特征圖：

作為一種CNN網絡目標檢測方法，Faster RCNN首先使用一組基礎的conv+relu+pooling層提取input image的feature maps,該feature maps會用于后續的RPN層和全連接層

2)、RPN(Region Proposal Networks):

??? RPN網絡主要用于生成region proposals，首先生成一堆Anchor box，對其進行裁剪過濾后通過softmax判斷anchors屬于前景(foreground)或者后景(background)，即是物體or不是物體，所以這是一個二分類；同時，另一分支bounding box regression修正anchor box，形成較精確的proposal（注：這里的較精確是相對于后面全連接層的再一次box regression而言）

3)、Roi Pooling：

該層利用RPN生成的proposals和VGG16最后一層得到的feature map，得到固定大小的proposal feature map,進入到后面可利用全連接操作來進行目標識別和定位

4)、Classifier：

??? 會將Roi Pooling層形成固定大小的feature map進行全連接操作，利用Softmax進行具體類別的分類，同時，利用L1 Loss完成bounding box regression回歸操作獲得物體的精確位置.

二)、網絡結構

現在，通過上圖開始逐層分析

1)、Conv layers

Faster RCNN首先是支持輸入任意大小的圖片的，比如上圖中輸入的P*Q，進入網絡之前對圖片進行了規整化尺度的設定，如可設定圖像短邊不超過600，圖像長邊不超過1000，我們可以假定M*N=1000*600（如果圖片少于該尺寸，可以邊緣補0，即圖像會有黑色邊緣）

①?? 13個conv層：kernel_size=3,pad=1,stride=1;

卷積公式：

? ? ? ? ? ? ?所以，conv層不會改變圖片大小（即：輸入的圖片大小=輸出的圖片大小）

②?? 13個relu層：激活函數，不改變圖片大小

③?? 4個pooling層：kernel_size=2,stride=2;pooling層會讓輸出圖片是輸入圖片的1/2

? ? ? ?經過Conv layers，圖片大小變成(M/16)*(N/16)，即：60*40(1000/16≈60,600/16≈40)；則，Feature Map就是60*40*512-d(注：VGG16是512-d,ZF是256-d)，表示特征圖的大小為60*40，數量為512

2)、RPN(Region Proposal Networks):

Feature Map進入RPN后，先經過一次3*3的卷積，同樣，特征圖大小依然是60*40,數量512，這樣做的目的應該是進一步集中特征信息，接著看到兩個全卷積,即kernel_size=1*1,p=0,stride=1;

如上圖中標識：

①?? rpn_cls：60*40*512-d ⊕? 1*1*512*18 ==> 60*40*9*2?

? ? ? ? ?逐像素對其9個Anchor box進行二分類

②?? rpn_bbox：60*40*512-d ⊕? 1*1*512*36==>60*40*9*4

????????? 逐像素得到其9個Anchor box四個坐標信息（其實是偏移量，后面介紹）

? 如下圖所示：

?(2.1)、Anchors的生成規則

? ? ??前面提到經過Conv layers后，圖片大小變成了原來的1/16，令feat_stride=16，在生成Anchors時，我們先定義一個base_anchor，大小為16*16的box(因為特征圖(60*40)上的一個點，可以對應到原圖（1000*600）上一個16*16大小的區域)，源碼中轉化為[0,0,15,15]的數組，參數ratios=[0.5,?1,?2]scales=[8, 16, 32]

? ?先看[0,0,15,15],面積保持不變，長、寬比分別為[0.5,?1,?2]是產生的Anchors box

如果經過scales變化，即長、寬分別均為 (16*8=128)、(16*16=256)、(16*32=512)，對應anchor box如圖

綜合以上兩種變換，最后生成9個Anchor box

? ?所以，最終base_anchor=[0,0,15,15]生成的9個Anchor box坐標如下：

1 [[ -84. -40. 99. 55.] 2 [-176. -88. 191. 103.] 3 [-360. -184. 375. 199.] 4 [ -56. -56. 71. 71.] 5 [-120. -120. 135. 135.] 6 [-248. -248. 263. 263.] 7 [ -36. -80. 51. 95.] 8 [ -80. -168. 95. 183.] 9 [-168. -344. 183. 359.]]

? ??特征圖大小為60*40，所以會一共生成60*40*9=21600個Anchor box

? 源碼中，通過width:(0~60)*16,height(0~40)*16建立shift偏移量數組，再和base_ancho基準坐標數組累加，得到特征圖上所有像素對應的Anchors的坐標值，是一個[216000,4]的數組

?(2.2)、RPN工作原理解析

為了進一步更清楚的看懂RPN的工作原理，將Caffe版本下的網絡圖貼出來，對照網絡圖進行講解會更清楚

主要看上圖中框住的‘RPN’部分的網絡圖，其中‘rpn_conv/3*3’是3*3的卷積，上面有提到過，接著是兩個1*1的全卷積，分別是圖中的‘rpn_cls_score’和‘rpn_bbox_pred’，在上面同樣有提到過。接下來，分析網絡圖中其他各部分的含義

2.2.1)、rpn-data

1. layer { 2. name: 'rpn-data' 3. type: 'Python' 4. bottom: 'rpn_cls_score' #僅提供特征圖的height和width的參數大小 5. bottom: 'gt_boxes' #ground truth box 6. bottom: 'im_info' #包含圖片大小和縮放比例，可供過濾anchor box 7. bottom: 'data' 8. top: 'rpn_labels' 9. top: 'rpn_bbox_targets' 10. top: 'rpn_bbox_inside_weights' 11. top: 'rpn_bbox_outside_weights' 12. python_param { 13. module: 'rpn.anchor_target_layer' 14. layer: 'AnchorTargetLayer' 15. param_str: "'feat_stride': 16 \n'scales': !!python/tuple [8, 16, 32]" 16. } 17. }

這一層主要是為特征圖60*40上的每個像素生成9個Anchor box，并且對生成的Anchor box進行過濾和標記，參照源碼，過濾和標記規則如下：

①??? 去除掉超過1000*600這原圖的邊界的anchor box

②??? 如果anchor box與ground truth的IoU值最大，標記為正樣本，label=1

③??? 如果anchor box與ground truth的IoU>0.7，標記為正樣本，label=1

④??? 如果anchor box與ground truth的IoU<0.3，標記為負樣本，label=0

? ? ?剩下的既不是正樣本也不是負樣本，不用于最終訓練，label=-1

? ? ?什么是IoU:

? ? ?

? ? ?除了對anchor box進行標記外，另一件事情就是計算anchor box與ground truth之間的偏移量

? ?令：ground truth:標定的框也對應一個中心點位置坐標x*,y*和寬高w*,h*

??? anchor box: 中心點位置坐標x_a,y_a和寬高w_a,h_a

??? 所以，偏移量：

??? △x=(x*-x_a)/w_a?? △y=(y*-y_a)/h_a?

? ?△w=log(w*/w_a)?? △h=log(h*/h_a)

? ??通過ground truth box與預測的anchor box之間的差異來進行學習，從而是RPN網絡中的權重能夠學習到預測box的能力

2.2.2) 、rpn_loss_cls、rpn_loss_bbox、rpn_cls_prob

下面集體看下這三個，其中‘rpn_loss_cls’、‘rpn_loss_bbox’是分別對應softmax，smooth L1計算損失函數，‘rpn_cls_prob’計算概率值(可用于下一層的nms非最大值抑制操作)

補充：

? ? ?①?? Softmax公式，計算各分類的概率值

? ? ? ② Softmax Loss公式，RPN進行分類時，即尋找最小Loss值

在’rpn-data’中已經為預測框anchor box進行了標記，并且計算出與gt_boxes之間的偏移量,利用RPN網絡進行訓練。

RPN訓練設置：在訓練RPN時，一個Mini-batch是由一幅圖像中任意選取的256個proposal組成的，其中正負樣本的比例為1：1。如果正樣本不足128，則多用一些負樣本以滿足有256個Proposal可以用于訓練，反之亦然

2.2.3)、proposal

1. layer { 2. name: 'proposal' 3. type: 'Python' 4. bottom: 'rpn_cls_prob_reshape' #[1,18,40,60]==> [batch_size, channel，height，width]Caffe的數據格式，anchor box分類的概率 5. bottom: 'rpn_bbox_pred' # 記錄訓練好的四個回歸值△x, △y, △w, △h 6. bottom: 'im_info' 7. top: 'rpn_rois' 8. python_param { 9. module: 'rpn.proposal_layer' 10. layer: 'ProposalLayer' 11. param_str: "'feat_stride': 16 \n'scales': !!python/tuple [4, 8, 16, 32]" 12. } 13. }

在輸入中我們看到’rpn_bbox_pred’，記錄著訓練好的四個回歸值△x, △y, △w, △h。

源碼中，會重新生成60*40*9個anchor box，然后累加上訓練好的△x, △y, △w, △h,從而得到了相較于之前更加準確的預測框region proposal，進一步對預測框進行越界剔除和使用nms非最大值抑制，剔除掉重疊的框；比如，設定IoU為0.7的閾值，即僅保留覆蓋率不超過0.7的局部最大分數的box（粗篩）。最后留下大約2000個anchor，然后再取前N個box（比如300個）；這樣，進入到下一層ROI Pooling時region proposal大約只有300個

用下圖一個案例來對NMS算法進行簡單介紹

如上圖所示，一共有6個識別為人的框，每一個框有一個置信率。?
現在需要消除多余的:

按置信率排序: 0.95, 0.9, 0.9, 0.8, 0.7, 0.7
取最大0.95的框為一個物體框
剩余5個框中，去掉與0.95框重疊率IoU大于0.6(可以另行設置)，則保留0.9, 0.8, 0.7三個框
重復上面的步驟，直到沒有框了，0.9為一個框
選出來的為: 0.95, 0.9

所以，整個過程，可以用下圖形象的表示出來

其中，紅色的A框是生成的anchor box,而藍色的G’框就是經過RPN網絡訓練后得到的較精確的預測框，綠色的G是ground truth box

2.2.4)、roi_data

1. layer { 2. name: 'roi-data' 3. type: 'Python' 4. bottom: 'rpn_rois' 5. bottom: 'gt_boxes' 6. top: 'rois' 7. top: 'labels' 8. top: 'bbox_targets' 9. top: 'bbox_inside_weights' 10. top: 'bbox_outside_weights' 11. python_param { 12. module: 'rpn.proposal_target_layer' 13. layer: 'ProposalTargetLayer' 14. param_str: "'num_classes': 81" 15. } 16. }

為了避免定義上的誤解，我們將經過‘proposal’后的預測框稱為region proposal（其實，RPN層的任務其實已經完成，roi_data屬于為下一層準備數據）

主要作用：

①?????? RPN層只是來確定region proposal是否是物體(是/否),這里根據region proposal和ground truth box的最大重疊指定具體的標簽(就不再是二分類問題了，參數中指定的是81類)

②?????? 計算region proposal與ground truth boxes的偏移量，計算方法和之前的偏移量計算公式相同

經過這一步后的數據輸入到ROI Pooling層進行進一步的分類和定位.

3)、ROI Pooling:

1. layer { 2. name: "roi_pool5" 3. type: "ROIPooling" 4. bottom: "conv5_3" #輸入特征圖大小 5. bottom: "rois" #輸入region proposal 6. top: "pool5" #輸出固定大小的feature map 7. roi_pooling_param { 8. pooled_w: 7 9. pooled_h: 7 10. spatial_scale: 0.0625 # 1/16 11. } 12. }

從上述的Caffe代碼中可以看到，輸入的是RPN層產生的region proposal(假定有300個region proposal box)和VGG16最后一層產生的特征圖(60*40 512-d)，遍歷每個region proposal，將其坐標值縮小16倍，這樣就可以將在原圖(1000*600)基礎上產生的region proposal映射到60*40的特征圖上，從而將在feature map上確定一個區域(定義為RB*)。

在feature map上確定的區域RB*，根據參數pooled_w:7,pooled_h:7,將這個RB*區域劃分為7*7，即49個相同大小的小區域，對于每個小區域，使用max pooling方式從中選取最大的像素點作為輸出，這樣，就形成了一個7*7的feature map

? ? ? ?細節可查看：https://www.cnblogs.com/wangyong/p/8523814.html

以此，參照上述方法，300個region proposal遍歷完后，會產生很多個7*7大小的feature map，故而輸出的數組是：[300,512,7,7],作為下一層的全連接的輸入

4)、全連接層:

經過roi pooling層之后，batch_size=300, proposal feature map的大小是7*7,512-d,對特征圖進行全連接，參照下圖，最后同樣利用Softmax Loss和L1 Loss完成分類和定位

通過full connect層與softmax計算每個region proposal具體屬于哪個類別（如人，馬，車等），輸出cls_prob概率向量；同時再次利用bounding box regression獲得每個region proposal的位置偏移量bbox_pred，用于回歸獲得更加精確的目標檢測框

即從PoI Pooling獲取到7x7大小的proposal feature maps后，通過全連接主要做了：

4.1)通過全連接和softmax對region proposals進行具體類別的分類

4.2)再次對region proposals進行bounding box regression，獲取更高精度的rectangle box

作為一枚技術小白，寫這篇筆記的時候參考了很多博客論文，在這里表示感謝，同時，未經同意，請勿轉載....

轉載于:https://www.cnblogs.com/augustone/p/10535479.html

總結

以上是生活随笔為你收集整理的图像理解之物体检测object detection，模型rcnn/fastrcnn/fasterrcnn原理及概念的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：简化路径
下一篇： React Ways1——函数即组件

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

图像理解之物体检测object detection，模型rcnn/fastrcnn/fasterrcnn原理及概念

Faster RCNN 學習筆記

總結