Fater R-CNN 整体把握
在R-CNN中提到過,候選區(qū)域的提取和之后的目標(biāo)檢測其實是獨立的,所以我們可以使用任意的算法如SS。Fast-RCNN改進的是目標(biāo)檢測部分,但是其實候選區(qū)域的提取也挺費時的,Faster R-CNN就把改進方向放在了這里。
我們已經(jīng)領(lǐng)略到了CNN的強大,所以Faster R-CNN把提取候選框的任務(wù)也交給神經(jīng)網(wǎng)絡(luò)來做。我們把完成這一任務(wù)的神經(jīng)網(wǎng)絡(luò)叫做Region Proposal Network(RPN)。
可以看到在Faster R-CNN中候選框的提取不再是第一步。在RPN之前已經(jīng)有一個CNN用于生成feature map,CNN中包括一系列卷積(Conv+Relu)和池化(Pooling)操作,卷積層的操作由RPN和Fast RCNN共享(提升速度)。在CNN最后一個卷積層后面才是RPN,RPN在feature map上得到候選區(qū)域。RPN引入了多尺度Anchor。通過Softmax對anchors屬于目標(biāo)(foreground)還是背景(background)進行分類判決,并使用Bounding Box Regression對anchors進行回歸預(yù)測,獲取Proposal的精確位置,并用于后續(xù)的目標(biāo)識別與檢測。簡單來說和之后的目標(biāo)檢測一樣,就是分類+回歸,不同的是這里的分類只需要判斷是目標(biāo)還是背景,不需要知道具體的類別。
除了CNN和RPN。還有兩個重要部分:
RoIPooling,綜合卷積層特征feature maps和候選框proposal的信息,將propopal在輸入圖像中的坐標(biāo)映射到最后一層feature map(conv5-3)中,對feature map中的對應(yīng)區(qū)域進行池化操作,得到固定大小(7×7)輸出的池化結(jié)果,并與后面的全連接層相連。池化的主要目的還是得到大小固定的向量,便于輸入神經(jīng)網(wǎng)絡(luò)。原始的對候選框中圖像進行大小歸一化的方法是crop和warp。
可以看到兩種方法都有失真。所以我們換了一種思路,沒必要對圖像大小歸一化,只需要對它們形成的向量歸一化就好了。M×N尺度,將proposal的坐標(biāo)映射到M16×N16大小的conv5-3中,然后將Proposal在conv5-3的對應(yīng)區(qū)域水平和豎直均分為7等份,并對每一份進行Max Pooling或Average Pooling處理,得到固定大小(7×7)輸出的池化結(jié)果,實現(xiàn)固定長度輸出(fixed-length output),如下圖所示。水平和豎直方向分別是7等分就可以,不必使得水平和豎直的每一塊大小都相同,最后使用最大池化或者平均池化,使得每一塊不管大小,都只有一個輸出,則得到了統(tǒng)一的7x7的大小。
Classificationand Regression: 全連接層后接兩個子連接層——分類層(cls)和回歸層(reg),分類層用于判斷Proposal的類別,回歸層則通過boundingbox regression預(yù)測Proposal的準(zhǔn)確位置。https://blog.csdn.net/Zachary_Co/article/details/78890768
還沒有仔細了解一下ss方法,現(xiàn)在先來看一下RPN。RPN使用一個3x3的卷積核,在feature map上滑動窗口。但是Anchor不是指這個3x3的核,而是3x3卷積核在滑動的過程中,將核中心位置映射回輸入圖像,生成的3種尺度(scale 邊長為128,256,512的正方形),3種長寬比(aspect ratio 1:1,1:2,2:1),共9種的候選框。特征圖conv5-3每個位置都對應(yīng)9個anchors,如果featuremap的大小為W×H,則一共有W×H×9個anchors,滑動窗口的方式保證能夠關(guān)聯(lián)conv5-3的全部特征空間,最后在原圖上得到多尺度多長寬比的anchors。
因為在候選框的提取RPN和目標(biāo)檢測Fast R-CNN中都需要進行分類classification和回歸Regression,所以一共需要4個損失函數(shù)。
Reference:
1.??????https://www.cnblogs.com/skyfsm/p/6806246.html
2.??????https://blog.csdn.net/Zachary_Co/article/details/78890768
總結(jié)
以上是生活随笔為你收集整理的Fater R-CNN 整体把握的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Python面试题大全(二):pytho
- 下一篇: 数据结构 - 队列(图解+源码)