日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

faster rcnn resnet_RCNN系列、Fast-RCNN、Faster-RCNN、R-FCN检测模型对比

發(fā)布時間:2024/7/5 编程问答 57 豆豆
生活随笔 收集整理的這篇文章主要介紹了 faster rcnn resnet_RCNN系列、Fast-RCNN、Faster-RCNN、R-FCN检测模型对比 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

RCNN系列、Fast-RCNN、Faster-RCNN、R-FCN檢測模型對比

一.RCNN

問題一:速度

經(jīng)典的目標檢測算法使用滑動窗法依次判斷所有可能的區(qū)域。本文則預先提取一系列較可能是物體的候選區(qū)域,之后僅在這些候選區(qū)域上提取特征,進行判斷。

問題二:訓練集

經(jīng)典的目標檢測算法在區(qū)域中提取人工設定的特征(Haar,HOG)。本文則需要訓練深度網(wǎng)絡進行特征提取。可供使用的有兩個數(shù)據(jù)庫:

一個較大的識別庫(ImageNet ILSVC 2012):標定每張圖片中物體的類別。一千萬圖像,1000類。

一個較小的檢測庫(PASCAL VOC 2007):標定每張圖片中,物體的類別和位置。一萬圖像,20類。

保證合并后形狀規(guī)則。

網(wǎng)絡分為四個部分:區(qū)域劃分、特征提取、區(qū)域分類、邊框回歸

區(qū)域劃分:使用selective search算法畫出2k個左右候選框,送入CNN

特征提取:使用imagenet上訓練好的模型,進行finetune

區(qū)域分類:從頭訓練一個SVM分類器,對CNN出來的特征向量進行分類

邊框回歸:使用線性回歸,對邊框坐標進行精修

優(yōu)點:

ss算法比滑窗得到候選框高效一些;使用了神經(jīng)網(wǎng)絡的結構,準確率比傳統(tǒng)檢測提高了。

缺點:

1、ss算法太耗時,每張圖片都分成2k,并全部送入CNN,計算量很大,訓練和inference時間長。

2、四個模塊基本是單獨訓練的,CNN使用預訓練模型finetune、SVM重頭訓練、邊框回歸重頭訓練。微調(diào)困難,可能有些有利于邊框回歸的特征并沒有被CNN保留。

二.Fast-RCNN

Fast RCNN方法解決了RCNN方法三個問題:

問題一:測試時速度慢

RCNN一張圖像內(nèi)候選框之間大量重疊,提取特征操作冗余。

本文將整張圖像歸一化后直接送入深度網(wǎng)絡。在鄰接時,才加入候選框信息,在末尾的少數(shù)幾層處理每個候選框。

問題二:訓練時速度慢

原因同上。

在訓練時,本文先將一張圖像送入網(wǎng)絡,緊接著送入從這幅圖像上提取出的候選區(qū)域。這些候選區(qū)域的前幾層特征不需要再重復計算。

問題三:訓練所需空間大

RCNN中獨立的分類器和回歸器需要大量特征作為訓練樣本。

本文把類別判斷和位置精調(diào)統(tǒng)一用深度網(wǎng)絡實現(xiàn),不再需要額外存儲。

相對RCNN,準確率和速度都提高了,具體做了以下改進:

1、依舊使用了selective search算法對原始圖片進行候選區(qū)域劃分,但送入CNN的是整張原始圖片,相當于對一張圖片只做一次特征提取,計算量明顯降低

2、在原圖上selective search算法畫出的候選區(qū)域對應到CNN后面輸出的feature map上,得到2k個左右的大小長寬比不一的候選區(qū)域,然后使用RoI pooling將這些候選區(qū)域resize到統(tǒng)一尺寸,繼續(xù)后續(xù)的運算

3、將邊框回歸融入到卷積網(wǎng)絡中,相當于CNN網(wǎng)絡出來后,接上兩個并行的全連接網(wǎng)絡,一個用于分類,一個用于邊框回歸,變成多任務卷積網(wǎng)絡訓練。這一改進,相當于除了selective search外,剩余的屬于端到端,網(wǎng)絡一起訓練可以更好的使對于分類和回歸有利的特征被保留下來

4、分類器從SVM改為softmax,回歸使用平滑L1損失。

缺點:因為有selective search,所以還是太慢了,一張圖片inference需要3s左右,其中2s多耗費在ss上,且整個網(wǎng)絡不是端到端。

三.Faster-RCNN

從RCNN到fast RCNN,再到本文的faster RCNN,目標檢測的四個基本步驟(候選區(qū)域生成,特征提取,分類,位置精修)終于被統(tǒng)一到一個深度網(wǎng)絡框架之內(nèi)。所有計算沒有重復,完全在GPU中完成,大大提高了運行速度。

引入RPN,Faster-RCNN相當于Fast-RCNN+RPN,準確率和速度進一步提高,主要做了以下改進:

1、移除selective search算法,還是整張原始圖片輸入CNN進行特征提取,在CNN后面的卷積不再使用ss算法映射過來的候選區(qū)域,而是采用新的網(wǎng)絡RPN,使用神經(jīng)網(wǎng)絡自動進行候選區(qū)域劃分。

2、RPN通過生成錨點,以每個錨點為中心,畫出9個不同長寬比的框,作為候選區(qū)域,然后對這些候選區(qū)域進行初步判斷和篩選,看里面是否包含物體(與groundtruth對比IoU,大于0.7的為前景,小于0.3的為背景,中間的丟棄),若沒有就刪除,減少了不必要的計算。

3、有效的候選區(qū)域(置信度排序后選取大概前300個左右)進行RoI pooling后送入分類和邊框回歸網(wǎng)絡。

優(yōu)點:端到端網(wǎng)絡,整體進行優(yōu)化訓練;使用神經(jīng)網(wǎng)絡自動生成的候選區(qū)域對結果更有利,比ss算法好;過濾了一些無效候選區(qū),較少了冗余計算,提升了速度。

RPN訓練:

1、加載預訓練模型,訓練RPN。

2、訓練fast-rcnn,使用的候選區(qū)域是RPN的輸出結果,然后進行后續(xù)的bb的回歸和分類。

3、再訓練RPN,但固定網(wǎng)絡公共的參數(shù),只更新RPN自己的參數(shù)。

4、根據(jù)RPN,對fast-rcnn進行微調(diào)訓練。

四.R-FCN

一個base的conv網(wǎng)絡如ResNet101, 一個RPN(Faster RCNN來的),一個position sensitive的prediction層,最后的ROI pooling+投票的決策層。

分類需要特征具有平移不變性,檢測則要求對目標的平移做出準確響應。現(xiàn)在的大部分CNN在分類上可以做的很好,但用在檢測上效果不佳。SPP,Faster R-CNN類的方法在ROI pooling前都是卷積,是具備平移不變性的,但一旦插入ROI pooling之后,后面的網(wǎng)絡結構就不再具備平移不變性了。因此,本文想提出來的position sensitive score map這個概念是能把目標的位置信息融合進ROI pooling。

對于region-based的檢測方法,以Faster R-CNN為例,實際上是分成了幾個subnetwork,第一個用來在整張圖上做比較耗時的conv,這些操作與region無關,是計算共享的。第二個subnetwork是用來產(chǎn)生候選的boundingbox(如RPN),第三個subnetwork用來分類或進一步對box進行regression(如Fast RCNN),這個subnetwork和region是有關系的,必須每個region單獨跑網(wǎng)絡,銜接在這個subnetwork和前兩個subnetwork中間的就是ROI pooling。我們希望的是,耗時的卷積都盡量移到前面共享的subnetwork上。因此,和Faster RCNN中用的ResNet(前91層共享,插入ROI pooling,后10層不共享)策略不同,本文把所有的101層都放在了前面共享的subnetwork。最后用來prediction的卷積只有1層,大大減少了計算量。

在Faster-RCNN基礎上,進一步提高了準確率,主要以下改進:
1、使用全卷積層代替CNN basenet里面的全連接層。
2、CNN得到的feature map在RoI pooling之后變成3x3大小,把groundtruth也變成3x3大小,對9宮格每個區(qū)域分別比較和投票。

總結

以上是生活随笔為你收集整理的faster rcnn resnet_RCNN系列、Fast-RCNN、Faster-RCNN、R-FCN检测模型对比的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。