日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

感知算法论文(三):Feature Selective Anchor-Free Module for Single-Shot Object Detection

發(fā)布時(shí)間:2023/12/15 编程问答 36 豆豆
生活随笔 收集整理的這篇文章主要介紹了 感知算法论文(三):Feature Selective Anchor-Free Module for Single-Shot Object Detection 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

文章目錄

    • 摘要
    • 1. 引言
    • 2. 相關(guān)工作
    • 3. Anchor-free特征選擇模型
      • 3.1 網(wǎng)絡(luò)結(jié)構(gòu)
      • 3.2 Ground-truth 和 loss
      • 3.3 在線特征選擇
      • 3.4 Joint 推斷和訓(xùn)練
    • 4. 實(shí)驗(yàn)
      • 4.1 消融學(xué)習(xí)
      • 4.2 與目前效果最好的網(wǎng)絡(luò)相比
    • 5. 總結(jié)

摘要

本文建立了一個(gè)“無錨點(diǎn)特征選擇模型”(feature selective anchor-free,FSAF),是一個(gè)簡(jiǎn)單有效的針對(duì)單目標(biāo)檢測(cè)的模塊。

可以探入具有特征金字塔結(jié)構(gòu)的單目檢測(cè)器

FSAF模型打破了一般的基于anchor的目標(biāo)檢測(cè)的缺陷:

  • 啟發(fā)式引導(dǎo)特征選擇
  • overlap-based錨點(diǎn)采樣

FSAF模型的一般機(jī)制:將在線特征選擇應(yīng)用于多級(jí)無錨點(diǎn)分支的訓(xùn)練

無錨點(diǎn)分支和特征金字塔的每一級(jí)都進(jìn)行連接,允許在任意一級(jí)以無錨點(diǎn)的方式進(jìn)行box的編碼和解碼。

訓(xùn)練過程中,動(dòng)態(tài)的將每個(gè)實(shí)例分配到最合適的特征層

推理過程中,FSAF模型可以通過并行輸出預(yù)測(cè)結(jié)果,而和基于anchor的分支協(xié)同工作。

本文使用無錨點(diǎn)分支的簡(jiǎn)單實(shí)現(xiàn)和在線特征選擇機(jī)制來說明該過程

在COCO數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果展示出本文的FSAF模型比基于錨點(diǎn)的方法更快更好。

當(dāng)和anchor-based分支協(xié)同工作時(shí),FSAF模型在各種不同的設(shè)置下顯著提高了基準(zhǔn)RetinaNet的性能,同時(shí)引入了幾乎免費(fèi)的推理開銷。

最優(yōu)模型可以實(shí)現(xiàn)SOTA——44.6%的mAP,比其他單目檢測(cè)器在COCO上的效果都好。

1. 引言

目標(biāo)檢測(cè)是計(jì)算機(jī)視覺領(lǐng)域的一項(xiàng)重要任務(wù),是許多視覺任務(wù)的基礎(chǔ),如實(shí)例分割[12],面部分析[1,39],自動(dòng)駕駛[6,20]等。目標(biāo)檢測(cè)的效果的提升很大程度上得益于深度卷積神經(jīng)網(wǎng)絡(luò)的發(fā)展[16.29,13,34]和優(yōu)質(zhì)的帶標(biāo)記數(shù)據(jù)集[7,23]。

目標(biāo)檢測(cè)的一個(gè)難點(diǎn)在于目標(biāo)不可避免的尺度縮放,為了獲得尺度不變性,SOTA檢測(cè)器將特征金字塔或多尺度特征進(jìn)行結(jié)合[24,8,21,22,19,38]。

多尺度特征圖可以同時(shí)被生成。

為了將連續(xù)空間離散化而設(shè)計(jì)的anchor box可以將所有可能的實(shí)例框到一系列有限數(shù)量的盒子中,這些box有特定的尺度和縱橫比。

實(shí)例框和錨點(diǎn)框的匹配基于IoU重疊率

當(dāng)與特征金字塔進(jìn)行集成的時(shí)候,大尺度的anchor box通常會(huì)和上層特征圖相關(guān)聯(lián),小的anchor box通常會(huì)和底層特征圖相關(guān)聯(lián)(Fig.2)。

這是基于啟發(fā)式的,上層特征圖有更多的語義信息,適合于檢測(cè)較大的實(shí)例,底層的特征圖有更多精細(xì)的細(xì)節(jié)信息,適合于檢測(cè)小的實(shí)例[11]。

將特征金字塔和anchor box結(jié)合起來的設(shè)計(jì)在目標(biāo)檢測(cè)方面獲得了很好的效果[7,23,9]


然而這樣的設(shè)計(jì)有兩個(gè)限制:

  • 啟發(fā)式指導(dǎo)特征的選擇
  • overlap-based 錨點(diǎn)采樣

訓(xùn)練過程中,每個(gè)實(shí)例都要和最近的anchor box求取IoU,且anchor box是通過人為定義的規(guī)則來和特定的特征圖層進(jìn)行關(guān)聯(lián)的(如框大小等)。所以每個(gè)實(shí)例的選擇的特征層純粹是基于啟發(fā)式引導(dǎo)的。

假設(shè)一個(gè)像素大小為50x50的車,和另外一個(gè)像素大小為60x60的相同的車可能被認(rèn)為成兩個(gè)不同特征層,然而40x40大小的車就會(huì)被認(rèn)為是和50x50的車是一個(gè)特征層。

也就是說,anchor匹配的機(jī)制是內(nèi)在的啟發(fā)式指導(dǎo)的,這樣會(huì)導(dǎo)致一個(gè)主要的缺陷,即用來訓(xùn)練每個(gè)實(shí)例的選擇的特征層可能并非最優(yōu)的

本文提出的簡(jiǎn)單且高效的方法是FSAF模型,同時(shí)解決了這兩大缺陷。

動(dòng)機(jī): 要使得每個(gè)實(shí)例能夠自由的選擇最優(yōu)層級(jí)來優(yōu)化網(wǎng)絡(luò),故模型中不應(yīng)該有anchor box來約束特征的選擇。本文以無錨點(diǎn)框的方式對(duì)實(shí)例進(jìn)行編碼,以學(xué)習(xí)分類和回歸的參數(shù)。一般過程如Fig.3。

對(duì)每個(gè)特征金字塔層都會(huì)建立一個(gè)anchor-free分支,不依賴于anchor-based分支

類似于anchor-based分支,anchor-free分支由分類子網(wǎng)絡(luò)和回歸子網(wǎng)絡(luò)構(gòu)成。實(shí)例可以被分配到anchor-free分支的任意層中。

訓(xùn)練過程中,動(dòng)態(tài)的基于實(shí)例內(nèi)容對(duì)每個(gè)實(shí)例選擇最合適的特征層,而不是只基于實(shí)例box的大小。之后,將選擇的特征層用來學(xué)習(xí)檢測(cè)所分配的實(shí)例。

推斷階段,FSAF模型可以獨(dú)立運(yùn)行或和anchor-based分支協(xié)同運(yùn)行

FSAF模型對(duì)主干網(wǎng)絡(luò)是未知的,且可以和特征金字塔結(jié)構(gòu)結(jié)合起來被用于單目檢測(cè)。

另外,anchor-free分支的實(shí)例化和在線特征的選擇是多種多樣的。

本工作中,我們保持FSAF模型的簡(jiǎn)單化,所以其耗費(fèi)的時(shí)間相對(duì)于整個(gè)網(wǎng)絡(luò)而言的開銷是很小的。

在COCO數(shù)據(jù)集上的目標(biāo)檢測(cè)方法已經(jīng)有很多,這為本文的方法提供了一定的比較性。

FSAF模型比anchor-based模型更快更好

當(dāng)和anchor-based分支協(xié)同工作時(shí),FSAF模型可以在保證最小計(jì)算成本的同時(shí),在不同的主干網(wǎng)直接大幅提高基準(zhǔn)。

同時(shí)利用ResNeXt-101的FSAF比RetinaNet提升了1.8%的mAP,只有6ms的推理階段的延遲。

本文最終的檢測(cè)器在使用多尺度測(cè)試時(shí)獲得了SOTA——44.6%的mAP,比其他單目檢測(cè)器在COCO上的表現(xiàn)都要好。

2. 相關(guān)工作

目前的目標(biāo)檢測(cè)器通常是實(shí)驗(yàn)特征金字塔或者多尺度特征塔作為通用結(jié)構(gòu)。

SSD[24]結(jié)構(gòu)首先提出了從多級(jí)特征中預(yù)測(cè)類別得分和b-box

FPN[21]和DSSD[8]的提出提高了所有層的底層和高層語義特征圖。

RetinaNet[22]解決了具有焦點(diǎn)損失的多級(jí)密集檢測(cè)器類別不均衡的問題

DeNet[19]設(shè)計(jì)了一種新的主干網(wǎng)絡(luò),來保證高空間分辨率在上層金字塔

這些方法使用預(yù)定義的anchor-box來編碼和解碼目標(biāo)實(shí)例

其他工作則以不同的方式來處理尺度的變化

Zhu[41]提升了對(duì)小目標(biāo)物體anchor的設(shè)計(jì)
He[14]將b-box看成Gaussian 分布來提升定位準(zhǔn)確度

anchor-free的方法在目前是很新的

DenseBox[15]首先提出了一個(gè)統(tǒng)一的端到端的全卷積網(wǎng)絡(luò)來直接預(yù)測(cè)b-box。

UnitBox提出了一種IoU損失函數(shù)來進(jìn)行更好的box回歸

Zhong等人[40]提出了基于區(qū)域提議的anchor-free網(wǎng)絡(luò)來尋找不同尺度、縱橫比和方向。

近期的CornerNet提出了將檢測(cè)目標(biāo)b-box當(dāng)做一對(duì)corners的方法,獲得了最好的單目檢測(cè)結(jié)果

SFace[32]的提出將anchor-free和anchor-based方法融為一體

然而,這些方法仍然采取啟發(fā)式特征選擇的方法

3. Anchor-free特征選擇模型

本節(jié)對(duì)本文的FSAF模型進(jìn)行了實(shí)例化說明,展示了如何與特征金字塔結(jié)合起來應(yīng)用于單目檢測(cè),正如SSD、DSSD和RetinaNet

我們將FSAF模型應(yīng)用于現(xiàn)在最好的RetinaNet模型,并且逐步介紹設(shè)計(jì)過程:

1)如何在網(wǎng)絡(luò)中生成anchor-free分支
2)如何對(duì)anchor-free分支產(chǎn)生監(jiān)督信號(hào)
3)如何對(duì)每個(gè)實(shí)例進(jìn)行特征層的動(dòng)態(tài)選擇
4)如何同時(shí)對(duì)anchor-free和anchor-based分支進(jìn)行訓(xùn)練或者測(cè)試

3.1 網(wǎng)絡(luò)結(jié)構(gòu)

從網(wǎng)絡(luò)方面來說,本文FSAF模型是非常簡(jiǎn)潔的。

Fig.4 展示了將RetinaNet和FSAF模型結(jié)合起來進(jìn)的結(jié)構(gòu)

簡(jiǎn)而言之,RetinaNet是由主干網(wǎng)絡(luò)和兩個(gè)“特殊任務(wù)”的子網(wǎng)絡(luò)組成的

特征金字塔是從主干網(wǎng)絡(luò)的P3—P7中構(gòu)建的,lll是金字塔的層數(shù),PlP_lPl?層的特征圖分辨率為輸入圖像的1/2l1/2^l1/2l,圖中只展示了三個(gè)不同的層。

金字塔中的每個(gè)層都被用來檢測(cè)不同尺度下的目標(biāo),為了實(shí)現(xiàn)這個(gè)目標(biāo),分類分支和回歸分支在PlP_lPl?層進(jìn)行了組合。這兩個(gè)子網(wǎng)絡(luò)結(jié)果都是小的全連接網(wǎng)絡(luò)。

  • 分類分支預(yù)測(cè)每個(gè)空域位置上的目標(biāo)的概率,包括所有A個(gè)anchor和所有K個(gè)類別中的所有b-box。

  • 回歸分支預(yù)測(cè)4個(gè)數(shù)字組成的b-box坐標(biāo)和離它最近的實(shí)例anchor的偏移量。

RetinaNet的頂部,FSAF模塊為每個(gè)金字塔層引入兩個(gè)額外的卷積層,Fig.4中虛線特征所示。

這兩層分別在anchor-free分支負(fù)責(zé)分類和回歸

為了更加有效,在分類子網(wǎng)絡(luò)的特征圖后連接了KKK個(gè)3x3大小的濾波器組成的卷積層,且級(jí)聯(lián)sigmoid激活函數(shù)。對(duì)所有的K個(gè)目標(biāo)類別的每個(gè)空域位置的目標(biāo)都預(yù)測(cè)概率。

同樣的,在回歸子網(wǎng)絡(luò)的特征圖后也連接了四個(gè)3x3大小的濾波器組成的卷積層,且級(jí)聯(lián)RELU激活函數(shù)[26]。對(duì)b-box的偏移做預(yù)測(cè)。

為此,anchor-free和anchor-based分支以多任務(wù)的方式聯(lián)合工作,共享金字塔每個(gè)層的特性。

3.2 Ground-truth 和 loss

給定目標(biāo)實(shí)例,我們已知其類別 kkk 和 b-box 坐標(biāo) b=[x,y,w,h]b=[x,y,w,h]b=[x,y,w,h],其中(x,y)(x,y)(x,y)為box的中心,w,hw,hw,h 為box的寬和高。

實(shí)例可以在訓(xùn)練過程中分配給任意特征層 PlP_lPl?

定義投影的box bpl=[xpl,ypl,wpl,hpl]b_p^l=[x_p^l, y_p^l, w_p^l, h_p^l]bpl?=[xpl?,ypl?,wpl?,hpl?] 作為 bbb 在特征金字塔 PlP_lPl?上的投影,bpl=b/2lb_p^l = b / 2^lbpl?=b/2l

同樣將有效box定義為bel=[xel,yel,wel,hel]b_e^l=[x_e^l, y_e^l, w_e^l, h_e^l]bel?=[xel?,yel?,wel?,hel?] ,占bplb_p^lbpl??e\epsilon_e?e?

將可忽略的box區(qū)域定義為bil=[xil,yil,wil,hil]b_i^l=[x_i^l, y_i^l, w_i^l, h_i^l]bil?=[xil?,yil?,wil?,hil?]bplb_p^lbpl??i\epsilon_i?i?

即:
xel=xpl,yel=ypl,wel=?ewpl,hel=?ehplx_e^l=x_p^l, y_e^l=y_p^l, w_e^l=\epsilon_e w_p^l, h_e^l=\epsilon_e h_p^lxel?=xpl?,yel?=ypl?,wel?=?e?wpl?,hel?=?e?hpl?
xil=xpl,yil=ypl,wil=?iwpl,hil=?ehplx_i^l=x_p^l,y_i^l=y_p^l, w_i^l=\epsilon_i w_p^l, h_i^l=\epsilon_e h_p^lxil?=xpl?,yil?=ypl?,wil?=?i?wpl?,hil?=?e?hpl?

且設(shè)定?e=0.2,?i=0.5\epsilon_e=0.2, \epsilon_i=0.5?e?=0.2,?i?=0.5

Fig.5 展示了對(duì)于一個(gè)車生成 ground truth 的過程


分類的輸出:

classification output是一個(gè)WxHxK大小的feature map,K表示物體類別數(shù),那么在坐標(biāo)為(i,j)的點(diǎn)上是一個(gè)長(zhǎng)度為K的向量,表示屬于每個(gè)類別的概率。分支對(duì)應(yīng)的gt是圖中白色區(qū)域內(nèi)值為1,表示正樣本,黑色區(qū)域內(nèi)值為0,表示負(fù)樣本,灰色區(qū)域是忽略區(qū)域不回傳梯度。分支采用Focal Loss,整個(gè)classification loss是非忽略區(qū)域的focal loss之和,然后除以有效區(qū)域內(nèi)像素個(gè)數(shù)之和來正則化一下。

分類輸出的真值為 KKK 個(gè)特征圖,每個(gè)都對(duì)應(yīng)一個(gè)類別

實(shí)例會(huì)在三個(gè)方面影響第 kkk 個(gè)真實(shí)特征圖:

  • 第一,有效框 belb_e^lbel? 區(qū)域是由“car”類特征圖中白色框所表示的正區(qū)域,表示實(shí)例的存在

  • 第二,被忽略的box將有效框 (bil?bel)(b_i^l-b_e^l)(bil??bel?) 排除在外,也就是灰色區(qū)域,這意味著該區(qū)域的梯度不能被回傳到網(wǎng)絡(luò)中。

  • 第三,臨近特征層(bil,bil+1)(b_i^l,b_i^{l+1})(bil?bil+1?) 如果存在忽略框,那么也會(huì)忽略區(qū)域

注意:如果同一層中的兩個(gè)實(shí)例的有效框有重疊,那么更小的實(shí)例的框有更高的準(zhǔn)確度。

GT中的剩余部分也就是負(fù)區(qū)域(黑色)將用零值填充,表示沒有目標(biāo)。

Focal loss[22]用來監(jiān)督訓(xùn)練,超參數(shù)設(shè)置為 α=0.25,γ=2.0\alpha=0.25, \gamma=2.0α=0.25,γ=2.0

anchor-free分支的完整分類子網(wǎng)絡(luò)的損失是所有為被忽略的區(qū)域的focal loss之和,用所有有效框區(qū)域的像素點(diǎn)之和做歸一化。

Box 回歸輸出:

回歸輸出的真值是4個(gè)偏置值

實(shí)例僅僅會(huì)影響偏移特征圖的 belb_e^lbel? 區(qū)域

對(duì)belb_e^lbel?內(nèi)的所有位置 (i,j)(i,j)(i,j) ,我們將投影框 bplb_p^lbpl? 表示為一個(gè)四維向量 di,jl=[dti,jl,dli,jl,dbi,jl,dri,jl]d_{i,j}^l=[d_{t_{i,j}}^l, d_{l_{i,j}}^l, d_{b_{i,j}}^l, d_{r_{i,j}}^l]di,jl?=[dti,j?l?,dli,j?l?,dbi,j?l?,dri,j?l?] ,其中,dtl,dll,dbl,drld_t^l, d_l^l, d_b^l, d_r^ldtl?,dll?,dbl?,drl? 分別表示目前位置(i,j)(i,j)(i,j)bplb_p^lbpl? 的上下左右的距離。

之后,在(i,j)(i,j)(i,j)位置上的跨越四個(gè)偏移映射的四維向量設(shè)置為 di,j/Sd_{i,j}/Sdi,j?/S ,每個(gè)映射對(duì)應(yīng)一個(gè)維度。 SSS 是標(biāo)準(zhǔn)化常數(shù),設(shè)置為4。將 di,j/Sd_{i,j}/Sdi,j?/S 作為輸出結(jié)果。

在有效框之外的位置都被設(shè)置為灰色區(qū)域,其梯度被忽略

IoU loss[36]被用來優(yōu)化

anchor-free分支對(duì)一幅圖像的回歸總損失是,所有有效框區(qū)域的IoU損失的均值

推理階段:
直接對(duì)分類和回歸輸出預(yù)測(cè)的框進(jìn)行解碼

對(duì)每個(gè)像素位置(i,j)(i,j)(i,j),假設(shè)預(yù)測(cè)的偏移是 [o^ti,j,o^li,j,o^bi,j,o^ri,j][ \hat{o}_{t_{i,j}}, \hat{o}_{l_{i,j}}, \hat{o}_{b_{i,j}}, \hat{o}_{r_{i,j}}][o^ti,j??,o^li,j??,o^bi,j??,o^ri,j??] ,則預(yù)測(cè)的距離是[So^ti,j,So^li,j,So^bi,j,So^ri,j][ S_{\hat{o}_{t_{i,j}}}, S_{\hat{o}_{l_{i,j}}}, S_{\hat{o}_{b_{i,j}}}, S_{\hat{o}_{r_{i,j}}}][So^ti,j???,So^li,j???,So^bi,j???,So^ri,j???]

預(yù)測(cè)的投影框的左上角和右下角分別為:(i?So^ti,j,j?So^li,j)(i-S_{\hat{o}_{t_{i,j}}}, j-S_{\hat{o}_{l_{i,j}}})(i?So^ti,j???,j?So^li,j???)(i+So^bi,j,j+So^ri,j)(i+S_{\hat{o}_{b_{i,j}}}, j+S_{\hat{o}_{r_{i,j}}})(i+So^bi,j???,j+So^ri,j???)

進(jìn)一步,使用2l2^l2l對(duì)投影框進(jìn)行縮放來獲得圖像的最終框

box的置信分?jǐn)?shù)和分類可以由分類輸出映射中的最大分?jǐn)?shù)和對(duì)應(yīng)的類別來決定

3.3 在線特征選擇

anchor-free分支的設(shè)計(jì)允許我們使用人員金字塔層 PlP^lPl 的特征,為了選擇最優(yōu)特征層,FSAF模型基于實(shí)例內(nèi)容選擇最優(yōu)的 PlP^lPl ,而不是例如anchor-based方法中使用的實(shí)例框的大小來選擇。

給定一個(gè)實(shí)例 III ,定義在PlP^lPl 上的分類損失和回歸損失為 LFLI(l)L^I_{FL}(l)LFLI?(l)LIoUI(l)L^I_{IoU}(l)LIoUI?(l),通過對(duì)有效框區(qū)域 belb^l_ebel? 的focal loss和IoU loss分別進(jìn)行平均而獲得:

LFLI(l)=1N(bel)∑i,j∈belFL(l,i,j)L^I_{FL}(l)=\frac{1}{N(b^l_e)} \sum _{i,j \in b_e^l} FL(l,i,j)LFLI?(l)=N(bel?)1?i,jbel??FL(l,i,j)
LIoUI(l)=1N(bel)∑i,j∈belIoU(l,i,j)L^I_{IoU}(l)=\frac{1}{N(b^l_e)} \sum _{i,j \in b_e^l} IoU(l,i,j)LIoUI?(l)=N(bel?)1?i,jbel??IoU(l,i,j)

其中, N(bel)N(b^l_e)N(bel?)belb_e^lbel?區(qū)域內(nèi)的所有像素點(diǎn)的和, FL(l,i,j)FL(l,i,j)FL(l,i,j)IoU(l,i,j)IoU(l,i,j)IoU(l,i,j) 是在 PlP_lPl? 上的(i,j)(i,j)(i,j)位置上的 focal loss 和 IoU loss。

Fig.6 表示了我們的在線特征選擇過程,首先對(duì)實(shí)例III在金字塔的每個(gè)層進(jìn)行前向傳播。

之后對(duì)所有anchor-free分支上利用公式(1)計(jì)算 LFLI(l)L^I_{FL}(l)LFLI?(l)LIoUI(l)L^I_{IoU}(l)LIoUI?(l) 的和。

最后,產(chǎn)生的損失之和最小的也就是最優(yōu)的金字塔層 Pl?P_{l^*}Pl?? 被用來學(xué)習(xí)實(shí)例:

l?=argminlLFLI(l)+LIoUI(l)l^*=argmin_lL^I_{FL}(l)+L^I_{IoU}(l)l?=argminl?LFLI?(l)+LIoUI?(l)

對(duì)于整個(gè)訓(xùn)練batch,特征根據(jù)為其分配的實(shí)例而改變。選擇的特征是目前最好的用于實(shí)例建模的特征。其損失在特征域形成最低的限制。

推理階段,不需要選擇特征,因?yàn)樘卣鹘鹱炙凶詈线m的層將輸出最高置信得分。

為了證實(shí)在線特征選擇的重要性,我們也在消融實(shí)驗(yàn)中使用了啟發(fā)式特征選擇的方法用于對(duì)比(4.1)。

啟發(fā)式特征選擇更大的依賴于box大小,仿照FPN檢測(cè)器[21]的思想,實(shí)例 III 是通過如下方法分配給特征金字塔的 Pl′P_{l'}Pl?

l′=?l0+log2(wh/224)?l'=\lfloor l_0+log_2(\sqrt{wh}/224) \rfloorl=?l0?+log2?(wh?/224)?

其中,224是典型ImageNet預(yù)訓(xùn)練大小,且l0l_0l0?是目標(biāo)層,該層中輸入實(shí)例大小為 w×h=2242w\times h=224^2w×h=2242

本文選擇 l0=5l_0=5l0?=5,因?yàn)镽estNet[13]從第五個(gè)卷積層中使用該特征圖,以進(jìn)行最終的分類。

3.4 Joint 推斷和訓(xùn)練

當(dāng)將FSAF模塊作為RetinaNet的一個(gè)子模塊來工作時(shí),FSAF模型和anchor-based分支共同工作,Fig.4所示。

我們將anchor-based分支當(dāng)做最初的網(wǎng)絡(luò),所有的超參數(shù)在訓(xùn)練和推斷的時(shí)候都沒有改變。

推斷:

FSAF模型僅僅給全卷積網(wǎng)絡(luò)RetinaNet添加了少量的卷積層,所有推斷層仍然像一幅圖像簡(jiǎn)單的像圖像從網(wǎng)絡(luò)中前向傳播一樣。

對(duì)anchor-free分支,我們只解碼每個(gè)金字塔層級(jí)中得分最高的1k個(gè)位置的預(yù)測(cè)框,然后使用0.05對(duì)其進(jìn)行置信的分的選擇。

這些從所有層中獲得的得分較高的框和anchor-based分支獲得的預(yù)測(cè)框進(jìn)行融合,然后使用閾值為0.5的NMS來產(chǎn)生最終的檢測(cè)結(jié)果。

初始化:

主干網(wǎng)絡(luò)在ImageNet 1k[5]中進(jìn)行預(yù)訓(xùn)練,我們利用[22]中初始化的方法來初始化RetinaNet。

FSAF模塊中的卷積層,分類層的偏置為 ?log((1?π)/π)-log((1-\pi)/\pi)?log((1?π)/π),權(quán)重是 σ=0.01\sigma=0.01σ=0.01的高斯分布,其中 π\(zhòng)piπ 定義為:訓(xùn)練之初,在 π\(zhòng)piπ周圍的每個(gè)像素位置輸出對(duì)象的得分。且設(shè)置 π=0.01\pi=0.01π=0.01

所有的box回歸層偏置都初始化為 b=0.1b=0.1b=0.1,權(quán)重是 σ=0.01\sigma=0.01σ=0.01的高斯分布,

這樣的初始化有助于在網(wǎng)絡(luò)訓(xùn)練前期更加穩(wěn)定,避免大的loss

優(yōu)化:

整個(gè)網(wǎng)絡(luò)的損失是將anchor-free和anchor-based分支組合起來的。

LabL^{ab}Lab 表示初始RetinaNet的總損失, LclsafL_{cls}^{af}Lclsaf?LregafL_{reg}^{af}Lregaf?分別表示anchor-free分支的分類和回歸損失。

則總損失為L=Lab+λ(Lclsaf+Lregaf)L=L^{ab}+\lambda( L_{cls}^{af}+ L_{reg}^{af})L=Lab+λ(Lclsaf?+Lregaf?)

其中,λ\lambdaλ是平衡兩個(gè)分支的權(quán)值,我們?cè)O(shè)置其為0.5。

整個(gè)網(wǎng)絡(luò)使用SGD訓(xùn)練的方法在8個(gè)GPU上訓(xùn)練,每個(gè)GPU上兩個(gè)圖

除非特別說明,我們訓(xùn)練都是使用90k迭代次數(shù),初始學(xué)習(xí)率為0.01,分別在60k和80k時(shí)將學(xué)習(xí)率降低10倍。

除非另有說明,否則水平圖像翻轉(zhuǎn)是唯一應(yīng)用的數(shù)據(jù)增強(qiáng)。

權(quán)值下降率為0.0001,動(dòng)量為0.9

4. 實(shí)驗(yàn)

本文在COCO數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),訓(xùn)練集是COCO trainval 135k,包括所有train 80k圖像,和從val (40k)中隨機(jī)選擇的35k子集

使用在剩余的5k 的val中的數(shù)據(jù)構(gòu)成的 minival 數(shù)據(jù)集進(jìn)行消融學(xué)習(xí)的方法來分析本文的效果。

4.1 消融學(xué)習(xí)

對(duì)所有消融學(xué)習(xí),我們?cè)谟?xùn)練和測(cè)試中都使用大小為800像素的圖像。

我們對(duì)anchor-free分支、在線特征選擇和主干網(wǎng)絡(luò)都進(jìn)行評(píng)估,結(jié)果在表1和2。

anchor-free分支是必要的:

首先,訓(xùn)練兩個(gè)檢測(cè)器,都是僅有anchor-free分支,但分別使用不同的特征選擇方式(表1的2和3)。說明了anchor-free分支僅僅能夠達(dá)到較好的效果。


當(dāng)FSAF和anchor-based分支協(xié)同工作時(shí),anchor-free分支能夠幫助學(xué)習(xí)到anchor-based分支難以學(xué)習(xí)到的實(shí)例,獲得AP得分的增大。(表1的第5個(gè))

尤其在使用在線特征選擇時(shí)使AP50,APS.APLAP_{50}, AP_S. AP_LAP50?,APS?.APL?的得分分別提升了2.5%,1.5%和2.2%

為了尋找FSAF模型能夠檢測(cè)出來哪種目標(biāo),我們展示了和RetinaNet之間一些定量的對(duì)比分析,如Fig.7所示。

顯而易見,FSAF模型在尋找有難度的實(shí)例上更加優(yōu)異,如小的人物和目標(biāo),這些都很難用基于anchor的方法來找到。

在線特征選擇是必須的:

如3.3節(jié)中所描述的,我們可以選擇anchor-free分支或基于啟發(fā)式的anchor-based分支,又或者基于實(shí)例內(nèi)容來進(jìn)行特征選擇。

這些表明,選擇正確的特征來學(xué)習(xí)在檢測(cè)中起到很重要的作用

實(shí)驗(yàn)表明,anchor-free分支如果使用啟發(fā)式特征選擇方法(公式3),將不能和anchor-based方法相比較,因?yàn)閷W(xué)習(xí)的參數(shù)太少。

但是使用在線特征選擇時(shí)(公式2),會(huì)可分參數(shù)的困難

另外,表1的4和5完全可以證實(shí),在線特征選擇對(duì)anchor-free和anchor-based方法的結(jié)合使用很重要。

最優(yōu)特征如何選擇:

為了理解為實(shí)例選擇最優(yōu)金字塔層的過程,我們可視化一些從anchor-free分支上獲得的定性的檢測(cè)結(jié)果,Fig.8所示。

類別之前的數(shù)字表示檢測(cè)目標(biāo)的特征層,這表明在線特征選擇實(shí)際上遵循一種規(guī)則,就是金字塔上層選擇大的實(shí)例,底層對(duì)小的實(shí)例進(jìn)行響應(yīng),這和anchor-based方法的原理是一樣的,

然而,這也有一定的例外,包括,在線特征選擇的方法決定了選擇金字塔層的過程不同于anchor-based選擇層的過程。

我們將這些不同在Fig8中用紅色標(biāo)記起來,綠色框表示anchor-free和anchor-based相同的地方。

通過捕捉這些例外,可以證明FSAF模型可以使用更好的特征來檢測(cè)有難度的目標(biāo)。

FSAF模型是魯棒且有效的:

我們同樣對(duì)FSAF模型所使用的主干網(wǎng)絡(luò)所能達(dá)到的速度和精度進(jìn)行了實(shí)驗(yàn)。

使用了三種不同的主干網(wǎng)絡(luò) ResNet-50, ResNet-101 [13] 和 ResNeXt-101 [34]

在Titan X GPU 使用CUDA 9 和CUDNN 7進(jìn)行訓(xùn)練,batch size為1,結(jié)果再表2中。

可以發(fā)現(xiàn),FSAF模型對(duì)不同的主干網(wǎng)絡(luò)是有一定的魯棒性的。

FSAF模型比 anchor-based 的 RetinaNet 效果更好也更快,

ResNeXt-101上,FSAF模型比anchor-based模型的 AP 高1.2%,快68ms

當(dāng)和anchor-based網(wǎng)絡(luò)協(xié)同工作時(shí),FSAF模型也對(duì)效果提升起到了相當(dāng)大的作用

這也表明,anchor-based模型并沒有使得主干網(wǎng)絡(luò)的能量完全發(fā)揮出來

此外,FSAF模型僅僅為整個(gè)網(wǎng)絡(luò)引入了一點(diǎn)點(diǎn)的計(jì)算開銷,基本上可以忽略

而且,我們使得使用 ResNeXt-101 的 RetinaNet 的 AP 提升了1.8%,且僅有6ms的延時(shí)

4.2 與目前效果最好的網(wǎng)絡(luò)相比

最好,在 COCO 的 test-dev 數(shù)據(jù)上進(jìn)行了最終的檢測(cè)實(shí)驗(yàn),并和目前最好的網(wǎng)絡(luò)進(jìn)行了對(duì)比。

最終的模型是 RetinaNet + FSAF 的模型, 即 anchor-based分支加上FSAF模塊

模型使用不同的尺度 { 640, 672, 704, 736,768, 800 } 進(jìn)行訓(xùn)練,且是 4.1 節(jié)的模型長(zhǎng)的 1.5倍。

實(shí)驗(yàn)包括單個(gè)尺度和多級(jí)尺度版本,其中單個(gè)尺度的測(cè)試使用像素大小為800的輸入圖像,多級(jí)尺度的測(cè)試數(shù)據(jù)增強(qiáng),尺度分別為 {400, 500, 600, 700, 900, 1000, 1100, 1200},且對(duì)每個(gè)尺度進(jìn)行水平翻轉(zhuǎn),后級(jí)聯(lián)Detctron[10]。所有的結(jié)果都源于單個(gè)模型,并未融合。

表3展示了對(duì)比結(jié)果

使用ResNet-101作為主干網(wǎng)絡(luò),我們的檢測(cè)可以在單尺度和多尺度都達(dá)到很好的效果。

使用ResNeXt-101-64x4d作為主干網(wǎng)絡(luò),使得AP提升了44.6%,比目前最好的單目檢測(cè)器有了很大的提升。

5. 總結(jié)

本文工作證明了啟發(fā)式的特征選擇是 anchor-based 的單目檢測(cè)方法的基本限制,為了跨越這個(gè)限制,我們提出了FSAF模塊,使用在線特征選擇方法在特征金字塔中訓(xùn)練 anchor-free 分支。

這提升了較小實(shí)例檢測(cè)的基線,并獲得了最好的單目檢測(cè)效果。

總結(jié)

以上是生活随笔為你收集整理的感知算法论文(三):Feature Selective Anchor-Free Module for Single-Shot Object Detection的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。