當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

感知算法论文（三）：Feature Selective Anchor-Free Module for Single-Shot Object Detection

發(fā)布時(shí)間：2023/12/15 编程问答 36 豆豆

生活随笔收集整理的這篇文章主要介紹了感知算法论文（三）：Feature Selective Anchor-Free Module for Single-Shot Object Detection 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

文章目錄

- 摘要
- 1. 引言
- 2. 相關(guān)工作
- 3. Anchor-free特征選擇模型
- - 3.1 網(wǎng)絡(luò)結(jié)構(gòu)
  - 3.2 Ground-truth 和 loss
  - 3.3 在線特征選擇
  - 3.4 Joint 推斷和訓(xùn)練
- 4. 實(shí)驗(yàn)
- - 4.1 消融學(xué)習(xí)
  - 4.2 與目前效果最好的網(wǎng)絡(luò)相比
- 5. 總結(jié)

摘要

本文建立了一個(gè)“無錨點(diǎn)特征選擇模型”（feature selective anchor-free，FSAF），是一個(gè)簡(jiǎn)單有效的針對(duì)單目標(biāo)檢測(cè)的模塊。

可以探入具有特征金字塔結(jié)構(gòu)的單目檢測(cè)器

FSAF模型打破了一般的基于anchor的目標(biāo)檢測(cè)的缺陷：

啟發(fā)式引導(dǎo)特征選擇
overlap-based錨點(diǎn)采樣

FSAF模型的一般機(jī)制：將在線特征選擇應(yīng)用于多級(jí)無錨點(diǎn)分支的訓(xùn)練

無錨點(diǎn)分支和特征金字塔的每一級(jí)都進(jìn)行連接，允許在任意一級(jí)以無錨點(diǎn)的方式進(jìn)行box的編碼和解碼。

訓(xùn)練過程中，動(dòng)態(tài)的將每個(gè)實(shí)例分配到最合適的特征層

推理過程中，FSAF模型可以通過并行輸出預(yù)測(cè)結(jié)果，而和基于anchor的分支協(xié)同工作。

本文使用無錨點(diǎn)分支的簡(jiǎn)單實(shí)現(xiàn)和在線特征選擇機(jī)制來說明該過程

在COCO數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果展示出本文的FSAF模型比基于錨點(diǎn)的方法更快更好。

當(dāng)和anchor-based分支協(xié)同工作時(shí)，FSAF模型在各種不同的設(shè)置下顯著提高了基準(zhǔn)RetinaNet的性能，同時(shí)引入了幾乎免費(fèi)的推理開銷。

最優(yōu)模型可以實(shí)現(xiàn)SOTA——44.6%的mAP，比其他單目檢測(cè)器在COCO上的效果都好。

1. 引言

目標(biāo)檢測(cè)是計(jì)算機(jī)視覺領(lǐng)域的一項(xiàng)重要任務(wù)，是許多視覺任務(wù)的基礎(chǔ)，如實(shí)例分割[12]，面部分析[1,39]，自動(dòng)駕駛[6,20]等。目標(biāo)檢測(cè)的效果的提升很大程度上得益于深度卷積神經(jīng)網(wǎng)絡(luò)的發(fā)展[16.29,13,34]和優(yōu)質(zhì)的帶標(biāo)記數(shù)據(jù)集[7,23]。

目標(biāo)檢測(cè)的一個(gè)難點(diǎn)在于目標(biāo)不可避免的尺度縮放，為了獲得尺度不變性，SOTA檢測(cè)器將特征金字塔或多尺度特征進(jìn)行結(jié)合[24,8,21,22,19,38]。

多尺度特征圖可以同時(shí)被生成。

為了將連續(xù)空間離散化而設(shè)計(jì)的anchor box可以將所有可能的實(shí)例框到一系列有限數(shù)量的盒子中，這些box有特定的尺度和縱橫比。

實(shí)例框和錨點(diǎn)框的匹配基于IoU重疊率

當(dāng)與特征金字塔進(jìn)行集成的時(shí)候，大尺度的anchor box通常會(huì)和上層特征圖相關(guān)聯(lián)，小的anchor box通常會(huì)和底層特征圖相關(guān)聯(lián)（Fig.2）。

這是基于啟發(fā)式的，上層特征圖有更多的語義信息，適合于檢測(cè)較大的實(shí)例，底層的特征圖有更多精細(xì)的細(xì)節(jié)信息，適合于檢測(cè)小的實(shí)例[11]。

將特征金字塔和anchor box結(jié)合起來的設(shè)計(jì)在目標(biāo)檢測(cè)方面獲得了很好的效果[7,23,9]

然而這樣的設(shè)計(jì)有兩個(gè)限制：

啟發(fā)式指導(dǎo)特征的選擇
overlap-based 錨點(diǎn)采樣

訓(xùn)練過程中，每個(gè)實(shí)例都要和最近的anchor box求取IoU，且anchor box是通過人為定義的規(guī)則來和特定的特征圖層進(jìn)行關(guān)聯(lián)的（如框大小等）。所以每個(gè)實(shí)例的選擇的特征層純粹是基于啟發(fā)式引導(dǎo)的。

假設(shè)一個(gè)像素大小為50x50的車，和另外一個(gè)像素大小為60x60的相同的車可能被認(rèn)為成兩個(gè)不同特征層，然而40x40大小的車就會(huì)被認(rèn)為是和50x50的車是一個(gè)特征層。

也就是說，anchor匹配的機(jī)制是內(nèi)在的啟發(fā)式指導(dǎo)的，這樣會(huì)導(dǎo)致一個(gè)主要的缺陷，即用來訓(xùn)練每個(gè)實(shí)例的選擇的特征層可能并非最優(yōu)的。

本文提出的簡(jiǎn)單且高效的方法是FSAF模型，同時(shí)解決了這兩大缺陷。

動(dòng)機(jī)： 要使得每個(gè)實(shí)例能夠自由的選擇最優(yōu)層級(jí)來優(yōu)化網(wǎng)絡(luò)，故模型中不應(yīng)該有anchor box來約束特征的選擇。本文以無錨點(diǎn)框的方式對(duì)實(shí)例進(jìn)行編碼，以學(xué)習(xí)分類和回歸的參數(shù)。一般過程如Fig.3。

對(duì)每個(gè)特征金字塔層都會(huì)建立一個(gè)anchor-free分支，不依賴于anchor-based分支

類似于anchor-based分支，anchor-free分支由分類子網(wǎng)絡(luò)和回歸子網(wǎng)絡(luò)構(gòu)成。實(shí)例可以被分配到anchor-free分支的任意層中。

訓(xùn)練過程中，動(dòng)態(tài)的基于實(shí)例內(nèi)容對(duì)每個(gè)實(shí)例選擇最合適的特征層，而不是只基于實(shí)例box的大小。之后，將選擇的特征層用來學(xué)習(xí)檢測(cè)所分配的實(shí)例。

推斷階段，FSAF模型可以獨(dú)立運(yùn)行或和anchor-based分支協(xié)同運(yùn)行

FSAF模型對(duì)主干網(wǎng)絡(luò)是未知的，且可以和特征金字塔結(jié)構(gòu)結(jié)合起來被用于單目檢測(cè)。

另外，anchor-free分支的實(shí)例化和在線特征的選擇是多種多樣的。

本工作中，我們保持FSAF模型的簡(jiǎn)單化，所以其耗費(fèi)的時(shí)間相對(duì)于整個(gè)網(wǎng)絡(luò)而言的開銷是很小的。

在COCO數(shù)據(jù)集上的目標(biāo)檢測(cè)方法已經(jīng)有很多，這為本文的方法提供了一定的比較性。

FSAF模型比anchor-based模型更快更好

當(dāng)和anchor-based分支協(xié)同工作時(shí)，FSAF模型可以在保證最小計(jì)算成本的同時(shí)，在不同的主干網(wǎng)直接大幅提高基準(zhǔn)。

同時(shí)利用ResNeXt-101的FSAF比RetinaNet提升了1.8%的mAP，只有6ms的推理階段的延遲。

本文最終的檢測(cè)器在使用多尺度測(cè)試時(shí)獲得了SOTA——44.6%的mAP，比其他單目檢測(cè)器在COCO上的表現(xiàn)都要好。

2. 相關(guān)工作

目前的目標(biāo)檢測(cè)器通常是實(shí)驗(yàn)特征金字塔或者多尺度特征塔作為通用結(jié)構(gòu)。

SSD[24]結(jié)構(gòu)首先提出了從多級(jí)特征中預(yù)測(cè)類別得分和b-box

FPN[21]和DSSD[8]的提出提高了所有層的底層和高層語義特征圖。

RetinaNet[22]解決了具有焦點(diǎn)損失的多級(jí)密集檢測(cè)器類別不均衡的問題

DeNet[19]設(shè)計(jì)了一種新的主干網(wǎng)絡(luò)，來保證高空間分辨率在上層金字塔

這些方法使用預(yù)定義的anchor-box來編碼和解碼目標(biāo)實(shí)例

其他工作則以不同的方式來處理尺度的變化

Zhu[41]提升了對(duì)小目標(biāo)物體anchor的設(shè)計(jì)
He[14]將b-box看成Gaussian 分布來提升定位準(zhǔn)確度

anchor-free的方法在目前是很新的

DenseBox[15]首先提出了一個(gè)統(tǒng)一的端到端的全卷積網(wǎng)絡(luò)來直接預(yù)測(cè)b-box。

UnitBox提出了一種IoU損失函數(shù)來進(jìn)行更好的box回歸

Zhong等人[40]提出了基于區(qū)域提議的anchor-free網(wǎng)絡(luò)來尋找不同尺度、縱橫比和方向。

近期的CornerNet提出了將檢測(cè)目標(biāo)b-box當(dāng)做一對(duì)corners的方法，獲得了最好的單目檢測(cè)結(jié)果

SFace[32]的提出將anchor-free和anchor-based方法融為一體

然而，這些方法仍然采取啟發(fā)式特征選擇的方法

3. Anchor-free特征選擇模型

本節(jié)對(duì)本文的FSAF模型進(jìn)行了實(shí)例化說明，展示了如何與特征金字塔結(jié)合起來應(yīng)用于單目檢測(cè)，正如SSD、DSSD和RetinaNet

我們將FSAF模型應(yīng)用于現(xiàn)在最好的RetinaNet模型，并且逐步介紹設(shè)計(jì)過程：

1）如何在網(wǎng)絡(luò)中生成anchor-free分支
2）如何對(duì)anchor-free分支產(chǎn)生監(jiān)督信號(hào)
3）如何對(duì)每個(gè)實(shí)例進(jìn)行特征層的動(dòng)態(tài)選擇
4）如何同時(shí)對(duì)anchor-free和anchor-based分支進(jìn)行訓(xùn)練或者測(cè)試

3.1 網(wǎng)絡(luò)結(jié)構(gòu)

從網(wǎng)絡(luò)方面來說，本文FSAF模型是非常簡(jiǎn)潔的。

Fig.4 展示了將RetinaNet和FSAF模型結(jié)合起來進(jìn)的結(jié)構(gòu)

簡(jiǎn)而言之，RetinaNet是由主干網(wǎng)絡(luò)和兩個(gè)“特殊任務(wù)”的子網(wǎng)絡(luò)組成的

特征金字塔是從主干網(wǎng)絡(luò)的P3—P7中構(gòu)建的， $l$ 是金字塔的層數(shù)， $P_l$ 層的特征圖分辨率為輸入圖像的 $1/2^l$ ，圖中只展示了三個(gè)不同的層。

金字塔中的每個(gè)層都被用來檢測(cè)不同尺度下的目標(biāo)，為了實(shí)現(xiàn)這個(gè)目標(biāo)，分類分支和回歸分支在 $P_l$ 層進(jìn)行了組合。這兩個(gè)子網(wǎng)絡(luò)結(jié)果都是小的全連接網(wǎng)絡(luò)。

分類分支預(yù)測(cè)每個(gè)空域位置上的目標(biāo)的概率，包括所有A個(gè)anchor和所有K個(gè)類別中的所有b-box。
回歸分支預(yù)測(cè)4個(gè)數(shù)字組成的b-box坐標(biāo)和離它最近的實(shí)例anchor的偏移量。

RetinaNet的頂部，FSAF模塊為每個(gè)金字塔層引入兩個(gè)額外的卷積層，Fig.4中虛線特征所示。

這兩層分別在anchor-free分支負(fù)責(zé)分類和回歸

為了更加有效，在分類子網(wǎng)絡(luò)的特征圖后連接了 $K$ 個(gè)3x3大小的濾波器組成的卷積層，且級(jí)聯(lián)sigmoid激活函數(shù)。對(duì)所有的K個(gè)目標(biāo)類別的每個(gè)空域位置的目標(biāo)都預(yù)測(cè)概率。

同樣的，在回歸子網(wǎng)絡(luò)的特征圖后也連接了四個(gè)3x3大小的濾波器組成的卷積層，且級(jí)聯(lián)RELU激活函數(shù)[26]。對(duì)b-box的偏移做預(yù)測(cè)。

為此，anchor-free和anchor-based分支以多任務(wù)的方式聯(lián)合工作，共享金字塔每個(gè)層的特性。

3.2 Ground-truth 和 loss

給定目標(biāo)實(shí)例，我們已知其類別 $k$ 和 b-box 坐標(biāo) $b = [x, y, w, h]$ ，其中 $(x, y)$ 為box的中心， $w, h$ 為box的寬和高。

實(shí)例可以在訓(xùn)練過程中分配給任意特征層 $P_l$

定義投影的box $b_p^l=[x_p^l, y_p^l, w_p^l, h_p^l]$ 作為 $b$ 在特征金字塔 $P_l$ 上的投影， $b_p^l = b / 2^l$ 。

同樣將有效box定義為 $b_e^l=[x_e^l, y_e^l, w_e^l, h_e^l]$ ，占 $b_p^l$ 的 $?e\epsilon_e$

將可忽略的box區(qū)域定義為 $b_i^l=[x_i^l, y_i^l, w_i^l, h_i^l]$ 占 $b_p^l$ 的 $?i\epsilon_i$

即：
$xel=xpl,yel=ypl,wel=?ewpl,hel=?ehplx_e^l=x_p^l, y_e^l=y_p^l, w_e^l=\epsilon_e w_p^l, h_e^l=\epsilon_e h_p^l$
$xil=xpl,yil=ypl,wil=?iwpl,hil=?ehplx_i^l=x_p^l,y_i^l=y_p^l, w_i^l=\epsilon_i w_p^l, h_i^l=\epsilon_e h_p^l$

且設(shè)定 $?e=0.2,?i=0.5\epsilon_e=0.2, \epsilon_i=0.5$

Fig.5 展示了對(duì)于一個(gè)車生成 ground truth 的過程

分類的輸出：

classification output是一個(gè)WxHxK大小的feature map，K表示物體類別數(shù)，那么在坐標(biāo)為（i，j）的點(diǎn)上是一個(gè)長(zhǎng)度為K的向量，表示屬于每個(gè)類別的概率。分支對(duì)應(yīng)的gt是圖中白色區(qū)域內(nèi)值為1，表示正樣本，黑色區(qū)域內(nèi)值為0，表示負(fù)樣本，灰色區(qū)域是忽略區(qū)域不回傳梯度。分支采用Focal Loss，整個(gè)classification loss是非忽略區(qū)域的focal loss之和，然后除以有效區(qū)域內(nèi)像素個(gè)數(shù)之和來正則化一下。

分類輸出的真值為 $K$ 個(gè)特征圖，每個(gè)都對(duì)應(yīng)一個(gè)類別

實(shí)例會(huì)在三個(gè)方面影響第 $k$ 個(gè)真實(shí)特征圖：

第一，有效框 $b_e^l$ 區(qū)域是由“car”類特征圖中白色框所表示的正區(qū)域，表示實(shí)例的存在
第二，被忽略的box將有效框 $b_i^l-b_e^l)$ 排除在外，也就是灰色區(qū)域，這意味著該區(qū)域的梯度不能被回傳到網(wǎng)絡(luò)中。
第三，臨近特征層 $b_i^l，b_i^{l+1})$ 如果存在忽略框，那么也會(huì)忽略區(qū)域

注意：如果同一層中的兩個(gè)實(shí)例的有效框有重疊，那么更小的實(shí)例的框有更高的準(zhǔn)確度。

GT中的剩余部分也就是負(fù)區(qū)域（黑色）將用零值填充，表示沒有目標(biāo)。

Focal loss[22]用來監(jiān)督訓(xùn)練，超參數(shù)設(shè)置為 $α=0.25,γ=2.0\alpha=0.25, \gamma=2.0$

anchor-free分支的完整分類子網(wǎng)絡(luò)的損失是所有為被忽略的區(qū)域的focal loss之和，用所有有效框區(qū)域的像素點(diǎn)之和做歸一化。

Box 回歸輸出：

回歸輸出的真值是4個(gè)偏置值

實(shí)例僅僅會(huì)影響偏移特征圖的 $b_e^l$ 區(qū)域

對(duì) $b_e^l$ 內(nèi)的所有位置 $(i, j)$ ，我們將投影框 $b_p^l$ 表示為一個(gè)四維向量 $d_{i,j}^l=[d_{t_{i,j}}^l, d_{l_{i,j}}^l, d_{b_{i,j}}^l, d_{r_{i,j}}^l]$ ，其中， $d_t^l, d_l^l, d_b^l, d_r^l$ 分別表示目前位置 $(i, j)$ 和 $b_p^l$ 的上下左右的距離。

之后，在 $(i, j)$ 位置上的跨越四個(gè)偏移映射的四維向量設(shè)置為 $d_{i,j}/S$ ，每個(gè)映射對(duì)應(yīng)一個(gè)維度。 $S$ 是標(biāo)準(zhǔn)化常數(shù)，設(shè)置為4。將 $d_{i,j}/S$ 作為輸出結(jié)果。

在有效框之外的位置都被設(shè)置為灰色區(qū)域，其梯度被忽略

IoU loss[36]被用來優(yōu)化

anchor-free分支對(duì)一幅圖像的回歸總損失是，所有有效框區(qū)域的IoU損失的均值

推理階段：
直接對(duì)分類和回歸輸出預(yù)測(cè)的框進(jìn)行解碼

對(duì)每個(gè)像素位置 $(i, j)$ ，假設(shè)預(yù)測(cè)的偏移是 $[o^ti,j,o^li,j,o^bi,j,o^ri,j][ \hat{o}_{t_{i,j}}, \hat{o}_{l_{i,j}}, \hat{o}_{b_{i,j}}, \hat{o}_{r_{i,j}}]$ ，則預(yù)測(cè)的距離是 $[So^ti,j,So^li,j,So^bi,j,So^ri,j][ S_{\hat{o}_{t_{i,j}}}, S_{\hat{o}_{l_{i,j}}}, S_{\hat{o}_{b_{i,j}}}, S_{\hat{o}_{r_{i,j}}}]$ 。

預(yù)測(cè)的投影框的左上角和右下角分別為： $(i?So^ti,j,j?So^li,j)(i-S_{\hat{o}_{t_{i,j}}}, j-S_{\hat{o}_{l_{i,j}}})$ 和 $(i+So^bi,j,j+So^ri,j)(i+S_{\hat{o}_{b_{i,j}}}, j+S_{\hat{o}_{r_{i,j}}})$

進(jìn)一步，使用 $2^l$ 對(duì)投影框進(jìn)行縮放來獲得圖像的最終框

box的置信分?jǐn)?shù)和分類可以由分類輸出映射中的最大分?jǐn)?shù)和對(duì)應(yīng)的類別來決定

3.3 在線特征選擇

anchor-free分支的設(shè)計(jì)允許我們使用人員金字塔層 $P^l$ 的特征，為了選擇最優(yōu)特征層，FSAF模型基于實(shí)例內(nèi)容選擇最優(yōu)的 $P^l$ ，而不是例如anchor-based方法中使用的實(shí)例框的大小來選擇。

給定一個(gè)實(shí)例 $I$ ，定義在 $P^l$ 上的分類損失和回歸損失為 $LFLI(l)L^I_{FL}(l)$ 和 $LIoUI(l)L^I_{IoU}(l)$ ，通過對(duì)有效框區(qū)域 $belb^l_e$ 的focal loss和IoU loss分別進(jìn)行平均而獲得：

$LFLI(l)=1N(bel)∑i,j∈belFL(l,i,j)L^I_{FL}(l)=\frac{1}{N(b^l_e)} \sum _{i,j \in b_e^l} FL(l,i,j)$
$LIoUI(l)=1N(bel)∑i,j∈belIoU(l,i,j)L^I_{IoU}(l)=\frac{1}{N(b^l_e)} \sum _{i,j \in b_e^l} IoU(l,i,j)$

其中， $N(bel)N(b^l_e)$ 是 $b_e^l$ 區(qū)域內(nèi)的所有像素點(diǎn)的和， $F L (l, i, j)$ 和 $I o U (l, i, j)$ 是在 $P_l$ 上的 $(i, j)$ 位置上的 focal loss 和 IoU loss。

Fig.6 表示了我們的在線特征選擇過程，首先對(duì)實(shí)例 $I$ 在金字塔的每個(gè)層進(jìn)行前向傳播。

之后對(duì)所有anchor-free分支上利用公式（1）計(jì)算 $LFLI(l)L^I_{FL}(l)$ 和 $LIoUI(l)L^I_{IoU}(l)$ 的和。

最后，產(chǎn)生的損失之和最小的也就是最優(yōu)的金字塔層 $P_{l^*}$ 被用來學(xué)習(xí)實(shí)例：

$l?=argminlLFLI(l)+LIoUI(l)l^*=argmin_lL^I_{FL}(l)+L^I_{IoU}(l)$

對(duì)于整個(gè)訓(xùn)練batch，特征根據(jù)為其分配的實(shí)例而改變。選擇的特征是目前最好的用于實(shí)例建模的特征。其損失在特征域形成最低的限制。

推理階段，不需要選擇特征，因?yàn)樘卣鹘鹱炙凶詈线m的層將輸出最高置信得分。

為了證實(shí)在線特征選擇的重要性，我們也在消融實(shí)驗(yàn)中使用了啟發(fā)式特征選擇的方法用于對(duì)比（4.1）。

啟發(fā)式特征選擇更大的依賴于box大小，仿照FPN檢測(cè)器[21]的思想，實(shí)例 $I$ 是通過如下方法分配給特征金字塔的 $Pl′P_{l'}$ ：

$l′=?l0+log2(wh/224)?l'=\lfloor l_0+log_2(\sqrt{wh}/224) \rfloor$

其中，224是典型ImageNet預(yù)訓(xùn)練大小，且 $l_0$ 是目標(biāo)層，該層中輸入實(shí)例大小為 $w×h=2242w\times h=224^2$

本文選擇 $l_0=5$ ，因?yàn)镽estNet[13]從第五個(gè)卷積層中使用該特征圖，以進(jìn)行最終的分類。

3.4 Joint 推斷和訓(xùn)練

當(dāng)將FSAF模塊作為RetinaNet的一個(gè)子模塊來工作時(shí)，FSAF模型和anchor-based分支共同工作，Fig.4所示。

我們將anchor-based分支當(dāng)做最初的網(wǎng)絡(luò)，所有的超參數(shù)在訓(xùn)練和推斷的時(shí)候都沒有改變。

推斷：

FSAF模型僅僅給全卷積網(wǎng)絡(luò)RetinaNet添加了少量的卷積層，所有推斷層仍然像一幅圖像簡(jiǎn)單的像圖像從網(wǎng)絡(luò)中前向傳播一樣。

對(duì)anchor-free分支，我們只解碼每個(gè)金字塔層級(jí)中得分最高的1k個(gè)位置的預(yù)測(cè)框，然后使用0.05對(duì)其進(jìn)行置信的分的選擇。

這些從所有層中獲得的得分較高的框和anchor-based分支獲得的預(yù)測(cè)框進(jìn)行融合，然后使用閾值為0.5的NMS來產(chǎn)生最終的檢測(cè)結(jié)果。

初始化：

主干網(wǎng)絡(luò)在ImageNet 1k[5]中進(jìn)行預(yù)訓(xùn)練，我們利用[22]中初始化的方法來初始化RetinaNet。

FSAF模塊中的卷積層，分類層的偏置為 $?log((1?π)/π)-log((1-\pi)/\pi)$ ，權(quán)重是 $σ=0.01\sigma=0.01$ 的高斯分布，其中 $π\(zhòng)pi$ 定義為：訓(xùn)練之初，在 $π\(zhòng)pi$ 周圍的每個(gè)像素位置輸出對(duì)象的得分。且設(shè)置 $π=0.01\pi=0.01$ 。

所有的box回歸層偏置都初始化為 $b = 0.1$ ，權(quán)重是 $σ=0.01\sigma=0.01$ 的高斯分布，

這樣的初始化有助于在網(wǎng)絡(luò)訓(xùn)練前期更加穩(wěn)定，避免大的loss

優(yōu)化：

整個(gè)網(wǎng)絡(luò)的損失是將anchor-free和anchor-based分支組合起來的。

令 $L^{ab}$ 表示初始RetinaNet的總損失， $L_{cls}^{af}$ 和 $L_{reg}^{af}$ 分別表示anchor-free分支的分類和回歸損失。

則總損失為 $L=Lab+λ(Lclsaf+Lregaf)L=L^{ab}+\lambda( L_{cls}^{af}+ L_{reg}^{af})$

其中， $λ\lambda$ 是平衡兩個(gè)分支的權(quán)值，我們?cè)O(shè)置其為0.5。

整個(gè)網(wǎng)絡(luò)使用SGD訓(xùn)練的方法在8個(gè)GPU上訓(xùn)練，每個(gè)GPU上兩個(gè)圖

除非特別說明，我們訓(xùn)練都是使用90k迭代次數(shù)，初始學(xué)習(xí)率為0.01，分別在60k和80k時(shí)將學(xué)習(xí)率降低10倍。

除非另有說明，否則水平圖像翻轉(zhuǎn)是唯一應(yīng)用的數(shù)據(jù)增強(qiáng)。

權(quán)值下降率為0.0001，動(dòng)量為0.9

4. 實(shí)驗(yàn)

本文在COCO數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)，訓(xùn)練集是COCO trainval 135k，包括所有train 80k圖像，和從val （40k）中隨機(jī)選擇的35k子集

使用在剩余的5k 的val中的數(shù)據(jù)構(gòu)成的 minival 數(shù)據(jù)集進(jìn)行消融學(xué)習(xí)的方法來分析本文的效果。

4.1 消融學(xué)習(xí)

對(duì)所有消融學(xué)習(xí)，我們?cè)谟?xùn)練和測(cè)試中都使用大小為800像素的圖像。

我們對(duì)anchor-free分支、在線特征選擇和主干網(wǎng)絡(luò)都進(jìn)行評(píng)估，結(jié)果在表1和2。

anchor-free分支是必要的：

首先，訓(xùn)練兩個(gè)檢測(cè)器，都是僅有anchor-free分支，但分別使用不同的特征選擇方式（表1的2和3）。說明了anchor-free分支僅僅能夠達(dá)到較好的效果。

當(dāng)FSAF和anchor-based分支協(xié)同工作時(shí)，anchor-free分支能夠幫助學(xué)習(xí)到anchor-based分支難以學(xué)習(xí)到的實(shí)例，獲得AP得分的增大。（表1的第5個(gè)）

尤其在使用在線特征選擇時(shí)使 $AP_{50}, AP_S. AP_L$ 的得分分別提升了2.5%，1.5%和2.2%

為了尋找FSAF模型能夠檢測(cè)出來哪種目標(biāo)，我們展示了和RetinaNet之間一些定量的對(duì)比分析，如Fig.7所示。

顯而易見，FSAF模型在尋找有難度的實(shí)例上更加優(yōu)異，如小的人物和目標(biāo)，這些都很難用基于anchor的方法來找到。

在線特征選擇是必須的：

如3.3節(jié)中所描述的，我們可以選擇anchor-free分支或基于啟發(fā)式的anchor-based分支，又或者基于實(shí)例內(nèi)容來進(jìn)行特征選擇。

這些表明，選擇正確的特征來學(xué)習(xí)在檢測(cè)中起到很重要的作用

實(shí)驗(yàn)表明，anchor-free分支如果使用啟發(fā)式特征選擇方法（公式3），將不能和anchor-based方法相比較，因?yàn)閷W(xué)習(xí)的參數(shù)太少。

但是使用在線特征選擇時(shí)（公式2），會(huì)可分參數(shù)的困難

另外，表1的4和5完全可以證實(shí)，在線特征選擇對(duì)anchor-free和anchor-based方法的結(jié)合使用很重要。

最優(yōu)特征如何選擇：

為了理解為實(shí)例選擇最優(yōu)金字塔層的過程，我們可視化一些從anchor-free分支上獲得的定性的檢測(cè)結(jié)果，Fig.8所示。

類別之前的數(shù)字表示檢測(cè)目標(biāo)的特征層，這表明在線特征選擇實(shí)際上遵循一種規(guī)則，就是金字塔上層選擇大的實(shí)例，底層對(duì)小的實(shí)例進(jìn)行響應(yīng)，這和anchor-based方法的原理是一樣的，

然而，這也有一定的例外，包括，在線特征選擇的方法決定了選擇金字塔層的過程不同于anchor-based選擇層的過程。

我們將這些不同在Fig8中用紅色標(biāo)記起來，綠色框表示anchor-free和anchor-based相同的地方。

通過捕捉這些例外，可以證明FSAF模型可以使用更好的特征來檢測(cè)有難度的目標(biāo)。

FSAF模型是魯棒且有效的：

我們同樣對(duì)FSAF模型所使用的主干網(wǎng)絡(luò)所能達(dá)到的速度和精度進(jìn)行了實(shí)驗(yàn)。

使用了三種不同的主干網(wǎng)絡(luò) ResNet-50, ResNet-101 [13] 和 ResNeXt-101 [34]

在Titan X GPU 使用CUDA 9 和CUDNN 7進(jìn)行訓(xùn)練，batch size為1，結(jié)果再表2中。

可以發(fā)現(xiàn)，FSAF模型對(duì)不同的主干網(wǎng)絡(luò)是有一定的魯棒性的。

FSAF模型比 anchor-based 的 RetinaNet 效果更好也更快，

ResNeXt-101上，FSAF模型比anchor-based模型的 AP 高1.2%，快68ms

當(dāng)和anchor-based網(wǎng)絡(luò)協(xié)同工作時(shí)，FSAF模型也對(duì)效果提升起到了相當(dāng)大的作用

這也表明，anchor-based模型并沒有使得主干網(wǎng)絡(luò)的能量完全發(fā)揮出來

此外，FSAF模型僅僅為整個(gè)網(wǎng)絡(luò)引入了一點(diǎn)點(diǎn)的計(jì)算開銷，基本上可以忽略

而且，我們使得使用 ResNeXt-101 的 RetinaNet 的 AP 提升了1.8%，且僅有6ms的延時(shí)

4.2 與目前效果最好的網(wǎng)絡(luò)相比

最好，在 COCO 的 test-dev 數(shù)據(jù)上進(jìn)行了最終的檢測(cè)實(shí)驗(yàn)，并和目前最好的網(wǎng)絡(luò)進(jìn)行了對(duì)比。

最終的模型是 RetinaNet + FSAF 的模型，即 anchor-based分支加上FSAF模塊

模型使用不同的尺度 { 640, 672, 704, 736,768, 800 } 進(jìn)行訓(xùn)練，且是 4.1 節(jié)的模型長(zhǎng)的 1.5倍。

實(shí)驗(yàn)包括單個(gè)尺度和多級(jí)尺度版本，其中單個(gè)尺度的測(cè)試使用像素大小為800的輸入圖像，多級(jí)尺度的測(cè)試數(shù)據(jù)增強(qiáng)，尺度分別為 {400, 500, 600, 700, 900, 1000, 1100, 1200}，且對(duì)每個(gè)尺度進(jìn)行水平翻轉(zhuǎn)，后級(jí)聯(lián)Detctron[10]。所有的結(jié)果都源于單個(gè)模型，并未融合。

表3展示了對(duì)比結(jié)果

使用ResNet-101作為主干網(wǎng)絡(luò)，我們的檢測(cè)可以在單尺度和多尺度都達(dá)到很好的效果。

使用ResNeXt-101-64x4d作為主干網(wǎng)絡(luò)，使得AP提升了44.6%，比目前最好的單目檢測(cè)器有了很大的提升。

5. 總結(jié)

本文工作證明了啟發(fā)式的特征選擇是 anchor-based 的單目檢測(cè)方法的基本限制，為了跨越這個(gè)限制，我們提出了FSAF模塊，使用在線特征選擇方法在特征金字塔中訓(xùn)練 anchor-free 分支。

這提升了較小實(shí)例檢測(cè)的基線，并獲得了最好的單目檢測(cè)效果。

總結(jié)

以上是生活随笔為你收集整理的感知算法论文（三）：Feature Selective Anchor-Free Module for Single-Shot Object Detection的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：三星 Galaxy Tab S6 Lit
下一篇：感知算法论文（四）：Mask Scori