當(dāng)前位置：首頁(yè) > 人工智能 > 目标检测 >内容正文

目标检测

【目标检测_解耦】 Revisiting the Sibling Head in Object Detector_2020

發(fā)布時(shí)間：2023/12/15 目标检测 48 豆豆

生活随笔收集整理的這篇文章主要介紹了【目标检测_解耦】 Revisiting the Sibling Head in Object Detector_2020 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

論文地址：https://arxiv.org/pdf/2003.07540.pdf

文章目錄

- - Abstract
  - 1. Introduction
  - 2、Methods
  - - 2.1 TSD
    - 2.2 Task-aware spatial disentanglement learning
    - 2.3 Progressive constraint
    - 2.4 Discussion in context of related works
    - - 2.4.1 Conflict in sibling head with tangled tasks
      - 2.4.2 Different from other methods
  - 3. Experiments
  - - 3.1 Implementation details
    - 3.2 Ablation studies
    - 3.3 Applicable to variant backbones
    - 3.4 Applicable to Mask R-CNN
    - 3.5 Generalization on large-scale OpenImage
    - 3.6 Comparison with state-of-the-Arts
    - 3.7 Analysis and discussion
  - 4、Conclusion

Abstract

“用于分類和定位的共享頭”(sibling head)，最早以Fast RCNN[9]命名，在過(guò)去的五年里一直引領(lǐng)著目標(biāo)檢測(cè)方面的潮流。本文觀察到，sibling head 中兩個(gè)目標(biāo)函數(shù)之間的空間偏差會(huì)嚴(yán)重影響訓(xùn)練過(guò)程，但這種偏差可以通過(guò)一個(gè)非常簡(jiǎn)單的操作來(lái)解決，即任務(wù)感知空間分離(task-aware spatial disentanglement, TSD)。

考慮到分類和回歸，TSD通過(guò)為它們生成兩個(gè)解耦 proposal，將它們與空間維度解耦，這兩個(gè)解耦 proposal 是通過(guò)共享的 proposal 估計(jì)得到的。這是受到對(duì)于單個(gè)目標(biāo)的自然洞察力的啟發(fā)。例如，一些突出區(qū)域的特征可能具有豐富的分類信息，而邊界周圍的特征可能擅長(zhǎng)邊界盒回歸。

令人驚訝的是，這個(gè)簡(jiǎn)單的設(shè)計(jì)可以使COCO和谷歌OpenImage上的所有主骨架和模型一致地增加約3%的mAP。

此外，我們提出了一個(gè)漸進(jìn)約束，以增大解耦和共享 proposal 之間的性能差距，并獲得約 1% 多的 mAP 提升。我們展示了TSD在很大程度上突破了當(dāng)今單模型探測(cè)器的上限(mAP 49.4 with ResNet-101, 51.2 with SENet154)，并且是我們?cè)?019年谷歌OpenImage挑戰(zhàn)賽上的第一名解決方案的核心模型

1. Introduction

由于開(kāi)創(chuàng)性的R-CNN家族[10,9,30]和強(qiáng)大的FPN[21]實(shí)現(xiàn)了對(duì)目標(biāo)檢測(cè)性能的突破，因此后續(xù)對(duì)該任務(wù)的性能提升似乎受到了一些隱藏的瓶頸的阻礙。即使是AutoML[8,38]支持的高級(jí)算法也得到了深入研究，性能增益仍然局限于一個(gè)容易獲得的改進(jìn)范圍。作為最明顯的區(qū)別通用對(duì)象分類任務(wù)中，分類和定位的特殊兄弟頭受到關(guān)注，并被廣泛應(yīng)用于大多數(shù)高級(jí)檢測(cè)器，包括單階段 [25、33、12]、兩階段 [5、18、40、26、19] 和 anchor free [17] 等?？紤]到兩個(gè)不同的任務(wù)共享幾乎相同的參數(shù)，少數(shù)工作開(kāi)始意識(shí)到 sibling head 中的兩個(gè)對(duì)象函數(shù)之間的沖突，并試圖找到一種折衷的方法。

IoU-Net[15]是第一個(gè)揭示這個(gè)問(wèn)題的。他們發(fā)現(xiàn)產(chǎn)生一個(gè)好的分類分?jǐn)?shù)的特征總是預(yù)測(cè)一個(gè)粗糙的邊界框。為了解決這個(gè)問(wèn)題，他們首先引入一個(gè)額外的head來(lái)預(yù)測(cè)IoU作為定位置信度，然后將定位置信度和分類置信度匯總為最終的分類分?jǐn)?shù)。這種方法確實(shí)減少了錯(cuò)位問(wèn)題，但是以一種折衷的方式——它背后的基本原理是相對(duì)提高一個(gè)緊邊界框的信心分?jǐn)?shù)，降低一個(gè)壞邊界框的信心分?jǐn)?shù)。在每一個(gè)空間點(diǎn)上，仍然存在偏差。沿著這個(gè)方向，Double-Head RCNN [35] 提出將 sibling head 解耦，用兩個(gè)分支來(lái)分別進(jìn)行分類和定位。盡管每個(gè)分支的設(shè)計(jì)都很復(fù)雜，但是可以認(rèn)為通過(guò)添加一個(gè)新的分支就可以將信息分離出來(lái)，本質(zhì)上減少了兩個(gè)任務(wù)的共享參數(shù)。盡管通過(guò)這種檢測(cè)頭的分離可以獲得滿意的性能，但是由于輸入到兩個(gè)分支的特性是由來(lái)自相同方案的ROI池產(chǎn)生的，所以這兩個(gè)任務(wù)之間仍然存在沖突。

在這篇論文中，我們仔細(xì)地重新討論了anchor-based的目標(biāo)探測(cè)器中的 sibling head，以尋找任務(wù)不對(duì)齊的本質(zhì)。我們探討了FPN特征金字塔中各層輸出特征圖的分類和定位的空間敏感性?；诔Ｓ玫男值茴^(一個(gè)完全連接的頭2-fc)，我們?cè)趫D1中展示了空間敏感的熱圖。第一列是用于分類的空間敏感熱圖，第二列是用于定位的熱圖。越暖和顏色越好。我們也在第三欄展示了他們的3D可視化效果。很明顯，一些突出區(qū)域的特征可能具有豐富的分類信息，而邊界周圍的特征可能擅長(zhǎng)邊界盒回歸。這種重要的任務(wù)在空間維度上的不一致極大地限制了性能的提高，無(wú)論是改進(jìn)主干還是增強(qiáng)檢測(cè)頭。換句話說(shuō)，如果一個(gè)檢測(cè)器試圖從一個(gè)相同的空間點(diǎn)/錨推斷分類分?jǐn)?shù)和回歸結(jié)果，那么它總是會(huì)得到一個(gè)不完美的折衷結(jié)果。

這個(gè)重要的發(fā)現(xiàn)促使我們重新思考兄弟頭的結(jié)構(gòu)。這種問(wèn)題的最優(yōu)解就是通過(guò)空間解耦的方法來(lái)解決。在此基礎(chǔ)上，我們提出了一種新的基于任務(wù)感知的空間解糾纏(TSD)算子來(lái)解決這一障礙。

TSD的目標(biāo)是在空間上解析分類和定位的梯度流。為了實(shí)現(xiàn)這一目標(biāo)，TSD基于經(jīng)典的sibling head中的原始 proposal，為這兩個(gè)任務(wù)生成了兩個(gè)獨(dú)立的proposals。它允許兩個(gè)任務(wù)在不影響彼此的情況下自適應(yīng)地尋找空間中的最佳位置。通過(guò)簡(jiǎn)單的設(shè)計(jì)，MS COCO和谷歌OpenImage上的所有主干和模型的性能都提高了約3% mAP。

此外，我們提出了一個(gè)漸進(jìn)約束(PC)來(lái)擴(kuò)大TSD和傳統(tǒng)的兄弟頭之間的性能差距。引入超參數(shù) margin （ $m_c$ 和 $m_r$ ）來(lái)得到更可靠的分類和更精確的回歸。在TSD的基礎(chǔ)上增加1%的mAP。無(wú)論是對(duì)于不同的主骨架還是不同的檢測(cè)框架，集成的算法可以穩(wěn)定地將性能提高約4%，對(duì)于輕量級(jí)的MobileNetV2甚至可以提高約6%。在顯著的性能提高背后，只需要稍微增加一個(gè)參數(shù)，這對(duì)于一些沉重的骨干來(lái)說(shuō)是可以忽略不計(jì)的。

綜上所述，本文的貢獻(xiàn)如下:

1)深入研究了基于roi的檢測(cè)器中糾纏任務(wù)背后的本質(zhì)障礙，揭示了制約檢測(cè)性能上限的瓶頸。

2)提出了一種簡(jiǎn)單的任務(wù)感知空間解纏(TSD)算子來(lái)處理復(fù)雜的任務(wù)沖突。通過(guò)任務(wù)感知的建議估計(jì)和檢測(cè)頭，生成任務(wù)特定的特征表示，消除分類和定位之間的折衷。

3)我們進(jìn)一步提出了一個(gè)漸進(jìn)約束(PC)來(lái)擴(kuò)大TSD與經(jīng)典同輩頭之間的性能差距。

4)我們通過(guò)深入的消融研究，在標(biāo)準(zhǔn)的COCO基準(zhǔn)和大規(guī)模的OpenImage數(shù)據(jù)集上驗(yàn)證了我們的方法的有效性。通過(guò)與現(xiàn)有方法的比較，我們提出的方法使用單一模式的ResNet-101主干實(shí)現(xiàn)了49.4的mAP，使用重SENet154實(shí)現(xiàn)了51.2的mAP。

2、Methods

在本節(jié)中，我們首先描述我們提出的任務(wù)感知空間解纏(TSD)的總體框架，然后詳細(xì)介紹第2.2和2.3節(jié)中的子模塊。最后，探討了共享頭的內(nèi)在問(wèn)題，論證了TSD的優(yōu)越性。

2.1 TSD

如圖2 (a)所示，表示一個(gè)矩形邊界框方案為P，地面真實(shí)邊界框?yàn)锽，類為y，經(jīng)典的快速RCNN[30]旨在最小化基于共享P的分類損失和定位損失:

其中， $H_1(.)=\{f(.), C(.)\}$ ， $H_2(.)=\{f(.), R(.)\}$ ， $f (.)$ 是特征提取器， $C (.)$ 和 $R (.)$ 是將特征轉(zhuǎn)化為預(yù)測(cè)特定類別和定位對(duì)象的函數(shù)。

開(kāi)創(chuàng)性的工作[35]認(rèn)為共享的 $f$ 用于分類和定位不是最優(yōu)的，他們將其分別分解為 $f_c$ 和 $f_r$ 用于分類和回歸。適當(dāng)?shù)念^解耦雖然帶來(lái)了合理的改善，但在空間維度上，由任務(wù)的糾纏所引起的內(nèi)在沖突仍然潛伏著。

對(duì)于這個(gè)潛在的問(wèn)題，我們的目標(biāo)是通過(guò)將任務(wù)從空間維度中分離出來(lái)，來(lái)緩解sibling head 之間的內(nèi)在沖突。我們?yōu)檫@個(gè)目標(biāo)提出了一個(gè)新的TSD頭，如圖2所示。在TSD中，Eq. 1可以表示為:

其中，解耦的proposals $P^c=τc(P,ΔC)\hat P_c=\tau_c(P, \Delta C)$ 和 $P^r=τr(P,ΔR)\hat P_r=\tau_r(P, \Delta R)$ 是從共享的 $P$ 中估計(jì)得到的。 $ΔC\Delta C$ 是 $P$ 的 point-wise 的形變， $ΔR\Delta R$ 是 proposal-wise的平移。在 TSD 中， $H_1^D(.)=\{f_c(.), C(.)\}$ ， $H_2^D(.)=\{f_c(.), R(.)\}$

特別是, TSD 將P的RoI特征作為輸入，然后分別為分類和定位生成解耦的proposals $P^c\hat P_c$ 和 $P^r\hat P_r$ 。

不同的任務(wù)可以通過(guò)分離的proposals 被從空間維度中解耦。

classification-specific 特征圖 $F^c\hat F_c$ 和 localization-specific 特征圖譜 $F^r\hat F_r$ 通過(guò)并行分支來(lái)生成。

在第一個(gè)分支， $F^c\hat F_c$ 被送入一個(gè)三層全連接網(wǎng)絡(luò)進(jìn)行分類。在第二個(gè)分支，提取與衍生 proposal $P^r\hat P_r$ 相對(duì)應(yīng)的 RoI特征 $F^r\hat F_r$ ，并輸入與第一分支類似的架構(gòu)進(jìn)行定位。通過(guò)對(duì)共享的分類和定位方案的分解，TSD可以自適應(yīng)地學(xué)習(xí)任務(wù)感知的特征表示。TSD適用于大多數(shù)現(xiàn)有的基于roi的檢測(cè)器。由于訓(xùn)練過(guò)程采用端到端的方式，并配合精心設(shè)計(jì)的漸進(jìn)約束(PC)，因此對(duì)脊骨和輸入分布的變化具有很強(qiáng)的魯棒性(例如，使用不同的數(shù)據(jù)集進(jìn)行訓(xùn)練)。

2.2 Task-aware spatial disentanglement learning

受圖1的啟發(fā)，我們引入了任務(wù)感知的空間解耦學(xué)習(xí)，以緩解空間線索共享導(dǎo)致的不對(duì)齊現(xiàn)象。如圖2 (b)所示，將P的RoI特征定義為F，我們將 deformation-learning 方式嵌入到TSD中來(lái)實(shí)現(xiàn)這一目標(biāo)。

對(duì)于定位任務(wù)，三層全連接網(wǎng)絡(luò) $F_r$ 被用來(lái)在 $P$ 上生成一個(gè) proposal-wise translation 來(lái)產(chǎn)生一個(gè)新的衍生 proposal $P^r\hat P_r$ 。本過(guò)程可表述為:

其中 $R∈R^{1×1×2}$ ，且 $F_r$ 的每層輸出大小都為 ${256,256,2\}$ 。 $γ\gamma$ 是一個(gè)預(yù)定義的標(biāo)量來(lái)調(diào)節(jié)?R的幅值，且(w h)是p 的寬度和高度。生成 $P^r\hat P_r$ 的衍生函數(shù)為 $τr(.)\tau_r(.)$ :

Eq. 4表示 proposal-wise 的平移，其中 $P$ 中每個(gè)像素的坐標(biāo)將利用相同的 $ΔR\Delta R$ 被轉(zhuǎn)換到新坐標(biāo)系。衍生的proposal 在 pooling 函數(shù)中將僅僅關(guān)注定位問(wèn)題。我們使用雙線性插值來(lái)使得 $? R$ 可微。

對(duì)于分類任務(wù)，給定一個(gè)共享的 $P$ ，在規(guī)則的 $\times k$ 的棋盤(pán)上生成一個(gè)逐點(diǎn)的形變，來(lái)用不規(guī)則的形狀估計(jì)衍生的 proposal $P^c\hat P_c$ 。對(duì)于坐標(biāo)為 (x,y) 的網(wǎng)格，在樣本點(diǎn)上進(jìn)行平移 $ΔC(x,y,?)\Delta C(x,y,*)$ 來(lái)為 $P_c$ 得到一個(gè)新的樣本點(diǎn)，該過(guò)程的公式如下：

其中， $ΔC∈Rk×k×2\Delta C \in R^{k \times k \times 2}$ ， $F_c$ 是一個(gè)三層的全連接網(wǎng)絡(luò)，每層的輸出都是 ${256,256,k×k×2}\{256, 256, k \times k \times 2 \}$ ，且 $θc\theta _c$ 是學(xué)習(xí)的參數(shù)。

$F_r$ 和 $F_c$ 的第一層是共享的，為了減少參數(shù)量。為了通過(guò)不規(guī)則的 $P^c\hat P_c$ 來(lái)產(chǎn)生特征圖 $F^c\hat F_c$ ，我們對(duì)可變形的 RoI pooling 使用相同的操作[5]：

其中 $G (x, y)$ 是坐標(biāo)為 $(x, y)$ 的網(wǎng)格， $∣ G (x, y) ∣$ 是其中的采樣點(diǎn)個(gè)數(shù)。 $p_x, p_y)$ 為 $G (x, y)$ 網(wǎng)格中采樣點(diǎn)的坐標(biāo)， $F_B(·)$ 是能夠使得 $ΔC\Delta C$ 可微的雙線性插值[5]。

對(duì)proposal劃分成 $\times k$ 的網(wǎng)格，每個(gè)網(wǎng)格里邊的點(diǎn)進(jìn)行相同的平移（ $ΔC\Delta C$ ），然后對(duì)該網(wǎng)格進(jìn)行平均池化，插值的作用是為了把坐標(biāo)變?yōu)檎麛?shù)，每個(gè)網(wǎng)格保留一個(gè)點(diǎn)，也就是點(diǎn)之和除以點(diǎn)的總個(gè)數(shù)。

2.3 Progressive constraint

在訓(xùn)練階段， $L_{cls}$ 和 $L_{loc}$ 可以聯(lián)合優(yōu)化Eq. 1中定義的TSD和兄弟檢測(cè)頭。在此基礎(chǔ)上，我們進(jìn)一步設(shè)計(jì)了遞進(jìn)約束 (PC)，以提高TSD的性能，如圖2 ?所示。

對(duì)于分類分支， PC 公式如下：

其中， $H (y ∣ .)$ 表示第 y 個(gè)類別的置信得分， $m_c$ 是預(yù)定義的 margin。 $∣.∣+|.|_+$ 是類似于 ReLU 的函數(shù)。

對(duì)于定位分支， PC 公式如下：

其中， $B^\hat B$ 是 sibling head 預(yù)測(cè)的box， $B^D\hat B_D$ 是由 $H2D(Fl,τr(P,ΔR))H_2^D(F_l, \tau _r (P, \Delta R))$ 回歸得到的。

如果 $P$ 是一個(gè)負(fù)的 proposal，則忽略 $M_{loc}$ 。

根據(jù)這些設(shè)計(jì)， TSD 的完整的 loss 函數(shù)加上 Faster RCNN 的 loss 函數(shù)定義如下：

我們直接將 loss 的權(quán)重設(shè)置為1，沒(méi)有仔細(xì)調(diào)整。在L的優(yōu)化下，TSD可以自適應(yīng)地學(xué)習(xí)任務(wù)特征表示，分別進(jìn)行分類和定位。在第3節(jié)中進(jìn)行的大量實(shí)驗(yàn)表明，將任務(wù)從空間維度中解耦可以顯著提高性能。

2.4 Discussion in context of related works

在本節(jié)中，我們將深入探討復(fù)雜任務(wù)中的內(nèi)在沖突。我們的工作與之前的工作有多方面的聯(lián)系。我們?cè)敿?xì)討論了這些關(guān)系和分歧。

2.4.1 Conflict in sibling head with tangled tasks

傳統(tǒng)的 Faster-RCNN 的兩個(gè)核心設(shè)計(jì)是預(yù)測(cè)候選區(qū)域的類別和學(xué)習(xí)回歸函數(shù)。由于在優(yōu)化方面的本質(zhì)差異，分類任務(wù)需要 translation-agnostic屬性，但定位任務(wù)需要
translation-aware 屬性。
特殊的平移敏感性對(duì)分類和定位可以分別表示如下：

其中， $?ε,IoU(P+ε,B)≥T\forall \varepsilon, IoU(P+\varepsilon, B) \geq T$ ， $C$ 是預(yù)測(cè)類別概率， $R$ 是回歸函數(shù)，其輸出為 $(Δx^,Δy^,Δw^,Δh^)(\Delta \hat x, \Delta \hat y, \Delta \hat w, \Delta \hat h)$ 。 $f (.)$ 是傳統(tǒng)的共享頭中的特征抽取器， $T$ 是判定 $P$ 是否為正樣本的閾值。這兩個(gè)任務(wù)有完全不同的屬性。 $F_l$ 和特征抽取器中共享的空間線索可能會(huì)成為阻礙學(xué)習(xí)的障礙。不同于[35，15，5，43]，這些網(wǎng)絡(luò)設(shè)計(jì)了進(jìn)化的骨干網(wǎng)絡(luò)或特征提取器。TSD 將分類和回歸從空間維度中分開(kāi)，通過(guò)分開(kāi) $P^?\hat P_*$ 和 $f_*(.)$ 。

2.4.2 Different from other methods

IoU-Net[15]首先說(shuō)明了分類和回歸之間的不一致。為了緩解這種情況，它直接預(yù)測(cè)IoU通過(guò)一個(gè)額外的分支來(lái)調(diào)整分類置信度。不幸的是，這種方法不能解決復(fù)雜任務(wù)之間的內(nèi)在沖突。對(duì)于同樣的問(wèn)題，Double-Head R-CNN[35]分別探索了分類和定位的最佳架構(gòu)。為了學(xué)習(xí)更有效的特征表示，提出了一種基于可變形感興趣區(qū)域池的DCN[5]算法來(lái)提取非規(guī)則區(qū)域的語(yǔ)義信息。無(wú)論是改進(jìn)主干還是調(diào)整檢測(cè)頭，都可以提高性能，但這種提高是有限的。

在這篇文章中，我們觀察到在有限的性能背后的本質(zhì)問(wèn)題是在空間維度上分類和定位之間的錯(cuò)位敏感性。無(wú)論是設(shè)計(jì)更好的特征提取方法，還是尋找最佳的架構(gòu)，都不能解決這個(gè)問(wèn)題。在這一困境中，提出了TSD方法，將分類和定位從空間維數(shù)和特征提取器中分離出來(lái)。TSD首先通過(guò)分離的提案和特征提取器對(duì)分類和定位進(jìn)行空間分離，以打破這種困境。進(jìn)一步設(shè)計(jì)好的PC，可以分別學(xué)習(xí)最優(yōu)的敏感位置進(jìn)行分類和定位。此外,TSD中仍然適用于DCN[5]雖然在 DCN 中可變形的RoI池用于協(xié)助估算?Fc。通過(guò)任務(wù)感知的空間解纏，簡(jiǎn)單的TSD可以很容易地實(shí)現(xiàn)對(duì)不同脊椎的出色性能。

3. Experiments

我們?cè)?0類MS-COCO數(shù)據(jù)集 [23] (對(duì)象檢測(cè)和實(shí)例分割)和500類OpenImageV5挑戰(zhàn)數(shù)據(jù)集[16]上用不同的主干進(jìn)行了大量的實(shí)驗(yàn)。對(duì)于COCO數(shù)據(jù)集，按照標(biāo)準(zhǔn)協(xié)議[27]，對(duì)80k的訓(xùn)練圖像和35k的val圖像子集進(jìn)行聯(lián)合訓(xùn)練，并對(duì)剩余的5k的val圖像(minival)進(jìn)行測(cè)試。我們還報(bào)告了關(guān)于20k測(cè)試-開(kāi)發(fā)的結(jié)果。對(duì)于OpenImage數(shù)據(jù)集，按照官方協(xié)議[16]，在1,674,979張訓(xùn)練圖像上對(duì)模型進(jìn)行訓(xùn)練并進(jìn)行評(píng)估在34,917張val圖像上。ap .5在公共排行榜上也有報(bào)道。

3.1 Implementation details

我們?cè)贗mageNet[31]上從預(yù)先訓(xùn)練的模型初始化權(quán)值，超參數(shù)的配置遵循現(xiàn)有的Faster RCNN[30]。圖像大小調(diào)整，使較短的邊緣是800像素。錨尺度和長(zhǎng)寬比設(shè)置為8和{0.5,1,2}。我們?cè)?6個(gè)gpu上(有效的小批量大小為32)對(duì)模型進(jìn)行13個(gè)epoch的訓(xùn)練，第一個(gè)epoch的學(xué)習(xí)速率 warmup 策略[11]，從0.00125到0.04。我們分別在第8個(gè)epoch和第11個(gè)epoch將學(xué)習(xí)率降低了10倍。RoIAlign[13]在所有的實(shí)驗(yàn)中都被采用，在 $H_1^*$ 和 $H_2^*$ 中，池化的大小都是7。我們使用SGD以0.9動(dòng)量和0.0001重量衰減來(lái)優(yōu)化訓(xùn)練損失。除了標(biāo)準(zhǔn)的水平翻轉(zhuǎn)外，沒(méi)有使用任何數(shù)據(jù)擴(kuò)充。采用同步BatchNorm機(jī)制[29,11]，使多gpu訓(xùn)練更加穩(wěn)定。在推理階段，使用具有0.5 IoU閾值的NMS來(lái)刪除重復(fù)的框。對(duì)于OpenImage數(shù)據(jù)集中的實(shí)驗(yàn)，使用了類感知抽樣。

3.2 Ablation studies

在本節(jié)中，我們對(duì)COCO minival 進(jìn)行了詳細(xì)的消融研究，以評(píng)估各個(gè)模塊的有效性，并說(shuō)明所提出的TSD的進(jìn)展和推廣。在這些實(shí)驗(yàn)中， $m_c$ 和 $m_r$ 設(shè)置為0.2。

Task-aware 解耦. 當(dāng)涉及到 sibling head 的復(fù)雜任務(wù)沖突時(shí)，很自然會(huì)想到對(duì)不同的任務(wù)，從 backbone 或 head 進(jìn)行分離。為了驗(yàn)證這些觀點(diǎn)，我們進(jìn)行了幾個(gè)實(shí)驗(yàn)來(lái)說(shuō)明它們之間的比較。

如圖3所示，我們?cè)O(shè)計(jì)了不同的解耦選項(xiàng)，包括 backbone 解耦和 head 解耦。具體性能如表1所示。

將分類和定位與 backbone 解耦會(huì)大大降低性能。它清楚地表明，主干中的語(yǔ)義信息應(yīng)該由不同的任務(wù)共享。

正如預(yù)期的那樣，特定任務(wù)的 head 可以顯著提高性能。與 $D_{head}$ 相比，TSD w/o PC可以通過(guò)略微增加的參數(shù)進(jìn)一步增強(qiáng)AP，即使對(duì)于要求較高的AP.75。當(dāng)面對(duì)大型的 backbone 時(shí)，稍微增加一個(gè)參數(shù)是微不足道的，但仍然可以顯著提高性能。這也證實(shí)了第2.4.1節(jié)中關(guān)于將任務(wù)從空間維度中分離出來(lái)可以有效緩解兄弟檢測(cè)頭的內(nèi)在沖突的討論。

與兄弟頭進(jìn)行聯(lián)合訓(xùn)練. 在TSD中，共享的 proposal P 還可以用于在額外的同胞頭中執(zhí)行分類和本地化。我們從經(jīng)驗(yàn)上觀察到手足頭的訓(xùn)練與TSD的訓(xùn)練是互補(bǔ)的，結(jié)果如表2所示。這表明派生的提議?Pcand?公關(guān)不沖突與原建議p .推理階段,只保留TSD中頭。

PC的有效性 在第2.3節(jié)中，我們進(jìn)一步建議使用PC來(lái)提高TSD的性能。表3報(bào)告了詳細(xì)的燒蝕情況。我們發(fā)現(xiàn)PC顯著提高了ap.75 1.5，而ap.5幾乎沒(méi)有受到影響。這說(shuō)明PC的目標(biāo)是提倡對(duì)準(zhǔn)確的盒子進(jìn)行更機(jī)密的分類和精確的回歸。即使在嚴(yán)格的測(cè)試標(biāo)準(zhǔn)下(IoU從0.5:0.95)，也可以獲得1.3的AP增益。

為 $H_*^D$ 的衍生 proposal 學(xué)習(xí)方法 有不同的可編程策略生成派生提議?Prand?Pcincluding proposal-wise翻譯(Prop.w) Eq。4,點(diǎn)態(tài)變形(Point.w)等可變形的RoI池[5]或它們的復(fù)雜組合。為了探索這些學(xué)習(xí)方式的差異，我們用ResNet-50對(duì)COCO minival進(jìn)行了大量的實(shí)驗(yàn)。表4為比較結(jié)果。這些比較說(shuō)明了這一點(diǎn)。w有利于分類任務(wù)的完成，與PC、Prop配合使用。w在本地化方面有一點(diǎn)優(yōu)勢(shì)。為了生成派生的建議，分類需要不受規(guī)則形狀限制的最優(yōu)局部特征，而回歸需要維護(hù)全局幾何形狀信息。

深入研究有效的PC PC證明了它在回歸更精確的邊界框方面的優(yōu)勢(shì)。超參數(shù)mcm和mrm在TSD的訓(xùn)練中起著重要的作用，為了更好的了解它們對(duì)TSD表現(xiàn)的影響，我們對(duì)它們進(jìn)行了詳細(xì)的消融研究。圖4報(bào)告了結(jié)果，并注意到 $M_{los}$ 和 $M_{cls}$ 都進(jìn)一步提高了性能。

3.3 Applicable to variant backbones

由于TSD和PC已經(jīng)用FPN在ResNet-50上表現(xiàn)出了優(yōu)異的性能，我們進(jìn)一步研究了其在不同 backbone 上的適應(yīng)性?；贔aster R-CNN，我們直接對(duì)不同的骨架和表進(jìn)行了多次實(shí)驗(yàn)。5總結(jié)了COCO minival的詳細(xì)性能。TSD可以穩(wěn)定地將性能提高3% ~ 5%，而額外的時(shí)間成本為10%。值得注意的是，參數(shù)為58.9M的ResNet-50+TSD甚至可以優(yōu)于參數(shù)為76.39M的ResNet-152?；赗esNet家族，TSD是一個(gè)比增加主干更好的選擇來(lái)提高性能。如果沒(méi)有指定，所有后續(xù)TSD都表示TSD+PC。

3.4 Applicable to Mask R-CNN

本文所提出的算法在很大程度上超越了經(jīng)典的 Faster-RCNN。它的固有屬性決定了它對(duì)其他R-CNN家族的適用性，例如Mask R-CNN實(shí)例分割。為了驗(yàn)證這一點(diǎn)，我們使用掩模R-CNN[13]進(jìn)行實(shí)驗(yàn)。性能如表7所示，掩模R-CNN的訓(xùn)練配置與 Faster R-CNN的實(shí)驗(yàn)相同。很明顯，在掩碼R-CNN中，TSD仍然能夠檢測(cè)出分支。實(shí)例分割掩碼AP也可以獲得提升。

3.5 Generalization on large-scale OpenImage

除了對(duì)COCO數(shù)據(jù)集進(jìn)行評(píng)估外，我們還在大規(guī)模的OpenImage數(shù)據(jù)集上進(jìn)一步驗(yàn)證了所提出的方法。作為具有大尺度 box 和層次屬性的公共數(shù)據(jù)集，它給檢測(cè)算法的泛化帶來(lái)了新的挑戰(zhàn)。為了充分研究該算法的有效性，我們對(duì)TSD進(jìn)行了大量的分析。表6說(shuō)明了對(duì)比，并指出，即使對(duì)于大的骨干網(wǎng)絡(luò)，TSD仍然可以提供令人滿意的改進(jìn)。此外，TSD與Cascade R-CNN[2]是互補(bǔ)的，將其嵌入到這個(gè)框架中也可以將性能提升到令人滿意的程度。

3.6 Comparison with state-of-the-Arts

在這一節(jié)中，我們將評(píng)估我們?cè)贑OCO test-dev set 的效果，并將其與其他最先進(jìn)的方法進(jìn)行比較。 $m_c$ 和 $m_r$ 分別設(shè)置為 0.5 和 0.2。為了公平的比較，我們?cè)诒?中報(bào)告了我們的方法在不同設(shè)置下的結(jié)果。為了與Grid R-CNN[27]進(jìn)行比較，我們延長(zhǎng)了ResNet-101的訓(xùn)練周期以與之一致。為了與最好的單模型TridentNet?相比，在TSD?中，我們使用與它相同的配置，包括多尺度訓(xùn)練、軟- nms[1]、可變形卷積以及ResNet-101上的3×訓(xùn)練方案。最好的單模式ResNet101-DCN的AP為49.4，已經(jīng)超過(guò)了所有其他具有相同主干的方法。據(jù)我們所知，對(duì)于一個(gè)擁有ResNet-101主干的單一模型，我們的結(jié)果是最先進(jìn)的。TSD證明了它在促進(jìn)精確定位和機(jī)密分類方面的優(yōu)勢(shì)，特別是在較高的IoU閾值上(AP.75)。此外，我們還研究了具有重骨干的TSD的上界。令人驚訝的是，它可以在COCO test-dev set上使用單一型號(hào)的SENet154DCN來(lái)實(shí)現(xiàn)51.2的AP。

3.7 Analysis and discussion

在不同IoU標(biāo)準(zhǔn)下的性能 由于TSD在回歸精確定位和預(yù)測(cè)準(zhǔn)確類別方面表現(xiàn)出優(yōu)越的能力，我們對(duì)COCO minival 進(jìn)行了幾次更嚴(yán)格的IoU評(píng)估。圖6顯示了基于TSD的 Faster R-CNN與基線的 Faster R-CNN之間的比較，兩者具有相同的ResNet50主干，跨越IoU閾值0.5到0.9。顯然，隨著IoU門(mén)檻的提高，TSD帶來(lái)的改善也在增加。

在不同尺度下的表現(xiàn) 我們分析了不同IoU標(biāo)準(zhǔn)下TSD的有效性。為了更好的探索具體的改進(jìn)，我們進(jìn)一步在不同尺度的對(duì)象下測(cè)試地圖。表9報(bào)告了性能，TSD在具有不同尺度的對(duì)象中顯示了成功，特別是對(duì)于中型和大型對(duì)象。

TSD學(xué)到了什么? 由于任務(wù)感知的空間解纏(TSD)和漸進(jìn)約束(PC)，無(wú)論是對(duì)于不同的主骨架還是不同的數(shù)據(jù)集，都可以輕松實(shí)現(xiàn)穩(wěn)定的改進(jìn)。除了數(shù)量上的提升，我們還想知道TSD和fast R-CNN的兄弟頭兒相比學(xué)到了什么。為了更好地解釋這一點(diǎn)，我們展示了我們的TSD與sibling head的對(duì)比圖，如圖5所示。正如預(yù)期的那樣，通過(guò)TSD，它可以消除許多誤報(bào)并返回更精確的盒邊界。

對(duì)于 $P^r\hat P_r$ ，它趨向于平移到那些不易回歸的邊界（紅色框）。
對(duì)于 $P^c\hat P_c$ ，傾向于關(guān)注在局部外觀和目標(biāo)的上下文信息（紅色點(diǎn)，也是每個(gè) grid 的中心點(diǎn)），就像它在具有可變形 RoI pooling 的 sibling head 中所做的那樣。
注意，兄弟頭中的復(fù)雜任務(wù)可以有效地利用空間維度進(jìn)行分離。

4、Conclusion

本文提出了一種簡(jiǎn)單的TSD算子，通過(guò)學(xué)習(xí)任務(wù)感知的空間解耦來(lái)減輕 sibling head 中存在的固有沖突。特別是，TSD從共享 proposal 中衍生出兩個(gè)獨(dú)立的 proposals，并分別學(xué)習(xí)用于分類和定位的特征。此外，我們提出了一個(gè)遞進(jìn)約束來(lái)進(jìn)一步提升TSD的效果，從而提供額外的性能收益。沒(méi)有附加功能，這個(gè)簡(jiǎn)單的設(shè)計(jì)可以很容易地將COCO和大型OpenImage上的大多數(shù)主骨架和模型提升3% ~ 5%，這是我們2019年OpenImage挑戰(zhàn)的第一個(gè)解決方案中的核心模型。

總結(jié)

以上是生活随笔為你收集整理的【目标检测_解耦】 Revisiting the Sibling Head in Object Detector_2020的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。