【目标检测_解耦】 Revisiting the Sibling Head in Object Detector_2020
論文地址:https://arxiv.org/pdf/2003.07540.pdf
文章目錄
- Abstract
- 1. Introduction
- 2、Methods
- 2.1 TSD
- 2.2 Task-aware spatial disentanglement learning
- 2.3 Progressive constraint
- 2.4 Discussion in context of related works
- 2.4.1 Conflict in sibling head with tangled tasks
- 2.4.2 Different from other methods
- 3. Experiments
- 3.1 Implementation details
- 3.2 Ablation studies
- 3.3 Applicable to variant backbones
- 3.4 Applicable to Mask R-CNN
- 3.5 Generalization on large-scale OpenImage
- 3.6 Comparison with state-of-the-Arts
- 3.7 Analysis and discussion
- 4、Conclusion
Abstract
“用于分類和定位的共享頭”(sibling head),最早以Fast RCNN[9]命名,在過(guò)去的五年里一直引領(lǐng)著目標(biāo)檢測(cè)方面的潮流。本文觀察到,sibling head 中兩個(gè)目標(biāo)函數(shù)之間的空間偏差會(huì)嚴(yán)重影響訓(xùn)練過(guò)程,但這種偏差可以通過(guò)一個(gè)非常簡(jiǎn)單的操作來(lái)解決,即任務(wù)感知空間分離(task-aware spatial disentanglement, TSD)。
考慮到分類和回歸,TSD通過(guò)為它們生成兩個(gè)解耦 proposal,將它們與空間維度解耦,這兩個(gè)解耦 proposal 是通過(guò)共享的 proposal 估計(jì)得到的。這是受到對(duì)于單個(gè)目標(biāo)的自然洞察力的啟發(fā)。例如,一些突出區(qū)域的特征可能具有豐富的分類信息,而邊界周圍的特征可能擅長(zhǎng)邊界盒回歸。
令人驚訝的是,這個(gè)簡(jiǎn)單的設(shè)計(jì)可以使COCO和谷歌OpenImage上的所有主骨架和模型一致地增加約3%的mAP。
此外,我們提出了一個(gè)漸進(jìn)約束,以增大解耦和共享 proposal 之間的性能差距,并獲得約 1% 多的 mAP 提升。我們展示了TSD在很大程度上突破了當(dāng)今單模型探測(cè)器的上限(mAP 49.4 with ResNet-101, 51.2 with SENet154),并且是我們?cè)?019年谷歌OpenImage挑戰(zhàn)賽上的第一名解決方案的核心模型
1. Introduction
由于開(kāi)創(chuàng)性的R-CNN家族[10,9,30]和強(qiáng)大的FPN[21]實(shí)現(xiàn)了對(duì)目標(biāo)檢測(cè)性能的突破,因此后續(xù)對(duì)該任務(wù)的性能提升似乎受到了一些隱藏的瓶頸的阻礙。即使是AutoML[8,38]支持的高級(jí)算法也得到了深入研究,性能增益仍然局限于一個(gè)容易獲得的改進(jìn)范圍。作為最明顯的區(qū)別通用對(duì)象分類任務(wù)中,分類和定位的特殊兄弟頭受到關(guān)注,并被廣泛應(yīng)用于大多數(shù)高級(jí)檢測(cè)器,包括單階段 [25、33、12]、兩階段 [5、18、40、26、19] 和 anchor free [17] 等??紤]到兩個(gè)不同的任務(wù)共享幾乎相同的參數(shù),少數(shù)工作開(kāi)始意識(shí)到 sibling head 中的兩個(gè)對(duì)象函數(shù)之間的沖突,并試圖找到一種折衷的方法。
IoU-Net[15]是第一個(gè)揭示這個(gè)問(wèn)題的。他們發(fā)現(xiàn)產(chǎn)生一個(gè)好的分類分?jǐn)?shù)的特征總是預(yù)測(cè)一個(gè)粗糙的邊界框。為了解決這個(gè)問(wèn)題,他們首先引入一個(gè)額外的head來(lái)預(yù)測(cè)IoU作為定位置信度,然后將定位置信度和分類置信度匯總為最終的分類分?jǐn)?shù)。這種方法確實(shí)減少了錯(cuò)位問(wèn)題,但是以一種折衷的方式——它背后的基本原理是相對(duì)提高一個(gè)緊邊界框的信心分?jǐn)?shù),降低一個(gè)壞邊界框的信心分?jǐn)?shù)。在每一個(gè)空間點(diǎn)上,仍然存在偏差。沿著這個(gè)方向,Double-Head RCNN [35] 提出將 sibling head 解耦,用兩個(gè)分支來(lái)分別進(jìn)行分類和定位。盡管每個(gè)分支的設(shè)計(jì)都很復(fù)雜,但是可以認(rèn)為通過(guò)添加一個(gè)新的分支就可以將信息分離出來(lái),本質(zhì)上減少了兩個(gè)任務(wù)的共享參數(shù)。盡管通過(guò)這種檢測(cè)頭的分離可以獲得滿意的性能,但是由于輸入到兩個(gè)分支的特性是由來(lái)自相同方案的ROI池產(chǎn)生的,所以這兩個(gè)任務(wù)之間仍然存在沖突。
在這篇論文中,我們仔細(xì)地重新討論了anchor-based的目標(biāo)探測(cè)器中的 sibling head,以尋找任務(wù)不對(duì)齊的本質(zhì)。我們探討了FPN特征金字塔中各層輸出特征圖的分類和定位的空間敏感性?;诔S玫男值茴^(一個(gè)完全連接的頭2-fc),我們?cè)趫D1中展示了空間敏感的熱圖。第一列是用于分類的空間敏感熱圖,第二列是用于定位的熱圖。越暖和顏色越好。我們也在第三欄展示了他們的3D可視化效果。很明顯,一些突出區(qū)域的特征可能具有豐富的分類信息,而邊界周圍的特征可能擅長(zhǎng)邊界盒回歸。這種重要的任務(wù)在空間維度上的不一致極大地限制了性能的提高,無(wú)論是改進(jìn)主干還是增強(qiáng)檢測(cè)頭。換句話說(shuō),如果一個(gè)檢測(cè)器試圖從一個(gè)相同的空間點(diǎn)/錨推斷分類分?jǐn)?shù)和回歸結(jié)果,那么它總是會(huì)得到一個(gè)不完美的折衷結(jié)果。
這個(gè)重要的發(fā)現(xiàn)促使我們重新思考兄弟頭的結(jié)構(gòu)。這種問(wèn)題的最優(yōu)解就是通過(guò)空間解耦的方法來(lái)解決。在此基礎(chǔ)上,我們提出了一種新的基于任務(wù)感知的空間解糾纏(TSD)算子來(lái)解決這一障礙。
TSD的目標(biāo)是在空間上解析分類和定位的梯度流。為了實(shí)現(xiàn)這一目標(biāo),TSD基于經(jīng)典的sibling head中的原始 proposal,為這兩個(gè)任務(wù)生成了兩個(gè)獨(dú)立的proposals。它允許兩個(gè)任務(wù)在不影響彼此的情況下自適應(yīng)地尋找空間中的最佳位置。通過(guò)簡(jiǎn)單的設(shè)計(jì),MS COCO和谷歌OpenImage上的所有主干和模型的性能都提高了約3% mAP。
此外,我們提出了一個(gè)漸進(jìn)約束(PC)來(lái)擴(kuò)大TSD和傳統(tǒng)的兄弟頭之間的性能差距。引入超參數(shù) margin (mcm_cmc? 和 mrm_rmr?)來(lái)得到更可靠的分類和更精確的回歸。在TSD的基礎(chǔ)上增加1%的mAP。無(wú)論是對(duì)于不同的主骨架還是不同的檢測(cè)框架,集成的算法可以穩(wěn)定地將性能提高約4%,對(duì)于輕量級(jí)的MobileNetV2甚至可以提高約6%。在顯著的性能提高背后,只需要稍微增加一個(gè)參數(shù),這對(duì)于一些沉重的骨干來(lái)說(shuō)是可以忽略不計(jì)的。
綜上所述,本文的貢獻(xiàn)如下:
1)深入研究了基于roi的檢測(cè)器中糾纏任務(wù)背后的本質(zhì)障礙,揭示了制約檢測(cè)性能上限的瓶頸。
2)提出了一種簡(jiǎn)單的任務(wù)感知空間解纏(TSD)算子來(lái)處理復(fù)雜的任務(wù)沖突。通過(guò)任務(wù)感知的建議估計(jì)和檢測(cè)頭,生成任務(wù)特定的特征表示,消除分類和定位之間的折衷。
3)我們進(jìn)一步提出了一個(gè)漸進(jìn)約束(PC)來(lái)擴(kuò)大TSD與經(jīng)典同輩頭之間的性能差距。
4)我們通過(guò)深入的消融研究,在標(biāo)準(zhǔn)的COCO基準(zhǔn)和大規(guī)模的OpenImage數(shù)據(jù)集上驗(yàn)證了我們的方法的有效性。通過(guò)與現(xiàn)有方法的比較,我們提出的方法使用單一模式的ResNet-101主干實(shí)現(xiàn)了49.4的mAP,使用重SENet154實(shí)現(xiàn)了51.2的mAP。
2、Methods
在本節(jié)中,我們首先描述我們提出的任務(wù)感知空間解纏(TSD)的總體框架,然后詳細(xì)介紹第2.2和2.3節(jié)中的子模塊。最后,探討了共享頭的內(nèi)在問(wèn)題,論證了TSD的優(yōu)越性。
2.1 TSD
如圖2 (a)所示,表示一個(gè)矩形邊界框方案為P,地面真實(shí)邊界框?yàn)锽,類為y,經(jīng)典的快速RCNN[30]旨在最小化基于共享P的分類損失和定位損失:
其中,H1(.)={f(.),C(.)}H_1(.)=\{f(.), C(.)\}H1?(.)={f(.),C(.)},H2(.)={f(.),R(.)}H_2(.)=\{f(.), R(.)\}H2?(.)={f(.),R(.)},f(.)f(.)f(.) 是特征提取器,C(.)C(.)C(.) 和 R(.)R(.)R(.)是將特征轉(zhuǎn)化為預(yù)測(cè)特定類別和定位對(duì)象的函數(shù)。
開(kāi)創(chuàng)性的工作[35]認(rèn)為共享的 fff 用于分類和定位不是最優(yōu)的,他們將其分別分解為fcf_cfc? 和 frf_rfr?用于分類和回歸。適當(dāng)?shù)念^解耦雖然帶來(lái)了合理的改善,但在空間維度上,由任務(wù)的糾纏所引起的內(nèi)在沖突仍然潛伏著。
對(duì)于這個(gè)潛在的問(wèn)題,我們的目標(biāo)是通過(guò)將任務(wù)從空間維度中分離出來(lái),來(lái)緩解sibling head 之間的內(nèi)在沖突。我們?yōu)檫@個(gè)目標(biāo)提出了一個(gè)新的TSD頭,如圖2所示。在TSD中,Eq. 1可以表示為:
其中,解耦的proposals P^c=τc(P,ΔC)\hat P_c=\tau_c(P, \Delta C)P^c?=τc?(P,ΔC) 和 P^r=τr(P,ΔR)\hat P_r=\tau_r(P, \Delta R)P^r?=τr?(P,ΔR) 是從共享的 PPP 中估計(jì)得到的。ΔC\Delta CΔC 是 PPP 的 point-wise 的形變,ΔR\Delta RΔR 是 proposal-wise的平移。在 TSD 中,H1D(.)={fc(.),C(.)}H_1^D(.)=\{f_c(.), C(.)\}H1D?(.)={fc?(.),C(.)},H2D(.)={fc(.),R(.)}H_2^D(.)=\{f_c(.), R(.)\}H2D?(.)={fc?(.),R(.)}
特別是, TSD 將P的RoI特征作為輸入,然后分別為分類和定位生成解耦的proposals P^c\hat P_cP^c? 和 P^r\hat P_rP^r?。
不同的任務(wù)可以通過(guò)分離的proposals 被從空間維度中解耦。
classification-specific 特征圖 F^c\hat F_cF^c? 和 localization-specific 特征圖譜 F^r\hat F_rF^r? 通過(guò)并行分支來(lái)生成。
在第一個(gè)分支, F^c\hat F_cF^c? 被送入一個(gè)三層全連接網(wǎng)絡(luò)進(jìn)行分類。在第二個(gè)分支,提取與衍生 proposal P^r\hat P_rP^r? 相對(duì)應(yīng)的 RoI特征 F^r\hat F_rF^r?,并輸入與第一分支類似的架構(gòu)進(jìn)行定位。通過(guò)對(duì)共享的分類和定位方案的分解,TSD可以自適應(yīng)地學(xué)習(xí)任務(wù)感知的特征表示。TSD適用于大多數(shù)現(xiàn)有的基于roi的檢測(cè)器。由于訓(xùn)練過(guò)程采用端到端的方式,并配合精心設(shè)計(jì)的漸進(jìn)約束(PC),因此對(duì)脊骨和輸入分布的變化具有很強(qiáng)的魯棒性(例如,使用不同的數(shù)據(jù)集進(jìn)行訓(xùn)練)。
2.2 Task-aware spatial disentanglement learning
受圖1的啟發(fā),我們引入了任務(wù)感知的空間解耦學(xué)習(xí),以緩解空間線索共享導(dǎo)致的不對(duì)齊現(xiàn)象。如圖2 (b)所示,將P的RoI特征定義為F,我們將 deformation-learning 方式嵌入到TSD中來(lái)實(shí)現(xiàn)這一目標(biāo)。
對(duì)于定位任務(wù),三層全連接網(wǎng)絡(luò) FrF_rFr? 被用來(lái)在 PPP 上生成一個(gè) proposal-wise translation 來(lái)產(chǎn)生一個(gè)新的衍生 proposal P^r\hat P_rP^r?。本過(guò)程可表述為:
其中 ?R∈R1×1×2?R∈R^{1×1×2}?R∈R1×1×2,且 FrF_rFr? 的每層輸出大小都為 {256,256,2}\{256,256,2\}{256,256,2}。γ\gammaγ 是一個(gè)預(yù)定義的標(biāo)量來(lái)調(diào)節(jié)?R的幅值,且(w h)是p 的寬度和高度。生成 P^r\hat P_rP^r? 的衍生函數(shù)為 τr(.)\tau_r(.)τr?(.):
Eq. 4表示 proposal-wise 的平移,其中 PPP 中每個(gè)像素的坐標(biāo)將利用相同的 ΔR\Delta RΔR 被轉(zhuǎn)換到新坐標(biāo)系。衍生的proposal 在 pooling 函數(shù)中將僅僅關(guān)注定位問(wèn)題。我們使用雙線性插值來(lái)使得 ?R?R?R 可微。
對(duì)于分類任務(wù),給定一個(gè)共享的 PPP,在規(guī)則的 k×kk \times kk×k 的棋盤(pán)上生成一個(gè)逐點(diǎn)的形變,來(lái)用不規(guī)則的形狀估計(jì)衍生的 proposal P^c\hat P_cP^c?。對(duì)于坐標(biāo)為 (x,y) 的網(wǎng)格,在樣本點(diǎn)上進(jìn)行平移 ΔC(x,y,?)\Delta C(x,y,*)ΔC(x,y,?) 來(lái)為 PcP_cPc? 得到一個(gè)新的樣本點(diǎn),該過(guò)程的公式如下:
其中,ΔC∈Rk×k×2\Delta C \in R^{k \times k \times 2}ΔC∈Rk×k×2 ,FcF_cFc? 是一個(gè)三層的全連接網(wǎng)絡(luò),每層的輸出都是 {256,256,k×k×2}\{256, 256, k \times k \times 2 \}{256,256,k×k×2} ,且 θc\theta _cθc? 是學(xué)習(xí)的參數(shù)。
FrF_rFr? 和 FcF_cFc? 的第一層是共享的,為了減少參數(shù)量。為了通過(guò)不規(guī)則的 P^c\hat P_cP^c? 來(lái)產(chǎn)生特征圖 F^c\hat F_cF^c? ,我們對(duì)可變形的 RoI pooling 使用相同的操作[5]:
其中 G(x,y)G(x, y)G(x,y) 是坐標(biāo)為 (x,y)(x,y)(x,y) 的網(wǎng)格,∣G(x,y)∣|G(x, y)|∣G(x,y)∣ 是其中的采樣點(diǎn)個(gè)數(shù)。(px,py)(p_x, p_y)(px?,py?) 為 G(x,y)G(x, y)G(x,y) 網(wǎng)格中采樣點(diǎn)的坐標(biāo),FB(?)F_B(·)FB?(?) 是能夠使得 ΔC\Delta CΔC 可微的雙線性插值[5]。
對(duì)proposal劃分成 k×kk \times kk×k 的網(wǎng)格,每個(gè)網(wǎng)格里邊的點(diǎn)進(jìn)行相同的平移(ΔC\Delta CΔC),然后對(duì)該網(wǎng)格進(jìn)行平均池化,插值的作用是為了把坐標(biāo)變?yōu)檎麛?shù),每個(gè)網(wǎng)格保留一個(gè)點(diǎn),也就是點(diǎn)之和除以點(diǎn)的總個(gè)數(shù)。
2.3 Progressive constraint
在訓(xùn)練階段,LclsL_{cls}Lcls? 和 LlocL_{loc}Lloc? 可以聯(lián)合優(yōu)化Eq. 1中定義的TSD和兄弟檢測(cè)頭。在此基礎(chǔ)上,我們進(jìn)一步設(shè)計(jì)了遞進(jìn)約束 (PC),以提高TSD的性能,如圖2 ?所示。
對(duì)于分類分支, PC 公式如下:
其中,H(y∣.)H(y|.)H(y∣.) 表示第 y 個(gè)類別的置信得分, mcm_cmc? 是預(yù)定義的 margin。∣.∣+|.|_+∣.∣+? 是類似于 ReLU 的函數(shù)。
對(duì)于定位分支, PC 公式如下:
其中,B^\hat BB^ 是 sibling head 預(yù)測(cè)的box,B^D\hat B_DB^D? 是由 H2D(Fl,τr(P,ΔR))H_2^D(F_l, \tau _r (P, \Delta R))H2D?(Fl?,τr?(P,ΔR)) 回歸得到的。
如果 PPP 是一個(gè)負(fù)的 proposal,則忽略 MlocM_{loc}Mloc?。
根據(jù)這些設(shè)計(jì), TSD 的完整的 loss 函數(shù)加上 Faster RCNN 的 loss 函數(shù)定義如下:
我們直接將 loss 的權(quán)重設(shè)置為1,沒(méi)有仔細(xì)調(diào)整。在L的優(yōu)化下,TSD可以自適應(yīng)地學(xué)習(xí)任務(wù)特征表示,分別進(jìn)行分類和定位。在第3節(jié)中進(jìn)行的大量實(shí)驗(yàn)表明,將任務(wù)從空間維度中解耦可以顯著提高性能。
2.4 Discussion in context of related works
在本節(jié)中,我們將深入探討復(fù)雜任務(wù)中的內(nèi)在沖突。我們的工作與之前的工作有多方面的聯(lián)系。我們?cè)敿?xì)討論了這些關(guān)系和分歧。
2.4.1 Conflict in sibling head with tangled tasks
傳統(tǒng)的 Faster-RCNN 的兩個(gè)核心設(shè)計(jì)是預(yù)測(cè)候選區(qū)域的類別和學(xué)習(xí)回歸函數(shù)。由于在優(yōu)化方面的本質(zhì)差異,分類任務(wù)需要 translation-agnostic屬性,但定位任務(wù)需要
translation-aware 屬性。
特殊的平移敏感性對(duì)分類和定位可以分別表示如下:
其中,?ε,IoU(P+ε,B)≥T\forall \varepsilon, IoU(P+\varepsilon, B) \geq T?ε,IoU(P+ε,B)≥T, CCC 是預(yù)測(cè)類別概率, RRR 是回歸函數(shù),其輸出為 (Δx^,Δy^,Δw^,Δh^)(\Delta \hat x, \Delta \hat y, \Delta \hat w, \Delta \hat h)(Δx^,Δy^?,Δw^,Δh^)。f(.)f(.)f(.) 是傳統(tǒng)的共享頭中的特征抽取器,TTT 是判定 PPP 是否為正樣本的閾值。這兩個(gè)任務(wù)有完全不同的屬性。FlF_lFl? 和特征抽取器中共享的空間線索 可能會(huì)成為阻礙學(xué)習(xí)的障礙。不同于[35,15,5,43],這些網(wǎng)絡(luò)設(shè)計(jì)了進(jìn)化的骨干網(wǎng)絡(luò)或特征提取器。TSD 將分類和回歸從空間維度中分開(kāi),通過(guò)分開(kāi) P^?\hat P_*P^?? 和 f?(.)f_*(.)f??(.)。
2.4.2 Different from other methods
IoU-Net[15]首先說(shuō)明了分類和回歸之間的不一致。為了緩解這種情況,它直接預(yù)測(cè)IoU通過(guò)一個(gè)額外的分支來(lái)調(diào)整分類置信度。不幸的是,這種方法不能解決復(fù)雜任務(wù)之間的內(nèi)在沖突。對(duì)于同樣的問(wèn)題,Double-Head R-CNN[35]分別探索了分類和定位的最佳架構(gòu)。為了學(xué)習(xí)更有效的特征表示,提出了一種基于可變形感興趣區(qū)域池的DCN[5]算法來(lái)提取非規(guī)則區(qū)域的語(yǔ)義信息。無(wú)論是改進(jìn)主干還是調(diào)整檢測(cè)頭,都可以提高性能,但這種提高是有限的。
在這篇文章中,我們觀察到在有限的性能背后的本質(zhì)問(wèn)題是在空間維度上分類和定位之間的錯(cuò)位敏感性。無(wú)論是設(shè)計(jì)更好的特征提取方法,還是尋找最佳的架構(gòu),都不能解決這個(gè)問(wèn)題。在這一困境中,提出了TSD方法,將分類和定位從空間維數(shù)和特征提取器中分離出來(lái)。TSD首先通過(guò)分離的提案和特征提取器對(duì)分類和定位進(jìn)行空間分離,以打破這種困境。進(jìn)一步設(shè)計(jì)好的PC,可以分別學(xué)習(xí)最優(yōu)的敏感位置進(jìn)行分類和定位。此外,TSD中仍然適用于DCN[5]雖然在 DCN 中可變形的RoI池用于協(xié)助估算?Fc。通過(guò)任務(wù)感知的空間解纏,簡(jiǎn)單的TSD可以很容易地實(shí)現(xiàn)對(duì)不同脊椎的出色性能。
3. Experiments
我們?cè)?0類MS-COCO數(shù)據(jù)集 [23] (對(duì)象檢測(cè)和實(shí)例分割)和500類OpenImageV5挑戰(zhàn)數(shù)據(jù)集[16]上用不同的主干進(jìn)行了大量的實(shí)驗(yàn)。對(duì)于COCO數(shù)據(jù)集,按照標(biāo)準(zhǔn)協(xié)議[27],對(duì)80k的訓(xùn)練圖像和35k的val圖像子集進(jìn)行聯(lián)合訓(xùn)練,并對(duì)剩余的5k的val圖像(minival)進(jìn)行測(cè)試。我們還報(bào)告了關(guān)于20k測(cè)試-開(kāi)發(fā)的結(jié)果。對(duì)于OpenImage數(shù)據(jù)集,按照官方協(xié)議[16],在1,674,979張訓(xùn)練圖像上對(duì)模型進(jìn)行訓(xùn)練并進(jìn)行評(píng)估在34,917張val圖像上。ap .5在公共排行榜上也有報(bào)道。
3.1 Implementation details
我們?cè)贗mageNet[31]上從預(yù)先訓(xùn)練的模型初始化權(quán)值,超參數(shù)的配置遵循現(xiàn)有的Faster RCNN[30]。圖像大小調(diào)整,使較短的邊緣是800像素。錨尺度和長(zhǎng)寬比設(shè)置為8和{0.5,1,2}。我們?cè)?6個(gè)gpu上(有效的小批量大小為32)對(duì)模型進(jìn)行13個(gè)epoch的訓(xùn)練,第一個(gè)epoch的學(xué)習(xí)速率 warmup 策略[11],從0.00125到0.04。我們分別在第8個(gè)epoch和第11個(gè)epoch將學(xué)習(xí)率降低了10倍。RoIAlign[13]在所有的實(shí)驗(yàn)中都被采用,在 H1?H_1^*H1?? 和 H2?H_2^*H2??中,池化的大小都是7。我們使用SGD以0.9動(dòng)量和0.0001重量衰減來(lái)優(yōu)化訓(xùn)練損失。除了標(biāo)準(zhǔn)的水平翻轉(zhuǎn)外,沒(méi)有使用任何數(shù)據(jù)擴(kuò)充。采用同步BatchNorm機(jī)制[29,11],使多gpu訓(xùn)練更加穩(wěn)定。在推理階段,使用具有0.5 IoU閾值的NMS來(lái)刪除重復(fù)的框。對(duì)于OpenImage數(shù)據(jù)集中的實(shí)驗(yàn),使用了類感知抽樣。
3.2 Ablation studies
在本節(jié)中,我們對(duì)COCO minival 進(jìn)行了詳細(xì)的消融研究,以評(píng)估各個(gè)模塊的有效性,并說(shuō)明所提出的TSD的進(jìn)展和推廣。在這些實(shí)驗(yàn)中,mcm_cmc? 和 mrm_rmr? 設(shè)置為0.2。
Task-aware 解耦. 當(dāng)涉及到 sibling head 的復(fù)雜任務(wù)沖突時(shí),很自然會(huì)想到對(duì)不同的任務(wù),從 backbone 或 head 進(jìn)行分離。為了驗(yàn)證這些觀點(diǎn),我們進(jìn)行了幾個(gè)實(shí)驗(yàn)來(lái)說(shuō)明它們之間的比較。
如圖3所示,我們?cè)O(shè)計(jì)了不同的解耦選項(xiàng),包括 backbone 解耦和 head 解耦。具體性能如表1所示。
將分類和定位與 backbone 解耦會(huì)大大降低性能。它清楚地表明,主干中的語(yǔ)義信息應(yīng)該由不同的任務(wù)共享。
正如預(yù)期的那樣,特定任務(wù)的 head 可以顯著提高性能。與 DheadD_{head}Dhead?相比,TSD w/o PC可以通過(guò)略微增加的參數(shù)進(jìn)一步增強(qiáng)AP,即使對(duì)于要求較高的AP.75。當(dāng)面對(duì)大型的 backbone 時(shí),稍微增加一個(gè)參數(shù)是微不足道的,但仍然可以顯著提高性能。這也證實(shí)了第2.4.1節(jié)中關(guān)于將任務(wù)從空間維度中分離出來(lái)可以有效緩解兄弟檢測(cè)頭的內(nèi)在沖突的討論。
與兄弟頭進(jìn)行聯(lián)合訓(xùn)練. 在TSD中,共享的 proposal P 還可以用于在額外的同胞頭中執(zhí)行分類和本地化。我們從經(jīng)驗(yàn)上觀察到手足頭的訓(xùn)練與TSD的訓(xùn)練是互補(bǔ)的,結(jié)果如表2所示。這表明派生的提議?Pcand?公關(guān)不沖突與原建議p .推理階段,只保留TSD中頭。
PC的有效性 在第2.3節(jié)中,我們進(jìn)一步建議使用PC來(lái)提高TSD的性能。表3報(bào)告了詳細(xì)的燒蝕情況。我們發(fā)現(xiàn)PC顯著提高了ap.75 1.5,而ap.5幾乎沒(méi)有受到影響。這說(shuō)明PC的目標(biāo)是提倡對(duì)準(zhǔn)確的盒子進(jìn)行更機(jī)密的分類和精確的回歸。即使在嚴(yán)格的測(cè)試標(biāo)準(zhǔn)下(IoU從0.5:0.95),也可以獲得1.3的AP增益。
為H?DH_*^DH?D?的衍生 proposal 學(xué)習(xí)方法 有不同的可編程策略生成派生提議?Prand?Pcincluding proposal-wise翻譯(Prop.w) Eq。4,點(diǎn)態(tài)變形(Point.w)等可變形的RoI池[5]或它們的復(fù)雜組合。為了探索這些學(xué)習(xí)方式的差異,我們用ResNet-50對(duì)COCO minival進(jìn)行了大量的實(shí)驗(yàn)。表4為比較結(jié)果。這些比較說(shuō)明了這一點(diǎn)。w有利于分類任務(wù)的完成,與PC、Prop配合使用。w在本地化方面有一點(diǎn)優(yōu)勢(shì)。為了生成派生的建議,分類需要不受規(guī)則形狀限制的最優(yōu)局部特征,而回歸需要維護(hù)全局幾何形狀信息。
深入研究有效的PC PC證明了它在回歸更精確的邊界框方面的優(yōu)勢(shì)。超參數(shù)mcm和mrm在TSD的訓(xùn)練中起著重要的作用,為了更好的了解它們對(duì)TSD表現(xiàn)的影響,我們對(duì)它們進(jìn)行了詳細(xì)的消融研究。圖4報(bào)告了結(jié)果,并注意到MlosM_{los}Mlos?和MclsM_{cls}Mcls? 都進(jìn)一步提高了性能。
3.3 Applicable to variant backbones
由于TSD和PC已經(jīng)用FPN在ResNet-50上表現(xiàn)出了優(yōu)異的性能,我們進(jìn)一步研究了其在不同 backbone 上的適應(yīng)性?;贔aster R-CNN,我們直接對(duì)不同的骨架和表進(jìn)行了多次實(shí)驗(yàn)。5總結(jié)了COCO minival的詳細(xì)性能。TSD可以穩(wěn)定地將性能提高3% ~ 5%,而額外的時(shí)間成本為10%。值得注意的是,參數(shù)為58.9M的ResNet-50+TSD甚至可以優(yōu)于參數(shù)為76.39M的ResNet-152?;赗esNet家族,TSD是一個(gè)比增加主干更好的選擇來(lái)提高性能。如果沒(méi)有指定,所有后續(xù)TSD都表示TSD+PC。
3.4 Applicable to Mask R-CNN
本文所提出的算法在很大程度上超越了經(jīng)典的 Faster-RCNN。它的固有屬性決定了它對(duì)其他R-CNN家族的適用性,例如Mask R-CNN實(shí)例分割。為了驗(yàn)證這一點(diǎn),我們使用掩模R-CNN[13]進(jìn)行實(shí)驗(yàn)。性能如表7所示,掩模R-CNN的訓(xùn)練配置與 Faster R-CNN的實(shí)驗(yàn)相同。很明顯,在掩碼R-CNN中,TSD仍然能夠檢測(cè)出分支。實(shí)例分割掩碼AP也可以獲得提升。
3.5 Generalization on large-scale OpenImage
除了對(duì)COCO數(shù)據(jù)集進(jìn)行評(píng)估外,我們還在大規(guī)模的OpenImage數(shù)據(jù)集上進(jìn)一步驗(yàn)證了所提出的方法。作為具有大尺度 box 和層次屬性的公共數(shù)據(jù)集,它給檢測(cè)算法的泛化帶來(lái)了新的挑戰(zhàn)。為了充分研究該算法的有效性,我們對(duì)TSD進(jìn)行了大量的分析。表6說(shuō)明了對(duì)比,并指出,即使對(duì)于大的骨干網(wǎng)絡(luò),TSD仍然可以提供令人滿意的改進(jìn)。此外,TSD與Cascade R-CNN[2]是互補(bǔ)的,將其嵌入到這個(gè)框架中也可以將性能提升到令人滿意的程度。
3.6 Comparison with state-of-the-Arts
在這一節(jié)中,我們將評(píng)估我們?cè)贑OCO test-dev set 的效果,并將其與其他最先進(jìn)的方法進(jìn)行比較。mcm_cmc?和 mrm_rmr? 分別設(shè)置為 0.5 和 0.2。為了公平的比較,我們?cè)诒?中報(bào)告了我們的方法在不同設(shè)置下的結(jié)果。為了與Grid R-CNN[27]進(jìn)行比較,我們延長(zhǎng)了ResNet-101的訓(xùn)練周期以與之一致。為了與最好的單模型TridentNet?相比,在TSD?中,我們使用與它相同的配置,包括多尺度訓(xùn)練、軟- nms[1]、可變形卷積以及ResNet-101上的3×訓(xùn)練方案。最好的單模式ResNet101-DCN的AP為49.4,已經(jīng)超過(guò)了所有其他具有相同主干的方法。據(jù)我們所知,對(duì)于一個(gè)擁有ResNet-101主干的單一模型,我們的結(jié)果是最先進(jìn)的。TSD證明了它在促進(jìn)精確定位和機(jī)密分類方面的優(yōu)勢(shì),特別是在較高的IoU閾值上(AP.75)。此外,我們還研究了具有重骨干的TSD的上界。令人驚訝的是,它可以在COCO test-dev set上使用單一型號(hào)的SENet154DCN來(lái)實(shí)現(xiàn)51.2的AP。
3.7 Analysis and discussion
在不同IoU標(biāo)準(zhǔn)下的性能 由于TSD在回歸精確定位和預(yù)測(cè)準(zhǔn)確類別方面表現(xiàn)出優(yōu)越的能力,我們對(duì)COCO minival 進(jìn)行了幾次更嚴(yán)格的IoU評(píng)估。圖6顯示了基于TSD的 Faster R-CNN與基線的 Faster R-CNN之間的比較,兩者具有相同的ResNet50主干,跨越IoU閾值0.5到0.9。顯然,隨著IoU門(mén)檻的提高,TSD帶來(lái)的改善也在增加。
在不同尺度下的表現(xiàn) 我們分析了不同IoU標(biāo)準(zhǔn)下TSD的有效性。為了更好的探索具體的改進(jìn),我們進(jìn)一步在不同尺度的對(duì)象下測(cè)試地圖。表9報(bào)告了性能,TSD在具有不同尺度的對(duì)象中顯示了成功,特別是對(duì)于中型和大型對(duì)象。
TSD學(xué)到了什么? 由于任務(wù)感知的空間解纏(TSD)和漸進(jìn)約束(PC),無(wú)論是對(duì)于不同的主骨架還是不同的數(shù)據(jù)集,都可以輕松實(shí)現(xiàn)穩(wěn)定的改進(jìn)。除了數(shù)量上的提升,我們還想知道TSD和fast R-CNN的兄弟頭兒相比學(xué)到了什么。為了更好地解釋這一點(diǎn),我們展示了我們的TSD與sibling head的對(duì)比圖,如圖5所示。正如預(yù)期的那樣,通過(guò)TSD,它可以消除許多誤報(bào)并返回更精確的盒邊界。
- 對(duì)于 P^r\hat P_rP^r? ,它趨向于平移到那些不易回歸的邊界(紅色框)。
- 對(duì)于 P^c\hat P_cP^c?,傾向于關(guān)注在局部外觀和目標(biāo)的上下文信息(紅色點(diǎn),也是每個(gè) grid 的中心點(diǎn)),就像它在具有可變形 RoI pooling 的 sibling head 中所做的那樣。
- 注意,兄弟頭中的復(fù)雜任務(wù)可以有效地利用空間維度進(jìn)行分離。
4、Conclusion
本文提出了一種簡(jiǎn)單的TSD算子,通過(guò)學(xué)習(xí)任務(wù)感知的空間解耦來(lái)減輕 sibling head 中存在的固有沖突。特別是,TSD從共享 proposal 中衍生出兩個(gè)獨(dú)立的 proposals,并分別學(xué)習(xí)用于分類和定位的特征。此外,我們提出了一個(gè)遞進(jìn)約束來(lái)進(jìn)一步提升TSD的效果,從而提供額外的性能收益。沒(méi)有附加功能,這個(gè)簡(jiǎn)單的設(shè)計(jì)可以很容易地將COCO和大型OpenImage上的大多數(shù)主骨架和模型提升3% ~ 5%,這是我們2019年OpenImage挑戰(zhàn)的第一個(gè)解決方案中的核心模型。
總結(jié)
以上是生活随笔為你收集整理的【目标检测_解耦】 Revisiting the Sibling Head in Object Detector_2020的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 最囧游戏2攻略怎么做
- 下一篇: 目标检测视频笔记