端到端全景分割
端到端全景分割
An End-to-End Network for Panoptic Segmentation
摘要
全景分割是一個具有挑戰(zhàn)性的課題,它需要為每個像素指定一個類別標(biāo)簽,同時對每個對象實例進(jìn)行分割。傳統(tǒng)上,現(xiàn)有的方法使用兩個獨立的模型,而不共享特性,這使得流水線不易實現(xiàn)。此外,通常采用啟發(fā)式方法對結(jié)果進(jìn)行合并。然而,在合并過程中,如果沒有足夠的上下文信息,很難確定對象實例之間的重疊關(guān)系。為了解決這一問題,本文提出了一種新的端到端遮擋感知網(wǎng)絡(luò)(OANet),它可以有效地預(yù)測單個網(wǎng)絡(luò)中的實例和內(nèi)容分割。此外,本文還引入了一個新的空間排序模塊來處理預(yù)測實例之間的遮擋問題。通過大量的實驗驗證了該方法的有效性,并在COCO全景基準(zhǔn)上取得了良好的效果。
- Introduction
在本文中,本文提出了一種新的端到端算法,如圖1(b)所示。據(jù)本文所知,這是第一個能夠在端到端管道中處理上述問題的算法。更具體地說,本文將實例分割和內(nèi)容分割合并到一個網(wǎng)絡(luò)中,該網(wǎng)絡(luò)共享主干特性,但對這兩個任務(wù)應(yīng)用不同的頭分支。在訓(xùn)練階段,主干功能將通過多項監(jiān)督的累積損失進(jìn)行優(yōu)化,而總分支將只對特定任務(wù)進(jìn)行微調(diào)。
為了解決對象實例之間存在重疊關(guān)系的問題,提出了一種新的空間排序模塊算法。本模塊學(xué)習(xí)排名分?jǐn)?shù),并為實例提供排序依據(jù)。
總之,本文將算法的貢獻(xiàn)總結(jié)如下:
?本文首先提出了一種端到端的遮擋感知管道,用于解決全景分割問題。
?本文引入了一個新的空間排序模塊來解決重疊關(guān)系的模糊性,這種模糊性通常存在于全景分割問題中。
?本文在COCO全景分割數(shù)據(jù)集上獲得最先進(jìn)的性能。
- Proposed End-to-end Framework
本文算法的概述如圖2所示。本文的算法有三個主要部分:
1) stuff分支預(yù)測整個輸入的stuff分段。
2)實例分支提供實例分段預(yù)測。
3)空間排名模塊為每個實例生成一個排名分?jǐn)?shù)。
3.1. End-to-end Network Architecture
本文采用FPN[26]作為端到端網(wǎng)絡(luò)的骨干架構(gòu)。例如分割,本文采用原始的Mask R-CNN[14]作為本文的網(wǎng)絡(luò)框架。本文應(yīng)用自頂向下的路徑和橫向連接來獲得特征地圖。然后,附加3×3卷積層得到RPN特征映射。之后,本文申請ROIAlign[14]層用于提取對象建議特征并獲得三個預(yù)測:建議分類分?jǐn)?shù)、建議邊界框坐標(biāo)和建議實例掩碼。
對于材料分割,在RPN特征圖上疊加兩個3×3卷積層。為了實現(xiàn)多尺度特征提取,本文將這些層與后續(xù)的3×3卷積層和1×1卷積層連接起來。圖3顯示了stuff分支的詳細(xì)信息。在訓(xùn)練過程中,由于輔助目標(biāo)信息可以為目標(biāo)的預(yù)測提供對象上下文,所以本文同時對目標(biāo)的分割和分割進(jìn)行監(jiān)控。在推論中,本文只提取材料預(yù)測并將其標(biāo)準(zhǔn)化為概率。為了突破培訓(xùn)過程中的信息流動障礙,提高整個管道的效率,本文共享了兩個分支的骨干網(wǎng)絡(luò)的特點。
這里提出的問題可以分為兩部分:
1)特征映射上的共享粒度
2)實例丟失和數(shù)據(jù)丟失之間的平衡。
在實踐中,本文發(fā)現(xiàn)隨著更多的特征圖被共享,本文可以獲得更好的性能。因此,本文共享特征映射,直到跳過連接層,即圖3所示的RPN頭之前的3×3卷積層。
2.2. Spatial Ranking Module
現(xiàn)代的實例分割框架通常是基于對象檢測網(wǎng)絡(luò)和一個附加的掩模預(yù)測分支,如掩模RCNN[14]通常是基于FPN[26]。一般來說,當(dāng)前的目標(biāo)檢測框架不考慮不同類別之間的重疊問題,因為流行的度量不受此問題的影響,例如AP和AR。然而,在全景分割任務(wù)中,由于一個圖像中的像素數(shù)是固定的,因此重疊問題,或者具體來說,必須解決一個像素的多個指定。
一般情況下,檢測得分是用來對實例進(jìn)行降序排序,然后根據(jù)得分較大的對象在得分較低的對象之上的規(guī)則將其分配給stuff畫布。然而,這種啟發(fā)式算法在實際應(yīng)用中很容易失敗。例如,讓本文考慮一個戴領(lǐng)帶的人,如圖7所示。由于person類比COCO數(shù)據(jù)集中的tie更頻繁,因此其檢測分?jǐn)?shù)往往高于tie邊界框。因此,通過上面的簡單規(guī)則,tie實例被person實例覆蓋,導(dǎo)致性能下降。
本文可以通過全景注釋來緩解這種現(xiàn)象嗎?也就是說,如果本文強迫網(wǎng)絡(luò)學(xué)習(xí)的人在標(biāo)注的地方打一個洞,可以避免上述情況嗎?如表3所示,本文使用上述注釋進(jìn)行實驗,但僅發(fā)現(xiàn)衰減的性能。因此,這種方法目前不適用。為了解決這一問題,本文采用了一種類似語義的方法,提出了一種簡單而有效的解決遮擋問題的算法,稱為空間排序模塊。
如圖4所示,本文首先映射結(jié)果實例分割到輸入大小的張量。特征映射的維數(shù)是對象類別的個數(shù),不同類別的實例映射到相應(yīng)的通道。
- Experiments
3.1. Dataset and Evaluation Metrics
數(shù)據(jù)集:
本文在COCO全景分割數(shù)據(jù)集上進(jìn)行了所有實驗[18]。這個數(shù)據(jù)集包含118K個用于訓(xùn)練的圖像,5k個用于驗證的圖像,其中80個類別的內(nèi)容有注釋,53個類別的內(nèi)容有注釋。本文只使用訓(xùn)練圖像進(jìn)行模型訓(xùn)練和驗證集測試。最后,本文將測試開發(fā)結(jié)果提交給COCO 2018全景分割排行榜。
評估指標(biāo):
本文使用[18]中定義的標(biāo)準(zhǔn)評估指標(biāo),稱為全景質(zhì)量(PQ)。
它包含兩個因素:
1)分割質(zhì)量(SQ)衡量所有類別和
2)檢測質(zhì)量(DQ)僅測量實例類。
PQ、SQ和DQ的數(shù)學(xué)形式在等式5中給出,其中p和g是預(yù)測和基本真值,TP、FP、FN表示真陽性、假陽性和假陰性。
很容易發(fā)現(xiàn)SQ是匹配實例的常用平均IOU度量,DQ可以看作是檢測精度的一種形式。匹配閾值設(shè)置為0.5,即如果預(yù)測的像素IOU和地面真值大于0.5,則認(rèn)為預(yù)測匹配,否則不匹配。對于stuff類,圖像中的每個stuff類都被視為一個實例,無論其形狀如何。
3.2. Implementation Details
本文選擇ResNet-50[16]在ImageNet上預(yù)訓(xùn)練用于消融研究。本文使用SGD作為優(yōu)化算法,動量為0.9,權(quán)值衰減為0.0001。采用帶預(yù)熱策略的多階段學(xué)習(xí)率策略[33]。也就是說,在最初的2000次迭代中,本文通過將學(xué)習(xí)率從0.002提高到0.02來使用線性漸進(jìn)預(yù)熱策略。在60000次迭代之后,本文將學(xué)習(xí)率降低到0.002(對于接下來的20000次迭代),并進(jìn)一步將其設(shè)置為0.0002(對于剩余的20000次迭代)。輸入的批大小設(shè)置為16,這意味著每個GPU在一次迭代中使用兩個圖像。對于其他細(xì)節(jié),本文使用Mask RCNN的經(jīng)驗[14]。除了對本文網(wǎng)絡(luò)的兩個分支進(jìn)行培訓(xùn)外,還應(yīng)該注意空間排名模塊。在訓(xùn)練過程中,監(jiān)督標(biāo)簽是對應(yīng)的非重疊語義標(biāo)簽,訓(xùn)練為語義分割網(wǎng)絡(luò)。本文設(shè)置忽略的非沖突像素,以強制網(wǎng)絡(luò)聚焦于沖突區(qū)域。
3.3. Ablation Study on Network Structure
在本小節(jié)中,本文將重點介紹端到端網(wǎng)絡(luò)設(shè)計的特性。本文主要討論了三個問題:損失平衡參數(shù)、業(yè)務(wù)分支的對象上下文和兩個分支的共享模式。為了避免實驗的笛卡爾積,本文只修改特定的參數(shù),并對另一個參數(shù)進(jìn)行最優(yōu)控制。
3.4. Ablation Study on Spatial Ranking Module
圖7解釋了本文的空間排名模塊的原理。對于示例輸入圖像,網(wǎng)絡(luò)預(yù)測一個人加一個平局,其包圍盒得分分別為0.997和0.662。如果本文用分?jǐn)?shù)來決定結(jié)果,平局將完全由該人來決定。然而,在本文的方法中,本文可以得到每個實例的空間排名分?jǐn)?shù),分別為0.325和0.878。借助新的分?jǐn)?shù),本文可以得到正確的預(yù)測。圖8總結(jié)了更多的例子。
- Conclusion
本文提出了一種新的端到端遮擋感知算法,該算法將常見的語義分割和實例分割融合到一個模型中。為了更好地利用不同的監(jiān)控機(jī)制,減少計算資源的消耗,本文研究了不同分支之間的特征共享問題,認(rèn)為應(yīng)該盡可能多地共享特征。此外,本文還觀察了全景分割中提出的特殊排序問題,并設(shè)計了簡單而有效的空間排序模塊來解決這一問題。實驗結(jié)果表明,本文的方法優(yōu)于以前的最新模型。
總結(jié)