當(dāng)前位置：首頁 > 人文社科 > 生活经验 >内容正文

生活经验

端到端全景分割

發(fā)布時間：2023/11/28 生活经验 52 豆豆

生活随笔收集整理的這篇文章主要介紹了端到端全景分割小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

端到端全景分割

An End-to-End Network for Panoptic Segmentation

摘要

全景分割是一個具有挑戰(zhàn)性的課題，它需要為每個像素指定一個類別標(biāo)簽，同時對每個對象實例進(jìn)行分割。傳統(tǒng)上，現(xiàn)有的方法使用兩個獨立的模型，而不共享特性，這使得流水線不易實現(xiàn)。此外，通常采用啟發(fā)式方法對結(jié)果進(jìn)行合并。然而，在合并過程中，如果沒有足夠的上下文信息，很難確定對象實例之間的重疊關(guān)系。為了解決這一問題，本文提出了一種新的端到端遮擋感知網(wǎng)絡(luò)（OANet），它可以有效地預(yù)測單個網(wǎng)絡(luò)中的實例和內(nèi)容分割。此外，本文還引入了一個新的空間排序模塊來處理預(yù)測實例之間的遮擋問題。通過大量的實驗驗證了該方法的有效性，并在COCO全景基準(zhǔn)上取得了良好的效果。

Introduction

在本文中，本文提出了一種新的端到端算法，如圖1（b）所示。據(jù)本文所知，這是第一個能夠在端到端管道中處理上述問題的算法。更具體地說，本文將實例分割和內(nèi)容分割合并到一個網(wǎng)絡(luò)中，該網(wǎng)絡(luò)共享主干特性，但對這兩個任務(wù)應(yīng)用不同的頭分支。在訓(xùn)練階段，主干功能將通過多項監(jiān)督的累積損失進(jìn)行優(yōu)化，而總分支將只對特定任務(wù)進(jìn)行微調(diào)。

為了解決對象實例之間存在重疊關(guān)系的問題，提出了一種新的空間排序模塊算法。本模塊學(xué)習(xí)排名分?jǐn)?shù)，并為實例提供排序依據(jù)。

總之，本文將算法的貢獻(xiàn)總結(jié)如下：

?本文首先提出了一種端到端的遮擋感知管道，用于解決全景分割問題。

?本文引入了一個新的空間排序模塊來解決重疊關(guān)系的模糊性，這種模糊性通常存在于全景分割問題中。

?本文在COCO全景分割數(shù)據(jù)集上獲得最先進(jìn)的性能。

Proposed End-to-end Framework

本文算法的概述如圖2所示。本文的算法有三個主要部分：

1） stuff分支預(yù)測整個輸入的stuff分段。

2）實例分支提供實例分段預(yù)測。

3）空間排名模塊為每個實例生成一個排名分?jǐn)?shù)。

3.1. End-to-end Network Architecture

本文采用FPN[26]作為端到端網(wǎng)絡(luò)的骨干架構(gòu)。例如分割，本文采用原始的Mask R-CNN[14]作為本文的網(wǎng)絡(luò)框架。本文應(yīng)用自頂向下的路徑和橫向連接來獲得特征地圖。然后，附加3×3卷積層得到RPN特征映射。之后，本文申請ROIAlign[14]層用于提取對象建議特征并獲得三個預(yù)測：建議分類分?jǐn)?shù)、建議邊界框坐標(biāo)和建議實例掩碼。

對于材料分割，在RPN特征圖上疊加兩個3×3卷積層。為了實現(xiàn)多尺度特征提取，本文將這些層與后續(xù)的3×3卷積層和1×1卷積層連接起來。圖3顯示了stuff分支的詳細(xì)信息。在訓(xùn)練過程中，由于輔助目標(biāo)信息可以為目標(biāo)的預(yù)測提供對象上下文，所以本文同時對目標(biāo)的分割和分割進(jìn)行監(jiān)控。在推論中，本文只提取材料預(yù)測并將其標(biāo)準(zhǔn)化為概率。為了突破培訓(xùn)過程中的信息流動障礙，提高整個管道的效率，本文共享了兩個分支的骨干網(wǎng)絡(luò)的特點。

這里提出的問題可以分為兩部分：

1）特征映射上的共享粒度

2）實例丟失和數(shù)據(jù)丟失之間的平衡。

在實踐中，本文發(fā)現(xiàn)隨著更多的特征圖被共享，本文可以獲得更好的性能。因此，本文共享特征映射，直到跳過連接層，即圖3所示的RPN頭之前的3×3卷積層。

2.2. Spatial Ranking Module

現(xiàn)代的實例分割框架通常是基于對象檢測網(wǎng)絡(luò)和一個附加的掩模預(yù)測分支，如掩模RCNN[14]通常是基于FPN[26]。一般來說，當(dāng)前的目標(biāo)檢測框架不考慮不同類別之間的重疊問題，因為流行的度量不受此問題的影響，例如AP和AR。然而，在全景分割任務(wù)中，由于一個圖像中的像素數(shù)是固定的，因此重疊問題，或者具體來說，必須解決一個像素的多個指定。

一般情況下，檢測得分是用來對實例進(jìn)行降序排序，然后根據(jù)得分較大的對象在得分較低的對象之上的規(guī)則將其分配給stuff畫布。然而，這種啟發(fā)式算法在實際應(yīng)用中很容易失敗。例如，讓本文考慮一個戴領(lǐng)帶的人，如圖7所示。由于person類比COCO數(shù)據(jù)集中的tie更頻繁，因此其檢測分?jǐn)?shù)往往高于tie邊界框。因此，通過上面的簡單規(guī)則，tie實例被person實例覆蓋，導(dǎo)致性能下降。

本文可以通過全景注釋來緩解這種現(xiàn)象嗎？也就是說，如果本文強迫網(wǎng)絡(luò)學(xué)習(xí)的人在標(biāo)注的地方打一個洞，可以避免上述情況嗎？如表3所示，本文使用上述注釋進(jìn)行實驗，但僅發(fā)現(xiàn)衰減的性能。因此，這種方法目前不適用。為了解決這一問題，本文采用了一種類似語義的方法，提出了一種簡單而有效的解決遮擋問題的算法，稱為空間排序模塊。

如圖4所示，本文首先映射結(jié)果實例分割到輸入大小的張量。特征映射的維數(shù)是對象類別的個數(shù)，不同類別的實例映射到相應(yīng)的通道。

Experiments

3.1. Dataset and Evaluation Metrics

數(shù)據(jù)集：

本文在COCO全景分割數(shù)據(jù)集上進(jìn)行了所有實驗[18]。這個數(shù)據(jù)集包含118K個用于訓(xùn)練的圖像，5k個用于驗證的圖像，其中80個類別的內(nèi)容有注釋，53個類別的內(nèi)容有注釋。本文只使用訓(xùn)練圖像進(jìn)行模型訓(xùn)練和驗證集測試。最后，本文將測試開發(fā)結(jié)果提交給COCO 2018全景分割排行榜。

評估指標(biāo)：

本文使用[18]中定義的標(biāo)準(zhǔn)評估指標(biāo)，稱為全景質(zhì)量（PQ）。

它包含兩個因素：

1）分割質(zhì)量（SQ）衡量所有類別和

2）檢測質(zhì)量（DQ）僅測量實例類。

PQ、SQ和DQ的數(shù)學(xué)形式在等式5中給出，其中p和g是預(yù)測和基本真值，TP、FP、FN表示真陽性、假陽性和假陰性。

很容易發(fā)現(xiàn)SQ是匹配實例的常用平均IOU度量，DQ可以看作是檢測精度的一種形式。匹配閾值設(shè)置為0.5，即如果預(yù)測的像素IOU和地面真值大于0.5，則認(rèn)為預(yù)測匹配，否則不匹配。對于stuff類，圖像中的每個stuff類都被視為一個實例，無論其形狀如何。

3.2. Implementation Details

本文選擇ResNet-50[16]在ImageNet上預(yù)訓(xùn)練用于消融研究。本文使用SGD作為優(yōu)化算法，動量為0.9，權(quán)值衰減為0.0001。采用帶預(yù)熱策略的多階段學(xué)習(xí)率策略[33]。也就是說，在最初的2000次迭代中，本文通過將學(xué)習(xí)率從0.002提高到0.02來使用線性漸進(jìn)預(yù)熱策略。在60000次迭代之后，本文將學(xué)習(xí)率降低到0.002（對于接下來的20000次迭代），并進(jìn)一步將其設(shè)置為0.0002（對于剩余的20000次迭代）。輸入的批大小設(shè)置為16，這意味著每個GPU在一次迭代中使用兩個圖像。對于其他細(xì)節(jié)，本文使用Mask RCNN的經(jīng)驗[14]。除了對本文網(wǎng)絡(luò)的兩個分支進(jìn)行培訓(xùn)外，還應(yīng)該注意空間排名模塊。在訓(xùn)練過程中，監(jiān)督標(biāo)簽是對應(yīng)的非重疊語義標(biāo)簽，訓(xùn)練為語義分割網(wǎng)絡(luò)。本文設(shè)置忽略的非沖突像素，以強制網(wǎng)絡(luò)聚焦于沖突區(qū)域。

3.3. Ablation Study on Network Structure

在本小節(jié)中，本文將重點介紹端到端網(wǎng)絡(luò)設(shè)計的特性。本文主要討論了三個問題：損失平衡參數(shù)、業(yè)務(wù)分支的對象上下文和兩個分支的共享模式。為了避免實驗的笛卡爾積，本文只修改特定的參數(shù)，并對另一個參數(shù)進(jìn)行最優(yōu)控制。

3.4. Ablation Study on Spatial Ranking Module

圖7解釋了本文的空間排名模塊的原理。對于示例輸入圖像，網(wǎng)絡(luò)預(yù)測一個人加一個平局，其包圍盒得分分別為0.997和0.662。如果本文用分?jǐn)?shù)來決定結(jié)果，平局將完全由該人來決定。然而，在本文的方法中，本文可以得到每個實例的空間排名分?jǐn)?shù)，分別為0.325和0.878。借助新的分?jǐn)?shù)，本文可以得到正確的預(yù)測。圖8總結(jié)了更多的例子。

Conclusion

本文提出了一種新的端到端遮擋感知算法，該算法將常見的語義分割和實例分割融合到一個模型中。為了更好地利用不同的監(jiān)控機制，減少計算資源的消耗，本文研究了不同分支之間的特征共享問題，認(rèn)為應(yīng)該盡可能多地共享特征。此外，本文還觀察了全景分割中提出的特殊排序問題，并設(shè)計了簡單而有效的空間排序模塊來解決這一問題。實驗結(jié)果表明，本文的方法優(yōu)于以前的最新模型。

總結(jié)

以上是生活随笔為你收集整理的端到端全景分割的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

生活经验

端到端全景分割

總結(jié)