當(dāng)前位置：首頁 > 人文社科 > 生活经验 >内容正文

生活经验

SOLO: 按位置分割对象

發(fā)布時(shí)間：2023/11/28 生活经验 36 豆豆

生活随笔收集整理的這篇文章主要介紹了 SOLO: 按位置分割对象小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

SOLO: 按位置分割對(duì)象

SOLO: Segmenting Objectsby Locations

論文鏈接：

https://arxiv.org/pdf/1912.04488.pdf

代碼鏈接：

https://github.com/WXinlong/SOLO

摘要

我們提出了一個(gè)新的，令人尷尬的簡(jiǎn)單方法，在圖像中的實(shí)例分割。與其他許多密集預(yù)測(cè)任務(wù)（如語義分割）相比，任意數(shù)量的實(shí)例使得實(shí)例分割更具挑戰(zhàn)性。為了預(yù)測(cè)每個(gè)實(shí)例的遮罩，主流方法要么遵循例如mask R-CNN所使用的“檢測(cè)然后分段”策略，要么首先預(yù)測(cè)嵌入向量，然后使用聚類技術(shù)將像素分組到單個(gè)實(shí)例中。我們從一個(gè)全新的角度來看待實(shí)例分割的任務(wù)，引入了“實(shí)例類別”的概念，它根據(jù)實(shí)例的位置和大小給實(shí)例中的每個(gè)像素分配類別，從而很好地將實(shí)例掩碼分割轉(zhuǎn)化為一個(gè)分類可解的問題?，F(xiàn)在實(shí)例分割被分解為兩個(gè)分類任務(wù)。我們展示了一個(gè)簡(jiǎn)單靈活的實(shí)例分割框架，具有很強(qiáng)的性能，達(dá)到了與Mask R-CNN同等的精度，并且在精度上優(yōu)于最近的單鏡頭實(shí)例分割器。我們希望這個(gè)非常簡(jiǎn)單和強(qiáng)大的框架可以作為除實(shí)例分割之外的許多實(shí)例級(jí)識(shí)別任務(wù)的基線。

Introduction

實(shí)例分割具有挑戰(zhàn)性，因?yàn)樗枰_分離圖像中的所有對(duì)象，同時(shí)還要在像素級(jí)對(duì)每個(gè)實(shí)例進(jìn)行語義分割。圖像中的對(duì)象屬于一組固定的語義類別，但是實(shí)例的數(shù)量不同。因此，語義分割可以很容易地表述為一個(gè)密集的每像素分類問題，而直接按照相同的范式預(yù)測(cè)實(shí)例標(biāo)簽則是一個(gè)挑戰(zhàn)。為了克服這一障礙，目前的實(shí)例分割方法可以分為自頂向下和自下而上兩類。前一種方法，即“檢測(cè)到段”，首先檢測(cè)邊界框，然后在每個(gè)邊界框中分割實(shí)例掩碼。后一種方法通過推開屬于不同實(shí)例的像素，并在同一實(shí)例中拉近像素，來學(xué)習(xí)af finity關(guān)系，為每個(gè)像素分配一個(gè)嵌入向量。然后需要分組后處理來分離實(shí)例。兩者這兩種模式是逐步的和間接的，它們要么嚴(yán)重依賴于精確的包圍盒檢測(cè)，要么依賴于每像素的嵌入學(xué)習(xí)和分組處理。相比之下，我們的目標(biāo)是在完整實(shí)例掩碼注釋的監(jiān)督下，直接分割實(shí)例掩碼，而不是框中的掩碼或附加的像素對(duì)關(guān)系。

我們從重新思考一個(gè)問題開始：動(dòng)物之間的基本區(qū)別是什么？以challengms COCO數(shù)據(jù)集[12]為例。驗(yàn)證子集中共有36780個(gè)目標(biāo)，98.3%的目標(biāo)對(duì)中心距大于30像素。其余1.7%的對(duì)象對(duì)中，40.5%的對(duì)象對(duì)大小比大于1.5×。在這里，我們不認(rèn)為少數(shù)情況下像兩個(gè)物體在’×’形狀?？傊?#xff0c;在大多數(shù)情況下，圖像中的兩個(gè)實(shí)例要么具有不同的中心位置，要么具有不同的對(duì)象大小。這個(gè)觀察結(jié)果讓人懷疑我們是否可以通過中心位置和對(duì)象大小直接區(qū)分實(shí)例？在密切相關(guān)的領(lǐng)域，語義分割，現(xiàn)在占主導(dǎo)地位的范式利用一個(gè)完全卷積網(wǎng)絡(luò)（FCN）輸出N個(gè)通道的密集預(yù)測(cè)。

每個(gè)輸出通道負(fù)責(zé)其中一個(gè)語義類別（包括背景）。語義分割的目的是區(qū)分不同的語義范疇。類似地，在這項(xiàng)工作中，我們建議通過引入“實(shí)例類別”的概念來區(qū)分圖像中的對(duì)象實(shí)例，即量化的中心位置和對(duì)象大小，從而能夠按位置分割對(duì)象，因此我們的方法名為SOLO。我們提出的SOLO的核心思想是按位置和大小分離對(duì)象實(shí)例。位置圖像可以分成S×S單元的網(wǎng)格，從而產(chǎn)生S2中心位置類。根據(jù)對(duì)象中心的坐標(biāo)，將對(duì)象實(shí)例指定給其中一個(gè)網(wǎng)格單元作為其中心位置類別。

與DeepMask[21]和TensorMask[2]不同，DeepMask[21]和TensorMask[2]將掩碼打包到通道軸中，我們將中心位置類別編碼為通道軸，類似于語義分割中的語義類別。每個(gè)輸出通道負(fù)責(zé)一個(gè)中心位置類別，相應(yīng)的通道映射應(yīng)該預(yù)測(cè)屬于該類別的對(duì)象的實(shí)例掩碼。因此，結(jié)構(gòu)幾何信息自然地保存在空間矩陣中。實(shí)際上，實(shí)例類別近似于實(shí)例的對(duì)象中心位置。因此，通過將每個(gè)像素分類到其實(shí)例類別中，就相當(dāng)于使用回歸從每個(gè)像素預(yù)測(cè)對(duì)象中心。在這里，將位置預(yù)測(cè)任務(wù)轉(zhuǎn)換為分類而不是回歸的重要性在于，在分類時(shí)，使用固定數(shù)量的通道對(duì)不同數(shù)量的實(shí)例進(jìn)行建模更加直接和容易，同時(shí)不依賴于分組或?qū)W習(xí)嵌入等后處理。為了區(qū)分具有不同對(duì)象大小的實(shí)例，我們采用特征金字塔網(wǎng)絡(luò)（FPN）[11]，以便將不同大小的對(duì)象分配給不同級(jí)別的特征映射，作為對(duì)象大小類。

因此，所有的對(duì)象實(shí)例都是定期分離的，這樣就可以按“實(shí)例類別”對(duì)對(duì)象進(jìn)行分類。請(qǐng)注意，FPN是為檢測(cè)圖像中不同大小的對(duì)象而設(shè)計(jì)的。在后半部分中，我們通過實(shí)驗(yàn)證明FPN是我們方法的核心組件之一，它對(duì)分割性能有著深遠(yuǎn)的影響，特別是對(duì)不同大小的物體的分割。利用所提出的SOLO框架，我們能夠針對(duì)單獨(dú)使用掩碼注釋的實(shí)例分割任務(wù)，以端到端的方式優(yōu)化網(wǎng)絡(luò)，并且在不受本地盒檢測(cè)和像素分組限制的情況下，執(zhí)行像素級(jí)的實(shí)例分割。注意，到目前為止，大多數(shù)實(shí)例分割方法都需要框注釋作為監(jiān)視信號(hào)之一。第一次，我們展示了一種非常簡(jiǎn)單的實(shí)例分割方法，在具有不同場(chǎng)景和語義類的具有挑戰(zhàn)性的COCO數(shù)據(jù)集[12]上，實(shí)現(xiàn)了與主流的“檢測(cè)然后分割”方法Mask R-CNN[7]相當(dāng)?shù)慕Y(jié)果。

此外，我們通過實(shí)例輪廓檢測(cè)的任務(wù)來展示我們框架的通用性，通過將實(shí)例邊緣輪廓視為一個(gè)熱的二值掩模，幾乎不需要單獨(dú)修改就可以生成合理的實(shí)例輪廓。提出的SOLO算法只需要解決兩個(gè)像素級(jí)的分類任務(wù)，類似于語義分割。因此，可以借用語義分割的一些最新進(jìn)展來改進(jìn)SOLO。本質(zhì)上，SOLO通過離散量化將坐標(biāo)回歸轉(zhuǎn)換為分類。這樣做的一個(gè)優(yōu)點(diǎn)是避免了啟發(fā)式的協(xié)調(diào)規(guī)范化和日志轉(zhuǎn)換，通常使用諸如YOLO[22]這樣的索引器。這種令人尷尬的簡(jiǎn)單性和強(qiáng)大的性能可以預(yù)測(cè)其在廣泛的實(shí)例級(jí)識(shí)別任務(wù)中的應(yīng)用。

Related Work

我們回顧了一些最接近我們的實(shí)例分割工作。

自頂向下的實(shí)例分段

在先驗(yàn)包圍盒中分割對(duì)象實(shí)例的方法屬于典型的自頂向下范式。FCIS[10]將由區(qū)域提議網(wǎng)絡(luò)（RPN）生成的感興趣區(qū)域（roi）內(nèi)的位置敏感得分圖集合起來，以預(yù)測(cè)實(shí)例掩碼。Mask R-CNN[7]通過在檢測(cè)到的邊界框內(nèi)添加用于分割對(duì)象實(shí)例的分支，擴(kuò)展了更快的R-CNN檢測(cè)器[23]。在Mask R-CNN的基礎(chǔ)上，PANet[16]進(jìn)一步增強(qiáng)了特征表示以提高精度，Mask Scoring R-CNN[8]增加了Mask IoU分支以預(yù)測(cè)預(yù)測(cè)的Mask的質(zhì)量，并對(duì)Mask進(jìn)行評(píng)分以提高性能。TensorMask[2]采用密集滑動(dòng)窗口范式，在本地窗口中為每個(gè)像素分割實(shí)例，并預(yù)先確定窗口數(shù)和比例。與上述自上而下的方法相比，我們的SOLO完全無箱，因此不受（錨）箱位置和規(guī)模的限制，自然受益于FCN的固有優(yōu)勢(shì)。

自下而上的實(shí)例分割

這類方法通過將像素分組為圖像中呈現(xiàn)的任意數(shù)量的對(duì)象實(shí)例來生成實(shí)例掩碼。我們簡(jiǎn)要回顧了最近的幾種方法。使用[19]中學(xué)習(xí)的關(guān)聯(lián)嵌入將像素分組到實(shí)例中。判別損失函數(shù)[5]通過推開屬于不同實(shí)例的像素并在同一實(shí)例中拉近像素，有效地學(xué)習(xí)像素級(jí)實(shí)例嵌入。SGN[15]將實(shí)例分割問題分解為一系列子分組問題。SSAP[6]學(xué)習(xí)一個(gè)像素對(duì)的單位金字塔，兩個(gè)像素屬于同一個(gè)實(shí)例的概率，并通過一個(gè)不規(guī)則的圖分區(qū)依次生成實(shí)例。與自頂向下方法相比，自底向上方法的準(zhǔn)確性通常落后，特別是在具有不同場(chǎng)景和語義類的數(shù)據(jù)集上。SOLO沒有利用像素對(duì)關(guān)系和像素分組，而是在訓(xùn)練過程中直接使用實(shí)例掩碼注釋進(jìn)行學(xué)習(xí)，并在不分組后處理的情況下，端到端地預(yù)測(cè)實(shí)例掩碼和語義類別。在這個(gè)意義上，我們提出的SOLO是一種直接的端到端實(shí)例分割方法。

直接實(shí)例分割

據(jù)我們所知，沒有一種先驗(yàn)的方法是直接使用mask注釋進(jìn)行訓(xùn)練，不需要對(duì)后處理進(jìn)行分組，就可以一次預(yù)測(cè)實(shí)例的mask和語義類別。最近提出的幾種方法可被視為“半直接”范式。AdaptIS[24]首先預(yù)測(cè)點(diǎn)建議，然后依次為位于檢測(cè)到的點(diǎn)建議的對(duì)象生成掩碼。polar mask[27]建議使用極坐標(biāo)表示對(duì)掩模進(jìn)行編碼，并將每像素掩模預(yù)測(cè)轉(zhuǎn)換為距離回歸。它們都不需要邊界框進(jìn)行訓(xùn)練，但要么是逐步的，要么是建立在折衷的基礎(chǔ)上，例如，面具的粗略參數(shù)表示。我們的SOLO以圖像為輸入，直接輸出實(shí)例掩碼以及相應(yīng)的類概率，在完全卷積的、無盒子的和無分組的范式中。我們簡(jiǎn)單的網(wǎng)絡(luò)可以在不需要監(jiān)控的情況下進(jìn)行端到端的優(yōu)化。為了進(jìn)行預(yù)測(cè)，網(wǎng)絡(luò)直接將輸入圖像映射到每個(gè)實(shí)例的遮罩，既不依賴RoI特征裁剪等中間操作，也不依賴分組后處理。

Our Method: SOLO

3.1. ProblemFormulation

給定任意圖像，實(shí)例分割系統(tǒng)需要判斷是否存在語義對(duì)象的實(shí)例；如果存在，則系統(tǒng)返回分割掩碼。SOLO框架的核心思想是將實(shí)例分割轉(zhuǎn)化為兩個(gè)同時(shí)存在的類別感知預(yù)測(cè)和實(shí)例感知掩模生成問題。具體來說，我們的系統(tǒng)將輸入圖像分割成一個(gè)均勻的網(wǎng)格，即S×S。如果一個(gè)物體的中心落在一個(gè)網(wǎng)格單元中，該網(wǎng)格單元負(fù)責(zé) 1）預(yù)測(cè)語義類別以及

2）分割該對(duì)象實(shí)例。

對(duì)于每個(gè)網(wǎng)格，SOLO預(yù)測(cè)C維輸出以指示語義類概率，其中C是類的數(shù)量。這些概率取決于網(wǎng)格單元。如果我們將輸入圖像分成S×S網(wǎng)格，則輸出空間為S×S×C，如圖2所示（頂部）。該設(shè)計(jì)基于S×S網(wǎng)格的每個(gè)單元必須屬于一個(gè)實(shí)例的假設(shè)，因此只屬于一個(gè)語義范疇。在推理過程中，C維輸出指示每個(gè)對(duì)象實(shí)例的類概率。

在語義類別預(yù)測(cè)的同時(shí)，每個(gè)正網(wǎng)格單元也會(huì)生成相應(yīng)的實(shí)例掩碼。對(duì)于輸入圖像I，如果將其劃分為S×S網(wǎng)格，則總共最多有S2個(gè)預(yù)測(cè)掩模。我們?cè)谌S輸出張量的三維（通道）顯式地編碼這些掩模。具體來說，實(shí)例掩碼輸出將具有HI×WI×S2維。第k個(gè)通道將負(fù)責(zé)在網(wǎng)格（i，j）處分段實(shí)例，其中k=i·S+j（以i和j為零為基礎(chǔ)）1。為此，在語義類別和類不可知掩碼之間建立了一對(duì)一的對(duì)應(yīng)關(guān)系（圖2）。預(yù)測(cè)實(shí)例掩碼的直接方法是采用完全卷積網(wǎng)絡(luò)，如語義分割中的FCNs[17]。

然而，傳統(tǒng)的卷積運(yùn)算在一定程度上具有空間不變性。由于空間不變性引入了魯棒性，因此在圖像分類等任務(wù)中需要空間不變性。然而，恰恰相反，這里我們需要一個(gè)空間變化的模型，或者更精確地說，位置敏感的模型，因?yàn)槲覀兊姆指钫谡质?網(wǎng)格單元必須由不同的特征通道分隔。

我們的解決方案非常簡(jiǎn)單：在網(wǎng)絡(luò)的開始，我們直接將標(biāo)準(zhǔn)化的像素坐標(biāo)饋送給網(wǎng)絡(luò)，靈感來自“CoordConv”操作符[14]。具體來說，我們創(chuàng)建了一個(gè)與包含像素坐標(biāo)的輸入具有相同空間大小的張量，該張量被規(guī)范化為[-1,1]。然后，該張量連接到輸入特征并傳遞到以下層。通過簡(jiǎn)單地賦予卷積對(duì)其自身輸入坐標(biāo)的訪問權(quán)，我們將空間功能添加到傳統(tǒng)的FCN模型中。值得注意的是，CoordConv并不是唯一的選擇。例如，半卷積算子[20]可以勝任，但我們使用CoordConv是因?yàn)樗?jiǎn)單且易于實(shí)現(xiàn)。如果原始特征張量的大小為H×W×D，則新張量的大小為H×W×（D+2），其中最后兩個(gè)通道是x-y像素坐標(biāo)。關(guān)于CoordConv的更多信息，請(qǐng)參閱[14]。正在形成實(shí)例分段。

在SOLO中，類別預(yù)測(cè)和對(duì)應(yīng)的掩碼由它們的參考網(wǎng)格單元（k=i·S+j）自然關(guān)聯(lián)，在此基礎(chǔ)上，我們可以直接形成每個(gè)網(wǎng)格的最終實(shí)例分割結(jié)果。原始實(shí)例分割結(jié)果是通過收集所有網(wǎng)格結(jié)果生成的。最后，利用非最大值抑制（NMS）方法得到最終的實(shí)例分割結(jié)果。不需要其他后處理操作。

3.2. NetworkArchitecture

我們現(xiàn)在介紹在我們的SOLO框架中使用的網(wǎng)絡(luò)。SOLO附屬于一個(gè)回旋的骨干。我們使用FPN[11]，它生成具有不同大小的特征映射金字塔，每個(gè)級(jí)別具有固定數(shù)量的通道（通常為256-d）。這些映射用作每個(gè)預(yù)測(cè)頭的輸入：語義類別和實(shí)例掩碼。頭部的重量在不同的層次上共享。網(wǎng)格數(shù)在不同的金字塔上可能不同。在此場(chǎng)景中，只有最后一個(gè)1×1 convis沒有共享。為了演示我們方法的通用性和有效性，我們用多個(gè)架構(gòu)實(shí)例化SOLO。

這些差異包括：

（a）用于特征提取的主干架構(gòu)，

（b）用于計(jì)算實(shí)例分段結(jié)果的網(wǎng)絡(luò)頭，以及

（c）利用訓(xùn)練損失函數(shù)對(duì)模型進(jìn)行優(yōu)化。

大多數(shù)實(shí)驗(yàn)都是基于頭部結(jié)構(gòu)的，如圖3所示。我們還利用不同的變體來進(jìn)一步研究通用性。我們注意到我們的實(shí)例分段頭有一個(gè)直接的結(jié)構(gòu)。更復(fù)雜的設(shè)計(jì)有可能提高性能，但不是這項(xiàng)工作的重點(diǎn)。

3.3. SOLO Learning

對(duì)于類別預(yù)測(cè)分支，網(wǎng)絡(luò)需要給出每個(gè)S×S網(wǎng)格的對(duì)象類別概率。具體來說，如果網(wǎng)格（i，j）落入任何地面真值掩模的中心區(qū)域，則它被視為正樣本，否則它是負(fù)樣本。中心采樣在最近的目標(biāo)檢測(cè)工作中是有效的[26，9]，在這里，我們也使用了類似的技術(shù)來分類掩模類別。

3.4. Inference

SOLO的推論非常直接。給定一幅輸入圖像，通過骨干網(wǎng)和FPN進(jìn)行轉(zhuǎn)發(fā)，得到網(wǎng)格（i，j）處的類別得分pi，j和相應(yīng)的掩碼mk，其中k=i·S+j，因?yàn)槲覀兺ǔ１３中兄黜樞?。我們首先使?.1的置信閾值來過濾低置信度的預(yù)測(cè)。然后，我們選擇500強(qiáng)評(píng)分口罩，并將其輸入NMS操作。為了將預(yù)測(cè)的軟掩碼轉(zhuǎn)換為二進(jìn)制掩碼，我們使用0.5的閾值對(duì)預(yù)測(cè)的軟掩碼進(jìn)行二進(jìn)制處理。我們保留前100個(gè)實(shí)例掩碼供評(píng)估。

Experiments

我們?cè)贛S-COCO實(shí)例分割軌道上給出實(shí)驗(yàn)結(jié)果[12]，并通過評(píng)估5k-val2017分割報(bào)告損傷和敏感性研究。對(duì)于我們的主要結(jié)果，我們?cè)趖est dev split上報(bào)告COCO mask AP，它沒有公共標(biāo)簽，在評(píng)估服務(wù)器上進(jìn)行評(píng)估。

訓(xùn)練細(xì)節(jié)

用隨機(jī)梯度下降（SGD）訓(xùn)練SOLO。我們使用同步SGD超過8個(gè)GPU，每個(gè)小批量總共16個(gè)圖像（每個(gè)GPU 2個(gè)圖像）。除非另有說明，否則所有模型都要經(jīng)過36個(gè)階段的訓(xùn)練，初始學(xué)習(xí)率為0.01，然后在第27個(gè)階段除以10，在第33個(gè)階段再除以10。重量衰減為0.0001，動(dòng)量為0.9。所有模型都由ImageNet預(yù)先訓(xùn)練的權(quán)重初始化。我們使用比例抖動(dòng)，其中較短的圖像側(cè)隨機(jī)采樣640至800像素。

4.1. Main Results

在mscoo測(cè)試設(shè)備表1中，我們比較了SOLO和最新的分段方法。SOLO結(jié)合ResNet-101實(shí)現(xiàn)了37.8%的mask AP，是mask R-CNN等現(xiàn)有兩階段實(shí)例分割方法中的最新技術(shù)。SOLO的性能優(yōu)于所有前一階段的方法，包括TensorMask[2]。利用DCN-101【4】主干，SOLO進(jìn)一步實(shí)現(xiàn)了40.4 AP，這比目前COCO實(shí)例分割任務(wù)中的主流方法要好得多。圖8顯示了SOLO的輸出。我們的研究表明，SOLO即使在困難的條件下也能取得好的成績(jī)。

4.2. How SOLO Works?

我們展示了S=12網(wǎng)格生成的網(wǎng)絡(luò)輸出（圖4）。子圖（i，j）表示對(duì)應(yīng)掩模通道（乙狀結(jié)腸之后）生成的軟掩模預(yù)測(cè)結(jié)果。這里我們可以看到不同的實(shí)例在不同的掩碼預(yù)測(cè)通道中激活。通過在不同位置顯式分割實(shí)例，SOLO將實(shí)例分割問題轉(zhuǎn)化為位置感知分類任務(wù)。

每個(gè)網(wǎng)格只激活一個(gè)實(shí)例，多個(gè)相鄰掩碼通道可以預(yù)測(cè)一個(gè)實(shí)例。在推理過程中，我們使用NMS來抑制這些冗余的掩碼。

4.3. Ablation Experiments

Grid number

我們將網(wǎng)格數(shù)對(duì)性能的影響與單輸出特征映射進(jìn)行比較，如表2所示。該特性是通過合并ResNet中的C3、C4和C5輸出（步長(zhǎng)：8）生成的。令我們驚訝的是，S=12已經(jīng)可以在具有挑戰(zhàn)性的MS-COCO數(shù)據(jù)集上達(dá)到27.2ap。SOLO將網(wǎng)格數(shù)提高到24時(shí)獲得29.0ap。這一結(jié)果表明，我們的單尺度獨(dú)奏可以適用于一些場(chǎng)景中的對(duì)象尺度變化不大。然而，單尺度模型在很大程度上落后于金字塔模型，說明了FPN在處理多尺度預(yù)測(cè)中的重要性。

Multi-level Prediction

從表2中我們可以看到，我們的單尺度獨(dú)奏在分割多尺度物體時(shí)遇到了困難。在這個(gè)融合過程中，我們證明了FPN的多層次預(yù)測(cè)可以在很大程度上解決這個(gè)問題[11]。從表2的融合開始，我們使用五個(gè)FPN金字塔分割不同尺度的物體（表3）。地面真值掩碼的比例被顯式地用于將它們指定給金字塔的級(jí)別。在多層次預(yù)測(cè)的基礎(chǔ)上，進(jìn)一步實(shí)現(xiàn)了35.8AP。如預(yù)期的那樣，總體上分割性能指標(biāo)有了很大的提高。 CoordConv

另一個(gè)有助于我們的SOLO范式的重要組成部分是空間變異卷積（CoordConv[14]）。如表4所示，標(biāo)準(zhǔn)卷積在一定程度上已經(jīng)具有空間變異特性，這與[14]中的觀察結(jié)果一致。當(dāng)通過級(jí)聯(lián)額外的坐標(biāo)通道使卷積訪問其自身的輸入坐標(biāo)時(shí)，我們的方法具有3.6的絕對(duì)AP gains。兩個(gè)或多個(gè)坐標(biāo)變換器不會(huì)帶來明顯的改善。這表明，單一的坐標(biāo)變換已經(jīng)使預(yù)測(cè)具有很好的空間變化/位置敏感性。

Loss function

表5比較了我們的掩模優(yōu)化分支的不同損失函數(shù)。這些方法包括傳統(tǒng)的Cross Entropy（BCE）、Focal Loss（FL）和Dice Loss（DL）。為了獲得更好的性能，對(duì)于二值交叉熵，我們將正樣本的掩模損失權(quán)重設(shè)置為10，像素權(quán)重設(shè)置為2。Focal Loss的掩模損失權(quán)重設(shè)置為20。如圖所示，Focal Loss比普通的二元交叉熵?fù)p失好得多。這是因?yàn)閷?shí)例掩碼的大部分像素都在背景中，而Focal Loss的設(shè)計(jì)是為了通過減少良好分類樣本的損失來緩解樣本不平衡問題。但是，Dice Loss在不需要手動(dòng)調(diào)整損失超參數(shù)的情況下達(dá)到最佳效果。Dice Loss將像素視為一個(gè)整體對(duì)象，可以自動(dòng)在前景和背景像素之間建立正確的平衡。注意，通過仔細(xì)調(diào)整平衡超參數(shù)和引入其他訓(xùn)練技巧，二元交叉熵和Focal Loss的結(jié)果可能會(huì)有很大的改善。然而，這里的要點(diǎn)是，隨著Dice Loss，訓(xùn)練通常變得更加穩(wěn)定，并且更有可能在不使用很多啟發(fā)式方法的情況下獲得良好的效果。

Alignment in the category branch

在類別預(yù)測(cè)分支中，我們必須將卷積特征與空間大小H×W到S×S相匹配。這里，我們比較了三種常用的實(shí)現(xiàn)方法：插值、自適應(yīng)池和區(qū)域網(wǎng)格插值。

?插值：直接雙線性插值到目標(biāo)網(wǎng)格大小；

?自適應(yīng)池：在H×W到S×S上應(yīng)用2D自適應(yīng)max池；

?區(qū)域網(wǎng)格插值：對(duì)于每個(gè)網(wǎng)格單元，我們使用基于密集采樣點(diǎn)的雙線性插值，并將結(jié)果聚合為平均值。

從我們的觀察來看，七個(gè)變量之間沒有明顯的性能差異（±0.1AP），表明校準(zhǔn)過程相當(dāng)靈活。

Different head depth

在SOLO中，實(shí)例分割被定義為一個(gè)像素到像素的任務(wù)，我們使用FCN來開發(fā)遮罩的空間布局。在圖5中，我們比較了工作中使用的不同頭部深度。將頭部深度從4更改為7將獲得1.2 AP增益。圖5中的結(jié)果表明，當(dāng)深度超過7時(shí)，性能變得穩(wěn)定。在本文中，我們?cè)谄渌麑?shí)驗(yàn)中使用深度為7。以往的工作（如掩模R-CNN）通常采用四個(gè)卷積層進(jìn)行掩模預(yù)測(cè)。在SOLO中，面罩是根據(jù)空間位置來調(diào)節(jié)的，我們只需將坐標(biāo)系附加到頭部的開始。面具頭部必須有足夠的表現(xiàn)力來學(xué)習(xí)這種轉(zhuǎn)換。對(duì)于語義范疇分支，由于S2 H×W，計(jì)算開銷可以忽略不計(jì)。

4.4. SOLO-512

我們還訓(xùn)練了一個(gè)更小版本的SOLO，旨在加速推理。我們使用的模型具有較小的輸入分辨率（較短的圖像大小為512而不是800）。其他訓(xùn)練和測(cè)試參數(shù)在SOLO-512和SOLO之間相同。

SOLO-512采用34.2mask AP，模型推理速度達(dá)到22.5fps，顯示了SOLO在實(shí)時(shí)實(shí)例分割應(yīng)用中的潛力。平均運(yùn)行5次，在一個(gè)V100 GPU上報(bào)告速度。

Decoupled SOLO

給定預(yù)先確定的柵格編號(hào)，例如S=20，我們的單頭輸出S2=400通道圖。然而，由于在大多數(shù)情況下對(duì)象在圖像中稀疏地定位，因此預(yù)測(cè)有點(diǎn)多余，因?yàn)樵趫D像中不太可能出現(xiàn)如此多的實(shí)例。在本節(jié)中，我們將進(jìn)一步介紹一種與vanillaSOLO相當(dāng)且更為有效的變體，稱為DecoupledSOLO，如圖7所示。

我們使用和vanillaSOLO相同的超參數(shù)進(jìn)行實(shí)驗(yàn)。如表7所示，DecoupledSOLO取得了與vanillaSOLO相同的性能。結(jié)果表明，在單聲道的精度上，DecoupledSOLO是一個(gè)有效的等效變量。注意，由于輸出空間大大減少，在訓(xùn)練和測(cè)試期間，DecoupledSOLO需要的GPU內(nèi)存大大減少。

Error Analysis

為了定量地理解用于掩模預(yù)測(cè)的SOLO，我們通過用地面真值替換預(yù)測(cè)的掩模來進(jìn)行誤差分析。對(duì)于每個(gè)預(yù)測(cè)的二值掩模，我們用地面真值掩模計(jì)算ios，并用最重疊的地面真值掩模替換它。如表8所示，如果我們將預(yù)測(cè)的掩蔽體替換為地面真實(shí)掩蔽體，則AP增加到68.1。這項(xiàng)實(shí)驗(yàn)表明，仍然有足夠的空間改進(jìn)掩模分支。我們期望更多的語義分割技術(shù)可以應(yīng)用到提高性能上。

SOLO for Instance Contour Detection

通過改變掩模分支的優(yōu)化目標(biāo)，我們的框架可以很容易地?cái)U(kuò)展到實(shí)例輪廓檢測(cè)。我們首先使用OpenCV的find courtos函數(shù)將MS-COCO中的地面真值掩模轉(zhuǎn)換為實(shí)例輪廓[25]，然后使用二值輪廓與語義類別分支并行優(yōu)化掩模分支。這里我們使用焦點(diǎn)損失來優(yōu)化輪廓檢測(cè)，其他設(shè)置與實(shí)例分割基線相同。圖6顯示了由我們的模型生成的一些輪廓檢測(cè)示例。我們提供這些結(jié)果作為SOLO可用于輪廓檢測(cè)的概念證明。

Conclusion

在這項(xiàng)工作中，我們開發(fā)了一個(gè)名為SOLO的直接實(shí)例分割框架，與事實(shí)上的實(shí)例分割方法Mask R-CNN相比，達(dá)到了競(jìng)爭(zhēng)性的準(zhǔn)確度。我們提出的模型是端到端可訓(xùn)練的，可以直接將原始輸入圖像映射到期望的實(shí)例掩碼，并且具有恒定的推理時(shí)間，消除了自底向上方法中的分組后處理或自頂向下方法中的包圍盒檢測(cè)和RoI操作的需要。通過引入“實(shí)例類別”的新概念，我們第一次能夠?qū)?shí)例掩碼預(yù)測(cè)重新格式化為一個(gè)非常簡(jiǎn)單的分類任務(wù)，使實(shí)例分割比所有當(dāng)前方法都簡(jiǎn)單得多。我們展示了兩個(gè)實(shí)例級(jí)的識(shí)別任務(wù)，即實(shí)例分割和實(shí)例輪廓檢測(cè)?？紤]到SOLO的簡(jiǎn)單性、靈活性和強(qiáng)大的性能，我們希望SOLO可以作為許多實(shí)例級(jí)識(shí)別任務(wù)的基礎(chǔ)。

總結(jié)

以上是生活随笔為你收集整理的SOLO: 按位置分割对象的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。