當前位置：首頁 > 人文社科 > 生活经验 >内容正文

生活经验

细粒度语义分割：ICCV2019论文解析

發布時間：2023/11/28 生活经验 31 豆豆

生活随笔收集整理的這篇文章主要介紹了细粒度语义分割：ICCV2019论文解析小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

細粒度語義分割：ICCV2019論文解析

Fine-Grained Segmentation Networks:
Self-Supervised Segmentation for Improved Long-Term Visual Localization

論文鏈接：

http://openaccess.thecvf.com/content_ICCV_2019/papers/Larsson_Fine-Grained_Segmentation_Networks_Self-Supervised_Segmentation_for_Improved_Long-Term_Visual_Localization_ICCV_2019_paper.pdf

摘要

長期的視覺定位是在一個場景中估計給定的查詢圖像的相機姿態，該場景的外觀隨時間而變化。這是一個重要的問題，在實踐中，例如，遇到的自主駕駛。為了獲得對這種變化的魯棒性，長期定位方法通常使用分段作為不變的場景表示，因為每個場景部分的語義不受季節性變化和其他變化的影響。然而，由于可用類的數量有限，這些表示通常不是非常有區別的。本文提出了一種新的神經網絡，即細粒度分割網絡（FGSN），它可以提供大量的標簽，并能以自監督的方式進行訓練。此外，我們還展示了如何訓練FGSNs在季節變化中輸出一致的標簽。我們通過大量實驗證明，將我們的FGSNs產生的細粒度分段集成到現有的定位算法中可以顯著提高定位性能。

Introduction

具體而言，本文的貢獻如下：

1）
提出了一種新的基于聚類索引的高密度分割網絡FGSN。這消除了對人工定義類的需求，并允許我們通過自我監督學習以數據驅動的方式定義類。使用2D-2D對應數據集[42]進行訓練，我們確保我們的課程在季節性和視點變化下是穩定的。我們方法的源代碼是公開的。

2） fgsn允許我們創建更多類的內部分段。我們表明，這對語義視覺定位算法有積極的影響，并且當使用現有的定位方法時，可以帶來實質性的改進。

3）
我們進行了詳細的實驗來研究聚類數目對多個視覺定位算法的影響。此外，我們還比較了兩種類型的權重初始化，分別使用預先訓練好的網絡進行語義分割和圖像分類。

Related Work

Semantic Segmentation

語義分割是為輸入圖像中的每個像素指定一個類標簽的任務?，F代方法使用完全卷積網絡[47]，可能預先訓練分類[47]，同時結合更高層次的背景[99]，擴大接受域[17，19，92]，或融合多尺度特征[18，66]。另一項工作是將fcn與概率圖形模型相結合，例如，以后處理步驟[17]的形式，或作為端到端可訓練網絡中的可微組件[41,46100]。

(Semantic) Visual Localization

本文研究了基于語義分割的第二類方法[4,21,28,78,80,83,85,86,94]。這些方法使用語義圖像分割來獲得對外觀和（中等）幾何變化不變的場景表示。由于通常可用的類很少，因此得到的表示不是很有區別性。因此，語義定位方法使用語義作為僅次于3D信息的第二感知模態[21,78,83,85,86]。本文證明了這種方法所使用的圖像分割不一定需要語義。相反，我們表明，這些方法得益于我們的fgsn產生的更細粒度分段和更多類。

Domain Adaption

語義定位算法隱式地假設語義分割對光照、視點、季節性等變化具有魯棒性。實際上，用于語義分割的cnn通常只有在訓練集中反映這些條件的情況下才能在不同的條件下表現良好。然而，為大型圖像集創建像素級注釋是一項耗時的任務。因此，域自適應方法[27,40,48,49,68,88101]考慮了將在一個域上訓練的算法應用于新域的問題，在新域中幾乎沒有標記數據可用。這使得對合成數據集進行訓練[65,67]以提高真實圖像的性能[33,70102]成為可能。此外，網絡在不同天氣和光照條件下拍攝的圖像上的性能也可以提高[90,91]。在語義圖像分割中，這些方法提高了分割的魯棒性。但是，它們不會增加可用類的數量，因此是對我們方法的補充。為了同樣的目的，我們使用了最近提出的對應數據集[42]，以確保我們的分割對光照和季節變化具有魯棒性。

Self-Supervised Learning

自監督學習方法是無監督學習方法的一種變體，其中模型學習預測一組可從輸入數據自動創建的標簽。有幾種方法訓練CNN執行特定領域的輔助任務[25,56,61,97]。任務的一些例子包括預測丟失的圖像部分[60]、自我運動[1]和圖像的旋轉[30]。為了解決這些輔助任務，CNNs需要學習有意義的視覺特征，這些特征也可以用于手頭的實際任務。在[15]中，Caron等人。訓練CNN使用k-均值圖像特征聚類獲得的標簽進行圖像級分類。我們將此方法擴展到訓練圖像分割網絡。我們還顯式地使用實際的集群或標簽進行可視化本地化。這與[15]不同，在[15]中，集群只是學習分類等任務特性的一種手段。

Fine-Grained Segmentation Networks

細粒度分割網絡（FGSN）與用于語義分割的標準CNN具有相同的結構。給定輸入圖像，生成密集的分割圖。但是，標簽不是在一組手動創建的注釋上訓練的，而是以自監督的方式創建的。在訓練過程中，在一定的時間間隔內，從訓練集中的圖像中提取特征，并使用k-均值聚類進行聚類。然后，在訓練期間，將每個像素一個的簇分配用作監督，即作為標簽。這樣，我們就可以更改FGSN輸出的類的數量，而無需使用新的類集創建注釋。FGSN被訓練為為每個像素輸出正確的標簽。在訓練過程中，我們還使用了一組2D-2D點對應關系[42]，以確保預測在季節變化和視點變化下是穩定的。對應數據集的每個樣本都包含從不同的遍歷中獲取的同一場景的兩個圖像，因此在不同的季節或天氣條件下。每對圖像中的一幅總是來自參考導線，在有利的天氣條件下拍攝。在描繪相同3D點的圖像中的點之間的2D-2D點對應也可用于每個圖像對。鼓勵網絡對每個對應的兩個點進行同一類預測，使輸出對季節變化具有魯棒性。圖2示出了訓練過程。注意，創建對應數據集的過程要比用語義標簽手工標記相同的圖像簡單得多，詳見[42]。

Training Loss

我們的訓練損失包括兩部分，通信部分Lcorr和集群分類部分Lclass。后者鼓勵模型為數據集的參考圖像中的每個像素輸出正確的標簽。我們使用一個標準的交叉熵損失作為目標。最終的Lclass是所有樣品的平均值。

Semantic Visual Localization

為此，我們計算規范化互信息（NMI）來度量Cityscapes[22]驗證集中的集群分配和注釋語義標簽之間的共享信息。將集群分配表示為X，語義標簽分配表示為Y，規范化的互信息由

其中I是互信息，H是熵。如果X和Y是獨立的，NMI（X；Y）=0。如果其中一個任務可以從另一個任務中預測，那么X傳遞的所有信息將與Y共享，并且NMI（X；Y）=1。

表1顯示我們網絡的NMI。正如預期的那樣，與為分類而預先訓練的網絡相比，為語義分割而預先訓練的網絡實現了更高的NMI。直觀地說，集群應該包含可用于本地化的語義信息。然而，高的NMI并不一定意味著更好的本地化性能。例如，在house和sky之間的邊緣包含像素的集群將減少集群分配和語義類之間的NMI，但是對于本地化是有用的。

圖3顯示了在具有語義分割初始化的CMU上訓練的網絡的城市景觀類和我們的聚類索引之間的列聯表。每個列聯表通過形成二維直方圖來顯示同一數據的兩組賦值之間的相互關系，其中每個維度對應于其中一個賦值。在我們的例子中，維度分別對應于語義類標簽和集群索引。可以看到，有許多聚類索引被分配給與語義類植被相同的像素。由于CMU圖像包含大量的植被，這是預期的，并可能導致更多的信息可用于圖像的本地化。從20個簇的網絡列聯表可以看出，索引為19的簇與幾個語義類重疊。這意味著許多像素被分配給這個集群，這表明語義信息丟失了。這也反映在NMI（表1）
，這對于20個群集網絡來說要比使用更多群集的網絡要低。

Experiments

圖3還示出許多簇不直接對應于語義類。這表明fgsn偏離了用于初始化它們的預先訓練的網絡。

表2顯示了RobotCar和CMU數據集的實驗結果?？梢钥闯?#xff0c;使用經過20多個簇訓練的FGSNs可以提高定位性能。特別是在具有挑戰性的條件下，例如在RobotCar和Suburban上過夜，在CMU上停車，與語義分割相比，所獲得的改進是相當可觀的。當然，使用過多的聚類會導致圖像的過分割，從而降低SSMC的定位精度。實驗清楚地表明，SSMC從使用細粒度分段中獲益，盡管聚類未必與標準語義概念對應。

根據表2，添加額外的數據集會降低性能，這很可能是因為必須重新實現網絡才能產生結果。

如表3所示，如我們的FGSNs所提供的那樣，使用帶有更多標簽的分段，提高了本地化性能，縮小了與當前最新技術的性能差距。這些結果清楚地驗證了FGSNs背后的動機：使用更多的分割標簽來創建更具區分性但仍然健壯的語義視覺定位表示。

Conclusions

在本文中，我們提出了一種新的卷積神經網絡（FGSN），它輸出密集的細粒度分割。利用k-means聚類，我們可以利用圖像特征的聚類分配作為標簽，以自監督的方式訓練FGSNs。這使我們能夠使用任意多個輸出類，而不必手動創建注釋。此外，我們還使用了2D-2D對應數據集[42]，以確保類在季節變化和視點變化下是穩定的。通過大量的實驗，我們已經證明，使用更多的細粒度分割，如我們的FGSNs，有利于語義視覺定位的任務。

未來的重要方向包括進一步調整視覺定位方法以適應更多的簇，以確保正確使用輸出分段的增加的細節級別。此外，有興趣進一步研究FGSNs的泛化，例如結合域自適應方法。

總結

以上是生活随笔為你收集整理的细粒度语义分割：ICCV2019论文解析的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：目标形体形状轮廓重建：ICCV2019论
下一篇：深度学习扫地机器人