當前位置：首頁 >

Panoptic SegFormer：全景分割第一名！南大港大英伟达提出新算法，霸榜全景分割...

發布時間：2024/3/26 92 豆豆

生活随笔收集整理的這篇文章主要介紹了 Panoptic SegFormer：全景分割第一名！南大港大英伟达提出新算法，霸榜全景分割... 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

點擊下方卡片，關注3D視覺工坊公眾號

3D視覺干貨第一時間送達

今日分享論文『Panoptic SegFormer』全景分割第一名！由南大&港大&NVIDIA 聯合提出 Panoptic SegFormer，霸榜全景分割。

話不多說，先放Leadboard：

更多信息如下：

論文鏈接：https://arxiv.org/abs/2109.03814
項目鏈接：未開源

導言：

? ?在本文中，作者提出了一個用Transformer進行端到端的全景分割框架。該方法采用Deformable DETR結構，對things和stuff采用了統一的mask預測流程，使全景分割更加簡潔有效。使用ResNet-50主干網絡，本文的方法在COCO test-dev split上實現了50.0% PQ，大大超過了以前的SOTA方法。使用更強的PVTv2-B5主干網絡，Panoptic SegFormer在COCO test-dev split上實現了54.1% PQ?和54.4% PQ 的新記錄。

? ? ??01??? ??

Motivation

語義分割和實例分割是兩個重要且相關的視覺問題。作為這兩個任務的統一，他們的潛在聯系最近推動了全景分割。在全景分割中，圖像內容可分為things和stuff兩類。things是可計數的實例（例如，人、汽車和自行車），每個實例都有一個唯一的id來區別于其他實例。stuff是指非定形和不可數的區域（例如，天空，草原和雪），沒有實例id。

things和stuff之間的差異也導致了處理他們的不同預測方法。許多工作只是簡單地將全景分割分解為實例分割任務和語義分割任務。然而，這種分離的策略往往會增加模型的復雜性。一些工作進一步考慮了bottom-up（沒有proposal）的全景分割方法，但仍然保持類似的獨立策略。最近的一些方法試圖通過使用統一的框架處理things和stuff來簡化全景分割pipeline。這些方法大多采用雙分支結構，其中內核分支（kernel branch）編碼目標/區域信息，并與圖像級特征分支（image-level feature branch）動態地進行卷積以生成目標/區域mask。

近年來，視覺Transformer被廣泛應用于實例定位和識別任務中。視覺Transformer通常將輸入圖像分割為多個patch，并將其編碼為token。對于目標檢測任務，DETR和Deformable DETR都有一組可學習的query，用于預測邊界框，并與ground truth進行動態匹配。

在這項工作中，作者提出了Panoptic SegFormer，一個簡潔和有效的框架，端到端用Transformer進行全景分割。具體來說，Panoptic SegFormer包含三個關鍵的設計：

統一表示things和stuff的query集，其中stuff被視為只有單一實例id的特殊類型；
利用things和stuff的位置信息來提高分割質量的位置解碼器 ；
Mask后處理策略 ，合并things和stuff的分割結果。

受益于這三種設計，Panoptic SegFormer高效地實現了SOTA的全精分割任務的性能。（性能對比如上圖所示）

? ? ??02??? ??

方法

2.1.整體架構

模型的整體架構如上圖所示，Panoptic SegFormer由三個關鍵模塊組成：Transformer編碼器、位置解碼器和Mask解碼器。其中利用Transformer編碼器對主干提取的多尺度特征圖進行細化；利用位置解碼器捕捉物體的位置線索；Mask解碼器用于最終的分類和分割。

在前向階段，我們首先將圖像輸入到主干網絡，從最后三個階段獲得特征圖、、和，與輸入圖像相比，其分辨率分別為1/8、1/16和1/32。然后，通過全連接(FC)層將這三個特征投影到具有256個通道的特征中，并將它們flatten為特征token 、、和。、、和的維度分別為,,。

接下來，concat這些token作為Transformer編碼器的輸入，Transformer編碼器輸出的細化特征大小為。然后使用N個初始化的query來描述things和stuff，獲取position信息。最后使用mask-wise strategy來融合預測的mask，得到最終的分割結果。

2.2.Transformer編碼器

高分辨率和多尺度特征圖對于分割任務具有重要意義。由于多頭注意層的計算成本高，以往基于Transformer的方法只能在其編碼器中處理低分辨率的特征圖(如ResNet的C5)，這限制了分割性能。與這些方法不同，作者使用可變形的注意層（deformable attention）來實現Transformer編碼器。由于可變形注意層的計算復雜度較低，本文的編碼器可以拓展到高分辨率和多尺度特征圖F。

2.3.位置解碼器

在全景分割任務中，位置信息在區分具有不同實例id的things方面起著重要的作用。受此啟發，作者設計了一個位置解碼器，將things的位置信息（即中心位置和尺度）引入到可學習的query中。

具體來說，給定N個隨機初始化的query和由Transformer編碼器生成的細化的特征token，解碼器將輸出N個具有位置感知性的query。在訓練階段，作者在位置感知query的基礎上應用一個輔助的MLP頭來預測目標對象的尺度和中心位置，并使用位置損失來監督預測。MLP頭是一個輔助分支，可以在推理階段被丟棄。由于位置解碼器不需要預測分割mask，因此作者用計算和內存更高效的可變形注意（deformable attention）來實現。

2.4.Mask解碼器

Mask解碼器，可以根據給定的query來預測對象的類別和Mask。Mask解碼器的query Q是來自位置解碼器的位置感知query，Mask解碼器的key K和value V是來自Transformer編碼器的細化特征token F。作者首先將query通過4個解碼器層，然后從最后一個解碼器層獲取注意力映射和細化的query ，其中N為query數量，h為多頭注意層的head數量，為特征token F的長度。

與之前的方法類似，作者直接通過最后一個解碼器層的細化query 之上的FC層執行分類。同時，為了預測物體mask，作者將注意力圖A split并reshape為注意圖，如下所示：

然后，將這些attention map上采樣到H/8×W/8的分辨率，并沿著通道維度concat它們，如下所示：

最后，基于融合注意圖，通過1×1卷積來預測二進制mask。這里的attention作者沒有使用deformable attention，而是采用了Transformer中的multi-head attention。

2.5.損失函數

訓練過程中，訓練目標是使得預測結果和ground-truth 盡可能相似，其中，ground truth 用進行pad，使之維度與相同。具體來說，作者利用Hungarian算法搜索具有最小匹配cost的排列σ。

Panoptic SegFormer的整體損失函數可以表示為：

位置損失計算如下：

其中是 L1 loss。σ和σ是從位置解碼器預測的中心點和尺度大小。和分別表示目標mask 的中心位置和尺度大小。

2.6.Mask-Wise Inference

全景分割要求為每個像素分配一個類別標簽（或空）和實例id（對于stuff忽略id）。一種常用的后處理方法是采用類似NMS的過程為things生成不重疊的實例segments，作者稱之為mask-wise strategy。這種啟發式過程還對stuff使用像素級的argmax策略，并解決stuff和things之間的重疊，從而有利于stuff類。

本文提出的mask-wise strategy算法如上圖所示。mask合并策略以c、s和m作為輸入，分別表示預測的類別、置信度分數和分割mask。輸出為一個語義mask 和一個實例id mask ，為每個像素分配一個類別標簽和一個實例id。和首先用0初始化。

然后，將預測結果按置信分數降序排序，并將排序后的預測mask填充到和。置信度分數低于的結果將被丟棄，較低的置信度重疊部分將會被移除，從而來生成無重疊的全景分割結果。最后，添加類別標簽和實例Id（僅對于things）。

? ? ??03??? ??

實驗

Panoptic segmentation

上表為全景分割COCO val set的實驗結果。

上表為全景分割COCO ?test-dev set的實驗結果。

可以看出，本文方法與SOTA方法相比，具有明顯的性能優勢。

上圖為全景分割的一些可視化結果。

Instance segmentation

上表為本文方法和SOTA方法在實例分割上的結果，同樣具有明顯的性能優勢。

Visualization of attention maps

上圖為mask解碼器中多頭注意圖及其相應的輸出的可視化結果。我們觀察到，一些head注意前景區域，一些head更關注邊界，而另一些head更關注背景區域。這表明，每個mask都是通過考慮圖像中的各種綜合信息而生成的。

Complexity of Panoptic SegFormer

上表展示了模型的復雜性和推理效率，我們可以看到Panoptic SegFormer在可接受的推理速度上，在全景分割任務上達到SOTA的性能。

? ? ??04??? ??

總結

在本文中，作者提出了Panoptic SegFormer，統一了things和stuff的處理流程。Panoptic SegFormer可以超越以前的SOTA方法，并證明了用相同的方式處理things和stuff的優越性。相比于其他全景分割框架，Panoptic SegFormer主要有以下三個設計的創新點：（1）統一表示things和stuff的query集 ；（2）利用things和stuff的位置信息來提高分割質量的位置解碼器 ；（3）用于合并things和stuff的分割結果的Mask后處理策略 。

作者介紹

研究領域：FightingCV公眾號運營者，研究方向為多模態內容理解，專注于解決視覺模態和語言模態相結合的任務，促進Vision-Language模型的實地應用。

知乎/公眾號：FightingCV

本文僅做學術分享，如有侵權，請聯系刪文。

下載1

在「3D視覺工坊」公眾號后臺回復：3D視覺，即可下載 3D視覺相關資料干貨，涉及相機標定、三維重建、立體視覺、SLAM、深度學習、點云后處理、多視圖幾何等方向。

下載2

在「3D視覺工坊」公眾號后臺回復：3D視覺github資源匯總，即可下載包括結構光、標定源碼、缺陷檢測源碼、深度估計與深度補全源碼、點云處理相關源碼、立體匹配源碼、單目、雙目3D檢測、基于點云的3D檢測、6D姿態估計匯總等。

下載3

在「3D視覺工坊」公眾號后臺回復：相機標定，即可下載獨家相機標定學習課件與視頻網址；后臺回復：立體匹配，即可下載獨家立體匹配學習課件與視頻網址。

重磅！3DCVer-學術論文寫作投稿?交流群已成立

掃碼添加小助手微信，可申請加入3D視覺工坊-學術論文寫作與投稿?微信交流群，旨在交流頂會、頂刊、SCI、EI等寫作與投稿事宜。

同時也可申請加入我們的細分方向交流群，目前主要有3D視覺、CV&深度學習、SLAM、三維重建、點云后處理、自動駕駛、多傳感器融合、CV入門、三維測量、VR/AR、3D人臉識別、醫療影像、缺陷檢測、行人重識別、目標跟蹤、視覺產品落地、視覺競賽、車牌識別、硬件選型、學術交流、求職交流、ORB-SLAM系列源碼交流、深度估計等微信群。

一定要備注：研究方向+學校/公司+昵稱，例如：”3D視覺?+ 上海交大 + 靜靜“。請按照格式備注，可快速被通過且邀請進群。原創投稿也請聯系。

▲長按加微信群或投稿

▲長按關注公眾號

3D視覺從入門到精通知識星球：針對3D視覺領域的視頻課程（三維重建系列三維點云系列結構光系列、手眼標定、相機標定、orb-slam3知識點匯總、入門進階學習路線、最新paper分享、疑問解答五個方面進行深耕，更有各類大廠的算法工程人員進行技術指導。與此同時，星球將聯合知名企業發布3D視覺相關算法開發崗位以及項目對接信息，打造成集技術與就業為一體的鐵桿粉絲聚集區，近2000星球成員為創造更好的AI世界共同進步，知識星球入口：

學習3D視覺核心技術，掃描查看介紹，3天內無條件退款

?圈里有高質量教程資料、可答疑解惑、助你高效解決問題

覺得有用，麻煩給個贊和在看~??

總結

以上是生活随笔為你收集整理的Panoptic SegFormer：全景分割第一名！南大港大英伟达提出新算法，霸榜全景分割...的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：查询空气质量实时数据的API
下一篇： PS怎么做出写生线性素描艺术画效果