Panoptic SegFormer:全景分割第一名!南大港大英伟达提出新算法,霸榜全景分割...
點擊下方卡片,關(guān)注3D視覺工坊公眾號
3D視覺干貨第一時間送達
今日分享論文『Panoptic SegFormer』全景分割第一名!由南大&港大&NVIDIA 聯(lián)合提出 Panoptic SegFormer,霸榜全景分割。
話不多說,先放Leadboard:
更多信息如下:
論文鏈接:https://arxiv.org/abs/2109.03814
項目鏈接:未開源
導(dǎo)言:
? ?在本文中,作者提出了一個用Transformer進行端到端的全景分割框架。該方法采用Deformable DETR結(jié)構(gòu),對things和stuff采用了統(tǒng)一的mask預(yù)測流程,使全景分割更加簡潔有效。使用ResNet-50主干網(wǎng)絡(luò),本文的方法在COCO test-dev split上實現(xiàn)了50.0% PQ,大大超過了以前的SOTA方法。使用更強的PVTv2-B5主干網(wǎng)絡(luò),Panoptic SegFormer在COCO test-dev split上實現(xiàn)了54.1% PQ?和54.4% PQ 的新記錄。
? ? ??01??? ??
Motivation
語義分割和實例分割是兩個重要且相關(guān)的視覺問題。作為這兩個任務(wù)的統(tǒng)一,他們的潛在聯(lián)系最近推動了全景分割。在全景分割中,圖像內(nèi)容可分為things和stuff兩類。things是可計數(shù)的實例(例如,人、汽車和自行車),每個實例都有一個唯一的id來區(qū)別于其他實例。stuff是指非定形和不可數(shù)的區(qū)域(例如,天空,草原和雪),沒有實例id。
things和stuff之間的差異也導(dǎo)致了處理他們的不同預(yù)測方法。許多工作只是簡單地將全景分割分解為實例分割任務(wù)和語義分割任務(wù)。然而,這種分離的策略往往會增加模型的復(fù)雜性。一些工作進一步考慮了bottom-up(沒有proposal)的全景分割方法,但仍然保持類似的獨立策略。最近的一些方法試圖通過使用統(tǒng)一的框架處理things和stuff來簡化全景分割pipeline。這些方法大多采用雙分支結(jié)構(gòu),其中內(nèi)核分支(kernel branch)編碼目標/區(qū)域信息,并與圖像級特征分支(image-level feature branch)動態(tài)地進行卷積以生成目標/區(qū)域mask。
近年來,視覺Transformer被廣泛應(yīng)用于實例定位和識別任務(wù)中。視覺Transformer通常將輸入圖像分割為多個patch,并將其編碼為token。對于目標檢測任務(wù),DETR和Deformable DETR都有一組可學習的query,用于預(yù)測邊界框,并與ground truth進行動態(tài)匹配。
在這項工作中,作者提出了Panoptic SegFormer,一個簡潔和有效的框架,端到端用Transformer進行全景分割。具體來說,Panoptic SegFormer包含三個關(guān)鍵的設(shè)計:
統(tǒng)一表示things和stuff的query集 ,其中stuff被視為只有單一實例id的特殊類型;
利用things和stuff的位置信息來提高分割質(zhì)量的位置解碼器 ;
Mask后處理策略 ,合并things和stuff的分割結(jié)果。
受益于這三種設(shè)計,Panoptic SegFormer高效地實現(xiàn)了SOTA的全精分割任務(wù)的性能。(性能對比如上圖所示)
? ? ??02??? ??
方法
2.1.整體架構(gòu)
模型的整體架構(gòu)如上圖所示,Panoptic SegFormer由三個關(guān)鍵模塊組成:Transformer編碼器、位置解碼器和Mask解碼器。其中利用Transformer編碼器對主干提取的多尺度特征圖進行細化;利用位置解碼器捕捉物體的位置線索;Mask解碼器用于最終的分類和分割。
在前向階段,我們首先將圖像輸入到主干網(wǎng)絡(luò),從最后三個階段獲得特征圖、、和,與輸入圖像相比,其分辨率分別為1/8、1/16和1/32。然后,通過全連接(FC)層將這三個特征投影到具有256個通道的特征中,并將它們flatten為特征token 、、和。、、和的維度分別為,,。
接下來,concat這些token作為Transformer編碼器的輸入,Transformer編碼器輸出的細化特征大小為。然后使用N個初始化的query來描述things和stuff,獲取position信息。最后使用mask-wise strategy來融合預(yù)測的mask,得到最終的分割結(jié)果。
2.2.Transformer編碼器
高分辨率和多尺度特征圖對于分割任務(wù)具有重要意義。由于多頭注意層的計算成本高,以往基于Transformer的方法只能在其編碼器中處理低分辨率的特征圖(如ResNet的C5),這限制了分割性能。與這些方法不同,作者使用可變形的注意層(deformable attention)來實現(xiàn)Transformer編碼器。由于可變形注意層的計算復(fù)雜度較低,本文的編碼器可以拓展到高分辨率和多尺度特征圖F。
2.3.位置解碼器
在全景分割任務(wù)中,位置信息在區(qū)分具有不同實例id的things方面起著重要的作用。受此啟發(fā),作者設(shè)計了一個位置解碼器,將things的位置信息(即中心位置和尺度)引入到可學習的query中。
具體來說,給定N個隨機初始化的query和由Transformer編碼器生成的細化的特征token,解碼器將輸出N個具有位置感知性的query。在訓練階段,作者在位置感知query的基礎(chǔ)上應(yīng)用一個輔助的MLP頭來預(yù)測目標對象的尺度和中心位置,并使用位置損失來監(jiān)督預(yù)測。MLP頭是一個輔助分支,可以在推理階段被丟棄。由于位置解碼器不需要預(yù)測分割mask,因此作者用計算和內(nèi)存更高效的可變形注意(deformable attention)來實現(xiàn)。
2.4.Mask解碼器
Mask解碼器,可以根據(jù)給定的query來預(yù)測對象的類別和Mask。Mask解碼器的query Q是來自位置解碼器的位置感知query,Mask解碼器的key K和value V是來自Transformer編碼器的細化特征token F。作者首先將query通過4個解碼器層,然后從最后一個解碼器層獲取注意力映射和細化的query ,其中N為query數(shù)量,h為多頭注意層的head數(shù)量,為特征token F的長度。
與之前的方法類似,作者直接通過最后一個解碼器層的細化query 之上的FC層執(zhí)行分類。同時,為了預(yù)測物體mask,作者將注意力圖A split并reshape為注意圖,如下所示:
然后,將這些attention map上采樣到H/8×W/8的分辨率,并沿著通道維度concat它們,如下所示:
最后,基于融合注意圖,通過1×1卷積來預(yù)測二進制mask。這里的attention作者沒有使用deformable attention,而是采用了Transformer中的multi-head attention。
2.5.損失函數(shù)
訓練過程中,訓練目標是使得預(yù)測結(jié)果和ground-truth 盡可能相似,其中,ground truth 用進行pad,使之維度與相同。具體來說,作者利用Hungarian算法搜索具有最小匹配cost的排列σ。
Panoptic SegFormer的整體損失函數(shù)可以表示為:
位置損失計算如下:
其中是 L1 loss。σ和σ是從位置解碼器預(yù)測的中心點和尺度大小。和分別表示目標mask 的中心位置和尺度大小。
2.6.Mask-Wise Inference
全景分割要求為每個像素分配一個類別標簽(或空)和實例id(對于stuff忽略id)。一種常用的后處理方法是采用類似NMS的過程為things生成不重疊的實例segments,作者稱之為mask-wise strategy。這種啟發(fā)式過程還對stuff使用像素級的argmax策略,并解決stuff和things之間的重疊,從而有利于stuff類。
本文提出的mask-wise strategy算法如上圖所示。mask合并策略以c、s和m作為輸入,分別表示預(yù)測的類別、置信度分數(shù)和分割mask。輸出為一個語義mask 和一個實例id mask ,為每個像素分配一個類別標簽和一個實例id。和首先用0初始化。
然后,將預(yù)測結(jié)果按置信分數(shù)降序排序,并將排序后的預(yù)測mask填充到 和。置信度分數(shù)低于的結(jié)果將被丟棄,較低的置信度重疊部分將會被移除,從而來生成無重疊的全景分割結(jié)果。最后,添加類別標簽和實例Id(僅對于things)。
? ? ??03??? ??
實驗
Panoptic segmentation
上表為全景分割COCO val set的實驗結(jié)果。
上表為全景分割COCO ?test-dev set的實驗結(jié)果。
可以看出,本文方法與SOTA方法相比,具有明顯的性能優(yōu)勢。
上圖為全景分割的一些可視化結(jié)果。
Instance segmentation
上表為本文方法和SOTA方法在實例分割上的結(jié)果,同樣具有明顯的性能優(yōu)勢。
Visualization of attention maps
上圖為mask解碼器中多頭注意圖及其相應(yīng)的輸出的可視化結(jié)果。我們觀察到,一些head注意前景區(qū)域,一些head更關(guān)注邊界,而另一些head更關(guān)注背景區(qū)域。這表明,每個mask都是通過考慮圖像中的各種綜合信息而生成的。
Complexity of Panoptic SegFormer
上表展示了模型的復(fù)雜性和推理效率,我們可以看到Panoptic SegFormer在可接受的推理速度上,在全景分割任務(wù)上達到SOTA的性能。
? ? ??04??? ??
總結(jié)
在本文中,作者提出了Panoptic SegFormer,統(tǒng)一了things和stuff的處理流程。Panoptic SegFormer可以超越以前的SOTA方法,并證明了用相同的方式處理things和stuff的優(yōu)越性。相比于其他全景分割框架,Panoptic SegFormer主要有以下三個設(shè)計的創(chuàng)新點:(1)統(tǒng)一表示things和stuff的query集 ;(2)利用things和stuff的位置信息來提高分割質(zhì)量的位置解碼器 ;(3)用于合并things和stuff的分割結(jié)果的Mask后處理策略 。
作者介紹
研究領(lǐng)域:FightingCV公眾號運營者,研究方向為多模態(tài)內(nèi)容理解,專注于解決視覺模態(tài)和語言模態(tài)相結(jié)合的任務(wù),促進Vision-Language模型的實地應(yīng)用。
知乎/公眾號:FightingCV
本文僅做學術(shù)分享,如有侵權(quán),請聯(lián)系刪文。
下載1
在「3D視覺工坊」公眾號后臺回復(fù):3D視覺,即可下載 3D視覺相關(guān)資料干貨,涉及相機標定、三維重建、立體視覺、SLAM、深度學習、點云后處理、多視圖幾何等方向。
下載2
在「3D視覺工坊」公眾號后臺回復(fù):3D視覺github資源匯總,即可下載包括結(jié)構(gòu)光、標定源碼、缺陷檢測源碼、深度估計與深度補全源碼、點云處理相關(guān)源碼、立體匹配源碼、單目、雙目3D檢測、基于點云的3D檢測、6D姿態(tài)估計匯總等。
下載3
在「3D視覺工坊」公眾號后臺回復(fù):相機標定,即可下載獨家相機標定學習課件與視頻網(wǎng)址;后臺回復(fù):立體匹配,即可下載獨家立體匹配學習課件與視頻網(wǎng)址。
重磅!3DCVer-學術(shù)論文寫作投稿?交流群已成立
掃碼添加小助手微信,可申請加入3D視覺工坊-學術(shù)論文寫作與投稿?微信交流群,旨在交流頂會、頂刊、SCI、EI等寫作與投稿事宜。
同時也可申請加入我們的細分方向交流群,目前主要有3D視覺、CV&深度學習、SLAM、三維重建、點云后處理、自動駕駛、多傳感器融合、CV入門、三維測量、VR/AR、3D人臉識別、醫(yī)療影像、缺陷檢測、行人重識別、目標跟蹤、視覺產(chǎn)品落地、視覺競賽、車牌識別、硬件選型、學術(shù)交流、求職交流、ORB-SLAM系列源碼交流、深度估計等微信群。
一定要備注:研究方向+學校/公司+昵稱,例如:”3D視覺?+ 上海交大 + 靜靜“。請按照格式備注,可快速被通過且邀請進群。原創(chuàng)投稿也請聯(lián)系。
▲長按加微信群或投稿
▲長按關(guān)注公眾號
3D視覺從入門到精通知識星球:針對3D視覺領(lǐng)域的視頻課程(三維重建系列三維點云系列結(jié)構(gòu)光系列、手眼標定、相機標定、orb-slam3知識點匯總、入門進階學習路線、最新paper分享、疑問解答五個方面進行深耕,更有各類大廠的算法工程人員進行技術(shù)指導(dǎo)。與此同時,星球?qū)⒙?lián)合知名企業(yè)發(fā)布3D視覺相關(guān)算法開發(fā)崗位以及項目對接信息,打造成集技術(shù)與就業(yè)為一體的鐵桿粉絲聚集區(qū),近2000星球成員為創(chuàng)造更好的AI世界共同進步,知識星球入口:
學習3D視覺核心技術(shù),掃描查看介紹,3天內(nèi)無條件退款
?圈里有高質(zhì)量教程資料、可答疑解惑、助你高效解決問題
覺得有用,麻煩給個贊和在看~??
總結(jié)
以上是生活随笔為你收集整理的Panoptic SegFormer:全景分割第一名!南大港大英伟达提出新算法,霸榜全景分割...的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 查询空气质量实时数据的API
- 下一篇: PS怎么做出写生线性素描艺术画效果