當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

CVPR 2021 | 双图层实例分割，大幅提升遮挡处理性能

發布時間：2024/10/8 编程问答 51 豆豆

生活随笔收集整理的這篇文章主要介紹了 CVPR 2021 | 双图层实例分割，大幅提升遮挡处理性能小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

”

雙圖層實例分割

物體的互相遮擋在日常生活中普遍存在，嚴重的遮擋易帶來易混淆的遮擋邊界及非連續自然的物體形狀，從而導致當前已有的檢測及分割等的算法性能大幅下降。本文通過將圖像建模為兩個重疊圖層，為網絡引入物體間的遮擋與被遮擋關系，從而提出了一個輕量級的能有效處理遮擋的實例分割算法。

”

論文地址｜ https://arxiv.org/pdf/2103.12340.pdf

論文代碼｜https://github.com/lkeab/BCNet

摘要

由于物體的真實輪廓和遮擋邊界之間通常沒有區別，對高度重疊的對象進行分割是非常具有挑戰性的。與之前的自頂向下的實例分割方法不同，本文提出遮擋感知下的雙圖層實例分割網絡BCNet，將圖像中的感興趣區域（Region of Interest，RoI）建模為兩個重疊圖層，其中頂部圖層檢測遮擋對象，而底圖層推理被部分遮擋的目標物體。雙圖層結構的顯式建模自然地將遮擋和被遮擋物體的邊界解耦，并在Mask預測的同時考慮遮擋關系的相互影響。作者在具有不同主干和網絡層選擇的One-stage和Two-stage目標檢測器上驗證了雙層解耦的效果，顯著改善了現有圖像實例分割模型在處理復雜遮擋物體的表現，并在COCO和KINS數據集上均取得總體性能的大幅提升。

背景

實例分割（Instance Segmentation）是圖像及視頻場景理解的基礎任務，該任務將物體檢測與語義分割有機結合，不僅需要預測出輸入圖像的每一個像素點是否屬于物體，還需將不同的物體所包含的像素點區分開。目前，實例分割技術已經大規模地應用在短視頻編輯、視頻會議、醫學影像、自動駕駛等領域中, 下圖展示了在自動駕駛場景下其對周邊車輛的位置感知：

自動駕駛 - 車輛識別與感知

問題

以Mask R-CNN為代表的實例分割方法通常遵循先檢測再分割（Detect-then-segment）的范例，即先獲取感興趣目標檢測框，然后對區域內的像素進行Mask預測，在COCO數據集取得了領先性能并在工業界得到廣泛應用。我們注意到大多數后續改進算法如PANet、HTC、BlendMask、CenterMask等均著重于設計更好的網絡骨干（Backbone）、高低層特征的融合機制或級聯結構（Cascade Structure），而忽視了掩膜預測分支（Mask Regression Head）的作用。同時，如圖1所示的重疊人群，大面積的實例分割錯誤都是由于同一感興趣區域（RoI）中包含的重疊物體混淆了不同物體的真實輪廓，特別是當遮擋和被遮擋目標都屬于相同類別或紋理顏色相似。

圖1 高度遮擋下的實例分割結果對比

成果

近日，香港科技大學聯合快手對圖像實例分割當下性能瓶頸進行了深入剖析，該研究通過將圖像中感興趣區域（RoI）建模為兩個重疊圖層（如圖2示），并提出遮擋感知下的雙圖層實例分割網絡BCNet，頂層GCN層檢測遮擋對象，底層GCN層推理被部分遮擋的目標物體，通過顯式建模自然地將遮擋和被遮擋物體的邊界解耦，并在mask預測的同時考慮遮擋關系的相互影響，顯著改善了現有實例分割模型在處理復雜遮擋物體時的表現，在COCO和KINS數據集上均取得領先性能。

圖2 遮擋物和被遮擋物的雙圖層分解示意簡圖

意義

物體互相遮擋在日常生活中普遍存在，嚴重的遮擋會帶來易混淆的遮擋邊界及非連續自然的物體形狀，從而導致當前已有的檢測及分割等的算法的性能大幅下降。該研究系統提出了一個輕量級且能有效處理遮擋的實例分割算法，在工業界也具有極大意義。隨著短視頻作為主要信息傳播媒介不斷滲透進日常生活，在實際的物體分割應用場景中，分割的準確性直接影響著用戶的使用體驗和產品觀感。因此，如何將實例分割技術應用在復雜的日常應用場景并保持高精度，此項研究給出了一個合理、有效的解決方案。

BCNet的結構框架

整個分割系統分為兩個部分，物體檢測部分和物體分割部分，算法流程如下圖：

圖3 BCNet的網絡結構

?輸入單張圖像，使用基于Faster R-CNN或者FCOS的物體檢測算法預測感興趣目標區域（RoI）候選框坐標（x,y,w,h），采用Resnet-50/101及特征金字塔作為基礎網絡（backbone）獲取整張輸入圖片的特征。

使用RoI Align算法根據物體檢測框位置，在整張圖片特征圖內準確摳取感興趣目標區域的特征子圖，并將其作為雙圖卷積神經網絡的輸入用于最終的物體分割。

?實例分割網絡BCNet由級聯狀的雙圖層神經網絡組成：

第一個圖層對感興趣目標區域內遮擋物體（Occluder）的形狀和外觀進行顯式建模，該層圖卷積網絡包含四層，即卷積層（卷積核大小3x3）、圖卷積層(Non-local Layer)以及末尾的兩個卷積（卷積核大小3x3）。第一個圖卷積網絡輸入感興趣目標區域特征，輸出感興趣目標框中遮擋物體的邊界和掩膜。

第二個圖層結合第一個圖卷積網絡（用于對遮擋物體建模）已經提取的遮擋物體信息（包括遮擋物的Boundary和Mask），具體做法是將步驟2中得到的感興趣目標區域特征與經過第一個圖卷積網絡中最后一層卷積后的特征3a相加，得到新的特征，并將其作為第二個圖卷積網絡（用于被遮擋物分割）的輸入。第二個圖卷積網絡與第一個圖卷積網絡結構相同，構成級聯網絡關系。該操作將遮擋與被遮擋關系同時考慮進來，能有效地區分遮擋物與被遮擋物的相鄰物體邊界，最終輸出目標區域被遮擋目標物體（Occludee）的分割結果。

為了減少模型的參數量，我們使用非局部算子（Non-local Operator）操作進行圖卷積層的實現，具體實現位于結構圖左上位置，包含三個卷積核大小為1x1的卷積層以及Softmax算子，其將圖像空間中像素點根據對應特征向量的相似度有效關聯起來，實現輸入目標區域特征的重新聚合，能較好解決同一個物體的像素點在空間上被遮擋截斷導致不連續的問題。

BCNet與其他經典網絡結構對比

我們的提出的復雜遮擋下的圖像分割算法，基于已有的雙階段分割模型，將傳統的單個的全卷積(Fully Convolution)掩膜預測分支網絡替換成由雙圖層級聯構成的圖神經網絡（Graph Convolutional Network）模型，在感興趣目標區域（RoI）中，前圖層建模輸出遮擋物體（Occluder）的位置和形狀，后圖層在前圖層基礎上最終輸出相應的被遮擋物體（Occludee）的Mask，從而讓實例分割算法在遮擋情況下仍然能夠保持高運行速度和服務器端的高速度。如下是BCNet與其它經典網絡結構設計對比圖：

圖4 分割網絡結構設計對比

實驗和對比

作者在三個數據集包括COCO、COCOA以及KINS上對算法進行了驗證，大量的定量實驗結果（表1和表2，包含Modal Segmentation和Amodal Segmentation）表明BCNet在不過度增加網絡參數和預測耗時的基礎上，結合現有的One-stage和Two-stage物體檢測器上均能取得較大的性能提升，優于CenterMask、BlendMask以及多階段Cascade的HTC等現有算法，尤其是對于存在遮擋的物體。同時，表3證明雙圖層結構在兩個完全的全卷積網絡（pure FCN）圖層中依然有效。

表1 在COCO-test-dev上的對比結果，

BCNet性能大幅優于BlendMask、CenterMask等網絡

表2 在COCO-Val、COCOA和KINS數據集上的對比結果

表3 對雙圖層結構(bilayer structure)的有效性驗證

另外，作者也提供了不同數據集下的可視化對比結果。對于COCO數據集，在圖5和圖6中可以看到即使在復雜的遮擋情況下，BCNet也能給出較為魯棒的預測結果，而且通過分別可視化前圖層和后圖層對遮擋物和被遮擋物的Boundary和Mask的建模結果，使得BCNet的預測較以往算法具有更強的可解釋性。圖7和圖8提供了對于Amodal Segmentation下的KINS和COCOA數據集的實例分割效果對比。

圖5 基于FCOS檢測器，COCO上CenterMask（第一行）和BCNet（第二行）的可視化結果對比。最下面一行顯示了由兩個GCN圖層分別預測的遮擋物和被遮擋物的輪廓以及掩膜，從而使得BCNet的最終分割結果比以前的方法更具可解釋性。

圖6基于Faster R-CNN檢測器，COCO上Mask Scoring R-CNN（第一行）和BCNet（第二行）的可視化結果對比

圖7 KINS數據集上，ASN（第一行）和BCNet（第二行）的可視化結果（amodal）對比

圖8 COCOA（左）及KINS（右）上的更多結果（amodal）對比

更多BCNet的實現和實驗細節可參考論文和開源代碼，圖5到圖8可視化部分基于的對比算法來源如下：

[1] Lee, Youngwan, and Jongyoul Park. "Centermask: Real-time anchor-free instance segmentation."?In CVPR, 2020.

[2] Huang Z, Huang L, Gong Y, et al. Mask scoring r-cnn. In CVPR, 2019.

[3] Qi L, Jiang L, Liu S, et al. Amodal instance segmentation with kins dataset. In CVPR, 2019.

[4] Follmann, Patrick, et al. "Learning to see the invisible: End-to-end trainable amodal instance segmentation." In WACV, 2019.

????

現在，在「知乎」也能找到我們了

進入知乎首頁搜索「PaperWeekly」

點擊「關注」訂閱我們的專欄吧

關于PaperWeekly

PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域，歡迎在公眾號后臺點擊「交流群」，小助手將把你帶入 PaperWeekly 的交流群里。

總結

以上是生活随笔為你收集整理的CVPR 2021 | 双图层实例分割，大幅提升遮挡处理性能的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： u盘读写次数怎么查看查看U盘读写次数方
下一篇： 2.5万美元奖金！滴滴算法工程师详解专业

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

编程问答

CVPR 2021 | 双图层实例分割，大幅提升遮挡处理性能

總結