當(dāng)前位置：首頁 > 人工智能 > 目标检测 >内容正文

目标检测

【弱监督显著目标检测论文】Weakly-Supervised Salient Object Detection Using Point Supervison

發(fā)布時間：2023/12/20 目标检测 67 豆豆

生活随笔收集整理的這篇文章主要介紹了【弱监督显著目标检测论文】Weakly-Supervised Salient Object Detection Using Point Supervison 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

2022年在AAAI上發(fā)表的一篇使用點監(jiān)督的弱監(jiān)督顯著目標(biāo)檢測論文
論文原文
代碼地址

文章目錄

摘要
一、創(chuàng)新點
二、方法
- 1.Adaptive Flood Filling
- 2.Non-Salient object Suppression (NSS)
- 3.Network Details（網(wǎng)絡(luò)詳情）
- - Transformer part
  - Edge-preserving Decoder(邊緣保留解碼器)
  - Loss Function
三、實驗

摘要

目前最先進的顯著性檢測模型嚴(yán)重依賴于精確的像素級注釋的大型數(shù)據(jù)集，這花費了大量的準(zhǔn)備時間。而一些弱監(jiān)督的方法可以來緩解這一問題，如圖像標(biāo)簽、邊界框標(biāo)簽和涂鴉標(biāo)簽，但點標(biāo)簽還沒有在這個領(lǐng)域中被探索。在本文中，我們通過重新標(biāo)記DUTS數(shù)據(jù)集，從而提出了一個新的點監(jiān)督數(shù)據(jù)集（P-DUTS）。在P-DUTS中，每個顯著對象只有一個標(biāo)記點。為了推斷顯著圖，我們首先設(shè)計了一種自適應(yīng)掩蔽泛洪填充算法來生成偽標(biāo)簽。然后設(shè)計了一個基于transformer的點監(jiān)督顯著性檢測模型，生成第一輪顯著圖。然而，我們發(fā)現(xiàn)，由于標(biāo)簽的稀疏性，弱監(jiān)督模型往往會退化為一般的前景檢測模型。為了解決這個問題，我們提出了一種非顯著性抑制（NSS）方法來優(yōu)化第一輪生成的錯誤顯著圖，并利用它們進行第二輪的訓(xùn)練。在五個最大的基準(zhǔn)數(shù)據(jù)集上進行的綜合實驗表明，我們的方法優(yōu)于以前受過更強監(jiān)督訓(xùn)練的最先進的方法，甚至超過了幾個完全監(jiān)督的最先進的模型。代碼是可用的。

一、創(chuàng)新點

我們提出了一種新的弱監(jiān)督顯著目標(biāo)檢測框架，該方法通過點注釋學(xué)習(xí)檢測顯著目標(biāo)，并引入了一種新的基于點的顯著性數(shù)據(jù)集P-DUTS。
我們發(fā)現(xiàn)了弱監(jiān)督顯著性檢測模型的退化問題，并提出了非顯著性對象抑制（NSS）方法來顯式地過濾掉非顯著性但被檢測到的對象。
我們設(shè)計了一個基于transformer的點監(jiān)督顯著目標(biāo)檢測模型，該模型與我們設(shè)計的自適應(yīng)泛洪填充合作，不僅優(yōu)于現(xiàn)有的弱監(jiān)督方法和更強的監(jiān)督，甚至超過了許多完全監(jiān)督方法。

二、方法

1.Adaptive Flood Filling

對于常用的弱監(jiān)督密集預(yù)測任務(wù)，首先采用生成偽標(biāo)簽，然后使用偽標(biāo)簽進行網(wǎng)絡(luò)訓(xùn)練的方法。由于稀疏標(biāo)簽只覆蓋了物體區(qū)域的一小部分，這限制了模型感知物體結(jié)構(gòu)的能力，（Zhang et al. 2020）利用邊緣檢測器（Liu et al. 2017）生成邊緣來監(jiān)督模型的訓(xùn)練間接地補充結(jié)構(gòu)。與它們不同的是，我們直接使用邊緣來進行泛洪填充。泛洪填充從一個起始節(jié)點開始，搜索其鄰域（4或8），并提取連接到它的附近節(jié)點，直到封閉區(qū)域中的所有節(jié)點都被處理完畢（算法1）。它是從一個區(qū)域中提取幾個連接的點，或?qū)⑺鼈兣c其他相鄰的區(qū)域分開。但是，由于邊緣檢測器產(chǎn)生的邊緣通常是不連續(xù)和模糊的（圖2的頂部），直接應(yīng)用于泛洪填充可能會導(dǎo)致整個圖像被填充。因此，我們設(shè)計了一個自適應(yīng)掩模，一個半徑隨圖像大小變化的圓來緩解這一問題。具體來說，半徑r被定義為

其中I為輸入圖像，r (I)為輸入圖像I對應(yīng)的掩模半徑。hI和wI分別表示輸入圖像的長度和寬度。γ表示超參數(shù)。
標(biāo)記的實體圖可以表示為： S = {Sb、Sif |i = 1、···、N}，其中Sb和Sif分別表示背景像素和第i個標(biāo)記的顯著目標(biāo)的位置坐標(biāo)。然后，這些圓掩模的集合可以定義為MrS (I) = Cr (I) S1f∪···∪Cr(I)SNf∪Cr(I)Sb，其中C表示以下角為中心，以上角為半徑的圓。與（Zhang et al. 2020）相似，我們還使用邊緣檢測器（Liu et al. 2017）檢測圖像的邊緣： E (I)，其中E（·）表示邊緣檢測器，I表示輸入圖像，E表示生成的邊緣。

算法1即為泛洪填充算法，采用4鄰域泛洪的方式。
4鄰域泛洪：尋找像素點(x, y)的上下左右四個臨近像素點，如果沒有被填充，則填充它們，并且繼續(xù)尋找它們的四鄰域像素，直到封閉區(qū)域完全被新顏色填充。

參考原文：OpenCV4 詳解《圖像分割之泛洪填充算法(Flood Fill Algorithm)》

我們使用e和MrS (I)的并集，E (I)∪MrS (I)，將圖像I劃分為多個連接的區(qū)域。

其中F (I)表示應(yīng)用泛洪填充后獲得的連通區(qū)域（圖2底部）。

2.Non-Salient object Suppression (NSS)

我們觀察到，由于弱監(jiān)督標(biāo)簽的稀疏性，監(jiān)督信號只能覆蓋圖像的一小部分區(qū)域，導(dǎo)致模型只學(xué)習(xí)突出學(xué)習(xí)到的對象，而忽略當(dāng)前場景中不應(yīng)該突出的對象（圖4(a)中的紅框）。

為了抑制非顯著目標(biāo)，我們提出了一種簡單而有效的方法，即利用監(jiān)督信號提供的位置線索，填充生成的位置信號突出顯示的對象，以抑制非突出顯示的對象。并且得到的顯著的目標(biāo)區(qū)域(圖3(b)中的紅色區(qū)域。)可以通過下列方式獲得：

其中F（·）表示泛洪填充，S?Sb = {Sif |i = 1，…，N}表示減法，P^1st表示第一輪訓(xùn)練后生成的偽標(biāo)記，由密集CRF細(xì)化（Kr¨ahenb¨uhl and Koltun 2011）。
由于我們在第一輪訓(xùn)練中只為顯著目標(biāo)提供了內(nèi)部局部標(biāo)簽，這可能導(dǎo)致模型無法準(zhǔn)確區(qū)分邊緣，因此我們對核大小為10的Pf進行展開操作。擴展區(qū)域為不確定區(qū)域（圖3(b)中的黑色區(qū)域），其余區(qū)域為背景區(qū)域（圖3(b)中的綠色區(qū)域）。這被記為P^2nd，作為第二輪訓(xùn)練的標(biāo)簽。
如圖4中的測試示例所示，由于標(biāo)簽的稀疏性，模型往往會檢測到非顯著性目標(biāo)。事實上，該模型會退化為一個能夠檢測先前學(xué)習(xí)到的對象的模型。通過再次使用來自監(jiān)督點的位置線索，我們可以利用NSS成功地抑制非顯著性目標(biāo)。

3.Network Details（網(wǎng)絡(luò)詳情）

稀疏標(biāo)記顯著性檢測的困難在于該模型只能獲得局部地面真實標(biāo)簽，缺乏對全局信息的指導(dǎo)。我們認(rèn)為，通過已標(biāo)記位置和未標(biāo)記位置之間的相似性來建立它們之間的聯(lián)系，以獲得未標(biāo)記區(qū)域的顯著性值，可以顯著緩解這一問題。考慮到vision transformer（ViT）基于相似性的本質(zhì)（多索維茨基等人，2020年），我們利用 hyper ViT（即“ResNet-50+ViT-base”）作為我們的網(wǎng)絡(luò)骨干來提取特征并計算自相似度。

Transformer part

具體來說，對于大小為3×H×W的輸入圖像，CNN嵌入部分生成C×H /16×H/16特征圖。ResNet- 50的多階段特征記為R = {Ri|i = 1,2、3、4,5}。然后，Transformer編碼器以C×H/16×H/16的位置嵌入和C×H/16×H/16的扁平特征的總和作為輸入。經(jīng)過12層自注意層后，transformer編碼器部分輸出特征的C×H/16×H/16。

Edge-preserving Decoder(邊緣保留解碼器)

邊緣保留解碼器由兩個組件組成，一個顯著性解碼器和一個近似邊緣檢測器（見圖2）。顯著性解碼器是四層級聯(lián)卷積層，其中每一層都是批歸一化（BN）層、ReLU激活層和上采樣層，它們以Transformer編碼器的特征作為輸入。我們將每一層顯著性解碼器的相應(yīng)特征表示為D = {Di|i = 1,2,3,4}。
對于后一部分，由于弱注釋缺乏結(jié)構(gòu)和細(xì)節(jié)，我們設(shè)計了一個邊緣解碼器流作為近似邊緣檢測器來生成結(jié)構(gòu)，并通過使用由真實邊緣檢測器生成的邊來約束輸出，以此克服弱標(biāo)簽的缺點。具體來說，近似邊緣檢測器的輸出可以表示為fe = σ（cat（R3，D2）），其中σ表示一個單一的3×3卷積層，然后是BN和ReLU層。通過在fe之后添加3×3凸層得到邊緣映射e，然后由真實邊緣檢測器生成的邊緣映射進行約束。然后，通過將fe與D3、cat（fe、D3）合并，并通過以下兩個卷積層，得到多通道特征fs。與e類似，最終的單通道圖也可以以同樣的方式獲得。

Loss Function

在我們的網(wǎng)絡(luò)中，采用了二元交叉熵?fù)p失、部分交叉熵?fù)p失（Tang等人2018年）和門控CRF損失（Yu等人2021年；Obukhov等人2019年）。對于保邊解碼器流，我們使用二元交叉熵?fù)p失來約束e：

其中y為真實圖，e表示邊緣映射，r和c表示圖像的行坐標(biāo)和列坐標(biāo)。對于顯著性解碼器流，采用了部分交叉熵?fù)p失和門控CRF損耗。部分二元交叉熵?fù)p失只關(guān)注確定區(qū)域，而忽略不確定區(qū)域：

其中J表示標(biāo)記區(qū)域，g表示真實圖，s表示預(yù)測的顯著圖。
為了學(xué)習(xí)更好的目標(biāo)結(jié)構(gòu)和邊緣，遵循（Yu et al. 2021），在我們的損失函數(shù)中使用了門控CRF：

其中Ki為像素i的周圍k × k的核所覆蓋的區(qū)域，d(i, j)定義為：

其中si和sj為位置i和j處s的顯著性值，|·|表示L1距離。f (i、j）為高斯核帶寬濾波器：

其中1/w為歸一化的權(quán)值，I（·）和PT（·）為像素的RGB值和像素的位置，σP T和σI為控制高斯核尺度的超參數(shù)。所以總損失函數(shù)可以定義為：

其中，α1，α2，α3是權(quán)重。在我們的實驗中，它們都被設(shè)置為1。

三、實驗

超參數(shù) γ的影響：

γ=5時效果最好

總結(jié)

以上是生活随笔為你收集整理的【弱监督显著目标检测论文】Weakly-Supervised Salient Object Detection Using Point Supervison的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇： ffmpeg+java截取视频帧
下一篇： Multi-scale Interact