日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 人工智能 > 目标检测 >内容正文

目标检测

【弱监督显著目标检测论文】Weakly-Supervised Salient Object Detection Using Point Supervison

發(fā)布時間:2023/12/20 目标检测 67 豆豆
生活随笔 收集整理的這篇文章主要介紹了 【弱监督显著目标检测论文】Weakly-Supervised Salient Object Detection Using Point Supervison 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

2022年在AAAI上發(fā)表的一篇使用點監(jiān)督的弱監(jiān)督顯著目標(biāo)檢測論文
論文原文
代碼地址

文章目錄

  • 摘要
  • 一、創(chuàng)新點
  • 二、方法
    • 1.Adaptive Flood Filling
    • 2.Non-Salient object Suppression (NSS)
    • 3.Network Details(網(wǎng)絡(luò)詳情)
      • Transformer part
      • Edge-preserving Decoder(邊緣保留解碼器)
      • Loss Function
  • 三、實驗


摘要

目前最先進的顯著性檢測模型嚴(yán)重依賴于精確的像素級注釋的大型數(shù)據(jù)集,這花費了大量的準(zhǔn)備時間。而一些弱監(jiān)督的方法可以來緩解這一問題,如圖像標(biāo)簽、邊界框標(biāo)簽和涂鴉標(biāo)簽,但點標(biāo)簽還沒有在這個領(lǐng)域中被探索。在本文中,我們通過重新標(biāo)記DUTS數(shù)據(jù)集,從而提出了一個新的點監(jiān)督數(shù)據(jù)集(P-DUTS)。在P-DUTS中,每個顯著對象只有一個標(biāo)記點。為了推斷顯著圖,我們首先設(shè)計了一種自適應(yīng)掩蔽泛洪填充算法來生成偽標(biāo)簽。然后設(shè)計了一個基于transformer的點監(jiān)督顯著性檢測模型,生成第一輪顯著圖。然而,我們發(fā)現(xiàn),由于標(biāo)簽的稀疏性,弱監(jiān)督模型往往會退化為一般的前景檢測模型。為了解決這個問題,我們提出了一種非顯著性抑制(NSS)方法來優(yōu)化第一輪生成的錯誤顯著圖,并利用它們進行第二輪的訓(xùn)練。在五個最大的基準(zhǔn)數(shù)據(jù)集上進行的綜合實驗表明,我們的方法優(yōu)于以前受過更強監(jiān)督訓(xùn)練的最先進的方法,甚至超過了幾個完全監(jiān)督的最先進的模型。代碼是可用的。


一、創(chuàng)新點

  • 我們提出了一種新的弱監(jiān)督顯著目標(biāo)檢測框架,該方法通過點注釋學(xué)習(xí)檢測顯著目標(biāo),并引入了一種新的基于點的顯著性數(shù)據(jù)集P-DUTS。
  • 我們發(fā)現(xiàn)了弱監(jiān)督顯著性檢測模型的退化問題,并提出了非顯著性對象抑制(NSS)方法來顯式地過濾掉非顯著性但被檢測到的對象。
  • 我們設(shè)計了一個基于transformer的點監(jiān)督顯著目標(biāo)檢測模型,該模型與我們設(shè)計的自適應(yīng)泛洪填充合作,不僅優(yōu)于現(xiàn)有的弱監(jiān)督方法和更強的監(jiān)督,甚至超過了許多完全監(jiān)督方法。

二、方法

1.Adaptive Flood Filling

對于常用的弱監(jiān)督密集預(yù)測任務(wù),首先采用生成偽標(biāo)簽,然后使用偽標(biāo)簽進行網(wǎng)絡(luò)訓(xùn)練的方法。由于稀疏標(biāo)簽只覆蓋了物體區(qū)域的一小部分,這限制了模型感知物體結(jié)構(gòu)的能力,(Zhang et al. 2020)利用邊緣檢測器(Liu et al. 2017)生成邊緣來監(jiān)督模型的訓(xùn)練間接地補充結(jié)構(gòu)。與它們不同的是,我們直接使用邊緣來進行泛洪填充。泛洪填充從一個起始節(jié)點開始,搜索其鄰域(4或8),并提取連接到它的附近節(jié)點,直到封閉區(qū)域中的所有節(jié)點都被處理完畢(算法1)。它是從一個區(qū)域中提取幾個連接的點,或?qū)⑺鼈兣c其他相鄰的區(qū)域分開。但是,由于邊緣檢測器產(chǎn)生的邊緣通常是不連續(xù)和模糊的(圖2的頂部),直接應(yīng)用于泛洪填充可能會導(dǎo)致整個圖像被填充。因此,我們設(shè)計了一個自適應(yīng)掩模,一個半徑隨圖像大小變化的圓來緩解這一問題。具體來說,半徑r被定義為

其中I為輸入圖像,r (I)為輸入圖像I對應(yīng)的掩模半徑。hI和wI分別表示輸入圖像的長度和寬度。γ表示超參數(shù)。
標(biāo)記的實體圖可以表示為: S = {Sb、Sif |i = 1、···、N},其中Sb和Sif分別表示背景像素和第i個標(biāo)記的顯著目標(biāo)的位置坐標(biāo)。然后,這些圓掩模的集合可以定義為MrS (I) = Cr (I) S1f∪···∪Cr(I)SNf∪Cr(I)Sb,其中C表示以下角為中心,以上角為半徑的圓。與(Zhang et al. 2020)相似,我們還使用邊緣檢測器(Liu et al. 2017)檢測圖像的邊緣: E (I),其中E(·)表示邊緣檢測器,I表示輸入圖像,E表示生成的邊緣。

算法1即為泛洪填充算法,采用4鄰域泛洪的方式。
4鄰域泛洪:尋找像素點(x, y)的上下左右四個臨近像素點,如果沒有被填充,則填充它們,并且繼續(xù)尋找它們的四鄰域像素,直到封閉區(qū)域完全被新顏色填充。

參考原文:OpenCV4 詳解《圖像分割之泛洪填充算法(Flood Fill Algorithm)》

我們使用e和MrS (I)的并集,E (I)∪MrS (I),將圖像I劃分為多個連接的區(qū)域。

其中F (I)表示應(yīng)用泛洪填充后獲得的連通區(qū)域(圖2底部)。

2.Non-Salient object Suppression (NSS)

我們觀察到,由于弱監(jiān)督標(biāo)簽的稀疏性,監(jiān)督信號只能覆蓋圖像的一小部分區(qū)域,導(dǎo)致模型只學(xué)習(xí)突出學(xué)習(xí)到的對象,而忽略當(dāng)前場景中不應(yīng)該突出的對象(圖4(a)中的紅框)。

為了抑制非顯著目標(biāo),我們提出了一種簡單而有效的方法,即利用監(jiān)督信號提供的位置線索,填充生成的位置信號突出顯示的對象,以抑制非突出顯示的對象。并且得到的顯著的目標(biāo)區(qū)域(圖3(b)中的紅色區(qū)域。)可以通過下列方式獲得:

其中F(·)表示泛洪填充,S?Sb = {Sif |i = 1,…,N}表示減法,P1st表示第一輪訓(xùn)練后生成的偽標(biāo)記,由密集CRF細(xì)化(Kr¨ahenb¨uhl and Koltun 2011)。
由于我們在第一輪訓(xùn)練中只為顯著目標(biāo)提供了內(nèi)部局部標(biāo)簽,這可能導(dǎo)致模型無法準(zhǔn)確區(qū)分邊緣,因此我們對核大小為10的Pf進行展開操作。擴展區(qū)域為不確定區(qū)域(圖3(b)中的黑色區(qū)域),其余區(qū)域為背景區(qū)域(圖3(b)中的綠色區(qū)域)。這被記為P2nd,作為第二輪訓(xùn)練的標(biāo)簽。
如圖4中的測試示例所示,由于標(biāo)簽的稀疏性,模型往往會檢測到非顯著性目標(biāo)。事實上,該模型會退化為一個能夠檢測先前學(xué)習(xí)到的對象的模型。通過再次使用來自監(jiān)督點的位置線索,我們可以利用NSS成功地抑制非顯著性目標(biāo)。

3.Network Details(網(wǎng)絡(luò)詳情)

稀疏標(biāo)記顯著性檢測的困難在于該模型只能獲得局部地面真實標(biāo)簽,缺乏對全局信息的指導(dǎo)。我們認(rèn)為,通過已標(biāo)記位置和未標(biāo)記位置之間的相似性來建立它們之間的聯(lián)系,以獲得未標(biāo)記區(qū)域的顯著性值,可以顯著緩解這一問題。考慮到vision transformer(ViT)基于相似性的本質(zhì)(多索維茨基等人,2020年),我們利用 hyper ViT(即“ResNet-50+ViT-base”)作為我們的網(wǎng)絡(luò)骨干來提取特征并計算自相似度。

Transformer part

具體來說,對于大小為3×H×W的輸入圖像,CNN嵌入部分生成C×H /16×H/16特征圖。ResNet- 50的多階段特征記為R = {Ri|i = 1,2、3、4,5}。然后,Transformer編碼器以C×H/16×H/16的位置嵌入和C×H/16×H/16的扁平特征的總和作為輸入。經(jīng)過12層自注意層后,transformer編碼器部分輸出特征的C×H/16×H/16。

Edge-preserving Decoder(邊緣保留解碼器)

邊緣保留解碼器由兩個組件組成,一個顯著性解碼器和一個近似邊緣檢測器(見圖2)。顯著性解碼器是四層級聯(lián)卷積層,其中每一層都是批歸一化(BN)層、ReLU激活層和上采樣層,它們以Transformer編碼器的特征作為輸入。我們將每一層顯著性解碼器的相應(yīng)特征表示為D = {Di|i = 1,2,3,4}。
對于后一部分,由于弱注釋缺乏結(jié)構(gòu)和細(xì)節(jié),我們設(shè)計了一個邊緣解碼器流作為近似邊緣檢測器來生成結(jié)構(gòu),并通過使用由真實邊緣檢測器生成的邊來約束輸出,以此克服弱標(biāo)簽的缺點。具體來說,近似邊緣檢測器的輸出可以表示為fe = σ(cat(R3,D2)),其中σ表示一個單一的3×3卷積層,然后是BN和ReLU層。通過在fe之后添加3×3凸層得到邊緣映射e,然后由真實邊緣檢測器生成的邊緣映射進行約束。然后,通過將fe與D3、cat(fe、D3)合并,并通過以下兩個卷積層,得到多通道特征fs。與e類似,最終的單通道圖也可以以同樣的方式獲得。

Loss Function

在我們的網(wǎng)絡(luò)中,采用了二元交叉熵?fù)p失、部分交叉熵?fù)p失(Tang等人2018年)和門控CRF損失(Yu等人2021年;Obukhov等人2019年)。對于保邊解碼器流,我們使用二元交叉熵?fù)p失來約束e:

其中y為真實圖,e表示邊緣映射,r和c表示圖像的行坐標(biāo)和列坐標(biāo)。對于顯著性解碼器流,采用了部分交叉熵?fù)p失和門控CRF損耗。部分二元交叉熵?fù)p失只關(guān)注確定區(qū)域,而忽略不確定區(qū)域:

其中J表示標(biāo)記區(qū)域,g表示真實圖,s表示預(yù)測的顯著圖。
為了學(xué)習(xí)更好的目標(biāo)結(jié)構(gòu)和邊緣,遵循(Yu et al. 2021),在我們的損失函數(shù)中使用了門控CRF:

其中Ki為像素i的周圍k × k的核所覆蓋的區(qū)域,d(i, j)定義為:

其中si和sj為位置i和j處s的顯著性值,|·|表示L1距離。f (i、j)為高斯核帶寬濾波器:

其中1/w為歸一化的權(quán)值,I(·)和PT(·)為像素的RGB值和像素的位置,σP T和σI為控制高斯核尺度的超參數(shù)。所以總損失函數(shù)可以定義為:

其中,α1,α2,α3是權(quán)重。在我們的實驗中,它們都被設(shè)置為1。

三、實驗


超參數(shù) γ的影響:

γ=5時效果最好

總結(jié)

以上是生活随笔為你收集整理的【弱监督显著目标检测论文】Weakly-Supervised Salient Object Detection Using Point Supervison的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。