Multi-scale Interactive Network for Salient Object Detection(用于显著性目标检测的多尺度交互网络)
Abstract
? ? ? ??基于深度學(xué)習(xí)的顯著性目標(biāo)檢測方法取得了很大的進(jìn)步,然而,物體的尺度變化和類別的未知一直是顯著性目標(biāo)檢測任務(wù)的挑戰(zhàn),這些與多層次和多尺度特征的利用緊密相關(guān)。在本文中,提出了聚合交互模塊(tip:本文創(chuàng)新點(diǎn))來聚合相鄰層的特征,由于整個工程中僅使用較小的上/下采樣率即可因此引入的噪聲較少。為了從聚合特征中獲得更有效的多尺度特征,本文將自交互模塊(self-interaction modules )嵌入每個解碼器單元中。此外,由尺度變化引起的類不平衡問題削弱了二元交叉熵?fù)p失的影響,并導(dǎo)致預(yù)測的空間不一致。因此,本文利用一致性增強(qiáng)的損失來突出顯示前后差異,并保留類內(nèi)一致性。最后,在五個基準(zhǔn)數(shù)據(jù)集上的實驗結(jié)果表明,與23種最新方法相比,本文方法無需進(jìn)行任何后處理過程,就具有良好的性能。源代碼地址:?https://github.com/lartpang/MINet.
1、簡介
????????顯著性物體檢測(Salient object detection ,SOD)旨在區(qū)分視覺上最明顯的區(qū)域。在數(shù)據(jù)驅(qū)動的深度學(xué)習(xí)方法的幫助下,它正在快速發(fā)展,并已應(yīng)用于許多計算機(jī)視覺領(lǐng)域,例如視覺跟蹤,圖像檢索,非照片級渲染,4D顯著性檢測,無參考的合成圖像質(zhì)量評估等。雖然目前已經(jīng)取得了很大的進(jìn)展,但仍有兩個問題需要注意,一是如何從尺度變化的數(shù)據(jù)中提取更多的有效信息,二是如何提高這種情況下預(yù)測的空間一致性。由于顯著區(qū)域的尺度不同,基于CNN的方法由于重復(fù)的子采樣缺乏必要的細(xì)節(jié)信息,難以持續(xù)準(zhǔn)確地分割不同尺度的突出物體(圖1)。另外,考慮到卷積運(yùn)算固有的本地局部性和交叉熵函數(shù)的像素級特征,很難實現(xiàn)物體的均勻顯著性提取。
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?圖1:幾個具有大小變化對象的可視化示例及其由提出的MINet、AFNet、? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? CPD和PAGR方法生成的預(yù)測
?????????對于第一個問題(如何從尺度變化的數(shù)據(jù)中提取更多的有效信息),現(xiàn)有方法的主要解決方法是逐層整合較淺的特征。有些方法通過將編碼器中相應(yīng)層次的特征連接到解碼器中(圖2(a,c,e))。
? ? ? ? 圖2,?不同架構(gòu)的圖示。綠色塊、橙色塊和灰色塊分別表示編碼器、傳輸層和解碼器中的不同卷積塊。左欄:編碼器和傳輸層之間的連接模式;右欄:傳輸層和解碼器之間的連接模式。?(a, e) FCN [22]; (b)Amulet [51]; (c) BMPM [48]; (d) AIMs (Sec. 3.2); (f) DSS [13];(g) DGRL [34]; (h)SIMs (Sec. 3.3).?
????????單層特征只能表征特定尺度的信息, 在自上而下的路徑中,由于深層特征的不斷積累,淺層特征的細(xì)節(jié)表示能力被削弱。為了利用多層次特征,一些方法將多層次的特征以全連接的方式或 啟發(fā)式/試探 的方式進(jìn)行整合(圖2(b,f,g))。然而, 過多的特征整合和不同分辨率之間缺乏平衡, 容易導(dǎo)致計算成本高、噪聲多、融合困難, 從而擾亂了后續(xù)自上而下路徑的信息恢復(fù)。此外,空間金字塔池化模塊(ASPP)和金字塔池化模塊(PPM)被用于提取多尺度的上下文感知特征,并對單層特征表示進(jìn)行了改進(jìn)。然而,現(xiàn)有的方法通常是在編碼器后面配備這些模塊,這就導(dǎo)致它們的網(wǎng)絡(luò)由于頂層特征的低分辨率的限制而錯過了許多必要的細(xì)節(jié)。
????????對于第二個問題(如何提高尺度變化這種情況下預(yù)測的空間一致性),現(xiàn)有的一些模型[ ?41,27 ]主要使用一個特定的分支或者一個額外的網(wǎng)絡(luò)來細(xì)化結(jié)果。然而,這些方法都面臨計算冗馀和訓(xùn)練困難的問題,不利于進(jìn)一步的應(yīng)用。
????????受Zhang等提出的相互學(xué)習(xí)思想(《 Deep mutual learning》)的啟發(fā),本文提出了一種聚合交互策略(aggregated interaction strategy,AIM),以更好地利用多層次特征,避免大分辨率差異造成的特征融合干擾(圖2(d)),并且通過協(xié)同學(xué)習(xí)知識引導(dǎo),有效整合相鄰分辨率的上下文信息。為了進(jìn)一步從提取的特征中獲得豐富的尺度特異性信息,本文還設(shè)計了一個自交互模塊(SIM)(圖2(h))。兩個不同分辨率的交互分支被訓(xùn)練成從單個卷積塊中學(xué)習(xí)多尺度特征, ?AIM和SIM有效地提高了SOD任務(wù)中處理尺度變化的能力。?
????????與《 Deep mutual learning》中的設(shè)定不同,在這兩個模塊中,相互學(xué)習(xí)機(jī)制被納入到特征學(xué)習(xí)中。每一個分支都可以通過交互學(xué)習(xí)更靈活地整合來自其他分辨率的信息。在AIM和SIM中,主分支(圖4中的B1和圖5中的B0)由輔助分支補(bǔ)充,其分辨能力得到了進(jìn)一步的增強(qiáng)。此外,多尺度的問題也會導(dǎo)致數(shù)據(jù)集中前景和背景區(qū)域之間的嚴(yán)重失衡,因此在訓(xùn)練階段引入了一個一致性增強(qiáng)損失(CEL),它對物體的尺度不敏感。同時,CEL可以更好地處理空間一致性問題,在不需要額外參數(shù)的情況下均勻地突出顯著區(qū)域,因為其梯度具有保持類內(nèi)一致性和擴(kuò)大類間差異的特點(diǎn)。
????????
本文的貢獻(xiàn)可概括為三個方面:?
1、所提出的MINet能夠有效地應(yīng)對SOD任務(wù)中的挑戰(zhàn)。聚合交互模塊(AIM)可以通過相互學(xué)習(xí)的方式有效地利用相鄰層的特征,而自我交互(SIM)模塊則使網(wǎng)絡(luò)可以自適應(yīng)地從數(shù)據(jù)中提取多尺度信息,并更好地應(yīng)對尺度變化。
2、提出增強(qiáng)損失函數(shù),以協(xié)助模型統(tǒng)一突出顯示整個顯著區(qū)域,并更好地處理由各種比例的物體引起的前、后區(qū)域之間的像素不平衡問題,而無需任何后處理或額外處理。
3、本文的方法與五個數(shù)據(jù)集上的23種最先進(jìn)的SOD方法進(jìn)行了比較。在不同的評估指標(biāo)下,它都能實現(xiàn)最佳性能。此外,該模型在GPU上具有35 FPS的正向推理速度。
?
2、最近工作
2.1、顯著性目標(biāo)檢測
????????早期的方法主要是基于手工制作的先驗指標(biāo)?[5, 39, 49, 47]。它們的通用性和有效性是有限的。早期的深度顯著性目標(biāo)檢測方法 [57, 16]使用多層感知來預(yù)測 圖像中每個處理單元的顯著性性分?jǐn)?shù)。這些方法的計算效率很低,而且破壞了 潛在的特征結(jié)構(gòu)。參見[2, 35],了解更多關(guān)于傳統(tǒng)和早期深度學(xué)習(xí)方法的細(xì)節(jié)。?
????????最近,一些方法[20, 53]引入了全卷積網(wǎng)絡(luò)(FCN)[22],并取得了可喜的重新發(fā)展。并取得了很好的效果。此外,Liu等人[20]將 全局和局部上下文模塊 分層嵌入到自上而下的路徑中,為每個像素構(gòu)建了信息語境特征。陳等人。 [4] 在自上而下的路徑中提出反向注意來指導(dǎo)殘差顯著性學(xué)習(xí),從而驅(qū)動網(wǎng)絡(luò)發(fā)現(xiàn)補(bǔ)充對象區(qū)域和細(xì)節(jié)。盡管如此,上述方法僅在每個解碼器單元中使用單獨(dú)的分辨率特征,這對于應(yīng)對復(fù)雜和各種尺度問題來說并不是一種足夠有效的策略。
2.2、尺度變化
????????尺度變化是 SOD 任務(wù)的主要挑戰(zhàn)之一。受限于局部卷積操作和子采樣操作,CNN很難處理這個問題。一方面,嵌入在不同分辨率特征中的關(guān)于物體的信息量隨著物體的尺度而變化。一個直截了當(dāng)?shù)牟呗允谴致缘卣纤械奶卣鳌A硪环矫?#xff0c;每個卷積層只具有處理特定尺度的能力。 因此,我們需要通過構(gòu)建多路徑特征提取結(jié)構(gòu)來表征單層的多尺度信息。
????????多層次信息。張等人。 [51] 簡單地將所有層次的特征組合到傳輸層中。 這種粗略的融合容易產(chǎn)生信息冗余和噪聲干擾。在[48]中,利用門函數(shù)來控制消息傳遞率,以優(yōu)化層間信息交換的質(zhì)量。然而,多重門控處理會導(dǎo)致來自其他層的信息嚴(yán)重衰減,從而限制了網(wǎng)絡(luò)的學(xué)習(xí)能力。 與這些方法不同的是,我們只融合相鄰層的特征,因為它們的抽象程度更接近,同時獲得了豐富的尺度信息。
? ? ? ? 多尺度信息。空間金字塔池化模塊(ASPP)和金字塔池化模塊(PPM) [55] 是多尺度信息提取的兩種常見選擇,并且通常固定在網(wǎng)絡(luò)中的最深層 [ 6, 32]。由于較深的特征包含的小尺度對象信息較少,尤其是頂層特征,這些方法無法有效處理大尺度變化。此外,在[37]中,金字塔注意力模塊可以通過對所有位置進(jìn)行多次下采樣和softmax操作來獲得多尺度注意力圖來增強(qiáng)特征。 但是這樣的softmax嚴(yán)重抑制了非最大值,對噪聲更敏感。 它不能很好地改善尺度問題。為了避免誤判小物體,我們提出了一個多尺度處理模塊,其中兩個分支交互學(xué)習(xí)特征。 通過數(shù)據(jù)驅(qū)動的訓(xùn)練,雙路徑結(jié)構(gòu)可以學(xué)習(xí)到豐富的多尺度表示。 此外,過大和過小的物體會造成前景和背景樣本的不平衡,削弱了像素級監(jiān)督的效果。 我們引入了一致性增強(qiáng)損失(CEL)作為交叉熵?fù)p失的輔助。 CEL對物體的大小不敏感,可以克服監(jiān)督的困難,在面對大尺度變化時表現(xiàn)非常好。
2.3、空間相干性
為了提高顯著性圖的空間連貫性和質(zhì)量,一些非深度學(xué)習(xí)方法方法通常整合生成區(qū)域 [44]、超像素 [45] 或目標(biāo)建議 [11] 的超分割方法。 對于基于深度學(xué)習(xí)的方法,Wuetal[41] 提出了一個具有兩個分支的級聯(lián)部分解碼器框架,并直接利用注意力分支生成的注意力圖來細(xì)化顯著性檢測分支的特征。 秦等人。 [27]采用殘差細(xì)化模塊結(jié)合超損失來進(jìn)一步細(xì)化預(yù)測,這顯著降低了推理速度。 在本文中,CEL 更加關(guān)注預(yù)測的整體效果。 它有助于獲得更均勻的顯著性結(jié)果,是效果和速度之間更好的權(quán)衡。
3、提出的方法
????????在本文中,我們提出了一種交互式集成網(wǎng)絡(luò),它融合了多層次和多尺度的特征信息,以處理顯著性目標(biāo)檢測(SOD)任務(wù)中普遍存在的尺度變化問題。?
總結(jié)
以上是生活随笔為你收集整理的Multi-scale Interactive Network for Salient Object Detection(用于显著性目标检测的多尺度交互网络)的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 提交到dockerHub
- 下一篇: 利用cookie实现登陆知网与抽屉网