當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Salient Object Detection with Pyramid Attention and Salient Edges

發布時間：2023/12/20 编程问答 43 豆豆

生活随笔收集整理的這篇文章主要介紹了 Salient Object Detection with Pyramid Attention and Salient Edges 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

? ? ? ?

? ? ? ?論文下載（提取碼：3bp6）

? ? ? ? 該文章提出了PAGE-Net模型，該模型的創新之處主要包含了兩個模塊，分別是pyramid attention(即金字塔增強模塊)和salient edge detection(即顯著性邊緣檢測模塊)，前者可以使得模型更加關注和顯著性有關的特征，作者將多尺度的顯著性信息利用到atte-ntion機制中去(通過疊加不同尺度的attention實現)，這樣可使得attention模塊中選出的特征具有更加有效的表達能力，因為堆疊不同尺度的attention可以使得獲取的特征具有更大的感受野。后者可以利用顯著性物體的邊緣信息來細化最終分割的顯著性物體的邊緣，作者是通過監督學習預測顯著性物體的邊緣來獲取邊緣信息。

? ? ? ? 首先，在深度學習中，獲取具有很好代表能力的特征是最關鍵最為基礎的，而具有多尺度空間的特征可以具有很好的代表能力，尤其是在顯著性檢測任務中，有很多工作可以表明多尺度特征具有很大的作用，因為很多工作中的模型都是通過組合各中間層的特征輸出而獲取較好的結果(不同中間層的特征的尺度是不一樣的)。再者，基于CNN的用來解決不同任務的模型都具有一個統一的骨干網絡(Vgg、Res-Net或者其他)，骨干網絡主要負責提取統一的特征，后續根據不同任務而設計的網絡再利用這些統一提取到的特征進行各自的任務，所以骨干網絡提取到的特征具有廣泛性或者說是具有冗余性，而不同的任務可能只需要骨干網絡中提取到的特征的一部分，一般后續設計的特定網絡應該會自適應地選取自己所需的特征，但是最近的一些關于attention的工作的成功表明，我們獲取在接受骨干網絡提取到的特征時就可以先對其進行篩選，這樣的篩選會取得更好的結果，這可能是由于神經網絡的學習能力還不夠強，靠我們后續自己設計的網絡去學習需要的特征還是有困難的，因為那些冗余的特征可能還會造成干擾，其實從這個角度來看，attention就是將原始的特征進行一些過濾，將那些響應值不大的特征濾除，增強響應值大的特征，將解空間減小，這樣有助于后續的神經網絡通過學習選取適合自己任務的特征。在顯著性目標檢測任務中，采用attention模塊可以使得模型更加關注于與顯著性相關的圖像中的區域，從而有效地濾除背景中的一些干擾區域，有效提高模型的性能。attention要濾除不相干的特征，如何判斷哪些特征是不相干的則變成一個有待解決的問題，最開始的方法便是直接對原始特征進行softmax或者sigmoid后得到[0,1]的與原始特征同尺寸的權重矩陣，用該權重矩陣與原始特征進行相應像素相乘進行篩選，這樣做的動機便是認為響應值大的特征便是重要的特征，那些響應值小的特征應該就是不相關的特征，這樣篩選方式還不夠具有任務導向性，后面就有人采用了門的結構，將原始特征與有關的特征進行融合然后再進行上述的attention，類似的操作還有很多，在本片論文中，作者將多尺度特征提取和attention相結合，提取后的特征既具有較大的感受野(多尺度)，而且還更加關注顯著性區域(采用了attention)，作者的做法就是對當前層的原始特征進行不同尺寸的下采樣，對原始特征以及下采樣后的特征再進行attention操作，最后將這些過濾后的特征再融合起來，便得到了pyramid attention后的結果。

? ? ? ?顯著性目標檢測的任務大多是通過語義分割的方式來進行的，我們知道語義分割自從FCN以來就有一個缺點，那就是空間信息的丟失問題，由于CNN中的池化和下采樣的存在，高層特征能夠獲取更大的感受野和更強的表示能力但是代價則是丟失了很多細節性的空間信息，而這些空間信息對于像素精細分類的任務來說是非常必要的，在顯著性目標檢測領域中，盡管有skip connect或者編碼解碼結構來解決這些問題，比如U-Net，通過逐步融合上一層的具有更多的空間信息的特征來一步步細化分割結果，很好地解決了空間信息缺失的問題，但是我覺得盡管融合了底層的特征可以很好地恢復丟失的空間信息，這種方法看似完美地同時解決了分類精度和空間信息恢復的問題，但是我覺得還是有不足的地方，因為盡管底層的特征具有更多的空間信息，但它畢竟就是特征，他的表示性相較于高層特征還具有一定差距，也就是具有語義上的鴻溝，融合高層和底層的特征就需要網絡來縮小它們之間的語義鴻溝，這增加了網絡的負擔，而且縮小語義鴻溝和恢復空間信息貌似是兩個具有矛盾性的問題，因為網絡在融合的過程中肯定會權衡某個像素的分類是根據高層特征來分類還是通過底層特征來分類，若是對顯著性目標進行定位肯定考慮高層特征多些，若是細化顯著性目標的邊緣肯定是考慮底層特征多些，若網絡對于底層特征考慮過多，那么可能就會直接導致顯著性目標檢測的錯誤，盡管邊緣可能會很好，若是網絡對于高層特征考慮過多，則得出的結果顯著性目標會檢測到，但其邊緣可能會有模糊不清的表現，所以我們可能會看到，U-Net可能對于那些較為容易檢測出來的顯著性物體有很準確的定位以及邊緣分割效果，但是對于那些背景比較復雜的難以分類的顯著性物體來說，要么會檢測出背景中的物體，要么檢測出來的顯著性物體邊緣會有模糊的現象，這可能就是類似于U-Net方法對于特征的語義鴻溝處理不當所造成的結果，雖然我并不知道如何解決這個問題，但是U-Net的缺點應該就是這樣的。在本文中作者將顯著性物體的邊緣信息融入到提取到的特征中，作者是通過網絡預測顯著性物體邊緣來得到邊緣信息的，有了邊緣信息可以使得模型更好地定位顯著性物體以及細化分割結果。之前的方法中還有增加邊緣loss，可以使得模型更加注重于顯著性物體邊緣的像素的分類。

? ? ? ?本篇論文的模型如下圖所示，模型主要由三部分構成，分別是用于提取特征的骨干網絡(最左邊的墨藍色表示)，每一層out-side的pyramid attention模塊(中間灰色的虛線框所示)，以及顯著性邊緣檢測模塊(最右邊黃色虛線框表示)。

圖一?

? ? ? ? ? ?

? ? ? ?pyramid attention模塊如圖二所示，

圖二

X表示為顯著性網絡的一個卷積層輸出的3D的特征張量（用表示），則，M代表特征張量的尺寸，C代表通道數，我們的目的是學習系列和X尺寸相同的數值為[0,1]的attention mask，用以篩選原始特征X，獲取多尺度特征的方式是逐步對X進行尺度為的下采樣，得到n個多尺度特征,即

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??

對于每一個，我們進行softmax操作得出attention mask，用表示，具體計算公式如下所示：

其中的是隱層的權重值，說明在softmax之前還對進行一系列的卷積，將通道轉化成單通道，i的取值是1到，所有的加起來等于1。然后對進行上采樣得到,即

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?

最終attention后的特征Y由以下公式得到，可見此處的attention是spatial attention沒有考慮channel attention。

這樣計算的attention后的feature有很多接近于0的值，這樣不利于梯度的反向傳播，原因可能類似于梯度彌散，為了解決這個問題，增加了恒等映射，則最終的公式變成如下所示：

? ? ? ?若直接將得到的特征Y通過一小系列卷積以及最后的sigmoid激活函數便可進行分割結果的預測，但是這樣做之后得到的結果并沒有很精細的邊界，通過添加顯著性邊緣預測模塊可以使得網絡更加注重于顯著性邊界像素的預測來學習如何細化分割邊界。salient edge detection模塊如圖三所示：

圖三

? ? ? ? 用表示訓練數據，K便是batch_size的大小，?，和?分別是三通道的原始彩色圖，相應的ground truth和由ground truth生成的顯著性邊緣gt。經過pyramid attention后的特征Y先經過顯著性邊緣檢測模塊()，該模塊由一系列卷積構成，是經過pyramid attention后的特征，所采用的損失函數是L2范數，如下所示：

得到顯著性邊緣特征()后，將其和一起送入到saliency readout network R(, ())中得到最終的顯著圖的預測結果，整個模塊的總的損失函數如下所示：

saliency loss的損失是加權的交叉熵loss，公式如下所示：

i表示搜索完圖片中的所有像素點，S是最終的顯著性預測，是顯著性像素占整個GT的比例，添加的目的就是解決顯著性像素和非顯著性像素數目不均衡的問題。

為了進一步提高模型的性能，作者也采用了密集連接，只不過他是將前面層的saliency map連接了過來，而不是feature map，如下所示：

是第層經過pyramid attention后的特征，和分別是前面層預測的顯著性邊界和最終的顯著性預測結果，代表必要的采樣和串聯操作。

總結

以上是生活随笔為你收集整理的Salient Object Detection with Pyramid Attention and Salient Edges的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：广州楼市：400W，高升值潜力的热门板块
下一篇：「镁客·请讲」VR的拓荒者，幻境视界让V