當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Dynamic Selective Network for RGB-D Salient Object Detection

發(fā)布時(shí)間：2023/12/20 编程问答 55 豆豆

生活随笔收集整理的這篇文章主要介紹了 Dynamic Selective Network for RGB-D Salient Object Detection 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

Dynamic Selective Network for RGB-D Salient Object Detection

用于 RGB-D 顯著目標(biāo)檢測的動(dòng)態(tài)選擇網(wǎng)絡(luò)

IEEE TRANSACTIONS ON IMAGE PROCESSING, VOL. 30, 2021

一 Motivation

通過各種融合策略來整合RGB圖像和深度圖。忽略了兩種模式之間的固有差異，這導(dǎo)致在處理一些具有挑戰(zhàn)性的場景時(shí)性能下降。

二 Solution

動(dòng)態(tài)選擇網(wǎng)絡(luò) (DSNet)，通過充分利用兩種模態(tài)之間的互補(bǔ)性來執(zhí)行rgb-d圖像中的顯著目標(biāo)檢測 (SOD)。

1. 部署一個(gè)跨模式全局上下文模塊 (CGCM) 來獲取高級語義信息，該信息可用于粗略定位顯著對象。

2. 設(shè)計(jì)了一個(gè)動(dòng)態(tài)選擇模塊 (DSM) 來動(dòng)態(tài)挖掘RGB圖像和深度圖之間的跨模態(tài)互補(bǔ)信息，并通過分別執(zhí)行門控和基于池化的選擇來進(jìn)一步優(yōu)化多級和多尺度信息。

3. 進(jìn)行邊界細(xì)化以獲得具有清晰邊界細(xì)節(jié)的高質(zhì)量顯著性圖。

三網(wǎng)絡(luò)框架

3.1 動(dòng)態(tài)選擇網(wǎng)絡(luò)DSNet整體架構(gòu)

典型的編碼器-解碼器架構(gòu)

編碼器：骨干網(wǎng)絡(luò)采用ResNet50，5個(gè)卷積塊，分別下采樣了2，4，8，16，16倍，轉(zhuǎn)換通道數(shù)從64，256，512，1024，2048到64，128，256，512，512

解碼器：動(dòng)態(tài)選擇模塊DSM(跨模態(tài)注意模塊CAM，雙向門控池化模塊BGPM)，跨模態(tài)全局上下文模塊CGCM，

具體過程：將深度圖轉(zhuǎn)換為和RGB一樣的三通道，作為模型的輸入，從ResNet50骨干網(wǎng)絡(luò)提取每一級的紋理和幾何特征，然后將每一層的提取的兩個(gè)特征送到CAM模塊（跨模態(tài)注意模塊），它的作用是動(dòng)態(tài)整合不同模態(tài)互補(bǔ)信息.....

3.2 跨模式全局上下文模塊（CGCM）

CGCM模塊

?因?yàn)楦呒壧卣靼S富的語義信息，可以有效表征全局信息，為了充分整合不同模態(tài)之間的高級語義信息，將RGB流和深度流提取的第5層的兩個(gè)特征送到CGCM模塊，實(shí)現(xiàn)粗略定位顯著對象。具體是兩個(gè)不同模態(tài)的特征將channel轉(zhuǎn)換為1，其中kernel size的大小為1，stride為1 ，然后使用Sigmoid激活函數(shù)與對方輸入矩陣相乘，叫做“模態(tài)間注意機(jī)制”，然后采用Conv-ReLU-Conv增強(qiáng)兩個(gè)特征，再激活再與對方原始輸入逐元素相乘，叫做“模態(tài)內(nèi)注意機(jī)制”，最后將得到的兩個(gè)特征拼接起來得到混合特征，再通過空間注意力機(jī)制，整個(gè)過程可以表示為

3.3 動(dòng)態(tài)選擇模塊 (DSM)

DSM作用是自動(dòng)選擇和合并跨模態(tài)特征（RGB圖和深度圖），自主優(yōu)化和加強(qiáng)跨層次和多尺度的深度特征，DSM由兩個(gè)子模態(tài)構(gòu)成，CAM和BGPM

3.3.1跨模態(tài)注意模塊CAM

CAM模塊

CAM作用是探索RGB圖和深度圖兩個(gè)模態(tài)的相關(guān)性，突出空間特征并融合跨模態(tài)特征。?

具體過程，將每一層得到的兩個(gè)特征送到CAM模塊進(jìn)行融合。如上圖所示，首先將兩個(gè)特征相加起來，再將得到的特征與原始輸入進(jìn)行拼接，可以表示為

?設(shè)置了7個(gè)不同的并行卷積層，s代表步長，p表示填充，d為膨脹系數(shù)，特別是，我們使用shortcut分支來保留原始信息。同時(shí)，參考[40]的架構(gòu)，我們同時(shí)使用全局最大池化操作和全局平均池化操作來計(jì)算空間統(tǒng)計(jì)。不同之處在于我們生成了一個(gè)包含八個(gè)元素的向量 FLS，以匹配并行卷積層的數(shù)量（包括快捷分支）。然后，我們通過自適應(yīng)選擇優(yōu)化跨層深度特征，公式為：

為了加強(qiáng)空間結(jié)構(gòu)特征，我們再次采用空間注意力機(jī)制，將 Sigmoid 函數(shù)替換為 Tanh 函數(shù)，以擴(kuò)大前景特征和背景特征之間的差距，抑制背景區(qū)域，突出顯著區(qū)域。整個(gè)計(jì)算過程實(shí)現(xiàn)為?

3.3.2 雙向門控池化模塊BGPM

比較復(fù)雜，就不進(jìn)行研究了

BGPM模塊

總結(jié)

以上是生活随笔為你收集整理的Dynamic Selective Network for RGB-D Salient Object Detection的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：在Ubuntu18.04.3系统中安装谷
下一篇：图纸上标注的是实际尺寸吗_CAD或工程图