Depth-aware CNN
Depth-aware CNN
- 摘要:
- Depth-aware Convolution
- Depth-aware Average Pooling
- RGB-D Semantic Segmentation Result
- 性能分析
- 模型復(fù)雜性和運(yùn)行時(shí)分析
- 總結(jié)
摘要:
- 通過(guò)利用CNN內(nèi)核處理空間信息的本質(zhì),深度圖像中的幾何體能夠無(wú)縫地集成到CNN中。
- depth-aware CNN不向傳統(tǒng)CNN中引入任何參數(shù)和計(jì)算復(fù)雜性。
- depth-aware convolution和depth-ware average pooling可以以最小的成本取代傳統(tǒng)CNN中的標(biāo)準(zhǔn)卷積和池化。
depth-aware convolution 中信息傳播的插圖
如圖,Input Feature的濾波器窗口大小為3×3。在圖中所示的深度相似性中,較暗的顏色表示較高的相似性,而較淺的顏色表示兩個(gè)像素的深度較不相似。在(a)中,Depth-aware Convolution的輸出激活是深度相似性窗口和輸入特征映射上的卷積窗口的乘法。與卷積中心具有相似深度的像素將在卷積期間對(duì)輸出產(chǎn)生更大的影響。類似地,在(b)中,Depth-aware Average Pooling合并的輸出是由深度相似性加權(quán)的輸入窗口的平均值。
Depth-aware Convolution
標(biāo)準(zhǔn)2D卷積運(yùn)算是局部網(wǎng)格的加權(quán)和。
其中R是x中p0周圍的局部網(wǎng)格,w是卷積內(nèi)核。R可以是普通卷積核和膨脹卷積定義的規(guī)則網(wǎng)格,也可以是非規(guī)則網(wǎng)格。
如圖,A和C同屬于Table,B屬于Chair,它們?cè)赗GB圖像中都具有相似的視覺(jué)特征,而它們?cè)谏疃壬鲜强煞蛛x的。Depth-aware CNN在卷積和池化時(shí)包含像素間的幾何關(guān)系。 當(dāng)A是濾波器窗口的中心時(shí),C對(duì)輸出單元的貢獻(xiàn)大于B。
為了利用像素之間的深度相關(guān)性,Depth-aware Convolution簡(jiǎn)單地添加深度相似性項(xiàng),從而在卷積中產(chǎn)生兩組權(quán)重:
1) 學(xué)得的卷積核www
2) 兩個(gè)像素之間的深度相似度FDF_DFD?
因此,公式(1)可以寫(xiě)成如下方式:
FDF_DFD?的形式:
aaa是一個(gè)常量,FDF_DFD?的選擇基于直覺(jué),即具有相似深度的像素應(yīng)該彼此具有更大的影響.
注意:FDF_DFD?部分在反向傳播期間不需要梯度,因此公式(2)并沒(méi)有通過(guò)相似性項(xiàng)引入任何參數(shù)。
正如圖一(a)所示,與卷積中心具有相似深度的像素將在卷積期間對(duì)輸出產(chǎn)生更大的影響。
Depth-aware Average Pooling
傳統(tǒng)的average pooling計(jì)算網(wǎng)格R相對(duì)于x的平均值。 它被定義為
對(duì)于每個(gè)像素位置p0,Depth-aware Average Pooling操作然后變?yōu)?/p>
反向傳播過(guò)程中,梯度應(yīng)該乘上 ,正如圖一(b)所示,這種操作避免了標(biāo)準(zhǔn)池化的固定幾何結(jié)構(gòu)。
RGB-D Semantic Segmentation Result
NYUv2
SUN-RGBD
性能分析
為了更好地理解Depth-aware CNN如何優(yōu)于baseline,我們可視化圖6(a)中每個(gè)語(yǔ)義類的IoU改進(jìn)。 統(tǒng)計(jì)表明,D-CNN在大多數(shù)物體類別上都優(yōu)于baseline,特別是天花板和窗簾等大型物體。 此外,我們觀察到深度感知的CNN具有比baseline更快的收斂,尤其是從頭開(kāi)始訓(xùn)練。 圖6(b)顯示了訓(xùn)練步驟的訓(xùn)練損失演變。 我們的網(wǎng)絡(luò)損失值低于baseline。 深度相似性有助于保留邊緣細(xì)節(jié),然而,當(dāng)深度值在單個(gè)對(duì)象中變化時(shí),深度感知的CNN可能丟失上下文信息。 一些失敗案例可以在補(bǔ)充材料中找到。
模型復(fù)雜性和運(yùn)行時(shí)分析
表11報(bào)告了D-CNN的模型復(fù)雜性和運(yùn)行時(shí)間以及最先進(jìn)的方法[27]。 在他們的方法中,kNN至少需要O(kN)運(yùn)行時(shí)間,其中N是像素的數(shù)量。 我們利用原始深度輸入的網(wǎng)格結(jié)構(gòu)。 如表11所示,深度感知操作不包含任何新參數(shù)。 網(wǎng)絡(luò)前進(jìn)時(shí)間僅略大于其基線。 在不增加任何模型參數(shù)的情況下,D-CNN能夠有效地將幾何信息合并到CNN中。
總結(jié)
通過(guò)兩個(gè)操作引出了Depth-aware CNN:Depth-aware Convolution和Depth-aware Average Pooling(在深度圖上算一個(gè)深度相似性,把深度相似性作為一個(gè)權(quán)重)FDF_DFD?。在不引入任何參數(shù)和計(jì)算復(fù)雜性的情況下,該方法能夠大幅提高基線上RGB-D分割的性能。
總結(jié)
以上是生活随笔為你收集整理的Depth-aware CNN的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: Graph Neural Network
- 下一篇: 哪吒:猪八戒十年DevOps演进之路