深度特征提取方法_深度学习|三维重建:StereoDRNet
這是我之前在泡泡機(jī)器人上翻譯的文章,放在這里做個備份,原文鏈接:https://www.sohu.com/a/339674840_715754
一、摘要
我們提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)的深度估計系統(tǒng),該系統(tǒng)通過對從雙目圖像對中預(yù)測的深度圖進(jìn)行體積融合,從而得到場景的三維重建。我們提出了一種深度改進(jìn)架構(gòu),它可以計算可視圖的視差并預(yù)測遮擋部分,進(jìn)而幫助融合系統(tǒng)產(chǎn)生幾何一致的重建。我們在提出的新的代價濾波網(wǎng)絡(luò)中利用3D擴(kuò)張卷積,與現(xiàn)有濾波架構(gòu)相比,會產(chǎn)生更好的濾波效果,同時將計算量減少一半。對于特征提取,我們使用Vortex Pooling架構(gòu)。所提出的方法在KITTI 2012,KITTI 2015和ETH 3D數(shù)據(jù)集測試中均取得了最優(yōu)秀的結(jié)果。最后,我們證明了我們的系統(tǒng)能夠產(chǎn)生高質(zhì)量的3D場景重建效果,其性能優(yōu)于當(dāng)前最先進(jìn)的重建系統(tǒng)。
1. 新的視差改進(jìn)網(wǎng)絡(luò)
我們工作的主要動機(jī)是預(yù)測立體輸入的幾何一致視差圖,可以直接用于基于TSDF的融合系統(tǒng),如KinectFusion,用于同步跟蹤和繪圖。表面法線是KinectFusion類系統(tǒng)中融合權(quán)重計算的一個重要因素,我們觀察到現(xiàn)有的雙目重建系統(tǒng)(如PSMNet)產(chǎn)生的視差圖不是幾何一致的,對TSDF融合產(chǎn)生負(fù)面影響。為了解決這個問題,我們提出了一種新穎的改進(jìn)網(wǎng)絡(luò),它將幾何誤差,光度誤差和未確定的視差作為輸入,并產(chǎn)生重新定義的視差(通過殘差學(xué)習(xí))和遮擋圖。
2. 代價濾波中的3D擴(kuò)張卷積
使用3D代價濾波方法的最先進(jìn)的雙目重建系統(tǒng)(如PSMNet和GC-Net)使用了過多的計算資源。而在我們的系統(tǒng)中,在所有三個維度(即寬度,高度和視差通道)中使用3D擴(kuò)張卷積給出了更好的結(jié)果,并且計算量更少。
3. vortex pooling
我們觀察到,與空間金字塔池化(在PSMNet中使用)相比,vortex pooling 提供了更好的結(jié)果。我們發(fā)現(xiàn)用過濾非基本真實區(qū)域的排除掩模微調(diào)我們的模型,對于獲得視差預(yù)測中的銳邊和細(xì)節(jié)非常有用。
二、主要算法
1、整體思路
本論文所提出的算法可以分解為特征提取,代價濾波和視差估計改進(jìn)三個步驟,而不是使用通用的編碼器 - 解碼器CNN。算法整體的系統(tǒng)流程如下圖所示。
2、特征提取
特征提取從一個小的共享權(quán)重Siamese網(wǎng)絡(luò)開始,該網(wǎng)絡(luò)將輸入作為圖像并將輸入編碼為一組特征。為了在特征映射中對局部空間信息進(jìn)行編碼,首先使用大小為2的卷積對輸入進(jìn)行下采樣。本方法使用三個濾波器而不是大型的卷積,其中第一個卷積的步幅為2。為了編碼更多的上下文信息,在學(xué)習(xí)的局部特征圖上選擇Vortex Pooling,Vortex Pooling的結(jié)構(gòu)圖如下圖所示。除了在空間池化輸出上的最后3x3卷積之外,我們的每個卷積之后都是批量標(biāo)準(zhǔn)化和RELU激活。為了使特征信息保持緊湊,在整個特征提取過程中將特征的尺寸保持為32。
3、代價體素濾波
首先通過沿寬度,高度和深度尺寸的卷積處理代價量。然后通過2的步幅進(jìn)行卷積來降低代價的分辨率,然后并行地進(jìn)行擴(kuò)張卷積。擴(kuò)張卷積濾波器的串聯(lián)上的卷積用于組合從不同感受野獲取的信息。
殘差學(xué)習(xí)已經(jīng)被證明在視差優(yōu)化過程中非常有效,因此提出了一系列這樣的塊來迭代地改進(jìn)視差預(yù)測的質(zhì)量。將整個過程描述為擴(kuò)張殘差代價濾波,如下圖所示。
4、視差估計改進(jìn)
我們首先通過使用一層卷積,然后批量歸一化來獨(dú)立過濾左圖像和重建誤差以及左視差和幾何誤差圖。隨后將這些結(jié)果連接起來,進(jìn)行空洞卷積,從而在不增加網(wǎng)絡(luò)規(guī)模的情況下從更大的上下文中進(jìn)行采樣。我們分別使用速率為1,2,4,8,1和1的擴(kuò)張。最后,使用沒有ReLU或批量歸一化的單個卷積來輸出遮擋圖O和視差殘差圖R。改進(jìn)后的網(wǎng)絡(luò)結(jié)構(gòu)如下圖所示。
三、實驗
作者在整個多個數(shù)據(jù)集上測試了所提出的架構(gòu),例如SceneFlow,KITTI 2012,KITTI 2015和ETH3D。而且還展示了系統(tǒng)在構(gòu)建室內(nèi)場景的3D重建中的實用性。
在SceneFlow數(shù)據(jù)集上和PSMNet網(wǎng)絡(luò)的對比效果如下圖所示。圖中頂行顯示差異,底行顯示EPE地圖。從圖中可以看出,作者所提出的網(wǎng)絡(luò)能夠恢復(fù)薄和小結(jié)構(gòu),同時在均勻區(qū)域中顯示較低的誤差。
下表顯示了有和沒有改進(jìn)網(wǎng)絡(luò)架構(gòu)的定量分析。Stereo-DRNet可以在減少計算時間的同時實現(xiàn)顯著降低端點(diǎn)誤差。而且作者提出的代價濾波方法在計算量顯著降低的情況下實現(xiàn)更高的準(zhǔn)確性,證明了方法的有效性。
四、結(jié)論
本文提出了一種基于雙目的3D場景重建方法,該方法使用卷積神經(jīng)網(wǎng)絡(luò)結(jié)合預(yù)測深度圖來估計圖像對的深度。
同時提出了一種深度改進(jìn)架構(gòu),它幫助融合系統(tǒng)產(chǎn)生幾何一致的重建。最后在SceneFlow數(shù)據(jù)集上的結(jié)果顯示,取得了state-of-art的效果。
創(chuàng)作挑戰(zhàn)賽新人創(chuàng)作獎勵來咯,堅持創(chuàng)作打卡瓜分現(xiàn)金大獎總結(jié)
以上是生活随笔為你收集整理的深度特征提取方法_深度学习|三维重建:StereoDRNet的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Linux怎么安装wget命令
- 下一篇: SAP官方提供的人脸识别API