當(dāng)前位置：首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

视角不平衡立体匹配研究

發(fā)布時(shí)間：2024/10/8 编程问答 65 豆豆

生活随笔收集整理的這篇文章主要介紹了视角不平衡立体匹配研究小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

?PaperWeekly 原創(chuàng) · 作者｜張承灝

學(xué)校｜中科院自動(dòng)化所碩士生

研究方向｜場(chǎng)景感知和深度估計(jì)

一個(gè)典型的立體視覺(jué)系統(tǒng)通常包括一臺(tái)具有左右兩個(gè)攝像頭的攝像機(jī)，兩個(gè)攝像頭在同一水平線上、同一時(shí)刻成像，得到左右兩個(gè)視角的 RGB 圖像。利用立體匹配（stereo matching）算法可從來(lái)自左右視角的兩幅 RGB 圖像中得到用于三維場(chǎng)景重建的深度信息。

無(wú)論是傳統(tǒng)算法還是基于深度學(xué)習(xí)的算法，大多數(shù)研究是基于平衡視角的立體匹配，即左右視角圖像是由具有相同相機(jī)內(nèi)參的攝像頭，同時(shí)成像的 RGB 圖像。

近來(lái)，不少研究開始關(guān)注不平衡視角的立體匹配。根據(jù)左右視角圖像的不同，已有的研究工作可以分為以下幾類：

經(jīng)典的立體匹配：左右圖是相同相機(jī)，同時(shí)成像的 RGB 彩色圖像；
跨譜立體匹配：左圖是可見(jiàn)光 RGB 彩圖，右圖是紅外圖像；
視覺(jué)不平衡立體匹配：左圖是高質(zhì)量的 RGB 圖像，右圖是低質(zhì)量的 RGB 圖像；
長(zhǎng)短焦立體匹配：左圖是短焦距、寬視角 RGB 圖像，右圖是長(zhǎng)焦距、窄視角 RGB 圖像；

本文主要介紹后面三類的代表性研究工作。

跨譜立體匹配

論文標(biāo)題：Unsupervised Cross-spectral Stereo Matching by Learning to Synthesize

論文來(lái)源：AAAI 2019

論文鏈接：https://arxiv.org/abs/1903.01078

1.1 概述

多攝像頭多光譜系統(tǒng)在很多現(xiàn)代設(shè)備中變得十分普遍，并且紅外圖像對(duì)于人臉識(shí)別，目標(biāo)檢測(cè)和場(chǎng)景解析等領(lǐng)域具有很大的幫助。因此，跨譜立體匹配具有很大的研究?jī)r(jià)值。

如上圖所示，跨譜立體匹配指的是左圖是可見(jiàn)光圖像（a），右圖是近似紅外圖像（b）?？缱V立體匹配的挑戰(zhàn)在于兩方面：一是可見(jiàn)光圖像和紅外圖像在視覺(jué)外觀上具有很大的差異，例如（c）中顯示的衣服，燈光和草坪。二是跨譜圖像的真實(shí)視差往往難以獲取。本文采用 cycleGAN 以無(wú)監(jiān)督學(xué)習(xí)的方式來(lái)實(shí)現(xiàn)不平衡視角的跨譜立體匹配。

1.2 方法

上圖是跨譜立體匹配的總體框架圖。網(wǎng)絡(luò)分為兩個(gè)部分，一是譜變換網(wǎng)絡(luò) STN，從 cycleGAN 改進(jìn)得到，用來(lái)將可見(jiàn)光左圖和紅外右圖變換到可見(jiàn)光右圖和紅外左圖。二是立體匹配網(wǎng)絡(luò) SMN，從 DispNet [1] 改進(jìn)得到，利用變換得到的可見(jiàn)光右圖和紅外左圖估計(jì)左右圖視差。下面重點(diǎn)介紹這兩個(gè)網(wǎng)絡(luò)，核心是損失函數(shù)的設(shè)計(jì)。

譜變換網(wǎng)絡(luò)STN

給定來(lái)自譜 A（可見(jiàn)光）的圖像 , 和譜 B（紅外）的圖像 , 首先定義三種映射：

其中 F 將編碼到一個(gè)統(tǒng)一的特征空間，和分別是將特征解碼到相應(yīng)譜得到圖像的生成器。，和由對(duì)抗損失和循環(huán)重構(gòu)損失監(jiān)督。其中對(duì)抗損失由兩個(gè)判別器和給定，判別器用來(lái)鑒別生成圖像的真?zhèn)巍?/p>

對(duì)于判別器的訓(xùn)練：對(duì) 采用分類損失，以判斷生成的譜 A 的圖像是真是假，對(duì)于同理，因此訓(xùn)練判別器的損失為：

對(duì)于生成器的訓(xùn)練：采用對(duì)抗損失和循環(huán)重建損失。對(duì)抗損失用來(lái)迷惑判別器，通過(guò)最大化判別器的分類誤差，生成器的對(duì)抗損失為：

生成器的循環(huán)重建損失為：

其中是，而是。即衡量的是譜 A 圖經(jīng)過(guò) STN 變換到譜 B 后，再經(jīng)過(guò) STN 變換回譜 A 后的重建誤差。

為了保證將圖像映射到相同的隱含語(yǔ)義特征空間，并防止 STN 學(xué)習(xí)視差，作者引入一個(gè)輔助的重構(gòu)損失：

其中是，是。那么，最終對(duì)于生成器和判別器的損失可以總結(jié)為：

跨譜立體匹配網(wǎng)絡(luò)SMN

跨譜立體匹配網(wǎng)絡(luò) SMN 采用經(jīng)典的 DispNet，同時(shí)估計(jì)以左右圖為參考圖像的視差和，其采用 [2] 中介紹的三種無(wú)監(jiān)督損失函數(shù)，即外觀匹配損失（appearance matching，ap），視差平滑損失（disparity smoothness，ds）和左右一致性損失（left-right consistency，lr）。

關(guān)于這三種函數(shù)的詳細(xì)介紹以及更多無(wú)監(jiān)督損失函數(shù)，可以參考之前的文章雙目深度估計(jì)中的自監(jiān)督學(xué)習(xí)概覽。

為了進(jìn)一步提升性能，作者還引入了一個(gè)輔助損失來(lái)訓(xùn)練 STN：

其中，，是 warping 操作。該損失函數(shù)衡量的是原圖經(jīng)過(guò) STN 變換后得到的圖像，與 SMN 得到的視差經(jīng)過(guò)變形重構(gòu)后的圖像的誤差。

迭代優(yōu)化

為了訓(xùn)練整個(gè)網(wǎng)絡(luò)，作者采用的是分步迭代優(yōu)化的策略，具體的步驟如上圖所示。第 (1) 步，通過(guò)判別器損失來(lái)訓(xùn)練判別器 D，從而使得判別器能夠鑒別真假圖像。第 (2) 步，通過(guò)生成器損失訓(xùn)練 F 和 G 網(wǎng)絡(luò)。

第 (3) 步，通過(guò) 訓(xùn)練立體匹配網(wǎng)絡(luò)。第 (4) 步，通過(guò) 對(duì) F 和 G 網(wǎng)絡(luò)進(jìn)行全局優(yōu)化。先只使用第 (1) 和第 (2) 步對(duì)整個(gè)網(wǎng)絡(luò)進(jìn)行幾個(gè) epoch 的預(yù)熱訓(xùn)練，之后將四個(gè)步驟一起用于進(jìn)一步的訓(xùn)練。

1.3 實(shí)驗(yàn)

作者采用的數(shù)據(jù)集是 2018 年提出的 PittsStereo-RGBNIR 數(shù)據(jù)集，它的圖像對(duì)是由一個(gè)可見(jiàn)光相機(jī)和一個(gè)近似紅外相機(jī)對(duì)采集的。評(píng)測(cè)指標(biāo)采用的是均方誤差 RMSE。上圖是和其他方法的對(duì)比以及作者的消融實(shí)驗(yàn)。

可以看到完整的方法在 lights, glass, glossy，surface 和 bag 類別上取得了最好的性能，但是在其他類別上稍遜一籌。作者也坦言通過(guò) STN 依然很難在 clothing 這個(gè)類別上進(jìn)行可見(jiàn)光和紅外圖像之間變換，也許之后的研究可以專門針對(duì)這個(gè)問(wèn)題來(lái)設(shè)計(jì)更好的方法。

1.4 延伸

類似采用 GAN 來(lái)實(shí)現(xiàn)兩個(gè)領(lǐng)域數(shù)據(jù)變換的方法還有今年 CVPR 提出的 StereoGAN，它采用 cycleGAN 來(lái)解決域自適應(yīng)立體匹配，大家有興趣可以對(duì)照著閱讀。

論文標(biāo)題：StereoGAN: Bridging Synthetic-to-Real Domain Gap by Joint Optimization of Domain Translation and Stereo Matching

論文來(lái)源：CVPR 2020

論文鏈接：https://arxiv.org/abs/2005.01927

視覺(jué)不平衡立體匹配

論文標(biāo)題：Visually Imbalanced Stereo Matching

論文來(lái)源：CVPR 2020

論文鏈接：http://openaccess.thecvf.com/content_CVPR_2020/papers/Liu_Visually_Imbalanced_Stereo_Matching_CVPR_2020_paper.pdf

開源代碼：https://github.com/DandilionLau/Visually-Imbalanced-Stereo

2.1 背景

現(xiàn)代智能手機(jī)中普遍采用雙攝相機(jī)（dual-lens），雙攝的組合可以是彩色+彩色，彩色+黑白等。本文考慮的組合是視覺(jué)質(zhì)量不平衡的雙攝，即高分辨率的主相機(jī)（master camera）和低分辨率的從相機(jī)（slave camera）的立體匹配。

其實(shí)無(wú)論是人眼視覺(jué)系統(tǒng)或者計(jì)算機(jī)視覺(jué)系統(tǒng)，在進(jìn)行立體匹配時(shí)對(duì)低分辨率的圖像都具有一定的魯棒性。即使右圖比較模糊，立體匹配算法也能較好的估計(jì)視差。畢竟很多算法采用多尺度匹配策略，圖像通常先降到較低的分辨率提取特征，再逐漸由粗到精恢復(fù)原分辨率的視差圖。

那么現(xiàn)在的一個(gè)問(wèn)題是當(dāng)右圖模糊到什么程度時(shí)，立體匹配算法會(huì)失效？作者首先進(jìn)行了一個(gè)實(shí)驗(yàn)，將右圖先下采樣多倍再上采樣恢復(fù)，以模糊圖像。下圖是對(duì)經(jīng)典的傳統(tǒng)方法和深度學(xué)習(xí)方法進(jìn)行評(píng)測(cè)的結(jié)果。

由上圖可以看出隨著模糊程度的加深，傳統(tǒng)算法和深度學(xué)習(xí)算法的錯(cuò)誤率都逐漸增大。以單目左圖作為輸入構(gòu)建各個(gè)模型的 baseline，這里紅色標(biāo)注的是性能低于 baseline 的拐點(diǎn)。這說(shuō)明對(duì)于多數(shù)方法：

當(dāng)模糊 5 倍以下時(shí)，右圖仍然能夠?yàn)殡p目視差估計(jì)提供有用的信息，從而高于單目 baseline 的性能。
當(dāng)模糊大于 8 倍時(shí)，立體匹配算法失效，過(guò)于模糊的圖像對(duì)于雙目視差估計(jì)弊大于利，不如直接輸入高分辨率的左圖。

下面的曲線圖便于更直接的觀察，以得出上述結(jié)論。

2.2 方法

為了解決左右視角在視覺(jué)質(zhì)量上的不平衡問(wèn)題，作者提出兩步走的方法。

引導(dǎo)視角合成：利用高分辨率的左圖作為引導(dǎo)，先恢復(fù)低分辨率的右圖。該做法的依據(jù)是，盡管低分辨率的右圖十分模糊，但是目標(biāo)粗略的邊緣輪廓信息仍然可以識(shí)別，通過(guò)左右圖在邊緣輪廓信息上的匹配，將左圖的紋理移位到匹配的右圖區(qū)域，就能恢復(fù)清晰的右圖。

視差重構(gòu)：利用原始左圖和恢復(fù)后的右圖進(jìn)行立體匹配。

動(dòng)態(tài)移位濾波層

上圖展示了引導(dǎo)視角合成的原理。我們可以通過(guò)引導(dǎo)視角合成網(wǎng)絡(luò)來(lái)學(xué)習(xí)左右圖在邊緣輪廓上的匹配情況，從而生成一個(gè)水平方向的濾波器和一個(gè)豎直方向的濾波器，大小分別是和，用來(lái)表示右圖相對(duì)于左圖的偏移。

為了減少內(nèi)存占用量，這里采用兩個(gè)一維濾波器的組合而不是學(xué)習(xí)一個(gè)二維濾波器。之后利用高質(zhì)量的左圖作為參考，利用和的移位信息，即可將左圖的紋理在二維空間上移位，得到高質(zhì)量的右圖。

上述過(guò)程可用公式表示為：

其中和分別是網(wǎng)絡(luò)預(yù)測(cè)得到的一維線性偏移濾波器，它們倆的內(nèi)積可以近似表示二維線性偏移濾波器，是左圖的圖像塊。以此操作可以得到恢復(fù)的高質(zhì)量右圖。

深度引導(dǎo)濾波層

為了進(jìn)一步的優(yōu)化邊緣信息，可以采用左圖中的目標(biāo)形狀知識(shí)來(lái)對(duì) 和進(jìn)行引導(dǎo)濾波。原始的引導(dǎo)濾波算法（Guided Image Filtering）是何愷明在 2013 年的 PAMI 上提出的。這是一個(gè)在引導(dǎo)圖像和濾波輸出之間的局部線性模型：

其中是以像素為中心的局部窗口，線性系數(shù) 是窗口內(nèi)的常數(shù)。這個(gè)局部線性模型確保輸出有邊緣當(dāng)且僅當(dāng) 有邊緣。并且，濾波輸出應(yīng)當(dāng)與輸入相似，通過(guò)最小化下述公式：

這里是一個(gè)正則化參數(shù)。在本文中，作者以左圖作為引導(dǎo) , 以濾波體的第 d 個(gè)切片作為輸出，那么線性變換可以寫作：

作者采用引導(dǎo)濾波的加速的，完全可導(dǎo)的版本——深度引導(dǎo)濾波，作為和的位移學(xué)習(xí)的最后一層網(wǎng)絡(luò)。

視覺(jué)不平衡立體匹配網(wǎng)絡(luò)

上圖是整個(gè)視覺(jué)不平衡立體匹配網(wǎng)絡(luò)的框架圖，主要包含上半部的引導(dǎo)視角合成網(wǎng)絡(luò)和下半部的視差重構(gòu)網(wǎng)絡(luò)。

具體地，高質(zhì)量的左圖和低質(zhì)量的右圖作為引導(dǎo)視角合成網(wǎng)絡(luò)的輸入，其結(jié)構(gòu)類似于 U-Net 的編碼-解碼結(jié)構(gòu)。在輸出部分采用深度引導(dǎo)濾波層分別學(xué)習(xí)兩個(gè)一維偏移濾波器，它們通過(guò)動(dòng)態(tài)移位濾波層相組合，從而近似估計(jì)二維偏移濾波器。

根據(jù)左圖與移位濾波器的點(diǎn)乘組合重構(gòu)高質(zhì)量的右圖。由于偏移濾波器的真值很難獲得，因此這里并沒(méi)有對(duì)中間產(chǎn)生的偏移濾波器進(jìn)行顯示地監(jiān)督。引導(dǎo)視角合成網(wǎng)絡(luò)的損失函數(shù)包括圖像層面的光度損失和特征層面的感知損失。二者的表達(dá)式分別為：

圖像光度損失：

特征感知損失：

這里表示 VGG-19 的第 j 個(gè)卷積層特征圖，而分別是特征圖的數(shù)量，高度和寬度。

視差重構(gòu)網(wǎng)絡(luò)采用帶有相關(guān)層的 DispNet [1]?結(jié)構(gòu)，以高質(zhì)量的左圖和恢復(fù)的右圖作為輸入進(jìn)行視差估計(jì)，最后采用多尺度的 L1 范式進(jìn)行有監(jiān)督回歸學(xué)習(xí)。

2.3 實(shí)驗(yàn)

作者以 KITTI Raw Data 作為訓(xùn)練，在 KITTI 2015 上評(píng)測(cè)，以光度評(píng)測(cè)指標(biāo) PSNR 和 SSIM 來(lái)評(píng)估引導(dǎo)視角合成網(wǎng)絡(luò)，以 D1 指標(biāo)評(píng)估視差估計(jì)網(wǎng)絡(luò)，主要實(shí)驗(yàn)了三種不平衡因素下的性能：

單目模糊（Monocular Blur）：10 倍，15 倍和 20 倍；

整流誤差（Rectification Error）：最大程度為 0.5 和 1.0；

設(shè)備噪聲（Sensor Noise）：高斯模糊方差為 0.5 和 1.0；

上圖展示了這三種不平衡因素的視差估計(jì)結(jié)果，(a) 中從上至下是 10X 模糊，15X 模糊，噪聲，噪聲，10X 模糊 +0.5 整流誤差，10X 模糊 +1.0 整流誤差。(b)、(c)、(d) 分別是 PSMNet，CRL 以及 DORN 等 SOTA 方法，(e) 本文的方法。

可見(jiàn)，所提出的引導(dǎo)視角生成方法對(duì)于各種不平衡因素都具有魯棒性，能夠獲得較為準(zhǔn)確的視差圖。更多定量和定性的實(shí)驗(yàn)結(jié)果可參考原論文。

長(zhǎng)短焦立體匹配

論文標(biāo)題：TW-SMNet: Deep Multitask Learning of Tele-Wide Stereo Matching

論文鏈接：https://arxiv.org/abs/1906.04463

3.1 概述

雙目視覺(jué)系統(tǒng)為了更好地對(duì)環(huán)境感知，會(huì)采用焦距不同的兩個(gè)相機(jī)相互輔助。這里根據(jù)視野（field of views，FOV）大小不同可以得到對(duì)前后景的不同感知。

例如，左圖是寬視野（wide FOV，WFOV），成像焦距更小，但是能夠看到更廣闊的遠(yuǎn)景；右圖是窄視野（Tele FOV，TFOV），成像焦距更大，但是能夠聚焦于感興趣的近景。

如上圖所示，本文通過(guò)多任務(wù)學(xué)習(xí)的方式來(lái)解決長(zhǎng)短焦距視角下的立體匹配任務(wù)，定義左圖為?1 倍焦距的 WFOV 圖像，右圖為?2 倍焦距的 TFOV 圖像，右圖的內(nèi)容為左圖的中心內(nèi)容，該任務(wù)命名為?Tele-Wide Stereo Matching，TW-SM。

采用長(zhǎng)短焦立體匹配是為了獲得更好的背景虛化效果（Bokeh）。以往的方法將左圖 WFOV 裁剪成和右圖 TFOV 一樣小的視角，那么只能估計(jì) TFOV 區(qū)域大小的視差圖，得到的背景虛化圖區(qū)域有限。而如果能得到 WFOV 區(qū)域大小的視差圖，則可以獲得全景背景虛化效果，如上圖（b）。

3.2 方法

作者對(duì) TW-SM 任務(wù)定義了多種子任務(wù)和網(wǎng)絡(luò)結(jié)構(gòu)，下面分別介紹：

TW-SMNet

該任務(wù)的輸入是左圖 WFOV 和右圖 TFOV，根據(jù)得到視差結(jié)果的不同又可以分為兩種，TW-SMNet (T)?和?TW-SMNet (W)。

TW-SMNet (T) 表示僅在左圖 WFOV 和右圖 TFOV 的重疊區(qū)域進(jìn)行雙目視差估計(jì)，得到的視差圖應(yīng)當(dāng)與 TFOV 區(qū)域大小相同。TW-SMNet (T) 的網(wǎng)絡(luò)結(jié)構(gòu)仿照 PSMNet。

輸入時(shí)先將左圖 WFOV 按照右圖進(jìn)行裁剪，再上采樣到和右圖一致的分辨率。TW-SMNet (T) 可以得到 TFOV 區(qū)域內(nèi)較為準(zhǔn)確的視差圖，但是對(duì)于 TFOV 區(qū)域周圍的區(qū)域卻無(wú)法進(jìn)行視差估計(jì)。

TW-SMNet (W) 表示在左圖 WFOV 和右圖 TFOV 的并集區(qū)域進(jìn)行雙目視差估計(jì)，得到的視差圖應(yīng)當(dāng)與 WFOV 區(qū)域大小相同。TW-SMNet (W) 和 TW-SMNet (T) 結(jié)構(gòu)相同。

輸入時(shí)先將右圖 TFOV 下采樣再在其周圍進(jìn)行零填充，和左圖一致的分辨率。TW-SMNet (W) 在 TFOV 區(qū)域內(nèi)可以得到較為準(zhǔn)確的視差圖，但是在其周圍估計(jì)的不準(zhǔn)確，因?yàn)槿鄙儆覉D相應(yīng)位置的圖像信息。

SHG-SIDE

為了提升 TFOV 周圍區(qū)域的視差估計(jì)性能，作者又設(shè)計(jì)了一個(gè)以 stacked hourglass 為主體結(jié)構(gòu)的單張圖像逆深度估計(jì)網(wǎng)絡(luò) SHG-SIDE，其輸入是左圖 WFOV，輸出是逆深度。在立體視覺(jué)中，如果已知雙目相機(jī)的基線距離和相機(jī)焦距，那么深度的逆（倒數(shù)）就和視差成正比，即：

因此對(duì)深度的逆的估計(jì)其實(shí)就是對(duì)視差的估計(jì)。

由于輸入改為單張圖像，SHG-SIDE 在 TW-SMNet 結(jié)構(gòu)的基礎(chǔ)上去掉了雙輸入和 cost volume，之后的 3D 聚合網(wǎng)絡(luò)也由此降維成 2D 卷積網(wǎng)絡(luò)，其余結(jié)構(gòu)不變。

SHG-SIDE 相比于 TW-SMNet 在 TFOV 周圍區(qū)域能估計(jì)更準(zhǔn)確的視差，但是由于缺少另一個(gè)視角的 TFOV，在 TFOV 區(qū)域估計(jì)的視差不如原來(lái)的 TW-SMNet。

MT-TW-SMNet

上面介紹的 TW-SMNet 和 SHG-SIDE 各具優(yōu)勢(shì)，TW-SMNet 對(duì)于 TFOV 區(qū)域估計(jì)的更準(zhǔn)確，而 SHG-SIDE 對(duì)于 TFOV 周圍區(qū)域估計(jì)的更準(zhǔn)確。為了充分利用二者的優(yōu)勢(shì)，作者采用將 TW-SMNet 和 SHG-SIDE 相結(jié)合的多任務(wù)學(xué)習(xí)模式來(lái)解決 TW-SM 任務(wù)，其整體網(wǎng)絡(luò)結(jié)構(gòu) MT-TW-SMNet 如下：

左圖 WFOV 和右圖 TFOV 作為輸入，原有的 TW-SMNet 和 SHG-SIDE 共享特征提取模塊 ResNet-50+SPP，之后同時(shí)進(jìn)行單目逆深度估計(jì)任務(wù)和雙目視差估計(jì)任務(wù)，對(duì)于得到的結(jié)果進(jìn)行融合，從而能夠得到在整個(gè) WFOV 區(qū)域都估計(jì)較為準(zhǔn)確的視差圖。其總體損失函數(shù)為，其中：

在測(cè)試時(shí)，為了提升效率，可以直接采用雙目視差估計(jì) SMDE 網(wǎng)絡(luò)的結(jié)果，因?yàn)槎嗳蝿?wù)學(xué)習(xí)過(guò)程中 SIDE 已經(jīng)貢獻(xiàn)了 TFOV 周圍像素的特征，這使得 SMDE 能夠?qū)θ终Z(yǔ)義信息有更好的理解。因此測(cè)試時(shí)即使不加上 SIDE，也能夠較好的估計(jì) TFOV 周圍的區(qū)域。

3.3 實(shí)驗(yàn)

作者在 SceneFlow 和 KITTI 2015 數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)，這里重點(diǎn)分析上面介紹的幾種模型的性能。

上表是在 KITTI 2015 上的實(shí)驗(yàn)結(jié)果，SHG-SIDENet 的整體錯(cuò)誤率最低，但是在中心區(qū)域（TFOV）性能較差。TW-SMNet 在中心區(qū)域的性能很好，TW-SMNet (T) 不能估計(jì)周圍像素的視差，TW-SMNet (W) 在周圍像素估計(jì)上不如 SHG-SIDENet。MT-TW-SMNet 相比于 TW-SMNet (W) 提升了周圍像素和總體像素的準(zhǔn)確率，但是中心區(qū)域要差一些。

相似的結(jié)論能夠在上表的 SceneFlow 測(cè)試集上得到，其中 MT-TW-SMNet 相比于 TW-SMNet(W) 和 SHG-SIDENet 在中心區(qū)域和周圍區(qū)域都有所提升，取得了最佳的效果。

最后在 KITTI 2015 Benchmark 測(cè)試集上，MT-TW Fusion 的完整方法在前后背景上都取得了最佳的性能，這說(shuō)明融合單目逆深度估計(jì)和雙目視差估計(jì)對(duì)于 TW-SM 任務(wù)是行之有效的。

3.4 長(zhǎng)短焦融合

論文最后還介紹了一系列將各個(gè)模型得到的結(jié)果進(jìn)行融合的方法，以及相應(yīng)的實(shí)驗(yàn)，這些操作通過(guò)組合能夠進(jìn)一步提升模型的性能，但是其核心結(jié)構(gòu)是 MT-TW-SMNet。下圖展示了幾種融合方法的示意圖：

對(duì)于輸入特征的融合：以左圖 WFOV 和 TW-SMNet 的輸出視差圖作為輸入，利用 RGB 左圖作為引導(dǎo)得到更準(zhǔn)確的全局 FOV 逆深度圖。

對(duì)于輸出特征融合：以估計(jì)的全局 FOV 逆深度圖和 TW-SMNet 估計(jì)的視差圖作為輸入，輸出最終融合的全局 FOV 視差圖。

這種輸入和輸出融合的方式可以看做是一種模型 embedding 的效果，通過(guò)融合多個(gè)模型的結(jié)果來(lái)達(dá)到更好的性能。

小結(jié)

上面介紹了三種視角不平衡的研究工作，雖然各不相同，但是其出發(fā)點(diǎn)都是希望將左右視角的圖像變成平衡的。跨譜立體匹配希望將不同譜的圖像變換到同一個(gè)譜域進(jìn)行立體匹配，視覺(jué)不平衡立體匹配希望將低質(zhì)量的右圖恢復(fù)到高質(zhì)量再進(jìn)行立體匹配，而長(zhǎng)短焦立體匹配是希望借助寬視角和窄視角各自的優(yōu)點(diǎn)互相彌補(bǔ)來(lái)進(jìn)行立體匹配。新出現(xiàn)的場(chǎng)景和任務(wù)還原回經(jīng)典的場(chǎng)景去解決是它們共同的思路。

由此可能引申出更多不平衡視角的新場(chǎng)景，例如彩色-黑白視角的不平衡立體匹配，這些問(wèn)題有待進(jìn)一步挖掘和解決。

參考文獻(xiàn)

[1] N. Mayer, E. Ilg, P. Hausser, P. Fischer, D. Cremers, A. Dosovitskiy, and T. Brox. A large dataset to train convolutional networks for disparity, optical flow, and scene flow estimation. In CVPR, 2016.

[2] Godard, C.; Mac Aodha, O.; and Brostow, G. J. Unsupervised monocular depth estimation with left-right consistency. In CVPR, 2017.

[3] Jia-Ren Chang and Yong-Sheng Chen. Pyramid stereo matching network. In CVPR, 2018.

更多閱讀

#投稿?通道#

?讓你的論文被更多人看到?

如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達(dá)讀者群體，縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢？答案就是：你不認(rèn)識(shí)的人。

總有一些你不認(rèn)識(shí)的人，知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁，促使不同背景、不同方向的學(xué)者和學(xué)術(shù)靈感相互碰撞，迸發(fā)出更多的可能性。?

PaperWeekly 鼓勵(lì)高校實(shí)驗(yàn)室或個(gè)人，在我們的平臺(tái)上分享各類優(yōu)質(zhì)內(nèi)容，可以是最新論文解讀，也可以是學(xué)習(xí)心得或技術(shù)干貨。我們的目的只有一個(gè)，讓知識(shí)真正流動(dòng)起來(lái)。

?????來(lái)稿標(biāo)準(zhǔn)：

? 稿件確系個(gè)人原創(chuàng)作品，來(lái)稿需注明作者個(gè)人信息（姓名+學(xué)校/工作單位+學(xué)歷/職位+研究方向）?

? 如果文章并非首發(fā)，請(qǐng)?jiān)谕陡鍟r(shí)提醒并附上所有已發(fā)布鏈接?

? PaperWeekly 默認(rèn)每篇文章都是首發(fā)，均會(huì)添加“原創(chuàng)”標(biāo)志

?????投稿郵箱：

? 投稿郵箱：hr@paperweekly.site?

? 所有文章配圖，請(qǐng)單獨(dú)在附件中發(fā)送?

? 請(qǐng)留下即時(shí)聯(lián)系方式（微信或手機(jī)），以便我們?cè)诰庉嫲l(fā)布時(shí)和作者溝通

????

現(xiàn)在，在「知乎」也能找到我們了

進(jìn)入知乎首頁(yè)搜索「PaperWeekly」

點(diǎn)擊「關(guān)注」訂閱我們的專欄吧

關(guān)于PaperWeekly

PaperWeekly 是一個(gè)推薦、解讀、討論、報(bào)道人工智能前沿論文成果的學(xué)術(shù)平臺(tái)。如果你研究或從事 AI 領(lǐng)域，歡迎在公眾號(hào)后臺(tái)點(diǎn)擊「交流群」，小助手將把你帶入 PaperWeekly 的交流群里。

與50位技術(shù)專家面對(duì)面20年技術(shù)見(jiàn)證，附贈(zèng)技術(shù)全景圖

總結(jié)

以上是生活随笔為你收集整理的视角不平衡立体匹配研究的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇： vivo 22.5W / 45W 自带线
下一篇：在物体检测任务上进行预训练的实验分析