日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

视角不平衡立体匹配研究

發(fā)布時(shí)間:2024/10/8 编程问答 65 豆豆
生活随笔 收集整理的這篇文章主要介紹了 视角不平衡立体匹配研究 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

?PaperWeekly 原創(chuàng) · 作者|張承灝

學(xué)校|中科院自動(dòng)化所碩士生

研究方向|場(chǎng)景感知和深度估計(jì)

一個(gè)典型的立體視覺(jué)系統(tǒng)通常包括一臺(tái)具有左右兩個(gè)攝像頭的攝像機(jī),兩個(gè)攝像頭在同一水平線上、同一時(shí)刻成像,得到左右兩個(gè)視角的 RGB 圖像。利用立體匹配(stereo matching)算法可從來(lái)自左右視角的兩幅 RGB 圖像中得到用于三維場(chǎng)景重建的深度信息。

無(wú)論是傳統(tǒng)算法還是基于深度學(xué)習(xí)的算法,大多數(shù)研究是基于平衡視角的立體匹配,即左右視角圖像是由具有相同相機(jī)內(nèi)參的攝像頭,同時(shí)成像的 RGB 圖像。

近來(lái),不少研究開始關(guān)注不平衡視角的立體匹配。根據(jù)左右視角圖像的不同,已有的研究工作可以分為以下幾類:

  • 經(jīng)典的立體匹配:左右圖是相同相機(jī),同時(shí)成像的 RGB 彩色圖像;

  • 跨譜立體匹配:左圖是可見(jiàn)光 RGB 彩圖,右圖是紅外圖像;

  • 視覺(jué)不平衡立體匹配:左圖是高質(zhì)量的 RGB 圖像,右圖是低質(zhì)量的 RGB 圖像;

  • 長(zhǎng)短焦立體匹配:左圖是短焦距、寬視角 RGB 圖像,右圖是長(zhǎng)焦距、窄視角 RGB 圖像;

本文主要介紹后面三類的代表性研究工作。

跨譜立體匹配

論文標(biāo)題:Unsupervised Cross-spectral Stereo Matching by Learning to Synthesize

論文來(lái)源:AAAI 2019

論文鏈接:https://arxiv.org/abs/1903.01078

1.1 概述

多攝像頭多光譜系統(tǒng)在很多現(xiàn)代設(shè)備中變得十分普遍,并且紅外圖像對(duì)于人臉識(shí)別,目標(biāo)檢測(cè)和場(chǎng)景解析等領(lǐng)域具有很大的幫助。因此,跨譜立體匹配具有很大的研究?jī)r(jià)值。

如上圖所示,跨譜立體匹配指的是左圖是可見(jiàn)光圖像(a),右圖是近似紅外圖像(b)??缱V立體匹配的挑戰(zhàn)在于兩方面:一是可見(jiàn)光圖像和紅外圖像在視覺(jué)外觀上具有很大的差異,例如(c)中顯示的衣服,燈光和草坪。二是跨譜圖像的真實(shí)視差往往難以獲取。本文采用 cycleGAN 以無(wú)監(jiān)督學(xué)習(xí)的方式來(lái)實(shí)現(xiàn)不平衡視角的跨譜立體匹配。

1.2 方法

上圖是跨譜立體匹配的總體框架圖。網(wǎng)絡(luò)分為兩個(gè)部分,一是譜變換網(wǎng)絡(luò) STN,從 cycleGAN 改進(jìn)得到,用來(lái)將可見(jiàn)光左圖和紅外右圖變換到可見(jiàn)光右圖和紅外左圖。二是立體匹配網(wǎng)絡(luò) SMN,從 DispNet [1] 改進(jìn)得到,利用變換得到的可見(jiàn)光右圖和紅外左圖估計(jì)左右圖視差。下面重點(diǎn)介紹這兩個(gè)網(wǎng)絡(luò),核心是損失函數(shù)的設(shè)計(jì)。

譜變換網(wǎng)絡(luò)STN

給定來(lái)自譜 A(可見(jiàn)光)的圖像 , 和譜 B(紅外)的圖像 , 首先定義三種映射:

其中 F 將 編碼到一個(gè)統(tǒng)一的特征空間 , 和 分別是將特征解碼到相應(yīng)譜得到圖像的生成器。, 和 由對(duì)抗損失和循環(huán)重構(gòu)損失監(jiān)督。其中對(duì)抗損失由兩個(gè)判別器 和 給定,判別器用來(lái)鑒別生成圖像的真?zhèn)巍?/p>

對(duì)于判別器的訓(xùn)練:對(duì) 采用分類損失,以判斷生成的譜 A 的圖像是真是假,對(duì)于 同理,因此訓(xùn)練判別器的損失為:

對(duì)于生成器的訓(xùn)練:采用對(duì)抗損失和循環(huán)重建損失。對(duì)抗損失用來(lái)迷惑判別器,通過(guò)最大化判別器的分類誤差,生成器的對(duì)抗損失為:

生成器的循環(huán)重建損失為:

其中 是 ,而 是 。即衡量的是譜 A 圖經(jīng)過(guò) STN 變換到譜 B 后,再經(jīng)過(guò) STN 變換回譜 A 后的重建誤差。

為了保證 將圖像映射到相同的隱含語(yǔ)義特征空間,并防止 STN 學(xué)習(xí)視差,作者引入一個(gè)輔助的重構(gòu)損失:

其中 是 , 是 。那么,最終對(duì)于生成器和判別器的損失可以總結(jié)為:

跨譜立體匹配網(wǎng)絡(luò)SMN

跨譜立體匹配網(wǎng)絡(luò) SMN 采用經(jīng)典的 DispNet,同時(shí)估計(jì)以左右圖為參考圖像的視差 和 ,其采用 [2] 中介紹的三種無(wú)監(jiān)督損失函數(shù),即外觀匹配損失(appearance matching,ap),視差平滑損失(disparity smoothness,ds)和左右一致性損失(left-right consistency,lr)。

關(guān)于這三種函數(shù)的詳細(xì)介紹以及更多無(wú)監(jiān)督損失函數(shù),可以參考之前的文章雙目深度估計(jì)中的自監(jiān)督學(xué)習(xí)概覽。

為了進(jìn)一步提升性能, 作者還引入了一個(gè)輔助損失來(lái)訓(xùn)練 STN:

其中 ,, 是 warping 操作 。該損失函數(shù)衡量的是原圖經(jīng)過(guò) STN 變換后得到的圖像,與 SMN 得到的視差經(jīng)過(guò)變形重構(gòu)后的圖像的誤差。

迭代優(yōu)化

為了訓(xùn)練整個(gè)網(wǎng)絡(luò),作者采用的是分步迭代優(yōu)化的策略,具體的步驟如上圖所示。第 (1) 步,通過(guò)判別器損失 來(lái)訓(xùn)練判別器 D,從而使得判別器能夠鑒別真假圖像。第 (2) 步,通過(guò)生成器損失訓(xùn)練 F 和 G 網(wǎng)絡(luò)。

第 (3) 步,通過(guò) 訓(xùn)練立體匹配網(wǎng)絡(luò)。第 (4) 步,通過(guò) 對(duì) F 和 G 網(wǎng)絡(luò)進(jìn)行全局優(yōu)化。先只使用第 (1) 和第 (2) 步對(duì)整個(gè)網(wǎng)絡(luò)進(jìn)行幾個(gè) epoch 的預(yù)熱訓(xùn)練,之后將四個(gè)步驟一起用于進(jìn)一步的訓(xùn)練。

1.3 實(shí)驗(yàn)

作者采用的數(shù)據(jù)集是 2018 年提出的 PittsStereo-RGBNIR 數(shù)據(jù)集,它的圖像對(duì)是由一個(gè)可見(jiàn)光相機(jī)和一個(gè)近似紅外相機(jī)對(duì)采集的。評(píng)測(cè)指標(biāo)采用的是均方誤差 RMSE。上圖是和其他方法的對(duì)比以及作者的消融實(shí)驗(yàn)。

可以看到完整的方法在 lights, glass, glossy,surface 和 bag 類別上取得了最好的性能,但是在其他類別上稍遜一籌。作者也坦言通過(guò) STN 依然很難在 clothing 這個(gè)類別上進(jìn)行可見(jiàn)光和紅外圖像之間變換,也許之后的研究可以專門針對(duì)這個(gè)問(wèn)題來(lái)設(shè)計(jì)更好的方法。

1.4 延伸

類似采用 GAN 來(lái)實(shí)現(xiàn)兩個(gè)領(lǐng)域數(shù)據(jù)變換的方法還有今年 CVPR 提出的 StereoGAN,它采用 cycleGAN 來(lái)解決域自適應(yīng)立體匹配,大家有興趣可以對(duì)照著閱讀。

論文標(biāo)題:StereoGAN: Bridging Synthetic-to-Real Domain Gap by Joint Optimization of Domain Translation and Stereo Matching

論文來(lái)源:CVPR 2020

論文鏈接:https://arxiv.org/abs/2005.01927

視覺(jué)不平衡立體匹配

論文標(biāo)題:Visually Imbalanced Stereo Matching

論文來(lái)源:CVPR 2020

論文鏈接:http://openaccess.thecvf.com/content_CVPR_2020/papers/Liu_Visually_Imbalanced_Stereo_Matching_CVPR_2020_paper.pdf

開源代碼:https://github.com/DandilionLau/Visually-Imbalanced-Stereo

2.1 背景

現(xiàn)代智能手機(jī)中普遍采用雙攝相機(jī)(dual-lens),雙攝的組合可以是彩色+彩色,彩色+黑白等。本文考慮的組合是視覺(jué)質(zhì)量不平衡的雙攝,即高分辨率的主相機(jī)(master camera)和低分辨率的從相機(jī)(slave camera)的立體匹配。

其實(shí)無(wú)論是人眼視覺(jué)系統(tǒng)或者計(jì)算機(jī)視覺(jué)系統(tǒng),在進(jìn)行立體匹配時(shí)對(duì)低分辨率的圖像都具有一定的魯棒性。即使右圖比較模糊,立體匹配算法也能較好的估計(jì)視差。畢竟很多算法采用多尺度匹配策略,圖像通常先降到較低的分辨率提取特征,再逐漸由粗到精恢復(fù)原分辨率的視差圖。

那么現(xiàn)在的一個(gè)問(wèn)題是當(dāng)右圖模糊到什么程度時(shí)立體匹配算法會(huì)失效?作者首先進(jìn)行了一個(gè)實(shí)驗(yàn),將右圖先下采樣多倍再上采樣恢復(fù),以模糊圖像。下圖是對(duì)經(jīng)典的傳統(tǒng)方法和深度學(xué)習(xí)方法進(jìn)行評(píng)測(cè)的結(jié)果。

由上圖可以看出隨著模糊程度的加深,傳統(tǒng)算法和深度學(xué)習(xí)算法的錯(cuò)誤率都逐漸增大。以單目左圖作為輸入構(gòu)建各個(gè)模型的 baseline,這里紅色標(biāo)注的是性能低于 baseline 的拐點(diǎn)。這說(shuō)明對(duì)于多數(shù)方法:

  • 當(dāng)模糊 5 倍以下時(shí),右圖仍然能夠?yàn)殡p目視差估計(jì)提供有用的信息,從而高于單目 baseline 的性能。

  • 當(dāng)模糊大于 8 倍時(shí),立體匹配算法失效,過(guò)于模糊的圖像對(duì)于雙目視差估計(jì)弊大于利,不如直接輸入高分辨率的左圖。

下面的曲線圖便于更直接的觀察,以得出上述結(jié)論。

2.2 方法

為了解決左右視角在視覺(jué)質(zhì)量上的不平衡問(wèn)題,作者提出兩步走的方法。

  • 引導(dǎo)視角合成:利用高分辨率的左圖作為引導(dǎo),先恢復(fù)低分辨率的右圖。該做法的依據(jù)是,盡管低分辨率的右圖十分模糊,但是目標(biāo)粗略的邊緣輪廓信息仍然可以識(shí)別,通過(guò)左右圖在邊緣輪廓信息上的匹配,將左圖的紋理移位到匹配的右圖區(qū)域,就能恢復(fù)清晰的右圖。

  • 視差重構(gòu):利用原始左圖和恢復(fù)后的右圖進(jìn)行立體匹配。

  • 動(dòng)態(tài)移位濾波層

    上圖展示了引導(dǎo)視角合成的原理。我們可以通過(guò)引導(dǎo)視角合成網(wǎng)絡(luò)來(lái)學(xué)習(xí)左右圖在邊緣輪廓上的匹配情況,從而生成一個(gè)水平方向的濾波器 和一個(gè)豎直方向的濾波器 ,大小分別是 和 ,用來(lái)表示右圖相對(duì)于左圖的偏移。

    為了減少內(nèi)存占用量,這里采用兩個(gè)一維濾波器的組合而不是學(xué)習(xí)一個(gè)二維濾波器。之后利用高質(zhì)量的左圖作為參考,利用 和 的移位信息,即可將左圖的紋理在二維空間上移位,得到高質(zhì)量的右圖。

    上述過(guò)程可用公式表示為:

    其中 和 分別是網(wǎng)絡(luò)預(yù)測(cè)得到的一維線性偏移濾波器,它們倆的內(nèi)積可以近似表示二維線性偏移濾波器, 是左圖的圖像塊。以此操作可以得到恢復(fù)的高質(zhì)量右圖 。

    深度引導(dǎo)濾波層

    為了進(jìn)一步的優(yōu)化邊緣信息,可以采用左圖中的目標(biāo)形狀知識(shí)來(lái)對(duì) 和 進(jìn)行引導(dǎo)濾波。原始的引導(dǎo)濾波算法(Guided Image Filtering)是何愷明在 2013 年的 PAMI 上提出的。這是一個(gè)在引導(dǎo)圖像 和濾波輸出 之間的局部線性模型:

    其中 是以像素 為中心的局部窗口,線性系數(shù) 是窗口 內(nèi)的常數(shù)。這個(gè)局部線性模型確保輸出 有邊緣當(dāng)且僅當(dāng) 有邊緣。并且,濾波輸出 應(yīng)當(dāng)與輸入 相似,通過(guò)最小化下述公式:

    這里 是一個(gè)正則化參數(shù)。在本文中,作者以左圖作為引導(dǎo) , 以濾波體 的第 d 個(gè)切片作為輸出 ,那么線性變換可以寫作:

    作者采用引導(dǎo)濾波的加速的,完全可導(dǎo)的版本——深度引導(dǎo)濾波,作為 和 的位移學(xué)習(xí)的最后一層網(wǎng)絡(luò)。

    視覺(jué)不平衡立體匹配網(wǎng)絡(luò)

    上圖是整個(gè)視覺(jué)不平衡立體匹配網(wǎng)絡(luò)的框架圖,主要包含上半部的引導(dǎo)視角合成網(wǎng)絡(luò)和下半部的視差重構(gòu)網(wǎng)絡(luò)。

    具體地,高質(zhì)量的左圖和低質(zhì)量的右圖作為引導(dǎo)視角合成網(wǎng)絡(luò)的輸入,其結(jié)構(gòu)類似于 U-Net 的編碼-解碼結(jié)構(gòu)。在輸出部分采用深度引導(dǎo)濾波層分別學(xué)習(xí)兩個(gè)一維偏移濾波器,它們通過(guò)動(dòng)態(tài)移位濾波層相組合,從而近似估計(jì)二維偏移濾波器。

    根據(jù)左圖與移位濾波器的點(diǎn)乘組合重構(gòu)高質(zhì)量的右圖。由于偏移濾波器的真值很難獲得,因此這里并沒(méi)有對(duì)中間產(chǎn)生的偏移濾波器進(jìn)行顯示地監(jiān)督。引導(dǎo)視角合成網(wǎng)絡(luò)的損失函數(shù)包括圖像層面的光度損失和特征層面的感知損失。二者的表達(dá)式分別為:

    圖像光度損失:

    特征感知損失:

    這里 表示 VGG-19 的第 j 個(gè)卷積層特征圖,而 分別是特征圖的數(shù)量,高度和寬度。

    視差重構(gòu)網(wǎng)絡(luò)采用帶有相關(guān)層的 DispNet [1]?結(jié)構(gòu),以高質(zhì)量的左圖和恢復(fù)的右圖作為輸入進(jìn)行視差估計(jì),最后采用多尺度的 L1 范式進(jìn)行有監(jiān)督回歸學(xué)習(xí)。

    2.3 實(shí)驗(yàn)

    作者以 KITTI Raw Data 作為訓(xùn)練,在 KITTI 2015 上評(píng)測(cè),以光度評(píng)測(cè)指標(biāo) PSNR 和 SSIM 來(lái)評(píng)估引導(dǎo)視角合成網(wǎng)絡(luò),以 D1 指標(biāo)評(píng)估視差估計(jì)網(wǎng)絡(luò),主要實(shí)驗(yàn)了三種不平衡因素下的性能:

  • 單目模糊(Monocular Blur):10 倍,15 倍和 20 倍;

  • 整流誤差(Rectification Error):最大程度為 0.5 和 1.0;

  • 設(shè)備噪聲(Sensor Noise):高斯模糊方差為 0.5 和 1.0;

  • 上圖展示了這三種不平衡因素的視差估計(jì)結(jié)果,(a) 中從上至下是 10X 模糊,15X 模糊, 噪聲, 噪聲,10X 模糊 +0.5 整流誤差,10X 模糊 +1.0 整流誤差。(b)、(c)、(d) 分別是 PSMNet,CRL 以及 DORN 等 SOTA 方法,(e) 本文的方法。

    可見(jiàn),所提出的引導(dǎo)視角生成方法對(duì)于各種不平衡因素都具有魯棒性,能夠獲得較為準(zhǔn)確的視差圖。更多定量和定性的實(shí)驗(yàn)結(jié)果可參考原論文。

    長(zhǎng)短焦立體匹配

    論文標(biāo)題:TW-SMNet: Deep Multitask Learning of Tele-Wide Stereo Matching

    論文鏈接:https://arxiv.org/abs/1906.04463

    3.1 概述

    雙目視覺(jué)系統(tǒng)為了更好地對(duì)環(huán)境感知,會(huì)采用焦距不同的兩個(gè)相機(jī)相互輔助。這里根據(jù)視野(field of views,FOV)大小不同可以得到對(duì)前后景的不同感知。

    例如,左圖是寬視野(wide FOV,WFOV),成像焦距更小,但是能夠看到更廣闊的遠(yuǎn)景;右圖是窄視野(Tele FOV,TFOV),成像焦距更大,但是能夠聚焦于感興趣的近景。

    如上圖所示,本文通過(guò)多任務(wù)學(xué)習(xí)的方式來(lái)解決長(zhǎng)短焦距視角下的立體匹配任務(wù),定義左圖為?1 倍焦距的 WFOV 圖像,右圖為?2 倍焦距的 TFOV 圖像,右圖的內(nèi)容為左圖的中心內(nèi)容,該任務(wù)命名為?Tele-Wide Stereo Matching,TW-SM

    采用長(zhǎng)短焦立體匹配是為了獲得更好的背景虛化效果(Bokeh)。以往的方法將左圖 WFOV 裁剪成和右圖 TFOV 一樣小的視角,那么只能估計(jì) TFOV 區(qū)域大小的視差圖,得到的背景虛化圖區(qū)域有限。而如果能得到 WFOV 區(qū)域大小的視差圖,則可以獲得全景背景虛化效果,如上圖(b)。

    3.2 方法

    作者對(duì) TW-SM 任務(wù)定義了多種子任務(wù)和網(wǎng)絡(luò)結(jié)構(gòu),下面分別介紹:

    TW-SMNet

    該任務(wù)的輸入是左圖 WFOV 和右圖 TFOV,根據(jù)得到視差結(jié)果的不同又可以分為兩種,TW-SMNet (T)?和?TW-SMNet (W)

    TW-SMNet (T) 表示僅在左圖 WFOV 和右圖 TFOV 的重疊區(qū)域進(jìn)行雙目視差估計(jì),得到的視差圖應(yīng)當(dāng)與 TFOV 區(qū)域大小相同。TW-SMNet (T) 的網(wǎng)絡(luò)結(jié)構(gòu)仿照 PSMNet。

    輸入時(shí)先將左圖 WFOV 按照右圖進(jìn)行裁剪,再上采樣到和右圖一致的分辨率。TW-SMNet (T) 可以得到 TFOV 區(qū)域內(nèi)較為準(zhǔn)確的視差圖,但是對(duì)于 TFOV 區(qū)域周圍的區(qū)域卻無(wú)法進(jìn)行視差估計(jì)。

    TW-SMNet (W) 表示在左圖 WFOV 和右圖 TFOV 的并集區(qū)域進(jìn)行雙目視差估計(jì),得到的視差圖應(yīng)當(dāng)與 WFOV 區(qū)域大小相同。TW-SMNet (W) 和 TW-SMNet (T) 結(jié)構(gòu)相同。

    輸入時(shí)先將右圖 TFOV 下采樣再在其周圍進(jìn)行零填充,和左圖一致的分辨率。TW-SMNet (W) 在 TFOV 區(qū)域內(nèi)可以得到較為準(zhǔn)確的視差圖,但是在其周圍估計(jì)的不準(zhǔn)確,因?yàn)槿鄙儆覉D相應(yīng)位置的圖像信息。

    SHG-SIDE

    為了提升 TFOV 周圍區(qū)域的視差估計(jì)性能,作者又設(shè)計(jì)了一個(gè)以 stacked hourglass 為主體結(jié)構(gòu)的單張圖像逆深度估計(jì)網(wǎng)絡(luò) SHG-SIDE,其輸入是左圖 WFOV,輸出是逆深度。在立體視覺(jué)中,如果已知雙目相機(jī)的基線距離 和相機(jī)焦距 ,那么深度的逆(倒數(shù))就和視差成正比,即:

    因此對(duì)深度的逆的估計(jì)其實(shí)就是對(duì)視差的估計(jì)。

    由于輸入改為單張圖像,SHG-SIDE 在 TW-SMNet 結(jié)構(gòu)的基礎(chǔ)上去掉了雙輸入和 cost volume,之后的 3D 聚合網(wǎng)絡(luò)也由此降維成 2D 卷積網(wǎng)絡(luò),其余結(jié)構(gòu)不變。

    SHG-SIDE 相比于 TW-SMNet 在 TFOV 周圍區(qū)域能估計(jì)更準(zhǔn)確的視差,但是由于缺少另一個(gè)視角的 TFOV,在 TFOV 區(qū)域估計(jì)的視差不如原來(lái)的 TW-SMNet。

    MT-TW-SMNet

    上面介紹的 TW-SMNet 和 SHG-SIDE 各具優(yōu)勢(shì),TW-SMNet 對(duì)于 TFOV 區(qū)域估計(jì)的更準(zhǔn)確,而 SHG-SIDE 對(duì)于 TFOV 周圍區(qū)域估計(jì)的更準(zhǔn)確。為了充分利用二者的優(yōu)勢(shì),作者采用將 TW-SMNet 和 SHG-SIDE 相結(jié)合的多任務(wù)學(xué)習(xí)模式來(lái)解決 TW-SM 任務(wù),其整體網(wǎng)絡(luò)結(jié)構(gòu) MT-TW-SMNet 如下:

    左圖 WFOV 和右圖 TFOV 作為輸入,原有的 TW-SMNet 和 SHG-SIDE 共享特征提取模塊 ResNet-50+SPP,之后同時(shí)進(jìn)行單目逆深度估計(jì)任務(wù)和雙目視差估計(jì)任務(wù),對(duì)于得到的結(jié)果進(jìn)行融合,從而能夠得到在整個(gè) WFOV 區(qū)域都估計(jì)較為準(zhǔn)確的視差圖。其總體損失函數(shù)為,其中 :

    在測(cè)試時(shí),為了提升效率,可以直接采用雙目視差估計(jì) SMDE 網(wǎng)絡(luò)的結(jié)果,因?yàn)槎嗳蝿?wù)學(xué)習(xí)過(guò)程中 SIDE 已經(jīng)貢獻(xiàn)了 TFOV 周圍像素的特征,這使得 SMDE 能夠?qū)θ终Z(yǔ)義信息有更好的理解。因此測(cè)試時(shí)即使不加上 SIDE,也能夠較好的估計(jì) TFOV 周圍的區(qū)域。

    3.3 實(shí)驗(yàn)

    作者在 SceneFlow 和 KITTI 2015 數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),這里重點(diǎn)分析上面介紹的幾種模型的性能。

    上表是在 KITTI 2015 上的實(shí)驗(yàn)結(jié)果,SHG-SIDENet 的整體錯(cuò)誤率最低,但是在中心區(qū)域(TFOV)性能較差。TW-SMNet 在中心區(qū)域的性能很好,TW-SMNet (T) 不能估計(jì)周圍像素的視差,TW-SMNet (W) 在周圍像素估計(jì)上不如 SHG-SIDENet。MT-TW-SMNet 相比于 TW-SMNet (W) 提升了周圍像素和總體像素的準(zhǔn)確率,但是中心區(qū)域要差一些。

    相似的結(jié)論能夠在上表的 SceneFlow 測(cè)試集上得到,其中 MT-TW-SMNet 相比于 TW-SMNet(W) 和 SHG-SIDENet 在中心區(qū)域和周圍區(qū)域都有所提升,取得了最佳的效果。

    最后在 KITTI 2015 Benchmark 測(cè)試集上,MT-TW Fusion 的完整方法在前后背景上都取得了最佳的性能,這說(shuō)明融合單目逆深度估計(jì)和雙目視差估計(jì)對(duì)于 TW-SM 任務(wù)是行之有效的。

    3.4 長(zhǎng)短焦融合

    論文最后還介紹了一系列將各個(gè)模型得到的結(jié)果進(jìn)行融合的方法,以及相應(yīng)的實(shí)驗(yàn),這些操作通過(guò)組合能夠進(jìn)一步提升模型的性能,但是其核心結(jié)構(gòu)是 MT-TW-SMNet。下圖展示了幾種融合方法的示意圖:

    對(duì)于輸入特征的融合:以左圖 WFOV 和 TW-SMNet 的輸出視差圖作為輸入,利用 RGB 左圖作為引導(dǎo)得到更準(zhǔn)確的全局 FOV 逆深度圖。

    對(duì)于輸出特征融合:以估計(jì)的全局 FOV 逆深度圖和 TW-SMNet 估計(jì)的視差圖作為輸入,輸出最終融合的全局 FOV 視差圖。

    這種輸入和輸出融合的方式可以看做是一種模型 embedding 的效果,通過(guò)融合多個(gè)模型的結(jié)果來(lái)達(dá)到更好的性能。

    小結(jié)

    上面介紹了三種視角不平衡的研究工作,雖然各不相同,但是其出發(fā)點(diǎn)都是希望將左右視角的圖像變成平衡的。跨譜立體匹配希望將不同譜的圖像變換到同一個(gè)譜域進(jìn)行立體匹配,視覺(jué)不平衡立體匹配希望將低質(zhì)量的右圖恢復(fù)到高質(zhì)量再進(jìn)行立體匹配,而長(zhǎng)短焦立體匹配是希望借助寬視角和窄視角各自的優(yōu)點(diǎn)互相彌補(bǔ)來(lái)進(jìn)行立體匹配。新出現(xiàn)的場(chǎng)景和任務(wù)還原回經(jīng)典的場(chǎng)景去解決是它們共同的思路。

    由此可能引申出更多不平衡視角的新場(chǎng)景,例如彩色-黑白視角的不平衡立體匹配,這些問(wèn)題有待進(jìn)一步挖掘和解決。

    參考文獻(xiàn)

    [1] N. Mayer, E. Ilg, P. Hausser, P. Fischer, D. Cremers, A. Dosovitskiy, and T. Brox. A large dataset to train convolutional networks for disparity, optical flow, and scene flow estimation. In CVPR, 2016.

    [2] Godard, C.; Mac Aodha, O.; and Brostow, G. J. Unsupervised monocular depth estimation with left-right consistency. In CVPR, 2017.

    [3] Jia-Ren Chang and Yong-Sheng Chen. Pyramid stereo matching network. In CVPR, 2018.

    更多閱讀

    #投 稿?通 道#

    ?讓你的論文被更多人看到?

    如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達(dá)讀者群體,縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢?答案就是:你不認(rèn)識(shí)的人。

    總有一些你不認(rèn)識(shí)的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學(xué)者和學(xué)術(shù)靈感相互碰撞,迸發(fā)出更多的可能性。?

    PaperWeekly 鼓勵(lì)高校實(shí)驗(yàn)室或個(gè)人,在我們的平臺(tái)上分享各類優(yōu)質(zhì)內(nèi)容,可以是最新論文解讀,也可以是學(xué)習(xí)心得技術(shù)干貨。我們的目的只有一個(gè),讓知識(shí)真正流動(dòng)起來(lái)。

    ?????來(lái)稿標(biāo)準(zhǔn):

    ? 稿件確系個(gè)人原創(chuàng)作品,來(lái)稿需注明作者個(gè)人信息(姓名+學(xué)校/工作單位+學(xué)歷/職位+研究方向)?

    ? 如果文章并非首發(fā),請(qǐng)?jiān)谕陡鍟r(shí)提醒并附上所有已發(fā)布鏈接?

    ? PaperWeekly 默認(rèn)每篇文章都是首發(fā),均會(huì)添加“原創(chuàng)”標(biāo)志

    ?????投稿郵箱:

    ? 投稿郵箱:hr@paperweekly.site?

    ? 所有文章配圖,請(qǐng)單獨(dú)在附件中發(fā)送?

    ? 請(qǐng)留下即時(shí)聯(lián)系方式(微信或手機(jī)),以便我們?cè)诰庉嫲l(fā)布時(shí)和作者溝通

    ????

    現(xiàn)在,在「知乎」也能找到我們了

    進(jìn)入知乎首頁(yè)搜索「PaperWeekly」

    點(diǎn)擊「關(guān)注」訂閱我們的專欄吧

    關(guān)于PaperWeekly

    PaperWeekly 是一個(gè)推薦、解讀、討論、報(bào)道人工智能前沿論文成果的學(xué)術(shù)平臺(tái)。如果你研究或從事 AI 領(lǐng)域,歡迎在公眾號(hào)后臺(tái)點(diǎn)擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。

    與50位技術(shù)專家面對(duì)面20年技術(shù)見(jiàn)證,附贈(zèng)技術(shù)全景圖

    總結(jié)

    以上是生活随笔為你收集整理的视角不平衡立体匹配研究的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

    如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。