當(dāng)前位置：首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

传统的6d位姿估计fangfa1_你的厨房被水淹了！别担心，这只是3D深度估计做出的特效...

發(fā)布時(shí)間：2024/9/19 编程问答 53 豆豆

生活随笔收集整理的這篇文章主要介紹了传统的6d位姿估计fangfa1_你的厨房被水淹了！别担心，这只是3D深度估计做出的特效... 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

選自arXiv

作者：羅璇、Jia-Bin Huang等

機(jī)器之心編譯

參與：魔王、張倩

還記得那個(gè)用論文外觀判斷論文質(zhì)量的研究嗎？在那份研究中，身為頂會(huì)領(lǐng)域主席的作者 Jia-Bin Huang 被自己開(kāi)發(fā)的系統(tǒng)拒了稿，引來(lái)了大批社區(qū)成員的圍觀。最近，他和合作者提出了一項(xiàng)新的計(jì)算機(jī)視覺(jué)方法，可以讓廚房「水漫金山」，讓天空下起「彩球雨」……

不止如此，想要貓主子不嫌棄自己拍的丑丑視頻，這個(gè)方法也能拯救你！

這項(xiàng)研究由來(lái)自華盛頓大學(xué)、弗吉尼亞理工學(xué)院和 Facebook 的研究者合作完成。

其中第一作者羅璇現(xiàn)為華盛頓大學(xué)現(xiàn)實(shí)實(shí)驗(yàn)室博士，她本科畢業(yè)于上海交通大學(xué)，導(dǎo)師為盧宏濤教授，研究方向?yàn)榱Ⅲw匹配，曾在新加坡國(guó)立大學(xué)跟隨顏水成鉆研深度學(xué)習(xí)。

第二作者 Jia-Bin Huang 為弗吉尼亞理工學(xué)院助理教授，研究方向?yàn)橛?jì)算機(jī)視覺(jué)、計(jì)算機(jī)圖形學(xué)和機(jī)器學(xué)習(xí)。曾擔(dān)任 WACV 2018、CVPR 2019、ICCV 2019、BMVC 2019 和 BMVC 2020 會(huì)議的領(lǐng)域主席。

這項(xiàng)研究主要探究了如何生成準(zhǔn)確度和幾何一致性更高的視頻重建結(jié)果，目前該論文已被計(jì)算機(jī)圖形學(xué)頂級(jí)會(huì)議 SIGGRAPH 2020 接收，代碼也將在未來(lái)開(kāi)源。

論文地址：https://arxiv.org/pdf/2004.15021.pdf

項(xiàng)目網(wǎng)站：https://roxanneluo.github.io/Consistent-Video-Depth-Estimation/

用手機(jī)拍攝的視頻可以做 3D 重建嗎？

基于圖像序列進(jìn)行 3D 場(chǎng)景重建在計(jì)算機(jī)視覺(jué)社區(qū)中已有幾十年的研究歷史。毋庸置疑，最簡(jiǎn)單的 3D 重建捕捉方式就是利用智能手機(jī)手持拍攝，因?yàn)檫@類相機(jī)很常見(jiàn)，還可以快速覆蓋很大的空間。如果可以利用手機(jī)拍攝的視頻實(shí)現(xiàn)非常密集、準(zhǔn)確的重建，這類技術(shù)將變得非常有用。但要做到這一點(diǎn)困難重重。

除了重建系統(tǒng)都要處理的典型問(wèn)題，如紋理單一區(qū)域、重復(fù)圖案和遮擋，基于手機(jī)拍攝的視頻實(shí)現(xiàn)重建還面臨著來(lái)自視頻本身的額外挑戰(zhàn)，如較高的噪聲水平、抖動(dòng)和動(dòng)態(tài)模糊、卷簾快門變形，以及移動(dòng)對(duì)象(如人)的出現(xiàn)。

出于這些原因，現(xiàn)有的方法通常會(huì)遇到很多問(wèn)題，如深度圖中有缺失區(qū)域(見(jiàn)下圖 b)，幾何和閃爍深度不一致(見(jiàn)下圖 c)。

如何解決？

這篇論文提出了一種新的 3D 重建算法，可以重建單目視頻中所有像素的密集、幾何一致性深度。他們利用傳統(tǒng)的 structure-from-motion(SfM)方法來(lái)重建像素的幾何約束。

與傳統(tǒng)重建方法使用特殊先驗(yàn)的做法不同，該研究使用的是基于學(xué)習(xí)的先驗(yàn)，即為單圖像深度估計(jì)訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)。在測(cè)試時(shí)，他們微調(diào)了這個(gè)網(wǎng)絡(luò)，來(lái)滿足特定輸入視頻的幾何約束，同時(shí)保留其為視頻中受約束較少的部分合成合理深度細(xì)節(jié)的能力。

定量驗(yàn)證結(jié)果表明，與之前的單目重建方法相比，該方法可以達(dá)到更高的準(zhǔn)確度及幾何一致性。從視覺(jué)上看，本文提出的方法也更加穩(wěn)定。該方法可以處理具有中等程度晃動(dòng)的手持拍攝視頻，可以應(yīng)用到場(chǎng)景重建以及基于視頻的高級(jí)視覺(jué)效果。

但該方法的局限在于算力消耗太大，因此暫時(shí)無(wú)法用在實(shí)時(shí)的 AR 場(chǎng)景中。不過(guò)，論文作者也表示，會(huì)將速度的提升作為下一步的研究目標(biāo)。

方法

圖 2：方法概覽。

如上圖 2 所示，該方法以單目視頻作為輸入，目的是估計(jì)相機(jī)位姿以及每個(gè)視頻幀的深度和幾何一致性深度圖。「幾何一致性」不僅意味著深度圖不會(huì)隨著時(shí)間的推移而閃爍(flicker)，還意味著所有的深度圖都是彼此一致的。也就是說(shuō)，我們可以利用像素深度和相機(jī)位姿在幀與幀之間準(zhǔn)確地投影這些像素。例如，一個(gè)靜態(tài)點(diǎn)的所有觀察結(jié)果都應(yīng)該映射到世界坐標(biāo)系中一個(gè)單獨(dú)的普通 3D 點(diǎn)上，且沒(méi)有漂移(drift)。

隨意捕獲的輸入視頻為深度重建增加了一些挑戰(zhàn)。由于它們大多是手持拍攝的，相機(jī)也沒(méi)有經(jīng)過(guò)標(biāo)定，因此經(jīng)常出現(xiàn)動(dòng)態(tài)模糊、卷簾快門變形等問(wèn)題。簡(jiǎn)陋的光照條件也會(huì)造成額外的噪聲及模糊。而且，這些視頻通常包含動(dòng)態(tài)移動(dòng)的對(duì)象(如人或動(dòng)物)，而很多重建系統(tǒng)是專為靜態(tài)場(chǎng)景設(shè)計(jì)的，這就形成了一個(gè)大的沖突。

在有問(wèn)題的場(chǎng)景部分，傳統(tǒng)的重建方法通常會(huì)生成「孔洞」(如果強(qiáng)制返回結(jié)果，會(huì)估計(jì)出噪聲非常大的深度)。但在這些方法對(duì)返回結(jié)果比較有信心的部分，它們通常會(huì)返回非常準(zhǔn)確且一致的結(jié)果，因?yàn)樗鼈儑?yán)重依賴幾何約束。

近期基于學(xué)習(xí)的方法彌補(bǔ)了這些缺陷，它們利用一種數(shù)據(jù)驅(qū)動(dòng)的強(qiáng)大先驗(yàn)來(lái)預(yù)測(cè)輸入圖像的合理深度。然而，對(duì)每一幀單獨(dú)應(yīng)用這些方法會(huì)導(dǎo)致幾何不一致和短暫的閃爍。

本文作者提出的方法結(jié)合了以上兩種方法的優(yōu)點(diǎn)。研究者利用了幾種現(xiàn)成的單圖像深度估計(jì)網(wǎng)絡(luò)，這些經(jīng)過(guò)訓(xùn)練的網(wǎng)絡(luò)可以合成一般彩色圖像的合理深度。他們利用從視頻中借助傳統(tǒng)重建方法提取的幾何約束來(lái)微調(diào)網(wǎng)絡(luò)。因此，該網(wǎng)絡(luò)學(xué)會(huì)在特定視頻上生成具有幾何一致性的深度。

該方法包括以下兩個(gè)步驟：預(yù)處理和測(cè)試時(shí)訓(xùn)練。

預(yù)處理

預(yù)處理是從視頻幀中提取幾何約束的基礎(chǔ)。

該研究首先使用開(kāi)源軟件 COLMAP 執(zhí)行傳統(tǒng)的 SfM 重建流程。

為了改善對(duì)動(dòng)態(tài)運(yùn)動(dòng)視頻的姿勢(shì)估計(jì)，研究者使用 Mask R-CNN 來(lái)獲取人物分割結(jié)果，并移除這些區(qū)域以獲得更可靠的關(guān)鍵點(diǎn)提取和匹配結(jié)果，因?yàn)橐曨l中的動(dòng)態(tài)運(yùn)動(dòng)主要來(lái)自于人物。這一步可以提供準(zhǔn)確的內(nèi)部和外部相機(jī)參數(shù)，以及稀疏點(diǎn)云重建。

研究者還利用光流估計(jì)了視頻幀對(duì)之間的稠密對(duì)應(yīng)關(guān)系。相機(jī)標(biāo)定(camera calibration)和稠密對(duì)應(yīng)共同構(gòu)成了幾何損失。

測(cè)試時(shí)訓(xùn)練

在這一階段，研究者微調(diào)預(yù)訓(xùn)練深度估計(jì)網(wǎng)絡(luò)，使其生成對(duì)特定輸入視頻更具幾何一致性的深度。

在每次迭代中，該方法使用當(dāng)前的網(wǎng)絡(luò)參數(shù)采樣一對(duì)視頻幀并估計(jì)其深度圖。然后對(duì)比稠密一致性和利用當(dāng)前深度估計(jì)結(jié)果得到的重投影，從而驗(yàn)證深度圖是否具備幾何一致性。

最后，研究者評(píng)估了兩種幾何損失：空間損失和視差損失，并將誤差進(jìn)行反向傳播，以更新網(wǎng)絡(luò)權(quán)重(權(quán)重對(duì)所有幀共享)。

用這種方式迭代地采樣很多對(duì)視頻幀，損失得到降低，網(wǎng)絡(luò)學(xué)會(huì)估計(jì)具備幾何一致性的深度，同時(shí)能夠在約束較少的部分提供合理的正則化。

該方法得到的改進(jìn)通常很大，最終深度圖具備幾何一致性，與整個(gè)視頻的時(shí)序一致，且能夠準(zhǔn)確勾勒出清晰的遮蔽邊界，即使是對(duì)于運(yùn)動(dòng)物體也是如此。有了計(jì)算得到的深度之后，研究者就可以為遮擋效應(yīng)(occlusion effect)提供合適的深度邊界，讓真實(shí)場(chǎng)景的幾何與虛擬事物進(jìn)行交互。

該方法效果如何？

與其他方法的對(duì)比結(jié)果

研究者對(duì)比了當(dāng)前最優(yōu)的深度估計(jì)算法，這些算法分為三個(gè)類別：

傳統(tǒng)的多視角立體視覺(jué)系統(tǒng)：COLMAP [Schonberger and Frahm 2016]；

單幅圖像深度估計(jì)：Mannequin Challenge [Li et al. 2019] 和 MiDaS-v2 [Ranftl et al. 2019]；

基于視頻的深度估計(jì)：WSVD [Wang et al. 2019a](兩幀)和 NeuralRGBD [Liu et al. 2019](多幀)。

量化對(duì)比結(jié)果和視覺(jué)對(duì)比結(jié)果見(jiàn)下圖：

圖 4：該研究提出的方法與 SOTA 方法的量化對(duì)比結(jié)果。

圖 5：與 SOTA 方法的視覺(jué)對(duì)比結(jié)果。

該研究提出的方法可以從手機(jī)攝像頭隨意拍攝的視頻中生成具備幾何一致性且沒(méi)有顫動(dòng)的深度估計(jì)結(jié)果。

控制變量研究

表 2：控制變量研究。該量化評(píng)估結(jié)果表明該方法的設(shè)計(jì)重要性。

圖 6：該方法的設(shè)計(jì)對(duì)輸出結(jié)果的貢獻(xiàn)。

圖 7：使用長(zhǎng)期時(shí)間約束和視差損失的效果分析。

在公開(kāi)基準(zhǔn)上的量化結(jié)果對(duì)比

表 3：在 ScanNet 數(shù)據(jù)集上的量化對(duì)比結(jié)果。

表 4：在 TUM-RGBD 數(shù)據(jù)集上的量化對(duì)比結(jié)果。

表 5：在 KITTI 基準(zhǔn)數(shù)據(jù)集上的量化對(duì)比結(jié)果。

方法局限性

那么該方法有沒(méi)有局限性呢？

作者在論文中提到了該方法的四項(xiàng)局限之處，分別是位姿、動(dòng)態(tài)運(yùn)動(dòng)、光流和速度。

位姿

該方法目前依賴 COLMAP，來(lái)基于單目視頻估計(jì)相機(jī)位姿。而在難度較大的場(chǎng)景中，如相機(jī)平移有限及動(dòng)態(tài)模糊的情況下，COLMAP 可能無(wú)法生成靠譜的稀疏重建結(jié)果和相機(jī)位姿估計(jì)。

較大的位姿誤差也會(huì)對(duì)該方法的輸出結(jié)果造成極大的負(fù)面影響，因此這限制了該方法在此類視頻中的應(yīng)用。

將基于學(xué)習(xí)的位姿估計(jì)和該研究提出的方法結(jié)合起來(lái)，或許是一個(gè)不錯(cuò)的研究方向。

動(dòng)態(tài)運(yùn)動(dòng)

該方法支持包含溫和運(yùn)動(dòng)的視頻，但如果運(yùn)動(dòng)較為激烈則該方法會(huì)出現(xiàn)問(wèn)題。

光流

該方法依賴 FlowNet2 來(lái)構(gòu)建幾何約束。使用前后向傳播一致性檢查并過(guò)濾掉不可靠的光流，但這也可能出現(xiàn)錯(cuò)誤。這時(shí)該方法無(wú)法輸出正確的深度。研究者嘗試使用稀疏光流，但效果并不好。

速度

該方法利用視頻中所有幀提取幾何約束，因此不支持在線處理。例如，對(duì)于一個(gè)包含 244 幀、708 個(gè)采樣光流對(duì)的視頻來(lái)說(shuō)，該方法的測(cè)試時(shí)訓(xùn)練步耗時(shí)約 40 分鐘。

總結(jié)

以上是生活随笔為你收集整理的传统的6d位姿估计fangfa1_你的厨房被水淹了！别担心，这只是3D深度估计做出的特效...的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：电脑蓝屏了怎么办修复电脑蓝屏文件如何恢复
下一篇： vs如何设置对话框显示在最前面_“打开”

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

编程问答

传统的6d位姿估计fangfa1_你的厨房被水淹了！别担心，这只是3D深度估计做出的特效...

總結(jié)