CVPR 2022 | 谷歌提出mip-NeRF 360:全景NeRF越来越丝滑!
轉(zhuǎn)載自:機(jī)器之心
NeRF 家族的 360° 全景 3D 效果真是越來越絲滑了。?
前段時(shí)間,CVPR 2022 公布了今年的論文接收結(jié)果,同時(shí)也意味著投稿的論文終于熬過了靜默期。不少作者都感嘆:終于可以在社交媒體上聊聊我們的論文了!
今天要介紹的論文來自谷歌研究院和哈佛大學(xué)。谷歌研究科學(xué)家、論文一作 Jon Barron 表示,他們開發(fā)了一種名為 Mip-NeRF 360 的模型,該模型能夠生成無界場(chǎng)景的逼真渲染,給我們帶來了 360° 的逼真效果和漂亮的深度圖。
下面是幾張效果圖:
這么好的效果什么時(shí)候能讓 VR 頭盔用上
作者回答說,「我們已經(jīng)可以在瀏覽器 (http://nerf.live) 或桌面 GPU (https://nvlabs.github.io/instant-ngp/) 上實(shí)時(shí)渲染 NeRF,所以把它放到 VR 頭盔上應(yīng)該是可行的?!?/p>
論文概覽
神經(jīng)輻射場(chǎng) (NeRF) 通過在基于坐標(biāo)的多層感知器 (MLP) 的權(quán)重內(nèi)編碼場(chǎng)景的體積密度和顏色,來合成高度逼真的場(chǎng)景渲染。這種方法在逼真的視圖合成方面取得了重大進(jìn)展 [30]。然而,NeRF 使用 3D 點(diǎn)對(duì) MLP 的輸入進(jìn)行建模,這在渲染不同分辨率的視圖時(shí)會(huì)導(dǎo)致混疊。?
基于這個(gè)問題,Mip-NeRF 擴(kuò)展了 NeRF ,不再對(duì)沿錐體的體積截頭體進(jìn)行推理 [3]。盡管這樣做提高了質(zhì)量,但 NeRF 和 mipNeRF 在處理無界場(chǎng)景時(shí)會(huì)遇到挑戰(zhàn),無界場(chǎng)景中的相機(jī)可能面向任何方向并且場(chǎng)景內(nèi)容可能位于任何位置。
在這篇論文中,研究者提出了對(duì) mip-NeRF 的擴(kuò)展 ——mip-NeRF 360,它能夠生成這些無界場(chǎng)景的逼真渲染(圖 1)。
將類似 NeRF 的模型應(yīng)用于大型無界場(chǎng)景會(huì)引發(fā)三個(gè)關(guān)鍵問題:
參數(shù)化問題。mip-NeRF 要求將 3D 場(chǎng)景坐標(biāo)映射到有界域,所以無界的 360 度的場(chǎng)景會(huì)占據(jù)無窮大的歐式空間區(qū)域。
效率問題。巨大且細(xì)節(jié)化的場(chǎng)景需要巨大的網(wǎng)絡(luò)容量,所以在訓(xùn)練期間,頻繁地沿每條射線去查詢巨大的 MLP 網(wǎng)絡(luò)會(huì)產(chǎn)生巨大的消耗 。
歧義問題。無界 360 度場(chǎng)景的背景區(qū)域明顯比中心區(qū)域的光線稀疏。這種現(xiàn)象加劇了從 2D 圖像重建 3D 內(nèi)容的固有模糊性。
基于上述問題,研究者提出了 mip-NeRF 的擴(kuò)展模型,它使用非線性場(chǎng)景參數(shù)化、在線蒸餾和新穎的基于失真的正則化器來克服無界場(chǎng)景帶來的挑戰(zhàn)。新模型被稱為「mip-NeRF 360」,因?yàn)樵撗芯酷槍?duì)的是相機(jī)圍繞一個(gè)點(diǎn)旋轉(zhuǎn) 360 度的場(chǎng)景,與 mip-NeRF 相比,均方誤差降低了 54%,并且能夠生成逼真的合成視圖和詳細(xì)的深度用于高度復(fù)雜、無界的現(xiàn)實(shí)世界場(chǎng)景的地圖。
Mip-NeRF 360: Unbounded Anti-Aliased Neural Radiance Fields
論文鏈接:https://arxiv.org/pdf/2111.12077.pdf
視頻解讀:https://www.youtube.com/watch?v=zBSH-k9GbV4
技術(shù)細(xì)節(jié)
讓 mip-NeRF 在無界場(chǎng)景中正常工作存在三個(gè)主要問題,而本文的三個(gè)主要貢獻(xiàn)旨在解決這些問題。接下來,讓我們結(jié)合作者給出的解讀視頻來了解一下。
第一個(gè)問題是在表示方面,mip-NeRF 適用于有界坐標(biāo)空間中,而非無界場(chǎng)景,研究者使用一種看起來很像是一種擴(kuò)展版的卡爾曼濾波器將 mip-NeRF 的高斯函數(shù)扭曲到非歐式空間中。
第二個(gè)問題是,場(chǎng)景通常是細(xì)節(jié)化的,如果想將 mip-NeRF 用于無界場(chǎng)景,可以將網(wǎng)絡(luò)變得更大,但是這樣會(huì)讓訓(xùn)練速度變慢。所以,在優(yōu)化階段,研究者提出訓(xùn)練一個(gè)較小的 MLP 來限制空間大小,這可以讓訓(xùn)練速度變快三倍。
第三個(gè)問題是,在更大的場(chǎng)景下,3D 重建的結(jié)果會(huì)變得較為模糊,產(chǎn)生偽影。為了解決這個(gè)問題,研究者引入了一種新型正則化器,專門用于 mip-NeRF 中的射線間隔。
首先來談第一個(gè)問題,以一個(gè)有著三個(gè)攝像頭的平地場(chǎng)景為例,在 mip-NeRF 中,這些相機(jī)將高斯函數(shù)投射到場(chǎng)景中。在一個(gè)大的場(chǎng)景,這導(dǎo)致高斯函數(shù)逐漸遠(yuǎn)離原點(diǎn)并且被拉長。這是因?yàn)?mip-NeRF 需要基于有界的坐標(biāo)空間并且高斯函數(shù)在某種程度上是各向同性的。
為了解決這個(gè)問題,研究者定義了一個(gè)扭曲函數(shù),來平滑地將藍(lán)色圓(Unaffected Domain)外部的坐標(biāo)映射到橙色圓(Contracted Domain)內(nèi)。扭曲函數(shù)旨在消除 mip-NeRF 中的高斯非線性間距的影響。
為了將這種扭曲應(yīng)用于 mip-NeRF 中的高斯函數(shù),研究者使用了一個(gè)擴(kuò)展版的卡爾曼濾波器,這樣一來,沒有邊界的場(chǎng)景就可以被約束到橙色圓內(nèi),橙色圓內(nèi)是一個(gè)非歐式空間,其中的坐標(biāo)就是 MLP 的輸入。
為了能理解論文中的在線蒸餾模型,我們首先需要介紹 mip-NeRF 是如何訓(xùn)練以及采樣的。在 mip-NeRF 中,首先需要定義一組大致均勻分布的區(qū)間,可以理解為直方圖中的端點(diǎn)。如圖所示,每個(gè)間隔的高斯都被送入 mlp,并且得到直方圖權(quán)重 w^c 和顏色 c^c。然后將這些顏色加權(quán)后得到像素點(diǎn)的顏色 C^c。之后這些權(quán)重被重采樣,并得到一組新的區(qū)間,并且在場(chǎng)景中有內(nèi)容的地方,端點(diǎn)就會(huì)較為聚集。
這個(gè)重采樣可以多次進(jìn)行,但為了方便在這里只顯示一個(gè)。這個(gè)新的區(qū)間中的數(shù)據(jù)被送入同一 MLP 來得到一組新的權(quán)重和顏色,然后再通過加權(quán)得到像素點(diǎn)的顏色 C^f。mip-NeRF 只是最小化所有渲染像素值和輸入圖像真實(shí)像素值之間的重構(gòu)損失。只有精細(xì)的顏色被用來渲染最終的圖像是非常浪費(fèi)的。
粗略渲染需要有監(jiān)督學(xué)習(xí)來完成的唯一原因是幫助指導(dǎo)精細(xì)直方圖的采樣,這一觀察激發(fā)了文中模型的訓(xùn)練和采樣過程。研究者從一組均勻分布的直方圖開始,將它們送入提出的 MLP 以產(chǎn)生一組權(quán)重,但不產(chǎn)生顏色。
這些權(quán)重會(huì)被重新采樣,同樣這個(gè)過程可以重復(fù)多次,但他們?cè)谝曨l中只展示了一個(gè)重采用過程。他們提出的 mlp 產(chǎn)生的最后一組區(qū)間被送入另一個(gè) mlp,該 mlp 的行為與 mip-NeRF 中的完全相同,他們將其稱為 NeRF mlp。NeRF mlp 為他們提供了一組可以用于渲染像素顏色的權(quán)重和顏色。
研究者將通過監(jiān)督學(xué)習(xí)的方式,使得像素渲染得到的顏色接近真實(shí)圖片中的顏色。他們讓監(jiān)督輸出權(quán)重與 NeRF mlp 的輸出權(quán)重一致,而不是監(jiān)督文中提出的 mlp 來重建圖像。這種設(shè)置意味著只需要經(jīng)常去訪問一個(gè)較小的 mlp,而較大的 NeRF mlp 則不需要太多的訪問次數(shù)。
為了使模型起效,他們需要一個(gè)損失函數(shù)來鼓勵(lì)具有不同區(qū)間劃分的直方圖彼此一致。為了說明這一點(diǎn),如上圖所示,他們?cè)谧髠?cè)構(gòu)建了一個(gè)真實(shí)的一維分布,在右側(cè)的是兩個(gè)該真實(shí)分布的直方圖。
因?yàn)檫@兩個(gè)直方圖刻畫同一個(gè)分布,研究者可以對(duì)它們之間的關(guān)系做出一些強(qiáng)有力的斷言,例如上面突出顯示的那個(gè)區(qū)間的權(quán)重一定不會(huì)超過在下面的直方圖中與其重疊的區(qū)間權(quán)重的總和?;谶@個(gè)事實(shí),他們可以使用一個(gè)直方圖的權(quán)重來構(gòu)造另一個(gè)直方圖權(quán)重的上限。?
再一次聲明,如果這兩個(gè)直方圖同時(shí)刻畫相同的真實(shí)分布的,上界是必須確定的。
因此,在訓(xùn)練期間,研究者對(duì)他們提出的 mlp 和 NeRF mlp 分別生成的直方圖之間構(gòu)造了損失,該損失會(huì)懲罰任何違反此處以紅色顯示的邊界的多余部分。通過這樣方式,來鼓勵(lì)他們提出的 mlp 學(xué)習(xí)什么是有效的上界。
基于 nerf mlp 學(xué)習(xí)的體積場(chǎng)景密度,新模型中用來解決歧義問題的組件是光線直方圖上的簡(jiǎn)單正則化器,他們簡(jiǎn)單地最小化沿光線的所有點(diǎn)之間的加權(quán)絕對(duì)距離,來鼓勵(lì)每個(gè)直方圖盡可能接近 delta 函數(shù)。這里顯示的這個(gè)二重積分不容易計(jì)算,但可以推導(dǎo)出一個(gè)很好的封閉形式,計(jì)算起來很簡(jiǎn)單。
實(shí)驗(yàn)結(jié)果
表 1 展示了數(shù)據(jù)集中測(cè)試圖像的平均 PSNR、SSIM [46] 和 LPIPS [49]。從中可以看出,本文提出的模型大大優(yōu)于所有先前的類似 NeRF 的模型,并且可以看到相對(duì)于 mip-NeRF ,均方誤差減少了 54%,而訓(xùn)練時(shí)間僅為 1.92 倍。
在表 2 中,研究者對(duì)模型在自行車場(chǎng)景中進(jìn)行了消融研究,并在此總結(jié)了研究結(jié)果。
A) 移除 L_prop 會(huì)導(dǎo)致災(zāi)難性的失敗,因?yàn)?MLP 完全不受監(jiān)督。
B) 移除 L_dist 通過引入偽影降低圖像質(zhì)量(參見圖 5)。
C) Mildenhall 等人提出的正則化器 [30] 將高斯噪聲 (σ = 1) 注入密度當(dāng)中,但效果不如我們的正則化器。
D) 移除研究者提出的 MLP 并使用單個(gè) MLP 對(duì)場(chǎng)景和權(quán)重進(jìn)行建模不會(huì)降低性能,但會(huì)比他們提出的 MLP 增加約為 2 倍的訓(xùn)練時(shí)間。
E) 刪除 MLP 并使用 mip-NeRF 的方法訓(xùn)練本文提出的模型(在所有粗略尺度上應(yīng)用 L_recon 而不是 L_prop)會(huì)降低速度和準(zhǔn)確性,這證明研究者使用的監(jiān)督策略是合理的。
F) 使用小型 NeRF MLP(256 個(gè)隱藏單元而不是 1024 個(gè)隱藏單元)加速了訓(xùn)練,但降低了質(zhì)量,這展示了大容量 MLP 在建模詳細(xì)場(chǎng)景時(shí)的價(jià)值。
G) 完全移除 IPE 并使用 NeRF 的位置編碼 [30] 會(huì)降低性能,顯示了基于 mip-NeRF 而不是 NeRF 的價(jià)值。
H) 消除收縮并增加位置編碼頻率來限制場(chǎng)景會(huì)降低準(zhǔn)確性和速度。
I) 使用 DONeRF [31] 中提出的參數(shù)化和對(duì)數(shù)射線間距會(huì)降低精度。
J) 盡管使用 NeRF++ [48] 中提出的雙 MLP 參數(shù)化可以優(yōu)于本文中的技術(shù) —— 但代價(jià)是訓(xùn)練時(shí)間加倍,因?yàn)?MLP 的驗(yàn)證時(shí)間加倍(為了保持恒定的模型容量,研究者將兩個(gè) MLP 的隱藏單元數(shù)除以 √2)。
更多細(xì)節(jié)請(qǐng)參考原論文。
本文僅做學(xué)術(shù)分享,如有侵權(quán),請(qǐng)聯(lián)系刪文。
干貨下載與學(xué)習(xí)
后臺(tái)回復(fù):巴塞羅那自治大學(xué)課件,即可下載國外大學(xué)沉淀數(shù)年3D Vison精品課件
后臺(tái)回復(fù):計(jì)算機(jī)視覺書籍,即可下載3D視覺領(lǐng)域經(jīng)典書籍pdf
后臺(tái)回復(fù):3D視覺課程,即可學(xué)習(xí)3D視覺領(lǐng)域精品課程
3D視覺精品課程推薦:
1.面向自動(dòng)駕駛領(lǐng)域的多傳感器數(shù)據(jù)融合技術(shù)
2.面向自動(dòng)駕駛領(lǐng)域的3D點(diǎn)云目標(biāo)檢測(cè)全棧學(xué)習(xí)路線!(單模態(tài)+多模態(tài)/數(shù)據(jù)+代碼)
3.徹底搞透視覺三維重建:原理剖析、代碼講解、及優(yōu)化改進(jìn)
4.國內(nèi)首個(gè)面向工業(yè)級(jí)實(shí)戰(zhàn)的點(diǎn)云處理課程
5.激光-視覺-IMU-GPS融合SLAM算法梳理和代碼講解
6.徹底搞懂視覺-慣性SLAM:基于VINS-Fusion正式開課啦
7.徹底搞懂基于LOAM框架的3D激光SLAM: 源碼剖析到算法優(yōu)化
8.徹底剖析室內(nèi)、室外激光SLAM關(guān)鍵算法原理、代碼和實(shí)戰(zhàn)(cartographer+LOAM +LIO-SAM)
9.從零搭建一套結(jié)構(gòu)光3D重建系統(tǒng)[理論+源碼+實(shí)踐]
10.單目深度估計(jì)方法:算法梳理與代碼實(shí)現(xiàn)
11.自動(dòng)駕駛中的深度學(xué)習(xí)模型部署實(shí)戰(zhàn)
12.相機(jī)模型與標(biāo)定(單目+雙目+魚眼)
13.重磅!四旋翼飛行器:算法與實(shí)戰(zhàn)
14.ROS2從入門到精通:理論與實(shí)戰(zhàn)
15.國內(nèi)首個(gè)3D缺陷檢測(cè)教程:理論、源碼與實(shí)戰(zhàn)
重磅!3DCVer-學(xué)術(shù)論文寫作投稿?交流群已成立
掃碼添加小助手微信,可申請(qǐng)加入3D視覺工坊-學(xué)術(shù)論文寫作與投稿?微信交流群,旨在交流頂會(huì)、頂刊、SCI、EI等寫作與投稿事宜。
同時(shí)也可申請(qǐng)加入我們的細(xì)分方向交流群,目前主要有3D視覺、CV&深度學(xué)習(xí)、SLAM、三維重建、點(diǎn)云后處理、自動(dòng)駕駛、多傳感器融合、CV入門、三維測(cè)量、VR/AR、3D人臉識(shí)別、醫(yī)療影像、缺陷檢測(cè)、行人重識(shí)別、目標(biāo)跟蹤、視覺產(chǎn)品落地、視覺競(jìng)賽、車牌識(shí)別、硬件選型、學(xué)術(shù)交流、求職交流、ORB-SLAM系列源碼交流、深度估計(jì)等微信群。
一定要備注:研究方向+學(xué)校/公司+昵稱,例如:”3D視覺?+ 上海交大 + 靜靜“。請(qǐng)按照格式備注,可快速被通過且邀請(qǐng)進(jìn)群。原創(chuàng)投稿也請(qǐng)聯(lián)系。
▲長按加微信群或投稿
▲長按關(guān)注公眾號(hào)
3D視覺從入門到精通知識(shí)星球:針對(duì)3D視覺領(lǐng)域的視頻課程(三維重建系列、三維點(diǎn)云系列、結(jié)構(gòu)光系列、手眼標(biāo)定、相機(jī)標(biāo)定、激光/視覺SLAM、自動(dòng)駕駛等)、知識(shí)點(diǎn)匯總、入門進(jìn)階學(xué)習(xí)路線、最新paper分享、疑問解答五個(gè)方面進(jìn)行深耕,更有各類大廠的算法工程人員進(jìn)行技術(shù)指導(dǎo)。與此同時(shí),星球?qū)⒙?lián)合知名企業(yè)發(fā)布3D視覺相關(guān)算法開發(fā)崗位以及項(xiàng)目對(duì)接信息,打造成集技術(shù)與就業(yè)為一體的鐵桿粉絲聚集區(qū),近5000星球成員為創(chuàng)造更好的AI世界共同進(jìn)步,知識(shí)星球入口:
學(xué)習(xí)3D視覺核心技術(shù),掃描查看介紹,3天內(nèi)無條件退款
?圈里有高質(zhì)量教程資料、答疑解惑、助你高效解決問題
覺得有用,麻煩給個(gè)贊和在看~??
總結(jié)
以上是生活随笔為你收集整理的CVPR 2022 | 谷歌提出mip-NeRF 360:全景NeRF越来越丝滑!的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: vs2013配置qt5.7.0
- 下一篇: wpf/sl下的复合程序-CAG入门