當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

CVPR 2022 | 谷歌提出mip-NeRF 360：全景NeRF越来越丝滑！

發(fā)布時(shí)間：2023/12/16 编程问答 44 豆豆

生活随笔收集整理的這篇文章主要介紹了 CVPR 2022 | 谷歌提出mip-NeRF 360：全景NeRF越来越丝滑！小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

轉(zhuǎn)載自：機(jī)器之心

NeRF 家族的 360° 全景 3D 效果真是越來越絲滑了。?

前段時(shí)間，CVPR 2022 公布了今年的論文接收結(jié)果，同時(shí)也意味著投稿的論文終于熬過了靜默期。不少作者都感嘆：終于可以在社交媒體上聊聊我們的論文了！

今天要介紹的論文來自谷歌研究院和哈佛大學(xué)。谷歌研究科學(xué)家、論文一作 Jon Barron 表示，他們開發(fā)了一種名為 Mip-NeRF 360 的模型，該模型能夠生成無界場(chǎng)景的逼真渲染，給我們帶來了 360° 的逼真效果和漂亮的深度圖。

下面是幾張效果圖：

這么好的效果什么時(shí)候能讓 VR 頭盔用上

作者回答說，「我們已經(jīng)可以在瀏覽器 (http://nerf.live) 或桌面 GPU (https://nvlabs.github.io/instant-ngp/) 上實(shí)時(shí)渲染 NeRF，所以把它放到 VR 頭盔上應(yīng)該是可行的?！?/p>

論文概覽

神經(jīng)輻射場(chǎng) (NeRF) 通過在基于坐標(biāo)的多層感知器 (MLP) 的權(quán)重內(nèi)編碼場(chǎng)景的體積密度和顏色，來合成高度逼真的場(chǎng)景渲染。這種方法在逼真的視圖合成方面取得了重大進(jìn)展 [30]。然而，NeRF 使用 3D 點(diǎn)對(duì) MLP 的輸入進(jìn)行建模，這在渲染不同分辨率的視圖時(shí)會(huì)導(dǎo)致混疊。?

基于這個(gè)問題，Mip-NeRF 擴(kuò)展了 NeRF ，不再對(duì)沿錐體的體積截頭體進(jìn)行推理 [3]。盡管這樣做提高了質(zhì)量，但 NeRF 和 mipNeRF 在處理無界場(chǎng)景時(shí)會(huì)遇到挑戰(zhàn)，無界場(chǎng)景中的相機(jī)可能面向任何方向并且場(chǎng)景內(nèi)容可能位于任何位置。

在這篇論文中，研究者提出了對(duì) mip-NeRF 的擴(kuò)展 ——mip-NeRF 360，它能夠生成這些無界場(chǎng)景的逼真渲染（圖 1）。

將類似 NeRF 的模型應(yīng)用于大型無界場(chǎng)景會(huì)引發(fā)三個(gè)關(guān)鍵問題：

參數(shù)化問題。mip-NeRF 要求將 3D 場(chǎng)景坐標(biāo)映射到有界域，所以無界的 360 度的場(chǎng)景會(huì)占據(jù)無窮大的歐式空間區(qū)域。
效率問題。巨大且細(xì)節(jié)化的場(chǎng)景需要巨大的網(wǎng)絡(luò)容量，所以在訓(xùn)練期間，頻繁地沿每條射線去查詢巨大的 MLP 網(wǎng)絡(luò)會(huì)產(chǎn)生巨大的消耗。
歧義問題。無界 360 度場(chǎng)景的背景區(qū)域明顯比中心區(qū)域的光線稀疏。這種現(xiàn)象加劇了從 2D 圖像重建 3D 內(nèi)容的固有模糊性。

基于上述問題，研究者提出了 mip-NeRF 的擴(kuò)展模型，它使用非線性場(chǎng)景參數(shù)化、在線蒸餾和新穎的基于失真的正則化器來克服無界場(chǎng)景帶來的挑戰(zhàn)。新模型被稱為「mip-NeRF 360」，因?yàn)樵撗芯酷槍?duì)的是相機(jī)圍繞一個(gè)點(diǎn)旋轉(zhuǎn) 360 度的場(chǎng)景，與 mip-NeRF 相比，均方誤差降低了 54%，并且能夠生成逼真的合成視圖和詳細(xì)的深度用于高度復(fù)雜、無界的現(xiàn)實(shí)世界場(chǎng)景的地圖。

Mip-NeRF 360: Unbounded Anti-Aliased Neural Radiance Fields
論文鏈接：https://arxiv.org/pdf/2111.12077.pdf
視頻解讀：https://www.youtube.com/watch?v=zBSH-k9GbV4

技術(shù)細(xì)節(jié)

讓 mip-NeRF 在無界場(chǎng)景中正常工作存在三個(gè)主要問題，而本文的三個(gè)主要貢獻(xiàn)旨在解決這些問題。接下來，讓我們結(jié)合作者給出的解讀視頻來了解一下。

第一個(gè)問題是在表示方面，mip-NeRF 適用于有界坐標(biāo)空間中，而非無界場(chǎng)景，研究者使用一種看起來很像是一種擴(kuò)展版的卡爾曼濾波器將 mip-NeRF 的高斯函數(shù)扭曲到非歐式空間中。

第二個(gè)問題是，場(chǎng)景通常是細(xì)節(jié)化的，如果想將 mip-NeRF 用于無界場(chǎng)景，可以將網(wǎng)絡(luò)變得更大，但是這樣會(huì)讓訓(xùn)練速度變慢。所以，在優(yōu)化階段，研究者提出訓(xùn)練一個(gè)較小的 MLP 來限制空間大小，這可以讓訓(xùn)練速度變快三倍。

第三個(gè)問題是，在更大的場(chǎng)景下，3D 重建的結(jié)果會(huì)變得較為模糊，產(chǎn)生偽影。為了解決這個(gè)問題，研究者引入了一種新型正則化器，專門用于 mip-NeRF 中的射線間隔。

首先來談第一個(gè)問題，以一個(gè)有著三個(gè)攝像頭的平地場(chǎng)景為例，在 mip-NeRF 中，這些相機(jī)將高斯函數(shù)投射到場(chǎng)景中。在一個(gè)大的場(chǎng)景，這導(dǎo)致高斯函數(shù)逐漸遠(yuǎn)離原點(diǎn)并且被拉長。這是因?yàn)?mip-NeRF 需要基于有界的坐標(biāo)空間并且高斯函數(shù)在某種程度上是各向同性的。

為了解決這個(gè)問題，研究者定義了一個(gè)扭曲函數(shù)，來平滑地將藍(lán)色圓（Unaffected Domain）外部的坐標(biāo)映射到橙色圓（Contracted Domain）內(nèi)。扭曲函數(shù)旨在消除 mip-NeRF 中的高斯非線性間距的影響。

為了將這種扭曲應(yīng)用于 mip-NeRF 中的高斯函數(shù)，研究者使用了一個(gè)擴(kuò)展版的卡爾曼濾波器，這樣一來，沒有邊界的場(chǎng)景就可以被約束到橙色圓內(nèi)，橙色圓內(nèi)是一個(gè)非歐式空間，其中的坐標(biāo)就是 MLP 的輸入。

為了能理解論文中的在線蒸餾模型，我們首先需要介紹 mip-NeRF 是如何訓(xùn)練以及采樣的。在 mip-NeRF 中，首先需要定義一組大致均勻分布的區(qū)間，可以理解為直方圖中的端點(diǎn)。如圖所示，每個(gè)間隔的高斯都被送入 mlp，并且得到直方圖權(quán)重 w^c 和顏色 c^c。然后將這些顏色加權(quán)后得到像素點(diǎn)的顏色 C^c。之后這些權(quán)重被重采樣，并得到一組新的區(qū)間，并且在場(chǎng)景中有內(nèi)容的地方，端點(diǎn)就會(huì)較為聚集。

這個(gè)重采樣可以多次進(jìn)行，但為了方便在這里只顯示一個(gè)。這個(gè)新的區(qū)間中的數(shù)據(jù)被送入同一 MLP 來得到一組新的權(quán)重和顏色，然后再通過加權(quán)得到像素點(diǎn)的顏色 C^f。mip-NeRF 只是最小化所有渲染像素值和輸入圖像真實(shí)像素值之間的重構(gòu)損失。只有精細(xì)的顏色被用來渲染最終的圖像是非常浪費(fèi)的。

粗略渲染需要有監(jiān)督學(xué)習(xí)來完成的唯一原因是幫助指導(dǎo)精細(xì)直方圖的采樣，這一觀察激發(fā)了文中模型的訓(xùn)練和采樣過程。研究者從一組均勻分布的直方圖開始，將它們送入提出的 MLP 以產(chǎn)生一組權(quán)重，但不產(chǎn)生顏色。

這些權(quán)重會(huì)被重新采樣，同樣這個(gè)過程可以重復(fù)多次，但他們?cè)谝曨l中只展示了一個(gè)重采用過程。他們提出的 mlp 產(chǎn)生的最后一組區(qū)間被送入另一個(gè) mlp，該 mlp 的行為與 mip-NeRF 中的完全相同，他們將其稱為 NeRF mlp。NeRF mlp 為他們提供了一組可以用于渲染像素顏色的權(quán)重和顏色。

研究者將通過監(jiān)督學(xué)習(xí)的方式，使得像素渲染得到的顏色接近真實(shí)圖片中的顏色。他們讓監(jiān)督輸出權(quán)重與 NeRF mlp 的輸出權(quán)重一致，而不是監(jiān)督文中提出的 mlp 來重建圖像。這種設(shè)置意味著只需要經(jīng)常去訪問一個(gè)較小的 mlp，而較大的 NeRF mlp 則不需要太多的訪問次數(shù)。

為了使模型起效，他們需要一個(gè)損失函數(shù)來鼓勵(lì)具有不同區(qū)間劃分的直方圖彼此一致。為了說明這一點(diǎn)，如上圖所示，他們?cè)谧髠?cè)構(gòu)建了一個(gè)真實(shí)的一維分布，在右側(cè)的是兩個(gè)該真實(shí)分布的直方圖。

因?yàn)檫@兩個(gè)直方圖刻畫同一個(gè)分布，研究者可以對(duì)它們之間的關(guān)系做出一些強(qiáng)有力的斷言，例如上面突出顯示的那個(gè)區(qū)間的權(quán)重一定不會(huì)超過在下面的直方圖中與其重疊的區(qū)間權(quán)重的總和?；谶@個(gè)事實(shí)，他們可以使用一個(gè)直方圖的權(quán)重來構(gòu)造另一個(gè)直方圖權(quán)重的上限。?

再一次聲明，如果這兩個(gè)直方圖同時(shí)刻畫相同的真實(shí)分布的，上界是必須確定的。

因此，在訓(xùn)練期間，研究者對(duì)他們提出的 mlp 和 NeRF mlp 分別生成的直方圖之間構(gòu)造了損失，該損失會(huì)懲罰任何違反此處以紅色顯示的邊界的多余部分。通過這樣方式，來鼓勵(lì)他們提出的 mlp 學(xué)習(xí)什么是有效的上界。

基于 nerf mlp 學(xué)習(xí)的體積場(chǎng)景密度，新模型中用來解決歧義問題的組件是光線直方圖上的簡(jiǎn)單正則化器，他們簡(jiǎn)單地最小化沿光線的所有點(diǎn)之間的加權(quán)絕對(duì)距離，來鼓勵(lì)每個(gè)直方圖盡可能接近 delta 函數(shù)。這里顯示的這個(gè)二重積分不容易計(jì)算，但可以推導(dǎo)出一個(gè)很好的封閉形式，計(jì)算起來很簡(jiǎn)單。

實(shí)驗(yàn)結(jié)果

表 1 展示了數(shù)據(jù)集中測(cè)試圖像的平均 PSNR、SSIM [46] 和 LPIPS [49]。從中可以看出，本文提出的模型大大優(yōu)于所有先前的類似 NeRF 的模型，并且可以看到相對(duì)于 mip-NeRF ，均方誤差減少了 54%，而訓(xùn)練時(shí)間僅為 1.92 倍。

在表 2 中，研究者對(duì)模型在自行車場(chǎng)景中進(jìn)行了消融研究，并在此總結(jié)了研究結(jié)果。

A) 移除 L_prop 會(huì)導(dǎo)致災(zāi)難性的失敗，因?yàn)?MLP 完全不受監(jiān)督。

B) 移除 L_dist 通過引入偽影降低圖像質(zhì)量（參見圖 5）。

C) Mildenhall 等人提出的正則化器 [30] 將高斯噪聲 (σ = 1) 注入密度當(dāng)中，但效果不如我們的正則化器。

D) 移除研究者提出的 MLP 并使用單個(gè) MLP 對(duì)場(chǎng)景和權(quán)重進(jìn)行建模不會(huì)降低性能，但會(huì)比他們提出的 MLP 增加約為 2 倍的訓(xùn)練時(shí)間。

E) 刪除 MLP 并使用 mip-NeRF 的方法訓(xùn)練本文提出的模型（在所有粗略尺度上應(yīng)用 L_recon 而不是 L_prop）會(huì)降低速度和準(zhǔn)確性，這證明研究者使用的監(jiān)督策略是合理的。

F) 使用小型 NeRF MLP（256 個(gè)隱藏單元而不是 1024 個(gè)隱藏單元）加速了訓(xùn)練，但降低了質(zhì)量，這展示了大容量 MLP 在建模詳細(xì)場(chǎng)景時(shí)的價(jià)值。

G) 完全移除 IPE 并使用 NeRF 的位置編碼 [30] 會(huì)降低性能，顯示了基于 mip-NeRF 而不是 NeRF 的價(jià)值。

H) 消除收縮并增加位置編碼頻率來限制場(chǎng)景會(huì)降低準(zhǔn)確性和速度。

I) 使用 DONeRF [31] 中提出的參數(shù)化和對(duì)數(shù)射線間距會(huì)降低精度。

J) 盡管使用 NeRF++ [48] 中提出的雙 MLP 參數(shù)化可以優(yōu)于本文中的技術(shù) —— 但代價(jià)是訓(xùn)練時(shí)間加倍，因?yàn)?MLP 的驗(yàn)證時(shí)間加倍（為了保持恒定的模型容量，研究者將兩個(gè) MLP 的隱藏單元數(shù)除以 √2）。

更多細(xì)節(jié)請(qǐng)參考原論文。

本文僅做學(xué)術(shù)分享，如有侵權(quán)，請(qǐng)聯(lián)系刪文。

干貨下載與學(xué)習(xí)

后臺(tái)回復(fù)：巴塞羅那自治大學(xué)課件，即可下載國外大學(xué)沉淀數(shù)年3D Vison精品課件

后臺(tái)回復(fù)：計(jì)算機(jī)視覺書籍，即可下載3D視覺領(lǐng)域經(jīng)典書籍pdf

后臺(tái)回復(fù)：3D視覺課程，即可學(xué)習(xí)3D視覺領(lǐng)域精品課程

3D視覺精品課程推薦：

1.面向自動(dòng)駕駛領(lǐng)域的多傳感器數(shù)據(jù)融合技術(shù)

2.面向自動(dòng)駕駛領(lǐng)域的3D點(diǎn)云目標(biāo)檢測(cè)全棧學(xué)習(xí)路線！(單模態(tài)+多模態(tài)/數(shù)據(jù)+代碼)
3.徹底搞透視覺三維重建：原理剖析、代碼講解、及優(yōu)化改進(jìn)
4.國內(nèi)首個(gè)面向工業(yè)級(jí)實(shí)戰(zhàn)的點(diǎn)云處理課程
5.激光-視覺-IMU-GPS融合SLAM算法梳理和代碼講解
6.徹底搞懂視覺-慣性SLAM：基于VINS-Fusion正式開課啦
7.徹底搞懂基于LOAM框架的3D激光SLAM: 源碼剖析到算法優(yōu)化
8.徹底剖析室內(nèi)、室外激光SLAM關(guān)鍵算法原理、代碼和實(shí)戰(zhàn)(cartographer+LOAM +LIO-SAM)

9.從零搭建一套結(jié)構(gòu)光3D重建系統(tǒng)[理論+源碼+實(shí)踐]

10.單目深度估計(jì)方法：算法梳理與代碼實(shí)現(xiàn)

11.自動(dòng)駕駛中的深度學(xué)習(xí)模型部署實(shí)戰(zhàn)

12.相機(jī)模型與標(biāo)定(單目+雙目+魚眼）

13.重磅！四旋翼飛行器：算法與實(shí)戰(zhàn)

14.ROS2從入門到精通：理論與實(shí)戰(zhàn)

15.國內(nèi)首個(gè)3D缺陷檢測(cè)教程：理論、源碼與實(shí)戰(zhàn)

重磅！3DCVer-學(xué)術(shù)論文寫作投稿?交流群已成立

掃碼添加小助手微信，可申請(qǐng)加入3D視覺工坊-學(xué)術(shù)論文寫作與投稿?微信交流群，旨在交流頂會(huì)、頂刊、SCI、EI等寫作與投稿事宜。

同時(shí)也可申請(qǐng)加入我們的細(xì)分方向交流群，目前主要有3D視覺、CV&深度學(xué)習(xí)、SLAM、三維重建、點(diǎn)云后處理、自動(dòng)駕駛、多傳感器融合、CV入門、三維測(cè)量、VR/AR、3D人臉識(shí)別、醫(yī)療影像、缺陷檢測(cè)、行人重識(shí)別、目標(biāo)跟蹤、視覺產(chǎn)品落地、視覺競(jìng)賽、車牌識(shí)別、硬件選型、學(xué)術(shù)交流、求職交流、ORB-SLAM系列源碼交流、深度估計(jì)等微信群。

一定要備注：研究方向+學(xué)校/公司+昵稱，例如：”3D視覺?+ 上海交大 + 靜靜“。請(qǐng)按照格式備注，可快速被通過且邀請(qǐng)進(jìn)群。原創(chuàng)投稿也請(qǐng)聯(lián)系。

▲長按加微信群或投稿

▲長按關(guān)注公眾號(hào)

3D視覺從入門到精通知識(shí)星球：針對(duì)3D視覺領(lǐng)域的視頻課程（三維重建系列、三維點(diǎn)云系列、結(jié)構(gòu)光系列、手眼標(biāo)定、相機(jī)標(biāo)定、激光/視覺SLAM、自動(dòng)駕駛等）、知識(shí)點(diǎn)匯總、入門進(jìn)階學(xué)習(xí)路線、最新paper分享、疑問解答五個(gè)方面進(jìn)行深耕，更有各類大廠的算法工程人員進(jìn)行技術(shù)指導(dǎo)。與此同時(shí)，星球?qū)⒙?lián)合知名企業(yè)發(fā)布3D視覺相關(guān)算法開發(fā)崗位以及項(xiàng)目對(duì)接信息，打造成集技術(shù)與就業(yè)為一體的鐵桿粉絲聚集區(qū)，近5000星球成員為創(chuàng)造更好的AI世界共同進(jìn)步，知識(shí)星球入口：

學(xué)習(xí)3D視覺核心技術(shù)，掃描查看介紹，3天內(nèi)無條件退款

?圈里有高質(zhì)量教程資料、答疑解惑、助你高效解決問題

覺得有用，麻煩給個(gè)贊和在看~??

總結(jié)

以上是生活随笔為你收集整理的CVPR 2022 | 谷歌提出mip-NeRF 360：全景NeRF越来越丝滑！的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇： vs2013配置qt5.7.0
下一篇： wpf/sl下的复合程序－CAG入门

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

编程问答

CVPR 2022 | 谷歌提出mip-NeRF 360：全景NeRF越来越丝滑！

總結(jié)