當(dāng)前位置：首頁 > 人文社科 > 生活经验 >内容正文

生活经验

目标形体形状轮廓重建：ICCV2019论文解析

發(fā)布時(shí)間：2023/11/28 生活经验 50 豆豆

生活随笔收集整理的這篇文章主要介紹了目标形体形状轮廓重建：ICCV2019论文解析小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

目標(biāo)形體形狀輪廓重建：ICCV2019論文解析

Shape Reconstruction using Differentiable Projections and Deep Priors

論文鏈接：

http://openaccess.thecvf.com/content_ICCV_2019/papers/Gadelha_Shape_Reconstruction_Using_Differentiable_Projections_and_Deep_Priors_ICCV_2019_paper.pdf

摘要

研究了在存在視點(diǎn)不確定性的情況下，由含噪和不完全投影重建形狀的問題。將該問題轉(zhuǎn)化為對由投影算子和先驗(yàn)算子獲得的給定形狀測量值的優(yōu)化。本文提出了一些重建問題的可微投影算子，當(dāng)與深度圖像先驗(yàn)或形狀先驗(yàn)相結(jié)合時(shí)，可以通過梯度下降進(jìn)行有效的推斷。本文將本文的方法應(yīng)用于各種重建問題，例如少數(shù)樣本的層析重建，包含視圖不確定性的可視船體重建，以及噪聲深度圖的三維形狀重建。實(shí)驗(yàn)結(jié)果表明，本文的方法對此類形狀重建問題是有效的，無需任何特定任務(wù)的訓(xùn)練。

Introduction

考慮從輪廓重建三維形狀的問題。經(jīng)典的視覺外殼算法與每個(gè)視點(diǎn)的可見體積相交，易于實(shí)現(xiàn)，但對視點(diǎn)估計(jì)誤差和輪廓噪聲敏感。針對這個(gè)問題的貝葉斯方法是在形狀和視點(diǎn)估計(jì)上添加適當(dāng)?shù)南闰?yàn)并進(jìn)行后驗(yàn)推理。這一挑戰(zhàn)有兩個(gè)原因。首先，由于沒有緊湊的形狀基礎(chǔ)來搜索一般形狀，因此三維形狀的搜索空間很大。其次，對于高維數(shù)據(jù)，貝葉斯推理通常代價(jià)高昂。為此，本文提出了可微投影算子T和深形狀先驗(yàn)，它們可以通過隨機(jī)梯度下降及其變體進(jìn)行貝葉斯推斷[23]。

雖然存在許多先驗(yàn)，但令人感興趣的是Ulyanov等人的“深形狀先驗(yàn)”。[21]表明自然圖像x的空間可以表示為參數(shù)族fθ（η），其中f是卷積網(wǎng)絡(luò)，θ是其參數(shù)，η是固定輸入。他們的工作表明，對自然圖像的搜索可以被對網(wǎng)絡(luò)θ的參數(shù)的搜索所代替，這是有效的通過梯度下降完成。本文的工作使這個(gè)想法更進(jìn)一步。首先，本文賦予深度圖像先驗(yàn)以3D卷積，從而得到深度形狀先驗(yàn)。其次，在給定投影參數(shù)φ（如視點(diǎn)）的情況下，引入可微投影算子T，對投影測量（如輪廓）進(jìn)行建模。因此，在給定噪聲投影測量y的情況下，對形狀x的推斷可簡化為對網(wǎng)絡(luò)參數(shù)θ和投影參數(shù)φ的以下優(yōu)化：

本文證明，對于許多形狀構(gòu)造問題，如斷層重建、輪廓形狀或深度圖，可以使用現(xiàn)有的神經(jīng)網(wǎng)絡(luò)構(gòu)建塊來構(gòu)造投影算子，這些神經(jīng)網(wǎng)絡(luò)構(gòu)建塊對于輸入?yún)?shù)和投影參數(shù)都是可微的。因此，使用“反向傳播”機(jī)制可以最小化目標(biāo)，這通常比使用馬爾可夫鏈蒙特卡羅（MCMC）技術(shù)的貝葉斯推理快得多。除了選擇網(wǎng)絡(luò)架構(gòu)和投影運(yùn)營商外，該方法不需要任何特定任務(wù)的培訓(xùn)。盡管如此，它在低采樣狀態(tài)下的層析重建中產(chǎn)生了令人信服的結(jié)果，在低采樣狀態(tài)下，它優(yōu)于基于迭代BM3D的最新方法[13]。本文的工作還表明，將深度圖像推廣到三維體之前，對三維形狀的建模是有效的。在諸如可視船體重建或深度圖重建等問題中，即使在視圖估計(jì)中存在不確定性，或深度圖被噪聲污染時(shí)，本文也可以僅從少數(shù)視圖準(zhǔn)確估計(jì)物體的三維形狀。重建結(jié)果明顯優(yōu)于手工制作的前驅(qū)。這些任務(wù)如圖3-9所示。

Related work

在本節(jié)中，本文簡要總結(jié)了用于解決形狀圖像和體積重建的反問題的技術(shù)：

數(shù)據(jù)項(xiàng)E和投影算子T是應(yīng)用程序?qū)Ｓ玫?#xff0c;但在對前一項(xiàng)P建模時(shí)有相當(dāng)大的靈活性。這些包括平滑度優(yōu)先項(xiàng)，如總變差（TV）[17]和L0梯度[25]、面片上的高斯混合模型[29]、去噪自動(dòng)編碼器[22]。深度圖像先驗(yàn)[21]將圖像表示為具有來自固定（隨機(jī)）輸入的隨機(jī)參數(shù)的輸出卷積網(wǎng)絡(luò)。結(jié)果表明，由多個(gè)卷積層和合流層組成的網(wǎng)絡(luò)輸出，再由多個(gè)反卷積層組成，這些層之間的跳躍連接很少或沒有跳躍連接，都會(huì)產(chǎn)生自然圖像。最近，對深度圖像先驗(yàn)的一個(gè)擴(kuò)展表明，它與高斯過程是漸近等價(jià)的[5]。這就提出了一種貝葉斯方法來解決這個(gè)問題：通過Langevin dynamics進(jìn)行后驗(yàn)推理避免了提前停止的需要，并提高了去噪和修復(fù)任務(wù)的結(jié)果。深度圖像先驗(yàn)也與過程先驗(yàn)有關(guān)，例如雙邊濾波[20]、非局部均值[3]或塊匹配3D（BM3D）[7]。這些模型利用圖像中斑塊的非局部自相似性對其進(jìn)行整體去噪。對于包含噪聲和不完全測量y的復(fù)雜投影算子T，應(yīng)用過程先驗(yàn)是非常重要的。假設(shè)y和z表示被噪聲污染的觀測和未觀測投影測量：（y，z）=T（x）+δ。例如，y可以表示傅里葉變換中的頻率子集，或壓縮傳感應(yīng)用中的數(shù)據(jù)投影。Maggioni等人
[13] 提出了以下迭代方案：

優(yōu)化將重構(gòu)與先驗(yàn)解耦合。第一個(gè)涉及圖像先驗(yàn)和平方損失項(xiàng)的推斷。第二個(gè)目標(biāo)是z的二次型，可以用共軛梯度下降法求解。解耦允許使用顯式或隱式先驗(yàn)，以及學(xué)習(xí)的近端投影算子[4,26]proj（z-u，ρ），該算子將向量z-u映射到距離自然圖像流形ρ一段距離內(nèi)的x，類似于去噪自動(dòng)編碼器，以解決反問題。最后，一類方法直接學(xué)習(xí)逆映射G:Y→X，使用豐富的參數(shù)模型，如完全有監(jiān)督的神經(jīng)網(wǎng)絡(luò)。這些模型在訓(xùn)練過程中分散了推理，并在噪聲測量的情況下實(shí)現(xiàn)了有效的推理。這些模型已經(jīng)成功地應(yīng)用于各種反問題，如超分辨率[8]、去噪[24]、著色[12，28]以及從圖像中估計(jì)深度和法線[9]。然而，缺點(diǎn)是模型的結(jié)構(gòu)和參數(shù)可能是專門針對噪聲和投影操作員的，這需要為每個(gè)任務(wù)分別進(jìn)行培訓(xùn)。與這項(xiàng)工作密切相關(guān)的是，最近的一些方法利用對深度特征的幾何變換來生成三維物體的新視圖[14,19]。與本文的方法相反，這些技術(shù)并沒有明確定義投影算子——它們是由一個(gè)深層神經(jīng)網(wǎng)絡(luò)參數(shù)化的。因此，推斷的表示并不直接對應(yīng)于三維形狀，而是對應(yīng)于由模型學(xué)習(xí)的更高級別的表示。

Method

本文的貝葉斯推理方法是使用隨機(jī)梯度下降（SGD）優(yōu)化方程1中的目標(biāo)。這對應(yīng)于最大似然估計(jì)（MLE），或最大后驗(yàn)估計(jì)（MAP），前提是參數(shù)θ上的先驗(yàn)被相加。雖然存在基于SGD的后驗(yàn)抽樣的更復(fù)雜的方案[5, 23 ]，但是本文認(rèn)為SGD對于本文考慮的問題席工作相當(dāng)好。用SGD求解重建問題需要構(gòu)造形狀上的可微投影算子和可微先驗(yàn)。本文將深度圖像先驗(yàn)用于基于圖像的重建任務(wù)，而將三維卷積版本用于形狀重建任務(wù)。在早期的工作中，深度圖像先驗(yàn)被用來解決線性測量的重建問題[21]。例如，在去噪中，投影運(yùn)算符是標(biāo)識變換，而在修復(fù)中，投影運(yùn)算符是指示哪些像素存在或不存在的掩碼。在這一節(jié)中，本文提出了三種可微投影算子，它們可以與深度神經(jīng)網(wǎng)絡(luò)相結(jié)合，從局部和噪聲觀測中重建形狀。

3.1. Radon Projection (TR)

其中S是圖像的大小。注意，Radon變換R的結(jié)果也是一個(gè)圖像（稱為sinogram，由φ和R參數(shù)化），如圖3所示。最后，本文的算子TR接收大小為S×S的圖像I，表示投影角度的一組值φ，并輸出大小為S×|φ|的圖像。該過程是可微的，并且可以實(shí)現(xiàn)為多個(gè)旋轉(zhuǎn)圖像的一維和。

3.2. Silhouette Projection (TS)

基于輪廓的形狀重建包括以下問題：給定一組來自不同視圖的同一物體的輪廓圖像，估計(jì)物體的三維形狀。

3.3. Depth Image Projection (TD)

現(xiàn)在本文得到了每個(gè)體素的可見性值，投影圖像中像素的深度值就是a沿視線的線積分：。這將沿著可見的整個(gè)視線累積體素的數(shù)量，因此它給出深度值。有關(guān)圖示，請參閱圖2。當(dāng)把這個(gè)算子和神經(jīng)網(wǎng)絡(luò)一起使用時(shí)，本文發(fā)現(xiàn)如果本文應(yīng)用指數(shù)衰減，它會(huì)更好地工作。因此，本文可以定義深度投影運(yùn)算符TD如下：

這會(huì)平滑地將深度值映射到[0,1]之間的范圍。具體來說，它將深度值映射為0到0，并將單位映射為1，同時(shí)仍然保持可微運(yùn)算符。

Experiments

網(wǎng)絡(luò)架構(gòu)。

在體積重建實(shí)驗(yàn)（即分別從輪廓圖像和深度圖像重建3D形狀）中，網(wǎng)絡(luò)結(jié)構(gòu)是完全卷積的UNet[16]，其中編碼器具有5層8、16、32、64和128個(gè)濾波器。解碼器是編碼器的鏡像版本，跳過連接僅應(yīng)用于兩個(gè)最內(nèi)層。通過雙線性/三線性插值和卷積完成上采樣。所有卷積都有濾波器大小3，然后是批量標(biāo)準(zhǔn)化和ReLU激活函數(shù)。網(wǎng)絡(luò)的輸入是一個(gè)與輸出大小相同的張量，其值從N（0,1）采樣。

4.1. Tomography Reconstruction

層析成像的標(biāo)準(zhǔn)解是濾波反投影（FBP）：它使用傅立葉切片定理反轉(zhuǎn)Radon變換。當(dāng)角度采樣率較低時(shí)，使用FBP進(jìn)行的重建會(huì)產(chǎn)生嚴(yán)重的混疊偽影，如圖3第三列所示。電視先驗(yàn)極大地改善了所有三幅圖像的重建效果。第2節(jié)中描述的迭代BM3D方法[13]運(yùn)行了100次迭代。本文注意到PSNR值在100次迭代后收斂，在前20次迭代中PSNR的增益最大。請注意，在FBP重建上運(yùn)行BM3D對應(yīng)于此方法的一次迭代。對于深度先驗(yàn)，本文通過運(yùn)行2000個(gè)梯度步長來獲得結(jié)果。與迭代BM3D相比，deep prior生成的重建具有顯著更好的SSIM值和可比較或更好的PSNR值（圖3中的最后兩列）。BM3D的相對較差的性能可能是因?yàn)榕c圖像去噪應(yīng)用中觀察到的噪聲相比，CT重建中的混疊噪聲往往更結(jié)構(gòu)化，不像自然圖像噪聲。迭代BM3D算法需要多次迭代才能消除radon逆變換產(chǎn)生的偽影，但這會(huì)導(dǎo)致底層結(jié)構(gòu)的平滑，從而降低SSIM分?jǐn)?shù)。

4.2. Shape-from-Silhouette 3D Reconstruction

結(jié)果如圖4所示。即使只有少量的輪廓圖像，本文的方法也能重建出合理的三維形狀。選擇本例的視點(diǎn)通過沿水平軸均勻旋轉(zhuǎn)對象（例如，在4個(gè)視圖中，每個(gè)視圖相距90度；在8個(gè)視圖中，每個(gè)視圖相距45度，依此類推）。這個(gè)問題的一個(gè)基線方法是空間雕刻，它將所有投影視圖的交集生成占用網(wǎng)格。本文在圖5中顯示了與空間雕刻的定性比較。空間雕刻為大多數(shù)形狀提供了合理的重建，但有些對象包含諸如折痕甚至丟失的部分等人工制品。另一方面，深的形狀往往會(huì)產(chǎn)生過于平滑的形狀，這有時(shí)意味著移除對象的某些部分（圖5中的椅子）或添加應(yīng)該存在尖銳邊界的內(nèi)容（圖5中的燈）。

View uncertainties

本文將本文的方法與空間雕刻基線進(jìn)行了比較，并在表1中報(bào)告了估計(jì)占用網(wǎng)格在并集上的交集。該方法在不擾動(dòng)視點(diǎn)的情況下仍優(yōu)于一般的空間雕刻，證明了該方法對視點(diǎn)擾動(dòng)的魯棒性。圖7顯示了重建形狀的定性比較。本文的方法重建形狀與高精細(xì)度，保留細(xì)節(jié)和薄結(jié)構(gòu)。另一方面，正如本文在圖7中所看到的，空間雕刻最終會(huì)重建缺少零件和粗糙結(jié)構(gòu)的物體。

Reconstructions using captured images

本文還評估了本文的方法，使用從相機(jī)捕獲的圖像。結(jié)果如圖6所示。拍攝對象是一個(gè)玻璃物體，本文在一個(gè)均勻的背景色下拍攝了4個(gè)等距的視圖，彼此之間的水平旋轉(zhuǎn)角度為45度。然后本文使用[1]移除背景并將每個(gè)圖像轉(zhuǎn)換為二值輪廓形象。本文用本文的方法與標(biāo)準(zhǔn)視覺外殼（即空間雕刻）進(jìn)行比較。正如可以觀察到的，本文的方法導(dǎo)致了平滑的重建，結(jié)果對象看起來更自然。相比之下，視覺外殼結(jié)果包含偽影和圍繞更改視圖的尖銳過渡，這將需要大量視圖來消除。

4.3. Shape-from-Depth Images 3D Reconstruction

深度圖像的三維重建設(shè)置與二值圖像相同，除了使用投影TD而不是TS。所有輸入深度圖像的范圍都使用等式（8）中的指數(shù)映射縮放為[0,1]。分析了該方法在4個(gè)視點(diǎn)下對不同高斯噪聲擾動(dòng)下的深度圖像進(jìn)行三維形狀重建的能力。結(jié)果如圖8所示。此外，本文還分析了在改變視圖數(shù)目的情況下重建的質(zhì)量。結(jié)果如圖9所示。在這些實(shí)驗(yàn)中，本文保持了很高的噪聲水平（σ=0.1）。本文注意到，即使在處理非常嘈雜的投影時(shí)，如果給出足夠的視圖，本文的方法也能夠重建高質(zhì)量的形狀。

Conclusions

結(jié)論將深度圖像或體積先驗(yàn)與可微投影算子相結(jié)合，可以得到可以用隨機(jī)梯度下降從一些噪聲投影測量中重建。該方法是免費(fèi)學(xué)習(xí)的，可以作為一個(gè)通用的先驗(yàn)。盡管如此，在相對簡單的網(wǎng)絡(luò)架構(gòu)下，本文的方法在基于圖像和體積重建任務(wù)中的性能優(yōu)于一些手工制作的和過程性的prior。盡管本文給出了斷層掃描和輪廓和深度圖形狀重建的結(jié)果，但只要渲染或測量過程是可微的，就可以使用該方法。這些問題包括從陰影估計(jì)形狀和從多個(gè)陰影圖像估計(jì)幾何圖形。一個(gè)潛在的問題是對形狀使用體積表示，這會(huì)導(dǎo)致較高的內(nèi)存要求和較長的運(yùn)行時(shí)間。一個(gè)可能的研究方向是研究更緊湊的三維表示（如點(diǎn)云或多視圖）的形狀先驗(yàn)。將深先驗(yàn)知識與可微計(jì)算機(jī)圖形學(xué)管道上的工作相結(jié)合，開辟了在許多應(yīng)用中應(yīng)用這種方法求解反問題的可能性。

總結(jié)

以上是生活随笔為你收集整理的目标形体形状轮廓重建：ICCV2019论文解析的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：激光雷达和V2X技术
下一篇：细粒度语义分割：ICCV2019论文解析

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

生活经验

目标形体形状轮廓重建：ICCV2019论文解析

總結(jié)