當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

ICCV 2019 | 从多视角RGB图像生成三维网格模型Pixel2Mesh++

發(fā)布時(shí)間：2024/10/8 编程问答 52 豆豆

生活随笔收集整理的這篇文章主要介紹了 ICCV 2019 | 从多视角RGB图像生成三维网格模型Pixel2Mesh++ 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

本文發(fā)表于 ICCV 2019，由復(fù)旦大學(xué)、Google 公司和 NURO 公司合作完成。文章提出了從幾張已知相機(jī)位置的多視角彩色圖片生成三角網(wǎng)格模型（3D Mesh）的網(wǎng)絡(luò)結(jié)構(gòu)。?

Github 鏈接：

https://github.com/walsvid/Pixel2MeshPlusPlus

模型架構(gòu)

得益于深度學(xué)習(xí)的強(qiáng)大表征能力，也來越多的工作關(guān)注三維形狀生成任務(wù)。之前的工作大多直接從先驗(yàn)中直接學(xué)習(xí)形狀，而本文使用圖卷積神經(jīng)網(wǎng)絡(luò)（GCN [1]），從多視角圖片的交叉信息學(xué)習(xí)進(jìn)一步提升形狀質(zhì)量。相比于直接建立從圖像到最終 3D 形狀的映射，本文預(yù)測(cè)一系列形變，逐漸將由多視角圖片生成的粗略形狀精細(xì)化。

受傳統(tǒng)多視角幾何的啟發(fā)，本文從粗略形狀的網(wǎng)格頂點(diǎn)周圍采樣候選的形變位置，利用多視角圖片的統(tǒng)計(jì)一致性特征來推理形變的可能位置。大量的實(shí)驗(yàn)表明，本文的模型可以生成準(zhǔn)確的 3D 形狀，不僅從輸入角度看似合理，而且可以與任意視點(diǎn)很好地對(duì)齊。得益于物理驅(qū)動(dòng)的網(wǎng)絡(luò)結(jié)構(gòu)模塊，本文的精細(xì)化粗略形狀（Coarse Mesh Refinement）的網(wǎng)絡(luò)結(jié)構(gòu)還展現(xiàn)了跨不同語義類別、不同輸入圖像數(shù)量和初始網(wǎng)格質(zhì)量的泛化能力。

研究動(dòng)機(jī)

▲?圖1. 不同方法在多個(gè)視角的3D-2D對(duì)齊情況

憑借深度學(xué)習(xí)的驚人表示能力，許多文章已經(jīng)證明了可以僅從單個(gè)彩色圖像成功生成 3D 形狀。然而，由于僅從一個(gè)角度觀察物體視覺證據(jù)有限，基于單個(gè)圖像的方法通常會(huì)在被遮擋的區(qū)域中產(chǎn)生粗糙的幾何形狀，并且在推廣到非訓(xùn)練域數(shù)據(jù)的情況下進(jìn)行測(cè)試時(shí)效果不佳，例如跨語義類別。

添加更多的幾張圖像是為三維形狀生成系統(tǒng)提供有關(guān) 3D 形狀的更多信息的一種行之有效的方法。一方面，多視圖圖像提供了更多的視覺外觀信息。另一方面，傳統(tǒng)的多視角幾何方法（Multi-view Geometry）從視圖之間的對(duì)應(yīng)關(guān)系中準(zhǔn)確地推斷出3D形狀，已經(jīng)有很好的定義，并且不易受到泛化問題的影響。

不過傳統(tǒng)方法在多視角圖片數(shù)量非常有限的情況下難以顯式解出形狀，但多視角的形狀信息則可能直接由神經(jīng)網(wǎng)絡(luò)隱式編碼和學(xué)習(xí)。雖然多視角圖片有著更好的研究動(dòng)機(jī)，但是這個(gè)方向上的研究文獻(xiàn)還很少，而且如圖 1 所示，將基于單張圖片的模型簡(jiǎn)單擴(kuò)展為多視圖版本效果不佳。

模型架構(gòu)

▲?圖2.?System Pipeline

Pixel2Mesh++ 的網(wǎng)絡(luò)結(jié)構(gòu)如圖 2 所示。網(wǎng)絡(luò)以同一個(gè)物體在不同視角的彩色圖片作為輸入，假設(shè)已知不同視角之間的相機(jī)參數(shù)，最終網(wǎng)絡(luò)預(yù)測(cè)一個(gè)在主視角相機(jī)坐標(biāo)系下的三維網(wǎng)格模型。?

網(wǎng)絡(luò)由從粗到精的模式進(jìn)行生成，首先生成合理但粗略的形狀，稍后再添加形狀細(xì)節(jié)。由于現(xiàn)有的三維形狀生成網(wǎng)絡(luò)甚至能在僅給出單張圖片的情況下提供合理的粗略形狀，本文使用 Pixel2Mesh 從單張或多張圖片生成粗略形狀，作為第一步的粗略形狀生成，然后使用 Multi-View Deformation Network (MDN) 進(jìn)行進(jìn)一步的細(xì)化。?

Multi-View Deformation Network是本文網(wǎng)絡(luò)結(jié)構(gòu)的核心，它首先使用 Deformation Hypothesis Sampling 來獲得潛在的形變候選位置，然后用 Cross-View Perceptual Feature Pooling 來從多張圖片中匯集跨視角的特征信息，最后由 Deformation Reasoning 模塊學(xué)習(xí)從特征中推斷出最佳的變形位置。

MDN 的模型本質(zhì)上是 GCN，并且可以與其他基于 GCN 的模型（例如 Pixel2Mesh [2]）共同訓(xùn)練。但不同點(diǎn)在于 MDN 中的圖除了直接表示 3D Mesh 的頂點(diǎn)，還有頂點(diǎn)位置與形變假設(shè)（Deformation Hypothesis）組成的局部 GCN。?

Deformation Hypothesis Sampling?

為每個(gè)頂點(diǎn)選擇形變的假設(shè)位置等價(jià)于在頂點(diǎn)周圍的 3D 空間中采樣點(diǎn)，為了盡可能均勻采樣，本文從 Level-1 Icosahedron 上采樣 42 個(gè)點(diǎn)，并在 Icosahedron 表面和 Mesh 的頂點(diǎn)之間構(gòu)建局部個(gè) GCN 結(jié)構(gòu)，用以預(yù)測(cè) Mesh 頂點(diǎn)的形變。具體結(jié)構(gòu)如圖 3 所示。

▲?圖3.?Deformation Hypothesis Sampling

Cross-View Perceptual Feature Pooling?

如何有效從多視角（Multi-view）圖像中獲取信息是多視圖形狀生成的關(guān)鍵。受 Pixel2Mesh 啟發(fā)，本文也使用 VGG16 的結(jié)構(gòu)來提取 perceptual feature。由于假設(shè)已知相機(jī)內(nèi)參和外參，每個(gè)頂點(diǎn)和形變假設(shè)都能在所有的圖像平面利用虛擬相機(jī)投影得到 2D 坐標(biāo)。與 Pixel2Mesh 不同，本文使用更靠前的卷積層，以擁有更大的特征圖空間尺寸和更局部的特征信息。?

在匯集多個(gè)圖像的特征時(shí)，concatenation 往往是一種無損的 aggregate 方式，但這樣將導(dǎo)致網(wǎng)絡(luò)結(jié)構(gòu)與輸入圖片數(shù)量相關(guān)。在多視角形狀分類任務(wù)中使用的統(tǒng)計(jì)特征（statistics feature）能解決這一問題。本文通過將任意數(shù)量圖片的統(tǒng)計(jì)量信息（mean, max, std）進(jìn)行拼接，得到與視角數(shù)量無關(guān)的跨視角特征。基于統(tǒng)計(jì)的圖像特征與 3D 坐標(biāo)特征拼接在一起作為后續(xù)用于推理形變位置的特征信息。具體結(jié)構(gòu)如圖 4 所示。

▲?圖4.?Cross-View Perceptual Feature Pooling

Deformation Reasoning?

為每個(gè)頂點(diǎn)推理最優(yōu)的形變位置是 Pixel2Mesh++ 能夠進(jìn)一步提升形狀質(zhì)量的關(guān)鍵。值得注意的是選擇最優(yōu)的假設(shè)需要不可導(dǎo)的 argmax 操作，因此本文還提出了可導(dǎo)的尋找理想形變假設(shè)位置的 soft-argmax 模塊。具體來說，跨視角的特征 P 通過 GCN，為每個(gè)假設(shè)學(xué)習(xí)到權(quán)重 c_i，權(quán)重再通過 softmax 層來歸一化為選擇的概率 s_i?其中，頂點(diǎn)的位置則更新為這些假設(shè)坐標(biāo) h_i?的加權(quán)和。具體結(jié)構(gòu)如圖 5 所示。

▲?圖5.?Deformation Reasoning and 3D-soft-argmax

Loss function?

本文繼承了 Pixel2Mesh 的損失函數(shù)形式，但對(duì) ChamferLoss 進(jìn)行擴(kuò)展。受 Ladicky et.al [3][4] 啟發(fā)，從均勻分布中利用重采樣公式，在三角形面片中采樣點(diǎn)，使得 ChamferLoss 的計(jì)算更加穩(wěn)定合理。采樣公式如下：

實(shí)驗(yàn)效果

實(shí)驗(yàn)比較了現(xiàn)有的基于多視角圖片生成三維模型的方法 [5][6] 以及利用單張圖片生成器 Pixel2Mesh 擴(kuò)展得到的簡(jiǎn)單 Baseline。如表 1 所示，實(shí)驗(yàn)證明了本文方法在 F-score 的指標(biāo)上優(yōu)于現(xiàn)有方法。

▲?表1. 與現(xiàn)有方法及baseline的F-score對(duì)比

實(shí)驗(yàn)生成三維網(wǎng)格模型的結(jié)果如圖 6 所示：

▲?圖6. 網(wǎng)格生成結(jié)果

同時(shí)本文還通過實(shí)驗(yàn)比較了 MDN 的強(qiáng)大泛化能力，包括跨語義類別、圖片數(shù)量和初始粗略形狀質(zhì)量等，圖 7 為針對(duì) Initial Mesh 的不同質(zhì)量的魯棒性實(shí)驗(yàn)。

▲?圖7. 網(wǎng)絡(luò)針對(duì)不同輸入的泛化能力

全文總結(jié)

本文提出一種基于圖卷積的網(wǎng)絡(luò)框架，從多視角圖像生成 3D 網(wǎng)格模型。Pixel2Mesh++ 模型學(xué)習(xí)如何利用交叉視圖信息并迭代地生成頂點(diǎn)變形，以改善直接預(yù)測(cè)方法（例如：Pixel2Mesh 及其多視圖擴(kuò)展）。?

受多視圖幾何方法啟發(fā)，本文的模型在每個(gè)網(wǎng)格頂點(diǎn)周圍的附近區(qū)域中搜索最佳位置進(jìn)行頂點(diǎn)位置變形。與之前的方法相比，本文的模型達(dá)到了最先進(jìn)的性能，所生成的形狀包含準(zhǔn)確的表面細(xì)節(jié)，而不僅僅是從輸入視角上看似合理，并且在許多方面都具有良好的泛化能力。

參考文獻(xiàn)

[1]?Thomas N. Kipf and Max Welling. Semi-supervised classi?cation with graph convolutional networks. In ICLR, 2016.?

[2] Nanyang Wang, Yinda Zhang, Zhuwen Li, Yanwei Fu, Wei Liu, and Yu-Gang Jiang. Pixel2mesh: Generating 3d mesh models from single rgb images. In ECCV, 2018.?

[3] Lubor Ladicky, Olivier Saurer, SoHyeon Jeong, Fabio Maninchedda, and Marc Pollefeys. From point clouds to mesh using regression. In Proceedings of the IEEE International Conference on Computer Vision, pages 3893–3902, 2017.?

[4] Smith, E. J., Fujimoto, S., Romero, A., & Meger, D. (2019). GEOMetrics: Exploiting Geometric Structure for Graph-Encoded Objects. arXiv preprint arXiv:1901.11461.?

[5] Christopher B Choy, Danfei Xu, JunYoung Gwak, Kevin Chen, and Silvio Savarese. 3d-r2n2: A uni?ed approach for single and multi-view 3d object reconstruction. In ECCV, 2016.?

[6] Abhishek Kar, Christian Hane, and Jitendra Malik. Learning a multi-view stereo machine. In Advances in neural information processing systems, pages 365–376, 2017.

點(diǎn)擊以下標(biāo)題查看更多往期內(nèi)容：?

#投稿通道#

?讓你的論文被更多人看到?

如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達(dá)讀者群體，縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢？答案就是：你不認(rèn)識(shí)的人。

總有一些你不認(rèn)識(shí)的人，知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁，促使不同背景、不同方向的學(xué)者和學(xué)術(shù)靈感相互碰撞，迸發(fā)出更多的可能性。?

PaperWeekly 鼓勵(lì)高校實(shí)驗(yàn)室或個(gè)人，在我們的平臺(tái)上分享各類優(yōu)質(zhì)內(nèi)容，可以是最新論文解讀，也可以是學(xué)習(xí)心得或技術(shù)干貨。我們的目的只有一個(gè)，讓知識(shí)真正流動(dòng)起來。

📝?來稿標(biāo)準(zhǔn)：

? 稿件確系個(gè)人原創(chuàng)作品，來稿需注明作者個(gè)人信息（姓名+學(xué)校/工作單位+學(xué)歷/職位+研究方向）?

? 如果文章并非首發(fā)，請(qǐng)?jiān)谕陡鍟r(shí)提醒并附上所有已發(fā)布鏈接?

? PaperWeekly 默認(rèn)每篇文章都是首發(fā)，均會(huì)添加“原創(chuàng)”標(biāo)志

📬 投稿郵箱：

? 投稿郵箱：hr@paperweekly.site?

? 所有文章配圖，請(qǐng)單獨(dú)在附件中發(fā)送?

? 請(qǐng)留下即時(shí)聯(lián)系方式（微信或手機(jī)），以便我們?cè)诰庉嫲l(fā)布時(shí)和作者溝通

🔍

現(xiàn)在，在「知乎」也能找到我們了

進(jìn)入知乎首頁搜索「PaperWeekly」

點(diǎn)擊「關(guān)注」訂閱我們的專欄吧

關(guān)于PaperWeekly

PaperWeekly 是一個(gè)推薦、解讀、討論、報(bào)道人工智能前沿論文成果的學(xué)術(shù)平臺(tái)。如果你研究或從事 AI 領(lǐng)域，歡迎在公眾號(hào)后臺(tái)點(diǎn)擊「交流群」，小助手將把你帶入 PaperWeekly 的交流群里。

▽ 點(diǎn)擊 |?閱讀原文?| 下載論文 & 源碼

總結(jié)

以上是生活随笔為你收集整理的ICCV 2019 | 从多视角RGB图像生成三维网格模型Pixel2Mesh++的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：手机不能查征信，中国人民银行并未授权手机
下一篇：百度PARL再度夺冠NeurIPS仿生人