利用二维数据学习纹理三维网格生成(CVPR 2020)
點(diǎn)擊上方“3D視覺工坊”,選擇“星標(biāo)”
干貨第一時(shí)間送達(dá)
作者丨paopaoslam
來源丨泡泡機(jī)器人SLAM?
標(biāo)題:Leveraging 2D Data to Learn Textured 3D Mesh Generation
作者:Paul Henderson, Vagia Tsiminaki, Christoph H. Lampert
來源:CVPR 2020
編譯:徐奕聰
審核:阮建源 王志勇
摘要
????業(yè)界已經(jīng)提出了若干針對(duì)3D物體進(jìn)行概率生成的建模方法。然而,尚無一種方法可以產(chǎn)生帶紋理的物體,使得這些建模方法的應(yīng)用場(chǎng)景十分的有限。本文提出了第一種可以生成帶紋理的3D網(wǎng)格的模型。訓(xùn)練此類模型通常需要大量帶紋理的網(wǎng)格數(shù)據(jù)集,但是現(xiàn)有的網(wǎng)格數(shù)據(jù)集缺乏細(xì)致的紋理。于是,我們提出了一種毋需三維信息而是通過二維圖像即可進(jìn)行學(xué)習(xí)的方法。我們將每張圖片視為三維前景物體放置在二維背景圖前的渲染,并對(duì)此進(jìn)行建模,來解釋訓(xùn)練圖像的分布。模型最終習(xí)得如何生成一種網(wǎng)格:這種網(wǎng)格在被渲染的時(shí)候,生成的2D圖像將盡量接近訓(xùn)練集中的二維圖像。
????深度神經(jīng)網(wǎng)絡(luò)生成網(wǎng)格的過程中,自重疊的出現(xiàn)會(huì)帶來一系列的問題。本文的第二處貢獻(xiàn)是我們提出的3D網(wǎng)格的生成方法避免了自重疊的出現(xiàn)。該方法的直觀來源是面在移動(dòng)過程中會(huì)將其他面推開。
????我們進(jìn)行了廣泛的實(shí)驗(yàn),用合成數(shù)據(jù)和自然圖像計(jì)算了數(shù)值結(jié)果和品質(zhì)測(cè)試的計(jì)算。結(jié)果顯示我們的方法成功地學(xué)習(xí)了如何生成帶紋理的3D樣本。這些樣本隸屬于五類較難識(shí)別的物體,結(jié)果區(qū)分度高,令人信服。
主要工作與貢獻(xiàn)
????本文的第一個(gè)貢獻(xiàn)是提出了針對(duì)有紋理的3D形狀的生成模型。第二,也是最主要的貢獻(xiàn),是用一種方法將該模型訓(xùn)練為與圖片分布相匹配。我們的模型通過學(xué)習(xí),可以用與類似圖片生成的物理過程相似的方式,重新生成訓(xùn)練圖片集。我們?cè)谏赡P偷幕A(chǔ)上,使用了圖像形成模型。我們將生成的三維物體放置在相機(jī)前,使其在背景前被渲染來得到圖片。一個(gè)編碼網(wǎng)絡(luò)預(yù)測(cè)潛在的參數(shù)來產(chǎn)生給定圖片。因此,該模型可以解釋這樣一種訓(xùn)練圖像的分布,描述了一個(gè)3D前景物體在2D背景下的概率模型。使用容量有限的錢在空間對(duì)物體多樣性進(jìn)行建模,我們確保了產(chǎn)生完整一致的三維物體,而不是可以解釋每個(gè)訓(xùn)練圖片個(gè)例的不真實(shí)的三維圖形。通俗來講,此方法可行的原因是,編碼一個(gè)依賴于視角的、體現(xiàn)多個(gè)物體片面樣貌的分布,所需要的數(shù)據(jù)量要遠(yuǎn)遠(yuǎn)大于一個(gè)全局最優(yōu)的外觀模型的變種。
方法概述
????我們首先定義了對(duì)于有紋理的3D柵格的生成概率模型。每組柵格含有Nv頂點(diǎn)和NF頂點(diǎn)三角形面。每個(gè)三角形面賦予一個(gè)顏色c。面和頂點(diǎn)之間的映射在計(jì)算過程中保持一致。為了產(chǎn)生柵格,模型必須對(duì)所有頂點(diǎn)的位置v和面的顏色c進(jìn)行采樣。
圖:我們首先定義了對(duì)于有紋理的3D柵格的生成概率模型。粉色部分是背景圖和3D前景物體生成圖片的模型。通過使用該模型,我們闡述了如何利用2D數(shù)據(jù)進(jìn)行訓(xùn)練。綠色部分的編碼模型預(yù)測(cè)一個(gè)給定圖片中潛在參數(shù)的后驗(yàn)概率。加入該模塊后,我們訓(xùn)練模型將一個(gè)圖片數(shù)據(jù)集的概率最大化。白色圓形代表隨機(jī)變量,有色方塊是稠密連接的網(wǎng)絡(luò)。梯形模塊為卷積網(wǎng)絡(luò)。
????我們利用標(biāo)準(zhǔn)高斯分布產(chǎn)生隱性低維編碼變量,并且將這些傳給解碼網(wǎng)絡(luò)來產(chǎn)生需要的特性。
其中,zshape代表了物體的三維形狀;形狀解碼網(wǎng)絡(luò)decshape可為稠密連接的ELU網(wǎng)絡(luò),輸出v包含了3Nv個(gè)變量,代表了每個(gè)頂點(diǎn)的三維坐標(biāo)。zcolor表示紋理。deccolor為稠密連接的ELU網(wǎng)絡(luò),輸出c代表了每個(gè)面的顏色的RGB值。
????使用神經(jīng)網(wǎng)絡(luò)來計(jì)算頂點(diǎn)位置經(jīng)常會(huì)產(chǎn)生高度不規(guī)則且自我重疊的柵格。我們使用了一個(gè)更加復(fù)雜的結(jié)構(gòu)來設(shè)計(jì)decshape來保證結(jié)果不會(huì)自我重疊。第4jp中對(duì)使用的方法進(jìn)行了詳細(xì)的介紹
從圖片中訓(xùn)練
????我們的目標(biāo)僅僅使用二維圖片來訓(xùn)練第3節(jié)中討論的生成模型,不使用任何三維數(shù)據(jù)。我們假設(shè)數(shù)據(jù)集的每個(gè)圖片都只包含一個(gè)目標(biāo)物體的實(shí)例,并且由兩種配置進(jìn)行訓(xùn)練:
(蒙版)我們可以獲得(i)大致的相機(jī)標(biāo)定信息;(ii)每個(gè)目標(biāo)實(shí)例的分割蒙版;(iii)背景圖片。
(無蒙版)我們只有相機(jī)的標(biāo)定信息。這種配置下問題更具有挑戰(zhàn)性。
????為了在這兩種配置下訓(xùn)練模型,我們給生成模型增加了額外的成分來模擬整個(gè)圖片的形成過程(上圖中粉色模塊)。對(duì)柵格進(jìn)行采樣后,我們將其呈現(xiàn)在三維空間中的透視相機(jī)前,在背景圖上渲染。最后,觀察到的圖片x是各向同性的高斯隨機(jī)變量,均值為渲染的像素?cái)?shù)量,方差固定。我們接著使用了編碼網(wǎng)絡(luò)來預(yù)測(cè)給定圖片的隱性變量。這使得我們訓(xùn)練的模型可以匹配一個(gè)圖片的分布(而不是網(wǎng)格)。模型學(xué)習(xí)重建的是背景圖片前的前景網(wǎng)格。
實(shí)驗(yàn)數(shù)據(jù)與結(jié)果
????我們用五類物體進(jìn)行了實(shí)驗(yàn):鳥,汽車,飛機(jī),椅子和沙發(fā)。若干關(guān)于弱監(jiān)督學(xué)習(xí)的重建論文也主要研究了這幾類物體。6.1中我們?cè)谑芸氐臈l件下渲染了ShapeNet的網(wǎng)格,驗(yàn)證了本文的方法,并分析了不同設(shè)置和參數(shù)下的性能。6.2中我們展示了該模型如何從兩大具有挑戰(zhàn)性的自然圖片集合中學(xué)習(xí)生成了模型。最后在6.3節(jié)中,我們展示了訓(xùn)練好的模型可以從單張自然圖片中重建3D模型。
????使用人造數(shù)據(jù)的實(shí)驗(yàn)中,我們使用了ShapeNet的四類物體:汽車,椅子,飛機(jī),沙發(fā)。這四類物體特征各不相同。訓(xùn)練使用的是渲染圖而不是網(wǎng)格本身。結(jié)果如下圖:
圖:從本文模型中進(jìn)行采樣得到的紋理網(wǎng)格。由ShapeNet的渲染圖像訓(xùn)練。每行的五張圖是不同視角觀察同一個(gè)采樣得到的網(wǎng)格。汽車和沙發(fā)在無蒙版和稠密參數(shù)的設(shè)置下訓(xùn)練。椅子和飛機(jī)是在有蒙版和外推設(shè)置下訓(xùn)練,因此即使有精密的幾何細(xì)節(jié)仍然沒有自我重疊。
表:四個(gè)ShapeNet分類的生成的數(shù)值結(jié)果。左右兩欄表示了是否使用真實(shí)結(jié)果的蒙版。IS列的數(shù)值越大代表結(jié)果越優(yōu),FID/KID相反。
表:每個(gè)產(chǎn)生網(wǎng)格的平均重疊面的比例。
自然圖片的生成結(jié)果和單張圖片的3D重建結(jié)果詳見原文。
結(jié)論
????我們呈現(xiàn)了一種針對(duì)有紋理的3D網(wǎng)格的生成模型,并且提出了一種僅使用圖片的訓(xùn)練方法。我們通過捕捉圖片的產(chǎn)生過程,對(duì)訓(xùn)練方法進(jìn)行了增益。我們嘗試讓模型解析訓(xùn)練圖片,將每張圖片重建為一組3D網(wǎng)格在背景圖前的渲染。本文中的方法可以讓我們針對(duì)五類不同的物體產(chǎn)生真實(shí)的紋理網(wǎng)格。本文的方法不僅適用于渲染圖作為數(shù)據(jù),也適用于自然圖片;同時(shí)也不依賴于分割蒙版或者要求物體實(shí)例圖片多樣的角度。
????我們提出的網(wǎng)格參數(shù)化方法也避免了自重疊,對(duì)物理仿真和3D打印的相關(guān)應(yīng)用具有重要意義。
Abstract
Numerous methods have been proposed for probabilisticgenerative modelling of 3D objects. However, none of theseis able to produce textured objects, which renders them oflimited use for practical tasks. In this work, we present thefirst generative model of textured 3D meshes. Training sucha model would traditionally require a large dataset of textured meshes, but unfortunately, existing datasets of mesheslack detailed textures. We instead propose a new trainingmethodology that allows learning from collections of 2Dimages without any 3D information. To do so, we train ourmodel to explain a distribution of images by modelling eachimage as a 3D foreground object placed in front of a 2Dbackground. Thus, it learns to generate meshes that whenrendered, produce images similar to those in its training set.
A well-known problem when generating meshes withdeep networks is the emergence of self-intersections, whichare problematic for many use-cases. As a second contribution we therefore introduce a new generation process for 3Dmeshes that guarantees no self-intersections arise, based onthe physical intuition that faces should push one another outof the way as they move.
We conduct extensive experiments on our approach, reporting quantitative and qualitative results on both synthetic data and natural images. These show our methodsuccessfully learns to generate plausible and diverse textured 3D samples for five challenging object classes.
本文僅做學(xué)術(shù)分享,如有侵權(quán),請(qǐng)聯(lián)系刪文。
3D視覺工坊精品課程官網(wǎng):3dcver.com
1.面向自動(dòng)駕駛領(lǐng)域的多傳感器數(shù)據(jù)融合技術(shù)
2.面向自動(dòng)駕駛領(lǐng)域的3D點(diǎn)云目標(biāo)檢測(cè)全棧學(xué)習(xí)路線!(單模態(tài)+多模態(tài)/數(shù)據(jù)+代碼)
3.徹底搞透視覺三維重建:原理剖析、代碼講解、及優(yōu)化改進(jìn)
4.國(guó)內(nèi)首個(gè)面向工業(yè)級(jí)實(shí)戰(zhàn)的點(diǎn)云處理課程
5.激光-視覺-IMU-GPS融合SLAM算法梳理和代碼講解
6.徹底搞懂視覺-慣性SLAM:基于VINS-Fusion正式開課啦
7.徹底搞懂基于LOAM框架的3D激光SLAM: 源碼剖析到算法優(yōu)化
8.徹底剖析室內(nèi)、室外激光SLAM關(guān)鍵算法原理、代碼和實(shí)戰(zhàn)(cartographer+LOAM +LIO-SAM)
9.從零搭建一套結(jié)構(gòu)光3D重建系統(tǒng)[理論+源碼+實(shí)踐]
10.單目深度估計(jì)方法:算法梳理與代碼實(shí)現(xiàn)
11.自動(dòng)駕駛中的深度學(xué)習(xí)模型部署實(shí)戰(zhàn)
12.相機(jī)模型與標(biāo)定(單目+雙目+魚眼)
13.重磅!四旋翼飛行器:算法與實(shí)戰(zhàn)
14.ROS2從入門到精通:理論與實(shí)戰(zhàn)
15.國(guó)內(nèi)首個(gè)3D缺陷檢測(cè)教程:理論、源碼與實(shí)戰(zhàn)
16.基于Open3D的點(diǎn)云處理入門與實(shí)戰(zhàn)教程
重磅!3DCVer-學(xué)術(shù)論文寫作投稿?交流群已成立
掃碼添加小助手微信,可申請(qǐng)加入3D視覺工坊-學(xué)術(shù)論文寫作與投稿?微信交流群,旨在交流頂會(huì)、頂刊、SCI、EI等寫作與投稿事宜。
同時(shí)也可申請(qǐng)加入我們的細(xì)分方向交流群,目前主要有3D視覺、CV&深度學(xué)習(xí)、SLAM、三維重建、點(diǎn)云后處理、自動(dòng)駕駛、多傳感器融合、CV入門、三維測(cè)量、VR/AR、3D人臉識(shí)別、醫(yī)療影像、缺陷檢測(cè)、行人重識(shí)別、目標(biāo)跟蹤、視覺產(chǎn)品落地、視覺競(jìng)賽、車牌識(shí)別、硬件選型、學(xué)術(shù)交流、求職交流、ORB-SLAM系列源碼交流、深度估計(jì)等微信群。
一定要備注:研究方向+學(xué)校/公司+昵稱,例如:”3D視覺?+ 上海交大 + 靜靜“。請(qǐng)按照格式備注,可快速被通過且邀請(qǐng)進(jìn)群。原創(chuàng)投稿也請(qǐng)聯(lián)系。
▲長(zhǎng)按加微信群或投稿
▲長(zhǎng)按關(guān)注公眾號(hào)
3D視覺從入門到精通知識(shí)星球:針對(duì)3D視覺領(lǐng)域的視頻課程(三維重建系列、三維點(diǎn)云系列、結(jié)構(gòu)光系列、手眼標(biāo)定、相機(jī)標(biāo)定、激光/視覺SLAM、自動(dòng)駕駛等)、知識(shí)點(diǎn)匯總、入門進(jìn)階學(xué)習(xí)路線、最新paper分享、疑問解答五個(gè)方面進(jìn)行深耕,更有各類大廠的算法工程人員進(jìn)行技術(shù)指導(dǎo)。與此同時(shí),星球?qū)⒙?lián)合知名企業(yè)發(fā)布3D視覺相關(guān)算法開發(fā)崗位以及項(xiàng)目對(duì)接信息,打造成集技術(shù)與就業(yè)為一體的鐵桿粉絲聚集區(qū),近4000星球成員為創(chuàng)造更好的AI世界共同進(jìn)步,知識(shí)星球入口:
學(xué)習(xí)3D視覺核心技術(shù),掃描查看介紹,3天內(nèi)無條件退款
?圈里有高質(zhì)量教程資料、答疑解惑、助你高效解決問題
覺得有用,麻煩給個(gè)贊和在看~??
總結(jié)
以上是生活随笔為你收集整理的利用二维数据学习纹理三维网格生成(CVPR 2020)的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: ADAS中国术语标准
- 下一篇: 46家著名公司的技术类笔试真题