大淘宝技术发布首个基于神经渲染的3D建模产品Object Drawer,现已向学术界与普通用户开放...
12月26-28號,第十一屆國際圖像圖形學(xué)學(xué)術(shù)會議將在海口舉辦。阿里巴巴資深算法專家、大淘寶技術(shù)XR Team算法負(fù)責(zé)人趙斌強(qiáng)(樂田)受邀在大會發(fā)表題為“From Physical World to Digital World: 3D Techniques in Digital Industry Transformation”主旨演講,發(fā)布了開創(chuàng)性的Object Drawer產(chǎn)品,將NeRF的推理速度提升了10000倍,訓(xùn)練速度提升10倍以上,同時宣布面向?qū)W術(shù)界和普通用戶開放,供廣大開發(fā)者及科研人員交流體驗(yàn)。
科技媒體「新智元」特此進(jìn)行了報道,以下為報道原文——
前陣子,北京環(huán)球影城哈利·波特的魔法世界摩肩接踵,人手一套巫師袍+魔杖,咒語更是滿天飛:除你武器、呼神護(hù)衛(wèi)。不過,你有沒有想過,其實(shí)在家里也能體驗(yàn)一把當(dāng)「魔法師」的樂趣。
小魔杖一揮,嘴里念念有詞:「Apparate」(幻影移形)!
接著,眼睛一閉一睜,周圍的景物就奇跡般地變了個樣子。
神奇是很神奇,但這個咒語可不好學(xué),只有很厲害的魔法師才能掌握。
最近,有人想在自己家里「幻影移形」,分分鐘,就像換了一個新房子。
聽上去有些天方夜譚是嗎?
沙發(fā)拔地而起感受一下?
當(dāng)然,目前要是想把家里重新設(shè)計(jì)裝修一番,勞心勞力是免不了的。
如果想只動動手指,恐怕還得到數(shù)字世界里才能實(shí)現(xiàn)。
幻影移形!在數(shù)字世界中「白嫖」設(shè)計(jì)
而這個故事還得從小編前段時間給自己的小窩設(shè)計(jì)裝修說起。
雖然看起來距離日常生活有點(diǎn)遠(yuǎn),但搞起家裝來,是真的頭疼。
顏色、大小、風(fēng)格,各種組合全憑想象力。
不想燃燒腦細(xì)胞也可以,只需發(fā)動「鈔」能力,全屋定制直接拉滿。
不過現(xiàn)在XR這么火,那是不是可以在里面用AR、VR啥的來搞設(shè)計(jì)?
等等,AR、家具、設(shè)計(jì),這不就是宜家推出的「IKEA Place」么!
沒錯,早在2017年,隨著蘋果IOS 11的推出,宜家就利用當(dāng)時最新的ARKit技術(shù)讓用戶可以實(shí)時地在家里看到超過2000種家具產(chǎn)品。
基本上解決了在簡單的環(huán)境中看一看「這個家具能不能放得下」的問題。
然而,當(dāng)環(huán)境稍稍變得復(fù)雜,或者說僅僅是同時放置兩個家具,宜家就搞不明白這其中的位置邏輯了。
當(dāng)然,這個可以通過反復(fù)地手動調(diào)整解決。But,你有沒有想過,或許這個產(chǎn)品本身就是一個「偽需求」?
比如說你想設(shè)計(jì)一下自己新買的房子,這時候能參考的基本只有一張戶型圖。
這簡直太難了,不如去實(shí)地考察一下。
嗯,空無一物,不如借助AR擺放一波家具看看?
恐怕除了要把自己的手累斷了之外,想看清楚最終的效果,得「穿模」到墻里面去才行。
那要這AR又有何用?
不必?fù)?dān)心,這時候就要把思路打開。
既然家具可以建模,那家是不是也可以建個模,然后把家具的模型統(tǒng)統(tǒng)放進(jìn)家的模型里去呢?
這時候就要祭出一個神秘工具:「Object Drawer」。
這個Object Drawer除了建模物品,還能建模房間,堪稱是一站式解決方案。
在輸入戶型圖之后,Object Drawer會對結(jié)構(gòu)、符號、文字進(jìn)行識別并計(jì)算房間的尺寸,然后對整體進(jìn)行向量化,最后就可以生成整個房間的3D模型啦。
而且這波操作完全不需要自己動手,淘寶已經(jīng)準(zhǔn)備好了200萬套真實(shí)的戶型供你選擇。
有了自己家的模型,就可以把淘寶里那些地板、壁紙、桌子、椅子等商品的3D模型們放進(jìn)去了。
不滿意隨便改,動動手指就能搞定家裝設(shè)計(jì),而且最重要的是:免費(fèi)。
如果不想自己操刀,或者想看看設(shè)計(jì)師怎么說,淘寶也準(zhǔn)備了800萬套全屋設(shè)計(jì)可以參考。
而對于商家來說,Object Drawer也早就已經(jīng)用在商品的主圖上了。
是不是看著還挺新鮮?
正巧,在12月26-28日舉辦的第十一屆國際圖象圖形學(xué)學(xué)術(shù)會議上,阿里巴巴大淘寶技術(shù)部正式發(fā)布了Object Drawer。它將NeRF的推理速度提升了10000倍,訓(xùn)練速度提升10倍以上。
為此,阿里巴巴資深算法專家、大淘寶技術(shù)XR Team算法負(fù)責(zé)人趙斌強(qiáng)(樂田)受邀在大會發(fā)表題為「From Physical World to Digital World: 3D Techniques in Digital Industry Transformation」的主旨演講。
當(dāng)然,最重要的一點(diǎn)是,Object Drawer會面向?qū)W術(shù)界和普通用戶開放,供廣大開發(fā)者及科研人員交流體驗(yàn)。
被裝修折磨得死去活來的小編決定趁機(jī)提前試用一波。
???首先是數(shù)據(jù)的準(zhǔn)備
Object Drawer建模所用的視頻需要采用繞物體360度的環(huán)繞方式進(jìn)行拍攝,同時標(biāo)注3張地面的分割mask。
視頻拍攝
標(biāo)注地面
為了方便對地面進(jìn)行標(biāo)注,Object Drawer在Github上提供了相應(yīng)的標(biāo)注工具。
項(xiàng)目地址:https://github.com/3D-FRONT-FUTURE/ObjectDrawer-ToolBox
???接下來是視頻的提交
當(dāng)完成了視頻、標(biāo)注數(shù)據(jù)的準(zhǔn)備后,需要登錄Object Drawer網(wǎng)站提交視頻進(jìn)行建模。
點(diǎn)擊網(wǎng)站右上角login進(jìn)行登錄,然后點(diǎn)擊右上角的圖像,在彈出的tab頁面中選擇Video Upload,等待跳轉(zhuǎn)到視頻提交頁面后填寫視頻名稱,并上傳視頻、標(biāo)注,同意Object Drawer使用上傳視頻的服務(wù)協(xié)議,最后點(diǎn)擊提交按鈕;至此就已完成視頻提交操作,需要等待一段時間,系統(tǒng)將會自動完成視頻建模過程。
試用接口:https://objectdrawer.alibaba.com/index.html(注意仔細(xì)閱讀拍攝要求哦)
???最后,就可以得到渲染好模型啦
你可能又會問了,Object Drawer這個應(yīng)用也太窄了吧。
思路要打開!
「俗話」說得好,萬物皆可虛擬。
既然都是虛擬的,那不都得建個模先?
比如說你想在數(shù)字世界賣現(xiàn)實(shí)中的商品,結(jié)果最后就整了幾個馬賽克方塊,真當(dāng)是賣NFT呢?
然而,對于成千上萬的商品,全靠人工建模不得干到猴年馬月去了。
但如果連模型都沒有,又何來的數(shù)字世界呢?
瞧一瞧看一看!新的SOTA出爐了
說到建模,時間得先回到2020年,三維重建領(lǐng)域來了一個后起之秀——NeRF神經(jīng)渲染技術(shù)。
而圖形學(xué)和計(jì)算機(jī)視覺核心之一是重建并渲染真實(shí)世界的人和物。
傳統(tǒng)三維重建如Photogrammetry工具大致流程為:稀疏點(diǎn)云重建->稠密點(diǎn)云重建->網(wǎng)格重建->紋理貼圖->材質(zhì)貼圖。經(jīng)驗(yàn)表明,以Photogrammetry為基礎(chǔ)的建模工具強(qiáng)依賴于拍攝環(huán)境;對弱紋理和平滑區(qū)域的表面還原較差;通常依賴人工修復(fù)模型網(wǎng)格與紋理并賦予材質(zhì)。
NeRF提出用神經(jīng)輻射場來表達(dá)場景,跳過顯式三維重建,直接通過神經(jīng)渲染實(shí)現(xiàn)場景的free view synthesis。
NeRF網(wǎng)絡(luò)作為一個函數(shù),輸入為5D坐標(biāo)包括空間中點(diǎn)坐標(biāo)x=(x,y,z)以及相機(jī)視角方向d=(θ,φ),輸出為c=(r,g,b)顏色以及密度σ,寫作:,物體的體素密度只和空間坐標(biāo)x有關(guān),輸出顏色與空間坐標(biāo)及視角方向相關(guān)。
由于NeRF技術(shù)的渲染過程完全可微,可以端到端進(jìn)行訓(xùn)練,這使得NeRF可以準(zhǔn)確還原場景各個視角的渲染效果。
從三維重建而非純視角生成的角度來看,NeRF有幾個較為明顯的不足:
訓(xùn)練及推理速度較慢,1張1080P圖推理時間超過50s,一個物體的建模時間通常需要2天以上;
渲染圖片清晰度不足,且無法恢復(fù)細(xì)節(jié)紋理;
需要大量多視角圖片才能實(shí)現(xiàn)較好的view interpolation;
隱式表達(dá)無法直接導(dǎo)入圖形學(xué)工具,不支持顯式使用,例如CAD場景搭配設(shè)計(jì);
只能還原拍攝場景的光照,無法支持環(huán)境光照變化的場景應(yīng)用。
這些問題制約了規(guī)模化產(chǎn)業(yè)應(yīng)用,如下一代VR/AR,3D設(shè)計(jì),3D瀏覽等。
2021年,阿里巴巴大淘寶技術(shù)部,發(fā)布了Object Drawer,將NeRF的推理速度提升了10000倍,訓(xùn)練速度提升10倍以上。
同時,Object Drawer添加了更多的高頻紋理信息將建模還原度進(jìn)一步提升,并
提出光照遷移輔助方案,使得NeRF重建的模型可以顯式地應(yīng)用于日常場景搭配設(shè)計(jì),從而使得神經(jīng)渲染技術(shù)達(dá)到實(shí)用標(biāo)準(zhǔn)。
推理速度和訓(xùn)練速度
要輸出1920*1080分辨率的圖像,NeRF的推理速度為50s/幀,而實(shí)用的要求要達(dá)30幀/s以上,差距為1500倍。
Object Drawer從場景表示方法、有效像素、有效體素等多個角度進(jìn)行冗余計(jì)算的優(yōu)化,在1920*1080分辨率下,推理速度可以達(dá)到240FPS(V100 GPU)以上,相比NeRF實(shí)現(xiàn)了10000倍的推理速度提升。
Object Drawer在手機(jī)上也可達(dá)到30FPS,實(shí)現(xiàn)了實(shí)時的高清交互。
與此同時,模型的訓(xùn)練時間也壓縮至4小時,模型package平均小于20M。
視角外插
神經(jīng)渲染技術(shù)在應(yīng)用時,視角外插是不可忽視的問題。
由于拍攝的圖片無法覆蓋所有視角,當(dāng)輸出視角發(fā)生變化或是拍攝視角有一定差異時,需要神經(jīng)渲染有很好的泛化能力,支持新視角圖片的生成。
Object Drawer利用隨機(jī)視角增強(qiáng)與平均視角embedding技術(shù),改進(jìn)了視角外插效果。
NeRF (左)與Object Drawer (右)在Novel View Extrapolation下的表現(xiàn)
實(shí)驗(yàn)表明,隨著視角差異的增大,NeRF等模型的PSNR都出現(xiàn)了大幅的下降,而Object Drawer的PSNR基本保持不變。
三維模型表示
三維模型,需要能夠支持各種三維應(yīng)用,包括三維布局、渲染出圖、三維互動等等。NeRF只能支持渲染功能,使得其應(yīng)用受到很大的限制。
Object Drawer給物體的隱式表達(dá)配對一個粗糙的顯式網(wǎng)格模型。顯式網(wǎng)格模型可直接提取于NeRF或其他高效網(wǎng)格重建算法。如圖,?一方面,三維粗模可直接導(dǎo)入圖形學(xué)工具,用于三維場景設(shè)計(jì)等現(xiàn)實(shí)應(yīng)用。
另一方面,神經(jīng)渲染可以生成物體在任意視角下的高清渲染圖。當(dāng)然,這種物理和神經(jīng)渲染結(jié)合的思路暫時不支持重建物體的物理仿真變化,如網(wǎng)格編輯變形等。
光照遷移
為了渲染出反射,陰影等物理現(xiàn)象作用于三維粗模的光照效果,Object Drawer提出了光照遷移技術(shù), 可以在神經(jīng)渲染生成的物體視角圖上呈現(xiàn)出逼真光照效果。
建模場景圖、建模結(jié)果圖和三維場景光照遷移結(jié)果圖
在實(shí)驗(yàn)數(shù)據(jù)的結(jié)果表明,該技術(shù)能夠適應(yīng)各種復(fù)雜光源條件,完成對細(xì)節(jié)陰影效果的遷移,視覺效果之驚艷,在3D-FRONT測試數(shù)據(jù)集平均PSNR達(dá)到30.17。
紋理細(xì)節(jié)還原
對于商品三維模型來說,紋理細(xì)節(jié)的還原度非常重要。
目前的NeRF系列研究雖然可以以較高的精度還原物體的外觀,但是無法恢復(fù)紋理細(xì)節(jié),如布料線條。
Object Drawer優(yōu)化了模型表達(dá)能力,在大幅度加速模型訓(xùn)練的同時,第一次做到了高清精細(xì)紋理的還原,具體的效果如下圖所示。
一鍵自動重建
如此強(qiáng)大的技術(shù),使用起來會不會門檻很高呢?
完全不會!
比方說,用戶想將一把椅子進(jìn)行三維建模。
那么,不需要依賴其他的特定設(shè)備,只需要用手機(jī)環(huán)繞目標(biāo)商品拍攝一段視頻。
然后,直接交給Object Drawer就可以一鍵自動重建,所生成的三維建模效果就已經(jīng)可以達(dá)到很高的精度。
完成模型重建后,如果要應(yīng)用模型,Object Drawer會自動將PBR場景光照遷移到模型的神經(jīng)渲染中,完成重建模型與場景的合成。
于是,一把3D「小黃椅」就這樣誕生了,造型、紋理完美復(fù)刻。
但是,明明有3ds Max這類的建模工具,又為何需要用神經(jīng)網(wǎng)絡(luò)?
這個就引出了問題的核心:建模成本和自由度。
如果想用這些專業(yè)工具建模,首先就需要學(xué)習(xí)一波。知乎答友「絲路教育」表示,只需4個月專業(yè)學(xué)習(xí),就能掌握核心技能。
等不及怎么辦,那就「淘寶」一個吧。然而,普通質(zhì)量的模型大概200-500一個,期間還需要進(jìn)行反復(fù)地溝通和修改。
蘋果雖然也有一款Object Capture,但是同樣需要后期手動對模型進(jìn)行修正。
直出的效果怎么說呢,自己玩兒一玩兒還是可以的,但如果想作為商品去展示,恐怕迎來的就是「月銷0」了。畢竟對于商品來說「真實(shí)」才是最重要的。
左手是時間,右手是金錢,簡直左右為難,哪個都付不起啊。
這時候是不是想起Object Drawer了?
無需專業(yè)知識、無需專業(yè)工具,拿著手機(jī)拍一圈,分分鐘實(shí)現(xiàn)模型的量產(chǎn)。
那么,現(xiàn)在我們有了高質(zhì)量的模型,是不是就能搞定數(shù)字世界了呢?
不談便攜性,就是耍流氓
不如先回答這樣一個問題,「數(shù)字世界」是什么?
或者,換一個說法,電話是什么?
第一反應(yīng)通常都是手機(jī)對吧,隨時隨地都可以用。
但是如果我告訴你,只有固定放著的那個叫電話,手里那個不是,你肯定想這人怕不是有什么大病。
現(xiàn)在回到最開始的問題上,我跟你說,只有戴著一個頭盔,兩手拿著控制器,坐在電腦或者游戲機(jī)前面,體驗(yàn)的才是「數(shù)字世界」,你覺得如何?
這不應(yīng)該是走到哪兒都能體驗(yàn)的么?
比如去逛街,每件商品的價格都能直接顯示在你的AR眼鏡上,如果能實(shí)現(xiàn)的話,簡直就是社恐的福音。
此前,蘋果的CEO庫克就曾表示:「AR是虛擬世界與現(xiàn)實(shí)世界的疊加。這種方式不會分散你對物理世界的注意力,而是加強(qiáng)彼此之間的關(guān)系和合作。」
「增強(qiáng)現(xiàn)實(shí)技術(shù)可以增強(qiáng)我們的對話,增強(qiáng)學(xué)習(xí),并真正放大技術(shù)對人們的價值,而不是把現(xiàn)實(shí)世界封閉起來。」
實(shí)際上,作為數(shù)字世界的一環(huán),AR技術(shù)不僅可以直接在手機(jī)上體驗(yàn),而且AR眼鏡的通信和計(jì)算也都可以通過手機(jī)。
而作為電商界的老大哥,淘寶尤為看好AR這個領(lǐng)域。
除了圖文、視頻、直播等基本的線上購物方式,淘寶這幾年還推出了AR購,可以體驗(yàn)口紅試色、墨鏡試戴、試鞋等AR導(dǎo)購功能。隨著數(shù)字世界的到來,也意味著設(shè)備和交互將會不斷革新。
這對電商場來說,將會是一次歷史性的重構(gòu)。
為此,大淘寶技術(shù)成立了全新的XR Team,也就是Object Drawer的研發(fā)團(tuán)隊(duì)。
企業(yè)搞技術(shù),最終都離不開商業(yè)化。而XR Team也是從最有價值的應(yīng)用場景入手,比如賣地板和壁紙、大型家具等等。
畢竟對于用戶來說,通常都希望能夠體驗(yàn)或者感受一下自己要買的產(chǎn)品,至少不滿意退貨也是可以的。但剛才提到的這些,恐怕就不那么容易了,可以說是買家最想見到實(shí)物,但卻最難見到實(shí)物的產(chǎn)品了。
不過,隨著Object Drawer的普及,會有越來越多的商品有自己的模型,基于3D的商品庫也逐漸地開始成形。
之后,大淘寶技術(shù)XR Team將會去突破Object Drawer的限制,去打造一系列的工具,從自動裝修到服裝的試穿,幾乎涵蓋整個購物的流程。
最后,就是讓這些軟件和工具實(shí)現(xiàn)跨平臺運(yùn)行,不管是AR眼鏡還是手機(jī)都能夠使用。
而大淘寶技術(shù)XR Team構(gòu)想的終極目標(biāo)就是讓用戶在虛、實(shí)之間無縫地互動。
項(xiàng)目地址:
https://github.com/3D-FRONT-FUTURE/ObjectDrawer-ToolBox
試用接口:(注意仔細(xì)閱讀拍攝要求哦)
https://objectdrawer.alibaba.com/index.html
參考資料
[1]. Tewari, Ayush, Justus Thies, Ben Mildenhall, Pratul Srinivasan, Edgar Tretschk, Yifan Wang, Christoph Lassner et al. "Advances in neural rendering." arXiv preprint arXiv:2111.05849 (2021).
[2]. Fu, Huan, Bowen Cai, Lin Gao, Ling-Xiao Zhang, Jiaming Wang, Cao Li, Qixun Zeng et al. "3d-front: 3d furnished rooms with layouts and semantics." In Proceedings of the IEEE/CVF International Conference on Computer Vision, pp. 10933-10942. 2021.
[3]. Fu, Huan, Rongfei Jia, Lin Gao, Mingming Gong, Binqiang Zhao, Steve Maybank, and Dacheng Tao. "3d-future: 3d furniture shape with texture." International Journal of Computer Vision 129, no. 12 (2021): 3313-3337.
[4]. Mildenhall, Ben, Pratul P. Srinivasan, Matthew Tancik, Jonathan T. Barron, Ravi Ramamoorthi, and Ren Ng. "Nerf: Representing scenes as neural radiance fields for view synthesis." In European conference on computer vision, pp. 405-421. Springer, Cham, 2020.
[5]. Barron, Jonathan T., Ben Mildenhall, Matthew Tancik, Peter Hedman, Ricardo Martin-Brualla, and Pratul P. Srinivasan. "Mip-NeRF: A Multiscale Representation for Anti-Aliasing Neural Radiance Fields." arXiv preprint arXiv:2103.13415 (2021).
[6]. Yu, Alex, Ruilong Li, Matthew Tancik, Hao Li, Ren Ng, and Angjoo Kanazawa. "Plenoctrees for real-time rendering of neural radiance fields." arXiv preprint arXiv:2103.14024 (2021).
[7]. Garbin, Stephan J., Marek Kowalski, Matthew Johnson, Jamie Shotton, and Julien Valentin. "Fastnerf: High-fidelity neural rendering at 200fps." arXiv preprint arXiv:2103.10380 (2021).
???拓展閱讀
作者|淘系技術(shù)
編輯|橙子君
出品|阿里巴巴新零售淘系技術(shù)
總結(jié)
以上是生活随笔為你收集整理的大淘宝技术发布首个基于神经渲染的3D建模产品Object Drawer,现已向学术界与普通用户开放...的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: jeecms附件标签用法
- 下一篇: S2-016、S2-017