CVPR 2020 | 反传统的无监督人脸旋转方案:旋转-渲染
?PaperWeekly ·?作者|周航、劉吉豪
學(xué)校|香港中文大學(xué)、商湯科技
前言
這篇論文既異于傳統(tǒng)、擺脫監(jiān)督、從全新角度看待人臉旋轉(zhuǎn)問題,又方法極簡(jiǎn)、模塊原始、效果上還有較大提升空間。終究能幸運(yùn)地受到 reviewer 和 AC 的青睞,也肯定了文章的貢獻(xiàn)。雖然文章簡(jiǎn)樸又不完美,但正因此才留下了更多的想象和空間。
論文標(biāo)題:Rotate-and-Render: Unsupervised Photorealistic Face Rotationfrom Single-View Images
論文來源:CVPR 2020
論文鏈接:https://arxiv.org/abs/2003.08124
代碼鏈接:https://github.com/Hangz-nju-cuhk/Rotate-and-Render
核心思想概括
人臉旋轉(zhuǎn)問題的本質(zhì)是恢復(fù)被遮擋部分人臉的結(jié)構(gòu)和紋理,而現(xiàn)有的方法多基于同一人臉的多視角數(shù)據(jù)訓(xùn)練進(jìn)行直接的新視角生成,從而導(dǎo)致了各種問題。
本文的核心就是通過單張圖像和 3D 人臉建模,渲染從任意角度旋轉(zhuǎn)到當(dāng)前角度的帶遮擋偽影和瑕疵的人臉,從而和原圖構(gòu)建訓(xùn)練數(shù)據(jù)對(duì)。其構(gòu)造過程用到了兩次人臉紋理獲取,三維空間旋轉(zhuǎn)和渲染。
整個(gè)工作值得大家引用的亮點(diǎn)在于:
無監(jiān)督(自監(jiān)督)的人臉旋轉(zhuǎn)框架,擺脫多視角數(shù)據(jù)
大數(shù)據(jù)集 MegaFace 的人臉識(shí)別效果提升
一鍵可跑的開源代碼
背景介紹
近年來由于 GAN 的出現(xiàn),人臉旋轉(zhuǎn)(轉(zhuǎn)正)任務(wù)取得了快速進(jìn)展,但是現(xiàn)有方法主要依賴對(duì)同一人的多視角數(shù)據(jù)。一個(gè)簡(jiǎn)單的例子就是如圖基于 GAN 的經(jīng)典人臉轉(zhuǎn)正論文 TP-GAN [1] 的訓(xùn)練框架,將側(cè)臉的圖片作為網(wǎng)絡(luò)輸入并將正臉圖像當(dāng)做生成模型的監(jiān)督。
▲ 傳統(tǒng)人臉轉(zhuǎn)正pipeline
這一訓(xùn)練方式的一大障礙是對(duì)高質(zhì)量的多視角配對(duì)訓(xùn)練數(shù)據(jù)的依賴。因此,它們的生成結(jié)果受到數(shù)據(jù)量以及數(shù)據(jù)分布的限制,從而會(huì)造成對(duì)特定數(shù)據(jù)的過擬合(見下圖中一些以往方法的結(jié)果,會(huì)生成 Multi-PIE 數(shù)據(jù)藍(lán)色的濾鏡和背景)。
▲ 和 GAN-based 方法對(duì)比結(jié)果
而本文方法的出發(fā)點(diǎn)就是擺脫多視角的監(jiān)督,從而解決由于多視角監(jiān)督帶來的 domain?泛化能力問題。在本文中,我們提出一種新穎的無監(jiān)督框架,利用三維人臉建模,通過反復(fù)的旋轉(zhuǎn)和渲染操作構(gòu)建自監(jiān)督,并用一個(gè)普通的 Pix2Pix 生成最終圖像。
該框架不依賴于同一人的多視角圖像,就可以生成其他視角的高質(zhì)量圖像,并且框架適用于各個(gè)非限定的場(chǎng)景。我們做了大量的實(shí)驗(yàn)來驗(yàn)證我們的方法的性能。此外,我們發(fā)現(xiàn)將生成的數(shù)據(jù)用于人臉識(shí)別模型的訓(xùn)練,對(duì)于人臉識(shí)別的性能也有顯著提升。
方法
文章提出的無監(jiān)督框架如下圖所示:
整個(gè)框架主要包含三個(gè)模塊,三維人臉重建模塊,通過旋轉(zhuǎn)和渲染構(gòu)建訓(xùn)練數(shù)據(jù)的 Rotate-and-Render 模塊,以及將渲染圖像重建到真實(shí)圖像分布的 Render-to-Image 模塊。接下來是沒有公式的細(xì)節(jié)介紹。
3.1 三維人臉重建模塊
三維人臉重建技術(shù)在這里只是作為工具使用,任何傳統(tǒng)或者深度的三維人臉重建方案都可適用,就不多加闡述。簡(jiǎn)單來說通過三維重建我們可以獲取整個(gè)人臉的結(jié)構(gòu)信息,由若干歸一化的三維頂點(diǎn)坐標(biāo)組成的矩陣 和姿態(tài)信息 。
然后用如下圖(a)所示的簡(jiǎn)單人臉紋理獲取方案,就可以給各個(gè)頂點(diǎn)注冊(cè)一個(gè) rgb 值。而我們使用的渲染方案如下圖(b)所示,就是紋理注冊(cè)的逆過程。
3.2 Rotate-and-Render訓(xùn)練策略
整個(gè)訓(xùn)練數(shù)據(jù)對(duì)的構(gòu)建如下圖所示:
▲ Rotate-and-Render 訓(xùn)練數(shù)據(jù)構(gòu)建策略
給定一張二維人臉圖片 ,我們通過三維人臉重建模塊得到該人臉的三維模型 ,并將輸入的紋理注冊(cè) 到三維模型上。接下來,我們將該模型 ? 在三維空間旋轉(zhuǎn)并重新渲染為二維圖像,得到該人臉在任意角度 的圖像 ,這一過程被稱為 Rotate-and-Render。
然后我們利用 重新對(duì)三維模型獲取人臉紋理 ,并讓 再次通過 Rotate-and-Render 模塊,將 旋轉(zhuǎn)回原角度并渲染到二維平面,得到 。由此 就產(chǎn)生了人臉從姿態(tài) b 旋轉(zhuǎn)回輸入姿態(tài),由不可見區(qū)域所產(chǎn)生的瑕疵,從而和 形成非常強(qiáng)的自監(jiān)督,用于訓(xùn)練生成模型。
3.3 Render-to-Image生成模塊
為了消除在 Rotate-and-Render 過程中的偽影,我們用 Render-to-Image 模塊來生成符合真實(shí)圖像分布的圖像。整個(gè)模塊如下圖所示:
▲ Render-to-Image網(wǎng)絡(luò)輸入和loss
因?yàn)榫W(wǎng)絡(luò)結(jié)構(gòu)不是我們的 novelty 所在,我們對(duì)生成器的選擇比較隨便,直接使用了 CycleGAN 的 ResBlock 生成器來生成圖像。在訓(xùn)練過程中,我們則直接借用了 Pix2PixHD 的 loss function,采用 multi-layer discriminator 和 perceptual loss 來訓(xùn)練鑒別器。
我們分別采用 GAN 的 loss、feature matching loss、perceptual loss 來監(jiān)督 GAN 的訓(xùn)練,具體的形式可以參見 paper 或者 code。
實(shí)驗(yàn)結(jié)果
在實(shí)驗(yàn)中,我們分別驗(yàn)證了生成圖像的質(zhì)量以及生成圖像用于人臉識(shí)別的性能的好壞。
4.1 生成圖像的質(zhì)量對(duì)比
下圖是和基于三維重建的方法的對(duì)比結(jié)果,而和基于 GAN 的方法對(duì)比在開頭處。可以看到,無論是對(duì)比哪種方法,我們提出的方法生成圖像的質(zhì)量都是更好的,而且身份信息也得到有效保留。
▲ 與3D方法的對(duì)比結(jié)果
4.2 生成圖像用于人臉識(shí)別
這里不同于一般的論文,我們還將生成的圖像用于數(shù)據(jù)增強(qiáng),訓(xùn)練人臉識(shí)別模型。我們?cè)跍y(cè)試數(shù)據(jù) LFW、IJB-A、Multi-PIE 和 MegaFace 上分別驗(yàn)證了我們方法的性能。
值得注意的是,以往的方法局限于多視角圖像的獲取,只有在特定場(chǎng)景的小數(shù)據(jù)集上(與訓(xùn)練數(shù)據(jù)相同 domain)才會(huì)有比較好的結(jié)果,比如 Multi-PIE。而我們提出的方法則沒有這種限制,可以應(yīng)用在各種場(chǎng)景中。我們也是第一個(gè)在?MegaFace?這種大數(shù)據(jù)集上進(jìn)行人臉旋轉(zhuǎn)的方法。
如下四個(gè)表格分別是在 LFW、IJB-A、Multi-PIE 和 MegaFace 的性能
可以看到,無論在哪種測(cè)試集上,我們的方法都取得了最好的結(jié)果。
總結(jié)
在本篇論文中,我們利用三維人臉先驗(yàn)的優(yōu)勢(shì),結(jié)合我們提出的 Rotate-and-Render 的模塊,來進(jìn)行人臉旋轉(zhuǎn)。方法的關(guān)鍵是,利用 Rotate-and-Render 將人臉旋轉(zhuǎn)兩次回到原始角度,構(gòu)建自我監(jiān)督信號(hào)。并通過 GAN 將渲染的圖像轉(zhuǎn)換為真實(shí)圖像。通過全面的實(shí)驗(yàn),論文方法的以下優(yōu)勢(shì)得到驗(yàn)證:
不需要多視圖或者成對(duì)的數(shù)據(jù),就可以進(jìn)行訓(xùn)練,這是大部分現(xiàn)有方法無法實(shí)現(xiàn)的。
不僅僅可以將人臉旋轉(zhuǎn)到正面,我們的方法可以旋轉(zhuǎn)到任意角度。
大量的可視化表明,我們的方法可以生成逼真的旋轉(zhuǎn)圖像,保留原有的紋理細(xì)節(jié)以及光照等。
將生成的圖像用于訓(xùn)練人臉識(shí)別模型,可以提高人臉識(shí)別的性能。
文末討論
這里作者也無保留地介紹本文的缺陷。首先文章依賴于現(xiàn)有的三維人臉建模工具,所以不準(zhǔn)確的建模會(huì)影響生成人物的 ID。同時(shí)由于 Render-to-Image 的網(wǎng)絡(luò)模型選擇隨意,無法處理較高分辨率的圖像,所以生成結(jié)果也許未及本次 CVPR 的平均水準(zhǔn)(笑)。
但是因?yàn)槲恼碌闹攸c(diǎn)是突出無監(jiān)督的框架,所以希望把這些可能地改進(jìn)方向作為整個(gè)方向后續(xù)可能的未來工作。
更多的細(xì)節(jié)還請(qǐng)大家參見原文和代碼。本文的代碼已經(jīng)開源。在本次 CVPR 中的展示網(wǎng)址如下:
http://cvpr20.com/event/rotate-and-render-unsupervised-photorealistic-face-rotation-from-single-view-images/
參考文獻(xiàn)
[1] Beyond Face Rotation: Global and Local Perception GAN for Photorealistic and Identity Preserving Frontal View Synthesis. ICCV 2017.
更多閱讀
#投 稿?通 道#
?讓你的論文被更多人看到?
如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達(dá)讀者群體,縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢?答案就是:你不認(rèn)識(shí)的人。
總有一些你不認(rèn)識(shí)的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學(xué)者和學(xué)術(shù)靈感相互碰撞,迸發(fā)出更多的可能性。?
PaperWeekly 鼓勵(lì)高校實(shí)驗(yàn)室或個(gè)人,在我們的平臺(tái)上分享各類優(yōu)質(zhì)內(nèi)容,可以是最新論文解讀,也可以是學(xué)習(xí)心得或技術(shù)干貨。我們的目的只有一個(gè),讓知識(shí)真正流動(dòng)起來。
?????來稿標(biāo)準(zhǔn):
? 稿件確系個(gè)人原創(chuàng)作品,來稿需注明作者個(gè)人信息(姓名+學(xué)校/工作單位+學(xué)歷/職位+研究方向)?
? 如果文章并非首發(fā),請(qǐng)?jiān)谕陡鍟r(shí)提醒并附上所有已發(fā)布鏈接?
? PaperWeekly 默認(rèn)每篇文章都是首發(fā),均會(huì)添加“原創(chuàng)”標(biāo)志
?????投稿郵箱:
? 投稿郵箱:hr@paperweekly.site?
? 所有文章配圖,請(qǐng)單獨(dú)在附件中發(fā)送?
? 請(qǐng)留下即時(shí)聯(lián)系方式(微信或手機(jī)),以便我們?cè)诰庉嫲l(fā)布時(shí)和作者溝通
????
現(xiàn)在,在「知乎」也能找到我們了
進(jìn)入知乎首頁搜索「PaperWeekly」
點(diǎn)擊「關(guān)注」訂閱我們的專欄吧
關(guān)于PaperWeekly
PaperWeekly 是一個(gè)推薦、解讀、討論、報(bào)道人工智能前沿論文成果的學(xué)術(shù)平臺(tái)。如果你研究或從事 AI 領(lǐng)域,歡迎在公眾號(hào)后臺(tái)點(diǎn)擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
與50位技術(shù)專家面對(duì)面20年技術(shù)見證,附贈(zèng)技術(shù)全景圖總結(jié)
以上是生活随笔為你收集整理的CVPR 2020 | 反传统的无监督人脸旋转方案:旋转-渲染的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 我国自主研制 300 兆瓦级 F 级重型
- 下一篇: 基于深度学习的多目标跟踪算法——ReID