當(dāng)前位置：首頁 > 人工智能 > pytorch >内容正文

pytorch

CVPR 2020 | 反传统的无监督人脸旋转方案：旋转-渲染

發(fā)布時(shí)間：2024/10/8 pytorch 108 豆豆

生活随笔收集整理的這篇文章主要介紹了 CVPR 2020 | 反传统的无监督人脸旋转方案：旋转-渲染小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

?PaperWeekly ·?作者｜周航、劉吉豪

學(xué)校｜香港中文大學(xué)、商湯科技

前言

這篇論文既異于傳統(tǒng)、擺脫監(jiān)督、從全新角度看待人臉旋轉(zhuǎn)問題，又方法極簡(jiǎn)、模塊原始、效果上還有較大提升空間。終究能幸運(yùn)地受到 reviewer 和 AC 的青睞，也肯定了文章的貢獻(xiàn)。雖然文章簡(jiǎn)樸又不完美，但正因此才留下了更多的想象和空間。

論文標(biāo)題：Rotate-and-Render: Unsupervised Photorealistic Face Rotationfrom Single-View Images

論文來源：CVPR 2020

論文鏈接：https://arxiv.org/abs/2003.08124

代碼鏈接：https://github.com/Hangz-nju-cuhk/Rotate-and-Render

核心思想概括

人臉旋轉(zhuǎn)問題的本質(zhì)是恢復(fù)被遮擋部分人臉的結(jié)構(gòu)和紋理，而現(xiàn)有的方法多基于同一人臉的多視角數(shù)據(jù)訓(xùn)練進(jìn)行直接的新視角生成，從而導(dǎo)致了各種問題。

本文的核心就是通過單張圖像和 3D 人臉建模，渲染從任意角度旋轉(zhuǎn)到當(dāng)前角度的帶遮擋偽影和瑕疵的人臉，從而和原圖構(gòu)建訓(xùn)練數(shù)據(jù)對(duì)。其構(gòu)造過程用到了兩次人臉紋理獲取，三維空間旋轉(zhuǎn)和渲染。

整個(gè)工作值得大家引用的亮點(diǎn)在于：

無監(jiān)督（自監(jiān)督）的人臉旋轉(zhuǎn)框架，擺脫多視角數(shù)據(jù)
大數(shù)據(jù)集 MegaFace 的人臉識(shí)別效果提升
一鍵可跑的開源代碼

背景介紹

近年來由于 GAN 的出現(xiàn)，人臉旋轉(zhuǎn)（轉(zhuǎn)正）任務(wù)取得了快速進(jìn)展，但是現(xiàn)有方法主要依賴對(duì)同一人的多視角數(shù)據(jù)。一個(gè)簡(jiǎn)單的例子就是如圖基于 GAN 的經(jīng)典人臉轉(zhuǎn)正論文 TP-GAN [1] 的訓(xùn)練框架，將側(cè)臉的圖片作為網(wǎng)絡(luò)輸入并將正臉圖像當(dāng)做生成模型的監(jiān)督。

▲ 傳統(tǒng)人臉轉(zhuǎn)正pipeline

這一訓(xùn)練方式的一大障礙是對(duì)高質(zhì)量的多視角配對(duì)訓(xùn)練數(shù)據(jù)的依賴。因此，它們的生成結(jié)果受到數(shù)據(jù)量以及數(shù)據(jù)分布的限制，從而會(huì)造成對(duì)特定數(shù)據(jù)的過擬合（見下圖中一些以往方法的結(jié)果，會(huì)生成 Multi-PIE 數(shù)據(jù)藍(lán)色的濾鏡和背景）。

▲ 和 GAN-based 方法對(duì)比結(jié)果

而本文方法的出發(fā)點(diǎn)就是擺脫多視角的監(jiān)督，從而解決由于多視角監(jiān)督帶來的 domain?泛化能力問題。在本文中，我們提出一種新穎的無監(jiān)督框架，利用三維人臉建模，通過反復(fù)的旋轉(zhuǎn)和渲染操作構(gòu)建自監(jiān)督，并用一個(gè)普通的 Pix2Pix 生成最終圖像。

該框架不依賴于同一人的多視角圖像，就可以生成其他視角的高質(zhì)量圖像，并且框架適用于各個(gè)非限定的場(chǎng)景。我們做了大量的實(shí)驗(yàn)來驗(yàn)證我們的方法的性能。此外，我們發(fā)現(xiàn)將生成的數(shù)據(jù)用于人臉識(shí)別模型的訓(xùn)練，對(duì)于人臉識(shí)別的性能也有顯著提升。

方法

文章提出的無監(jiān)督框架如下圖所示：

整個(gè)框架主要包含三個(gè)模塊，三維人臉重建模塊，通過旋轉(zhuǎn)和渲染構(gòu)建訓(xùn)練數(shù)據(jù)的 Rotate-and-Render 模塊，以及將渲染圖像重建到真實(shí)圖像分布的 Render-to-Image 模塊。接下來是沒有公式的細(xì)節(jié)介紹。

3.1 三維人臉重建模塊

三維人臉重建技術(shù)在這里只是作為工具使用，任何傳統(tǒng)或者深度的三維人臉重建方案都可適用，就不多加闡述。簡(jiǎn)單來說通過三維重建我們可以獲取整個(gè)人臉的結(jié)構(gòu)信息，由若干歸一化的三維頂點(diǎn)坐標(biāo)組成的矩陣和姿態(tài)信息。

然后用如下圖（a）所示的簡(jiǎn)單人臉紋理獲取方案，就可以給各個(gè)頂點(diǎn)注冊(cè)一個(gè) rgb 值。而我們使用的渲染方案如下圖（b）所示，就是紋理注冊(cè)的逆過程。

3.2 Rotate-and-Render訓(xùn)練策略

整個(gè)訓(xùn)練數(shù)據(jù)對(duì)的構(gòu)建如下圖所示：

▲ Rotate-and-Render 訓(xùn)練數(shù)據(jù)構(gòu)建策略

給定一張二維人臉圖片，我們通過三維人臉重建模塊得到該人臉的三維模型，并將輸入的紋理注冊(cè) 到三維模型上。接下來，我們將該模型 ? 在三維空間旋轉(zhuǎn)并重新渲染為二維圖像，得到該人臉在任意角度的圖像，這一過程被稱為 Rotate-and-Render。

然后我們利用重新對(duì)三維模型獲取人臉紋理，并讓再次通過 Rotate-and-Render 模塊，將旋轉(zhuǎn)回原角度并渲染到二維平面，得到。由此就產(chǎn)生了人臉從姿態(tài) b 旋轉(zhuǎn)回輸入姿態(tài)，由不可見區(qū)域所產(chǎn)生的瑕疵，從而和形成非常強(qiáng)的自監(jiān)督，用于訓(xùn)練生成模型。

3.3 Render-to-Image生成模塊

為了消除在 Rotate-and-Render 過程中的偽影，我們用 Render-to-Image 模塊來生成符合真實(shí)圖像分布的圖像。整個(gè)模塊如下圖所示:

▲ Render-to-Image網(wǎng)絡(luò)輸入和loss

因?yàn)榫W(wǎng)絡(luò)結(jié)構(gòu)不是我們的 novelty 所在，我們對(duì)生成器的選擇比較隨便，直接使用了 CycleGAN 的 ResBlock 生成器來生成圖像。在訓(xùn)練過程中，我們則直接借用了 Pix2PixHD 的 loss function，采用 multi-layer discriminator 和 perceptual loss 來訓(xùn)練鑒別器。

我們分別采用 GAN 的 loss、feature matching loss、perceptual loss 來監(jiān)督 GAN 的訓(xùn)練，具體的形式可以參見 paper 或者 code。

實(shí)驗(yàn)結(jié)果

在實(shí)驗(yàn)中，我們分別驗(yàn)證了生成圖像的質(zhì)量以及生成圖像用于人臉識(shí)別的性能的好壞。

4.1 生成圖像的質(zhì)量對(duì)比

下圖是和基于三維重建的方法的對(duì)比結(jié)果，而和基于 GAN 的方法對(duì)比在開頭處。可以看到，無論是對(duì)比哪種方法，我們提出的方法生成圖像的質(zhì)量都是更好的，而且身份信息也得到有效保留。

▲ 與3D方法的對(duì)比結(jié)果

4.2 生成圖像用于人臉識(shí)別

這里不同于一般的論文，我們還將生成的圖像用于數(shù)據(jù)增強(qiáng)，訓(xùn)練人臉識(shí)別模型。我們?cè)跍y(cè)試數(shù)據(jù) LFW、IJB-A、Multi-PIE 和 MegaFace 上分別驗(yàn)證了我們方法的性能。

值得注意的是，以往的方法局限于多視角圖像的獲取，只有在特定場(chǎng)景的小數(shù)據(jù)集上（與訓(xùn)練數(shù)據(jù)相同 domain）才會(huì)有比較好的結(jié)果，比如 Multi-PIE。而我們提出的方法則沒有這種限制，可以應(yīng)用在各種場(chǎng)景中。我們也是第一個(gè)在?MegaFace?這種大數(shù)據(jù)集上進(jìn)行人臉旋轉(zhuǎn)的方法。

如下四個(gè)表格分別是在 LFW、IJB-A、Multi-PIE 和 MegaFace 的性能

可以看到，無論在哪種測(cè)試集上，我們的方法都取得了最好的結(jié)果。

總結(jié)

在本篇論文中，我們利用三維人臉先驗(yàn)的優(yōu)勢(shì)，結(jié)合我們提出的 Rotate-and-Render 的模塊，來進(jìn)行人臉旋轉(zhuǎn)。方法的關(guān)鍵是，利用 Rotate-and-Render 將人臉旋轉(zhuǎn)兩次回到原始角度，構(gòu)建自我監(jiān)督信號(hào)。并通過 GAN 將渲染的圖像轉(zhuǎn)換為真實(shí)圖像。通過全面的實(shí)驗(yàn)，論文方法的以下優(yōu)勢(shì)得到驗(yàn)證:

不需要多視圖或者成對(duì)的數(shù)據(jù)，就可以進(jìn)行訓(xùn)練，這是大部分現(xiàn)有方法無法實(shí)現(xiàn)的。

不僅僅可以將人臉旋轉(zhuǎn)到正面，我們的方法可以旋轉(zhuǎn)到任意角度。

大量的可視化表明，我們的方法可以生成逼真的旋轉(zhuǎn)圖像，保留原有的紋理細(xì)節(jié)以及光照等。

將生成的圖像用于訓(xùn)練人臉識(shí)別模型，可以提高人臉識(shí)別的性能。

文末討論

這里作者也無保留地介紹本文的缺陷。首先文章依賴于現(xiàn)有的三維人臉建模工具，所以不準(zhǔn)確的建模會(huì)影響生成人物的 ID。同時(shí)由于 Render-to-Image 的網(wǎng)絡(luò)模型選擇隨意，無法處理較高分辨率的圖像，所以生成結(jié)果也許未及本次 CVPR 的平均水準(zhǔn)（笑）。

但是因?yàn)槲恼碌闹攸c(diǎn)是突出無監(jiān)督的框架，所以希望把這些可能地改進(jìn)方向作為整個(gè)方向后續(xù)可能的未來工作。

更多的細(xì)節(jié)還請(qǐng)大家參見原文和代碼。本文的代碼已經(jīng)開源。在本次 CVPR 中的展示網(wǎng)址如下：

http://cvpr20.com/event/rotate-and-render-unsupervised-photorealistic-face-rotation-from-single-view-images/

參考文獻(xiàn)

[1] Beyond Face Rotation: Global and Local Perception GAN for Photorealistic and Identity Preserving Frontal View Synthesis. ICCV 2017.

更多閱讀

#投稿?通道#

?讓你的論文被更多人看到?

如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達(dá)讀者群體，縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢？答案就是：你不認(rèn)識(shí)的人。

總有一些你不認(rèn)識(shí)的人，知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁，促使不同背景、不同方向的學(xué)者和學(xué)術(shù)靈感相互碰撞，迸發(fā)出更多的可能性。?

PaperWeekly 鼓勵(lì)高校實(shí)驗(yàn)室或個(gè)人，在我們的平臺(tái)上分享各類優(yōu)質(zhì)內(nèi)容，可以是最新論文解讀，也可以是學(xué)習(xí)心得或技術(shù)干貨。我們的目的只有一個(gè)，讓知識(shí)真正流動(dòng)起來。

?????來稿標(biāo)準(zhǔn)：

? 稿件確系個(gè)人原創(chuàng)作品，來稿需注明作者個(gè)人信息（姓名+學(xué)校/工作單位+學(xué)歷/職位+研究方向）?

? 如果文章并非首發(fā)，請(qǐng)?jiān)谕陡鍟r(shí)提醒并附上所有已發(fā)布鏈接?

? PaperWeekly 默認(rèn)每篇文章都是首發(fā)，均會(huì)添加“原創(chuàng)”標(biāo)志

?????投稿郵箱：

? 投稿郵箱：hr@paperweekly.site?

? 所有文章配圖，請(qǐng)單獨(dú)在附件中發(fā)送?

? 請(qǐng)留下即時(shí)聯(lián)系方式（微信或手機(jī)），以便我們?cè)诰庉嫲l(fā)布時(shí)和作者溝通

????

現(xiàn)在，在「知乎」也能找到我們了

進(jìn)入知乎首頁搜索「PaperWeekly」

點(diǎn)擊「關(guān)注」訂閱我們的專欄吧

關(guān)于PaperWeekly

PaperWeekly 是一個(gè)推薦、解讀、討論、報(bào)道人工智能前沿論文成果的學(xué)術(shù)平臺(tái)。如果你研究或從事 AI 領(lǐng)域，歡迎在公眾號(hào)后臺(tái)點(diǎn)擊「交流群」，小助手將把你帶入 PaperWeekly 的交流群里。

與50位技術(shù)專家面對(duì)面20年技術(shù)見證，附贈(zèng)技術(shù)全景圖

總結(jié)

以上是生活随笔為你收集整理的CVPR 2020 | 反传统的无监督人脸旋转方案：旋转-渲染的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：我国自主研制 300 兆瓦级 F 级重型
下一篇：基于深度学习的多目标跟踪算法——ReID