日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 人工智能 > pytorch >内容正文

pytorch

CVPR 2020 | 反传统的无监督人脸旋转方案:旋转-渲染

發(fā)布時(shí)間:2024/10/8 pytorch 108 豆豆
生活随笔 收集整理的這篇文章主要介紹了 CVPR 2020 | 反传统的无监督人脸旋转方案:旋转-渲染 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

?PaperWeekly ·?作者|周航、劉吉豪

學(xué)校|香港中文大學(xué)、商湯科技

前言

這篇論文既異于傳統(tǒng)、擺脫監(jiān)督、從全新角度看待人臉旋轉(zhuǎn)問題,又方法極簡(jiǎn)、模塊原始、效果上還有較大提升空間。終究能幸運(yùn)地受到 reviewer 和 AC 的青睞,也肯定了文章的貢獻(xiàn)。雖然文章簡(jiǎn)樸又不完美,但正因此才留下了更多的想象和空間。

論文標(biāo)題:Rotate-and-Render: Unsupervised Photorealistic Face Rotationfrom Single-View Images

論文來源:CVPR 2020

論文鏈接:https://arxiv.org/abs/2003.08124

代碼鏈接:https://github.com/Hangz-nju-cuhk/Rotate-and-Render

核心思想概括

人臉旋轉(zhuǎn)問題的本質(zhì)是恢復(fù)被遮擋部分人臉的結(jié)構(gòu)和紋理,而現(xiàn)有的方法多基于同一人臉的多視角數(shù)據(jù)訓(xùn)練進(jìn)行直接的新視角生成,從而導(dǎo)致了各種問題。

本文的核心就是通過單張圖像和 3D 人臉建模,渲染從任意角度旋轉(zhuǎn)到當(dāng)前角度的帶遮擋偽影和瑕疵的人臉,從而和原圖構(gòu)建訓(xùn)練數(shù)據(jù)對(duì)。其構(gòu)造過程用到了兩次人臉紋理獲取,三維空間旋轉(zhuǎn)和渲染。

整個(gè)工作值得大家引用的亮點(diǎn)在于:

  • 無監(jiān)督(自監(jiān)督)的人臉旋轉(zhuǎn)框架,擺脫多視角數(shù)據(jù)

  • 大數(shù)據(jù)集 MegaFace 的人臉識(shí)別效果提升

  • 一鍵可跑的開源代碼

背景介紹

近年來由于 GAN 的出現(xiàn),人臉旋轉(zhuǎn)(轉(zhuǎn)正)任務(wù)取得了快速進(jìn)展,但是現(xiàn)有方法主要依賴對(duì)同一人的多視角數(shù)據(jù)。一個(gè)簡(jiǎn)單的例子就是如圖基于 GAN 的經(jīng)典人臉轉(zhuǎn)正論文 TP-GAN [1] 的訓(xùn)練框架,將側(cè)臉的圖片作為網(wǎng)絡(luò)輸入并將正臉圖像當(dāng)做生成模型的監(jiān)督。

▲ 傳統(tǒng)人臉轉(zhuǎn)正pipeline

這一訓(xùn)練方式的一大障礙是對(duì)高質(zhì)量的多視角配對(duì)訓(xùn)練數(shù)據(jù)的依賴。因此,它們的生成結(jié)果受到數(shù)據(jù)量以及數(shù)據(jù)分布的限制,從而會(huì)造成對(duì)特定數(shù)據(jù)的過擬合(見下圖中一些以往方法的結(jié)果,會(huì)生成 Multi-PIE 數(shù)據(jù)藍(lán)色的濾鏡和背景)。

▲ 和 GAN-based 方法對(duì)比結(jié)果

而本文方法的出發(fā)點(diǎn)就是擺脫多視角的監(jiān)督,從而解決由于多視角監(jiān)督帶來的 domain?泛化能力問題。在本文中,我們提出一種新穎的無監(jiān)督框架,利用三維人臉建模,通過反復(fù)的旋轉(zhuǎn)和渲染操作構(gòu)建自監(jiān)督,并用一個(gè)普通的 Pix2Pix 生成最終圖像。

該框架不依賴于同一人的多視角圖像,就可以生成其他視角的高質(zhì)量圖像,并且框架適用于各個(gè)非限定的場(chǎng)景。我們做了大量的實(shí)驗(yàn)來驗(yàn)證我們的方法的性能。此外,我們發(fā)現(xiàn)將生成的數(shù)據(jù)用于人臉識(shí)別模型的訓(xùn)練,對(duì)于人臉識(shí)別的性能也有顯著提升。

方法

文章提出的無監(jiān)督框架如下圖所示:

整個(gè)框架主要包含三個(gè)模塊,三維人臉重建模塊,通過旋轉(zhuǎn)和渲染構(gòu)建訓(xùn)練數(shù)據(jù)的 Rotate-and-Render 模塊,以及將渲染圖像重建到真實(shí)圖像分布的 Render-to-Image 模塊。接下來是沒有公式的細(xì)節(jié)介紹。

3.1 三維人臉重建模塊

三維人臉重建技術(shù)在這里只是作為工具使用,任何傳統(tǒng)或者深度的三維人臉重建方案都可適用,就不多加闡述。簡(jiǎn)單來說通過三維重建我們可以獲取整個(gè)人臉的結(jié)構(gòu)信息,由若干歸一化的三維頂點(diǎn)坐標(biāo)組成的矩陣 和姿態(tài)信息 。

然后用如下圖(a)所示的簡(jiǎn)單人臉紋理獲取方案,就可以給各個(gè)頂點(diǎn)注冊(cè)一個(gè) rgb 值。而我們使用的渲染方案如下圖(b)所示,就是紋理注冊(cè)的逆過程。

3.2 Rotate-and-Render訓(xùn)練策略

整個(gè)訓(xùn)練數(shù)據(jù)對(duì)的構(gòu)建如下圖所示:

▲ Rotate-and-Render 訓(xùn)練數(shù)據(jù)構(gòu)建策略

給定一張二維人臉圖片 ,我們通過三維人臉重建模塊得到該人臉的三維模型 ,并將輸入的紋理注冊(cè) 到三維模型上。接下來,我們將該模型 ? 在三維空間旋轉(zhuǎn)并重新渲染為二維圖像,得到該人臉在任意角度 的圖像 ,這一過程被稱為 Rotate-and-Render。

然后我們利用 重新對(duì)三維模型獲取人臉紋理 ,并讓 再次通過 Rotate-and-Render 模塊,將 旋轉(zhuǎn)回原角度并渲染到二維平面,得到 。由此 就產(chǎn)生了人臉從姿態(tài) b 旋轉(zhuǎn)回輸入姿態(tài),由不可見區(qū)域所產(chǎn)生的瑕疵,從而和 形成非常強(qiáng)的自監(jiān)督,用于訓(xùn)練生成模型。

3.3 Render-to-Image生成模塊

為了消除在 Rotate-and-Render 過程中的偽影,我們用 Render-to-Image 模塊來生成符合真實(shí)圖像分布的圖像。整個(gè)模塊如下圖所示:

▲ Render-to-Image網(wǎng)絡(luò)輸入和loss

因?yàn)榫W(wǎng)絡(luò)結(jié)構(gòu)不是我們的 novelty 所在,我們對(duì)生成器的選擇比較隨便,直接使用了 CycleGAN 的 ResBlock 生成器來生成圖像。在訓(xùn)練過程中,我們則直接借用了 Pix2PixHD 的 loss function,采用 multi-layer discriminator 和 perceptual loss 來訓(xùn)練鑒別器。

我們分別采用 GAN 的 loss、feature matching loss、perceptual loss 來監(jiān)督 GAN 的訓(xùn)練,具體的形式可以參見 paper 或者 code。

實(shí)驗(yàn)結(jié)果

在實(shí)驗(yàn)中,我們分別驗(yàn)證了生成圖像的質(zhì)量以及生成圖像用于人臉識(shí)別的性能的好壞。

4.1 生成圖像的質(zhì)量對(duì)比

下圖是和基于三維重建的方法的對(duì)比結(jié)果,而和基于 GAN 的方法對(duì)比在開頭處。可以看到,無論是對(duì)比哪種方法,我們提出的方法生成圖像的質(zhì)量都是更好的,而且身份信息也得到有效保留。

▲ 與3D方法的對(duì)比結(jié)果

4.2 生成圖像用于人臉識(shí)別

這里不同于一般的論文,我們還將生成的圖像用于數(shù)據(jù)增強(qiáng),訓(xùn)練人臉識(shí)別模型。我們?cè)跍y(cè)試數(shù)據(jù) LFW、IJB-A、Multi-PIE 和 MegaFace 上分別驗(yàn)證了我們方法的性能。

值得注意的是,以往的方法局限于多視角圖像的獲取,只有在特定場(chǎng)景的小數(shù)據(jù)集上(與訓(xùn)練數(shù)據(jù)相同 domain)才會(huì)有比較好的結(jié)果,比如 Multi-PIE。而我們提出的方法則沒有這種限制,可以應(yīng)用在各種場(chǎng)景中。我們也是第一個(gè)在?MegaFace?這種大數(shù)據(jù)集上進(jìn)行人臉旋轉(zhuǎn)的方法。

如下四個(gè)表格分別是在 LFW、IJB-A、Multi-PIE 和 MegaFace 的性能

可以看到,無論在哪種測(cè)試集上,我們的方法都取得了最好的結(jié)果。

總結(jié)

在本篇論文中,我們利用三維人臉先驗(yàn)的優(yōu)勢(shì),結(jié)合我們提出的 Rotate-and-Render 的模塊,來進(jìn)行人臉旋轉(zhuǎn)。方法的關(guān)鍵是,利用 Rotate-and-Render 將人臉旋轉(zhuǎn)兩次回到原始角度,構(gòu)建自我監(jiān)督信號(hào)。并通過 GAN 將渲染的圖像轉(zhuǎn)換為真實(shí)圖像。通過全面的實(shí)驗(yàn),論文方法的以下優(yōu)勢(shì)得到驗(yàn)證:

  • 不需要多視圖或者成對(duì)的數(shù)據(jù),就可以進(jìn)行訓(xùn)練,這是大部分現(xiàn)有方法無法實(shí)現(xiàn)的。

  • 不僅僅可以將人臉旋轉(zhuǎn)到正面,我們的方法可以旋轉(zhuǎn)到任意角度。

  • 大量的可視化表明,我們的方法可以生成逼真的旋轉(zhuǎn)圖像,保留原有的紋理細(xì)節(jié)以及光照等。

  • 將生成的圖像用于訓(xùn)練人臉識(shí)別模型,可以提高人臉識(shí)別的性能。

  • 文末討論

    這里作者也無保留地介紹本文的缺陷。首先文章依賴于現(xiàn)有的三維人臉建模工具,所以不準(zhǔn)確的建模會(huì)影響生成人物的 ID。同時(shí)由于 Render-to-Image 的網(wǎng)絡(luò)模型選擇隨意,無法處理較高分辨率的圖像,所以生成結(jié)果也許未及本次 CVPR 的平均水準(zhǔn)(笑)。

    但是因?yàn)槲恼碌闹攸c(diǎn)是突出無監(jiān)督的框架,所以希望把這些可能地改進(jìn)方向作為整個(gè)方向后續(xù)可能的未來工作。

    更多的細(xì)節(jié)還請(qǐng)大家參見原文和代碼。本文的代碼已經(jīng)開源。在本次 CVPR 中的展示網(wǎng)址如下:

    http://cvpr20.com/event/rotate-and-render-unsupervised-photorealistic-face-rotation-from-single-view-images/

    參考文獻(xiàn)

    [1] Beyond Face Rotation: Global and Local Perception GAN for Photorealistic and Identity Preserving Frontal View Synthesis. ICCV 2017.

    更多閱讀



    #投 稿?通 道#

    ?讓你的論文被更多人看到?

    如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達(dá)讀者群體,縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢?答案就是:你不認(rèn)識(shí)的人。

    總有一些你不認(rèn)識(shí)的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學(xué)者和學(xué)術(shù)靈感相互碰撞,迸發(fā)出更多的可能性。?

    PaperWeekly 鼓勵(lì)高校實(shí)驗(yàn)室或個(gè)人,在我們的平臺(tái)上分享各類優(yōu)質(zhì)內(nèi)容,可以是最新論文解讀,也可以是學(xué)習(xí)心得技術(shù)干貨。我們的目的只有一個(gè),讓知識(shí)真正流動(dòng)起來。

    ?????來稿標(biāo)準(zhǔn):

    ? 稿件確系個(gè)人原創(chuàng)作品,來稿需注明作者個(gè)人信息(姓名+學(xué)校/工作單位+學(xué)歷/職位+研究方向)?

    ? 如果文章并非首發(fā),請(qǐng)?jiān)谕陡鍟r(shí)提醒并附上所有已發(fā)布鏈接?

    ? PaperWeekly 默認(rèn)每篇文章都是首發(fā),均會(huì)添加“原創(chuàng)”標(biāo)志

    ?????投稿郵箱:

    ? 投稿郵箱:hr@paperweekly.site?

    ? 所有文章配圖,請(qǐng)單獨(dú)在附件中發(fā)送?

    ? 請(qǐng)留下即時(shí)聯(lián)系方式(微信或手機(jī)),以便我們?cè)诰庉嫲l(fā)布時(shí)和作者溝通

    ????

    現(xiàn)在,在「知乎」也能找到我們了

    進(jìn)入知乎首頁搜索「PaperWeekly」

    點(diǎn)擊「關(guān)注」訂閱我們的專欄吧

    關(guān)于PaperWeekly

    PaperWeekly 是一個(gè)推薦、解讀、討論、報(bào)道人工智能前沿論文成果的學(xué)術(shù)平臺(tái)。如果你研究或從事 AI 領(lǐng)域,歡迎在公眾號(hào)后臺(tái)點(diǎn)擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。

    與50位技術(shù)專家面對(duì)面20年技術(shù)見證,附贈(zèng)技術(shù)全景圖

    總結(jié)

    以上是生活随笔為你收集整理的CVPR 2020 | 反传统的无监督人脸旋转方案:旋转-渲染的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。