日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 >

Cascade EF-GAN: Progressive Facial Expression Editing with Local Focuses 论文解读

發(fā)布時(shí)間:2025/3/21 34 豆豆
生活随笔 收集整理的這篇文章主要介紹了 Cascade EF-GAN: Progressive Facial Expression Editing with Local Focuses 论文解读 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

題目:Cascade EF-GAN:局部聚焦?jié)u進(jìn)式面部表情編輯
時(shí)間:2020.3
作者:Rongliang Wu, Gongjie Zhang, Shijian Lu, and Tao Chen
CVPR 2020

Abstract

  • 目前面部表情編輯存在的問題:生成性對抗網(wǎng)絡(luò)(GAN)的最新進(jìn)展表明,面部表情編輯有了顯著的改進(jìn)。然而,當(dāng)前的方法仍然容易在表達(dá)密集型區(qū)域周圍產(chǎn)生偽影和模糊,并且在處理大間隙表達(dá)轉(zhuǎn)換(例如從憤怒到大笑的轉(zhuǎn)換)時(shí),經(jīng)常引入不希望的重疊偽影
  • 本文提出的方案:
    (1)為了解決這些局限性,我們提出了Cascade Expression Focal GAN(Cascade EF-GAN),這是一種新的網(wǎng)絡(luò),可以使用局部表情焦點(diǎn)進(jìn)行漸進(jìn)式面部表情編輯。局部聚焦的引入使Cascade EF-GAN能夠更好地保留眼睛、鼻子和嘴巴周圍與身份相關(guān)的特征和細(xì)節(jié),這進(jìn)一步有助于減少生成的面部圖像中的偽影和模糊
    (2)此外,設(shè)計(jì)了一種創(chuàng)新的級聯(lián)變換策略,將大型面部表情變換分解為級聯(lián)中的多個(gè)小型表情變換,這有助于抑制重疊偽影,并在處理大間隙表情變換時(shí)產(chǎn)生更逼真的編輯效果
    (3)在兩個(gè)公開的面部表情數(shù)據(jù)集上進(jìn)行的大量實(shí)驗(yàn)表明,我們提出的級聯(lián)EF-GAN在面部表情編輯方面取得了優(yōu)異的性能。
  • 1.Introduction

  • 面部表情編輯發(fā)展現(xiàn)狀:面部表情打開了一扇了解人們內(nèi)部情緒的窗口,傳達(dá)了微妙的意圖,關(guān)于面部表情的自動識別有很多研究工作。在數(shù)字媒體的今天和時(shí)代,面部表情編輯即將給定面部圖像的表情轉(zhuǎn)換為目標(biāo)表情,而不丟失身份屬性,有可能應(yīng)用于不同的領(lǐng)域,比如說攝影技術(shù)、電影產(chǎn)業(yè)、娛樂業(yè)等。它越來越受到學(xué)術(shù)界和工業(yè)界的關(guān)注。
  • 現(xiàn)有的面部表情編輯方法存在的不足:受生成性對抗網(wǎng)絡(luò)(GANs)最近的成功啟發(fā),報(bào)告的幾項(xiàng)研究工作已經(jīng)取得了非常令人印象深刻的面部表情編輯結(jié)果。另一方面,現(xiàn)有的方法仍然面臨一些約束。首先,現(xiàn)有的方法往往會產(chǎn)生不連貫的偽影和/或模糊,尤其是在那些表情豐富的區(qū)域,如眼睛、鼻子和嘴巴周圍。第二,當(dāng)源面部表情與目標(biāo)面部表情存在較大差距時(shí),現(xiàn)有方法往往會產(chǎn)生重疊偽影,例如從憤怒到大笑的轉(zhuǎn)換 。
  • 現(xiàn)有的面部表情編輯方法只將圖像作為整體處理,沒有特別關(guān)注與局部身份相關(guān)的特征(眼/鼻子/嘴巴):面部表情編輯的任務(wù)需要維護(hù)個(gè)人身份。作為人類,識別面部圖像的自然方法是特別注意眼睛、鼻子和嘴巴,這主要是因?yàn)檫@些區(qū)域包含豐富的身份相關(guān)信息。另一方面,幾乎所有基于GAN的面部表情編輯方法都只是將輸入的面部圖像作為一個(gè)整體進(jìn)行處理,而沒有特別注意與局部身份相關(guān)的特征,這可能是大多數(shù)現(xiàn)有方法在眼睛、鼻子和嘴巴周圍產(chǎn)生不連貫偽影和模糊的一個(gè)主要原因。
  • 此外,據(jù)我們所知,所有現(xiàn)有的基于GANs的面部表情編輯方法都對目標(biāo)表情執(zhí)行一步轉(zhuǎn)換。另一方面,由于網(wǎng)絡(luò)容量的限制,在處理大間隙變換時(shí),單步變換通常會產(chǎn)生重疊偽影(在面部表情變化較大的區(qū)域周圍)。由于面部表情的變化本質(zhì)上是連續(xù)的,如果網(wǎng)絡(luò)將其分解為許多小的變換,那么大的間隙變換應(yīng)該更好地完成。
  • 在這篇論文中,我們提出了一種新的級聯(lián)表達(dá)局部GAN(級聯(lián)EF-GAN),用于局部聚焦的漸進(jìn)式面部表情編輯。級聯(lián)EF-GAN由級聯(lián)中幾個(gè)相同的EF-GAN模塊組成,這些模塊以漸進(jìn)的方式執(zhí)行面部表情編輯。具體而言,設(shè)計(jì)了一種創(chuàng)新的級聯(lián)變換策略,將大型面部表情變換分解為多個(gè)小型面部表情變換,并循序漸進(jìn)的執(zhí)行面部表情變換。這種漸進(jìn)式面部表情轉(zhuǎn)換有助于抑制重疊偽影,并在處理大間隙面部表情轉(zhuǎn)換時(shí)實(shí)現(xiàn)更健壯、更逼真的表情編輯。此外,每個(gè)EF-GAN模塊都包含許多預(yù)定義的局部焦點(diǎn),分別捕捉眼睛、鼻子和嘴巴周圍與身份相關(guān)的特征。EF-GAN具有與身份相關(guān)的詳細(xì)特征,能夠生成具有更少偽影的連貫面部表情圖像。我們提出的級聯(lián)EF-GAN的結(jié)果如圖1所示。
  • 本文的貢獻(xiàn)
    (1)首先,我們確定了局部焦點(diǎn)在面部表情編輯中的重要性,并提出了一種新的EF-GAN,它可以捕獲具有多個(gè)局部焦點(diǎn)的身份相關(guān)特征,并有效地減少編輯偽影和模糊。
    (2)其次,我們提出了一個(gè)創(chuàng)新的漸進(jìn)式面部表情編輯級聯(lián)設(shè)計(jì)。級聯(lián)設(shè)計(jì)在處理較大間隙的表情轉(zhuǎn)化時(shí),在抑制重疊偽影方面是穩(wěn)健而有效的。(重疊偽影指的是原始表達(dá)式和目標(biāo)表達(dá)式在輸出中混合的偽影)。
    (3)第三,大量實(shí)驗(yàn)表明,Cascade EF-GAN在定量和定性上都實(shí)現(xiàn)了出色的面部表情編輯。
  • 2.Related Work

  • 生成性對抗網(wǎng)絡(luò):生成性對抗網(wǎng)是一種強(qiáng)大的生成模型,可以同時(shí)訓(xùn)練生成器生成逼真的假圖像,并訓(xùn)練鑒別器區(qū)分真假圖像。一個(gè)活躍的研究主題是條件GANs,它包含條件信息去控制生成圖像。此外,CycleGAN采用cycle-consistency(循環(huán)一致性)損失,并在保留關(guān)鍵屬性的情況下實(shí)現(xiàn)圖像到圖像的轉(zhuǎn)換。GANs在不同的計(jì)算機(jī)視覺任務(wù)中表現(xiàn)出了強(qiáng)大的能力,如自然圖像合成、圖像風(fēng)格轉(zhuǎn)換、超分辨率、圖像修復(fù)、面部屬性編輯、面部圖像合成等,GAN生成的圖像也被應(yīng)用于不同的計(jì)算機(jī)視覺任務(wù)。我們的Cascade EF-GAN設(shè)計(jì)用于執(zhí)行面部表情編輯,使用條件變量控制目標(biāo)表情,并使用循環(huán)一致性以保留身份信息。
  • 面部表情編輯:面部表情編輯很有挑戰(zhàn)性,因?yàn)樗枰獙斎氲拿娌繄D像進(jìn)行高水平的理解,并事先了解人類表情。與只考慮特定面部區(qū)域外觀修改的一般面部屬性編輯相比,面部表情編輯是一項(xiàng)更具挑戰(zhàn)性的任務(wù),因?yàn)樗ǔI婕拜^大的幾何變化,需要同時(shí)修改多個(gè)面部組件。近年來,隨著GANs的流行,已經(jīng)取得了非常令人印象深刻的進(jìn)展。例如,G2-GAN和GCGAN采用面部地標(biāo)作為幾何先驗(yàn),以控制生成的面部表情的強(qiáng)度,其中g(shù)round-truth圖像對于提取幾何信息至關(guān)重要。ExprGAN引入了一個(gè)表達(dá)式控制器來控制生成表情的強(qiáng)度,但它需要一個(gè)預(yù)訓(xùn)練的人臉識別器來保存身份信息。StarGAN可以使用單一模型跨域翻譯圖像,并通過最小化循環(huán)損失來保留身份特征,但它只能生成離散表達(dá)式。GANimation采用動作單元作為表情標(biāo)簽,可以在連續(xù)域中生成表情。它還包括注意機(jī)制來更好地保存身份信息。然而,它往往會產(chǎn)生偽影和模糊,無法很好地處理大間隙表情轉(zhuǎn)換。
  • 我們提出的級聯(lián)EF-GAN方法沒有像現(xiàn)有的基于GAN的方法那樣在整個(gè)人臉圖像上生成表情,而是將局部焦點(diǎn)放在眼睛、鼻子和嘴的區(qū)域上,有助于抑制偽影和清晰的保留細(xì)節(jié)。此外,級聯(lián)策略以漸進(jìn)的方式編輯表情,在處理非常不同的表情轉(zhuǎn)換時(shí)能夠有效地抑制重疊的偽影。
  • 3.Proposed Methods

    圖2顯示了我們提出的級聯(lián)EF-GAN的總體框架。如圖2所示,級聯(lián)EF-GAN由級聯(lián)中的多個(gè)EF-GAN組成,它們以漸進(jìn)的方式執(zhí)行表情編輯。每個(gè)EF-GAN共享相同的體系結(jié)構(gòu),其中包括一個(gè)表情轉(zhuǎn)換器和一個(gè)細(xì)化器。具體來說,每個(gè)EF-GAN模塊中都包含了幾個(gè)預(yù)定義的局部焦點(diǎn)分支,以便更好地保存眼睛、鼻子和嘴巴周圍與身份相關(guān)的特征和細(xì)節(jié)。更多細(xì)節(jié)將在接下來的小節(jié)中討論。

    3.1EF-GAN with Attention-Driven Local Focuses

  • EF-GAN中的生成模型由一個(gè)表情轉(zhuǎn)換器和一個(gè)細(xì)化器組成,前者執(zhí)行帶有局部焦點(diǎn)的表情編輯,后者融合表情轉(zhuǎn)換器的輸出并細(xì)化最終編輯。
  • 表情轉(zhuǎn)換器。圖2顯示了我們的表情轉(zhuǎn)換器的架構(gòu)。我們的級聯(lián)EF-GAN說明:工作流顯示在左側(cè),每個(gè)EF-GAN的詳細(xì)信息顯示在放大區(qū)域。表情編輯分為3個(gè)步驟,由每個(gè)EF-GAN逐步處理。EF-GAN由一個(gè)表情轉(zhuǎn)換器和一個(gè)細(xì)化器組成:前者生成整個(gè)人臉圖像和三個(gè)局部人臉區(qū)域的初始編輯,后者融合初始編輯并細(xì)化,生成表情圖像作為最終輸出
  • 現(xiàn)有的方法的不足:現(xiàn)有的方法使用單個(gè)全局分支處理面部圖像,雖然卷積核在所有空間位置共享,但每個(gè)面部區(qū)域都有不同的身份相關(guān)特征。因此,僅僅用一組卷積核將人臉圖像作為一個(gè)整體進(jìn)行處理,不足以捕獲每個(gè)人臉區(qū)域周圍與身份相關(guān)的細(xì)節(jié)
  • 我們的表情轉(zhuǎn)換器的改進(jìn):包含三個(gè)額外的局部分支,分別對眼睛、鼻子和嘴巴周圍的局部區(qū)域進(jìn)行預(yù)定義聚焦。通過在全局和局部分支中處理面部圖像來應(yīng)對現(xiàn)有方法的不足,其中全局分支捕獲全局面部結(jié)構(gòu),局部分支關(guān)注更詳細(xì)的面部特征。
  • 具體而言,表情轉(zhuǎn)換器將面部圖像和目標(biāo)表情標(biāo)簽作為輸入。與GANimation類似,我們采用了面部動作編碼系統(tǒng)(FACS),該系統(tǒng)將表情編碼為動作單元(AUs),可以使用開源OpenFace提取動作單元。我們采用連續(xù)的AUs強(qiáng)度作為AUs標(biāo)簽來監(jiān)督編輯過程。給定源面部表情圖像,通過裁剪相應(yīng)的局部圖像塊,首先將局部焦點(diǎn)應(yīng)用于眼睛、鼻子和嘴巴區(qū)域。OpenFace還獲取了每個(gè)局部焦點(diǎn)的地標(biāo)。然后,將全局人臉圖像及其局部貼片反饋給相應(yīng)的表情轉(zhuǎn)換器的分支,用于表情編輯。注意:所有分支共享相似的網(wǎng)絡(luò)架構(gòu),但不共享權(quán)重。
  • 我們還將注意力引入到全局和局部分支,以更好地捕捉細(xì)節(jié)和抑制偽影。視覺注意的使用已經(jīng)在GANimation中進(jìn)行了研究,在GANimation中,注意力被設(shè)計(jì)用來引導(dǎo)網(wǎng)絡(luò)專注于轉(zhuǎn)換表情相關(guān)區(qū)域。另一方面,在單個(gè)全局圖像中應(yīng)用注意通常會引入模糊的注意反應(yīng),如圖3的第4列所示。這是因?yàn)槿肿⒁饬ν性谧铒@著的變化上,例如圖3中的口腔區(qū)域,而眼睛和鼻子周圍的細(xì)微變化沒有得到很好的關(guān)注。如第3欄所示,對上述局部分支的獨(dú)有關(guān)注有助于在局部區(qū)域獲得更清晰的回應(yīng)。
  • 具體來說,每個(gè)分支輸出顏色特征圖M_C和注意圖M_A。對于原始輸入圖像I_in,每個(gè)分支的初始輸出通過以下方式生成:

    ? 表示按元素的乘法。這種策略大大簡化了學(xué)習(xí)過程,因?yàn)榫W(wǎng)絡(luò)不需要在人臉圖像統(tǒng)計(jì)的約束下直接輸出初始結(jié)果。
    表情轉(zhuǎn)換器只生成初始表情編輯,如圖2所示。具體來說,全局分支捕獲全局面部結(jié)構(gòu)和特征,但由于缺少局部細(xì)節(jié),會在局部區(qū)域周圍生成模糊和偽影。局部分支更好地保留了局部細(xì)節(jié),但它們忽略了整個(gè)面部表情的大局。因此,這兩種分支的輸出被發(fā)送到細(xì)化器進(jìn)行融合和進(jìn)一步改進(jìn)。
  • 細(xì)化器:細(xì)化器負(fù)責(zé)融合表情轉(zhuǎn)換器不同分支的輸出,生成最終的表情編輯。如圖2所示,三個(gè)局部分支的輸出首先根據(jù)它們在面部圖像中的各自位置縫合成單個(gè)圖像。縫合的圖像然后與全局分支的輸出連接,并饋送到細(xì)化器以生成最終的表情編輯。
  • 3.2Cascade Facial Expression Transformation

  • 級聯(lián)框架。給定輸入的面部圖像,上述EF-GAN在大多數(shù)情況下都能夠生成高保真的表情編輯。另一方面,我們的研究表明,EF-GAN在處理大間隙表情轉(zhuǎn)換時(shí),往往會在表情變化較大的區(qū)域周圍產(chǎn)生重疊偽影。我們將大間隙表情轉(zhuǎn)換稱為那些涉及大量外觀和幾何修改以編輯表情的轉(zhuǎn)換,例如從憤怒到大笑的轉(zhuǎn)換。為了解決這個(gè)限制,我們提出了級聯(lián)EF-GAN,它以漸進(jìn)的方式執(zhí)行表情編輯。具體而言,級聯(lián)EF-GAN將大間隙表情轉(zhuǎn)換分解為多個(gè)小間隙表情轉(zhuǎn)換,并在級聯(lián)中執(zhí)行大間隙表情轉(zhuǎn)換。它可以更好地保存面部結(jié)構(gòu)和與身份相關(guān)的特征,以及強(qiáng)大地處理大間隙面部變換。
  • 如圖2所示,通過將多個(gè)EF-GAN級聯(lián)在一起來實(shí)現(xiàn)級聯(lián)表情編輯,其中來自前一個(gè)EF-GAN的表情圖像被饋送到下一個(gè)EF-GAN作為進(jìn)一步編輯的輸入。根據(jù)經(jīng)驗(yàn),我們使用了3個(gè)EF-GAN,圖4顯示了所提出的級聯(lián)EF-GAN的中間和最終表情編輯。如圖4所示,具有挑戰(zhàn)性的大間隙表情編輯是通過多個(gè)步驟逐步完成的,從而平滑地生成目標(biāo)表情的真實(shí)面部圖像。
  • 中間監(jiān)督:實(shí)施漸進(jìn)式編輯的另一個(gè)問題是如何在每個(gè)中間步驟中包含監(jiān)督信息。利用輸入表情和目標(biāo)表情的AU標(biāo)簽,直接的方法是通過線性插值生成中間AU。然而,這種插值的AU可能不存在于自然AU的流形上,并導(dǎo)致奇怪的合成。我們通過訓(xùn)練插值器來生成中間AU來解決這個(gè)問題。具體來說,我們首先通過線性插值生成偽中間目標(biāo),并提取偽目標(biāo)和輸入表情的原始AUs標(biāo)簽之間的殘差。原始的AUs標(biāo)簽和殘差隨后被饋送到插值器,以產(chǎn)生中間AUs,從而為中間表情提供監(jiān)督。此外,還訓(xùn)練了一個(gè)鑒別器來最大化真實(shí)值和插值后的AUs之間的Wasserstein距離,而訓(xùn)練插值器來最小化它們之間的距離,從而使插值后的AU無法與真實(shí)樣本區(qū)分開來。注:所有EF-GAN使用相同的AUs插值器。
  • 3.3Learning the Model

  • 損失函數(shù)訓(xùn)練EF-GAN的損失函數(shù)包含五項(xiàng):
    (1)提高合成面部表情圖像的照片真實(shí)性的對抗損失,使其與真實(shí)樣本無法區(qū)分;
    (2)條件表情損失,以確保生成的面部表情圖像符合提供的目標(biāo)AUs標(biāo)簽;
    (3)內(nèi)容損失,是為了保存圖像內(nèi)容的身份信息和一致性。
    (4)注意損失,鼓勵(lì)注意模塊生成稀疏注意圖,并注意真正需要修改的區(qū)域.
    (5)用于約束插值A(chǔ)Us標(biāo)簽的插值損失具有期望的語義意義,并且駐留在自然AUs的流形上。總體目標(biāo)函數(shù)表示為:

    其中λ1、λ2、λ3和λ4是超參數(shù)。在級聯(lián)EF-GAN中,總損失是每個(gè)EF-GAN的等權(quán)損失之和。
  • 訓(xùn)練方案
    (1)如果我們直接級聯(lián)多個(gè)EF-GAN模塊并從頭開始訓(xùn)練,很難獲得良好的表情編輯。我們推測,這在很大程度上是由于早期EF-GAN模塊產(chǎn)生的噪聲面部圖像。以這種有噪聲的人臉圖像作為輸入,級聯(lián)EF-GAN的后期很容易受到影響,并產(chǎn)生退化的編輯。此外,不希望的編輯會累積,這使得網(wǎng)絡(luò)參數(shù)難以優(yōu)化。
    (2)我們設(shè)計(jì)了一個(gè)簡單而有效的方案來解決這個(gè)問題。具體來說,我們首先訓(xùn)練一個(gè)EF-GAN執(zhí)行一步面部表情轉(zhuǎn)換。然后,我們使用訓(xùn)練好的EF-GAN的權(quán)重初始化級聯(lián)中的所有后續(xù)EF-GAN,并端到端微調(diào)所有網(wǎng)絡(luò)參數(shù)。通過這種訓(xùn)練方案,級聯(lián)中的每個(gè)EF-GAN模塊都將具有良好的初始化,因此中間的面部表情圖像將有助于后期學(xué)習(xí)有意義的表情轉(zhuǎn)換信息。
  • 4.Experiments

    4.1Datasets

  • 通過Radboud Faces數(shù)據(jù)集(RaFD)和情緒混合面部表情數(shù)據(jù)集(CFEED)對級聯(lián)EF-GAN進(jìn)行評估。RaFD由8040張從不同角度收集的表情圖像組成。我們使用的面部圖像由90度相機(jī)捕獲,生成1608張面部表情圖像。CFEED包含從230名參與者收集的5060張混合表情圖像。我們隨機(jī)抽樣90%用于訓(xùn)練,其余用于測試。
  • 在我們的實(shí)驗(yàn)中,我們將圖像裁剪成128×128個(gè)補(bǔ)丁,補(bǔ)丁的中心是人臉。三個(gè)局部補(bǔ)丁(即眼睛、鼻子和嘴巴的補(bǔ)丁)的大小分別固定為40×92、40×48和40×60。每個(gè)補(bǔ)丁的中心是所有訓(xùn)練樣本中相應(yīng)關(guān)鍵點(diǎn)的平均位置。
  • 4.2Qualitative Experimental Results

  • 級聯(lián)EF-GAN是在前一節(jié)中描述的兩個(gè)公開可用的面部表情數(shù)據(jù)集上進(jìn)行評估的。圖5顯示了定性實(shí)驗(yàn)結(jié)果,其中第1-5列中的圖像來自RaFD數(shù)據(jù)集,第6-10列中的圖像來自CFEED數(shù)據(jù)集。每個(gè)列都包括一項(xiàng)表情編輯任務(wù),以及通過最先進(jìn)的方法——StarGAN和GANimation進(jìn)行的面部表情編輯,以及我們提出的Cascade EF-GAN。
  • 如圖5所示,最先進(jìn)的方法容易在眼睛、鼻子和嘴巴周圍產(chǎn)生模糊和偽影,甚至?xí)茐拿娌勘砬椤N覀兊腃ascade EF-GAN生成的面部表情更逼真,模糊和偽影更少,生成的圖像也更清晰。更好的合成在很大程度上歸功于包含了注意力驅(qū)動的局部聚焦,這有助于更好地保留相應(yīng)面部區(qū)域中與身份相關(guān)的特征和細(xì)節(jié)。此外,最先進(jìn)的方法在處理大間隙表情轉(zhuǎn)換時(shí)往往會產(chǎn)生重疊的偽影。我們的級聯(lián)EF-GAN反而有效地抑制了這種重疊的偽影,這主要是因?yàn)槲覀兊募壜?lián)設(shè)計(jì)執(zhí)行了類似人類的漸進(jìn)式表情轉(zhuǎn)換,而不是一步執(zhí)行。補(bǔ)充材料中提供了更多結(jié)果。
  • 4.3Quantitative Experimental Results

  • 表情分類準(zhǔn)確性:我們遵循StarGAN和ExprGAN的評估方法進(jìn)行定量評估。具體來說,我們首先在訓(xùn)練集上訓(xùn)練不同的表情編輯模型,然后在同一個(gè)看不見的測試集上執(zhí)行表情編輯。然后在不同的表情識別任務(wù)中對生成的圖像進(jìn)行評估。分類精度越高,表示表情編輯越準(zhǔn)確、越真實(shí)。
  • 設(shè)計(jì)了兩個(gè)分類任務(wù)來評估生成圖像的質(zhì)量:1)使用原始訓(xùn)練圖像訓(xùn)練表情分類器,并應(yīng)用分類器對不同編輯方法生成的表情圖像進(jìn)行分類;2) 通過結(jié)合自然和生成的表情圖像來訓(xùn)練分類器,從而對原始測試集圖像進(jìn)行分類。第一個(gè)任務(wù)評估生成的圖像是否位于自然表情的流形中,第二個(gè)任務(wù)評估生成的圖像是否有助于訓(xùn)練更好的分類器。
  • 表1顯示了RaFD和CFEED上的表情分類精度(僅針對CFEED評估了七個(gè)主要表情)。具體來說,R意味著用原始訓(xùn)練集圖像訓(xùn)練分類器,然后將其應(yīng)用于識別測試集圖像的表情。G表示使用與R相同的分類器來識別生成圖像的表情。R+G是將真實(shí)圖像和不同方法生成的圖像相結(jié)合來訓(xùn)練分類器,然后應(yīng)用它們來識別測試集圖像的表情。如表所示,我們的cascade EF-GAN在第一個(gè)任務(wù)中達(dá)到了最高的準(zhǔn)確率,RaFD和CFEED的準(zhǔn)確率分別為89.38%和85.81%,顯示了它在生成更逼真的表情圖像方面的優(yōu)勢。此外,它還可以幫助訓(xùn)練更精確的表情分類器,當(dāng)我們生成的圖像與分類器訓(xùn)練中的真實(shí)圖像相結(jié)合時(shí),RaFD和CFEED的準(zhǔn)確度分別提高了1.46%和1.02%。作為比較,StarGAN和GANimation 生成的圖像往往會降低分類,可能是因?yàn)樯傻膱D像中存在偽影和模糊。
  • PSNR和FID:我們還使用峰值信噪比(PSNR)和弗里切特起始距離(FID)指標(biāo)評估生成圖像的質(zhì)量。PSNR是通過合成表情和相同身份的對應(yīng)表情計(jì)算的,而FID分?jǐn)?shù)是在真實(shí)人臉的預(yù)訓(xùn)練初始模型和合成人臉的最終平均池特征之間計(jì)算的。如表2所示,我們提出的級聯(lián)EF-GAN在RaFD數(shù)據(jù)集上的PSNR和FID測量高出了1.01/3.19,在CFEED上高出了0.91/1.92。
  • 4.4Ablation Study

  • 我們在RaFD數(shù)據(jù)集上進(jìn)行消融實(shí)驗(yàn),以研究我們提出的局部聚焦和級聯(lián)設(shè)計(jì)的貢獻(xiàn)。訓(xùn)練了幾個(gè)模型,包括:
    (1)基線,其中僅采用全局注意的 GANimation ;
    (2)基線+局部聚焦(即EF-GAN),將局部焦點(diǎn)分支納入基線;
    (3)基線+級聯(lián),將漸進(jìn)編輯(帶有3個(gè)EF-GAN模塊)引入到基線;
    (4)級聯(lián)EF-GAN,包括漸進(jìn)編輯和局部聚焦,如圖2所示。
  • 圖6顯示了定性結(jié)果。每列代表一個(gè)表情編輯任務(wù),以及上述模型進(jìn)行的相應(yīng)編輯。很明顯,基線往往會丟失眼睛和嘴巴周圍的細(xì)節(jié),導(dǎo)致模糊、偽影,甚至腐蝕。對于許多示例圖像,生成的表情與目標(biāo)表情也沒有很好地對齊。基線+局部聚焦可以大大減少偽影和腐蝕,并生成更清晰、更鮮明的表情圖像。基線+級聯(lián)中包含級聯(lián)策略有助于更好地維護(hù)身份特征和面部結(jié)構(gòu),生成的表情也能更好地與目標(biāo)表情對齊。這在很大程度上是因?yàn)榧壜?lián)設(shè)計(jì)通過將大間隙變化分解為更小的步驟來減輕大間隙變化的復(fù)雜性。最后,包括級聯(lián)設(shè)計(jì)和局部聚焦的級聯(lián)EF-GAN能夠生成干凈、清晰的面部表情,這些表情與目標(biāo)表情和輸入身份一致,明顯優(yōu)于所有其他模型。這表明,提出的局部聚焦和級聯(lián)編輯策略是相輔相成的。
  • 我們還進(jìn)行了定量實(shí)驗(yàn),以評估級聯(lián)EF-GAN中的每個(gè)提出的組件。表3顯示了實(shí)驗(yàn)結(jié)果。定量實(shí)驗(yàn)結(jié)果進(jìn)一步驗(yàn)證了所提出的局部聚焦和漸進(jìn)轉(zhuǎn)換策略的有效性。
  • 4.5Discussion

    連續(xù)表情編輯:我們的級聯(lián)EF-GAN可以很容易地適應(yīng)生成連續(xù)表情。給定源和目標(biāo)AUs,可以使用插值器導(dǎo)出不同階段的中間AUs。因此,可以使用中間AUs和源圖像導(dǎo)出中間階段的連續(xù)表情。圖7顯示了級聯(lián)EF-GAN的連續(xù)編輯。

    野生圖像上的面部表情編輯:野生圖像上的表情編輯更具挑戰(zhàn)性,因?yàn)閳D像是在復(fù)雜的背景和不受控制的燈光下拍攝的。我們的級聯(lián)EF-GAN可以適應(yīng)處理野生圖像,如圖8所示,其中級聯(lián)EF-GAN首先在RaFD和CFEED圖像上進(jìn)行預(yù)訓(xùn)練,然后使用來自AffectNet的野生表情圖像進(jìn)行微調(diào)。如圖8所示,級聯(lián)EF-GAN可以成功地變換表情,同時(shí)保持和表情無關(guān)的信息不變。

    5.Conclusion

    (1)本文提出了一種新的用于真實(shí)人臉表情編輯的級聯(lián)表情局部GAN(Cascade EF-GAN)。EF-GAN的設(shè)計(jì)結(jié)合了眼睛、鼻子和嘴巴三個(gè)局部重點(diǎn),以更好地保存與身份相關(guān)的特征和細(xì)節(jié)。這種與身份相關(guān)的特征減少了模型的身份不確定性,從而得到更清晰的面部表情圖像。
    (2)此外,所提出的級聯(lián)EF-GAN以漸進(jìn)的方式執(zhí)行表情編輯,將大間隙表情變換更改分解為多個(gè)小間隙表情變換。因此,它在大間隙面部表情的真實(shí)變換中更具魯棒性。
    (3)在兩個(gè)公開的有效的面部表情數(shù)據(jù)集上進(jìn)行的大量實(shí)驗(yàn)表明,與最先進(jìn)的技術(shù)相比,所提出的級聯(lián)EF-GAN實(shí)現(xiàn)了更好的表情編輯。我們預(yù)計(jì)Cascade EF-GAN將激發(fā)新的見解,并在不久的將來吸引更多人對更好的面部表情編輯感興趣。

    總結(jié)

    以上是生活随笔為你收集整理的Cascade EF-GAN: Progressive Facial Expression Editing with Local Focuses 论文解读的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。