當(dāng)前位置：首頁 >

Cascade EF-GAN: Progressive Facial Expression Editing with Local Focuses 论文解读

發(fā)布時(shí)間：2025/3/21 34 豆豆

生活随笔收集整理的這篇文章主要介紹了 Cascade EF-GAN: Progressive Facial Expression Editing with Local Focuses 论文解读小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

題目：Cascade EF-GAN：局部聚焦?jié)u進(jìn)式面部表情編輯
時(shí)間：2020.3
作者：Rongliang Wu, Gongjie Zhang, Shijian Lu, and Tao Chen
CVPR 2020

Abstract

目前面部表情編輯存在的問題：生成性對抗網(wǎng)絡(luò)（GAN）的最新進(jìn)展表明，面部表情編輯有了顯著的改進(jìn)。然而，當(dāng)前的方法仍然容易在表達(dá)密集型區(qū)域周圍產(chǎn)生偽影和模糊，并且在處理大間隙表達(dá)轉(zhuǎn)換（例如從憤怒到大笑的轉(zhuǎn)換）時(shí)，經(jīng)常引入不希望的重疊偽影。

本文提出的方案：
（1）為了解決這些局限性，我們提出了Cascade Expression Focal GAN（Cascade EF-GAN），這是一種新的網(wǎng)絡(luò)，可以使用局部表情焦點(diǎn)進(jìn)行漸進(jìn)式面部表情編輯。局部聚焦的引入使Cascade EF-GAN能夠更好地保留眼睛、鼻子和嘴巴周圍與身份相關(guān)的特征和細(xì)節(jié)，這進(jìn)一步有助于減少生成的面部圖像中的偽影和模糊。
（2）此外，設(shè)計(jì)了一種創(chuàng)新的級聯(lián)變換策略，將大型面部表情變換分解為級聯(lián)中的多個(gè)小型表情變換，這有助于抑制重疊偽影，并在處理大間隙表情變換時(shí)產(chǎn)生更逼真的編輯效果。
（3）在兩個(gè)公開的面部表情數(shù)據(jù)集上進(jìn)行的大量實(shí)驗(yàn)表明，我們提出的級聯(lián)EF-GAN在面部表情編輯方面取得了優(yōu)異的性能。

1.Introduction

面部表情編輯發(fā)展現(xiàn)狀：面部表情打開了一扇了解人們內(nèi)部情緒的窗口，傳達(dá)了微妙的意圖，關(guān)于面部表情的自動識別有很多研究工作。在數(shù)字媒體的今天和時(shí)代，面部表情編輯即將給定面部圖像的表情轉(zhuǎn)換為目標(biāo)表情，而不丟失身份屬性，有可能應(yīng)用于不同的領(lǐng)域，比如說攝影技術(shù)、電影產(chǎn)業(yè)、娛樂業(yè)等。它越來越受到學(xué)術(shù)界和工業(yè)界的關(guān)注。

現(xiàn)有的面部表情編輯方法存在的不足：受生成性對抗網(wǎng)絡(luò)（GANs）最近的成功啟發(fā)，報(bào)告的幾項(xiàng)研究工作已經(jīng)取得了非常令人印象深刻的面部表情編輯結(jié)果。另一方面，現(xiàn)有的方法仍然面臨一些約束。首先，現(xiàn)有的方法往往會產(chǎn)生不連貫的偽影和/或模糊，尤其是在那些表情豐富的區(qū)域，如眼睛、鼻子和嘴巴周圍。第二，當(dāng)源面部表情與目標(biāo)面部表情存在較大差距時(shí)，現(xiàn)有方法往往會產(chǎn)生重疊偽影，例如從憤怒到大笑的轉(zhuǎn)換。

現(xiàn)有的面部表情編輯方法只將圖像作為整體處理，沒有特別關(guān)注與局部身份相關(guān)的特征（眼/鼻子/嘴巴）：面部表情編輯的任務(wù)需要維護(hù)個(gè)人身份。作為人類，識別面部圖像的自然方法是特別注意眼睛、鼻子和嘴巴，這主要是因?yàn)檫@些區(qū)域包含豐富的身份相關(guān)信息。另一方面，幾乎所有基于GAN的面部表情編輯方法都只是將輸入的面部圖像作為一個(gè)整體進(jìn)行處理，而沒有特別注意與局部身份相關(guān)的特征，這可能是大多數(shù)現(xiàn)有方法在眼睛、鼻子和嘴巴周圍產(chǎn)生不連貫偽影和模糊的一個(gè)主要原因。

此外，據(jù)我們所知，所有現(xiàn)有的基于GANs的面部表情編輯方法都對目標(biāo)表情執(zhí)行一步轉(zhuǎn)換。另一方面，由于網(wǎng)絡(luò)容量的限制，在處理大間隙變換時(shí)，單步變換通常會產(chǎn)生重疊偽影（在面部表情變化較大的區(qū)域周圍）。由于面部表情的變化本質(zhì)上是連續(xù)的，如果網(wǎng)絡(luò)將其分解為許多小的變換，那么大的間隙變換應(yīng)該更好地完成。

在這篇論文中，我們提出了一種新的級聯(lián)表達(dá)局部GAN（級聯(lián)EF-GAN），用于局部聚焦的漸進(jìn)式面部表情編輯。級聯(lián)EF-GAN由級聯(lián)中幾個(gè)相同的EF-GAN模塊組成，這些模塊以漸進(jìn)的方式執(zhí)行面部表情編輯。具體而言，設(shè)計(jì)了一種創(chuàng)新的級聯(lián)變換策略，將大型面部表情變換分解為多個(gè)小型面部表情變換，并循序漸進(jìn)的執(zhí)行面部表情變換。這種漸進(jìn)式面部表情轉(zhuǎn)換有助于抑制重疊偽影，并在處理大間隙面部表情轉(zhuǎn)換時(shí)實(shí)現(xiàn)更健壯、更逼真的表情編輯。此外，每個(gè)EF-GAN模塊都包含許多預(yù)定義的局部焦點(diǎn)，分別捕捉眼睛、鼻子和嘴巴周圍與身份相關(guān)的特征。EF-GAN具有與身份相關(guān)的詳細(xì)特征，能夠生成具有更少偽影的連貫面部表情圖像。我們提出的級聯(lián)EF-GAN的結(jié)果如圖1所示。

本文的貢獻(xiàn)
（1）首先，我們確定了局部焦點(diǎn)在面部表情編輯中的重要性，并提出了一種新的EF-GAN，它可以捕獲具有多個(gè)局部焦點(diǎn)的身份相關(guān)特征，并有效地減少編輯偽影和模糊。
（2）其次，我們提出了一個(gè)創(chuàng)新的漸進(jìn)式面部表情編輯級聯(lián)設(shè)計(jì)。級聯(lián)設(shè)計(jì)在處理較大間隙的表情轉(zhuǎn)化時(shí)，在抑制重疊偽影方面是穩(wěn)健而有效的。（重疊偽影指的是原始表達(dá)式和目標(biāo)表達(dá)式在輸出中混合的偽影）。
（3）第三，大量實(shí)驗(yàn)表明，Cascade EF-GAN在定量和定性上都實(shí)現(xiàn)了出色的面部表情編輯。

2.Related Work

生成性對抗網(wǎng)絡(luò)：生成性對抗網(wǎng)是一種強(qiáng)大的生成模型，可以同時(shí)訓(xùn)練生成器生成逼真的假圖像，并訓(xùn)練鑒別器區(qū)分真假圖像。一個(gè)活躍的研究主題是條件GANs，它包含條件信息去控制生成圖像。此外，CycleGAN采用cycle-consistency（循環(huán)一致性）損失，并在保留關(guān)鍵屬性的情況下實(shí)現(xiàn)圖像到圖像的轉(zhuǎn)換。GANs在不同的計(jì)算機(jī)視覺任務(wù)中表現(xiàn)出了強(qiáng)大的能力，如自然圖像合成、圖像風(fēng)格轉(zhuǎn)換、超分辨率、圖像修復(fù)、面部屬性編輯、面部圖像合成等，GAN生成的圖像也被應(yīng)用于不同的計(jì)算機(jī)視覺任務(wù)。我們的Cascade EF-GAN設(shè)計(jì)用于執(zhí)行面部表情編輯，使用條件變量控制目標(biāo)表情，并使用循環(huán)一致性以保留身份信息。

面部表情編輯：面部表情編輯很有挑戰(zhàn)性，因?yàn)樗枰獙斎氲拿娌繄D像進(jìn)行高水平的理解，并事先了解人類表情。與只考慮特定面部區(qū)域外觀修改的一般面部屬性編輯相比，面部表情編輯是一項(xiàng)更具挑戰(zhàn)性的任務(wù)，因?yàn)樗ǔＩ婕拜^大的幾何變化，需要同時(shí)修改多個(gè)面部組件。近年來，隨著GANs的流行，已經(jīng)取得了非常令人印象深刻的進(jìn)展。例如，G2-GAN和GCGAN采用面部地標(biāo)作為幾何先驗(yàn)，以控制生成的面部表情的強(qiáng)度，其中g(shù)round-truth圖像對于提取幾何信息至關(guān)重要。ExprGAN引入了一個(gè)表達(dá)式控制器來控制生成表情的強(qiáng)度，但它需要一個(gè)預(yù)訓(xùn)練的人臉識別器來保存身份信息。StarGAN可以使用單一模型跨域翻譯圖像，并通過最小化循環(huán)損失來保留身份特征，但它只能生成離散表達(dá)式。GANimation采用動作單元作為表情標(biāo)簽，可以在連續(xù)域中生成表情。它還包括注意機(jī)制來更好地保存身份信息。然而，它往往會產(chǎn)生偽影和模糊，無法很好地處理大間隙表情轉(zhuǎn)換。

我們提出的級聯(lián)EF-GAN方法沒有像現(xiàn)有的基于GAN的方法那樣在整個(gè)人臉圖像上生成表情，而是將局部焦點(diǎn)放在眼睛、鼻子和嘴的區(qū)域上，有助于抑制偽影和清晰的保留細(xì)節(jié)。此外，級聯(lián)策略以漸進(jìn)的方式編輯表情，在處理非常不同的表情轉(zhuǎn)換時(shí)能夠有效地抑制重疊的偽影。

3.Proposed Methods

圖2顯示了我們提出的級聯(lián)EF-GAN的總體框架。如圖2所示，級聯(lián)EF-GAN由級聯(lián)中的多個(gè)EF-GAN組成，它們以漸進(jìn)的方式執(zhí)行表情編輯。每個(gè)EF-GAN共享相同的體系結(jié)構(gòu)，其中包括一個(gè)表情轉(zhuǎn)換器和一個(gè)細(xì)化器。具體來說，每個(gè)EF-GAN模塊中都包含了幾個(gè)預(yù)定義的局部焦點(diǎn)分支，以便更好地保存眼睛、鼻子和嘴巴周圍與身份相關(guān)的特征和細(xì)節(jié)。更多細(xì)節(jié)將在接下來的小節(jié)中討論。

3.1EF-GAN with Attention-Driven Local Focuses

EF-GAN中的生成模型由一個(gè)表情轉(zhuǎn)換器和一個(gè)細(xì)化器組成，前者執(zhí)行帶有局部焦點(diǎn)的表情編輯，后者融合表情轉(zhuǎn)換器的輸出并細(xì)化最終編輯。

表情轉(zhuǎn)換器。圖2顯示了我們的表情轉(zhuǎn)換器的架構(gòu)。我們的級聯(lián)EF-GAN說明：工作流顯示在左側(cè)，每個(gè)EF-GAN的詳細(xì)信息顯示在放大區(qū)域。表情編輯分為3個(gè)步驟，由每個(gè)EF-GAN逐步處理。EF-GAN由一個(gè)表情轉(zhuǎn)換器和一個(gè)細(xì)化器組成：前者生成整個(gè)人臉圖像和三個(gè)局部人臉區(qū)域的初始編輯，后者融合初始編輯并細(xì)化，生成表情圖像作為最終輸出。

現(xiàn)有的方法的不足：現(xiàn)有的方法使用單個(gè)全局分支處理面部圖像，雖然卷積核在所有空間位置共享，但每個(gè)面部區(qū)域都有不同的身份相關(guān)特征。因此，僅僅用一組卷積核將人臉圖像作為一個(gè)整體進(jìn)行處理，不足以捕獲每個(gè)人臉區(qū)域周圍與身份相關(guān)的細(xì)節(jié)。

我們的表情轉(zhuǎn)換器的改進(jìn)：包含三個(gè)額外的局部分支，分別對眼睛、鼻子和嘴巴周圍的局部區(qū)域進(jìn)行預(yù)定義聚焦。通過在全局和局部分支中處理面部圖像來應(yīng)對現(xiàn)有方法的不足，其中全局分支捕獲全局面部結(jié)構(gòu)，局部分支關(guān)注更詳細(xì)的面部特征。

具體而言，表情轉(zhuǎn)換器將面部圖像和目標(biāo)表情標(biāo)簽作為輸入。與GANimation類似，我們采用了面部動作編碼系統(tǒng)（FACS），該系統(tǒng)將表情編碼為動作單元（AUs），可以使用開源OpenFace提取動作單元。我們采用連續(xù)的AUs強(qiáng)度作為AUs標(biāo)簽來監(jiān)督編輯過程。給定源面部表情圖像，通過裁剪相應(yīng)的局部圖像塊，首先將局部焦點(diǎn)應(yīng)用于眼睛、鼻子和嘴巴區(qū)域。OpenFace還獲取了每個(gè)局部焦點(diǎn)的地標(biāo)。然后，將全局人臉圖像及其局部貼片反饋給相應(yīng)的表情轉(zhuǎn)換器的分支，用于表情編輯。注意：所有分支共享相似的網(wǎng)絡(luò)架構(gòu)，但不共享權(quán)重。

我們還將注意力引入到全局和局部分支，以更好地捕捉細(xì)節(jié)和抑制偽影。視覺注意的使用已經(jīng)在GANimation中進(jìn)行了研究，在GANimation中，注意力被設(shè)計(jì)用來引導(dǎo)網(wǎng)絡(luò)專注于轉(zhuǎn)換表情相關(guān)區(qū)域。另一方面，在單個(gè)全局圖像中應(yīng)用注意通常會引入模糊的注意反應(yīng)，如圖3的第4列所示。這是因?yàn)槿肿⒁饬ν性谧铒@著的變化上，例如圖3中的口腔區(qū)域，而眼睛和鼻子周圍的細(xì)微變化沒有得到很好的關(guān)注。如第3欄所示，對上述局部分支的獨(dú)有關(guān)注有助于在局部區(qū)域獲得更清晰的回應(yīng)。

具體來說，每個(gè)分支輸出顏色特征圖M_C和注意圖M_A。對于原始輸入圖像I_in，每個(gè)分支的初始輸出通過以下方式生成：

? 表示按元素的乘法。這種策略大大簡化了學(xué)習(xí)過程，因?yàn)榫W(wǎng)絡(luò)不需要在人臉圖像統(tǒng)計(jì)的約束下直接輸出初始結(jié)果。
表情轉(zhuǎn)換器只生成初始表情編輯，如圖2所示。具體來說，全局分支捕獲全局面部結(jié)構(gòu)和特征，但由于缺少局部細(xì)節(jié)，會在局部區(qū)域周圍生成模糊和偽影。局部分支更好地保留了局部細(xì)節(jié)，但它們忽略了整個(gè)面部表情的大局。因此，這兩種分支的輸出被發(fā)送到細(xì)化器進(jìn)行融合和進(jìn)一步改進(jìn)。

細(xì)化器：細(xì)化器負(fù)責(zé)融合表情轉(zhuǎn)換器不同分支的輸出，生成最終的表情編輯。如圖2所示，三個(gè)局部分支的輸出首先根據(jù)它們在面部圖像中的各自位置縫合成單個(gè)圖像。縫合的圖像然后與全局分支的輸出連接，并饋送到細(xì)化器以生成最終的表情編輯。

3.2Cascade Facial Expression Transformation

級聯(lián)框架。給定輸入的面部圖像，上述EF-GAN在大多數(shù)情況下都能夠生成高保真的表情編輯。另一方面，我們的研究表明，EF-GAN在處理大間隙表情轉(zhuǎn)換時(shí)，往往會在表情變化較大的區(qū)域周圍產(chǎn)生重疊偽影。我們將大間隙表情轉(zhuǎn)換稱為那些涉及大量外觀和幾何修改以編輯表情的轉(zhuǎn)換，例如從憤怒到大笑的轉(zhuǎn)換。為了解決這個(gè)限制，我們提出了級聯(lián)EF-GAN，它以漸進(jìn)的方式執(zhí)行表情編輯。具體而言，級聯(lián)EF-GAN將大間隙表情轉(zhuǎn)換分解為多個(gè)小間隙表情轉(zhuǎn)換，并在級聯(lián)中執(zhí)行大間隙表情轉(zhuǎn)換。它可以更好地保存面部結(jié)構(gòu)和與身份相關(guān)的特征，以及強(qiáng)大地處理大間隙面部變換。

如圖2所示，通過將多個(gè)EF-GAN級聯(lián)在一起來實(shí)現(xiàn)級聯(lián)表情編輯，其中來自前一個(gè)EF-GAN的表情圖像被饋送到下一個(gè)EF-GAN作為進(jìn)一步編輯的輸入。根據(jù)經(jīng)驗(yàn)，我們使用了3個(gè)EF-GAN，圖4顯示了所提出的級聯(lián)EF-GAN的中間和最終表情編輯。如圖4所示，具有挑戰(zhàn)性的大間隙表情編輯是通過多個(gè)步驟逐步完成的，從而平滑地生成目標(biāo)表情的真實(shí)面部圖像。

中間監(jiān)督：實(shí)施漸進(jìn)式編輯的另一個(gè)問題是如何在每個(gè)中間步驟中包含監(jiān)督信息。利用輸入表情和目標(biāo)表情的AU標(biāo)簽，直接的方法是通過線性插值生成中間AU。然而，這種插值的AU可能不存在于自然AU的流形上，并導(dǎo)致奇怪的合成。我們通過訓(xùn)練插值器來生成中間AU來解決這個(gè)問題。具體來說，我們首先通過線性插值生成偽中間目標(biāo)，并提取偽目標(biāo)和輸入表情的原始AUs標(biāo)簽之間的殘差。原始的AUs標(biāo)簽和殘差隨后被饋送到插值器，以產(chǎn)生中間AUs，從而為中間表情提供監(jiān)督。此外，還訓(xùn)練了一個(gè)鑒別器來最大化真實(shí)值和插值后的AUs之間的Wasserstein距離，而訓(xùn)練插值器來最小化它們之間的距離，從而使插值后的AU無法與真實(shí)樣本區(qū)分開來。注：所有EF-GAN使用相同的AUs插值器。

3.3Learning the Model

損失函數(shù)訓(xùn)練EF-GAN的損失函數(shù)包含五項(xiàng)：
（1）提高合成面部表情圖像的照片真實(shí)性的對抗損失，使其與真實(shí)樣本無法區(qū)分；
（2）條件表情損失，以確保生成的面部表情圖像符合提供的目標(biāo)AUs標(biāo)簽；
（3）內(nèi)容損失，是為了保存圖像內(nèi)容的身份信息和一致性。
（4）注意損失，鼓勵(lì)注意模塊生成稀疏注意圖，并注意真正需要修改的區(qū)域.
（5）用于約束插值A(chǔ)Us標(biāo)簽的插值損失具有期望的語義意義，并且駐留在自然AUs的流形上。總體目標(biāo)函數(shù)表示為：

其中λ1、λ2、λ3和λ4是超參數(shù)。在級聯(lián)EF-GAN中，總損失是每個(gè)EF-GAN的等權(quán)損失之和。

訓(xùn)練方案：
（1）如果我們直接級聯(lián)多個(gè)EF-GAN模塊并從頭開始訓(xùn)練，很難獲得良好的表情編輯。我們推測，這在很大程度上是由于早期EF-GAN模塊產(chǎn)生的噪聲面部圖像。以這種有噪聲的人臉圖像作為輸入，級聯(lián)EF-GAN的后期很容易受到影響，并產(chǎn)生退化的編輯。此外，不希望的編輯會累積，這使得網(wǎng)絡(luò)參數(shù)難以優(yōu)化。
（2）我們設(shè)計(jì)了一個(gè)簡單而有效的方案來解決這個(gè)問題。具體來說，我們首先訓(xùn)練一個(gè)EF-GAN執(zhí)行一步面部表情轉(zhuǎn)換。然后，我們使用訓(xùn)練好的EF-GAN的權(quán)重初始化級聯(lián)中的所有后續(xù)EF-GAN，并端到端微調(diào)所有網(wǎng)絡(luò)參數(shù)。通過這種訓(xùn)練方案，級聯(lián)中的每個(gè)EF-GAN模塊都將具有良好的初始化，因此中間的面部表情圖像將有助于后期學(xué)習(xí)有意義的表情轉(zhuǎn)換信息。

4.Experiments

4.1Datasets

通過Radboud Faces數(shù)據(jù)集（RaFD）和情緒混合面部表情數(shù)據(jù)集（CFEED）對級聯(lián)EF-GAN進(jìn)行評估。RaFD由8040張從不同角度收集的表情圖像組成。我們使用的面部圖像由90度相機(jī)捕獲，生成1608張面部表情圖像。CFEED包含從230名參與者收集的5060張混合表情圖像。我們隨機(jī)抽樣90%用于訓(xùn)練，其余用于測試。

在我們的實(shí)驗(yàn)中，我們將圖像裁剪成128×128個(gè)補(bǔ)丁，補(bǔ)丁的中心是人臉。三個(gè)局部補(bǔ)丁（即眼睛、鼻子和嘴巴的補(bǔ)丁）的大小分別固定為40×92、40×48和40×60。每個(gè)補(bǔ)丁的中心是所有訓(xùn)練樣本中相應(yīng)關(guān)鍵點(diǎn)的平均位置。

4.2Qualitative Experimental Results

級聯(lián)EF-GAN是在前一節(jié)中描述的兩個(gè)公開可用的面部表情數(shù)據(jù)集上進(jìn)行評估的。圖5顯示了定性實(shí)驗(yàn)結(jié)果，其中第1-5列中的圖像來自RaFD數(shù)據(jù)集，第6-10列中的圖像來自CFEED數(shù)據(jù)集。每個(gè)列都包括一項(xiàng)表情編輯任務(wù)，以及通過最先進(jìn)的方法——StarGAN和GANimation進(jìn)行的面部表情編輯，以及我們提出的Cascade EF-GAN。

如圖5所示，最先進(jìn)的方法容易在眼睛、鼻子和嘴巴周圍產(chǎn)生模糊和偽影，甚至?xí)茐拿娌勘砬椤Ｎ覀兊腃ascade EF-GAN生成的面部表情更逼真，模糊和偽影更少，生成的圖像也更清晰。更好的合成在很大程度上歸功于包含了注意力驅(qū)動的局部聚焦，這有助于更好地保留相應(yīng)面部區(qū)域中與身份相關(guān)的特征和細(xì)節(jié)。此外，最先進(jìn)的方法在處理大間隙表情轉(zhuǎn)換時(shí)往往會產(chǎn)生重疊的偽影。我們的級聯(lián)EF-GAN反而有效地抑制了這種重疊的偽影，這主要是因?yàn)槲覀兊募壜?lián)設(shè)計(jì)執(zhí)行了類似人類的漸進(jìn)式表情轉(zhuǎn)換，而不是一步執(zhí)行。補(bǔ)充材料中提供了更多結(jié)果。

4.3Quantitative Experimental Results

表情分類準(zhǔn)確性：我們遵循StarGAN和ExprGAN的評估方法進(jìn)行定量評估。具體來說，我們首先在訓(xùn)練集上訓(xùn)練不同的表情編輯模型，然后在同一個(gè)看不見的測試集上執(zhí)行表情編輯。然后在不同的表情識別任務(wù)中對生成的圖像進(jìn)行評估。分類精度越高，表示表情編輯越準(zhǔn)確、越真實(shí)。

設(shè)計(jì)了兩個(gè)分類任務(wù)來評估生成圖像的質(zhì)量：1）使用原始訓(xùn)練圖像訓(xùn)練表情分類器，并應(yīng)用分類器對不同編輯方法生成的表情圖像進(jìn)行分類；2）通過結(jié)合自然和生成的表情圖像來訓(xùn)練分類器，從而對原始測試集圖像進(jìn)行分類。第一個(gè)任務(wù)評估生成的圖像是否位于自然表情的流形中，第二個(gè)任務(wù)評估生成的圖像是否有助于訓(xùn)練更好的分類器。

表1顯示了RaFD和CFEED上的表情分類精度（僅針對CFEED評估了七個(gè)主要表情）。具體來說，R意味著用原始訓(xùn)練集圖像訓(xùn)練分類器，然后將其應(yīng)用于識別測試集圖像的表情。G表示使用與R相同的分類器來識別生成圖像的表情。R+G是將真實(shí)圖像和不同方法生成的圖像相結(jié)合來訓(xùn)練分類器，然后應(yīng)用它們來識別測試集圖像的表情。如表所示，我們的cascade EF-GAN在第一個(gè)任務(wù)中達(dá)到了最高的準(zhǔn)確率，RaFD和CFEED的準(zhǔn)確率分別為89.38%和85.81%，顯示了它在生成更逼真的表情圖像方面的優(yōu)勢。此外，它還可以幫助訓(xùn)練更精確的表情分類器，當(dāng)我們生成的圖像與分類器訓(xùn)練中的真實(shí)圖像相結(jié)合時(shí)，RaFD和CFEED的準(zhǔn)確度分別提高了1.46%和1.02%。作為比較，StarGAN和GANimation 生成的圖像往往會降低分類，可能是因?yàn)樯傻膱D像中存在偽影和模糊。

PSNR和FID：我們還使用峰值信噪比（PSNR）和弗里切特起始距離（FID）指標(biāo)評估生成圖像的質(zhì)量。PSNR是通過合成表情和相同身份的對應(yīng)表情計(jì)算的，而FID分?jǐn)?shù)是在真實(shí)人臉的預(yù)訓(xùn)練初始模型和合成人臉的最終平均池特征之間計(jì)算的。如表2所示，我們提出的級聯(lián)EF-GAN在RaFD數(shù)據(jù)集上的PSNR和FID測量高出了1.01/3.19，在CFEED上高出了0.91/1.92。

4.4Ablation Study

我們在RaFD數(shù)據(jù)集上進(jìn)行消融實(shí)驗(yàn)，以研究我們提出的局部聚焦和級聯(lián)設(shè)計(jì)的貢獻(xiàn)。訓(xùn)練了幾個(gè)模型，包括：
（1）基線，其中僅采用全局注意的 GANimation ；
（2）基線+局部聚焦（即EF-GAN），將局部焦點(diǎn)分支納入基線；
（3）基線+級聯(lián)，將漸進(jìn)編輯（帶有3個(gè)EF-GAN模塊）引入到基線；
（4）級聯(lián)EF-GAN，包括漸進(jìn)編輯和局部聚焦，如圖2所示。

圖6顯示了定性結(jié)果。每列代表一個(gè)表情編輯任務(wù)，以及上述模型進(jìn)行的相應(yīng)編輯。很明顯，基線往往會丟失眼睛和嘴巴周圍的細(xì)節(jié)，導(dǎo)致模糊、偽影，甚至腐蝕。對于許多示例圖像，生成的表情與目標(biāo)表情也沒有很好地對齊。基線+局部聚焦可以大大減少偽影和腐蝕，并生成更清晰、更鮮明的表情圖像。基線+級聯(lián)中包含級聯(lián)策略有助于更好地維護(hù)身份特征和面部結(jié)構(gòu)，生成的表情也能更好地與目標(biāo)表情對齊。這在很大程度上是因?yàn)榧壜?lián)設(shè)計(jì)通過將大間隙變化分解為更小的步驟來減輕大間隙變化的復(fù)雜性。最后，包括級聯(lián)設(shè)計(jì)和局部聚焦的級聯(lián)EF-GAN能夠生成干凈、清晰的面部表情，這些表情與目標(biāo)表情和輸入身份一致，明顯優(yōu)于所有其他模型。這表明，提出的局部聚焦和級聯(lián)編輯策略是相輔相成的。

我們還進(jìn)行了定量實(shí)驗(yàn)，以評估級聯(lián)EF-GAN中的每個(gè)提出的組件。表3顯示了實(shí)驗(yàn)結(jié)果。定量實(shí)驗(yàn)結(jié)果進(jìn)一步驗(yàn)證了所提出的局部聚焦和漸進(jìn)轉(zhuǎn)換策略的有效性。

4.5Discussion

連續(xù)表情編輯：我們的級聯(lián)EF-GAN可以很容易地適應(yīng)生成連續(xù)表情。給定源和目標(biāo)AUs，可以使用插值器導(dǎo)出不同階段的中間AUs。因此，可以使用中間AUs和源圖像導(dǎo)出中間階段的連續(xù)表情。圖7顯示了級聯(lián)EF-GAN的連續(xù)編輯。

野生圖像上的面部表情編輯：野生圖像上的表情編輯更具挑戰(zhàn)性，因?yàn)閳D像是在復(fù)雜的背景和不受控制的燈光下拍攝的。我們的級聯(lián)EF-GAN可以適應(yīng)處理野生圖像，如圖8所示，其中級聯(lián)EF-GAN首先在RaFD和CFEED圖像上進(jìn)行預(yù)訓(xùn)練，然后使用來自AffectNet的野生表情圖像進(jìn)行微調(diào)。如圖8所示，級聯(lián)EF-GAN可以成功地變換表情，同時(shí)保持和表情無關(guān)的信息不變。

5.Conclusion

（1）本文提出了一種新的用于真實(shí)人臉表情編輯的級聯(lián)表情局部GAN（Cascade EF-GAN）。EF-GAN的設(shè)計(jì)結(jié)合了眼睛、鼻子和嘴巴三個(gè)局部重點(diǎn)，以更好地保存與身份相關(guān)的特征和細(xì)節(jié)。這種與身份相關(guān)的特征減少了模型的身份不確定性，從而得到更清晰的面部表情圖像。
（2）此外，所提出的級聯(lián)EF-GAN以漸進(jìn)的方式執(zhí)行表情編輯，將大間隙表情變換更改分解為多個(gè)小間隙表情變換。因此，它在大間隙面部表情的真實(shí)變換中更具魯棒性。
（3）在兩個(gè)公開的有效的面部表情數(shù)據(jù)集上進(jìn)行的大量實(shí)驗(yàn)表明，與最先進(jìn)的技術(shù)相比，所提出的級聯(lián)EF-GAN實(shí)現(xiàn)了更好的表情編輯。我們預(yù)計(jì)Cascade EF-GAN將激發(fā)新的見解，并在不久的將來吸引更多人對更好的面部表情編輯感興趣。

總結(jié)

以上是生活随笔為你收集整理的Cascade EF-GAN: Progressive Facial Expression Editing with Local Focuses 论文解读的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇： SegAttnGAN: Text to
下一篇： AttnGAN: Fine-Graine