當(dāng)前位置：首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

风格迁移篇--StarGAN：用于多域图像到图像翻译的统一生成对抗网络

發(fā)布時(shí)間：2023/12/16 编程问答 41 豆豆

生活随笔收集整理的這篇文章主要介紹了风格迁移篇--StarGAN：用于多域图像到图像翻译的统一生成对抗网络小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

文章目錄

Abstract
1. Introduction
2. Related Work
3. Star Generative Adversarial Networks
- 3.1. Multi-Domain Image-to-Image Translation
- 3.2. Training with Multiple Datasets
4. Implementation
5. Experiments
- 5.1. Baseline Models
- 5.2. Datasets
- 5.3. Training
- 5.4. Experimental Results on CelebA
- 5.5. Experimental Results on RaFD
- 5.6. Experimental Results on CelebA+RaFD
6. Conclusion

Abstract

最近的研究表明，在兩個(gè)領(lǐng)域的圖像到圖像的翻譯取得了顯著的成功。然而，現(xiàn)有方法在處理兩個(gè)以上的域時(shí)具有有限的可擴(kuò)展性和魯棒性，因?yàn)閼?yīng)為每對(duì)圖像域獨(dú)立構(gòu)建不同的模型。為了解決這一局限性，我們提出了StarGAN，這是一種新穎且可擴(kuò)展的方法，可以?xún)H使用單個(gè)模型對(duì)多個(gè)域執(zhí)行圖像到圖像的翻譯。StarGAN的這種統(tǒng)一模型架構(gòu)允許在單個(gè)網(wǎng)絡(luò)中同時(shí)訓(xùn)練具有不同域的多個(gè)數(shù)據(jù)集。這使得StarGAN的翻譯圖像質(zhì)量?jī)?yōu)于現(xiàn)有模型，并且能夠靈活地將輸入圖像翻譯到任何所需的目標(biāo)域。我們通過(guò)實(shí)驗(yàn)證明了我們的方法在面部屬性轉(zhuǎn)移和面部表情合成任務(wù)中的有效性。

1. Introduction

圖像到圖像翻譯的任務(wù)是將給定圖像的特定方面更改為另一個(gè)方面，例如，將人的面部表情從微笑更改為皺眉（見(jiàn)圖1）。隨著生成對(duì)抗網(wǎng)絡(luò)（GAN）的引入，這項(xiàng)任務(wù)經(jīng)歷了重大改進(jìn)，結(jié)果包括改變頭發(fā)顏色[8]、從邊緣地圖重建照片[7]和改變風(fēng)景圖像的季節(jié)[32]。

給定來(lái)自?xún)蓚€(gè)不同域的訓(xùn)練數(shù)據(jù)，這些模型學(xué)習(xí)將圖像從一個(gè)域轉(zhuǎn)換到另一個(gè)域。我們將術(shù)語(yǔ)屬性表示為圖像中固有的有意義的特征，例如頭發(fā)顏色、性別或年齡，將屬性值表示為屬性的特定值，例如黑色/金發(fā)/棕色表示頭發(fā)顏色，或男性/女性表示性別。我們進(jìn)一步將域表示為共享相同屬性值的一組圖像。例如，女性的圖像可以代表一個(gè)領(lǐng)域，而男性的圖像代表另一個(gè)領(lǐng)域。

幾個(gè)圖像數(shù)據(jù)集附帶了許多標(biāo)記屬性。例如，CelebA[18]數(shù)據(jù)集包含40個(gè)與頭發(fā)顏色、性別和年齡等面部屬性相關(guān)的標(biāo)簽，而RaFD[12]數(shù)據(jù)集包含8個(gè)面部表情標(biāo)簽，例如“高興”、“憤怒”和“悲傷”。這些設(shè)置使我們能夠執(zhí)行更有趣的任務(wù)，即多域圖像到圖像的翻譯，其中我們根據(jù)多個(gè)域的屬性更改圖像。圖1中的前五列顯示了如何根據(jù)四個(gè)域中的任何一個(gè)來(lái)翻譯CelebA圖像，“金發(fā)”、“性別”、“年齡”和“蒼白皮膚”。我們可以進(jìn)一步擴(kuò)展到從不同數(shù)據(jù)集訓(xùn)練多個(gè)域，例如聯(lián)合訓(xùn)練CelebA和RaFD圖像，以使用通過(guò)RaFD訓(xùn)練學(xué)習(xí)的特征來(lái)改變CelebA圖像的面部表情，如圖1最右邊的列所示。

然而，現(xiàn)有模型在此類(lèi)多域圖像翻譯任務(wù)中既低效又無(wú)效。其效率低下的原因是為了學(xué)習(xí)k個(gè)域之間的所有映射，k（k?1）發(fā)電機(jī)必須經(jīng)過(guò)培訓(xùn)。圖2說(shuō)明了必須如何訓(xùn)練十二個(gè)不同的生成器網(wǎng)絡(luò)以在四個(gè)不同的域之間翻譯圖像。同時(shí)，即使存在可以從所有域（如人臉形狀）的圖像中學(xué)習(xí)的全局特征，每個(gè)生成器也無(wú)法充分利用整個(gè)訓(xùn)練數(shù)據(jù)，只能從k個(gè)域中的兩個(gè)域中學(xué)習(xí)，這是無(wú)效的。未能充分利用訓(xùn)練數(shù)據(jù)可能會(huì)限制生成圖像的質(zhì)量。此外，它們無(wú)法從不同的數(shù)據(jù)集中聯(lián)合訓(xùn)練域，因?yàn)槊總€(gè)數(shù)據(jù)集都有部分標(biāo)記，我們將在第3.2節(jié)中進(jìn)一步討論。

為了解決這些問(wèn)題，我們提出了StarGAN，一種能夠?qū)W習(xí)多個(gè)域之間映射的生成對(duì)抗網(wǎng)絡(luò)。如圖2（b）所示，我們的模型接受多個(gè)域的訓(xùn)練數(shù)據(jù)，并僅使用一個(gè)生成器學(xué)習(xí)所有可用域之間的映射。這個(gè)想法很簡(jiǎn)單。我們的模型沒(méi)有學(xué)習(xí)固定的翻譯（例如，從黑色到金色的頭發(fā)），而是將圖像和域信息作為輸入，并學(xué)習(xí)將輸入圖像靈活地翻譯到相應(yīng)的域中。我們使用標(biāo)簽（例如二進(jìn)制或onehot向量）來(lái)表示域信息。在訓(xùn)練過(guò)程中，我們隨機(jī)生成目標(biāo)域標(biāo)簽，并訓(xùn)練模型將輸入圖像靈活地轉(zhuǎn)換到目標(biāo)域。通過(guò)這樣做，我們可以控制域標(biāo)簽，并在測(cè)試階段將圖像轉(zhuǎn)換為任何所需的域。
我們還介紹了一種簡(jiǎn)單但有效的方法，通過(guò)在域標(biāo)簽中添加掩碼向量來(lái)實(shí)現(xiàn)不同數(shù)據(jù)集的域之間的聯(lián)合訓(xùn)練。我們提出的方法確保了該模型可以忽略未知標(biāo)簽，并專(zhuān)注于特定數(shù)據(jù)集提供的標(biāo)簽。通過(guò)這種方式，我們的模型可以很好地執(zhí)行任務(wù)，例如合成CelebA圖像的面部表情（a）跨域模型21 4 3 G21 G12 G41 G14 G32 G23 G34 G43 2 1 5 4 3（b）StarGAN圖2。跨域模型與我們提出的StarGAN模型之間的比較。（a）為了處理多個(gè)域，應(yīng)該為每一對(duì)圖像域建立跨域模型。（b） StarGAN能夠使用單個(gè)生成器學(xué)習(xí)多個(gè)域之間的映射。該圖表示連接多個(gè)域的星形拓?fù)洹?/p>

從RaFD學(xué)習(xí)的ing特征，如圖1最右邊的列所示。據(jù)我們所知，我們的工作是第一次成功地跨不同數(shù)據(jù)集執(zhí)行多域圖像翻譯。

總的來(lái)說(shuō)，我們的貢獻(xiàn)如下：

我們提出了StarGAN，這是一種新的生成對(duì)抗網(wǎng)絡(luò)，它僅使用單個(gè)生成器和鑒別器學(xué)習(xí)多個(gè)域之間的映射，并從所有域的圖像中進(jìn)行有效訓(xùn)練
我們演示了如何利用掩碼向量方法成功學(xué)習(xí)多個(gè)數(shù)據(jù)集之間的多域圖像轉(zhuǎn)換，該方法使StarGAN能夠控制所有可用的域標(biāo)簽
我們使用StarGAN提供了人臉屬性轉(zhuǎn)移和人臉表情合成任務(wù)的定性和定量結(jié)果，顯示了其優(yōu)于基線模型。

[圖2:跨域模型與我們提出的StarGAN模型之間的比較。（a）為了處理多個(gè)域，應(yīng)該為每一對(duì)圖像域建立跨域模型。（b） StarGAN能夠使用單個(gè)生成器學(xué)習(xí)多個(gè)域之間的映射。該圖表示連接多個(gè)域的星形拓?fù)洹

2. Related Work

生成性對(duì)抗網(wǎng)絡(luò)。生成對(duì)抗網(wǎng)絡(luò)（GAN）[3]在各種計(jì)算機(jī)視覺(jué)任務(wù)中取得了顯著的成果，如圖像生成[1、6、23、31]、圖像翻譯[7、8、32]、超分辨率成像[13]和人臉圖像合成[9、15、25、30]。典型的氮化鎵模型由兩個(gè)模塊組成：鑒別器和發(fā)生器。鑒別器學(xué)習(xí)區(qū)分真實(shí)和虛假樣本，而生成器學(xué)習(xí)生成與真實(shí)樣本無(wú)法區(qū)分的虛假樣本。我們的方法還利用了對(duì)抗性損失，使生成的圖像盡可能逼真。
有條件的GAN。基于GAN的條件圖像生成也得到了積極的研究。先前的研究為鑒別器和生成器提供了類(lèi)信息，以便生成以類(lèi)為條件的樣本[19, 20, 21]. 最近的其他方法側(cè)重于生成與給定文本描述高度相關(guān)的特定圖像[24，29]。條件圖像生成的思想也已成功應(yīng)用于域轉(zhuǎn)移[8，27]、超分辨率成像[13]和照片編輯[2，26]。在本文中，我們提出了一種可擴(kuò)展的GAN框架，通過(guò)提供條件域信息，可以靈活地將圖像轉(zhuǎn)換到各種目標(biāo)域。
圖像到圖像的翻譯。最近的工作在圖像到圖像的翻譯方面取得了令人印象深刻的成果[7、8、16、32]。例如，pix2pix[7]使用CGAN[19]以有監(jiān)督的方式學(xué)習(xí)該任務(wù)。它將對(duì)抗性損失與L1損失相結(jié)合，因此需要成對(duì)的數(shù)據(jù)樣本。為了緩解獲取數(shù)據(jù)對(duì)的問(wèn)題，提出了未配對(duì)圖像到圖像的翻譯框架[8、16、32]。單元[16]將變分自動(dòng)編碼器（V AEs）[11]與CoGAN[17]相結(jié)合，CoGAN[17]是一種GAN框架，其中兩個(gè)生成器共享權(quán)重，以學(xué)習(xí)圖像在跨域中的聯(lián)合分布。CycleGAN[32]和DiscoGAN[8]利用循環(huán)一致性損失來(lái)保留輸入和翻譯圖像之間的關(guān)鍵屬性。然而，所有這些框架一次只能學(xué)習(xí)兩個(gè)不同領(lǐng)域之間的關(guān)系。他們的方法在處理多個(gè)域時(shí)具有有限的可擴(kuò)展性，因?yàn)閼?yīng)該為每對(duì)域訓(xùn)練不同的模型。與上述方法不同，我們的框架可以?xún)H使用單個(gè)模型來(lái)學(xué)習(xí)多個(gè)領(lǐng)域之間的關(guān)系。

[圖3。StarGAN的概述，由兩個(gè)模塊組成，一個(gè)鑒別器D和一個(gè)生成器G。（a）D學(xué)習(xí)區(qū)分真實(shí)圖像和虛假圖像，并將真實(shí)圖像分類(lèi)到其相應(yīng)的域。（b） G接收?qǐng)D像和目標(biāo)域標(biāo)簽作為輸入，并生成假圖像。目標(biāo)域標(biāo)簽在空間上復(fù)制并與輸入圖像連接。（c） G嘗試從給定原始域標(biāo)簽的偽圖像重建原始圖像。（d） G試圖生成與真實(shí)圖像無(wú)法區(qū)分的圖像，并通過(guò)d分類(lèi)為目標(biāo)域]

3. Star Generative Adversarial Networks

我們首先描述了我們提出的StarGAN，一個(gè)在單個(gè)數(shù)據(jù)集中解決多域圖像到圖像轉(zhuǎn)換的框架。然后，我們討論了StarGAN如何整合包含不同標(biāo)簽集的多個(gè)數(shù)據(jù)集，以便使用這些標(biāo)簽中的任何一個(gè)靈活地執(zhí)行圖像翻譯。

3.1. Multi-Domain Image-to-Image Translation

我們的目標(biāo)是訓(xùn)練學(xué)習(xí)多個(gè)域之間映射的單個(gè)生成器G。為了實(shí)現(xiàn)這一點(diǎn)，我們訓(xùn)練G將輸入圖像x轉(zhuǎn)換為以目標(biāo)域標(biāo)簽c，G（x，c）為條件的輸出圖像y→ y、我們隨機(jī)生成目標(biāo)域標(biāo)簽c，以便G學(xué)習(xí)靈活地翻譯輸入圖像。我們還引入了一個(gè)輔助分類(lèi)器[21]，它允許單個(gè)鑒別器控制多個(gè)域。也就是說(shuō)，我們的鑒別器在信源和域標(biāo)簽上產(chǎn)生概率分布，D:x→ {Dsrc（x），Dcls（x）}。圖3說(shuō)明了我們提出的方法的訓(xùn)練過(guò)程。

對(duì)抗性損失。為了使生成的圖像與真實(shí)圖像無(wú)法區(qū)分，我們采用了對(duì)抗性損失：

其中，G生成以輸入圖像x和目標(biāo)域標(biāo)簽c為條件的圖像G（x，c），而D試圖區(qū)分真實(shí)圖像和虛假圖像。在本文中，我們將術(shù)語(yǔ)Dsrc（x）稱(chēng)為D給出的信源上的概率分布。生成器G試圖將該目標(biāo)最小化38791，而鑒別器D試圖將其最大化。

域分類(lèi)丟失。對(duì)于給定的輸入圖像x和目標(biāo)域標(biāo)簽c，我們的目標(biāo)是將x轉(zhuǎn)換為輸出圖像y，該圖像y被正確分類(lèi)到目標(biāo)域c。為了實(shí)現(xiàn)此條件，我們?cè)贒的頂部添加了一個(gè)輔助分類(lèi)器，并在優(yōu)化D和G時(shí)施加域分類(lèi)損失。也就是說(shuō)，我們將目標(biāo)分解為兩項(xiàng)：用于優(yōu)化D的真實(shí)圖像的域分類(lèi)損失和用于優(yōu)化G的虛假圖像的域分類(lèi)損失。具體而言，前者定義為：

其中，術(shù)語(yǔ)Dcls（c′|x）表示由D計(jì)算的域標(biāo)簽上的概率分布。通過(guò)最小化該目標(biāo)，D學(xué)習(xí)將真實(shí)圖像x分類(lèi)到其相應(yīng)的原始域c′。我們假設(shè)輸入圖像和域標(biāo)簽對(duì)（x，c′）由訓(xùn)練數(shù)據(jù)給出。另一方面，偽圖像域分類(lèi)的損失函數(shù)定義為:

重建損失。通過(guò)最小化對(duì)抗和分類(lèi)損失，訓(xùn)練G生成逼真的圖像，并將其分類(lèi)到正確的目標(biāo)域。然而，最小化損失（等式（1）和（3））并不能保證翻譯后的圖像在僅更改輸入的域相關(guān)部分的同時(shí)保留其輸入圖像的內(nèi)容。為了緩解這個(gè)問(wèn)題，我們對(duì)生成器應(yīng)用了循環(huán)一致性損失[8，32]，定義為：

其中，G以翻譯圖像G（x，c）和原始域標(biāo)簽c′作為輸入，并嘗試重建原始圖像x。我們采用L1范數(shù)作為重建損失。注意，我們使用單個(gè)生成器兩次，首先將原始圖像轉(zhuǎn)換為目標(biāo)域中的圖像，然后從轉(zhuǎn)換后的圖像重建原始圖像。
全面目標(biāo)。最后，分別編寫(xiě)優(yōu)化G和D的目標(biāo)函數(shù)，如下所示：

其中λcls和λrec是超參數(shù)，分別控制域分類(lèi)和重建損失相對(duì)于對(duì)抗損失的相對(duì)重要性。我們?cè)谒袑?shí)驗(yàn)中使用λcls=1和λrec=10。

3.2. Training with Multiple Datasets

StarGAN的一個(gè)重要優(yōu)點(diǎn)是，它同時(shí)合并了包含不同類(lèi)型標(biāo)簽的多個(gè)數(shù)據(jù)集，因此StarGAN可以在測(cè)試階段控制所有標(biāo)簽。然而，從多個(gè)數(shù)據(jù)集學(xué)習(xí)時(shí)的一個(gè)問(wèn)題是，每個(gè)數(shù)據(jù)集只知道部分標(biāo)簽信息。在CelebA[18]和RaFD[12]的情況下，前者包含諸如頭發(fā)顏色和性別等屬性的標(biāo)簽，但它沒(méi)有任何諸如“高興”和“憤怒”等面部表情的標(biāo)簽，反之亦然。這是有問(wèn)題的，因?yàn)楫?dāng)從翻譯圖像G（x，c）重建輸入圖像x時(shí)，需要標(biāo)簽向量c′上的完整信息（參見(jiàn)等式（4））。

**掩碼向量。**為了緩解這個(gè)問(wèn)題，我們引入了掩碼向量m，該向量允許StarGAN忽略未指定的標(biāo)簽，并專(zhuān)注于特定數(shù)據(jù)集提供的顯式已知標(biāo)簽。在StarGAN中，我們使用n維一維熱向量來(lái)表示m，其中n是數(shù)據(jù)集的數(shù)量。此外，我們將標(biāo)簽的統(tǒng)一版本定義為向量。

其中[·]表示串聯(lián)，ci表示第i個(gè)數(shù)據(jù)集標(biāo)簽的向量。已知標(biāo)簽ci的向量可以表示為二進(jìn)制屬性的二進(jìn)制向量或分類(lèi)屬性的單熱向量。對(duì)于剩余的n?1未知標(biāo)簽我們只分配零值。在我們的實(shí)驗(yàn)中，我們利用了CelebA和RaFD數(shù)據(jù)集，其中n為2。
培訓(xùn)策略。當(dāng)使用多個(gè)數(shù)據(jù)集訓(xùn)練StarGAN時(shí)，我們使用等式（7）中定義的域標(biāo)簽▄c作為生成器的輸入。通過(guò)這樣做，生成器學(xué)習(xí)忽略未指定的標(biāo)簽（零向量），并專(zhuān)注于顯式給定的標(biāo)簽。生成器的結(jié)構(gòu)與使用單個(gè)數(shù)據(jù)集進(jìn)行訓(xùn)練時(shí)的結(jié)構(gòu)完全相同，但輸入標(biāo)簽的維數(shù)除外。另一方面，我們擴(kuò)展了鑒別器的輔助分類(lèi)器，以生成所有數(shù)據(jù)集標(biāo)簽上的概率分布。然后，我們?cè)诙嗳蝿?wù)學(xué)習(xí)環(huán)境中訓(xùn)練模型，其中鑒別器嘗試僅最小化與已知標(biāo)簽相關(guān)的分類(lèi)錯(cuò)誤。例如，當(dāng)使用CelebA中的圖像進(jìn)行訓(xùn)練時(shí)，鑒別器僅最小化與CelebA屬性相關(guān)的標(biāo)簽的分類(lèi)錯(cuò)誤，而不最小化與RaFD相關(guān)的面部表情。在這些設(shè)置下，通過(guò)在CelebA和RaFD之間交替，鑒別器學(xué)習(xí)兩個(gè)數(shù)據(jù)集中的所有判別特征，生成器學(xué)習(xí)控制兩個(gè)數(shù)據(jù)集中的所有標(biāo)簽。

4. Implementation

改進(jìn)了GAN訓(xùn)練。為了穩(wěn)定訓(xùn)練過(guò)程并生成更高質(zhì)量的圖像，我們將等式（1）替換為具有梯度懲罰[1，4]的Wasserstein-GAN目標(biāo)，定義為：

其中?x沿一對(duì)真實(shí)圖像和生成圖像之間的直線均勻采樣。我們?cè)谒袑?shí)驗(yàn)中使用λgp=10。

**網(wǎng)絡(luò)架構(gòu)。**改編自[32]，StarGAN具有由兩個(gè)步長(zhǎng)為2的卷積層（用于下采樣）、六個(gè)殘差塊[5]和兩個(gè)步長(zhǎng)為2的轉(zhuǎn)置卷積層（用于上采樣）組成的生成器網(wǎng)絡(luò)。我們對(duì)生成器使用實(shí)例歸一化[28]，但對(duì)鑒別器不使用歸一化。我們利用PatchGANs[7，14，32]作為鑒別器網(wǎng)絡(luò)，該網(wǎng)絡(luò)將局部圖像補(bǔ)丁劃分為真實(shí)還是虛假。見(jiàn)附錄（第節(jié)）有關(guān)網(wǎng)絡(luò)架構(gòu)的更多詳細(xì)信息。

5. Experiments

在本節(jié)中，我們首先通過(guò)進(jìn)行用戶(hù)研究，將StarGAN與最近的人臉屬性轉(zhuǎn)移方法進(jìn)行比較。接下來(lái)，我們對(duì)面部表情合成進(jìn)行了分類(lèi)實(shí)驗(yàn)。最后，我們證明了實(shí)驗(yàn)結(jié)果，StarGAN可以從多個(gè)數(shù)據(jù)集學(xué)習(xí)圖像到圖像的翻譯。我們的所有實(shí)驗(yàn)都是在訓(xùn)練階段使用從看不見(jiàn)的圖像中輸出的模型進(jìn)行的。

5.1. Baseline Models

作為我們的基線模型，我們采用DIA T[15]和CycleGAN[32]，這兩種模型都在兩個(gè)不同的域之間執(zhí)行圖像到圖像的轉(zhuǎn)換。為了進(jìn)行比較，我們針對(duì)兩個(gè)不同領(lǐng)域的每一對(duì)對(duì)對(duì)這些模型進(jìn)行了多次訓(xùn)練。我們還采用IcGAN[22]作為基線，可以使用cGAN[21]執(zhí)行屬性轉(zhuǎn)移。

DIAT使用對(duì)抗性損失從x學(xué)習(xí)映射∈ X到y(tǒng)∈ Y，其中x和Y分別是兩個(gè)不同域x和Y中的人臉圖像。該方法在映射上有一個(gè)正則項(xiàng)，即| | x? F（G（x））||1保留源圖像的身份特征，其中F是在人臉識(shí)別任務(wù)中預(yù)訓(xùn)練的特征提取器。

CycleGAN還使用對(duì)抗損失來(lái)學(xué)習(xí)兩個(gè)不同域X和Y之間的映射。該方法通過(guò)循環(huán)一致性損失| | x正則化映射? （GY X（GXY（X）））|1和||y? （GXY（GY X（y））||1。該方法需要兩個(gè)生成器和鑒別器，用于兩個(gè)不同域的每對(duì)。

IcGAN將編碼器與cGAN[21]模型相結(jié)合。cGAN學(xué)習(xí)映射G：{z，c}→ x生成以潛在向量z和條件向量c為條件的圖像x。此外，IcGAN引入編碼器來(lái)學(xué)習(xí)cGAN的逆映射，Ez:x→ z和Ec:x→ c、這使得IcGAN只需改變條件向量并保留潛在向量即可合成圖像。

5.2. Datasets

CelebA.。CelebFaces Attributes（CelebA）數(shù)據(jù)集[18]包含202599張名人的面部圖像，每個(gè)圖像都帶有40個(gè)二進(jìn)制屬性的注釋。我們將最初的178×218大小的圖像裁剪為178×178，然后將其調(diào)整為128×128。我們隨機(jī)選擇2000幅圖像作為測(cè)試集，并使用所有剩余圖像作為訓(xùn)練數(shù)據(jù)。我們使用以下屬性構(gòu)建了七個(gè)域：頭發(fā)顏色（黑色、金色、棕色）、性別（男性/女性）和年齡（年輕/老年）。

RaFD.Radboud人臉數(shù)據(jù)庫(kù)（RaFD）[12]由從67名參與者收集的4824張圖像組成。每個(gè)參與者在三個(gè)不同的注視方向上做出八個(gè)面部表情，從三個(gè)不同的角度捕捉。我們將圖像裁剪為256×256，其中面居中，然后將其大小調(diào)整為128×128。

5.3. Training

所有模型均使用Adam[10]進(jìn)行訓(xùn)練，β1=0.5，β2=0.999。對(duì)于數(shù)據(jù)增強(qiáng)，我們以0.5的概率水平翻轉(zhuǎn)圖像。我們?cè)谖宕舞b別器更新之后執(zhí)行一次生成器更新，如[4]所示。所有實(shí)驗(yàn)的批量大小都設(shè)置為16。對(duì)于CelebA的實(shí)驗(yàn)，我們?cè)谇?0個(gè)階段以0.0001的學(xué)習(xí)率訓(xùn)練所有模型，并在接下來(lái)的10個(gè)階段將學(xué)習(xí)率線性衰減為0。為了彌補(bǔ)數(shù)據(jù)的不足，當(dāng)使用RaFD進(jìn)行訓(xùn)練時(shí)，我們以0.0001的學(xué)習(xí)率訓(xùn)練100個(gè)時(shí)代的所有模型，并在接下來(lái)的100個(gè)時(shí)代應(yīng)用相同的衰減策略。在單個(gè)NVIDIA Tesla M40 GPU上進(jìn)行培訓(xùn)大約需要一天。

5.4. Experimental Results on CelebA

我們首先在單屬性和多屬性傳輸任務(wù)上將我們提出的方法與基線模型進(jìn)行比較。考慮到所有可能的屬性值對(duì)，我們多次訓(xùn)練跨域模型，如DIAT和CycleGAN。在DIAT和CycleGAN的情況下，我們執(zhí)行多步驟翻譯來(lái)合成多個(gè)屬性（例如，在改變頭發(fā)顏色后轉(zhuǎn)移性別屬性）。

定性評(píng)估。圖4顯示了CelebA上的面部屬性轉(zhuǎn)移結(jié)果。我們觀察到，與跨域模型相比，我們的方法在測(cè)試數(shù)據(jù)上提供了更高的視覺(jué)質(zhì)量的翻譯結(jié)果。一個(gè)可能的原因是StarGAN通過(guò)多任務(wù)學(xué)習(xí)框架的正則化效應(yīng)。換句話說(shuō)，我們訓(xùn)練模型根據(jù)目標(biāo)域的標(biāo)簽靈活地翻譯圖像，而不是訓(xùn)練模型執(zhí)行固定的翻譯（例如棕色到金色的頭發(fā)），這容易過(guò)度擬合。這使得我們的模型能夠?qū)W習(xí)普遍適用于具有不同面部屬性值的多個(gè)圖像域的可靠特征。

此外，與IcGAN相比，我們的模型在保留輸入的面部身份特征方面具有優(yōu)勢(shì)。我們推測(cè)這是因?yàn)槲覀兊姆椒ㄍㄟ^(guò)使用卷積層的激活圖作為潛在表示來(lái)維護(hù)空間信息，而不是像IcGAN中那樣僅使用低維潛在向量。

定量評(píng)估協(xié)議。為了進(jìn)行定量評(píng)估，我們使用Amazon Mechanical Turk（AMT）以調(diào)查的形式進(jìn)行了兩項(xiàng)用戶(hù)研究，以評(píng)估單屬性和多屬性轉(zhuǎn)移任務(wù)。給定輸入圖片，指示Turkers根據(jù)感知真實(shí)感、屬性傳遞質(zhì)量和人物原始身份的保留來(lái)選擇生成的最佳圖像。選項(xiàng)是由四種不同方法生成的四個(gè)隨機(jī)洗牌圖像。在一項(xiàng)研究中，生成的圖像在頭發(fā)顏色（黑色、金色、棕色）、性別或年齡方面具有單一屬性轉(zhuǎn)換。在另一項(xiàng)研究中，生成的圖像涉及屬性轉(zhuǎn)換的組合。每個(gè)土耳其人都被問(wèn)了30到40個(gè)問(wèn)題，還有幾個(gè)簡(jiǎn)單但合乎邏輯的問(wèn)題，以驗(yàn)證人類(lèi)的努力。在單個(gè)和多個(gè)轉(zhuǎn)移任務(wù)中，每個(gè)用戶(hù)研究中驗(yàn)證的Turker數(shù)分別為146和100。

定量結(jié)果。表1和表2分別顯示了我們?cè)趩螌傩院投鄬傩赞D(zhuǎn)移任務(wù)上的AMT實(shí)驗(yàn)結(jié)果。斯塔根在所有情況下都獲得了最佳轉(zhuǎn)移屬性的多數(shù)選票。在表1中的性別變化情況下，我們的模型與其他模型之間的投票差異很小，例如，StarGAN的投票率為39.1%，DIA T的投票率為31.4%。然而，在多屬性變化情況下，例如表2中的“g+A”情況，性能差異變得顯著，例如，StarGAN的投票率為49.8%，IcGAN的投票率為20.3%），這清楚地表明了StarGAN在更復(fù)雜、，多屬性傳輸任務(wù)。這是因?yàn)榕c其他方法不同，StarGAN可以通過(guò)在訓(xùn)練階段隨機(jī)生成目標(biāo)域標(biāo)簽來(lái)處理涉及多個(gè)屬性變化的圖像轉(zhuǎn)換。

5.5. Experimental Results on RaFD

接下來(lái)，我們?cè)赗aFD數(shù)據(jù)集上訓(xùn)練我們的模型，以學(xué)習(xí)合成面部表情的任務(wù)。為了比較StarGAN模型和基線模型，我們將輸入域固定為“中性”表達(dá)式，但目標(biāo)域在其余七個(gè)表達(dá)式中有所不同。

定性評(píng)估。如圖5所示，StarGAN在正確保持輸入的個(gè)人身份和面部特征的同時(shí)，清楚地生成最自然的表情。雖然DIA T和CycleGAN大多保留了輸入的身份，但他們的許多結(jié)果顯示模糊，無(wú)法保持輸入中的清晰度。IcGAN甚至無(wú)法通過(guò)生成男性形象來(lái)保持形象中的個(gè)人身份。

我們認(rèn)為，StarGAN在圖像質(zhì)量方面的優(yōu)勢(shì)是由于其在多任務(wù)學(xué)習(xí)環(huán)境中的隱式數(shù)據(jù)增強(qiáng)效應(yīng)。RaFD圖像包含相對(duì)較小的樣本大小，例如，每個(gè)域包含500個(gè)圖像。當(dāng)在兩個(gè)域上訓(xùn)練時(shí)，DIA T和CycleGAN一次只能使用1000個(gè)訓(xùn)練圖像，但StarGAN可以使用所有可用域中的4000個(gè)圖像進(jìn)行訓(xùn)練。這使StarGAN能夠正確地學(xué)習(xí)如何保持生成輸出的質(zhì)量和清晰度。

定量評(píng)估。為了定量評(píng)估，我們計(jì)算了合成圖像上人臉表情的分類(lèi)誤差。我們使用ResNet-18架構(gòu)[5]在RaFD數(shù)據(jù)集上訓(xùn)練面部表情分類(lèi)器（90%/10%分割用于訓(xùn)練集和測(cè)試集），獲得接近完美的準(zhǔn)確率99.55%。然后，我們使用相同的訓(xùn)練集訓(xùn)練每個(gè)圖像翻譯模型，78795在相同的、看不見(jiàn)的測(cè)試集上執(zhí)行圖像翻譯。最后，我們使用上述分類(lèi)器對(duì)這些翻譯圖像的表達(dá)進(jìn)行分類(lèi)。如表3所示，我們的模型實(shí)現(xiàn)了最低的分類(lèi)誤差，這表明我們的模型在所有比較的方法中產(chǎn)生了最真實(shí)的面部表情。

我們模型的另一個(gè)重要優(yōu)點(diǎn)是在所需參數(shù)數(shù)量方面的可擴(kuò)展性。表3的最后一列顯示，StarGAN學(xué)習(xí)所有翻譯所需的參數(shù)數(shù)量比DIA T小7倍，比CycleGAN小14倍。這是因?yàn)镾tarGAN只需要一個(gè)生成器和鑒別器對(duì)，而與域的數(shù)量無(wú)關(guān)，而在跨域模型（如CycleGAN）的情況下，應(yīng)為每個(gè)源-目標(biāo)域?qū)τ?xùn)練完全不同的模型。

5.6. Experimental Results on CelebA+RaFD

最后，我們實(shí)證證明，我們的模型不僅可以從單個(gè)數(shù)據(jù)集中的多個(gè)領(lǐng)域?qū)W習(xí)，還可以從多個(gè)數(shù)據(jù)集中學(xué)習(xí)。我們使用掩碼向量在CelebA和RaFD數(shù)據(jù)集上聯(lián)合訓(xùn)練我們的模型（見(jiàn)第3.2節(jié)）。為了區(qū)分僅在RaFD上訓(xùn)練的模型和同時(shí)在CelebA和RaFD上訓(xùn)練的模型，我們將前者表示為StarGAN SNG（單個(gè)），后者表示為StarGAN JNT（聯(lián)合）。

聯(lián)合訓(xùn)練的效果。圖6顯示了StarGAN SNG和StarGAN JNT之間的定性比較，其中任務(wù)是在CelebA中合成圖像的面部表情。StarGAN JNT展示了高視覺(jué)質(zhì)量的情感表達(dá)，而StarGAN SNG生成了合理但模糊的灰色背景圖像。這種差異是由于StarGAN JNT在訓(xùn)練期間學(xué)習(xí)翻譯CelebA圖像，而不是StarGAN SNG。換句話說(shuō)，StarGAN JNT可以利用這兩個(gè)數(shù)據(jù)集來(lái)改進(jìn)共享的低級(jí)任務(wù)，例如面部關(guān)鍵點(diǎn)檢測(cè)和分割。通過(guò)同時(shí)利用CelebA和RaFD，StarGAN JNT可以改進(jìn)這些低級(jí)任務(wù)，這有利于學(xué)習(xí)面部表情合成。

學(xué)習(xí)了掩碼向量的作用。在本實(shí)驗(yàn)中，我們通過(guò)將特定面部表情的維度（可從第二個(gè)數(shù)據(jù)集RaFD獲得）設(shè)置為1。在這種情況下，由于明確給出了與第二個(gè)數(shù)據(jù)集相關(guān)聯(lián)的標(biāo)簽，因此適當(dāng)?shù)难诖a向量將為[0，1]。圖7顯示了給出該正確掩碼向量的情況，以及給出錯(cuò)誤掩碼向量[1，0]的相反情況。當(dāng)使用錯(cuò)誤的掩碼向量時(shí)，StarGAN JNT無(wú)法合成面部表情，并且它會(huì)處理輸入圖像的年齡。這是因?yàn)樵撃Ｐ秃雎粤宋粗拿娌勘砬闃?biāo)簽，并通過(guò)掩碼向量將面部屬性標(biāo)簽視為有效。請(qǐng)注意，由于其中一個(gè)面部屬性是“年輕的”，因此當(dāng)模型將零向量作為輸入時(shí)，它會(huì)將圖像從年輕轉(zhuǎn)換為老年。從這一行為中，我們可以確認(rèn)，當(dāng)涉及多個(gè)數(shù)據(jù)集的所有標(biāo)簽時(shí)，StarGAN正確地了解了掩碼向量在圖像到圖像翻譯中的預(yù)期作用。

6. Conclusion

在本文中，我們提出了StarGAN，這是一種使用單個(gè)生成器和鑒別器在多個(gè)域之間進(jìn)行可擴(kuò)展的圖像到圖像轉(zhuǎn)換的模型。除了在可擴(kuò)展性方面的優(yōu)勢(shì)外，由于多任務(wù)學(xué)習(xí)設(shè)置背后的泛化能力，與現(xiàn)有方法[15、22、32]相比，StarGAN生成的圖像具有更高的視覺(jué)質(zhì)量。此外，使用擬議的簡(jiǎn)單掩碼向量使StarGAN能夠利用具有不同域標(biāo)簽集的多個(gè)數(shù)據(jù)集，從而處理其中的所有可用標(biāo)簽。我們希望我們的工作能夠讓用戶(hù)跨多個(gè)領(lǐng)域開(kāi)發(fā)有趣的圖像翻譯應(yīng)用程序。

致謝。這項(xiàng)工作主要是在第一作者在NAVER的Clova AI research進(jìn)行研究實(shí)習(xí)時(shí)完成的。我們感謝NAVER的所有研究人員，尤其是郭東玄，他們進(jìn)行了富有洞察力的討論。這項(xiàng)工作得到了韓國(guó)政府（MSIP）資助的韓國(guó)國(guó)家研究基金會(huì)（NRF）撥款的部分支持（編號(hào)：NRF2016R1C1B2015924）。周是通訊作者。

References

[1] M. Arjovsky, S. Chintala, and L. Bottou. Wasserstein gen-
erative adversarial networks. In Proceedings of the 34th In-
ternational Conference on Machine Learning (ICML), pages
214–223, 2017. 2, 5
[2] A. Brock, T. Lim, J. M. Ritchie, and N. Weston. Neural
photo editing with introspective adversarial networks. arXiv
preprint arXiv:1609.07093, 2016. 3
[3] I. Goodfellow, J. Pouget-Abadie, M. Mirza, B. Xu,
D. Warde-Farley, S. Ozair, A. Courville, and Y . Bengio. Gen-
erative adversarial nets. In Advances in Neural Information
Processing Systems (NIPS), pages 2672–2680, 2014. 2
[4] I. Gulrajani, F. Ahmed, M. Arjovsky, V . Dumoulin, and
A. Courville. Improved training of wasserstein gans. arXiv
preprint arXiv:1704.00028, 2017. 5, 6
[5] K. He, X. Zhang, S. Ren, and J. Sun. Deep residual learning
for image recognition. In Proceedings of the IEEE confer-
ence on Computer Vision and Pattern Recognition (CVPR),
pages 770–778, 2016. 5, 7
[6] X. Huang, Y . Li, O. Poursaeed, J. Hopcroft, and S. Be-
longie. Stacked generative adversarial networks. In The
IEEE Conference on Computer Vision and Pattern Recog-
nition (CVPR), July 2017. 2
[7] P . Isola, J.-Y . Zhu, T. Zhou, and A. A. Efros. Image-to-image
translation with conditional adversarial networks. In Pro-
ceedings of the IEEE Conference on Computer Vision and
Pattern Recognition (CVPR), 2017. 1, 2, 3, 5
[8] T. Kim, M. Cha, H. Kim, J. K. Lee, and J. Kim. Learning to
discover cross-domain relations with generative adversarial
networks. In Proceedings of the 34th International Confer-
ence on Machine Learning (ICML), pages 1857–1865, 2017.
1, 2, 3, 4
[9] T. Kim, B. Kim, M. Cha, and J. Kim. Unsupervised visual
attribute transfer with reconfigurable generative adversarial
networks. arXiv preprint arXiv:1707.09798, 2017. 2
[10] D. Kingma and J. Ba. Adam: A method for stochastic opti-
mization. arXiv preprint arXiv:1412.6980, 2014. 6
[11] D. P . Kingma and M. Welling. Auto-encoding variational
bayes. In Proceedings of the 2nd International Conference
on Learning Representations (ICLR), 2014. 3
[12] O. Langner, R. Dotsch, G. Bijlstra, D. H. Wigboldus, S. T.
Hawk, and A. V an Knippenberg. Presentation and valida-
tion of the radboud faces database. Cognition and Emotion,
24(8):1377–1388, 2010. 2, 4, 6
[13] C. Ledig, L. Theis, F. Huszar, J. Caballero, A. Cunning-
ham, A. Acosta, A. Aitken, A. Tejani, J. Totz, Z. Wang, and
W. Shi. Photo-realistic single image super-resolution using a
generative adversarial network. In The IEEE Conference on
Computer Vision and Pattern Recognition (CVPR), 2017. 2,
3
[14] C. Li and M. Wand. Precomputed real-time texture synthesis
with markovian generative adversarial networks. In Proceed-
ings of the 14th European Conference on Computer Vision
(ECCV), pages 702–716, 2016. 5
[15] M. Li, W. Zuo, and D. Zhang. Deep identity-aware transfer
of facial attributes. arXiv preprint arXiv:1610.05586, 2016.
2, 5, 8
[16] M.-Y . Liu, T. Breuel, and J. Kautz. Unsupervised
image-to-image translation networks. arXiv preprint
arXiv:1703.00848, 2017. 3
[17] M.-Y . Liu and O. Tuzel. Coupled generative adversarial net-
works. In Advances in Neural Information Processing Sys-
tems (NIPS), pages 469–477, 2016. 3
[18] Z. Liu, P . Luo, X. Wang, and X. Tang. Deep learning face
attributes in the wild. In Proceedings of the IEEE Interna-
tional Conference on Computer Vision (ICCV), 2015. 2, 4,
6
[19] M. Mirza and S. Osindero. Conditional generative adversar-
ial nets. arXiv preprint arXiv:1411.1784, 2014. 3
[20] A. Odena. Semi-supervised learning with generative adver-
sarial networks. arXiv preprint arXiv:1606.01583, 2016. 3
[21] A. Odena, C. Olah, and J. Shlens. Conditional image
synthesis with auxiliary classifier gans. arXiv preprint
arXiv:1610.09585, 2016. 3, 5
[22] G. Perarnau, J. van de Weijer, B. Raducanu, and J. M.
álvarez. Invertible conditional gans for image editing. arXiv
preprint arXiv:1611.06355, 2016. 5, 8
[23] A. Radford, L. Metz, and S. Chintala. Unsupervised repre-
sentation learning with deep convolutional generative adver-
sarial networks. arXiv preprint arXiv:1511.06434, 2015. 2
[24] S. Reed, Z. Akata, X. Yan, L. Logeswaran, B. Schiele, and
H. Lee. Generative adversarial text to image synthesis. arXiv
preprint arXiv:1605.05396, 2016. 3
[25] W. Shen and R. Liu. Learning residual images for face at-
tribute manipulation. In The IEEE Conference on Computer
Vision and Pattern Recognition (CVPR), 2017. 2
[26] Z. Shu, E. Y umer, S. Hadap, K. Sunkavalli, E. Shechtman,
and D. Samaras. Neural face editing with intrinsic image
disentangling. In The IEEE Conference on Computer Vision
and Pattern Recognition (CVPR), 2017. 3
[27] Y . Taigman, A. Polyak, and L. Wolf. Unsupervised cross-
domain image generation. In 5th International Conference
on Learning Representations (ICLR), 2017. 3
[28] D. Ulyanov, A. V edaldi, and V . Lempitsky. Instance normal-
ization: The missing ingredient for fast stylization. arXiv
preprint arXiv:1607.08022, 2016. 5
[29] H. Zhang, T. Xu, H. Li, S. Zhang, X. Huang, X. Wang, and
D. Metaxas. Stackgan: Text to photo-realistic image syn-
thesis with stacked generative adversarial networks. arXiv
preprint arXiv:1612.03242, 2016. 3
[30] Z. Zhang, Y . Song, and H. Qi. Age progression/regression
by conditional adversarial autoencoder. In The IEEE Confer-
ence on Computer Vision and Pattern Recognition (CVPR),
July 2017. 2
[31] J. Zhao, M. Mathieu, and Y . LeCun. Energy-based genera-
tive adversarial network. In 5th International Conference on
Learning Representations (ICLR), 2017. 2
[32] J.-Y . Zhu, T. Park, P . Isola, and A. A. Efros. Unpaired image-
to-image translation using cycle-consistent adversarial net-
works. In Proceedings of the IEEE International Conference
on Computer Vision (ICCV), 2017. 1, 2, 3, 4, 5, 8

總結(jié)

以上是生活随笔為你收集整理的风格迁移篇--StarGAN：用于多域图像到图像翻译的统一生成对抗网络的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：第七章-填充符号表
下一篇： PAT 甲级 1048 Find Coi