日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

风格迁移篇--StarGAN:用于多域图像到图像翻译的统一生成对抗网络

發(fā)布時(shí)間:2023/12/16 编程问答 41 豆豆
生活随笔 收集整理的這篇文章主要介紹了 风格迁移篇--StarGAN:用于多域图像到图像翻译的统一生成对抗网络 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

文章目錄

  • Abstract
  • 1. Introduction
  • 2. Related Work
  • 3. Star Generative Adversarial Networks
    • 3.1. Multi-Domain Image-to-Image Translation
    • 3.2. Training with Multiple Datasets
  • 4. Implementation
  • 5. Experiments
    • 5.1. Baseline Models
    • 5.2. Datasets
    • 5.3. Training
    • 5.4. Experimental Results on CelebA
    • 5.5. Experimental Results on RaFD
    • 5.6. Experimental Results on CelebA+RaFD
  • 6. Conclusion

Abstract

最近的研究表明,在兩個(gè)領(lǐng)域的圖像到圖像的翻譯取得了顯著的成功。然而,現(xiàn)有方法在處理兩個(gè)以上的域時(shí)具有有限的可擴(kuò)展性和魯棒性,因?yàn)閼?yīng)為每對(duì)圖像域獨(dú)立構(gòu)建不同的模型。為了解決這一局限性,我們提出了StarGAN,這是一種新穎且可擴(kuò)展的方法,可以?xún)H使用單個(gè)模型對(duì)多個(gè)域執(zhí)行圖像到圖像的翻譯。StarGAN的這種統(tǒng)一模型架構(gòu)允許在單個(gè)網(wǎng)絡(luò)中同時(shí)訓(xùn)練具有不同域的多個(gè)數(shù)據(jù)集。這使得StarGAN的翻譯圖像質(zhì)量?jī)?yōu)于現(xiàn)有模型,并且能夠靈活地將輸入圖像翻譯到任何所需的目標(biāo)域。我們通過(guò)實(shí)驗(yàn)證明了我們的方法在面部屬性轉(zhuǎn)移和面部表情合成任務(wù)中的有效性。

1. Introduction

圖像到圖像翻譯的任務(wù)是將給定圖像的特定方面更改為另一個(gè)方面,例如,將人的面部表情從微笑更改為皺眉(見(jiàn)圖1)。隨著生成對(duì)抗網(wǎng)絡(luò)(GAN)的引入,這項(xiàng)任務(wù)經(jīng)歷了重大改進(jìn),結(jié)果包括改變頭發(fā)顏色[8]、從邊緣地圖重建照片[7]和改變風(fēng)景圖像的季節(jié)[32]。

給定來(lái)自?xún)蓚€(gè)不同域的訓(xùn)練數(shù)據(jù),這些模型學(xué)習(xí)將圖像從一個(gè)域轉(zhuǎn)換到另一個(gè)域。我們將術(shù)語(yǔ)屬性表示為圖像中固有的有意義的特征,例如頭發(fā)顏色、性別或年齡,將屬性值表示為屬性的特定值,例如黑色/金發(fā)/棕色表示頭發(fā)顏色,或男性/女性表示性別。我們進(jìn)一步將域表示為共享相同屬性值的一組圖像。例如,女性的圖像可以代表一個(gè)領(lǐng)域,而男性的圖像代表另一個(gè)領(lǐng)域。

幾個(gè)圖像數(shù)據(jù)集附帶了許多標(biāo)記屬性。例如,CelebA[18]數(shù)據(jù)集包含40個(gè)與頭發(fā)顏色、性別和年齡等面部屬性相關(guān)的標(biāo)簽,而RaFD[12]數(shù)據(jù)集包含8個(gè)面部表情標(biāo)簽,例如“高興”、“憤怒”和“悲傷”。這些設(shè)置使我們能夠執(zhí)行更有趣的任務(wù),即多域圖像到圖像的翻譯,其中我們根據(jù)多個(gè)域的屬性更改圖像。圖1中的前五列顯示了如何根據(jù)四個(gè)域中的任何一個(gè)來(lái)翻譯CelebA圖像,“金發(fā)”、“性別”、“年齡”和“蒼白皮膚”。我們可以進(jìn)一步擴(kuò)展到從不同數(shù)據(jù)集訓(xùn)練多個(gè)域,例如聯(lián)合訓(xùn)練CelebA和RaFD圖像,以使用通過(guò)RaFD訓(xùn)練學(xué)習(xí)的特征來(lái)改變CelebA圖像的面部表情,如圖1最右邊的列所示。

然而,現(xiàn)有模型在此類(lèi)多域圖像翻譯任務(wù)中既低效又無(wú)效。其效率低下的原因是為了學(xué)習(xí)k個(gè)域之間的所有映射,k(k?1) 發(fā)電機(jī)必須經(jīng)過(guò)培訓(xùn)。圖2說(shuō)明了必須如何訓(xùn)練十二個(gè)不同的生成器網(wǎng)絡(luò)以在四個(gè)不同的域之間翻譯圖像。同時(shí),即使存在可以從所有域(如人臉形狀)的圖像中學(xué)習(xí)的全局特征,每個(gè)生成器也無(wú)法充分利用整個(gè)訓(xùn)練數(shù)據(jù),只能從k個(gè)域中的兩個(gè)域中學(xué)習(xí),這是無(wú)效的。未能充分利用訓(xùn)練數(shù)據(jù)可能會(huì)限制生成圖像的質(zhì)量。此外,它們無(wú)法從不同的數(shù)據(jù)集中聯(lián)合訓(xùn)練域,因?yàn)槊總€(gè)數(shù)據(jù)集都有部分標(biāo)記,我們將在第3.2節(jié)中進(jìn)一步討論。

為了解決這些問(wèn)題,我們提出了StarGAN,一種能夠?qū)W習(xí)多個(gè)域之間映射的生成對(duì)抗網(wǎng)絡(luò)。如圖2(b)所示,我們的模型接受多個(gè)域的訓(xùn)練數(shù)據(jù),并僅使用一個(gè)生成器學(xué)習(xí)所有可用域之間的映射。這個(gè)想法很簡(jiǎn)單。我們的模型沒(méi)有學(xué)習(xí)固定的翻譯(例如,從黑色到金色的頭發(fā)),而是將圖像和域信息作為輸入,并學(xué)習(xí)將輸入圖像靈活地翻譯到相應(yīng)的域中。我們使用標(biāo)簽(例如二進(jìn)制或onehot向量)來(lái)表示域信息。在訓(xùn)練過(guò)程中,我們隨機(jī)生成目標(biāo)域標(biāo)簽,并訓(xùn)練模型將輸入圖像靈活地轉(zhuǎn)換到目標(biāo)域。通過(guò)這樣做,我們可以控制域標(biāo)簽,并在測(cè)試階段將圖像轉(zhuǎn)換為任何所需的域。
我們還介紹了一種簡(jiǎn)單但有效的方法,通過(guò)在域標(biāo)簽中添加掩碼向量來(lái)實(shí)現(xiàn)不同數(shù)據(jù)集的域之間的聯(lián)合訓(xùn)練。我們提出的方法確保了該模型可以忽略未知標(biāo)簽,并專(zhuān)注于特定數(shù)據(jù)集提供的標(biāo)簽。通過(guò)這種方式,我們的模型可以很好地執(zhí)行任務(wù),例如合成CelebA圖像的面部表情(a)跨域模型21 4 3 G21 G12 G41 G14 G32 G23 G34 G43 2 1 5 4 3(b)StarGAN圖2。跨域模型與我們提出的StarGAN模型之間的比較。(a) 為了處理多個(gè)域,應(yīng)該為每一對(duì)圖像域建立跨域模型。(b) StarGAN能夠使用單個(gè)生成器學(xué)習(xí)多個(gè)域之間的映射。該圖表示連接多個(gè)域的星形拓?fù)洹?/p>

從RaFD學(xué)習(xí)的ing特征,如圖1最右邊的列所示。據(jù)我們所知,我們的工作是第一次成功地跨不同數(shù)據(jù)集執(zhí)行多域圖像翻譯。

總的來(lái)說(shuō),我們的貢獻(xiàn)如下:

  • 我們提出了StarGAN,這是一種新的生成對(duì)抗網(wǎng)絡(luò),它僅使用單個(gè)生成器和鑒別器學(xué)習(xí)多個(gè)域之間的映射,并從所有域的圖像中進(jìn)行有效訓(xùn)練
  • 我們演示了如何利用掩碼向量方法成功學(xué)習(xí)多個(gè)數(shù)據(jù)集之間的多域圖像轉(zhuǎn)換,該方法使StarGAN能夠控制所有可用的域標(biāo)簽
  • 我們使用StarGAN提供了人臉屬性轉(zhuǎn)移和人臉表情合成任務(wù)的定性和定量結(jié)果,顯示了其優(yōu)于基線模型。

    [圖2:跨域模型與我們提出的StarGAN模型之間的比較。(a) 為了處理多個(gè)域,應(yīng)該為每一對(duì)圖像域建立跨域模型。(b) StarGAN能夠使用單個(gè)生成器學(xué)習(xí)多個(gè)域之間的映射。該圖表示連接多個(gè)域的星形拓?fù)洹

2. Related Work

生成性對(duì)抗網(wǎng)絡(luò)。生成對(duì)抗網(wǎng)絡(luò)(GAN)[3]在各種計(jì)算機(jī)視覺(jué)任務(wù)中取得了顯著的成果,如圖像生成[1、6、23、31]、圖像翻譯[7、8、32]、超分辨率成像[13]和人臉圖像合成[9、15、25、30]。典型的氮化鎵模型由兩個(gè)模塊組成:鑒別器和發(fā)生器。鑒別器學(xué)習(xí)區(qū)分真實(shí)和虛假樣本,而生成器學(xué)習(xí)生成與真實(shí)樣本無(wú)法區(qū)分的虛假樣本。我們的方法還利用了對(duì)抗性損失,使生成的圖像盡可能逼真。
有條件的GAN。基于GAN的條件圖像生成也得到了積極的研究。先前的研究為鑒別器和生成器提供了類(lèi)信息,以便生成以類(lèi)為條件的樣本[19, 20, 21]. 最近的其他方法側(cè)重于生成與給定文本描述高度相關(guān)的特定圖像[24,29]。條件圖像生成的思想也已成功應(yīng)用于域轉(zhuǎn)移[8,27]、超分辨率成像[13]和照片編輯[2,26]。在本文中,我們提出了一種可擴(kuò)展的GAN框架,通過(guò)提供條件域信息,可以靈活地將圖像轉(zhuǎn)換到各種目標(biāo)域。
圖像到圖像的翻譯。最近的工作在圖像到圖像的翻譯方面取得了令人印象深刻的成果[7、8、16、32]。例如,pix2pix[7]使用CGAN[19]以有監(jiān)督的方式學(xué)習(xí)該任務(wù)。它將對(duì)抗性損失與L1損失相結(jié)合,因此需要成對(duì)的數(shù)據(jù)樣本。為了緩解獲取數(shù)據(jù)對(duì)的問(wèn)題,提出了未配對(duì)圖像到圖像的翻譯框架[8、16、32]。單元[16]將變分自動(dòng)編碼器(V AEs)[11]與CoGAN[17]相結(jié)合,CoGAN[17]是一種GAN框架,其中兩個(gè)生成器共享權(quán)重,以學(xué)習(xí)圖像在跨域中的聯(lián)合分布。CycleGAN[32]和DiscoGAN[8]利用循環(huán)一致性損失來(lái)保留輸入和翻譯圖像之間的關(guān)鍵屬性。然而,所有這些框架一次只能學(xué)習(xí)兩個(gè)不同領(lǐng)域之間的關(guān)系。他們的方法在處理多個(gè)域時(shí)具有有限的可擴(kuò)展性,因?yàn)閼?yīng)該為每對(duì)域訓(xùn)練不同的模型。與上述方法不同,我們的框架可以?xún)H使用單個(gè)模型來(lái)學(xué)習(xí)多個(gè)領(lǐng)域之間的關(guān)系。

[圖3。StarGAN的概述,由兩個(gè)模塊組成,一個(gè)鑒別器D和一個(gè)生成器G。(a)D學(xué)習(xí)區(qū)分真實(shí)圖像和虛假圖像,并將真實(shí)圖像分類(lèi)到其相應(yīng)的域。(b) G接收?qǐng)D像和目標(biāo)域標(biāo)簽作為輸入,并生成假圖像。目標(biāo)域標(biāo)簽在空間上復(fù)制并與輸入圖像連接。(c) G嘗試從給定原始域標(biāo)簽的偽圖像重建原始圖像。(d) G試圖生成與真實(shí)圖像無(wú)法區(qū)分的圖像,并通過(guò)d分類(lèi)為目標(biāo)域]

3. Star Generative Adversarial Networks

我們首先描述了我們提出的StarGAN,一個(gè)在單個(gè)數(shù)據(jù)集中解決多域圖像到圖像轉(zhuǎn)換的框架。然后,我們討論了StarGAN如何整合包含不同標(biāo)簽集的多個(gè)數(shù)據(jù)集,以便使用這些標(biāo)簽中的任何一個(gè)靈活地執(zhí)行圖像翻譯。

3.1. Multi-Domain Image-to-Image Translation

我們的目標(biāo)是訓(xùn)練學(xué)習(xí)多個(gè)域之間映射的單個(gè)生成器G。為了實(shí)現(xiàn)這一點(diǎn),我們訓(xùn)練G將輸入圖像x轉(zhuǎn)換為以目標(biāo)域標(biāo)簽c,G(x,c)為條件的輸出圖像y→ y、 我們隨機(jī)生成目標(biāo)域標(biāo)簽c,以便G學(xué)習(xí)靈活地翻譯輸入圖像。我們還引入了一個(gè)輔助分類(lèi)器[21],它允許單個(gè)鑒別器控制多個(gè)域。也就是說(shuō),我們的鑒別器在信源和域標(biāo)簽上產(chǎn)生概率分布,D:x→ {Dsrc(x),Dcls(x)}。圖3說(shuō)明了我們提出的方法的訓(xùn)練過(guò)程。

對(duì)抗性損失。為了使生成的圖像與真實(shí)圖像無(wú)法區(qū)分,我們采用了對(duì)抗性損失:

其中,G生成以輸入圖像x和目標(biāo)域標(biāo)簽c為條件的圖像G(x,c),而D試圖區(qū)分真實(shí)圖像和虛假圖像。在本文中,我們將術(shù)語(yǔ)Dsrc(x)稱(chēng)為D給出的信源上的概率分布。生成器G試圖將該目標(biāo)最小化38791,而鑒別器D試圖將其最大化。

域分類(lèi)丟失。對(duì)于給定的輸入圖像x和目標(biāo)域標(biāo)簽c,我們的目標(biāo)是將x轉(zhuǎn)換為輸出圖像y,該圖像y被正確分類(lèi)到目標(biāo)域c。為了實(shí)現(xiàn)此條件,我們?cè)贒的頂部添加了一個(gè)輔助分類(lèi)器,并在優(yōu)化D和G時(shí)施加域分類(lèi)損失。也就是說(shuō),我們將目標(biāo)分解為兩項(xiàng):用于優(yōu)化D的真實(shí)圖像的域分類(lèi)損失和用于優(yōu)化G的虛假圖像的域分類(lèi)損失。具體而言,前者定義為:

其中,術(shù)語(yǔ)Dcls(c′|x)表示由D計(jì)算的域標(biāo)簽上的概率分布。通過(guò)最小化該目標(biāo),D學(xué)習(xí)將真實(shí)圖像x分類(lèi)到其相應(yīng)的原始域c′。我們假設(shè)輸入圖像和域標(biāo)簽對(duì)(x,c′)由訓(xùn)練數(shù)據(jù)給出。另一方面,偽圖像域分類(lèi)的損失函數(shù)定義為:

重建損失。通過(guò)最小化對(duì)抗和分類(lèi)損失,訓(xùn)練G生成逼真的圖像,并將其分類(lèi)到正確的目標(biāo)域。然而,最小化損失(等式(1)和(3))并不能保證翻譯后的圖像在僅更改輸入的域相關(guān)部分的同時(shí)保留其輸入圖像的內(nèi)容。為了緩解這個(gè)問(wèn)題,我們對(duì)生成器應(yīng)用了循環(huán)一致性損失[8,32],定義為:

其中,G以翻譯圖像G(x,c)和原始域標(biāo)簽c′作為輸入,并嘗試重建原始圖像x。我們采用L1范數(shù)作為重建損失。注意,我們使用單個(gè)生成器兩次,首先將原始圖像轉(zhuǎn)換為目標(biāo)域中的圖像,然后從轉(zhuǎn)換后的圖像重建原始圖像。
全面目標(biāo)。最后,分別編寫(xiě)優(yōu)化G和D的目標(biāo)函數(shù),如下所示:

其中λcls和λrec是超參數(shù),分別控制域分類(lèi)和重建損失相對(duì)于對(duì)抗損失的相對(duì)重要性。我們?cè)谒袑?shí)驗(yàn)中使用λcls=1和λrec=10。

3.2. Training with Multiple Datasets

StarGAN的一個(gè)重要優(yōu)點(diǎn)是,它同時(shí)合并了包含不同類(lèi)型標(biāo)簽的多個(gè)數(shù)據(jù)集,因此StarGAN可以在測(cè)試階段控制所有標(biāo)簽。然而,從多個(gè)數(shù)據(jù)集學(xué)習(xí)時(shí)的一個(gè)問(wèn)題是,每個(gè)數(shù)據(jù)集只知道部分標(biāo)簽信息。在CelebA[18]和RaFD[12]的情況下,前者包含諸如頭發(fā)顏色和性別等屬性的標(biāo)簽,但它沒(méi)有任何諸如“高興”和“憤怒”等面部表情的標(biāo)簽,反之亦然。這是有問(wèn)題的,因?yàn)楫?dāng)從翻譯圖像G(x,c)重建輸入圖像x時(shí),需要標(biāo)簽向量c′上的完整信息(參見(jiàn)等式(4))。

**掩碼向量。**為了緩解這個(gè)問(wèn)題,我們引入了掩碼向量m,該向量允許StarGAN忽略未指定的標(biāo)簽,并專(zhuān)注于特定數(shù)據(jù)集提供的顯式已知標(biāo)簽。在StarGAN中,我們使用n維一維熱向量來(lái)表示m,其中n是數(shù)據(jù)集的數(shù)量。此外,我們將標(biāo)簽的統(tǒng)一版本定義為向量。

其中[·]表示串聯(lián),ci表示第i個(gè)數(shù)據(jù)集標(biāo)簽的向量。已知標(biāo)簽ci的向量可以表示為二進(jìn)制屬性的二進(jìn)制向量或分類(lèi)屬性的單熱向量。對(duì)于剩余的n?1未知標(biāo)簽我們只分配零值。在我們的實(shí)驗(yàn)中,我們利用了CelebA和RaFD數(shù)據(jù)集,其中n為2。
培訓(xùn)策略。當(dāng)使用多個(gè)數(shù)據(jù)集訓(xùn)練StarGAN時(shí),我們使用等式(7)中定義的域標(biāo)簽▄c作為生成器的輸入。通過(guò)這樣做,生成器學(xué)習(xí)忽略未指定的標(biāo)簽(零向量),并專(zhuān)注于顯式給定的標(biāo)簽。生成器的結(jié)構(gòu)與使用單個(gè)數(shù)據(jù)集進(jìn)行訓(xùn)練時(shí)的結(jié)構(gòu)完全相同,但輸入標(biāo)簽的維數(shù)除外。另一方面,我們擴(kuò)展了鑒別器的輔助分類(lèi)器,以生成所有數(shù)據(jù)集標(biāo)簽上的概率分布。然后,我們?cè)诙嗳蝿?wù)學(xué)習(xí)環(huán)境中訓(xùn)練模型,其中鑒別器嘗試僅最小化與已知標(biāo)簽相關(guān)的分類(lèi)錯(cuò)誤。例如,當(dāng)使用CelebA中的圖像進(jìn)行訓(xùn)練時(shí),鑒別器僅最小化與CelebA屬性相關(guān)的標(biāo)簽的分類(lèi)錯(cuò)誤,而不最小化與RaFD相關(guān)的面部表情。在這些設(shè)置下,通過(guò)在CelebA和RaFD之間交替,鑒別器學(xué)習(xí)兩個(gè)數(shù)據(jù)集中的所有判別特征,生成器學(xué)習(xí)控制兩個(gè)數(shù)據(jù)集中的所有標(biāo)簽。

4. Implementation

改進(jìn)了GAN訓(xùn)練。為了穩(wěn)定訓(xùn)練過(guò)程并生成更高質(zhì)量的圖像,我們將等式(1)替換為具有梯度懲罰[1,4]的Wasserstein-GAN目標(biāo),定義為:

其中?x沿一對(duì)真實(shí)圖像和生成圖像之間的直線均勻采樣。我們?cè)谒袑?shí)驗(yàn)中使用λgp=10。

**網(wǎng)絡(luò)架構(gòu)。**改編自[32],StarGAN具有由兩個(gè)步長(zhǎng)為2的卷積層(用于下采樣)、六個(gè)殘差塊[5]和兩個(gè)步長(zhǎng)為2的轉(zhuǎn)置卷積層(用于上采樣)組成的生成器網(wǎng)絡(luò)。我們對(duì)生成器使用實(shí)例歸一化[28],但對(duì)鑒別器不使用歸一化。我們利用PatchGANs[7,14,32]作為鑒別器網(wǎng)絡(luò),該網(wǎng)絡(luò)將局部圖像補(bǔ)丁劃分為真實(shí)還是虛假。見(jiàn)附錄(第節(jié))有關(guān)網(wǎng)絡(luò)架構(gòu)的更多詳細(xì)信息。

5. Experiments

在本節(jié)中,我們首先通過(guò)進(jìn)行用戶(hù)研究,將StarGAN與最近的人臉屬性轉(zhuǎn)移方法進(jìn)行比較。接下來(lái),我們對(duì)面部表情合成進(jìn)行了分類(lèi)實(shí)驗(yàn)。最后,我們證明了實(shí)驗(yàn)結(jié)果,StarGAN可以從多個(gè)數(shù)據(jù)集學(xué)習(xí)圖像到圖像的翻譯。我們的所有實(shí)驗(yàn)都是在訓(xùn)練階段使用從看不見(jiàn)的圖像中輸出的模型進(jìn)行的。

5.1. Baseline Models

作為我們的基線模型,我們采用DIA T[15]和CycleGAN[32],這兩種模型都在兩個(gè)不同的域之間執(zhí)行圖像到圖像的轉(zhuǎn)換。為了進(jìn)行比較,我們針對(duì)兩個(gè)不同領(lǐng)域的每一對(duì)對(duì)對(duì)這些模型進(jìn)行了多次訓(xùn)練。我們還采用IcGAN[22]作為基線,可以使用cGAN[21]執(zhí)行屬性轉(zhuǎn)移。

DIAT使用對(duì)抗性損失從x學(xué)習(xí)映射∈ X到y(tǒng)∈ Y,其中x和Y分別是兩個(gè)不同域x和Y中的人臉圖像。該方法在映射上有一個(gè)正則項(xiàng),即| | x? F(G(x))||1保留源圖像的身份特征,其中F是在人臉識(shí)別任務(wù)中預(yù)訓(xùn)練的特征提取器。

CycleGAN還使用對(duì)抗損失來(lái)學(xué)習(xí)兩個(gè)不同域X和Y之間的映射。該方法通過(guò)循環(huán)一致性損失| | x正則化映射? (GY X(GXY(X)))|1和||y? (GXY(GY X(y))||1。該方法需要兩個(gè)生成器和鑒別器,用于兩個(gè)不同域的每對(duì)。

IcGAN將編碼器與cGAN[21]模型相結(jié)合。cGAN學(xué)習(xí)映射G:{z,c}→ x生成以潛在向量z和條件向量c為條件的圖像x。此外,IcGAN引入編碼器來(lái)學(xué)習(xí)cGAN的逆映射,Ez:x→ z和Ec:x→ c、 這使得IcGAN只需改變條件向量并保留潛在向量即可合成圖像。

5.2. Datasets

CelebA.。CelebFaces Attributes(CelebA)數(shù)據(jù)集[18]包含202599張名人的面部圖像,每個(gè)圖像都帶有40個(gè)二進(jìn)制屬性的注釋。我們將最初的178×218大小的圖像裁剪為178×178,然后將其調(diào)整為128×128。我們隨機(jī)選擇2000幅圖像作為測(cè)試集,并使用所有剩余圖像作為訓(xùn)練數(shù)據(jù)。我們使用以下屬性構(gòu)建了七個(gè)域:頭發(fā)顏色(黑色、金色、棕色)、性別(男性/女性)和年齡(年輕/老年)。

RaFD.Radboud人臉數(shù)據(jù)庫(kù)(RaFD)[12]由從67名參與者收集的4824張圖像組成。每個(gè)參與者在三個(gè)不同的注視方向上做出八個(gè)面部表情,從三個(gè)不同的角度捕捉。我們將圖像裁剪為256×256,其中面居中,然后將其大小調(diào)整為128×128。

5.3. Training

所有模型均使用Adam[10]進(jìn)行訓(xùn)練,β1=0.5,β2=0.999。對(duì)于數(shù)據(jù)增強(qiáng),我們以0.5的概率水平翻轉(zhuǎn)圖像。我們?cè)谖宕舞b別器更新之后執(zhí)行一次生成器更新,如[4]所示。所有實(shí)驗(yàn)的批量大小都設(shè)置為16。對(duì)于CelebA的實(shí)驗(yàn),我們?cè)谇?0個(gè)階段以0.0001的學(xué)習(xí)率訓(xùn)練所有模型,并在接下來(lái)的10個(gè)階段將學(xué)習(xí)率線性衰減為0。為了彌補(bǔ)數(shù)據(jù)的不足,當(dāng)使用RaFD進(jìn)行訓(xùn)練時(shí),我們以0.0001的學(xué)習(xí)率訓(xùn)練100個(gè)時(shí)代的所有模型,并在接下來(lái)的100個(gè)時(shí)代應(yīng)用相同的衰減策略。在單個(gè)NVIDIA Tesla M40 GPU上進(jìn)行培訓(xùn)大約需要一天。

5.4. Experimental Results on CelebA

我們首先在單屬性和多屬性傳輸任務(wù)上將我們提出的方法與基線模型進(jìn)行比較。考慮到所有可能的屬性值對(duì),我們多次訓(xùn)練跨域模型,如DIAT和CycleGAN。在DIAT和CycleGAN的情況下,我們執(zhí)行多步驟翻譯來(lái)合成多個(gè)屬性(例如,在改變頭發(fā)顏色后轉(zhuǎn)移性別屬性)。

定性評(píng)估。圖4顯示了CelebA上的面部屬性轉(zhuǎn)移結(jié)果。我們觀察到,與跨域模型相比,我們的方法在測(cè)試數(shù)據(jù)上提供了更高的視覺(jué)質(zhì)量的翻譯結(jié)果。一個(gè)可能的原因是StarGAN通過(guò)多任務(wù)學(xué)習(xí)框架的正則化效應(yīng)。換句話說(shuō),我們訓(xùn)練模型根據(jù)目標(biāo)域的標(biāo)簽靈活地翻譯圖像,而不是訓(xùn)練模型執(zhí)行固定的翻譯(例如棕色到金色的頭發(fā)),這容易過(guò)度擬合。這使得我們的模型能夠?qū)W習(xí)普遍適用于具有不同面部屬性值的多個(gè)圖像域的可靠特征。

此外,與IcGAN相比,我們的模型在保留輸入的面部身份特征方面具有優(yōu)勢(shì)。我們推測(cè)這是因?yàn)槲覀兊姆椒ㄍㄟ^(guò)使用卷積層的激活圖作為潛在表示來(lái)維護(hù)空間信息,而不是像IcGAN中那樣僅使用低維潛在向量。

定量評(píng)估協(xié)議。為了進(jìn)行定量評(píng)估,我們使用Amazon Mechanical Turk(AMT)以調(diào)查的形式進(jìn)行了兩項(xiàng)用戶(hù)研究,以評(píng)估單屬性和多屬性轉(zhuǎn)移任務(wù)。給定輸入圖片,指示Turkers根據(jù)感知真實(shí)感、屬性傳遞質(zhì)量和人物原始身份的保留來(lái)選擇生成的最佳圖像。選項(xiàng)是由四種不同方法生成的四個(gè)隨機(jī)洗牌圖像。在一項(xiàng)研究中,生成的圖像在頭發(fā)顏色(黑色、金色、棕色)、性別或年齡方面具有單一屬性轉(zhuǎn)換。在另一項(xiàng)研究中,生成的圖像涉及屬性轉(zhuǎn)換的組合。每個(gè)土耳其人都被問(wèn)了30到40個(gè)問(wèn)題,還有幾個(gè)簡(jiǎn)單但合乎邏輯的問(wèn)題,以驗(yàn)證人類(lèi)的努力。在單個(gè)和多個(gè)轉(zhuǎn)移任務(wù)中,每個(gè)用戶(hù)研究中驗(yàn)證的Turker數(shù)分別為146和100。



定量結(jié)果。表1和表2分別顯示了我們?cè)趩螌傩院投鄬傩赞D(zhuǎn)移任務(wù)上的AMT實(shí)驗(yàn)結(jié)果。斯塔根在所有情況下都獲得了最佳轉(zhuǎn)移屬性的多數(shù)選票。在表1中的性別變化情況下,我們的模型與其他模型之間的投票差異很小,例如,StarGAN的投票率為39.1%,DIA T的投票率為31.4%。然而,在多屬性變化情況下,例如表2中的“g+A”情況,性能差異變得顯著,例如,StarGAN的投票率為49.8%,IcGAN的投票率為20.3%),這清楚地表明了StarGAN在更復(fù)雜、,多屬性傳輸任務(wù)。這是因?yàn)榕c其他方法不同,StarGAN可以通過(guò)在訓(xùn)練階段隨機(jī)生成目標(biāo)域標(biāo)簽來(lái)處理涉及多個(gè)屬性變化的圖像轉(zhuǎn)換。

5.5. Experimental Results on RaFD

接下來(lái),我們?cè)赗aFD數(shù)據(jù)集上訓(xùn)練我們的模型,以學(xué)習(xí)合成面部表情的任務(wù)。為了比較StarGAN模型和基線模型,我們將輸入域固定為“中性”表達(dá)式,但目標(biāo)域在其余七個(gè)表達(dá)式中有所不同。

定性評(píng)估。如圖5所示,StarGAN在正確保持輸入的個(gè)人身份和面部特征的同時(shí),清楚地生成最自然的表情。雖然DIA T和CycleGAN大多保留了輸入的身份,但他們的許多結(jié)果顯示模糊,無(wú)法保持輸入中的清晰度。IcGAN甚至無(wú)法通過(guò)生成男性形象來(lái)保持形象中的個(gè)人身份。

我們認(rèn)為,StarGAN在圖像質(zhì)量方面的優(yōu)勢(shì)是由于其在多任務(wù)學(xué)習(xí)環(huán)境中的隱式數(shù)據(jù)增強(qiáng)效應(yīng)。RaFD圖像包含相對(duì)較小的樣本大小,例如,每個(gè)域包含500個(gè)圖像。當(dāng)在兩個(gè)域上訓(xùn)練時(shí),DIA T和CycleGAN一次只能使用1000個(gè)訓(xùn)練圖像,但StarGAN可以使用所有可用域中的4000個(gè)圖像進(jìn)行訓(xùn)練。這使StarGAN能夠正確地學(xué)習(xí)如何保持生成輸出的質(zhì)量和清晰度。

定量評(píng)估。為了定量評(píng)估,我們計(jì)算了合成圖像上人臉表情的分類(lèi)誤差。我們使用ResNet-18架構(gòu)[5]在RaFD數(shù)據(jù)集上訓(xùn)練面部表情分類(lèi)器(90%/10%分割用于訓(xùn)練集和測(cè)試集),獲得接近完美的準(zhǔn)確率99.55%。然后,我們使用相同的訓(xùn)練集訓(xùn)練每個(gè)圖像翻譯模型,78795在相同的、看不見(jiàn)的測(cè)試集上執(zhí)行圖像翻譯。最后,我們使用上述分類(lèi)器對(duì)這些翻譯圖像的表達(dá)進(jìn)行分類(lèi)。如表3所示,我們的模型實(shí)現(xiàn)了最低的分類(lèi)誤差,這表明我們的模型在所有比較的方法中產(chǎn)生了最真實(shí)的面部表情。

我們模型的另一個(gè)重要優(yōu)點(diǎn)是在所需參數(shù)數(shù)量方面的可擴(kuò)展性。表3的最后一列顯示,StarGAN學(xué)習(xí)所有翻譯所需的參數(shù)數(shù)量比DIA T小7倍,比CycleGAN小14倍。這是因?yàn)镾tarGAN只需要一個(gè)生成器和鑒別器對(duì),而與域的數(shù)量無(wú)關(guān),而在跨域模型(如CycleGAN)的情況下,應(yīng)為每個(gè)源-目標(biāo)域?qū)τ?xùn)練完全不同的模型。

5.6. Experimental Results on CelebA+RaFD

最后,我們實(shí)證證明,我們的模型不僅可以從單個(gè)數(shù)據(jù)集中的多個(gè)領(lǐng)域?qū)W習(xí),還可以從多個(gè)數(shù)據(jù)集中學(xué)習(xí)。我們使用掩碼向量在CelebA和RaFD數(shù)據(jù)集上聯(lián)合訓(xùn)練我們的模型(見(jiàn)第3.2節(jié))。為了區(qū)分僅在RaFD上訓(xùn)練的模型和同時(shí)在CelebA和RaFD上訓(xùn)練的模型,我們將前者表示為StarGAN SNG(單個(gè)),后者表示為StarGAN JNT(聯(lián)合)。

聯(lián)合訓(xùn)練的效果。圖6顯示了StarGAN SNG和StarGAN JNT之間的定性比較,其中任務(wù)是在CelebA中合成圖像的面部表情。StarGAN JNT展示了高視覺(jué)質(zhì)量的情感表達(dá),而StarGAN SNG生成了合理但模糊的灰色背景圖像。這種差異是由于StarGAN JNT在訓(xùn)練期間學(xué)習(xí)翻譯CelebA圖像,而不是StarGAN SNG。換句話說(shuō),StarGAN JNT可以利用這兩個(gè)數(shù)據(jù)集來(lái)改進(jìn)共享的低級(jí)任務(wù),例如面部關(guān)鍵點(diǎn)檢測(cè)和分割。通過(guò)同時(shí)利用CelebA和RaFD,StarGAN JNT可以改進(jìn)這些低級(jí)任務(wù),這有利于學(xué)習(xí)面部表情合成。

學(xué)習(xí)了掩碼向量的作用。在本實(shí)驗(yàn)中,我們通過(guò)將特定面部表情的維度(可從第二個(gè)數(shù)據(jù)集RaFD獲得)設(shè)置為1。在這種情況下,由于明確給出了與第二個(gè)數(shù)據(jù)集相關(guān)聯(lián)的標(biāo)簽,因此適當(dāng)?shù)难诖a向量將為[0,1]。圖7顯示了給出該正確掩碼向量的情況,以及給出錯(cuò)誤掩碼向量[1,0]的相反情況。當(dāng)使用錯(cuò)誤的掩碼向量時(shí),StarGAN JNT無(wú)法合成面部表情,并且它會(huì)處理輸入圖像的年齡。這是因?yàn)樵撃P秃雎粤宋粗拿娌勘砬闃?biāo)簽,并通過(guò)掩碼向量將面部屬性標(biāo)簽視為有效。請(qǐng)注意,由于其中一個(gè)面部屬性是“年輕的”,因此當(dāng)模型將零向量作為輸入時(shí),它會(huì)將圖像從年輕轉(zhuǎn)換為老年。從這一行為中,我們可以確認(rèn),當(dāng)涉及多個(gè)數(shù)據(jù)集的所有標(biāo)簽時(shí),StarGAN正確地了解了掩碼向量在圖像到圖像翻譯中的預(yù)期作用。

6. Conclusion

在本文中,我們提出了StarGAN,這是一種使用單個(gè)生成器和鑒別器在多個(gè)域之間進(jìn)行可擴(kuò)展的圖像到圖像轉(zhuǎn)換的模型。除了在可擴(kuò)展性方面的優(yōu)勢(shì)外,由于多任務(wù)學(xué)習(xí)設(shè)置背后的泛化能力,與現(xiàn)有方法[15、22、32]相比,StarGAN生成的圖像具有更高的視覺(jué)質(zhì)量。此外,使用擬議的簡(jiǎn)單掩碼向量使StarGAN能夠利用具有不同域標(biāo)簽集的多個(gè)數(shù)據(jù)集,從而處理其中的所有可用標(biāo)簽。我們希望我們的工作能夠讓用戶(hù)跨多個(gè)領(lǐng)域開(kāi)發(fā)有趣的圖像翻譯應(yīng)用程序。

致謝。這項(xiàng)工作主要是在第一作者在NAVER的Clova AI research進(jìn)行研究實(shí)習(xí)時(shí)完成的。我們感謝NAVER的所有研究人員,尤其是郭東玄,他們進(jìn)行了富有洞察力的討論。這項(xiàng)工作得到了韓國(guó)政府(MSIP)資助的韓國(guó)國(guó)家研究基金會(huì)(NRF)撥款的部分支持(編號(hào):NRF2016R1C1B2015924)。周是通訊作者。

References

[1] M. Arjovsky, S. Chintala, and L. Bottou. Wasserstein gen-
erative adversarial networks. In Proceedings of the 34th In-
ternational Conference on Machine Learning (ICML), pages
214–223, 2017. 2, 5
[2] A. Brock, T. Lim, J. M. Ritchie, and N. Weston. Neural
photo editing with introspective adversarial networks. arXiv
preprint arXiv:1609.07093, 2016. 3
[3] I. Goodfellow, J. Pouget-Abadie, M. Mirza, B. Xu,
D. Warde-Farley, S. Ozair, A. Courville, and Y . Bengio. Gen-
erative adversarial nets. In Advances in Neural Information
Processing Systems (NIPS), pages 2672–2680, 2014. 2
[4] I. Gulrajani, F. Ahmed, M. Arjovsky, V . Dumoulin, and
A. Courville. Improved training of wasserstein gans. arXiv
preprint arXiv:1704.00028, 2017. 5, 6
[5] K. He, X. Zhang, S. Ren, and J. Sun. Deep residual learning
for image recognition. In Proceedings of the IEEE confer-
ence on Computer Vision and Pattern Recognition (CVPR),
pages 770–778, 2016. 5, 7
[6] X. Huang, Y . Li, O. Poursaeed, J. Hopcroft, and S. Be-
longie. Stacked generative adversarial networks. In The
IEEE Conference on Computer Vision and Pattern Recog-
nition (CVPR), July 2017. 2
[7] P . Isola, J.-Y . Zhu, T. Zhou, and A. A. Efros. Image-to-image
translation with conditional adversarial networks. In Pro-
ceedings of the IEEE Conference on Computer Vision and
Pattern Recognition (CVPR), 2017. 1, 2, 3, 5
[8] T. Kim, M. Cha, H. Kim, J. K. Lee, and J. Kim. Learning to
discover cross-domain relations with generative adversarial
networks. In Proceedings of the 34th International Confer-
ence on Machine Learning (ICML), pages 1857–1865, 2017.
1, 2, 3, 4
[9] T. Kim, B. Kim, M. Cha, and J. Kim. Unsupervised visual
attribute transfer with reconfigurable generative adversarial
networks. arXiv preprint arXiv:1707.09798, 2017. 2
[10] D. Kingma and J. Ba. Adam: A method for stochastic opti-
mization. arXiv preprint arXiv:1412.6980, 2014. 6
[11] D. P . Kingma and M. Welling. Auto-encoding variational
bayes. In Proceedings of the 2nd International Conference
on Learning Representations (ICLR), 2014. 3
[12] O. Langner, R. Dotsch, G. Bijlstra, D. H. Wigboldus, S. T.
Hawk, and A. V an Knippenberg. Presentation and valida-
tion of the radboud faces database. Cognition and Emotion,
24(8):1377–1388, 2010. 2, 4, 6
[13] C. Ledig, L. Theis, F. Huszar, J. Caballero, A. Cunning-
ham, A. Acosta, A. Aitken, A. Tejani, J. Totz, Z. Wang, and
W. Shi. Photo-realistic single image super-resolution using a
generative adversarial network. In The IEEE Conference on
Computer Vision and Pattern Recognition (CVPR), 2017. 2,
3
[14] C. Li and M. Wand. Precomputed real-time texture synthesis
with markovian generative adversarial networks. In Proceed-
ings of the 14th European Conference on Computer Vision
(ECCV), pages 702–716, 2016. 5
[15] M. Li, W. Zuo, and D. Zhang. Deep identity-aware transfer
of facial attributes. arXiv preprint arXiv:1610.05586, 2016.
2, 5, 8
[16] M.-Y . Liu, T. Breuel, and J. Kautz. Unsupervised
image-to-image translation networks. arXiv preprint
arXiv:1703.00848, 2017. 3
[17] M.-Y . Liu and O. Tuzel. Coupled generative adversarial net-
works. In Advances in Neural Information Processing Sys-
tems (NIPS), pages 469–477, 2016. 3
[18] Z. Liu, P . Luo, X. Wang, and X. Tang. Deep learning face
attributes in the wild. In Proceedings of the IEEE Interna-
tional Conference on Computer Vision (ICCV), 2015. 2, 4,
6
[19] M. Mirza and S. Osindero. Conditional generative adversar-
ial nets. arXiv preprint arXiv:1411.1784, 2014. 3
[20] A. Odena. Semi-supervised learning with generative adver-
sarial networks. arXiv preprint arXiv:1606.01583, 2016. 3
[21] A. Odena, C. Olah, and J. Shlens. Conditional image
synthesis with auxiliary classifier gans. arXiv preprint
arXiv:1610.09585, 2016. 3, 5
[22] G. Perarnau, J. van de Weijer, B. Raducanu, and J. M.
álvarez. Invertible conditional gans for image editing. arXiv
preprint arXiv:1611.06355, 2016. 5, 8
[23] A. Radford, L. Metz, and S. Chintala. Unsupervised repre-
sentation learning with deep convolutional generative adver-
sarial networks. arXiv preprint arXiv:1511.06434, 2015. 2
[24] S. Reed, Z. Akata, X. Yan, L. Logeswaran, B. Schiele, and
H. Lee. Generative adversarial text to image synthesis. arXiv
preprint arXiv:1605.05396, 2016. 3
[25] W. Shen and R. Liu. Learning residual images for face at-
tribute manipulation. In The IEEE Conference on Computer
Vision and Pattern Recognition (CVPR), 2017. 2
[26] Z. Shu, E. Y umer, S. Hadap, K. Sunkavalli, E. Shechtman,
and D. Samaras. Neural face editing with intrinsic image
disentangling. In The IEEE Conference on Computer Vision
and Pattern Recognition (CVPR), 2017. 3
[27] Y . Taigman, A. Polyak, and L. Wolf. Unsupervised cross-
domain image generation. In 5th International Conference
on Learning Representations (ICLR), 2017. 3
[28] D. Ulyanov, A. V edaldi, and V . Lempitsky. Instance normal-
ization: The missing ingredient for fast stylization. arXiv
preprint arXiv:1607.08022, 2016. 5
[29] H. Zhang, T. Xu, H. Li, S. Zhang, X. Huang, X. Wang, and
D. Metaxas. Stackgan: Text to photo-realistic image syn-
thesis with stacked generative adversarial networks. arXiv
preprint arXiv:1612.03242, 2016. 3
[30] Z. Zhang, Y . Song, and H. Qi. Age progression/regression
by conditional adversarial autoencoder. In The IEEE Confer-
ence on Computer Vision and Pattern Recognition (CVPR),
July 2017. 2
[31] J. Zhao, M. Mathieu, and Y . LeCun. Energy-based genera-
tive adversarial network. In 5th International Conference on
Learning Representations (ICLR), 2017. 2
[32] J.-Y . Zhu, T. Park, P . Isola, and A. A. Efros. Unpaired image-
to-image translation using cycle-consistent adversarial net-
works. In Proceedings of the IEEE International Conference
on Computer Vision (ICCV), 2017. 1, 2, 3, 4, 5, 8

總結(jié)

以上是生活随笔為你收集整理的风格迁移篇--StarGAN:用于多域图像到图像翻译的统一生成对抗网络的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。