2018最佳GAN论文回顾(下)
繼上一篇《2018最佳GAN論文回顧(上)》,我又繼續(xù)介紹了一個(gè)對(duì)于GAN的基于樣式的生成器體系結(jié)構(gòu)的新論文,提出了一個(gè)新的模型來(lái)應(yīng)對(duì)這種挑戰(zhàn)。
一種用于生成式對(duì)抗網(wǎng)絡(luò)的基于生成器體系結(jié)構(gòu)的方式(A Style-Based Generator Architecture for Generative Adversarial Networks)
?
這是NVIDIA的一篇新論文,一個(gè)對(duì)于GAN(StyleGAN)的基于樣式的生成器體系結(jié)構(gòu),提出了一個(gè)新的模型來(lái)應(yīng)對(duì)這個(gè)挑戰(zhàn)。StyleGAN是一步一步地生成人工圖像的,從非常低的分辨率開(kāi)始,一直到高分辨率(1024×1024)。通過(guò)分別地修改網(wǎng)絡(luò)中每個(gè)級(jí)別的輸入,它可以控制在該級(jí)別中所表示的視覺(jué)特征,從粗糙的特征(姿勢(shì)、面部形狀)到精細(xì)的細(xì)節(jié)(頭發(fā)顏色),而不會(huì)影響其它的級(jí)別。
這種技術(shù)不僅可以更好地理解所生成的輸出,而且還可以產(chǎn)生最高水平的結(jié)果?—?比以前生成的圖像看起來(lái)更加真實(shí)的高分辨率圖像。
?
2018年NVIDIA首次使用ProGAN應(yīng)對(duì)這一挑戰(zhàn)時(shí),研究人員都無(wú)法生成高質(zhì)量的大圖像(如:1024×1024)。ProGAN的關(guān)鍵創(chuàng)新點(diǎn)是漸進(jìn)式訓(xùn)練?—?它首先使用非常低分辨率的圖像(如:4×4)開(kāi)始訓(xùn)練生成器和識(shí)別器,并且每次都增加一個(gè)更高分辨率的網(wǎng)絡(luò)層。
這項(xiàng)技術(shù)首先通過(guò)學(xué)習(xí)即使在低分辨率圖像中也可以顯示的基本特征,來(lái)創(chuàng)建圖像的基本部分,并且隨著分辨率的提高和時(shí)間的推移,學(xué)習(xí)越來(lái)越多的細(xì)節(jié)。低分辨率圖像的訓(xùn)練不僅簡(jiǎn)單、快速,而且有助于更高級(jí)別的訓(xùn)練,因此,整體的訓(xùn)練也就更快。
ProGAN生成高質(zhì)量的圖像,但與大多數(shù)模型一樣,它控制所生成圖像的特定特征的能力非常有限。換句話說(shuō),這些特性是互相關(guān)聯(lián)的,因此嘗試調(diào)整一下輸入,即使是一點(diǎn)兒,通常也會(huì)同時(shí)影響多個(gè)特性。一個(gè)很好的類(lèi)比就是基因組,在其中改變一個(gè)基因可能影響多個(gè)特性。
?
StyleGAN如何工作
StyleGAN論文提供了一個(gè)升級(jí)版本的ProGAN圖像生成器,重點(diǎn)關(guān)注生成器網(wǎng)絡(luò)。作者們觀察到ProGAN漸進(jìn)層的一個(gè)潛在的好處是,如果使用得當(dāng),它們能夠控制圖像的不同視覺(jué)特征。層和分辨率越低,它所影響的特征就越粗糙。本文將這些特征分為三種類(lèi)型:
1、粗糙的—分辨率最高82,影響姿勢(shì)、一般發(fā)型、面部形狀等;
2、中等的—分辨率為162至322,影響更精細(xì)的面部特征、發(fā)型、眼睛的睜開(kāi)或是閉合等;
3、高質(zhì)的—分辨率為642到10242,影響顏色方案(眼睛、頭發(fā)和皮膚)和微觀特征;
除ProGAN生成器之外的一些:
映射網(wǎng)絡(luò)
映射網(wǎng)絡(luò)的目標(biāo)是將輸入向量編碼為中間向量,中間向量的不同元素控制不同的視覺(jué)特征。這是一個(gè)非常重要的過(guò)程,因?yàn)槭褂幂斎胂蛄縼?lái)控制視覺(jué)特征的能力是非常有限的,因?yàn)樗仨氉裱?xùn)練數(shù)據(jù)的概率密度。例如,如果黑頭發(fā)的人的圖像在數(shù)據(jù)集中更常見(jiàn),那么更多的輸入值將會(huì)被映射到該特征上。因此,該模型無(wú)法將部分輸入(向量中的元素)映射到特征上,這一現(xiàn)象被稱(chēng)為特征糾纏。然而,通過(guò)使用另一個(gè)神經(jīng)網(wǎng)絡(luò),該模型可以生成一個(gè)不必遵循訓(xùn)練數(shù)據(jù)分布的向量,并且可以減少特征之間的相關(guān)性。
映射網(wǎng)絡(luò)由8個(gè)全連接的層組成,它的輸出?與輸入層(512×1)的大小相同。
?
樣式模塊(AdaIN)
AdaIN(自適應(yīng)實(shí)例標(biāo)準(zhǔn)化)模塊將映射網(wǎng)絡(luò)創(chuàng)建的編碼信息?傳輸?shù)缴傻膱D像中。該模塊被添加到合成網(wǎng)絡(luò)的每個(gè)分辨率級(jí)別中,并定義該級(jí)別中特征的可視化表達(dá)式:
1、卷積層輸出的每個(gè)通道首先進(jìn)行標(biāo)準(zhǔn)化,以確保步驟3的縮放和切換具有預(yù)期的效果;
2、中間向量?使用另一個(gè)全連接的網(wǎng)絡(luò)層(標(biāo)記為A)轉(zhuǎn)換為每個(gè)通道的比例和偏差;
3、比例和偏差的向量切換卷積輸出的每個(gè)通道,從而定義卷積中每個(gè)過(guò)濾器的重要性。這個(gè)調(diào)優(yōu)操作將信息從?轉(zhuǎn)換為可視的表達(dá)方式;
?
刪除傳統(tǒng)輸入
大多數(shù)的模型以及其中的ProGAN使用隨機(jī)輸入來(lái)創(chuàng)建生成器的初始圖像(即4×4級(jí)別的輸入)。StyleGAN團(tuán)隊(duì)發(fā)現(xiàn)圖像特征是由?和AdaIN控制的,因此可以忽略初始輸入,并用常量值替代。雖然本文沒(méi)有解釋它為什么能提高性能,但一個(gè)保險(xiǎn)的假設(shè)是它減少了特征糾纏,對(duì)于網(wǎng)絡(luò)在只使用?而不依賴(lài)于糾纏輸入向量的情況下更容易學(xué)習(xí)。
?
隨機(jī)變化
人們的臉上有許多小的特征,可以看作是隨機(jī)的,例如:雀斑、發(fā)髻線的準(zhǔn)確位置、皺紋、使圖像更逼真的特征以及各種增加輸出的變化。將這些小特征插入GAN圖像的常用方法是在輸入向量中添加隨機(jī)噪聲。然而,在許多情況下,由于上述特征的糾纏現(xiàn)象,控制噪聲的影響是很復(fù)雜的,從而會(huì)導(dǎo)致圖像的其它特征受到影響。
StyleGAN中的噪聲以類(lèi)似于AdaIN機(jī)制的方式添加,在AdaIN模塊之前向每個(gè)通道添加一個(gè)縮放過(guò)的噪聲,并稍微改變其操作的分辨率級(jí)別特征的視覺(jué)表達(dá)方式。
?
樣式混合
StyleGAN生成器在合成網(wǎng)絡(luò)的每個(gè)級(jí)別中使用了中間向量,這有可能導(dǎo)致網(wǎng)絡(luò)學(xué)習(xí)到這些級(jí)別是相關(guān)的。為了降低相關(guān)性,模型隨機(jī)選擇兩個(gè)輸入向量,并為它們生成了中間向量?。然后,它用第一個(gè)輸入向量來(lái)訓(xùn)練一些網(wǎng)絡(luò)級(jí)別,然后(在一個(gè)隨機(jī)點(diǎn)中)切換到另一個(gè)輸入向量來(lái)訓(xùn)練其余的級(jí)別。隨機(jī)的切換確保了網(wǎng)絡(luò)不會(huì)學(xué)習(xí)并依賴(lài)于一個(gè)合成網(wǎng)絡(luò)級(jí)別之間的相關(guān)性。
雖然它并不會(huì)提高所有數(shù)據(jù)集上的模型性能,但是這個(gè)概念有一個(gè)非常有趣的副作用?—?它能夠以一種連貫的方式來(lái)組合多個(gè)圖像(視頻請(qǐng)查看原文)。該模型生成了兩個(gè)圖像A和B,然后通過(guò)從A中提取低級(jí)別的特征并從B中提取其余特征再組合這兩個(gè)圖像。
在W中的截取技巧
在生成模型中的一個(gè)挑戰(zhàn),是處理在訓(xùn)練數(shù)據(jù)中表現(xiàn)不佳的地方。這導(dǎo)致了生成器無(wú)法學(xué)習(xí)和創(chuàng)建與它們類(lèi)似的圖像(相反,它會(huì)創(chuàng)建效果不好的圖像)。為了避免生成較差的圖像,StyleGAN截?cái)嗔酥虚g向量?,迫使它保持接近“平均”的中間向量。
對(duì)模型進(jìn)行訓(xùn)練之后,通過(guò)選擇多個(gè)隨機(jī)的輸入,用映射網(wǎng)絡(luò)生成它們的中間向量,并計(jì)算這些向量的平均值,從而生成“平均”的平均值?。當(dāng)生成新的圖像時(shí),不用直接使用映射網(wǎng)絡(luò)的輸出,而是將值?轉(zhuǎn)換為?_new=?_avg+�(??-?_avg),其中�的值定義了圖像與“平均”圖像的差異量(以及輸出的多樣性)。有趣的是,在仿射轉(zhuǎn)換塊之前,通過(guò)對(duì)每個(gè)級(jí)別使用不同的�,模型可以控制每個(gè)特征集與平均值的差異量。
微調(diào)
在ProGAN上,StyleGAN的另外一個(gè)改進(jìn)措施是更新幾個(gè)網(wǎng)絡(luò)超參數(shù),例如訓(xùn)練持續(xù)時(shí)間和損失函數(shù),并將離得最近的放大或縮小尺度替換為雙線性采樣。
?
結(jié)果
本文介紹了兩個(gè)數(shù)據(jù)集的最新結(jié)果,一個(gè)是由名人圖片組成的—??CelebA-HQ,另一個(gè)是由“普通”人圖片組成的、更加多樣化的新數(shù)據(jù)集— Flickr-Faces-HQ (FFHQ)。下圖顯示了模型的不同配置的Frèchet inception distance (FID)得分
與ProGAN相比,模型在不同配置下的性能(FID得分),分?jǐn)?shù)越低模型越好
除了這些結(jié)果之外,本文還說(shuō)明了該模型并不僅僅是通過(guò)在臥室圖像和汽車(chē)圖像兩個(gè)數(shù)據(jù)集上展示其結(jié)果而定制的。
特征分離
為了使關(guān)于特征分離的討論更加的量化,本文提出了兩種新的特征分離的測(cè)量方法:
1、感知路徑長(zhǎng)度?—?當(dāng)在兩個(gè)隨機(jī)輸入之間插入時(shí),測(cè)量?jī)蓚€(gè)連續(xù)圖像(它們的VGG16嵌入)之間的差異。劇烈的變化意味著多個(gè)特性已經(jīng)同時(shí)改變了,它們有可能會(huì)被糾纏;
2、線性可分離性??—??是將輸入按照二進(jìn)制類(lèi)進(jìn)行分類(lèi)的能力,如男性和女性。分類(lèi)越好,特征就越容易區(qū)分。
通過(guò)對(duì)輸入的向量z和中間向量?的指標(biāo)進(jìn)行比較,作者們發(fā)現(xiàn)在?中的特征很明顯地更容易分離。這些指標(biāo)還表明了在映射網(wǎng)絡(luò)中選擇8個(gè)層與選擇1到2個(gè)層相比的好處。
實(shí)施細(xì)節(jié)
StyleGAN在CelebA-HQ和FFHQ數(shù)據(jù)集上接受了為期一周的訓(xùn)練,使用了8個(gè)Tesla V100 GPU。它是在TensorFlow中實(shí)現(xiàn)的,并且將開(kāi)源的。
結(jié)論
StyleGAN是一篇突破性的論文,它不僅可以生成高質(zhì)量的和逼真的圖像,而且還可以對(duì)生成的圖像進(jìn)行較好的控制和理解,甚至使生成可信度較高的假圖像變得比以前更加的容易。在StyleGAN中提出的一些技術(shù),特別是映射網(wǎng)絡(luò)和自適應(yīng)實(shí)例標(biāo)準(zhǔn)化(AdaIN),可能是未來(lái)許多在GAN方面創(chuàng)新的基礎(chǔ)。
?
原文鏈接
本文為云棲社區(qū)原創(chuàng)內(nèi)容,未經(jīng)允許不得轉(zhuǎn)載。
總結(jié)
以上是生活随笔為你收集整理的2018最佳GAN论文回顾(下)的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: Kubernetes Client-go
- 下一篇: OceanBase在蚂蚁金服的智能运维实