當(dāng)前位置：首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

2018最佳GAN论文回顾（下）

發(fā)布時(shí)間：2024/8/23 编程问答 49 豆豆

生活随笔收集整理的這篇文章主要介紹了 2018最佳GAN论文回顾（下）小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

繼上一篇《2018最佳GAN論文回顧（上）》，我又繼續(xù)介紹了一個(gè)對(duì)于GAN的基于樣式的生成器體系結(jié)構(gòu)的新論文，提出了一個(gè)新的模型來(lái)應(yīng)對(duì)這種挑戰(zhàn)。

一種用于生成式對(duì)抗網(wǎng)絡(luò)的基于生成器體系結(jié)構(gòu)的方式（A Style-Based Generator Architecture for Generative Adversarial Networks）

這是NVIDIA的一篇新論文，一個(gè)對(duì)于GAN（StyleGAN）的基于樣式的生成器體系結(jié)構(gòu)，提出了一個(gè)新的模型來(lái)應(yīng)對(duì)這個(gè)挑戰(zhàn)。StyleGAN是一步一步地生成人工圖像的，從非常低的分辨率開(kāi)始，一直到高分辨率（1024×1024）。通過(guò)分別地修改網(wǎng)絡(luò)中每個(gè)級(jí)別的輸入，它可以控制在該級(jí)別中所表示的視覺(jué)特征，從粗糙的特征（姿勢(shì)、面部形狀）到精細(xì)的細(xì)節(jié)（頭發(fā)顏色），而不會(huì)影響其它的級(jí)別。

這種技術(shù)不僅可以更好地理解所生成的輸出，而且還可以產(chǎn)生最高水平的結(jié)果?—?比以前生成的圖像看起來(lái)更加真實(shí)的高分辨率圖像。

2018年NVIDIA首次使用ProGAN應(yīng)對(duì)這一挑戰(zhàn)時(shí)，研究人員都無(wú)法生成高質(zhì)量的大圖像（如：1024×1024）。ProGAN的關(guān)鍵創(chuàng)新點(diǎn)是漸進(jìn)式訓(xùn)練?—?它首先使用非常低分辨率的圖像（如：4×4）開(kāi)始訓(xùn)練生成器和識(shí)別器，并且每次都增加一個(gè)更高分辨率的網(wǎng)絡(luò)層。

這項(xiàng)技術(shù)首先通過(guò)學(xué)習(xí)即使在低分辨率圖像中也可以顯示的基本特征，來(lái)創(chuàng)建圖像的基本部分，并且隨著分辨率的提高和時(shí)間的推移，學(xué)習(xí)越來(lái)越多的細(xì)節(jié)。低分辨率圖像的訓(xùn)練不僅簡(jiǎn)單、快速，而且有助于更高級(jí)別的訓(xùn)練，因此，整體的訓(xùn)練也就更快。

ProGAN生成高質(zhì)量的圖像，但與大多數(shù)模型一樣，它控制所生成圖像的特定特征的能力非常有限。換句話說(shuō)，這些特性是互相關(guān)聯(lián)的，因此嘗試調(diào)整一下輸入，即使是一點(diǎn)兒，通常也會(huì)同時(shí)影響多個(gè)特性。一個(gè)很好的類(lèi)比就是基因組，在其中改變一個(gè)基因可能影響多個(gè)特性。

StyleGAN如何工作

StyleGAN論文提供了一個(gè)升級(jí)版本的ProGAN圖像生成器，重點(diǎn)關(guān)注生成器網(wǎng)絡(luò)。作者們觀察到ProGAN漸進(jìn)層的一個(gè)潛在的好處是，如果使用得當(dāng)，它們能夠控制圖像的不同視覺(jué)特征。層和分辨率越低，它所影響的特征就越粗糙。本文將這些特征分為三種類(lèi)型：

1、粗糙的—分辨率最高82，影響姿勢(shì)、一般發(fā)型、面部形狀等；

2、中等的—分辨率為162至322，影響更精細(xì)的面部特征、發(fā)型、眼睛的睜開(kāi)或是閉合等；

3、高質(zhì)的—分辨率為642到10242，影響顏色方案（眼睛、頭發(fā)和皮膚）和微觀特征；

除ProGAN生成器之外的一些：

映射網(wǎng)絡(luò)

映射網(wǎng)絡(luò)的目標(biāo)是將輸入向量編碼為中間向量，中間向量的不同元素控制不同的視覺(jué)特征。這是一個(gè)非常重要的過(guò)程，因?yàn)槭褂幂斎胂蛄縼?lái)控制視覺(jué)特征的能力是非常有限的，因?yàn)樗仨氉裱?xùn)練數(shù)據(jù)的概率密度。例如，如果黑頭發(fā)的人的圖像在數(shù)據(jù)集中更常見(jiàn)，那么更多的輸入值將會(huì)被映射到該特征上。因此，該模型無(wú)法將部分輸入（向量中的元素）映射到特征上，這一現(xiàn)象被稱(chēng)為特征糾纏。然而，通過(guò)使用另一個(gè)神經(jīng)網(wǎng)絡(luò)，該模型可以生成一個(gè)不必遵循訓(xùn)練數(shù)據(jù)分布的向量，并且可以減少特征之間的相關(guān)性。

映射網(wǎng)絡(luò)由8個(gè)全連接的層組成，它的輸出?與輸入層（512×1）的大小相同。

樣式模塊(AdaIN)

AdaIN（自適應(yīng)實(shí)例標(biāo)準(zhǔn)化）模塊將映射網(wǎng)絡(luò)創(chuàng)建的編碼信息?傳輸?shù)缴傻膱D像中。該模塊被添加到合成網(wǎng)絡(luò)的每個(gè)分辨率級(jí)別中，并定義該級(jí)別中特征的可視化表達(dá)式：

1、卷積層輸出的每個(gè)通道首先進(jìn)行標(biāo)準(zhǔn)化，以確保步驟3的縮放和切換具有預(yù)期的效果；

2、中間向量?使用另一個(gè)全連接的網(wǎng)絡(luò)層（標(biāo)記為A）轉(zhuǎn)換為每個(gè)通道的比例和偏差；

3、比例和偏差的向量切換卷積輸出的每個(gè)通道，從而定義卷積中每個(gè)過(guò)濾器的重要性。這個(gè)調(diào)優(yōu)操作將信息從?轉(zhuǎn)換為可視的表達(dá)方式；

刪除傳統(tǒng)輸入

大多數(shù)的模型以及其中的ProGAN使用隨機(jī)輸入來(lái)創(chuàng)建生成器的初始圖像（即4×4級(jí)別的輸入）。StyleGAN團(tuán)隊(duì)發(fā)現(xiàn)圖像特征是由?和AdaIN控制的，因此可以忽略初始輸入，并用常量值替代。雖然本文沒(méi)有解釋它為什么能提高性能，但一個(gè)保險(xiǎn)的假設(shè)是它減少了特征糾纏，對(duì)于網(wǎng)絡(luò)在只使用?而不依賴(lài)于糾纏輸入向量的情況下更容易學(xué)習(xí)。

隨機(jī)變化

人們的臉上有許多小的特征，可以看作是隨機(jī)的，例如：雀斑、發(fā)髻線的準(zhǔn)確位置、皺紋、使圖像更逼真的特征以及各種增加輸出的變化。將這些小特征插入GAN圖像的常用方法是在輸入向量中添加隨機(jī)噪聲。然而，在許多情況下，由于上述特征的糾纏現(xiàn)象，控制噪聲的影響是很復(fù)雜的，從而會(huì)導(dǎo)致圖像的其它特征受到影響。

StyleGAN中的噪聲以類(lèi)似于AdaIN機(jī)制的方式添加，在AdaIN模塊之前向每個(gè)通道添加一個(gè)縮放過(guò)的噪聲，并稍微改變其操作的分辨率級(jí)別特征的視覺(jué)表達(dá)方式。

樣式混合

StyleGAN生成器在合成網(wǎng)絡(luò)的每個(gè)級(jí)別中使用了中間向量，這有可能導(dǎo)致網(wǎng)絡(luò)學(xué)習(xí)到這些級(jí)別是相關(guān)的。為了降低相關(guān)性，模型隨機(jī)選擇兩個(gè)輸入向量，并為它們生成了中間向量?。然后，它用第一個(gè)輸入向量來(lái)訓(xùn)練一些網(wǎng)絡(luò)級(jí)別，然后（在一個(gè)隨機(jī)點(diǎn)中）切換到另一個(gè)輸入向量來(lái)訓(xùn)練其余的級(jí)別。隨機(jī)的切換確保了網(wǎng)絡(luò)不會(huì)學(xué)習(xí)并依賴(lài)于一個(gè)合成網(wǎng)絡(luò)級(jí)別之間的相關(guān)性。

雖然它并不會(huì)提高所有數(shù)據(jù)集上的模型性能，但是這個(gè)概念有一個(gè)非常有趣的副作用?—?它能夠以一種連貫的方式來(lái)組合多個(gè)圖像（視頻請(qǐng)查看原文）。該模型生成了兩個(gè)圖像A和B，然后通過(guò)從A中提取低級(jí)別的特征并從B中提取其余特征再組合這兩個(gè)圖像。

在W中的截取技巧

在生成模型中的一個(gè)挑戰(zhàn)，是處理在訓(xùn)練數(shù)據(jù)中表現(xiàn)不佳的地方。這導(dǎo)致了生成器無(wú)法學(xué)習(xí)和創(chuàng)建與它們類(lèi)似的圖像（相反，它會(huì)創(chuàng)建效果不好的圖像）。為了避免生成較差的圖像，StyleGAN截?cái)嗔酥虚g向量?，迫使它保持接近“平均”的中間向量。

對(duì)模型進(jìn)行訓(xùn)練之后，通過(guò)選擇多個(gè)隨機(jī)的輸入，用映射網(wǎng)絡(luò)生成它們的中間向量，并計(jì)算這些向量的平均值，從而生成“平均”的平均值?。當(dāng)生成新的圖像時(shí)，不用直接使用映射網(wǎng)絡(luò)的輸出，而是將值?轉(zhuǎn)換為?_new=?_avg+�(??-?_avg)，其中�的值定義了圖像與“平均”圖像的差異量（以及輸出的多樣性）。有趣的是，在仿射轉(zhuǎn)換塊之前，通過(guò)對(duì)每個(gè)級(jí)別使用不同的�，模型可以控制每個(gè)特征集與平均值的差異量。

微調(diào)

在ProGAN上，StyleGAN的另外一個(gè)改進(jìn)措施是更新幾個(gè)網(wǎng)絡(luò)超參數(shù)，例如訓(xùn)練持續(xù)時(shí)間和損失函數(shù)，并將離得最近的放大或縮小尺度替換為雙線性采樣。

結(jié)果

本文介紹了兩個(gè)數(shù)據(jù)集的最新結(jié)果，一個(gè)是由名人圖片組成的—??CelebA-HQ，另一個(gè)是由“普通”人圖片組成的、更加多樣化的新數(shù)據(jù)集— Flickr-Faces-HQ (FFHQ)。下圖顯示了模型的不同配置的Frèchet inception distance (FID)得分

與ProGAN相比，模型在不同配置下的性能（FID得分），分?jǐn)?shù)越低模型越好

除了這些結(jié)果之外，本文還說(shuō)明了該模型并不僅僅是通過(guò)在臥室圖像和汽車(chē)圖像兩個(gè)數(shù)據(jù)集上展示其結(jié)果而定制的。

特征分離

為了使關(guān)于特征分離的討論更加的量化，本文提出了兩種新的特征分離的測(cè)量方法:

1、感知路徑長(zhǎng)度?—?當(dāng)在兩個(gè)隨機(jī)輸入之間插入時(shí)，測(cè)量?jī)蓚€(gè)連續(xù)圖像（它們的VGG16嵌入）之間的差異。劇烈的變化意味著多個(gè)特性已經(jīng)同時(shí)改變了，它們有可能會(huì)被糾纏；

2、線性可分離性??—??是將輸入按照二進(jìn)制類(lèi)進(jìn)行分類(lèi)的能力，如男性和女性。分類(lèi)越好，特征就越容易區(qū)分。

通過(guò)對(duì)輸入的向量z和中間向量?的指標(biāo)進(jìn)行比較，作者們發(fā)現(xiàn)在?中的特征很明顯地更容易分離。這些指標(biāo)還表明了在映射網(wǎng)絡(luò)中選擇8個(gè)層與選擇1到2個(gè)層相比的好處。

實(shí)施細(xì)節(jié)

StyleGAN在CelebA-HQ和FFHQ數(shù)據(jù)集上接受了為期一周的訓(xùn)練，使用了8個(gè)Tesla V100 GPU。它是在TensorFlow中實(shí)現(xiàn)的，并且將開(kāi)源的。

結(jié)論

StyleGAN是一篇突破性的論文，它不僅可以生成高質(zhì)量的和逼真的圖像，而且還可以對(duì)生成的圖像進(jìn)行較好的控制和理解，甚至使生成可信度較高的假圖像變得比以前更加的容易。在StyleGAN中提出的一些技術(shù)，特別是映射網(wǎng)絡(luò)和自適應(yīng)實(shí)例標(biāo)準(zhǔn)化（AdaIN），可能是未來(lái)許多在GAN方面創(chuàng)新的基礎(chǔ)。

原文鏈接
本文為云棲社區(qū)原創(chuàng)內(nèi)容，未經(jīng)允許不得轉(zhuǎn)載。

總結(jié)

以上是生活随笔為你收集整理的2018最佳GAN论文回顾（下）的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

论文
GaN

上一篇： Kubernetes Client-go
下一篇： OceanBase在蚂蚁金服的智能运维实