论文学习记录:PROGRESSIVE GROWING OF GANS
論文鏈接:https://arxiv.org/pdf/1710.10196.pdf
前言
這是一種針對GANs的訓(xùn)練優(yōu)化方法,從低分辨率圖像開始,通過向網(wǎng)絡(luò)添加層來逐步提高分辨率,如圖1。這種遞增的特性允許訓(xùn)練首先發(fā)現(xiàn)圖像分布的大尺度結(jié)構(gòu),然后將注意力轉(zhuǎn)移到越來越細的尺度細節(jié)上,而不必同時學(xué)習(xí)所有的尺度。
圖1: 初始訓(xùn)練時,生成器(G)和鑒別器(D)的空間分辨率都很低,即4x4像素。隨著訓(xùn)練的進行,我們逐漸在G和D上增加層,從而提高了生成圖像的空間分辨率。在整個過程中,所有現(xiàn)有層都是可訓(xùn)練的。這里N x N是指在N x N空間分辨率下的卷積層。這允許在高分辨率下穩(wěn)定的擬合,也能夠極大地加快訓(xùn)練速度。右邊展示了使用漸進式增長生成的6個1024 x 1024像素示例圖像。
我們使用生成器和鑒別器網(wǎng)絡(luò),它們彼此鏡像,同步發(fā)展。在整個訓(xùn)練過程中,兩個網(wǎng)絡(luò)中的所有現(xiàn)有層在訓(xùn)練階段都是可訓(xùn)練的。當(dāng)新層被添加到網(wǎng)絡(luò)中時,我們平滑地淡出現(xiàn)有網(wǎng)絡(luò),如圖2所示,這避免了對已經(jīng)訓(xùn)練良好的小分辨率層的突然沖擊。
圖2:當(dāng)加倍生成器(G)和鑒別器(D)的分辨率時,我們“平滑”地添加新圖層。該例子說明了從16×16圖像(a)(a)(a)到32×32圖像(c)(c)(c)的轉(zhuǎn)換過程。在轉(zhuǎn)換(b)(b)(b)過程中,我們將操作在更高分辨率上的層類似殘差塊一樣處理,其權(quán)重aaa從0到1線性增加。這里2x2x2x和0.5x0.5x0.5x分別表示使用最鄰近鄰濾波和平均池化將圖像分辨率加倍和減半。toRGBtoRGBtoRGB表示將特征向量投影到RGB顏色層,fromRGBfromRGBfromRGB做相反操作; 都使用1 x 1卷積。在訓(xùn)練鑒別器時,我們輸入經(jīng)過縮小的真實圖像,以匹配當(dāng)前網(wǎng)絡(luò)的分辨率。在分辨率轉(zhuǎn)換期間,類似于生成器輸出組合兩種分辨率的方式,我們在真實圖像的兩種分辨率之間插入。
漸進式訓(xùn)練有幾個好處。
在早期,由于類別信息和模式較少,小圖像的生成實質(zhì)上更穩(wěn)定(Odena et al.,2017):通過一點一點地提高分辨率,通過重復(fù)一個簡化問題,而非直接解決從隱向量直接找到10242^22的圖像。實際上,它穩(wěn)定了訓(xùn)練,使我們能夠使用WGAN-GP或者LSGANs (Gulrajani et al., 2017)損失可靠地合成百萬像素級的圖像 (Mao et al., 2016b)。
減少了訓(xùn)練時間:隨著GANs的逐漸增長,大多數(shù)迭代過程都是在較低的分辨率下完成的,根據(jù)最終輸出的分辨率,一般可以快2-6倍地獲得相近結(jié)果質(zhì)量。
逐步構(gòu)建GANs的想法與Wang等人(2017)的工作有關(guān),他們使用多種鑒別器對不同的空間分辨率進行操作。Durugkar等(2016)同時使用一個生成器和多個鑒別器進行工作,而Ghosh等(2017)使用多個生成器和一個鑒別器來做相反model工作。分級GANs (Denton. 等,2015; Huang等,2016; Zhang等,2017)為一個圖像金字塔的每一層定義一個生成器和鑒別器。這些方法建立在與我們的工作相同的觀察基礎(chǔ)上——從隱變量到高分辨率圖像的復(fù)雜映射通過逐步學(xué)習(xí)會更加容易——但關(guān)鍵的區(qū)別在于我們只著眼于單個GAN,而非它們的廣義結(jié)構(gòu)體系。與早期自適應(yīng)增長網(wǎng)絡(luò)的研究相比,如GNG(Fritzke, 1995)和NeuroEvolution of Augmenting Topologies (NEAT)(Stanley & Mikkulainen, 2002),它們無節(jié)制地增加網(wǎng)絡(luò),而我們只是逐步引入預(yù)置的層。在此意義上,我們的方法類似于自動編碼器的分層訓(xùn)練(Bengio等人,2007)。
正文部分將描述一些tricks。
文章目錄
- 前言
- 一、基于 ‘批標(biāo)準(zhǔn)差’ 增加多樣性(INCREASING VARIATION USING MINIBATCH STANDARD DEVIATION)
- 二、歸一化處理生成器和鑒別器(NORMALIZATION IN GENERATOR AND DISCRIMINATOR)
- 1. 平衡學(xué)習(xí)率(EQUALIZED LEARNING RATE)
- 2. 生成器的像素歸一化(PIXELWISE FEATURE VECTOR NORMALIZATION IN GENERATOR)
- 三、構(gòu)造漸增型網(wǎng)絡(luò)(PROGRESSIVE NETWORK)
- 1. 上采樣(UPSAMPLE)和下采樣(DOWNSAMPLE)
- 2. 設(shè)計不同level的生成器和判別器 (level = log2_22?(res), res:當(dāng)前分辨率)
- (1)建立level=2的初始卷積層
- (2)建立拓?fù)渚矸e層
- (3)生成器輸出(整合特征圖:toRGB)
- 四、訓(xùn)練配置(TRAINING CONFIGURATION)
- 1. Adam算法
- 2. mini_batch設(shè)置
- 3. Cost Function WGAN-GP
- 五、生成結(jié)果的質(zhì)量評價 -- 多尺度統(tǒng)計相似度( MULTI-SCALE STATISTICAL SIMILARITY)
- 總結(jié)
以下是本篇文章正文內(nèi)容
一、基于 ‘批標(biāo)準(zhǔn)差’ 增加多樣性(INCREASING VARIATION USING MINIBATCH STANDARD DEVIATION)
由于GAN網(wǎng)絡(luò)傾向于學(xué)習(xí)數(shù)據(jù)集的子分部,由此2016年Salimans提出‘minibatch discrimination’即‘批判別’作為解決方案。它們不僅從單個圖像中更是在整個minibatch中計算特征統(tǒng)計數(shù)據(jù),從而激勵生成圖像和訓(xùn)練圖像的minibatch顯示類似的統(tǒng)計數(shù)據(jù)或分布。
這是通過在鑒別器的末尾添加一個minibatch層來實現(xiàn)的,該層將學(xué)習(xí)一個大型張量,該張量將輸入量激活并映射到一組統(tǒng)計數(shù)組中。在一個minibatch中,為每個示例生成一組單獨的統(tǒng)計信息組,并將其拼接到層的輸出,以便鑒別器可以在內(nèi)部使用統(tǒng)計信息。我們大大簡化了這種方法,同時也改進了多樣性。
在簡化方案中既沒有可學(xué)習(xí)參數(shù)也沒有新的超參數(shù)。我們首先計算每個minibatch空間位置上每個特征圖的標(biāo)準(zhǔn)差。然后,我們將這些估計值平均到所有特征圖和空間位置,得到單一值。我們復(fù)制擴張該值,將其連接到所有空間位置,并覆蓋整個minibatch,從而產(chǎn)生一個額外的(常量)特征圖。計算方法簡述如下:
input:[N,H,W,fmaps];獲取批大小s=nhwf.shape;(1) 先計算N個特征圖的標(biāo)準(zhǔn)差得到特征圖fmap1:[1,H,W,fmaps](2) 對fmap1求均值,得到值M1:[1,1,1,1](3) 復(fù)制擴張M1得到N個特征圖fmap2:[N,H,W,1](4) 將fmap2添加至每個樣本的特征圖中理論上,這一層可以插入到鑒別器的任何地方,但是我們發(fā)現(xiàn)最好是在接近末端插入。
二、歸一化處理生成器和鑒別器(NORMALIZATION IN GENERATOR AND DISCRIMINATOR)
由于兩種網(wǎng)絡(luò)之間的不健康競爭,GANs傾向于信號強度的升級。GANs的實際需要是限制信號的大小和競爭。我們使用一種方法,它包含了兩個成分,而這兩個成分都不包含可學(xué)習(xí)參數(shù)。
PGGAN使用兩種不同的方式來限制梯度和不健康博弈,而且方法均采用非訓(xùn)練的處理方式.
1. 平衡學(xué)習(xí)率(EQUALIZED LEARNING RATE)
使用簡單的N(0,1)N(0,1)N(0,1)初始化,然后在運行時顯式地縮放權(quán)重。詳細解釋就是:Initialization權(quán)重后設(shè)置Wi=Wi/cW_i = W_i /cWi?=Wi?/c,其中WiW_iWi?是權(quán)重,ccc是He的初始化方法的每層歸一化常數(shù)(He,2015)。
動態(tài)地進行而非在初始化做有些許好處,與常用的自適應(yīng)隨機梯度下降方法(如RMSProp (Tieleman & Hinton, 2012)和Adam (Kingma & Ba, 2015))中的尺度不變性有關(guān)。這些方法通過預(yù)估的標(biāo)準(zhǔn)差對梯度更新進行標(biāo)準(zhǔn)化,從而使更新不依賴于參數(shù)的尺度。如果某些參數(shù)的動態(tài)范圍比其他參數(shù)大,則需要更長的時間來調(diào)整。初始化導(dǎo)致的結(jié)果會使學(xué)習(xí)率過大或過小。我們的方法確保了動態(tài)范圍,因此學(xué)習(xí)速度對所有權(quán)值而言是相同的。
He的初始化方法能夠確保網(wǎng)絡(luò)初始化的時候,隨機初始化的參數(shù)不會大幅度地改變輸入信號的強度。然而PGGAN中不僅限初始狀態(tài)scale而是實時scale,其中He公式如下:
2. 生成器的像素歸一化(PIXELWISE FEATURE VECTOR NORMALIZATION IN GENERATOR)
為了避免由于競爭導(dǎo)致生成器和鑒別器的大小交替失控的情況(生成器的梯度崩潰),我們在每個卷積層之后將生成器中每個像素的特征向量歸一化為單位長度。我們使用一種變體的“局部響應(yīng)歸一化”(Krizhevsky,2012)來實現(xiàn)這一點。公式如下:
bx,y=ax,y1N∑j=0N?1(ax,yj)2+?b_{x,y}=\frac{a_{x,y}}{\sqrt{\frac{1}{N}\sum_{j=0}^{N-1}(a_{x,y}^j)^2+\epsilon}}bx,y?=N1?∑j=0N?1?(ax,yj?)2+??ax,y??其中:?=10?8\epsilon=10^{-8}?=10?8,NNN是feature map的個數(shù),bx,yb_{x,y}bx,y?和ax,ya_{x,y}ax,y?則分別是像素(x,y)(x,y)(x,y)中的初始和歸一化特征向量。
Pixel norm(像素規(guī)范),它是local response normalization的變種。Pixel norm沿著channel維度做歸一化,這樣歸一化的一個好處在于,feature map的每個位置都具有單位長度。這個歸一化策略與作者設(shè)計的Generator輸出有較大關(guān)系,Generator的輸出層并沒有Tanh或者Sigmoid激活函數(shù)。
三、構(gòu)造漸增型網(wǎng)絡(luò)(PROGRESSIVE NETWORK)
在遞增的訓(xùn)練階段,生成器和判別器的型號也是在逐步拓展的,比如訓(xùn)練128x128圖像,我們從4x4開始訓(xùn)練,訓(xùn)練階段有:
stage 1 4x4 穩(wěn)定 level2-net
stage 2 8x8 過渡 level3-net
stage 3 8x8 穩(wěn)定 level3-net
stage 4 16x16 過渡 level4-net
stage 5 16x16 穩(wěn)定 level4-net
stage 6 32x32 過渡 level5-net
stage 7 32x32 穩(wěn)定 level5-net
stage 8 64x64 過渡 level6-net
stage 9 64x64 穩(wěn)定 level6-net
stage 10 128x128 過渡 level7-net
stage 11 128x128 穩(wěn)定 level7-net
生成器和鑒別器的網(wǎng)絡(luò)架構(gòu)主要由復(fù)制的3層塊組成,我們在訓(xùn)練過程中逐一引入。生成器的最后一個Conv 1 x 1層對應(yīng)于圖2中的toRGB,鑒別器的第一個Conv 1 x 1層對應(yīng)于fromRGB。我們從4×4分辨率開始訓(xùn)練網(wǎng)絡(luò),直到鑒別器已經(jīng)處理了規(guī)定數(shù)目的真實圖像。然后在兩個階段交替進行: 在同數(shù)量圖像組中在第一個3層塊中進行圖像淡入處理,為這些圖像中定網(wǎng)絡(luò),在接下來的3層塊中再進行淡入處理,以此類推。
我們的隱向量對應(yīng)于512維超球面上的隨機點,并且我們在[?1,1][-1,1][?1,1]中表示訓(xùn)練和生成的圖像。除了最后一層使用線性激活之外,我們在兩個網(wǎng)絡(luò)的所有層中都使用 leakiness為0.2的leaky ReLU。在GANs的兩種網(wǎng)絡(luò)中不使用批處理歸一化、層歸一化或權(quán)值歸一化,但我們在生成器中每個Conv 3 x 3層之后對特征向量進行像素歸一化,如2.2節(jié)所述。我們根據(jù)帶有單位方差的正態(tài)分布將所有的權(quán)值初始化,并將偏差參數(shù)初始化為0。在運行時,使用特定于層的常數(shù)來縮放權(quán)重,如2.1節(jié)所述。我們將跨小批(cross-minibatch)標(biāo)準(zhǔn)偏差作為4 x 4分辨率的附加特征圖加入鑒別器的末端,如第1節(jié)所述。
1. 上采樣(UPSAMPLE)和下采樣(DOWNSAMPLE)
論文中上采樣由近鄰插值方法,下采樣由平均池化方法實現(xiàn)。
同時在卷積過程中,考慮到deconv會讓生成模型遭受checkerboard效應(yīng),PGGAN移除了deconv 方式,改用了conv + upsample。
以下論文給出的生成器和判別器中的卷積塊:
生成器卷積塊:
判別器卷積塊:
2. 設(shè)計不同level的生成器和判別器 (level = log2_22?(res), res:當(dāng)前分辨率)
GAN網(wǎng)絡(luò)從最低分辨率4x4慢慢向最高分辨率1024x1024學(xué)習(xí),其中G&D網(wǎng)絡(luò)也是逐階段遞增的。 以生成器為例,描述生成器的不同階段的搭建方式:
(1)建立level=2的初始卷積層
如圖構(gòu)造了一個CONV4x4+CONV3x3的二級初始結(jié)構(gòu)。
(2)建立拓?fù)渚矸e層
網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)如上圖,通過卷積塊拼接成更高級網(wǎng)絡(luò),其中每個卷積塊的特征圖數(shù)量是指定的,PGGAN在論文里指定為:
feats_map_num = [512,512,512,512,256,128,64,32,16]
(3)生成器輸出(整合特征圖:toRGB)
經(jīng)過多層卷積之后,我們獲得了特征圖,輸出端則需要將這些特征圖整合為3通道的RGB圖像,具體而言就是要構(gòu)造一個toRGB函數(shù),并考慮特征圖整合過程中的過渡階段。
四、訓(xùn)練配置(TRAINING CONFIGURATION)
1. Adam算法
在訓(xùn)練網(wǎng)絡(luò)時采用Adam優(yōu)化算法 (Kingma & Ba, 2015) :
從while循環(huán)往下看:
第一行是更新step,訓(xùn)練集采樣,
第二行是計算梯度,
第三行計算一階矩的估計,即mean均值
第四行計算二階距的估計,即variance,是二階距的一種。
第五、六行則是對mean和var進行校正,因為mean和var的初始值為0,所以它們會向0偏置,這樣處理后會減少這種偏置影響。
第七行梯度下降。?\epsilon?后的梯度是用一階距和二階距估計的。
由上圖算法顯示,Adam算法可描述為兩種隨機梯度下降擴展式的集合,即:
適應(yīng)性梯度算法(AdaGrad)為每一個參數(shù)保留一個學(xué)習(xí)率以提升在稀疏梯度(即自然語言和計算機視覺問題)上的性能。
均方根傳播(RMSProp)基于權(quán)重梯度最近量級的均值為每一個參數(shù)適應(yīng)性地保留學(xué)習(xí)率。這意味著算法在非穩(wěn)態(tài)和在線問題上有很有優(yōu)秀的性能。
按照吳恩達博士的理論分析,使用Adam算法,可以方便設(shè)置?\epsilon?的同時,能夠起到天然退火(annealing)的效果。
論文中設(shè)置步長0.001,一階矩估計的指數(shù)衰減率0.9,二階矩估計的指數(shù)衰減率0.99,分辨率10E-8。
2. mini_batch設(shè)置
為了節(jié)省內(nèi)存預(yù)算,在分辨率較大(>=1282>=128^2>=1282)的情況下逐次降低minibatch size,比如:
42=1282∽size=164^2=128^2\backsim size=1642=1282∽size=16
2562∽size=14256^2\backsim size=142562∽size=14
5122∽size=6512^2\backsim size=65122∽size=6
10242∽size=31024^2\backsim size=310242∽size=3
3. Cost Function WGAN-GP
論文中使用了WGAN-GP loss(基于WGAN的改進函數(shù)模型,加入gradient penalty——一種聯(lián)系了閾值K和原距離函數(shù)的loss function,它實現(xiàn)了將參數(shù)與限制聯(lián)系起來達到真實的Lipschitz限制條件。),在此基礎(chǔ)上進行了進一步的改進,首先設(shè)置了ncritic=1n_{critic}=1ncritic?=1,在每批樣本進行了生成器與鑒別器的交替訓(xùn)練。此外,為了解決鑒別器的零漂問題,將loss修正入如下:
L′=L+?driftEx∈Pr[D(x)2],?drift=1L'=L+\epsilon_{drift}E_{x\in P_r}[D(x)^2], \ \ \epsilon_{drift}=1L′=L+?drift?Ex∈Pr??[D(x)2],???drift?=1
五、生成結(jié)果的質(zhì)量評價 – 多尺度統(tǒng)計相似度( MULTI-SCALE STATISTICAL SIMILARITY)
總體思想:生成器可以基于所有尺度,產(chǎn)生局部圖像結(jié)構(gòu)和訓(xùn)練集是相似的樣例。通過收集和評估一些指示性指標(biāo),可以對結(jié)果圖像進行一些比較可信的評價。
具體策略:從16216^2162像素開始學(xué)習(xí)生成圖像和目標(biāo)圖像的Laplacian金字塔(Burt&Adelson,1987),并通過它表示局部圖片匹配分布的多尺度統(tǒng)計相似性,其中單個拉普拉斯金字塔等級對應(yīng)于一個特定的空間頻帶。隨機采樣特定數(shù)目的結(jié)果圖像,并從拉普拉斯Laplacian金字塔的每一級中提取描述符。在論文中每個描述符都是具有3個顏色通道的7×77\times77×7的相鄰像素點,記為x∈R147x\in R^{147}x∈R147。根據(jù)訓(xùn)練集和生成集中的lll級的patch匹配分別求得每個顏色通道的均值和標(biāo)準(zhǔn)差,然后通過計算它們的SWD(sliced Wasserstein distance)值來評估統(tǒng)計相似性。
總結(jié)
PGGAN在生成高分辨率圖像上具有著相當(dāng)杰出的能力,而它在人臉圖像生成上所展示的優(yōu)良表現(xiàn),是否說明它在數(shù)據(jù)擴展和場景生成領(lǐng)域同樣能夠提高其效能?這里可以多做一些嘗試和研究。
參考:
https://blog.csdn.net/liujunru2013/article/details/78545882
https://blog.csdn.net/weixin_41024483/article/details/83116856
https://blog.csdn.net/u013412904/article/details/79045473
https://blog.csdn.net/u013139259/article/details/78885815
總結(jié)
以上是生活随笔為你收集整理的论文学习记录:PROGRESSIVE GROWING OF GANS的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 浅谈数字音视频传输网络——AVB
- 下一篇: GANs简介