深度学习之生成对抗网络(4)GAN变种
深度學(xué)習(xí)之生成對(duì)抗網(wǎng)絡(luò)(4)GAN變種
- 1. DCGAN
- 2. InfoGAN
- 3. CycleGAN
- 4. WGAN
- 5. Equal GAN
- 6. Self-Attention GAN
- 7. BigGAN
- 參考文獻(xiàn)
?在原始的GAN論文中,Ian Goodfellow從理論層面分析了GAN網(wǎng)絡(luò)的收斂性,并且在多個(gè)經(jīng)典圖片數(shù)據(jù)集上測(cè)試了圖片生成的效果,如下圖所示,其中(a)為MNIST數(shù)據(jù),(b)為T(mén)oronto Face數(shù)據(jù)集,(c)、(d)為CIFAR10數(shù)據(jù)集。
原始GAN圖片生成效果[1]
?可以看到,原始GAN模型在圖片生成效果上并不突出,和VAE差別不明顯,此時(shí)并沒(méi)有展現(xiàn)出它強(qiáng)大的分布逼近能力。但是由于GAN在理論方面較新穎,實(shí)現(xiàn)方面也有很多可以改進(jìn)的地方,大大地激發(fā)了學(xué)術(shù)界的研究興趣。在接下來(lái)的數(shù)年里,GAN的研究如火如荼的進(jìn)行,并且也取得了實(shí)質(zhì)性的進(jìn)展。接下來(lái)我們將介紹幾個(gè)意義比較重大的GAN變種。
1. DCGAN
?最初始的GAN網(wǎng)絡(luò)主要基于全連接層實(shí)現(xiàn)生成器G和判別器D網(wǎng)絡(luò),由于圖片的維度較高,網(wǎng)絡(luò)參數(shù)量巨大,訓(xùn)練的效果并不優(yōu)秀。DCGAN[2]提出了使用轉(zhuǎn)置卷積層實(shí)現(xiàn)的生成網(wǎng)絡(luò),普通卷積層來(lái)實(shí)現(xiàn)的判別網(wǎng)絡(luò),大大地降低了網(wǎng)絡(luò)參數(shù)量,同時(shí)圖片的生成效果也大幅提升,展現(xiàn)了GAN模型在圖片生成效果上超越VAE模型的潛質(zhì)。此外,DCGAN作者還提出了一系列經(jīng)驗(yàn)性的GAN網(wǎng)絡(luò)訓(xùn)練技巧,這些技巧在WGAN提出之前被證實(shí)有益于網(wǎng)絡(luò)的穩(wěn)定訓(xùn)練。前面我們已經(jīng)使用DCGAN模型完成了二次元?jiǎng)勇^像的圖片生成實(shí)戰(zhàn)。
2. InfoGAN
?InfoGAN[3]嘗試使用無(wú)監(jiān)督的方式去學(xué)習(xí)輸入x\boldsymbol xx的可解釋隱向量z\boldsymbol zz的表示方法(Interpretable Representation),即希望隱向量z\boldsymbol zz能夠?qū)?yīng)到數(shù)據(jù)的語(yǔ)義特征。比如對(duì)于MNIST手寫(xiě)數(shù)字圖片,我們介意認(rèn)為數(shù)字的類(lèi)別、字體大小和書(shū)寫(xiě)風(fēng)格等是圖片的隱藏變量,希望模型能夠?qū)W習(xí)到這些分離的(Disentangled)可解釋特征表示方法,從而可以通過(guò)認(rèn)為控制隱變量來(lái)生成指定內(nèi)容的樣本。對(duì)于CelebA名人照片數(shù)據(jù)集,希望模型可以把發(fā)型、眼鏡佩戴情況、面部表情等特征分隔開(kāi),從而生成指定形態(tài)的人臉圖片。
?分離的可解釋特征有什么好處呢?它可以讓神經(jīng)網(wǎng)絡(luò)的可解釋性更強(qiáng),比如z\boldsymbol zz包含了一些分離的可解釋特征,那么我們可以通過(guò)僅僅改變這一個(gè)位置上面的特征來(lái)獲得不同語(yǔ)義的生成數(shù)據(jù),如下圖所示,通過(guò)將“戴眼鏡男士”與“不戴眼鏡男士”的隱向量相減,并與“不戴眼鏡女士”的隱向量相加,可以生成“戴眼鏡女士”的生成圖片。
3. CycleGAN
?CycleGAN[4]是華人朱俊彥提出的無(wú)監(jiān)督方式進(jìn)行圖片風(fēng)格相互轉(zhuǎn)換的算法,由于算法清晰簡(jiǎn)單,實(shí)驗(yàn)效果完成的較好,這項(xiàng)工作受到了很多的贊譽(yù)。CycleGAN基本的假設(shè)是,如果由圖片A轉(zhuǎn)換到圖片B,再?gòu)膱D片B轉(zhuǎn)換到A′A'A′,那么A′A'A′應(yīng)該和A是同一張圖片。因此除了設(shè)立標(biāo)準(zhǔn)的GAN損失項(xiàng)外,CycleGAN還增設(shè)了循環(huán)一致性損失(Cycle Consistency Loss),來(lái)爆炸A′A'A′盡可能與A逼近。CycleGAN圖片的轉(zhuǎn)換效果如下圖所示:
4. WGAN
?GAN的訓(xùn)練問(wèn)題一直被詬病,很容易出現(xiàn)訓(xùn)練不收斂和模式崩塌的現(xiàn)象。WGAN[5]從理論層面分析了原始的GAN使用JS散度存在的缺陷,并提出了可以使用Wasserstein距離來(lái)解決這個(gè)問(wèn)題。在WGAN-GP[6]中,作者提出了通過(guò)添加梯度懲罰項(xiàng),從工程層面很好地實(shí)現(xiàn)了WGAN算法,并且實(shí)驗(yàn)性證實(shí)了WGAN訓(xùn)練穩(wěn)定的優(yōu)點(diǎn)。
5. Equal GAN
?從GAN的誕生至2017年底,GAN Zoo已經(jīng)收集了超過(guò)214種GAN網(wǎng)絡(luò)變種。(數(shù)據(jù)來(lái)自http://www.sohu.com/a/207570263_610300)這些GAN的變種或多或少地提出了一些創(chuàng)新,然而Google Brain的幾位研究院在[7]論文中提供了另一個(gè)觀點(diǎn):沒(méi)有證據(jù)表明我們測(cè)試的GAN變種算法一直持續(xù)地比最初始的GAN要好。論文中對(duì)這些GAN變種進(jìn)行了相對(duì)公平、全面的比較,在有足夠計(jì)算資源的情況下,發(fā)現(xiàn)幾乎所有的GAN變種都能達(dá)到相似的性能(FID分?jǐn)?shù))。這項(xiàng)工作提醒業(yè)界是否這些GAN變種具有本質(zhì)上的創(chuàng)新。
6. Self-Attention GAN
?Attention機(jī)制在自然語(yǔ)言處理(NLP)中間已經(jīng)用得非常廣泛了,Self-Attention GAN(SAGAN)[8]借鑒了Attention機(jī)制,提出了基于自注意力機(jī)制的GAN變種。SAGAN把圖片的逼真度指標(biāo):Inception score,從最好的36.8提升到52.52,Frechet Inception distance,從27.62降到18.65。從圖片生成效果上來(lái)看,SAGAN取得的突破是十分顯著的,同時(shí)也啟發(fā)業(yè)界對(duì)自注意力機(jī)制的關(guān)注。
7. BigGAN
?在SAGAN的基礎(chǔ)上,BigGAN[9]嘗試將GAN的訓(xùn)練擴(kuò)展到大規(guī)模上去,利用正交正則化等技巧保證訓(xùn)練過(guò)程的穩(wěn)定性。BigGAN的意義在于啟發(fā)人們,GAN網(wǎng)絡(luò)的訓(xùn)練同樣可以從大數(shù)據(jù)、大算力等方面受益。BigGAN圖片生成效果達(dá)到了前所未有的高度:Inception score記錄提升到166.5(提高了52.52);Frechet Inception Distance下降到7.4,降低了18.65,如下圖所示,圖片的分辨率可達(dá)512×512,圖片細(xì)節(jié)及其逼真。
參考文獻(xiàn)
參考文獻(xiàn):
[1] I. Goodfellow, J. Pouget-Abadie, M. Mirza, B. Xu, D. Warde-Farley, S. Ozair, A. Courville 和 Y. Bengio, “Generative Adversarial Nets,” 出處 Advances in Neural Information Processing Systems 27, Z. Ghahramani, M. Welling, C. Cortes, N. D. Lawrence 和 K. Q. Weinberger, 編輯, Curran Associates, Inc., 2014, pp. 2672-2680.
[2] A. Radford, L. Metz 和 S. Chintala, Unsupervised Representation Learning with Deep Convolutional Generative Adversarial Networks, 2015.
[3] X. Chen, Y. Duan, R. Houthooft, J. Schulman, I. Sutskever 和 P. Abbeel, “InfoGAN: Interpretable Representation Learning by Information Maximizing Generative Adversarial Nets,” 出處 Advances in Neural Information Processing Systems 29, D. D. Lee, M. Sugiyama, U. V. Luxburg, I. Guyon 和 R. Garnett, 編輯, Curran Associates, Inc., 2016, pp. 2172-2180.
[4] J.-Y. Zhu, T. Park, P. Isola 和 A. A. Efros, “Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks,” 出處 Computer Vision (ICCV), 2017 IEEE International Conference on, 2017.
[5] M. Arjovsky, S. Chintala 和 L. Bottou, “Wasserstein Generative Adversarial Networks,” 出處 Proceedings of the 34th International Conference on Machine Learning, International Convention Centre, Sydney, Australia, 2017.
[6] I. Gulrajani, F. Ahmed, M. Arjovsky, V. Dumoulin 和 A. C. Courville, “Improved Training of Wasserstein GANs,” 出處 Advances in Neural Information Processing Systems 30, I. Guyon, U. V. Luxburg, S. Bengio, H. Wallach, R. Fergus, S. Vishwanathan 和 R. Garnett, 編輯, Curran Associates, Inc., 2017, pp. 5767-5777.
[7] M. Lucic, K. Kurach, M. Michalski, O. Bousquet 和 S. Gelly, “Are GANs Created Equal? A Large-scale Study,” 出處 Proceedings of the 32Nd International Conference on Neural Information Processing Systems, USA, 2018.
[8] H. Zhang, I. Goodfellow, D. Metaxas 和 A. Odena, “Self-Attention Generative Adversarial Networks,” 出處 Proceedings of the 36th International Conference on Machine Learning, Long Beach, California, USA, 2019.
[9] A. Brock, J. Donahue 和 K. Simonyan, “Large Scale GAN Training for High Fidelity Natural Image Synthesis,” 出處 International Conference on Learning Representations, 2019.
總結(jié)
以上是生活随笔為你收集整理的深度学习之生成对抗网络(4)GAN变种的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 合环运行有哪些条件
- 下一篇: win10分区助手怎么使用