當前位置：首頁 > 人工智能 > pytorch >内容正文

pytorch

深度学习之生成对抗网络（4）GAN变种

發布時間：2023/12/15 pytorch 70 豆豆

生活随笔收集整理的這篇文章主要介紹了深度学习之生成对抗网络（4）GAN变种小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

深度學習之生成對抗網絡（4）GAN變種

1. DCGAN
2. InfoGAN
3. CycleGAN
4. WGAN
5. Equal GAN
6. Self-Attention GAN
7. BigGAN
參考文獻

?在原始的GAN論文中，Ian Goodfellow從理論層面分析了GAN網絡的收斂性，并且在多個經典圖片數據集上測試了圖片生成的效果，如下圖所示，其中（a）為MNIST數據，（b）為Toronto Face數據集，（c）、（d）為CIFAR10數據集。

原始GAN圖片生成效果[1]

?可以看到，原始GAN模型在圖片生成效果上并不突出，和VAE差別不明顯，此時并沒有展現出它強大的分布逼近能力。但是由于GAN在理論方面較新穎，實現方面也有很多可以改進的地方，大大地激發了學術界的研究興趣。在接下來的數年里，GAN的研究如火如荼的進行，并且也取得了實質性的進展。接下來我們將介紹幾個意義比較重大的GAN變種。

1. DCGAN

?最初始的GAN網絡主要基于全連接層實現生成器G和判別器D網絡，由于圖片的維度較高，網絡參數量巨大，訓練的效果并不優秀。DCGAN[2]提出了使用轉置卷積層實現的生成網絡，普通卷積層來實現的判別網絡，大大地降低了網絡參數量，同時圖片的生成效果也大幅提升，展現了GAN模型在圖片生成效果上超越VAE模型的潛質。此外，DCGAN作者還提出了一系列經驗性的GAN網絡訓練技巧，這些技巧在WGAN提出之前被證實有益于網絡的穩定訓練。前面我們已經使用DCGAN模型完成了二次元動漫頭像的圖片生成實戰。

2. InfoGAN

?InfoGAN[3]嘗試使用無監督的方式去學習輸入 $x\boldsymbol x$ 的可解釋隱向量 $z\boldsymbol z$ 的表示方法（Interpretable Representation），即希望隱向量 $z\boldsymbol z$ 能夠對應到數據的語義特征。比如對于MNIST手寫數字圖片，我們介意認為數字的類別、字體大小和書寫風格等是圖片的隱藏變量，希望模型能夠學習到這些分離的（Disentangled）可解釋特征表示方法，從而可以通過認為控制隱變量來生成指定內容的樣本。對于CelebA名人照片數據集，希望模型可以把發型、眼鏡佩戴情況、面部表情等特征分隔開，從而生成指定形態的人臉圖片。

?分離的可解釋特征有什么好處呢？它可以讓神經網絡的可解釋性更強，比如 $z\boldsymbol z$ 包含了一些分離的可解釋特征，那么我們可以通過僅僅改變這一個位置上面的特征來獲得不同語義的生成數據，如下圖所示，通過將“戴眼鏡男士”與“不戴眼鏡男士”的隱向量相減，并與“不戴眼鏡女士”的隱向量相加，可以生成“戴眼鏡女士”的生成圖片。

分離的特征示意圖[3]

3. CycleGAN

?CycleGAN[4]是華人朱俊彥提出的無監督方式進行圖片風格相互轉換的算法，由于算法清晰簡單，實驗效果完成的較好，這項工作受到了很多的贊譽。CycleGAN基本的假設是，如果由圖片A轉換到圖片B，再從圖片B轉換到 $A^{'}$ ，那么 $A^{'}$ 應該和A是同一張圖片。因此除了設立標準的GAN損失項外，CycleGAN還增設了循環一致性損失（Cycle Consistency Loss），來爆炸 $A^{'}$ 盡可能與A逼近。CycleGAN圖片的轉換效果如下圖所示：

圖片轉換效果[4]

4. WGAN

?GAN的訓練問題一直被詬病，很容易出現訓練不收斂和模式崩塌的現象。WGAN[5]從理論層面分析了原始的GAN使用JS散度存在的缺陷，并提出了可以使用Wasserstein距離來解決這個問題。在WGAN-GP[6]中，作者提出了通過添加梯度懲罰項，從工程層面很好地實現了WGAN算法，并且實驗性證實了WGAN訓練穩定的優點。

5. Equal GAN

?從GAN的誕生至2017年底，GAN Zoo已經收集了超過214種GAN網絡變種。（數據來自http://www.sohu.com/a/207570263_610300）這些GAN的變種或多或少地提出了一些創新，然而Google Brain的幾位研究院在[7]論文中提供了另一個觀點：沒有證據表明我們測試的GAN變種算法一直持續地比最初始的GAN要好。論文中對這些GAN變種進行了相對公平、全面的比較，在有足夠計算資源的情況下，發現幾乎所有的GAN變種都能達到相似的性能（FID分數）。這項工作提醒業界是否這些GAN變種具有本質上的創新。

6. Self-Attention GAN

?Attention機制在自然語言處理（NLP）中間已經用得非常廣泛了，Self-Attention GAN（SAGAN）[8]借鑒了Attention機制，提出了基于自注意力機制的GAN變種。SAGAN把圖片的逼真度指標：Inception score，從最好的36.8提升到52.52，Frechet Inception distance，從27.62降到18.65。從圖片生成效果上來看，SAGAN取得的突破是十分顯著的，同時也啟發業界對自注意力機制的關注。

SAGAN中采用的Attention機制[8]

7. BigGAN

?在SAGAN的基礎上，BigGAN[9]嘗試將GAN的訓練擴展到大規模上去，利用正交正則化等技巧保證訓練過程的穩定性。BigGAN的意義在于啟發人們，GAN網絡的訓練同樣可以從大數據、大算力等方面受益。BigGAN圖片生成效果達到了前所未有的高度：Inception score記錄提升到166.5（提高了52.52）；Frechet Inception Distance下降到7.4，降低了18.65，如下圖所示，圖片的分辨率可達512×512，圖片細節及其逼真。

BigGAN生成圖片樣例

參考文獻

參考文獻：
[1] I. Goodfellow, J. Pouget-Abadie, M. Mirza, B. Xu, D. Warde-Farley, S. Ozair, A. Courville 和 Y. Bengio, “Generative Adversarial Nets,” 出處 Advances in Neural Information Processing Systems 27, Z. Ghahramani, M. Welling, C. Cortes, N. D. Lawrence 和 K. Q. Weinberger, 編輯, Curran Associates, Inc., 2014, pp. 2672-2680.
[2] A. Radford, L. Metz 和 S. Chintala, Unsupervised Representation Learning with Deep Convolutional Generative Adversarial Networks, 2015.
[3] X. Chen, Y. Duan, R. Houthooft, J. Schulman, I. Sutskever 和 P. Abbeel, “InfoGAN: Interpretable Representation Learning by Information Maximizing Generative Adversarial Nets,” 出處 Advances in Neural Information Processing Systems 29, D. D. Lee, M. Sugiyama, U. V. Luxburg, I. Guyon 和 R. Garnett, 編輯, Curran Associates, Inc., 2016, pp. 2172-2180.
[4] J.-Y. Zhu, T. Park, P. Isola 和 A. A. Efros, “Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks,” 出處 Computer Vision (ICCV), 2017 IEEE International Conference on, 2017.
[5] M. Arjovsky, S. Chintala 和 L. Bottou, “Wasserstein Generative Adversarial Networks,” 出處 Proceedings of the 34th International Conference on Machine Learning, International Convention Centre, Sydney, Australia, 2017.
[6] I. Gulrajani, F. Ahmed, M. Arjovsky, V. Dumoulin 和 A. C. Courville, “Improved Training of Wasserstein GANs,” 出處 Advances in Neural Information Processing Systems 30, I. Guyon, U. V. Luxburg, S. Bengio, H. Wallach, R. Fergus, S. Vishwanathan 和 R. Garnett, 編輯, Curran Associates, Inc., 2017, pp. 5767-5777.
[7] M. Lucic, K. Kurach, M. Michalski, O. Bousquet 和 S. Gelly, “Are GANs Created Equal? A Large-scale Study,” 出處 Proceedings of the 32Nd International Conference on Neural Information Processing Systems, USA, 2018.
[8] H. Zhang, I. Goodfellow, D. Metaxas 和 A. Odena, “Self-Attention Generative Adversarial Networks,” 出處 Proceedings of the 36th International Conference on Machine Learning, Long Beach, California, USA, 2019.
[9] A. Brock, J. Donahue 和 K. Simonyan, “Large Scale GAN Training for High Fidelity Natural Image Synthesis,” 出處 International Conference on Learning Representations, 2019.

總結

以上是生活随笔為你收集整理的深度学习之生成对抗网络（4）GAN变种的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：合环运行有哪些条件
下一篇：深度学习之生成对抗网络（6）GAN训练难