當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

生成对抗性网络简介

發(fā)布時(shí)間：2024/1/18 编程问答 43 豆豆

生活随笔收集整理的這篇文章主要介紹了生成对抗性网络简介小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

生成對抗性網(wǎng)絡(luò)簡介

- 1. 原理
- 1. GANs如何工作
- 2. GAN架構(gòu)
- 3. 培訓(xùn)GAN
- 4. 藝術(shù)家與評論家
- 5. 評估指標(biāo)
- 6. GAN變體
- 7. GAN應(yīng)用
- 8. 圖像合成（Image synthesis）
- 9. 圖像到圖像的轉(zhuǎn)換（Image-to-image translation）
- 10. 文本到圖像（Text-to-Image）
- 11. 超越圖像
- 12. 其他GAN應(yīng)用
- 參考

這篇博客將介紹生成對抗性網(wǎng)絡(luò)（GAN）、各種GAN變體以及解決現(xiàn)實(shí)世界問題的有趣的應(yīng)用程序。雖然這篇文章中的大多數(shù)例子都是關(guān)于將GANs用于藝術(shù)和設(shè)計(jì)，但同樣的技術(shù)可以很容易地適應(yīng)并應(yīng)用于許多其他領(lǐng)域：醫(yī)學(xué)、農(nóng)業(yè)和氣候變化。GANs功能強(qiáng)大且多才多藝。

Generative Adversarial Networks (GANs) 生成對抗性網(wǎng)絡(luò)

這是GAN系列教程的第一篇文章：

生成對抗性網(wǎng)絡(luò)簡介（本博客）

入門：時(shí)尚MNIST的DCGAN

GAN訓(xùn)練挑戰(zhàn)：彩色圖像的DCGAN

1. 原理

1. GANs如何工作

GANs是一種生成模型，它觀察許多樣本分布，并生成更多相同分布的樣本。其他生成模型包括變分自動(dòng)編碼器（VAE variational autoencoders ）和自回歸模型（ Autoregressive models）。

2. GAN架構(gòu)

在基本的GAN架構(gòu)中有兩個(gè)網(wǎng)絡(luò)：生成器模型和鑒別器模型。 GANs的名字中有“對抗性”一詞，因?yàn)檫@兩個(gè)網(wǎng)絡(luò)是同時(shí)訓(xùn)練的，并且相互競爭，就像在國際象棋等零和游戲中一樣。

生成器（generator ）模型生成新的圖像。生成器的目標(biāo)是生成看起來如此真實(shí)的圖像，從而愚弄鑒別器。在用于圖像合成的最簡單的GAN架構(gòu)中，輸入通常是隨機(jī)噪聲，其輸出是生成的圖像。

鑒別器（discriminator ）只是一個(gè)二進(jìn)制圖像分類器，它的工作是分類圖像是真的還是假的。在更復(fù)雜的GANs中，可以用圖像或文本來調(diào)節(jié)鑒別器，以進(jìn)行圖像到圖像的翻譯或文本到圖像的生成（Image-to-Image translation or Text-to-Image generation））。

綜合來看，GAN的基本架構(gòu)是這樣的：生成器生成假圖像；將真實(shí)圖像（訓(xùn)練數(shù)據(jù)集）和偽圖像分別分批輸入鑒別器。然后，鑒別器告訴圖像是真的還是假的。

3. 培訓(xùn)GAN

Minimax游戲：G對D
大多數(shù)深度學(xué)習(xí)模型（例如圖像分類）都是基于優(yōu)化：找到成本函數(shù)的低值。GANs是不同的，因?yàn)閮蓚€(gè)網(wǎng)絡(luò)：生成器和鑒別器，每個(gè)網(wǎng)絡(luò)都有自己的成本，目標(biāo)相反：
生成器試圖欺騙鑒別器，使其將假圖像視為真實(shí)圖像
鑒別器試圖正確地對真實(shí)圖像和偽造圖像進(jìn)行分類
下面的極小極大博弈數(shù)學(xué)函數(shù)說明了訓(xùn)練過程中的這種對抗性動(dòng)態(tài)。如果你不理解數(shù)學(xué)，不要太擔(dān)心，我將在未來的DCGAN文章中對G損失和D損失進(jìn)行編碼時(shí)更詳細(xì)地解釋。

在訓(xùn)練過程中，生成器和鑒別器都會(huì)隨著時(shí)間的推移而改進(jìn)。生成器越來越善于生成與訓(xùn)練數(shù)據(jù)相似的圖像，而鑒別器則越來越善于區(qū)分真實(shí)圖像和偽造圖像。
訓(xùn)練GAN是為了在以下情況下在游戲中找到平衡（equilibrium）：
生成器生成的數(shù)據(jù)看起來與訓(xùn)練數(shù)據(jù)幾乎相同。
鑒別器不再能夠區(qū)分假圖像和真實(shí)圖像之間的區(qū)別。

4. 藝術(shù)家與評論家

模仿杰作是學(xué)習(xí)藝術(shù)的好方法-“藝術(shù)家如何在世界著名博物館復(fù)制杰作”。作為一名模仿杰作的人類藝術(shù)家，我會(huì)找到我喜歡的藝術(shù)品作為靈感，并盡可能多地復(fù)制它：輪廓、顏色、構(gòu)圖和筆觸，等等。然后一位評論家看了一眼這本書，告訴它看起來是否像真正的杰作。

GANs的培訓(xùn)與該過程類似，可以把生成器看作藝術(shù)家，把鑒別器看作評論家。不過，請注意人類藝術(shù)家和機(jī)器藝術(shù)家之間的類比差異：生成器無法訪問或查看它試圖復(fù)制的杰作。相反，它只依靠鑒別器的反饋來改善它生成的圖像。

5. 評估指標(biāo)

一個(gè)好的GAN模型應(yīng)該具有良好的圖像質(zhì)量——例如不模糊并且類似于訓(xùn)練圖像；多樣性：生成了各種各樣的圖像，這些圖像近似于訓(xùn)練數(shù)據(jù)集的分布。

為了評估GAN模型，可以在訓(xùn)練期間或通過與生成器模型的推理來直觀地檢查生成的圖像。如果你想定量評估GAN，這里有兩個(gè)流行的評估指標(biāo)：

Inception Score 捕捉生成圖像的質(zhì)量和多樣性
Fréchet Inception Distance 比較真實(shí)圖像和偽造圖像，而不僅僅是孤立地評估生成的圖像

6. GAN變體

自從Ian Goodfellow等人在2014年發(fā)表最初的GAN論文以來，已經(jīng)出現(xiàn)了許多GAN變體。它們傾向于相互建立，要么解決特定的訓(xùn)練問題，要么創(chuàng)建新的GANs架構(gòu)，以實(shí)現(xiàn)對GANs的更精細(xì)控制或更好的圖像。
以下是其中一些突破性的變體，為未來GAN的進(jìn)步奠定了基礎(chǔ)。無論如何，這并不是所有GAN變體的完整列表。

DCGAN（具有深度卷積生成對抗性網(wǎng)絡(luò)的無監(jiān)督表示學(xué)習(xí)）是第一個(gè)在其網(wǎng)絡(luò)架構(gòu)中使用卷積神經(jīng)網(wǎng)絡(luò)（CNN）的GAN提案。目前大多數(shù)GAN變體在某種程度上是基于DCGAN的。因此，DCGAN很可能是你的第一個(gè)GAN教程，學(xué)習(xí)GAN的“Hello World”。
創(chuàng)建WGAN（Wasserstein GAN）和WGAN-GP（是為了解決GAN訓(xùn)練挑戰(zhàn)，如模式崩潰——當(dāng)生成器重復(fù)生成相同的圖像或（訓(xùn)練圖像的）一小部分時(shí)。WGAN-GP通過使用梯度懲罰而不是權(quán)重裁剪來提高訓(xùn)練穩(wěn)定性，從而改進(jìn)了WGAN。
cGAN（條件性生成對抗性網(wǎng)絡(luò)）首先引入了基于條件生成圖像的概念，該條件可以是圖像類標(biāo)簽、圖像或文本，就像在更復(fù)雜的GAN中一樣。Pix2Pix和CycleGAN都是條件GAN，使用圖像作為圖像到圖像轉(zhuǎn)換的條件。
Pix2PixHD（具有條件GANs的高分辨率圖像合成和語義操作）消除了多個(gè)輸入條件的影響，并如論文示例所示：控制生成的服裝圖像的顏色、紋理和形狀，用于時(shí)尚設(shè)計(jì)。此外，它可以生成逼真的2k高分辨率圖像。
SAGAN（自注意生成對抗性網(wǎng)絡(luò)）提高了圖像合成質(zhì)量：通過將自注意模塊（NLP模型中的一個(gè)概念）應(yīng)用于神經(jīng)網(wǎng)絡(luò)，使用來自所有特征位置的線索生成細(xì)節(jié)。谷歌DeepMind擴(kuò)大了SAGAN的規(guī)模，打造了BigGAN。
BigGAN（用于高保真自然圖像合成的大規(guī)模GAN訓(xùn)練）可以創(chuàng)建高分辨率和高保真圖像。
ProGAN、StyleGAN和StyleGAN2都可以創(chuàng)建高分辨率圖像。
ProGAN（用于提高質(zhì)量、穩(wěn)定性和變異性的GAN的漸進(jìn)式增長）使網(wǎng)絡(luò)逐步增長。
由NVIDIA Research推出的StyleGAN（一種用于生成對抗性網(wǎng)絡(luò)的基于風(fēng)格的生成器架構(gòu)）使用了具有自適應(yīng)實(shí)例規(guī)范化（AdaIN）的進(jìn)步增長的ProGAN加圖像風(fēng)格傳輸，并能夠控制生成圖像的風(fēng)格。
StyleGAN2（分析和改進(jìn)StyleGAN的圖像質(zhì)量）通過在歸一化、漸進(jìn)生長和正則化技術(shù)等領(lǐng)域進(jìn)行一些改進(jìn)，對原始StyleGAN進(jìn)行了改進(jìn)。

7. GAN應(yīng)用

GANs是通用的，可以用于各種應(yīng)用。

8. 圖像合成（Image synthesis）

圖像合成可能很有趣，并提供實(shí)際用途，例如機(jī)器學(xué)習(xí)（ML）訓(xùn)練中的圖像增強(qiáng)或幫助創(chuàng)建藝術(shù)品和設(shè)計(jì)資產(chǎn)。
GANs可以用來創(chuàng)建以前從未存在過的圖像，這也許是GANs最出名的地方。 它們可以創(chuàng)造出看不見的新面孔、貓的形象和藝術(shù)品，等等。我在下面包含了一些高保真度的圖像，這些圖像是我從StyleGAN2支持的網(wǎng)站上生成的。轉(zhuǎn)到這些鏈接，自己做實(shí)驗(yàn)，看看你從實(shí)驗(yàn)中得到了什么圖像。

Zalando Research使用GANs生成基于顏色、形狀和紋理的時(shí)尚設(shè)計(jì)（在GANs中解開多個(gè)條件輸入）。
臉書研究的時(shí)尚++超越了創(chuàng)造時(shí)尚，而是推薦時(shí)尚改變建議：“什么是時(shí)尚？”

GANs還可以幫助訓(xùn)練強(qiáng)化劑。例如，NVIDIA的GameGAN模擬游戲環(huán)境。

9. 圖像到圖像的轉(zhuǎn)換（Image-to-image translation）

圖像到圖像的轉(zhuǎn)換是一項(xiàng)計(jì)算機(jī)視覺任務(wù)，它將輸入圖像轉(zhuǎn)換到另一個(gè)領(lǐng)域（例如，顏色或風(fēng)格），同時(shí)保留原始圖像內(nèi)容。這也許是在藝術(shù)和設(shè)計(jì)中使用GANs最重要的任務(wù)之一。
Pix2Pix（具有條件對抗性網(wǎng)絡(luò)的圖像到圖像翻譯）是一種條件GAN，可能是最著名的圖像到圖片轉(zhuǎn)換GAN。然而，Pix2Pix的一個(gè)主要缺點(diǎn)是它需要成對的訓(xùn)練圖像數(shù)據(jù)集。

使用條件對抗網(wǎng)絡(luò)的圖像到圖像轉(zhuǎn)換
研究了作為通用解決方案的條件對抗網(wǎng)絡(luò)圖像到圖像的轉(zhuǎn)換問題。這些網(wǎng)絡(luò)不僅學(xué)習(xí)從輸入圖像映射到輸出圖像，還要學(xué)習(xí)損失函數(shù)訓(xùn)練此映射。這使得應(yīng)用相同的通用方法成為可能,對于傳統(tǒng)上需要非常不同的損失公式的問題。我們證明了這種方法可以有效地合成來自標(biāo)簽貼圖、從邊緣貼圖重建對象以及為圖像著色等其他任務(wù)。 事實(shí)上，自從 pix2pix 軟件發(fā)布以來這篇論文，大量網(wǎng)民（其中不乏藝術(shù)家）紛紛發(fā)帖他們自己對系統(tǒng)的實(shí)驗(yàn)，進(jìn)一步證明了其廣泛的適用性和易于采用，無需調(diào)整參數(shù)。如這項(xiàng)工作表明可以在不手工設(shè)計(jì)損失的情況下獲得合理的結(jié)果函數(shù)之一。

GAN中多個(gè)條件輸入的糾纏
在本文中，我們提出了一種在生成對抗性網(wǎng)絡(luò)（GANs）中解開多輸入條件影響的方法。特別是展示了為計(jì)算機(jī)輔助時(shí)裝設(shè)計(jì)控制生成的服裝圖像的顏色、紋理和形狀的方法。為了解開輸入屬性的影響，我們定制了具有一致性損失函數(shù)的條件GAN。在實(shí)驗(yàn)中一次調(diào)整一個(gè)輸入，并表明可以引導(dǎo)網(wǎng)絡(luò)生成新穎逼真的服裝圖像。此外還介紹了一個(gè)服裝設(shè)計(jì)過程，該過程估計(jì)現(xiàn)有服裝的輸入屬性，并使用生成器對其進(jìn)行修改。

CycleGAN基于Pix2Pix構(gòu)建，只需要未配對的圖像，在現(xiàn)實(shí)世界中更容易獲得。它可以將蘋果的圖像轉(zhuǎn)換為橙子，白天轉(zhuǎn)換為夜晚，馬的圖像轉(zhuǎn)換成斑馬…好吧。這些可能不是現(xiàn)實(shí)世界中的用例；從那時(shí)起，為藝術(shù)和設(shè)計(jì)開發(fā)了許多其他圖像對圖像的Gan。

現(xiàn)在你可以把你的自拍翻譯成漫畫、繪畫、卡通或任何其他你能想象到的風(fēng)格。例如使用白盒卡通GAN（White-box CartoonGAN）將我的自拍變成卡通版。

著色不僅可以應(yīng)用于黑白照片，還可以應(yīng)用于藝術(shù)品或設(shè)計(jì)資產(chǎn)。在藝術(shù)品制作或UI/UX設(shè)計(jì)過程中，我們從輪廓或輪廓開始，然后上色。自動(dòng)著色可以為藝術(shù)家和設(shè)計(jì)師提供靈感。

10. 文本到圖像（Text-to-Image）

我們已經(jīng)看到了很多由GANs翻譯的圖像到圖像的例子。還可以使用單詞作為生成圖像的條件，這比使用類標(biāo)簽作為條件更靈活、更直觀。
近年來，NLP與計(jì)算機(jī)視覺的結(jié)合已成為一個(gè)熱門的研究領(lǐng)域。以下是幾個(gè)例子：用于高分辨率圖像合成的StyleCLIP和Taming Transformers（StyleCLIP and Taming Transformers for High-Resolution Image Synthesis）。

展示了如何 （i）使用CNN來學(xué)習(xí)上下文豐富的圖像詞匯成分，進(jìn)而（ii）利用變壓器有效地對其建模高分辨率圖像中的構(gòu)圖。 我們的方法很容易應(yīng)用于條件合成任務(wù)，其中既有非空間信息，如對象類和空間信息（如分割）可以控制生成的圖像。特別是，我們展示了關(guān)于使用變壓器對百萬像素圖像進(jìn)行語義引導(dǎo)合成并獲得類條件 ImageNet 上自回歸模型的最新情況。

11. 超越圖像

GANs不僅可以用于圖像，還可以用于音樂和視頻。例如，Magenta項(xiàng)目中的GANSynth可以制作音樂。這里有一個(gè)有趣的GAN視頻動(dòng)作轉(zhuǎn)移示例，名為“Everyone Dance Now”（YouTube | Paper）。我一直很喜歡看這段迷人的視頻，視頻中專業(yè)舞者的舞蹈動(dòng)作被轉(zhuǎn)移到業(yè)余愛好者身上。

12. 其他GAN應(yīng)用

以下是其他一些GAN應(yīng)用程序：

圖像修復(fù)：替換圖像中缺失的部分。

圖像取消剪切或擴(kuò)展：這可能有助于模擬虛擬現(xiàn)實(shí)中的相機(jī)參數(shù)。

無界：用于圖像擴(kuò)展的生成對抗性網(wǎng)絡(luò)
圖像擴(kuò)展模型在圖像編輯、計(jì)算攝影和計(jì)算機(jī)圖形學(xué)中有著廣泛的應(yīng)用。雖然文獻(xiàn)中對圖像修復(fù)進(jìn)行了廣泛的研究，但將最先進(jìn)的修復(fù)方法直接應(yīng)用于圖像擴(kuò)展是一項(xiàng)挑戰(zhàn)，因?yàn)樗鼈兺鶗?huì)生成語義不一致的模糊或重復(fù)像素。我們在生成對抗性網(wǎng)絡(luò)（GAN）的鑒別器中引入了語義條件，并在具有連貫語義和視覺上令人愉悅的顏色和紋理的圖像擴(kuò)展方面取得了很好的結(jié)果。我們還在極限擴(kuò)展中顯示了有希望的結(jié)果，例如全景生成。

超分辨率（SRGAN和ESRGAN）：將圖像從低分辨率增強(qiáng)到高分辨率。這可能對照片編輯或醫(yī)學(xué)圖像增強(qiáng)非常有幫助。

使用生成對抗性網(wǎng)絡(luò)的照片真實(shí)單圖像超分辨率
盡管使用更快、更深的卷積神經(jīng)網(wǎng)絡(luò)在單圖像超分辨率的準(zhǔn)確性和速度方面取得了突破，但一個(gè)核心問題在很大程度上仍未解決：當(dāng)在大規(guī)模放大因子下進(jìn)行超分辨率時(shí)，如何恢復(fù)更精細(xì)的紋理細(xì)節(jié)？基于優(yōu)化的超分辨率方法的行為主要由目標(biāo)函數(shù)的選擇驅(qū)動(dòng)。最近的工作主要集中在最小化均方重建誤差上。由此產(chǎn)生的估計(jì)具有高峰值信噪比，但它們往往缺乏高頻細(xì)節(jié)，并且在感覺上不令人滿意，因?yàn)樗鼈儫o法匹配在更高分辨率下預(yù)期的保真度。在本文中，我們提出了SRGAN，一種用于圖像超分辨率（SR）的生成對抗性網(wǎng)絡(luò)（GAN）。據(jù)我們所知，這是第一個(gè)能夠推斷4倍放大因子的照片逼真自然圖像的框架。為了實(shí)現(xiàn)這一點(diǎn)，我們提出了一個(gè)感知損失函數(shù)，該函數(shù)由對抗性損失和內(nèi)容損失組成。對抗性損失使用鑒別器網(wǎng)絡(luò)將我們的解決方案推向自然圖像流形，該鑒別器被訓(xùn)練來區(qū)分超分辨率圖像和原始照片逼真圖像。 此外使用了由感知相似性而不是像素空間中的相似性驅(qū)動(dòng)的內(nèi)容損失。 深度殘差網(wǎng)絡(luò)能夠在公共基準(zhǔn)上從大量下采樣的圖像中恢復(fù)照片逼真的紋理。一項(xiàng)廣泛的平均意見得分（MOS）測試顯示，使用SRGAN在感知質(zhì)量方面有非常顯著的提高。與使用任何最先進(jìn)的方法獲得的MOS分?jǐn)?shù)相比，使用SRGAN獲得的MOS得分更接近原始高分辨率圖像的MOS分?jǐn)?shù)。

以下是一個(gè)如何利用GANs應(yīng)對氣候變化的例子。地球智能引擎是FDL（前沿發(fā)展實(shí)驗(yàn)室）2020項(xiàng)目，使用Pix2PixHD模擬洪水后一個(gè)地區(qū)的樣子。

地球智能引擎是FDL 2020項(xiàng)目，旨在幫助城市規(guī)劃者更有效、更直觀地溝通洪水風(fēng)險(xiǎn)，以支持氣候適應(yīng)性基礎(chǔ)設(shè)施的發(fā)展。
我們通過將生成計(jì)算機(jī)視覺方法與氣候科學(xué)模型相結(jié)合，創(chuàng)建了第一個(gè)物理一致、真實(shí)感強(qiáng)的沿海洪水和重新造林可視化引擎。我們通過確保GAN生成圖像的物理一致性的新方法，以及使用多個(gè)視覺和氣候模型的模塊化方法來實(shí)現(xiàn)這一點(diǎn)。

我們已經(jīng)看到了來自論文和研究實(shí)驗(yàn)室的GAN演示。以及開源項(xiàng)目。這些天，我們開始看到使用GANs的真正商業(yè)應(yīng)用程序。設(shè)計(jì)師熟悉使用圖標(biāo)中的設(shè)計(jì)資源8。看看他們的網(wǎng)站，你會(huì)注意到GAN的應(yīng)用程序：從Smart Upscaler、Generated Photos到Face Generator。

參考

https://pyimagesearch.com/2021/09/13/intro-to-generative-adversarial-networks-gans/

總結(jié)

以上是生活随笔為你收集整理的生成对抗性网络简介的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：做小红书营销，如何注意发布低腰产品的图文
下一篇：【第二讲】数据结构