日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

生成对抗性网络简介

發(fā)布時(shí)間:2024/1/18 编程问答 43 豆豆
生活随笔 收集整理的這篇文章主要介紹了 生成对抗性网络简介 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

生成對抗性網(wǎng)絡(luò)簡介

    • 1. 原理
    • 1. GANs如何工作
    • 2. GAN架構(gòu)
    • 3. 培訓(xùn)GAN
    • 4. 藝術(shù)家與評論家
    • 5. 評估指標(biāo)
    • 6. GAN變體
    • 7. GAN應(yīng)用
    • 8. 圖像合成(Image synthesis)
    • 9. 圖像到圖像的轉(zhuǎn)換(Image-to-image translation)
    • 10. 文本到圖像(Text-to-Image)
    • 11. 超越圖像
    • 12. 其他GAN應(yīng)用
    • 參考

這篇博客將介紹生成對抗性網(wǎng)絡(luò)(GAN)、各種GAN變體以及解決現(xiàn)實(shí)世界問題的有趣的應(yīng)用程序。雖然這篇文章中的大多數(shù)例子都是關(guān)于將GANs用于藝術(shù)和設(shè)計(jì),但同樣的技術(shù)可以很容易地適應(yīng)并應(yīng)用于許多其他領(lǐng)域:醫(yī)學(xué)、農(nóng)業(yè)和氣候變化。GANs功能強(qiáng)大且多才多藝。

Generative Adversarial Networks (GANs) 生成對抗性網(wǎng)絡(luò)

這是GAN系列教程的第一篇文章:

  • 生成對抗性網(wǎng)絡(luò)簡介(本博客)
  • 入門:時(shí)尚MNIST的DCGAN
  • GAN訓(xùn)練挑戰(zhàn):彩色圖像的DCGAN
  • 1. 原理

    1. GANs如何工作

    GANs是一種生成模型,它觀察許多樣本分布,并生成更多相同分布的樣本。其他生成模型包括變分自動(dòng)編碼器(VAE variational autoencoders )和自回歸模型( Autoregressive models)。

    2. GAN架構(gòu)

    在基本的GAN架構(gòu)中有兩個(gè)網(wǎng)絡(luò):生成器模型和鑒別器模型。 GANs的名字中有“對抗性”一詞,因?yàn)檫@兩個(gè)網(wǎng)絡(luò)是同時(shí)訓(xùn)練的,并且相互競爭,就像在國際象棋等零和游戲中一樣。

    生成器(generator )模型生成新的圖像。生成器的目標(biāo)是生成看起來如此真實(shí)的圖像,從而愚弄鑒別器。在用于圖像合成的最簡單的GAN架構(gòu)中,輸入通常是隨機(jī)噪聲,其輸出是生成的圖像。

    鑒別器(discriminator )只是一個(gè)二進(jìn)制圖像分類器,它的工作是分類圖像是真的還是假的。在更復(fù)雜的GANs中,可以用圖像或文本來調(diào)節(jié)鑒別器,以進(jìn)行圖像到圖像的翻譯或文本到圖像的生成(Image-to-Image translation or Text-to-Image generation))。

    綜合來看,GAN的基本架構(gòu)是這樣的:生成器生成假圖像;將真實(shí)圖像(訓(xùn)練數(shù)據(jù)集)和偽圖像分別分批輸入鑒別器。然后,鑒別器告訴圖像是真的還是假的。

    3. 培訓(xùn)GAN

    Minimax游戲:G對D
    大多數(shù)深度學(xué)習(xí)模型(例如圖像分類)都是基于優(yōu)化:找到成本函數(shù)的低值。GANs是不同的,因?yàn)閮蓚€(gè)網(wǎng)絡(luò):生成器和鑒別器,每個(gè)網(wǎng)絡(luò)都有自己的成本,目標(biāo)相反:
    生成器試圖欺騙鑒別器,使其將假圖像視為真實(shí)圖像
    鑒別器試圖正確地對真實(shí)圖像和偽造圖像進(jìn)行分類
    下面的極小極大博弈數(shù)學(xué)函數(shù)說明了訓(xùn)練過程中的這種對抗性動(dòng)態(tài)。如果你不理解數(shù)學(xué),不要太擔(dān)心,我將在未來的DCGAN文章中對G損失和D損失進(jìn)行編碼時(shí)更詳細(xì)地解釋。

    在訓(xùn)練過程中,生成器和鑒別器都會(huì)隨著時(shí)間的推移而改進(jìn)。生成器越來越善于生成與訓(xùn)練數(shù)據(jù)相似的圖像,而鑒別器則越來越善于區(qū)分真實(shí)圖像和偽造圖像。
    訓(xùn)練GAN是為了在以下情況下在游戲中找到平衡(equilibrium):
    生成器生成的數(shù)據(jù)看起來與訓(xùn)練數(shù)據(jù)幾乎相同。
    鑒別器不再能夠區(qū)分假圖像和真實(shí)圖像之間的區(qū)別。

    4. 藝術(shù)家與評論家

    模仿杰作是學(xué)習(xí)藝術(shù)的好方法-“藝術(shù)家如何在世界著名博物館復(fù)制杰作”。作為一名模仿杰作的人類藝術(shù)家,我會(huì)找到我喜歡的藝術(shù)品作為靈感,并盡可能多地復(fù)制它:輪廓、顏色、構(gòu)圖和筆觸,等等。然后一位評論家看了一眼這本書,告訴它看起來是否像真正的杰作。

    GANs的培訓(xùn)與該過程類似,可以把生成器看作藝術(shù)家,把鑒別器看作評論家。不過,請注意人類藝術(shù)家和機(jī)器藝術(shù)家之間的類比差異:生成器無法訪問或查看它試圖復(fù)制的杰作。相反,它只依靠鑒別器的反饋來改善它生成的圖像。

    5. 評估指標(biāo)

    一個(gè)好的GAN模型應(yīng)該具有良好的圖像質(zhì)量——例如不模糊并且類似于訓(xùn)練圖像;多樣性:生成了各種各樣的圖像,這些圖像近似于訓(xùn)練數(shù)據(jù)集的分布。

    為了評估GAN模型,可以在訓(xùn)練期間或通過與生成器模型的推理來直觀地檢查生成的圖像。如果你想定量評估GAN,這里有兩個(gè)流行的評估指標(biāo):

    • Inception Score 捕捉生成圖像的質(zhì)量和多樣性
    • Fréchet Inception Distance 比較真實(shí)圖像和偽造圖像,而不僅僅是孤立地評估生成的圖像

    6. GAN變體

    自從Ian Goodfellow等人在2014年發(fā)表最初的GAN論文以來,已經(jīng)出現(xiàn)了許多GAN變體。它們傾向于相互建立,要么解決特定的訓(xùn)練問題,要么創(chuàng)建新的GANs架構(gòu),以實(shí)現(xiàn)對GANs的更精細(xì)控制或更好的圖像。
    以下是其中一些突破性的變體,為未來GAN的進(jìn)步奠定了基礎(chǔ)。無論如何,這并不是所有GAN變體的完整列表。

    • DCGAN(具有深度卷積生成對抗性網(wǎng)絡(luò)的無監(jiān)督表示學(xué)習(xí))是第一個(gè)在其網(wǎng)絡(luò)架構(gòu)中使用卷積神經(jīng)網(wǎng)絡(luò)(CNN)的GAN提案。目前大多數(shù)GAN變體在某種程度上是基于DCGAN的。因此,DCGAN很可能是你的第一個(gè)GAN教程,學(xué)習(xí)GAN的“Hello World”。

    • 創(chuàng)建WGAN(Wasserstein GAN)和WGAN-GP(是為了解決GAN訓(xùn)練挑戰(zhàn),如模式崩潰——當(dāng)生成器重復(fù)生成相同的圖像或(訓(xùn)練圖像的)一小部分時(shí)。WGAN-GP通過使用梯度懲罰而不是權(quán)重裁剪來提高訓(xùn)練穩(wěn)定性,從而改進(jìn)了WGAN。

    • cGAN(條件性生成對抗性網(wǎng)絡(luò))首先引入了基于條件生成圖像的概念,該條件可以是圖像類標(biāo)簽、圖像或文本,就像在更復(fù)雜的GAN中一樣。Pix2Pix和CycleGAN都是條件GAN,使用圖像作為圖像到圖像轉(zhuǎn)換的條件。

    • Pix2PixHD(具有條件GANs的高分辨率圖像合成和語義操作)消除了多個(gè)輸入條件的影響,并如論文示例所示:控制生成的服裝圖像的顏色、紋理和形狀,用于時(shí)尚設(shè)計(jì)。此外,它可以生成逼真的2k高分辨率圖像。

    • SAGAN(自注意生成對抗性網(wǎng)絡(luò))提高了圖像合成質(zhì)量:通過將自注意模塊(NLP模型中的一個(gè)概念)應(yīng)用于神經(jīng)網(wǎng)絡(luò),使用來自所有特征位置的線索生成細(xì)節(jié)。谷歌DeepMind擴(kuò)大了SAGAN的規(guī)模,打造了BigGAN。

    • BigGAN(用于高保真自然圖像合成的大規(guī)模GAN訓(xùn)練)可以創(chuàng)建高分辨率和高保真圖像。

    • ProGAN、StyleGAN和StyleGAN2都可以創(chuàng)建高分辨率圖像。

    • ProGAN(用于提高質(zhì)量、穩(wěn)定性和變異性的GAN的漸進(jìn)式增長)使網(wǎng)絡(luò)逐步增長。

    • 由NVIDIA Research推出的StyleGAN(一種用于生成對抗性網(wǎng)絡(luò)的基于風(fēng)格的生成器架構(gòu))使用了具有自適應(yīng)實(shí)例規(guī)范化(AdaIN)的進(jìn)步增長的ProGAN加圖像風(fēng)格傳輸,并能夠控制生成圖像的風(fēng)格。

    • StyleGAN2(分析和改進(jìn)StyleGAN的圖像質(zhì)量)通過在歸一化、漸進(jìn)生長和正則化技術(shù)等領(lǐng)域進(jìn)行一些改進(jìn),對原始StyleGAN進(jìn)行了改進(jìn)。

    7. GAN應(yīng)用

    GANs是通用的,可以用于各種應(yīng)用。

    8. 圖像合成(Image synthesis)

    圖像合成可能很有趣,并提供實(shí)際用途,例如機(jī)器學(xué)習(xí)(ML)訓(xùn)練中的圖像增強(qiáng)或幫助創(chuàng)建藝術(shù)品和設(shè)計(jì)資產(chǎn)。
    GANs可以用來創(chuàng)建以前從未存在過的圖像,這也許是GANs最出名的地方。 它們可以創(chuàng)造出看不見的新面孔、貓的形象和藝術(shù)品,等等。我在下面包含了一些高保真度的圖像,這些圖像是我從StyleGAN2支持的網(wǎng)站上生成的。轉(zhuǎn)到這些鏈接,自己做實(shí)驗(yàn),看看你從實(shí)驗(yàn)中得到了什么圖像。

    Zalando Research使用GANs生成基于顏色、形狀和紋理的時(shí)尚設(shè)計(jì)(在GANs中解開多個(gè)條件輸入)。
    臉書研究的時(shí)尚++超越了創(chuàng)造時(shí)尚,而是推薦時(shí)尚改變建議:“什么是時(shí)尚?”

    GANs還可以幫助訓(xùn)練強(qiáng)化劑。例如,NVIDIA的GameGAN模擬游戲環(huán)境。

    9. 圖像到圖像的轉(zhuǎn)換(Image-to-image translation)

    圖像到圖像的轉(zhuǎn)換是一項(xiàng)計(jì)算機(jī)視覺任務(wù),它將輸入圖像轉(zhuǎn)換到另一個(gè)領(lǐng)域(例如,顏色或風(fēng)格),同時(shí)保留原始圖像內(nèi)容。這也許是在藝術(shù)和設(shè)計(jì)中使用GANs最重要的任務(wù)之一。
    Pix2Pix(具有條件對抗性網(wǎng)絡(luò)的圖像到圖像翻譯)是一種條件GAN,可能是最著名的圖像到圖片轉(zhuǎn)換GAN。然而,Pix2Pix的一個(gè)主要缺點(diǎn)是它需要成對的訓(xùn)練圖像數(shù)據(jù)集。

    使用條件對抗網(wǎng)絡(luò)的圖像到圖像轉(zhuǎn)換
    研究了作為通用解決方案的條件對抗網(wǎng)絡(luò)圖像到圖像的轉(zhuǎn)換問題。這些網(wǎng)絡(luò)不僅學(xué)習(xí)從輸入圖像映射到輸出圖像,還要學(xué)習(xí)損失函數(shù)訓(xùn)練此映射。 這使得應(yīng)用相同的通用方法成為可能,對于傳統(tǒng)上需要非常不同的損失公式的問題。 我們證明了這種方法可以有效地合成來自標(biāo)簽貼圖、從邊緣貼圖重建對象以及為圖像著色等其他任務(wù)。 事實(shí)上,自從 pix2pix 軟件發(fā)布以來 這篇論文,大量網(wǎng)民(其中不乏藝術(shù)家)紛紛發(fā)帖 他們自己對系統(tǒng)的實(shí)驗(yàn),進(jìn)一步證明了其廣泛的適用性和易于采用,無需調(diào)整參數(shù)。如這項(xiàng)工作表明可以在不手工設(shè)計(jì)損失的情況下獲得合理的結(jié)果函數(shù)之一。

    GAN中多個(gè)條件輸入的糾纏
    在本文中,我們提出了一種在生成對抗性網(wǎng)絡(luò)(GANs)中解開多輸入條件影響的方法。特別是展示了為計(jì)算機(jī)輔助時(shí)裝設(shè)計(jì)控制生成的服裝圖像的顏色、紋理和形狀的方法。為了解開輸入屬性的影響,我們定制了具有一致性損失函數(shù)的條件GAN。 在實(shí)驗(yàn)中一次調(diào)整一個(gè)輸入,并表明可以引導(dǎo)網(wǎng)絡(luò)生成新穎逼真的服裝圖像。此外還介紹了一個(gè)服裝設(shè)計(jì)過程,該過程估計(jì)現(xiàn)有服裝的輸入屬性,并使用生成器對其進(jìn)行修改。

    CycleGAN基于Pix2Pix構(gòu)建,只需要未配對的圖像,在現(xiàn)實(shí)世界中更容易獲得。它可以將蘋果的圖像轉(zhuǎn)換為橙子,白天轉(zhuǎn)換為夜晚,馬的圖像轉(zhuǎn)換成斑馬…好吧。這些可能不是現(xiàn)實(shí)世界中的用例;從那時(shí)起,為藝術(shù)和設(shè)計(jì)開發(fā)了許多其他圖像對圖像的Gan。

    現(xiàn)在你可以把你的自拍翻譯成漫畫、繪畫、卡通或任何其他你能想象到的風(fēng)格。例如使用白盒卡通GAN(White-box CartoonGAN)將我的自拍變成卡通版。

    著色不僅可以應(yīng)用于黑白照片,還可以應(yīng)用于藝術(shù)品或設(shè)計(jì)資產(chǎn)。在藝術(shù)品制作或UI/UX設(shè)計(jì)過程中,我們從輪廓或輪廓開始,然后上色。自動(dòng)著色可以為藝術(shù)家和設(shè)計(jì)師提供靈感。

    10. 文本到圖像(Text-to-Image)

    我們已經(jīng)看到了很多由GANs翻譯的圖像到圖像的例子。還可以使用單詞作為生成圖像的條件,這比使用類標(biāo)簽作為條件更靈活、更直觀。
    近年來,NLP與計(jì)算機(jī)視覺的結(jié)合已成為一個(gè)熱門的研究領(lǐng)域。以下是幾個(gè)例子:用于高分辨率圖像合成的StyleCLIP和Taming Transformers(StyleCLIP and Taming Transformers for High-Resolution Image Synthesis)。

    展示了如何 (i)使用CNN來學(xué)習(xí)上下文豐富的圖像詞匯成分,進(jìn)而 (ii) 利用變壓器有效地對其建模 高分辨率圖像中的構(gòu)圖。 我們的方法很容易應(yīng)用于 條件合成任務(wù),其中既有非空間信息,如對象 類和空間信息(如分割)可以控制 生成的圖像。特別是,我們展示了關(guān)于 使用變壓器對百萬像素圖像進(jìn)行語義引導(dǎo)合成并獲得 類條件 ImageNet 上自回歸模型的最新情況。

    11. 超越圖像

    GANs不僅可以用于圖像,還可以用于音樂和視頻。例如,Magenta項(xiàng)目中的GANSynth可以制作音樂。這里有一個(gè)有趣的GAN視頻動(dòng)作轉(zhuǎn)移示例,名為“Everyone Dance Now”(YouTube | Paper)。我一直很喜歡看這段迷人的視頻,視頻中專業(yè)舞者的舞蹈動(dòng)作被轉(zhuǎn)移到業(yè)余愛好者身上。

    12. 其他GAN應(yīng)用

    以下是其他一些GAN應(yīng)用程序:

  • 圖像修復(fù):替換圖像中缺失的部分。

  • 圖像取消剪切或擴(kuò)展:這可能有助于模擬虛擬現(xiàn)實(shí)中的相機(jī)參數(shù)。

  • 無界:用于圖像擴(kuò)展的生成對抗性網(wǎng)絡(luò)
    圖像擴(kuò)展模型在圖像編輯、計(jì)算攝影和計(jì)算機(jī)圖形學(xué)中有著廣泛的應(yīng)用。雖然文獻(xiàn)中對圖像修復(fù)進(jìn)行了廣泛的研究,但將最先進(jìn)的修復(fù)方法直接應(yīng)用于圖像擴(kuò)展是一項(xiàng)挑戰(zhàn),因?yàn)樗鼈兺鶗?huì)生成語義不一致的模糊或重復(fù)像素。我們在生成對抗性網(wǎng)絡(luò)(GAN)的鑒別器中引入了語義條件,并在具有連貫語義和視覺上令人愉悅的顏色和紋理的圖像擴(kuò)展方面取得了很好的結(jié)果。我們還在極限擴(kuò)展中顯示了有希望的結(jié)果,例如全景生成。

  • 超分辨率(SRGAN和ESRGAN):將圖像從低分辨率增強(qiáng)到高分辨率。這可能對照片編輯或醫(yī)學(xué)圖像增強(qiáng)非常有幫助。
  • 使用生成對抗性網(wǎng)絡(luò)的照片真實(shí)單圖像超分辨率
    盡管使用更快、更深的卷積神經(jīng)網(wǎng)絡(luò)在單圖像超分辨率的準(zhǔn)確性和速度方面取得了突破,但一個(gè)核心問題在很大程度上仍未解決:當(dāng)在大規(guī)模放大因子下進(jìn)行超分辨率時(shí),如何恢復(fù)更精細(xì)的紋理細(xì)節(jié)?基于優(yōu)化的超分辨率方法的行為主要由目標(biāo)函數(shù)的選擇驅(qū)動(dòng)。最近的工作主要集中在最小化均方重建誤差上。 由此產(chǎn)生的估計(jì)具有高峰值信噪比,但它們往往缺乏高頻細(xì)節(jié),并且在感覺上不令人滿意,因?yàn)樗鼈儫o法匹配在更高分辨率下預(yù)期的保真度。在本文中,我們提出了SRGAN,一種用于圖像超分辨率(SR)的生成對抗性網(wǎng)絡(luò)(GAN)。據(jù)我們所知,這是第一個(gè)能夠推斷4倍放大因子的照片逼真自然圖像的框架。為了實(shí)現(xiàn)這一點(diǎn),我們提出了一個(gè)感知損失函數(shù),該函數(shù)由對抗性損失和內(nèi)容損失組成。對抗性損失使用鑒別器網(wǎng)絡(luò)將我們的解決方案推向自然圖像流形,該鑒別器被訓(xùn)練來區(qū)分超分辨率圖像和原始照片逼真圖像。 此外使用了由感知相似性而不是像素空間中的相似性驅(qū)動(dòng)的內(nèi)容損失。 深度殘差網(wǎng)絡(luò)能夠在公共基準(zhǔn)上從大量下采樣的圖像中恢復(fù)照片逼真的紋理。一項(xiàng)廣泛的平均意見得分(MOS)測試顯示,使用SRGAN在感知質(zhì)量方面有非常顯著的提高。與使用任何最先進(jìn)的方法獲得的MOS分?jǐn)?shù)相比,使用SRGAN獲得的MOS得分更接近原始高分辨率圖像的MOS分?jǐn)?shù)。

    以下是一個(gè)如何利用GANs應(yīng)對氣候變化的例子。地球智能引擎是FDL(前沿發(fā)展實(shí)驗(yàn)室)2020項(xiàng)目,使用Pix2PixHD模擬洪水后一個(gè)地區(qū)的樣子。

    地球智能引擎是FDL 2020項(xiàng)目,旨在幫助城市規(guī)劃者更有效、更直觀地溝通洪水風(fēng)險(xiǎn),以支持氣候適應(yīng)性基礎(chǔ)設(shè)施的發(fā)展。
    我們通過將生成計(jì)算機(jī)視覺方法與氣候科學(xué)模型相結(jié)合,創(chuàng)建了第一個(gè)物理一致、真實(shí)感強(qiáng)的沿海洪水和重新造林可視化引擎。我們通過確保GAN生成圖像的物理一致性的新方法,以及使用多個(gè)視覺和氣候模型的模塊化方法來實(shí)現(xiàn)這一點(diǎn)。

    我們已經(jīng)看到了來自論文和研究實(shí)驗(yàn)室的GAN演示。以及開源項(xiàng)目。這些天,我們開始看到使用GANs的真正商業(yè)應(yīng)用程序。設(shè)計(jì)師熟悉使用圖標(biāo)中的設(shè)計(jì)資源8。看看他們的網(wǎng)站,你會(huì)注意到GAN的應(yīng)用程序:從Smart Upscaler、Generated Photos到Face Generator。

    參考

    • https://pyimagesearch.com/2021/09/13/intro-to-generative-adversarial-networks-gans/

    總結(jié)

    以上是生活随笔為你收集整理的生成对抗性网络简介的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。