日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Star-GAN阅读笔记

發(fā)布時間:2023/12/16 编程问答 33 豆豆
生活随笔 收集整理的這篇文章主要介紹了 Star-GAN阅读笔记 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

Star-GAN閱讀筆記

      • Summary
      • Contribution
      • Related Work
      • Approach and Model Architecture
      • Implement
      • Experiments
      • Code

Summary

之前傳統(tǒng)的GAN只能在兩個域之間做圖像轉換(例如Cycle-GAN),如果要在多個域之間做圖像轉換,則需要N(N-1)對生成器/鑒別器。然而Star-GAN僅使用一個生成器/判別器,就完成了多個域之間的圖像轉換,它的訓練單元為[圖像, 域標簽],訓練數(shù)據(jù)集為擁有多標簽的同一數(shù)據(jù)集(甚至可以多個數(shù)據(jù)集)。

Contribution

  • 提出了StarGAN,這是一種新型的生成對抗網(wǎng)絡,它僅使用一個生成器和一個鑒別器就可以從所有域的圖像進行有效訓練,從而學習多個域之間的映射。
  • 演示了如何利用掩碼向量方法成功地學習多個數(shù)據(jù)集之間的多域圖像翻譯,該方法使StarGAN能夠控制所有可用域標簽。
  • 提供有關使用StarGAN進行面部屬性轉移和面部表情合成任務的定性和定量結果,顯示其優(yōu)于基準模型的優(yōu)勢。

Related Work

  • 生成對抗網(wǎng)絡
  • 條件生成對抗網(wǎng)絡
  • 圖像到圖像的翻譯

Approach and Model Architecture

作者開門見山,先給了個結果圖

對于方法部分,作者原文一句話講得挺明白的:我們的生成器沒有學習固定的翻譯,而是將圖像和領域信息都作為輸入,并學會了將圖像靈活地翻譯為相應的領域。也就是說,訓練的數(shù)據(jù)為[圖像, 域標簽]。其中“領域”可以由one-hot vector或者二進制表示。

作者展示了Star-GAN與傳統(tǒng)多域方法的對比圖

作者提出的Star-GAN訓練了從輸入圖像x到c域輸出圖像y的一個生成器,其中這個c域是隨機產(chǎn)生的,這可以使得圖像x到各個域都能夠輕松轉換

作者介紹了損失函數(shù)

  • 鑒別器的損失函數(shù)
    • 對抗損失函數(shù) Ladv=Ex[log?Dsrc(x)]+Ex,c[log?(1?Dsrc(G(x,c)))]\mathcal{L_{adv}}= \mathbb{E}_x[\log D_{src}(x)]+ \mathbb{E}_{x,c}[\log (1-D_{src}(G(x,c)))]Ladv?=Ex?[logDsrc?(x)]+Ex,c?[log(1?Dsrc?(G(x,c)))]
    • 域分類損失函數(shù) Lclsr=Ex,c′[?log?Dcls(c′∣x)]\mathcal{L_{cls}^r}=\mathbb{E}_{x,c'}[-\log D_{cls}(c'|x)]Lclsr?=Ex,c?[?logDcls?(cx)]
    • 最終損失 LD=?Ladv+λclsLclsr\mathcal{L_D}=-\mathcal{L}_{adv}+\lambda_{cls}\mathcal{L}_{cls}^rLD?=?Ladv?+λcls?Lclsr?
  • 生成器的損失函數(shù)
    • 對抗損失函數(shù) Ladv=Ex[log?Dsrc(x)]+Ex,c[log?(1?Dsrc(G(x,c)))]\mathcal{L_{adv}}= \mathbb{E}_x[\log D_{src}(x)]+ \mathbb{E}_{x,c}[\log (1-D_{src}(G(x,c)))]Ladv?=Ex?[logDsrc?(x)]+Ex,c?[log(1?Dsrc?(G(x,c)))]
    • 域分類損失函數(shù) Lclsf=Ex,c[?log?Dcls(c∣G(x,c))]\mathcal{L_{cls}^{f}}=\mathbb{E}_{x,c}[-\log D_{cls}(c|G(x,c))]Lclsf?=Ex,c?[?logDcls?(cG(x,c))]
    • 重構損失 Lrec=Ex,c,c′[∣∣x?G(G(x,c),c′)∣∣1]\mathcal{L}_{rec}=\mathbb{E}_{x,c,c'}[||x-G(G(x,c),c')||_1]Lrec?=Ex,c,c?[x?G(G(x,c),c)1?]
    • 最終損失 LG=Ladv+λclsLclsf+λrecLrec\mathcal{L_G}=\mathcal{L}_{adv}+\lambda_{cls}\mathcal{L}_{cls}^f+\lambda_{rec}\mathcal{L}_{rec}LG?=Ladv?+λcls?Lclsf?+λrec?Lrec?

作者在實驗中設定了λcls=1\lambda_{cls}=1λcls?=1以及λrec=10\lambda_{rec}=10λrec?=10。

值得一提的時,Star-GAN跟Cycle-GAN的損失函數(shù)其實是幾乎一致的:對抗損失約束D和G,循環(huán)一致性(重構損失)約束G,不用的是Star-GAN多了一個約束D,G的“域分類損失函數(shù)”,由于Cycle-GAN只有兩個域,所以不需要這個。

對于ccc,由于在不同數(shù)據(jù)集,標簽會有所缺失,作者提出了one-hot和二進制的表示方法,其中c^=[c1,...,cn,m]\hat{c}=[c_1,...,c_n,m]c^=[c1?,...,cn?,m]cic_ici?是一個二進制數(shù),代表第iii個數(shù)據(jù)集標簽的情況,相當于是一個狀壓的向量,對于沒有其他數(shù)據(jù)集標簽的圖像,那些對應數(shù)據(jù)集的ccc000即可。在訓練生成器的過程中,生成器會忽略未指定的標簽,轉而著重訓練顯示給定標簽上。對于鑒別器的輔助分類器,分類器僅對有標簽的那個數(shù)據(jù)集的所有標簽的分類錯誤降到最低,不關注其他數(shù)據(jù)集標簽。

Implement

這篇論文是在WWW-GANGANGAN提出之后的,所以其對抗損失函數(shù)

Ladv=Ex[log?Dsrc(x)]+Ex,c[log?(1?Dsrc(G(x,c)))]\mathcal{L_{adv}}= \mathbb{E}_x[\log D_{src}(x)]+ \mathbb{E}_{x,c}[\log (1-D_{src}(G(x,c)))]Ladv?=Ex?[logDsrc?(x)]+Ex,c?[log(1?Dsrc?(G(x,c)))]

被改進為

Ladv=Ex[Dsrc(x)]?Ex,c[DsrcG(x,c)]?λg,pEx^[(∣∣▽x^Dsrc(x^)∣∣2?1)2]\mathcal{L_{adv}}=\mathbb{E}_x[D_{src}(x)]-\mathbb{E}_{x,c}[D_{src}G(x,c)]-\lambda_{g,p}\mathbb{E}_{\hat{x}}[(||\bigtriangledown_{\hat{x}}D_{src}(\hat{x})||_2-1)^2]Ladv?=Ex?[Dsrc?(x)]?Ex,c?[Dsrc?G(x,c)]?λg,p?Ex^?[(x^?Dsrc?(x^)2??1)2]

具體原理是啥來著,自動編碼生成器遵循KL距離,生成對抗網(wǎng)絡遵循JS散度,它們都存在一個問題:當隨機初始的分布和真實分布不重疊時,KL距離和JS散度無法有效衡量“距離”,所以找不出優(yōu)化方向,失去導數(shù)。而Wasserstein距離能夠克服這個問題。

λgp\lambda_{gp}λgp?根據(jù)經(jīng)驗設定為10。

網(wǎng)絡結構方面,Star-GAN也沿用了Cycle-GAN的大體結構,值得注意的是,Pix2pix-GAN在生成器上選用了UNet結構,鑒別器上選用了PatchGAN結構,Cycle-GAN以及這篇提出的Star-GAN都繼承了這個傳統(tǒng)。

Experiments

Star-GAN比較對象有DIAT、Cycle-GAN、IcGAN,它們都能實現(xiàn)多個域之間圖像轉換,有的可能只能兩個域互相轉換,但是在每兩個域間使用就可以實現(xiàn)多個域轉換。本次比較實驗在CelebA和RaFD數(shù)據(jù)集上進行,它們都是比較權威的人臉數(shù)據(jù)集。

在CelebA數(shù)據(jù)集實驗對比如下

定量評估方式也是AMT,一個人工評價的平臺,結果從單屬性和多屬性指標上看起來是Star-GAN遠遠領先

在RaFD數(shù)據(jù)集實驗對比如下

在四個模型中測試不同表情生成情況如下,Star-GAN顯示出了最自然的表情。作者認為,StarGAN在圖像質(zhì)量上的優(yōu)勢是由于其來自多任務學習設置的隱式數(shù)據(jù)增強效果。 RaFD圖像包含相對較小的樣本大小,例如每個域500張圖像。在兩個域上進行訓練時,DIAT和CycleGAN一次只能使用1000張訓練圖像,而StarGAN可以在所有可用域中總共使用4000張圖像進行訓練。這使StarGAN可以正確學習如何保持生成的輸出的質(zhì)量和清晰度。

定量評估方面,作者使用ResNet-18在RaFD數(shù)據(jù)集上進行表情分類的訓練,再用這個訓練好的網(wǎng)絡來測試四種網(wǎng)絡生成表情圖像的分類精度,以此來定量評估生成表情的真實性,結果是Star-GAN生成的表情判錯率最少。

Star-GAN還有一個優(yōu)點就是對于多域的圖像轉換問題,其只需要一個生成器和一個鑒別器對,十分節(jié)省模型參數(shù)。

在CelebA和RaFD數(shù)據(jù)集實驗對比如下

SNG表示在RaFD數(shù)據(jù)集上訓練,JNT表示在CelebA和RaFD數(shù)據(jù)集上聯(lián)合訓練,結果表明聯(lián)合訓練比單獨訓練效果好,因而可以使用聯(lián)合訓練改善少數(shù)據(jù)單獨訓練的生成效果。


作者為了證明掩碼即x^\hat{x}x^確實起到了作用,進行了如下對比實驗:第一組掩碼設定RaFD即控制包清的數(shù)據(jù)集,第二組則是設定CelebA即跟表情無關數(shù)據(jù)集。

實驗證明,在掩碼控制表情數(shù)據(jù)集時生成效果很好,掩碼控制非表情數(shù)據(jù)集時,會改變該數(shù)據(jù)集中的屬性而不是表情屬性。作者采用的one-hot以及二進制狀壓確實起到了應該有的作用。

Code

Star-GAN的代碼主要參考了。。。未完待續(xù)

總結

以上是生活随笔為你收集整理的Star-GAN阅读笔记的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。