GAN for Image-to-image translation 2019年文章综述
文章目錄
- 前言
- 一篇文獻的閱讀姿勢
- 1. 這篇論文的創新點是什么(idea是什么)
- 2. 這篇論文干了什么事情(idea怎么具體實現)
- 3. 這篇論文如何分析自己的方法有效(如何設置實驗)
- GAN
- Conditional Generative Adversarial Nets(cGAN,2014)
- Image-to-Image Translation with Conditional GAN(2017)
- CycleGAN
- IIT task概念解釋:
- conditional
- unsupervised
- multi-modal and multi-domain
- unsupervised Image to Image translation(UNIT)
- multi-modal unsupervised Image to Image translation (MUNIT)
- StyleGAN
- StyleGAN2
- StarGAN(2018.12)
- RelGAN(2019.08)
- Latent Filter Scaling for Multimodal Unsupervised Image-to-Image Translation
- Multi-Channel Attention Selection GAN with Cascaded SemanticGuidance for Cross-View Image Translation
- 未完待續
前言
本篇博客記錄了筆者最近閱讀的2019年應用于IIT(image-to-image translation)的GAN的最新論文,為了思路清晰,順帶也介紹了之前的比較經典的關于IIT GAN的論文。
包括以下文章:
- GAN
- cGAN (conditional GAN)
- CycleGAN
- IIT中常見概念的解釋
-
- styleGAN與StyleGAN2
- UNIT
- MUNIT
- StarGAN
- RelGAN
- Latent Filter Scaling for Multimodal Unsupervised Image-to-Image Translation
- Multi-Channel Attention Selection GAN with Cascaded SemanticGuidance for Cross-View Image Translation
- A Unified Feature Disentangler for Multi-Domain I2I
- Homomorphic Latent Space Interpolation for Unpaired Image-to-image
- TraVeLGAN Image-to-image Translation by Transformation Vector Learning
- Image-to-Image Translation via Group-wise Deep Whitening-and-Coloring Transformation
本篇博客對于論文的介紹基本遵循lyf學長的《一篇文獻的閱讀姿勢》。具體介紹形式如下。當然有些地方,筆者為了省事就一筆帶過了。
另外本篇文章并不是對論文做詳細的介紹,只是介紹每篇論文的idea和大致如何實現這個idea,可以讓讀者對論文有個大概了解:這篇論文干了啥。但如果想仔細了解論文的細節,請閱讀其他的詳細解析文章或者原論文。
筆者CV剛入門兩個月,水平實在有限,博客必定有許多疵漏和錯誤之處,請讀者們不吝指正。
一篇文獻的閱讀姿勢
1. 這篇論文的創新點是什么(idea是什么)
a) 別人的方法為何在這個情況/設置下行不通或者不好,有何缺點或不足(Limitations)
b) 確定其提出的是新方法/新理論,等等
c) 提出的方法如何從出發點(Motivation)上解決了上述別人方法的不足
2. 這篇論文干了什么事情(idea怎么具體實現)
a) 確定其方法的輸入/輸出
b) 確定方法的核心實現是如何與論文出發點一一對應的
3. 這篇論文如何分析自己的方法有效(如何設置實驗)
a) 實驗上可視化的圖片/給出的數據,如何解決了之前方法沒有解決的問題 ——驗證1. a)
這個一般會給出強力的性能表現,視覺效果比其他方法好,數值比其他效果好
b) 論文的實現如何體現出論文的Motivation ——驗證1. b) & 2. b)
這個一般需要分析實驗或者消融實驗,前者通過可視化工具得到方法的中間結果與預期一致;后者是通過將論文提出方法的核心部分去掉或者替換,以控制變量法的方式驗證關鍵部分的有效性
c) 論文提出的思路或者實現方式有不足,或者其他嚴謹性的方面需要討論
這個部分不一定所有論文都有,但是通過這個部分可以反觀這個論文的原理、方法的實現
GAN
GAN是一種訓練生成模型的方法,包括兩個互相對抗的模型:一個生成模型G用于擬合樣本數據分布和一個判別模型D用于估計輸入樣本是來自于真實的訓練數據還是生成模型G。
生成器通過映射函數把噪聲映射到數據空間,而判別器的輸出是一個標量,表示數據來自真實訓練數據而非G的生成數據的概率。
Conditional Generative Adversarial Nets(cGAN,2014)
為解決GAN太過自由的問題,在生成模型G和判別模型D中同時加入條件約束y來引導數據的生成過程。條件可以是任何補充的信息,如類標簽(獨熱編碼)等,這樣使得GAN能夠更好地被應用于跨模態問題,例如圖像自動標注。
看損失函數就知cGAN與GAN的區別:其中x|y表示真實圖片x和標簽y同時作為D的輸入;z|y表示噪聲z和標簽y同時作為G的輸入。
Image-to-Image Translation with Conditional GAN(2017)
將cGAN用在I2I。與cGAN的Loss函數基本一致,輸入G和D的標簽就是要被translation的image。
貢獻:
a. 在損失函數中增加了L1 Loss,使生成圖像不僅要像真實圖片,也要更接近于輸入的條件圖片。
b. 在生成器中,用U-net結構(G和D的鏡像層skip connection )代替encoder-decoder的G結構
c. 提出PatchGAN通常判斷都是對生成樣本整體進行判斷,比如對一張圖片來說,就是直接看整張照片是否真實。而且Image-to-Image Translation中很多評價是像素對像素的,所以在這里提出了分塊判斷的算法,在圖像的每個patch塊上去判斷是否為真,最終平均給出結果。
缺點:Supervised learning, 要求source image and target image is a pair.
CycleGAN
Propose another network mapping target domain image to source domain image and cycle-consistency loss which preserved some properties of original image and avoid mode collapse(map all images to the same image)
IIT task概念解釋:
conditional
Unlike the unconditional case, where the latent vector can be simply mapped to a full size image, the conditional case requires using both the latent vector and the input image.
unsupervised
GANs that take an image from one domain and produce an image in another domain will be referred to as image-to-image translation GANs. If paired data are used, the GAN will be referred to as supervised. It will be referred to as unsupervised if the images from the two domains are not paired.
multi-modal and multi-domain
Multi-model: Finally, image-to-image translation GANs that produce a single image will be referred to as deterministic or unimodal, while multimodal ones make use of an input latent vector in addition to the input image to produce many outputs.(multi-model訓練時并不要求數據集有attribute label)
Multi-domain: 這里的domain是指針對數據集中的attribute,根據attribute來劃分的,比如就性別這個attri而言,男是一個domain,女是一個,相對于發色而言,金發是一個domain,黑發是一個domain。(但multi-domainGAN如StarGAN,RelGAN需要dataset有attribute label)
Fine-grained: 精細控制
unsupervised Image to Image translation(UNIT)
multi-modal unsupervised Image to Image translation (MUNIT)
StyleGAN
styleGAN并不屬于IIT論文,而是提出了一個全新的generator framework.
a. 目前研究者對GAN的generator合成圖片的過程還沒有真正的充分了解,generator的運作就像black box。另外對隱變量空間也沒有充分的理解。
b. 本文提出一個generator,它能實現生成圖片的隨機變化和圖片attribute的分離,還能實現對圖像合成過程的精細控制。并實現了更好的插值性質和隱變量的解糾纏。
2.idea的具體實現
a.輸入:可學習常量 輸入:指定style的圖片
b. 將從正態分布隨機采樣的噪聲,先通過MLP映射到隱空間W,然后在每一個卷積層后,都加一個AdaIN,AdaIN的參數由W經過仿射變換得到。關鍵在于,所有層都用同一個隱變量w(W中的一個點),但是都有自己的仿射變換,因此有不同的自適應參數。
c.通過添加噪聲實現隨機變化(如發絲等),但對人臉的固有屬性并不會產生影響。
StyleGAN2
修復了StyleGAN中幾個生成圖片的質量問題:
StarGAN(2018.12)
1. 創新點
a已存在的IIT方法只適用于two domain,在mult-domain上表現不足。
b本文提出StarGAN結構,能在一個network里面訓練multi-II。甚至能在同一個網絡里train多個dataset
2 idea具體實現
a.輸入:image and domain information,輸出IIT后的image。
b.核心實現:1.在D上附加一個domain分類器并提出domain分類損失 2.重建損失
3.通過Mask Vector來使GAN忽略多個dataset IIT時未知的label,聚集在已知的label上。
4.采用Wasserstein的GAN Adv Loss
3.實驗
a.采取DIAT,CycleGAN,IcGAN作為baseline,通過可視化的圖片,展示了StarGAN在Facial attribute transfer results on the CelebA dataset和Facial expression synthesis results on the RaFD dataset效果比baseline好。又通過數據(ResNet18s上的分類準確性)展示了對StarGAN的定量評估。
b.采用消融實驗體現了joint datasets training的effect;通過正確和錯誤的mask vector對比展示了mask vector的重要作用。
RelGAN(2019.08)
1.創新點
A.以往的MIIT方法,屬性向量是二值的,對產生結果的控制不夠精細;采用絕對的屬性向量,即使不想改變某些屬性,也需要指明它們的值。 本文提出相對屬性向量來解決這個問題。
B 本文提出: 1.相對屬性向量方法。 2.D_match 3. D_interp
2. idea具體實現
idea的具體實現:包括了Conditional對抗損失,重建損失,插值損失等。
3.實驗
Experiment就是將StarGAN和AttGAN作為baseline,在IIT任務中,選擇FID作為metrics體現了RelGAN在視覺質量上的優越性;還比對了三個GAN的分類準確性。 之后做了消融實驗展示了各個Loss的效果;做了分析實驗展示了插值效果。最后做了UserStudy將RelGAN和baseline比對了圖片質量。
Latent Filter Scaling for Multimodal Unsupervised Image-to-Image Translation
文章指出現有的IIT方法很多都是把隱編碼(latent code)直接映射成圖像,這就需要十分復雜的網絡結構和引入很多超參數。這篇文章提出把隱編碼當做卷積濾波器的修飾器(和MUNIT相似),并保留傳統GAN的判別損失,需要控制的參數只有權衡生成圖像質量和多樣性的這一個參數。這篇文章的貢獻和創新點可以概括為:
? 提出不用編碼器和重建損失,只保留傳統GAN的結構和判別損失。本質上抑制了模式崩潰的發生
? 較少的超參數和損失項,只有一個參數控制生成圖像的質量和多樣性。
Multi-Channel Attention Selection GAN with Cascaded SemanticGuidance for Cross-View Image Translation
創新點:
cross-view image translation:給出語義圖(物體輪廓)和場景圖,恢復出同一場景下語義圖視角的圖片。
1. 創新點:
a之前的工作,生成的圖片重疊部分太多;有一個工作是用語義圖監督圖像生成,但是由于語義圖不夠精確,因此生成圖片效果也不夠好。
b 貢獻:A novel multi-channel attention selection GAN framework;
B novel multi-channel attention selection module
至于為什么multi-channel能refine the generated image,作者的解釋是:We argue that this is not
enough for the complex translation problem we are dealing with, and thus we explore using a larger generation space to have a richer synthesis via constructing multiple intermediate generations.
未完待續
總結
以上是生活随笔為你收集整理的GAN for Image-to-image translation 2019年文章综述的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【Android】Instant Run
- 下一篇: Star-GAN阅读笔记