【预训练GAN】Projected GANs Converge Faster
收斂更快的投影GAN
PDF:https://www.cvlibs.net/publications/Sauer2021NEURIPS.pdf
Supplementary :https://www.cvlibs.net/publications/Sauer2021NEURIPS_supplementary.pdf
code:?GitHub - autonomousvision/projected_gan: [NeurIPS'21] Projected GANs Converge Faster
一、本文做了什么??
(1)Projected GANs主要的貢獻是多尺度判別器,多尺度判別器主要的改進是兩部分:CCM(跨通道混合)和CSM(跨尺度混合),
(2)而生成器G它沒有自己設計而是使用的FastGAN的生成器G,(作者測試了styleGAN2和FastGAN,但是發現FastGAN表現更好)
GANs面臨各種挑戰:如學習不穩定、巨大的計算成本和超參數調整:
在這篇文章中,通過在Discriminator中使用預訓練模型穩定GAN的訓練,提高了生成圖像的質量、采樣效率和收斂速度,并顯示出比StyleGAN2-ADA和FastGAN?更好的結果。(本文是首次利用預訓練表示學習模型在Unconditional的圖像生成的任務中使用,并且討論了如果只是直接用很強的預訓練模型,D將會主宰GAN的訓練,也不能達到很好的效果。)
為了克服這一難點,本文提出
二、Projected GANs
GAN由一個生成器 G 和一個判別器 D 組成。
其中 G 是一個從簡單分布(通常是正態分布)?中取樣的潛在向量 z,以產生相應的樣本G(z),D也被訓練來區分真實樣本也被訓練來區分真實樣本 x~?和生成樣本和生成樣本G(z)~?。
在這種情況下,GAN的目標函數由以下公式表示:
在所提出的方法中,即投影GAN,我們引入了一組特征投影器??(這里的Projection其實就是判別器的特征提取網絡),將真實的和生成的圖像轉化為判別器的輸入空間。在這種情況下,上述的目標函數被以下的方程式所取代,這里,?是對應于 ?中不同特征投影儀?的判別器集合,從這里也能看出本文是基于多判別器的方法:
?在實際過程中是固定的,只更新??和??。但還是要求??滿足:(1) differentiable;(2) preserve important information;
1、Model:多尺度判別器(Multi-Scale Discriminators)
正如介紹中所解釋的,Projected GAN使用一個預訓練模型的表征作為判別器。
具體來說,我們從預先訓練好的網絡 F 的四層(分辨率分別為?L1 = , L2 = , L3 = , L4 = )獲得特征。然后我們將每個分辨率的特征通過一個特征投影儀,并引入一個簡單的卷積結構作為相應的判別器。大致上,結構如下:
?Figure 3: CSM(紅色虛線箭頭)添加了隨機3×3卷積和雙線性上采樣,混合不同分辨率的特征。
該圖所示,對于每個層的表示,L1,.,L4的預訓練模型通過特征投影儀并輸入到相應的判別器D1,...,D4.同時,判別器都被設置為4x4的輸出分辨率(通過調整下采樣層的數量),這些對數被加起來計算出總的損失。鑒別器的結構如下
?關于表格,DB(DownBlock)由內核大小為4、步長為2的卷積、BatchNorm和LeakyReLU(斜率為0.2)組成。同時,光譜歸一化被應用于所有卷積層。
2、隨機投影(Random Projections)
實驗觀測到,越是深層的特征越難cover到,所以提出兩種策略來緩釋重要的特征(CCM 和 CSM),從而讓判別器都能均衡的利用所有可用信息。這兩種策略的共同點是,它們使用固定的可微隨機投影混合特征,即在隨機初始化后,這些層的參數不被訓練。
特征投影由兩部分組成,CCM(跨通道混合)和CSM(跨尺度混合)。這些都是隨機的和固定的,在訓練期間不更新(只有生成器和鑒別器在訓練期間更新)。
1)、Cross-Channel Mixing(CCM):跨通道特征混合
通過對從預訓練模型中獲得的特征進行隨機的1x1卷積運算,在通道層面混合特征。這與下圖中的藍色箭頭相對應
?Figure 2: CCM(藍色虛線箭頭)使用帶有隨機權值的1×1卷積。
2)、Cross-Scale Mixing(CSM):跨尺度的特征混合
?Figure 3: CSM(紅色虛線箭頭)添加了隨機3×3卷積和雙線性上采樣,混合不同分辨率的特征。
3、Pretrained Feature Networks:預訓練特征網絡
有各種可能的預訓練模型用于特征提取,但在原始論文的實驗中,使用了以下模型:
- EfficientNet(EfficientNet lite0-4)。
- ResNet(ResNet-18,ResNet-50,R50-CLIP)
- 變壓器(ViT-Base,DeiT)
其中,EfficientNet(lite1)的效果最好,所以在沒有提到的情況下,采用了EfficientNet(lite1)。
三、Experiments and Ablation Study
(用來探索上述所提的strategies最好的config,所以放在實驗部分之前也不奇怪)
1、Feature Space Fréchet Distances(特征空間距離)
Q1:Feature Network的哪一層是最具有信息量的?
表中結論:淺層的特征更應該被利用,且隨著層數的疊加,網絡的性能反倒會下降。
Q2:Pretrained features應該怎么樣被利用?
表中結論:CCM+CSM+四個判別器
2、哪一個特征提取網絡是最有效的?
?Table 2: Pretrained Feature Networks Study. We train the projected GAN with different pretrained feature networks. We find that compact EfficientNets outperform both ResNets and Transformers.
結論:生成效果跟準確率是沒有關系的,Efficient-Lite1是我們后續實驗選用的P。
3、Comparison to SOTA
1、相同訓練時間下,表現更好(更高的FID)
?Figure 1: Convergence with Projected GANs. Evolution of samples for a fixed latent code during training on the AFHQ-Dog dataset [5]. We find that discriminating features in the projected feature space speeds up convergence and yields lower FIDs. This finding is consistent across many datasets.
2、 Convergence Speed and?Data efficiency:
Training Properties.?Figure 4: Left: Projected FastGAN surpasses the best FID of StyleGAN2 (at 88 M images) after just 1.1 M images on LSUN-Church.
Right: Projected FastGAN yields significantly improved FID scores, even when using subsets of CLEVR with 1k and 10k samples.
supplement:k是千、萬是10k、M是兆(即百萬)。
個人理解:將預訓練的表示能力用來提升判別器,從而給生成器提供更好的反饋是一個很好的思路,但是如果是很強的預訓練網絡,就會讓判別器過強,自然能夠很簡單的對生成數據和真實數據進行判別,尤其是筆者的研究方向:GANs under limited data而言,判別器顯然會在預訓練的加持下,過擬合的更嚴重。所以有沒有可能在利用預訓練提升D的判別特征學習能力的同時,也讓G更懂得如何生成D難以判別的圖片,這一點值得思考。
NeurIPS`21 性能爆炸且速度極快的圖像生成|Projected GANs Converge Faster - 知乎
總結
以上是生活随笔為你收集整理的【预训练GAN】Projected GANs Converge Faster的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: win10鼠标指针皮肤怎么设置
- 下一篇: 19:简单计算器