【预训练GAN】Projected GANs Converge Faster
收斂更快的投影GAN
PDF:https://www.cvlibs.net/publications/Sauer2021NEURIPS.pdf
Supplementary :https://www.cvlibs.net/publications/Sauer2021NEURIPS_supplementary.pdf
code:?GitHub - autonomousvision/projected_gan: [NeurIPS'21] Projected GANs Converge Faster
一、本文做了什么??
(1)Projected GANs主要的貢獻是多尺度判別器,多尺度判別器主要的改進是兩部分:CCM(跨通道混合)和CSM(跨尺度混合),
(2)而生成器G它沒有自己設(shè)計而是使用的FastGAN的生成器G,(作者測試了styleGAN2和FastGAN,但是發(fā)現(xiàn)FastGAN表現(xiàn)更好)
GANs面臨各種挑戰(zhàn):如學(xué)習(xí)不穩(wěn)定、巨大的計算成本和超參數(shù)調(diào)整:
在這篇文章中,通過在Discriminator中使用預(yù)訓(xùn)練模型穩(wěn)定GAN的訓(xùn)練,提高了生成圖像的質(zhì)量、采樣效率和收斂速度,并顯示出比StyleGAN2-ADA和FastGAN?更好的結(jié)果。(本文是首次利用預(yù)訓(xùn)練表示學(xué)習(xí)模型在Unconditional的圖像生成的任務(wù)中使用,并且討論了如果只是直接用很強的預(yù)訓(xùn)練模型,D將會主宰GAN的訓(xùn)練,也不能達到很好的效果。)
為了克服這一難點,本文提出
二、Projected GANs
GAN由一個生成器 G 和一個判別器 D 組成。
其中 G 是一個從簡單分布(通常是正態(tài)分布)?中取樣的潛在向量 z,以產(chǎn)生相應(yīng)的樣本G(z),D也被訓(xùn)練來區(qū)分真實樣本也被訓(xùn)練來區(qū)分真實樣本 x~?和生成樣本和生成樣本G(z)~?。
在這種情況下,GAN的目標函數(shù)由以下公式表示:
在所提出的方法中,即投影GAN,我們引入了一組特征投影器??(這里的Projection其實就是判別器的特征提取網(wǎng)絡(luò)),將真實的和生成的圖像轉(zhuǎn)化為判別器的輸入空間。在這種情況下,上述的目標函數(shù)被以下的方程式所取代,這里,?是對應(yīng)于 ?中不同特征投影儀?的判別器集合,從這里也能看出本文是基于多判別器的方法:
?在實際過程中是固定的,只更新??和??。但還是要求??滿足:(1) differentiable;(2) preserve important information;
1、Model:多尺度判別器(Multi-Scale Discriminators)
正如介紹中所解釋的,Projected GAN使用一個預(yù)訓(xùn)練模型的表征作為判別器。
具體來說,我們從預(yù)先訓(xùn)練好的網(wǎng)絡(luò) F 的四層(分辨率分別為?L1 = , L2 = , L3 = , L4 = )獲得特征。然后我們將每個分辨率的特征通過一個特征投影儀,并引入一個簡單的卷積結(jié)構(gòu)作為相應(yīng)的判別器。大致上,結(jié)構(gòu)如下:
?Figure 3: CSM(紅色虛線箭頭)添加了隨機3×3卷積和雙線性上采樣,混合不同分辨率的特征。
該圖所示,對于每個層的表示,L1,.,L4的預(yù)訓(xùn)練模型通過特征投影儀并輸入到相應(yīng)的判別器D1,...,D4.同時,判別器都被設(shè)置為4x4的輸出分辨率(通過調(diào)整下采樣層的數(shù)量),這些對數(shù)被加起來計算出總的損失。鑒別器的結(jié)構(gòu)如下
?關(guān)于表格,DB(DownBlock)由內(nèi)核大小為4、步長為2的卷積、BatchNorm和LeakyReLU(斜率為0.2)組成。同時,光譜歸一化被應(yīng)用于所有卷積層。
2、隨機投影(Random Projections)
實驗觀測到,越是深層的特征越難cover到,所以提出兩種策略來緩釋重要的特征(CCM 和 CSM),從而讓判別器都能均衡的利用所有可用信息。這兩種策略的共同點是,它們使用固定的可微隨機投影混合特征,即在隨機初始化后,這些層的參數(shù)不被訓(xùn)練。
特征投影由兩部分組成,CCM(跨通道混合)和CSM(跨尺度混合)。這些都是隨機的和固定的,在訓(xùn)練期間不更新(只有生成器和鑒別器在訓(xùn)練期間更新)。
1)、Cross-Channel Mixing(CCM):跨通道特征混合
通過對從預(yù)訓(xùn)練模型中獲得的特征進行隨機的1x1卷積運算,在通道層面混合特征。這與下圖中的藍色箭頭相對應(yīng)
?Figure 2: CCM(藍色虛線箭頭)使用帶有隨機權(quán)值的1×1卷積。
2)、Cross-Scale Mixing(CSM):跨尺度的特征混合
?Figure 3: CSM(紅色虛線箭頭)添加了隨機3×3卷積和雙線性上采樣,混合不同分辨率的特征。
3、Pretrained Feature Networks:預(yù)訓(xùn)練特征網(wǎng)絡(luò)
有各種可能的預(yù)訓(xùn)練模型用于特征提取,但在原始論文的實驗中,使用了以下模型:
- EfficientNet(EfficientNet lite0-4)。
- ResNet(ResNet-18,ResNet-50,R50-CLIP)
- 變壓器(ViT-Base,DeiT)
其中,EfficientNet(lite1)的效果最好,所以在沒有提到的情況下,采用了EfficientNet(lite1)。
三、Experiments and Ablation Study
(用來探索上述所提的strategies最好的config,所以放在實驗部分之前也不奇怪)
1、Feature Space Fréchet Distances(特征空間距離)
Q1:Feature Network的哪一層是最具有信息量的?
表中結(jié)論:淺層的特征更應(yīng)該被利用,且隨著層數(shù)的疊加,網(wǎng)絡(luò)的性能反倒會下降。
Q2:Pretrained features應(yīng)該怎么樣被利用?
表中結(jié)論:CCM+CSM+四個判別器
2、哪一個特征提取網(wǎng)絡(luò)是最有效的?
?Table 2: Pretrained Feature Networks Study. We train the projected GAN with different pretrained feature networks. We find that compact EfficientNets outperform both ResNets and Transformers.
結(jié)論:生成效果跟準確率是沒有關(guān)系的,Efficient-Lite1是我們后續(xù)實驗選用的P。
3、Comparison to SOTA
1、相同訓(xùn)練時間下,表現(xiàn)更好(更高的FID)
?Figure 1: Convergence with Projected GANs. Evolution of samples for a fixed latent code during training on the AFHQ-Dog dataset [5]. We find that discriminating features in the projected feature space speeds up convergence and yields lower FIDs. This finding is consistent across many datasets.
2、 Convergence Speed and?Data efficiency:
Training Properties.?Figure 4: Left: Projected FastGAN surpasses the best FID of StyleGAN2 (at 88 M images) after just 1.1 M images on LSUN-Church.
Right: Projected FastGAN yields significantly improved FID scores, even when using subsets of CLEVR with 1k and 10k samples.
supplement:k是千、萬是10k、M是兆(即百萬)。
個人理解:將預(yù)訓(xùn)練的表示能力用來提升判別器,從而給生成器提供更好的反饋是一個很好的思路,但是如果是很強的預(yù)訓(xùn)練網(wǎng)絡(luò),就會讓判別器過強,自然能夠很簡單的對生成數(shù)據(jù)和真實數(shù)據(jù)進行判別,尤其是筆者的研究方向:GANs under limited data而言,判別器顯然會在預(yù)訓(xùn)練的加持下,過擬合的更嚴重。所以有沒有可能在利用預(yù)訓(xùn)練提升D的判別特征學(xué)習(xí)能力的同時,也讓G更懂得如何生成D難以判別的圖片,這一點值得思考。
NeurIPS`21 性能爆炸且速度極快的圖像生成|Projected GANs Converge Faster - 知乎
總結(jié)
以上是生活随笔為你收集整理的【预训练GAN】Projected GANs Converge Faster的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: win10鼠标指针皮肤怎么设置
- 下一篇: 19:简单计算器