當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

【预训练GAN】Projected GANs Converge Faster

發(fā)布時間：2024/1/1 编程问答 38 豆豆

生活随笔收集整理的這篇文章主要介紹了【预训练GAN】Projected GANs Converge Faster 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

收斂更快的投影GAN

PDF：https://www.cvlibs.net/publications/Sauer2021NEURIPS.pdf

Supplementary ：https://www.cvlibs.net/publications/Sauer2021NEURIPS_supplementary.pdf

code：?GitHub - autonomousvision/projected_gan: [NeurIPS'21] Projected GANs Converge Faster

一、本文做了什么？?

（1）Projected GANs主要的貢獻是多尺度判別器，多尺度判別器主要的改進是兩部分：CCM（跨通道混合）和CSM（跨尺度混合），

（2）而生成器G它沒有自己設(shè)計而是使用的FastGAN的生成器G,（作者測試了styleGAN2和FastGAN，但是發(fā)現(xiàn)FastGAN表現(xiàn)更好）

GANs面臨各種挑戰(zhàn)：如學(xué)習(xí)不穩(wěn)定、巨大的計算成本和超參數(shù)調(diào)整：

在這篇文章中，通過在Discriminator中使用預(yù)訓(xùn)練模型穩(wěn)定GAN的訓(xùn)練，提高了生成圖像的質(zhì)量、采樣效率和收斂速度，并顯示出比StyleGAN2-ADA和FastGAN?更好的結(jié)果。（本文是首次利用預(yù)訓(xùn)練表示學(xué)習(xí)模型在Unconditional的圖像生成的任務(wù)中使用，并且討論了如果只是直接用很強的預(yù)訓(xùn)練模型，D將會主宰GAN的訓(xùn)練，也不能達到很好的效果。）

為了克服這一難點，本文提出

Feature pyramids 利用多判別器的多尺度反饋；

Random Projection更好的利用預(yù)訓(xùn)練網(wǎng)絡(luò)的深層特征

二、Projected GANs

GAN由一個生成器 G 和一個判別器 D 組成。

其中 G 是一個從簡單分布（通常是正態(tài)分布）?中取樣的潛在向量 z，以產(chǎn)生相應(yīng)的樣本G（z），D也被訓(xùn)練來區(qū)分真實樣本也被訓(xùn)練來區(qū)分真實樣本 x~?和生成樣本和生成樣本G(z)~?。

在這種情況下，GAN的目標函數(shù)由以下公式表示：

在所提出的方法中，即投影GAN，我們引入了一組特征投影器??（這里的Projection其實就是判別器的特征提取網(wǎng)絡(luò)），將真實的和生成的圖像轉(zhuǎn)化為判別器的輸入空間。在這種情況下，上述的目標函數(shù)被以下的方程式所取代，這里，?是對應(yīng)于 ?中不同特征投影儀?的判別器集合，從這里也能看出本文是基于多判別器的方法：

?在實際過程中是固定的，只更新??和??。但還是要求??滿足：(1) differentiable；(2) preserve important information;

1、Model：多尺度判別器（Multi-Scale Discriminators）

正如介紹中所解釋的，Projected GAN使用一個預(yù)訓(xùn)練模型的表征作為判別器。

具體來說，我們從預(yù)先訓(xùn)練好的網(wǎng)絡(luò) F 的四層（分辨率分別為?L1 = , L2 = , L3 = , L4 = ）獲得特征。然后我們將每個分辨率的特征通過一個特征投影儀，并引入一個簡單的卷積結(jié)構(gòu)作為相應(yīng)的判別器。大致上，結(jié)構(gòu)如下：

?Figure 3: CSM(紅色虛線箭頭)添加了隨機3×3卷積和雙線性上采樣，混合不同分辨率的特征。

該圖所示，對于每個層的表示，L1,.,L4的預(yù)訓(xùn)練模型通過特征投影儀并輸入到相應(yīng)的判別器D1,...,D4.同時，判別器都被設(shè)置為4x4的輸出分辨率（通過調(diào)整下采樣層的數(shù)量），這些對數(shù)被加起來計算出總的損失。鑒別器的結(jié)構(gòu)如下

?關(guān)于表格，DB(DownBlock)由內(nèi)核大小為4、步長為2的卷積、BatchNorm和LeakyReLU（斜率為0.2）組成。同時，光譜歸一化被應(yīng)用于所有卷積層。

2、隨機投影（Random Projections）

實驗觀測到，越是深層的特征越難cover到，所以提出兩種策略來緩釋重要的特征（CCM 和 CSM），從而讓判別器都能均衡的利用所有可用信息。這兩種策略的共同點是，它們使用固定的可微隨機投影混合特征，即在隨機初始化后，這些層的參數(shù)不被訓(xùn)練。

特征投影由兩部分組成，CCM（跨通道混合）和CSM（跨尺度混合）。這些都是隨機的和固定的，在訓(xùn)練期間不更新（只有生成器和鑒別器在訓(xùn)練期間更新）。

1）、Cross-Channel Mixing（CCM）：跨通道特征混合

通過對從預(yù)訓(xùn)練模型中獲得的特征進行隨機的1x1卷積運算，在通道層面混合特征。這與下圖中的藍色箭頭相對應(yīng)

?Figure 2: CCM(藍色虛線箭頭)使用帶有隨機權(quán)值的1×1卷積。

2）、Cross-Scale Mixing（CSM）：跨尺度的特征混合

?Figure 3: CSM(紅色虛線箭頭)添加了隨機3×3卷積和雙線性上采樣，混合不同分辨率的特征。

3、Pretrained Feature Networks：預(yù)訓(xùn)練特征網(wǎng)絡(luò)

有各種可能的預(yù)訓(xùn)練模型用于特征提取，但在原始論文的實驗中，使用了以下模型：

EfficientNet（EfficientNet lite0-4）。
ResNet(ResNet-18,ResNet-50,R50-CLIP)
變壓器(ViT-Base,DeiT)

其中，EfficientNet(lite1)的效果最好，所以在沒有提到的情況下，采用了EfficientNet(lite1)。

三、Experiments and Ablation Study

（用來探索上述所提的strategies最好的config，所以放在實驗部分之前也不奇怪）

1、Feature Space Fréchet Distances（特征空間距離）

Q1：Feature Network的哪一層是最具有信息量的？

表中結(jié)論：淺層的特征更應(yīng)該被利用，且隨著層數(shù)的疊加，網(wǎng)絡(luò)的性能反倒會下降。

Q2：Pretrained features應(yīng)該怎么樣被利用？

表中結(jié)論：CCM+CSM+四個判別器

2、哪一個特征提取網(wǎng)絡(luò)是最有效的？

?Table 2: Pretrained Feature Networks Study. We train the projected GAN with different pretrained feature networks. We find that compact EfficientNets outperform both ResNets and Transformers.

結(jié)論：生成效果跟準確率是沒有關(guān)系的，Efficient-Lite1是我們后續(xù)實驗選用的P。

3、Comparison to SOTA

1、相同訓(xùn)練時間下，表現(xiàn)更好（更高的FID）

?Figure 1: Convergence with Projected GANs. Evolution of samples for a fixed latent code during training on the AFHQ-Dog dataset [5]. We find that discriminating features in the projected feature space speeds up convergence and yields lower FIDs. This finding is consistent across many datasets.

2、 Convergence Speed and?Data efficiency：

Training Properties.

?Figure 4: Left: Projected FastGAN surpasses the best FID of StyleGAN2 (at 88 M images) after just 1.1 M images on LSUN-Church.
Right: Projected FastGAN yields significantly improved FID scores, even when using subsets of CLEVR with 1k and 10k samples.

supplement：k是千、萬是10k、M是兆（即百萬）。

個人理解：將預(yù)訓(xùn)練的表示能力用來提升判別器，從而給生成器提供更好的反饋是一個很好的思路，但是如果是很強的預(yù)訓(xùn)練網(wǎng)絡(luò)，就會讓判別器過強，自然能夠很簡單的對生成數(shù)據(jù)和真實數(shù)據(jù)進行判別，尤其是筆者的研究方向：GANs under limited data而言，判別器顯然會在預(yù)訓(xùn)練的加持下，過擬合的更嚴重。所以有沒有可能在利用預(yù)訓(xùn)練提升D的判別特征學(xué)習(xí)能力的同時，也讓G更懂得如何生成D難以判別的圖片，這一點值得思考。

NeurIPS`21 性能爆炸且速度極快的圖像生成|Projected GANs Converge Faster - 知乎

總結(jié)

以上是生活随笔為你收集整理的【预训练GAN】Projected GANs Converge Faster的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。