日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

【预训练GAN】Projected GANs Converge Faster

發布時間:2024/1/1 编程问答 33 豆豆
生活随笔 收集整理的這篇文章主要介紹了 【预训练GAN】Projected GANs Converge Faster 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

收斂更快的投影GAN

PDF:https://www.cvlibs.net/publications/Sauer2021NEURIPS.pdf

Supplementary :https://www.cvlibs.net/publications/Sauer2021NEURIPS_supplementary.pdf

code:?GitHub - autonomousvision/projected_gan: [NeurIPS'21] Projected GANs Converge Faster


一、本文做了什么??

(1)Projected GANs主要的貢獻是多尺度判別器,多尺度判別器主要的改進是兩部分:CCM(跨通道混合)和CSM(跨尺度混合),

(2)而生成器G它沒有自己設計而是使用的FastGAN的生成器G,(作者測試了styleGAN2和FastGAN,但是發現FastGAN表現更好)

GANs面臨各種挑戰:如學習不穩定、巨大的計算成本和超參數調整:

在這篇文章中,通過在Discriminator中使用預訓練模型穩定GAN的訓練,提高了生成圖像的質量、采樣效率和收斂速度,并顯示出比StyleGAN2-ADA和FastGAN?更好的結果。(本文是首次利用預訓練表示學習模型在Unconditional的圖像生成的任務中使用,并且討論了如果只是直接用很強的預訓練模型,D將會主宰GAN的訓練,也不能達到很好的效果。)

為了克服這一難點,本文提出

  • Feature pyramids 利用多判別器的多尺度反饋;
  • Random Projection更好的利用預訓練網絡的深層特征
  • 二、Projected GANs

    GAN由一個生成器 G 和一個判別器 D 組成。

    其中 G 是一個從簡單分布(通常是正態分布)?中取樣的潛在向量 z,以產生相應的樣本G(z),D也被訓練來區分真實樣本也被訓練來區分真實樣本 x~?和生成樣本和生成樣本G(z)~?。

    在這種情況下,GAN的目標函數由以下公式表示:

    在所提出的方法中,即投影GAN,我們引入了一組特征投影器??(這里的Projection其實就是判別器的特征提取網絡),將真實的和生成的圖像轉化為判別器的輸入空間。在這種情況下,上述的目標函數被以下的方程式所取代,這里,?是對應于 ?中不同特征投影儀?的判別器集合,從這里也能看出本文是基于多判別器的方法:

    ?在實際過程中是固定的,只更新??和??。但還是要求??滿足:(1) differentiable;(2) preserve important information;

    1、Model:多尺度判別器(Multi-Scale Discriminators)

    正如介紹中所解釋的,Projected GAN使用一個預訓練模型的表征作為判別器。

    具體來說,我們從預先訓練好的網絡 F 的四層(分辨率分別為?L1 = , L2 = , L3 = , L4 = )獲得特征。然后我們將每個分辨率的特征通過一個特征投影儀,并引入一個簡單的卷積結構作為相應的判別器。大致上,結構如下:

    ?Figure 3: CSM(紅色虛線箭頭)添加了隨機3×3卷積和雙線性上采樣,混合不同分辨率的特征。

    該圖所示,對于每個層的表示,L1,.,L4的預訓練模型通過特征投影儀并輸入到相應的判別器D1,...,D4.同時,判別器都被設置為4x4的輸出分辨率(通過調整下采樣層的數量),這些對數被加起來計算出總的損失。鑒別器的結構如下

    ?關于表格,DB(DownBlock)由內核大小為4、步長為2的卷積、BatchNorm和LeakyReLU(斜率為0.2)組成。同時,光譜歸一化被應用于所有卷積層。

    2、隨機投影(Random Projections)

    實驗觀測到,越是深層的特征越難cover到,所以提出兩種策略來緩釋重要的特征(CCM 和 CSM),從而讓判別器都能均衡的利用所有可用信息。這兩種策略的共同點是,它們使用固定的可微隨機投影混合特征,即在隨機初始化后,這些層的參數不被訓練。

    特征投影由兩部分組成,CCM(跨通道混合)和CSM(跨尺度混合)。這些都是隨機的和固定的,在訓練期間不更新(只有生成器和鑒別器在訓練期間更新)。

    1)、Cross-Channel Mixing(CCM):跨通道特征混合

    通過對從預訓練模型中獲得的特征進行隨機的1x1卷積運算,在通道層面混合特征。這與下圖中的藍色箭頭相對應

    ?Figure 2: CCM(藍色虛線箭頭)使用帶有隨機權值的1×1卷積。

    2)、Cross-Scale Mixing(CSM):跨尺度的特征混合

    ?Figure 3: CSM(紅色虛線箭頭)添加了隨機3×3卷積和雙線性上采樣,混合不同分辨率的特征。

    3、Pretrained Feature Networks:預訓練特征網絡

    有各種可能的預訓練模型用于特征提取,但在原始論文的實驗中,使用了以下模型:

    • EfficientNet(EfficientNet lite0-4)。
    • ResNet(ResNet-18,ResNet-50,R50-CLIP)
    • 變壓器(ViT-Base,DeiT)

    其中,EfficientNet(lite1)的效果最好,所以在沒有提到的情況下,采用了EfficientNet(lite1)。

    三、Experiments and Ablation Study

    (用來探索上述所提的strategies最好的config,所以放在實驗部分之前也不奇怪)

    1、Feature Space Fréchet Distances(特征空間距離)

    Q1:Feature Network的哪一層是最具有信息量的?

    表中結論:淺層的特征更應該被利用,且隨著層數的疊加,網絡的性能反倒會下降。

    Q2:Pretrained features應該怎么樣被利用?

    表中結論:CCM+CSM+四個判別器

    2、哪一個特征提取網絡是最有效的?

    ?Table 2: Pretrained Feature Networks Study. We train the projected GAN with different pretrained feature networks. We find that compact EfficientNets outperform both ResNets and Transformers.

    結論:生成效果跟準確率是沒有關系的,Efficient-Lite1是我們后續實驗選用的P。

    3、Comparison to SOTA

    1、相同訓練時間下,表現更好(更高的FID)

    ?Figure 1: Convergence with Projected GANs. Evolution of samples for a fixed latent code during training on the AFHQ-Dog dataset [5]. We find that discriminating features in the projected feature space speeds up convergence and yields lower FIDs. This finding is consistent across many datasets.

    2、 Convergence Speed and?Data efficiency:

    Training Properties.

    ?Figure 4: Left: Projected FastGAN surpasses the best FID of StyleGAN2 (at 88 M images) after just 1.1 M images on LSUN-Church.
    Right: Projected FastGAN yields significantly improved FID scores, even when using subsets of CLEVR with 1k and 10k samples.

    supplement:k是千、萬是10k、M是兆(即百萬)。

    個人理解:將預訓練的表示能力用來提升判別器,從而給生成器提供更好的反饋是一個很好的思路,但是如果是很強的預訓練網絡,就會讓判別器過強,自然能夠很簡單的對生成數據和真實數據進行判別,尤其是筆者的研究方向:GANs under limited data而言,判別器顯然會在預訓練的加持下,過擬合的更嚴重。所以有沒有可能在利用預訓練提升D的判別特征學習能力的同時,也讓G更懂得如何生成D難以判別的圖片,這一點值得思考。

    NeurIPS`21 性能爆炸且速度極快的圖像生成|Projected GANs Converge Faster - 知乎

    總結

    以上是生活随笔為你收集整理的【预训练GAN】Projected GANs Converge Faster的全部內容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。