當前位置：首頁 >

英伟达超快 StyleGAN 回归，比 Stable Diffusion 快 30 多倍，网友：GAN 好像只剩下快了

發布時間：2023/12/15 57 生活家

生活随笔收集整理的這篇文章主要介紹了英伟达超快 StyleGAN 回归，比 Stable Diffusion 快 30 多倍，网友：GAN 好像只剩下快了小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

擴散模型的圖像生成統治地位，終于要被 GAN 奪回了？

就在大伙兒喜迎新年之際，英偉達一群科學家悄悄給 StyleGAN 系列做了個升級，變出個 PLUS 版的 StyleGAN-T，一下子在網上火了。

無論是在星云爆炸中生成一只柯基：

還是基于虛幻引擎風格渲染的森林：

都只需要接近 0.1 秒就能生成！

同等算力下，擴散模型中的 Stable Diffusion 生成一張圖片需要 3 秒鐘，Imagen 甚至需要接近 10 秒。

不少網友的第一反應是：

GAN，一個我太久沒聽到的名字了。

很快谷歌大腦研究科學家、DreamFusion 第一作者 Ben Poole 趕來圍觀，并將 StyleGAN-T 與擴散模型做了個對比：

在低質量圖像（64×64）生成方面，StyleGAN-T 要比擴散模型做得更好。

但他同時也表示，在 256×256 圖像生成上，還是擴散模型的天下。

所以，新版 StyleGAN 生成質量究竟如何，它又究竟是在哪些領域重新具備競爭力的？

StyleGAN-T 長啥樣？

相比擴散模型和自回歸模型多次迭代生成樣本，GAN 最大的優勢是速度。

因此，StyleGAN-T 這次也將重心放在了大規模文本圖像合成上，即如何在短時間內由文本生成大量圖像。

StyleGAN-T 基于 StyleGAN-XL 改進而來。

StyleGAN-XL 的參數量是 StyleGAN3 的 3 倍，基于 ImageNet 訓練，能生成 1024×1024 高分辨率的圖像，并借鑒了 StyleGAN2 和 StyleGAN3 的部分架構設計。

它的整體架構如下：

具體到細節上，作者們對生成器、判別器和文本對齊權衡機制進行了重新設計，用 FID 對樣本質量進行量化評估，并采用 CLIP 來對文本進行對齊。

在生成器上，作者們放棄了 StyleGAN3 中能實現平移同變性（equivariance）的架構，轉而采用了 StyleGAN2 的部分設計，包括輸入空間噪聲以及跳層連接等，以提升細節隨機變化的多樣性。

在判別器上，作者們也重新進行了設計，采用自監督學習對 ViT-S 進行訓練。

隨后，作者采用了一種特殊的截斷（truncation）方法來控制圖像生成的效果，同時權衡生成內容的多樣性。

只需要控制參數 ψ，就能在確保 CLIP 分數（用于評估圖像生成效果）變動不大的情況下，改善生成圖像的風格多樣性。

隨后，作者們用 64 個英偉達 A100 訓練了 4 周，最終得到了這版 StyleGAN-T。

那么它的生成效果如何呢？

超快生成低分辨率圖像

作者們對當前最好的幾種 GAN、擴散模型和自回歸模型進行了評估。

在微軟的 MS COCO 數據集上，StyleGAN-T 實現了 64×64 分辨率下最高的 FID。

（其中，FID 是計算真實圖像和生成圖像特征向量距離的評估用值，數值越低，表示生成的效果越接近真實圖像）

但在更高的 256×256 分辨率生成上，StyleGAN-T 還是沒有比過擴散模型，只是在生成效果上比同樣用 GAN 的 LAFITE 要好上不少：

如果進一步將生成時間和 FID 分別作為縱軸和橫軸，放到同一張圖上來對比，還能更直觀地對比生成質量和速度。

可見 StyleGAN-T 能保持在 10FPS 的速度下生成 256×256 分辨率圖像，同時 FID 值逼近 LDM 和 GLIDE 等擴散模型：

而在文本生成圖像功能上，作者們也從文本特征、風格控制等方面對模型進行了測試。

在增加或改變特定的形容詞后，生成的圖像確實符合描述：

即便是快速生成的圖像，也能迅速控制風格，如“梵高風格的畫”or“動畫”等：

當然，偶爾也有失敗案例，最典型的就是生成帶字母要求的圖像時，顯示不出正常字母來：

作者們正在努力整理代碼，表示不久之后就會開源。

作者介紹

作者們均來自圖賓根大學和英偉達。

一作 Axel Sauer，圖賓根大學博士生，此前在卡爾斯魯厄理工學院（KIT）獲得本碩學位。目前感興趣的研究方向是深度生成模型、神經網絡架構和實證研究。

二作 Tero Karras，英偉達杰出研究科學家，對英偉達 RTX 技術有重要貢獻，也是 StyleGAN 系列的主要作者，主要研究方向是計算機圖形學和實時渲染。

不過在這波 GAN 掀起的“文藝復興”浪潮下，也出現了“StyleGAN 時代迎來終結”的聲音。

有網友感慨：

在這之前，最新 StyleGAN 生成的圖像總能讓我們大吃一驚，然而現在它給我們的印象只剩下“快”了。

你認為 GAN 還能撼動擴散模型的統治地位嗎？

論文地址：

https://arxiv.org/abs/2301.09515

項目地址：

https://github.com/autonomousvision/stylegan-t

本文來自微信公眾號：量子位（ID：QbitAI），作者：蕭簫

總結

以上是生活随笔為你收集整理的英伟达超快 StyleGAN 回归，比 Stable Diffusion 快 30 多倍，网友：GAN 好像只剩下快了的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：雷军：任天堂的硬件比不过索尼但游戏性做
下一篇：一款因为高颜值而被人挂念的微单

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

英伟达超快 StyleGAN 回归，比 Stable Diffusion 快 30 多倍，网友：GAN 好像只剩下快了

StyleGAN-T 長啥樣？

超快生成低分辨率圖像

作者介紹

總結