日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

近期值得读的10篇GAN进展论文

發布時間:2024/10/8 编程问答 37 豆豆
生活随笔 收集整理的這篇文章主要介紹了 近期值得读的10篇GAN进展论文 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.


作者丨蘇劍林

單位丨廣州火焰信息科技有限公司

研究方向丨NLP,神經網絡

個人主頁丨kexue.fm


這篇文章簡單列舉一下我認為最近這段時間中比較重要的 GAN 進展論文,這基本也是我在學習 GAN 的過程中主要去研究的論文清單。


生成模型之味


GAN 是一個大坑,尤其像我這樣的業余玩家,一頭扎進去很久也很難有什么產出,尤其是各個大公司拼算力搞出來一個個大模型,個人幾乎都沒法玩了。但我總覺得,真的去碰了生成模型,才覺得自己碰到了真正的機器學習。這一點,不管在圖像中還是文本中都是如此。所以,我還是愿意去關注生成模型。


當然,GAN 不是生成模型的唯一選擇,卻是一個非常有趣的選擇。在圖像中至少有 GAN、Flow、PixelRNN/PixelCNN 這幾種選擇,但要說潛力,我還是覺得 GAN 才是最具前景的,不單是因為效果,主要是因為它那對抗的思想。


而在文本中,事實上 Seq2Seq 機制就是一個概率生成模型了,而 PixelRNN?這類模型,實際上就是模仿著 Seq2Seq 來做的,當然也有用 GAN 做文本生成的研究(不過基本上都涉及到了強化學習)。也就是說,其實在 NLP 中,生成模型也有很多成果,哪怕你主要是研究 NLP 的,也終將碰到生成模型。


好了,話不多說,還是趕緊把清單列一列,供大家參考,也作為自己的備忘。


拿效果來說話?


話在前頭


不嚴謹地說,目前在 GAN 中,基本上都是效果說話。不管你多么完美的理論,只要你實驗不能生成高清圖,都很難被人接受;你再丑陋的結果,只要你實驗效果夠好,能生成高清大圖,大家都得圍著你轉。?


GAN 模型的一個標志性事件,是 NVIDIA 去年搞出來的 Progressive Growing GANs,它首次實現了 1024*1024 的高清人臉生成。要知道,一般的 GAN 在生成 128*128 人臉時就會有困難,所以 1024 分辨率的生成稱得上是一個突破。而下面列舉的一些論文,都是在自己的實驗中做到了 1024 的人臉生成。單是這個實驗結果,就值得我們去關注一下這些論文。?


當然,生成 1024 圖除了需要模型的進步,還需要很大的算力,因此一般人/實驗室都很難做到。關注這些論文,并不是要我們去復現這么大的圖生成,而是因為這些模型能生成這么大的圖,必然有它值得我們借鑒的地方,甚至我們可以從中明白到 GAN 的瓶頸所在,從而讓我們在自己的研究中少走彎路。


論文清單






這篇文章就是前面說的首次實現了 1024 人臉生成的 Progressive Growing GANs,簡稱 PGGAN,來自 NVIDIA。


顧名思義,PGGAN 通過一種漸進式的結構,實現了從低分辨率到高分辨率的過渡,從而能平滑地訓練出高清模型出來。論文還提出了自己對正則化、歸一化的一些理解和技巧,值得思考。當然,由于是漸進式的,所以相當于要串聯地訓練很多個模型,所以 PGGAN 很慢。






這篇文章有很多對 GAN 訓練穩定性的數學推導,最終得到了比 WGAN-GP 更簡單的梯度懲罰項,關注 GAN 訓練穩定性的同學可以參考。


除了 1024 人臉,這篇文章也做了很多其他數據集的實驗,效果都挺不錯,而且都是直接端到端訓練,不需要漸進式結構。我唯一困惑的是,這個懲罰項,不就是 WGAN-div?中的一個特例嗎?為什么論文沒有提到這一點?






這是個會“反省”的 VAE,通過對抗來改進了 VAE,從而能生成高清圖片,并且能同時得到編碼器和生成器。


除了能生成1024的高清圖,更值得一提的是,這篇文章在構思上非常精妙。因為能同時得到編碼器和生成器的模型不算獨特,比如 BiGAN 就能做到,但是 IntroVAE 獨特之處在于它能直接利用了 encoder 作為判別器,不需要額外的判別器,也就是直接省去了 1/3 的參數量。這背后更深層次的原因,值得我們去細細分析和回味。






這就是大名鼎鼎的 BigGAN。這篇文章雖然沒有提供 1024 的人臉生成結果,但是它提供了 128、256、512 的自然場景圖片的生成結果。要知道自然場景圖片的生成可是比 CelebA 的人臉生成要難上很多倍,既然它連 512 的自然場景圖片都可以生成了,我們自然不懷疑它能輕松生成 1024 的人臉。


BigGAN 在網上已經有很多科普介紹了,不再重復。論文還提出了自己的一些正則化技巧,并分享了大量的調參經驗(調整哪些參數會有好的/壞的改變),非常值得參考。






這篇文章通過信息瓶頸來控制判別器的擬合能力,從而起到正則作用,穩定了 GAN 的訓練。信息瓶頸的簡介可以參考我的這篇文章。總的來說,在普通有監督訓練中一切防止過擬合的手段,理論上都可以用在判別器中,而信息瓶頸也算是防止過擬合的一種手段。


當然,從標題就可以知道,論文也不滿足于只用在 GAN 中,除了 1024 的人臉圖生成實驗,論文還做了仿真學習、強化學習等實驗。






這就是前幾天發出來的新的 GAN 生成器架構,被很多文章稱之為 GAN 2.0,依舊是 NVIDIA,依舊是 PGGAN 的作者,依舊是 PGGAN 的模式。只不過生成器的架構換了,人家在一年前就已經生成了 1024 圖,這次肯定也不例外了。


這個新的生成器架構,據說是借鑒了風格遷移的模型,所以叫 Style-Based Generator。我讀了一下,其實它差不多就是條件 GAN(CGAN)的架構,但是把條件和噪聲互換了。簡單來說,就是把噪聲當作條件,把條件當作噪聲,然后代入到 CGAN 中。


看論文的效果圖,這種思維上的轉換的效果還是很不錯的,我自己也試著實現了一下,能 work,但是有點 mode collapse,大家還是等開源吧。


順便一提的是,一年前也是 PGGAN 的作者給我們帶來了 CelebA HQ 數據集,現在還是他們給我們帶來了新數據集 FFHQ。據說數據集和代碼都將在明年一月開源,讓我們拭目以待。


穩住訓練再說


話在前頭


與有監督學習的任務不同,有監督學習中,一般只要設計好模型,然后有足夠多的數據,足夠的算力,就可以得到足夠好的模型;但 GAN 從來都不是設計模型就完事了,它是一個理論、模型、優化一體的事情。


從框架的角度來看,發展到 WGAN 后 GAN 的理論框架基本也就完備了,后面都只是不痛不癢的修補(包括我的 GAN-QP);從模型架構來看,DCGAN 奠定了基礎,后來發展的 ResNet + Upsampling 也成為了標準框架之一,至于剛出來的 Style-Based Generator 就不說了,所以說模型架構基本上也成熟了。


那剩下的是什么呢?是優化,也就是訓練過程。我覺得,要想真正掌握 GAN,就得仔細研究它的優化過程,也許得從動力學角度來仔細分析它的訓練軌跡。這可能涉及到微分方程解的存在性、唯一性、穩定性等性質,也可能涉及到隨機優化過程的知識。總而言之,需要把優化過程也納入到 GAN 的分析中,GAN 才可能真正完備起來。?


下面的這些論文,從不同的角度分析了 GAN 的訓練問題,并給出了自己的解決方案,值得一讀。


論文清單






本文通過加噪聲的方式推導出了 GAN 的正則項,推導過程理論上適用于一切 f-GAN。從論文效果圖看,結果還是不錯的。






本文提出了 TTUR 的訓練策略,大概意思就是:原來我們每次迭代都是用相同的學習率將判別器和生成器交替訓練不同的次數,現在可以考慮用不同的學習率將各自訓練一次,這樣顯然訓練起來會更省時。


不過我粗略看了一下,盡管論文理論多,但是它理論基礎卻是另外一篇現成的文章 Stochastic approximation with two time scales [1],可以說論文只是反復在用這個現成的理論基礎,略微單調。






在前面已經介紹過這篇文章了,但這里還是再放一次,因為實在是太經典。感覺是研究 GAN 訓練穩定性必看的文章,作者從微分方程角度來理解 GAN 的訓練問題


在穩定性分析的過程中,這篇文章主要還引用了兩篇文章,一篇是它的“前傳”(同一作者),叫做 The Numerics of GANs [2],另一篇是 Gradient descent GAN optimization is locally stable [3],都是經典之作。






本文通過譜歸一化給判別器實現 L 約束,應該說是目前實現 L 約束最漂亮的方法了。目前譜歸一化也用得很廣,所以值得一提。相關介紹也可以參考我之前的文章。






本文往 WGAN-GP 中添加了一個新的正則項,這個正則項的想法很樸素,就是直接把 L 約束(差分形式)作為正則項,跟 GAN-QP 的判別器多出來的二次項差不多。看論文的曲線圖,訓練比純 WGAN-GP 要穩定些。


歡迎繼續補充


這次的論文清單就這么多了,剛好湊夠了十篇。限于筆者閱讀量,不排除有疏漏之處,如果還有其他推薦的,歡迎在評論中提出。


相關鏈接


[1] Vivek S.Borkar. Stochastic approximation with two time scales. Systems & Control Letters Volume 29, Issue 5, February 1997, Pages 291-294.

[2] Lars Mescheder, Sebastian Nowozin, Andreas Geiger. The Numerics of GANs. NIPS 2017.

[3] Vaishnavh Nagarajan, J. Zico Kolter. Gradient descent GAN optimization is locally stable. NIPS 2017.




點擊以下標題查看作者其他文章:?


  • 變分自編碼器VAE:原來是這么一回事 | 附開源代碼

  • 再談變分自編碼器VAE:從貝葉斯觀點出發

  • 變分自編碼器VAE:這樣做為什么能成?

  • 從變分編碼、信息瓶頸到正態分布:論遺忘的重要性

  • 深度學習中的互信息:無監督提取特征

  • 全新視角:用變分推斷統一理解生成模型

  • 細水長flow之NICE:流模型的基本概念與實現

  • 細水長flow之f-VAEs:Glow與VAEs的聯姻

  • 深度學習中的Lipschitz約束:泛化與生成模型




#投 稿 通 道#

?讓你的論文被更多人看到?



如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢??答案就是:你不認識的人。


總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。?


PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學習心得技術干貨。我們的目的只有一個,讓知識真正流動起來。


??來稿標準:

? 稿件確系個人原創作品,來稿需注明作者個人信息(姓名+學校/工作單位+學歷/職位+研究方向)?

? 如果文章并非首發,請在投稿時提醒并附上所有已發布鏈接?

? PaperWeekly 默認每篇文章都是首發,均會添加“原創”標志


? 投稿郵箱:

? 投稿郵箱:hr@paperweekly.site?

? 所有文章配圖,請單獨在附件中發送?

? 請留下即時聯系方式(微信或手機),以便我們在編輯發布時和作者溝通




?


現在,在「知乎」也能找到我們了

進入知乎首頁搜索「PaperWeekly」

點擊「關注」訂閱我們的專欄吧



關于PaperWeekly


PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。


▽ 點擊 |?閱讀原文?| 查看作者博客

總結

以上是生活随笔為你收集整理的近期值得读的10篇GAN进展论文的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。