日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

WGAN的成功,可能跟Wasserstein距离没啥关系

發(fā)布時(shí)間:2024/10/8 编程问答 30 豆豆
生活随笔 收集整理的這篇文章主要介紹了 WGAN的成功,可能跟Wasserstein距离没啥关系 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

?PaperWeekly 原創(chuàng) ·?作者|蘇劍林

單位|追一科技

研究方向|NLP、神經(jīng)網(wǎng)絡(luò)

WGAN,即 Wasserstein GAN,算是 GAN 史上一個(gè)比較重要的理論突破結(jié)果,它將 GAN 中兩個(gè)概率分布的度量從 f 散度改為了 Wasserstein 距離,從而使得 WGAN 的訓(xùn)練過程更加穩(wěn)定,而且生成質(zhì)量通常也更好。

Wasserstein 距離跟最優(yōu)傳輸相關(guān),屬于 Integral Probability Metric(IPM)的一種,這類概率度量通常有著更優(yōu)良的理論性質(zhì),因此 WGAN 的出現(xiàn)也吸引了很多人從最優(yōu)傳輸和 IPMs 的角度來理解和研究 GAN 模型。

然而,最近 Arxiv 上的論文《Wasserstein GANs Work Because They Fail (to Approximate the Wasserstein Distance)》[1] 則指出,盡管 WGAN 是從 Wasserstein GAN 推導(dǎo)出來的,但是現(xiàn)在成功的 WGAN 并沒有很好地近似 Wasserstein 距離,相反如果我們對(duì) Wasserstein 距離做更好的近似,效果反而會(huì)變差。

事實(shí)上,筆者一直以來也有這個(gè)疑惑,即 Wasserstein 距離本身并沒有體現(xiàn)出它能提升 GAN 效果的必然性,該論文的結(jié)論則肯定了該疑惑,所以 GAN 能成功的原因依然很迷。

基礎(chǔ)與回顧

本文是對(duì) WGAN 訓(xùn)練過程的探討,并不算入門文章。關(guān)于初學(xué) GAN,歡迎參考互懟的藝術(shù):從零直達(dá) WGAN-GP;而關(guān)于 f 散度與 GAN 之間的聯(lián)系,可以參考 f-GAN 簡(jiǎn)介:GAN 模型的生產(chǎn)車間和 Designing GANs:又一個(gè) GAN 生產(chǎn)車間;至于WGAN的理論推導(dǎo),可以參考從Wasserstein距離、對(duì)偶理論到 WGAN;對(duì)于 GAN 的訓(xùn)練過程分析,還可以參考從動(dòng)力學(xué)角度看優(yōu)化算法:GAN 的第三個(gè)階段。

一般來說,GAN 對(duì)應(yīng)著一個(gè) min-max 過程:

當(dāng)然,一般來說判別器和生成器的損失函數(shù)可能不一樣,但上述形式已經(jīng)足夠有代表性了。最原始的 GAN 一般稱為 vanilla GAN,其形式為:

可以參考《Towards Principled Methods for Training Generative Adversarial Networks》[2] 、令人拍案叫絕的 Wasserstein GAN [3] 或筆者的相關(guān) GAN [4] 文章證明,vanilla GAN 實(shí)際上相對(duì)于在縮小兩個(gè)分布之間的 JS 散度。

而 JS 散度是 f 散度的一種,所有的 f 散度都具有一個(gè)問題,那就是在兩個(gè)分布幾乎沒有交集的時(shí)候,散度為一個(gè)常數(shù),這意味著梯度為零,而我們是使用梯度下降求解的,所以這意味著我們無法很好地完成優(yōu)化。為此,WGAN [5] 應(yīng)運(yùn)而生,它利用 Wasserstein 距離來設(shè)計(jì)了新的 GAN:

跟之前的 GAN 的明顯區(qū)別是,WGAN 顯式地給判別器 D 加上了 L 約束 。由于 Wasserstein 距離幾乎對(duì)任意兩個(gè)分布(哪怕沒有交集)都有比較良好的定義,因此 WGAN 理論上就解決了傳統(tǒng)的基于 f 散度的 GAN 的梯度消失、訓(xùn)練不穩(wěn)定等問題。

給判別器加上 L 約束主要有兩個(gè)主要方案:一是譜歸一化(Spectral Normalization,SN),可以參考深度學(xué)習(xí)中的 Lipschitz 約束:泛化與生成模型,現(xiàn)在很多 GAN(不限于 WGAN)為了穩(wěn)定訓(xùn)練,都往判別器甚至生成器上都加入譜歸一化了;

二是梯度懲罰(Gradient Penalty,GP),其中有包括以 1 為中心的懲罰(WGAN-GP)和以 0 為中心的懲罰(WGAN-div)兩種,可以參考WGAN-div:一個(gè)默默無聞的 WGAN 填坑者,目前的結(jié)果表明零中心懲罰具有比較好的理論性質(zhì)和效果。

效果 ≠ 近似

事實(shí)上“WGAN 并沒有很好近似 Wasserstein 距離”這個(gè)現(xiàn)象也不是第一次被關(guān)注了,比如 2019 年就有論文《How Well Do WGANs Estimate the Wasserstein Metric?》[6] 系統(tǒng)地討論過這一點(diǎn)。而本文要介紹的論文,則通過比較嚴(yán)謹(jǐn)?shù)卦O(shè)置實(shí)驗(yàn)來確定 WGAN 效果的好壞與 Wasserstein 距離近似程度的聯(lián)系。

首先,論文比較了梯度懲罰(GP)與一種稱為 的方法在實(shí)現(xiàn)WGAN時(shí)的效果。 同樣提出自論文《How Well Do WGANs Estimate the Wasserstein Metric?》[6] ,它相比梯度懲罰能更好地近似 Wasserstein 距離。下面兩個(gè)圖也表明了這一點(diǎn):

▲ 靜態(tài)測(cè)試時(shí)WGAN-GP、c-transforme與Wasserstein距離的近似程度

▲ 訓(xùn)練過程中WGAN-GP、c-transforme與Wasserstein距離的近似程度

然而, 的生成效果,卻并不如梯度懲罰:

▲WGAN-GP與c-transform的生成效果比較

當(dāng)然,原論文選這個(gè)圖真是讓人哭笑不得,事實(shí)上 WGAN-GP 的效果可以比上面右圖好得多。于是,我們可以暫時(shí)下結(jié)論:

  • 效果好的 WGAN 在訓(xùn)練過程中并沒有很好地近似 Wasserstein 距離;

  • 更好地近似 Wasserstein 距離究竟對(duì)提升生成效果并沒有幫助。

  • 理論 ≠ 實(shí)驗(yàn)

    現(xiàn)在就讓我們來思考一下問題出在哪。我們知道,不管是原始 ?(2)還是 ?(3)又或者其他 GAN,在實(shí)驗(yàn)的時(shí)候,都有兩個(gè)共同特點(diǎn):

  • 和 是交替訓(xùn)練的;

  • 每次都只是隨機(jī)選一個(gè) batch 來訓(xùn)練。

  • 這兩點(diǎn)有什么問題呢?

    第一,其實(shí)幾乎所有的 GAN 都會(huì)寫成 ,這是因?yàn)槔碚撋蟻碚f,需要先精確完成 ,然后再去 ,才是在優(yōu)化 GAN 對(duì)應(yīng)的概率度量,如果只是交替優(yōu)化,那么理論上就不可能很精確地逼近概率度量。

    哪怕 WGAN 因?yàn)橛昧?Wasserstein 距離不怕消失,所以交替訓(xùn)練時(shí)通常會(huì)多訓(xùn)練幾步 D(或者 D 用更大的學(xué)習(xí)率),但依舊不可能精確逼近 Wasserstein 距離,這是差距來源之一。

    第二,隨機(jī)采樣一個(gè) batch 來訓(xùn)練,而不是全量訓(xùn)練樣本,這導(dǎo)致的一個(gè)結(jié)果是“訓(xùn)練集里邊隨機(jī)選兩個(gè) batch 的 Wasserstein 距離,還大于訓(xùn)練集的 batch 與其平均樣本之間的 Wasserstein 距離”,如下圖所示:

    ▲ 左:真實(shí)樣本batch,中:平均樣本,右:樣本聚類中心。看Wasserstein距離的話,真實(shí)樣本還不如后面兩個(gè)模糊樣本

    這就說明了,基于 batch 訓(xùn)練的情況下,如果你希望得到更真實(shí)的樣本,那么必然不是在優(yōu)化 Wasserstein 距離,如果你在很精確地優(yōu)化 Wasserstein 距離,那么就得不到更真實(shí)的樣本,因?yàn)槟:钠骄鶚颖镜?Wasserstein 距離還更小。

    數(shù)學(xué) ≠ 視覺

    從數(shù)學(xué)上來看,Wasserstein 距離的性質(zhì)確實(shí)是非常漂亮的,某種意義上來說它是度量任意兩個(gè)分布之間差距的最佳方案。但是數(shù)學(xué)歸數(shù)學(xué),Wasserstein 距離最“致命”的地方在于它是依賴于具體的度量的:

    也就是說,我們需要給定一個(gè)能度量?jī)蓚€(gè)樣本差距的函數(shù) d(x,y)。然而,對(duì)于很多場(chǎng)景,比如兩張圖片,度量函數(shù)的設(shè)計(jì)本身就是難中之難。WGAN 直接使用了歐氏距離 ,盡管在數(shù)學(xué)上是合理的,但在視覺效果上卻是不合理的,我們?nèi)庋壅J(rèn)為的兩張更相似的圖片,它的歐氏距離未必更小。

    所以如果很精確地去近似 Wasserstein 距離,反而會(huì)帶來視覺效果上的變差。原論文也做了實(shí)驗(yàn),通過 對(duì) Wasserstein 距離做更好的近似,那么模型的生成效果其實(shí)跟 K-Means 聚類中心是類似的,而 K-Means 也正是使用了歐式距離作為度量:

    ▲ c-transform效果與K-Means的相似性

    所以,現(xiàn)在 WGAN 成功的原因就很迷了:WGAN 是基于 Wasserstein 距離推導(dǎo)出來的,然后在實(shí)現(xiàn)上卻跟 Wasserstein 距離有點(diǎn)差距,而這個(gè)差距很可能才是 WGAN 成功的關(guān)鍵。

    原論文認(rèn)為 WGAN 的最關(guān)鍵之處是引入了 L 約束,往任意一個(gè) GAN 變種里邊引入 L 約束(譜歸一化或梯度懲罰),多多少少都能使得效果和穩(wěn)定性有點(diǎn)提升,因此 L 約束才是提升的要點(diǎn),而并不是想象中的 Wasserstein 距離。

    但這更多的只是一個(gè)結(jié)論,還不是理論上的分析。看來對(duì) GAN 的深入理解,還是任重而道遠(yuǎn)。

    簡(jiǎn)單的總結(jié)

    本文主要分享了最近的一篇論文,里邊指出對(duì) Wasserstein 距離的近似與否,跟 WGAN 的效果好壞并沒有必然聯(lián)系,如何更好地理解 GAN 的理論與實(shí)踐,依然是一種艱難的任務(wù)。

    參考文獻(xiàn)

    [1] https://arxiv.org/abs/2103.01678

    [2] https://arxiv.org/abs/1701.04862

    [3] https://zhuanlan.zhihu.com/p/25071913

    [4] https://kexue.fm/tag/GAN/

    [5] https://arxiv.org/abs/1701.07875

    [6] https://arxiv.org/abs/1910.03875

    更多閱讀

    #投 稿?通 道#

    ?讓你的論文被更多人看到?

    如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達(dá)讀者群體,縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢?答案就是:你不認(rèn)識(shí)的人。

    總有一些你不認(rèn)識(shí)的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學(xué)者和學(xué)術(shù)靈感相互碰撞,迸發(fā)出更多的可能性。?

    PaperWeekly 鼓勵(lì)高校實(shí)驗(yàn)室或個(gè)人,在我們的平臺(tái)上分享各類優(yōu)質(zhì)內(nèi)容,可以是最新論文解讀,也可以是學(xué)習(xí)心得技術(shù)干貨。我們的目的只有一個(gè),讓知識(shí)真正流動(dòng)起來。

    ?????來稿標(biāo)準(zhǔn):

    ? 稿件確系個(gè)人原創(chuàng)作品,來稿需注明作者個(gè)人信息(姓名+學(xué)校/工作單位+學(xué)歷/職位+研究方向)?

    ? 如果文章并非首發(fā),請(qǐng)?jiān)谕陡鍟r(shí)提醒并附上所有已發(fā)布鏈接?

    ? PaperWeekly 默認(rèn)每篇文章都是首發(fā),均會(huì)添加“原創(chuàng)”標(biāo)志

    ?????投稿郵箱:

    ? 投稿郵箱:hr@paperweekly.site?

    ? 所有文章配圖,請(qǐng)單獨(dú)在附件中發(fā)送?

    ? 請(qǐng)留下即時(shí)聯(lián)系方式(微信或手機(jī)),以便我們?cè)诰庉嫲l(fā)布時(shí)和作者溝通

    ????

    現(xiàn)在,在「知乎」也能找到我們了

    進(jìn)入知乎首頁搜索「PaperWeekly」

    點(diǎn)擊「關(guān)注」訂閱我們的專欄吧

    關(guān)于PaperWeekly

    PaperWeekly 是一個(gè)推薦、解讀、討論、報(bào)道人工智能前沿論文成果的學(xué)術(shù)平臺(tái)。如果你研究或從事 AI 領(lǐng)域,歡迎在公眾號(hào)后臺(tái)點(diǎn)擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。

    與50位技術(shù)專家面對(duì)面20年技術(shù)見證,附贈(zèng)技術(shù)全景圖

    總結(jié)

    以上是生活随笔為你收集整理的WGAN的成功,可能跟Wasserstein距离没啥关系的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。