日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

不用L约束又不会梯度消失的GAN,了解一下?

發(fā)布時間:2024/10/8 编程问答 41 豆豆
生活随笔 收集整理的這篇文章主要介紹了 不用L约束又不会梯度消失的GAN,了解一下? 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.


作者丨蘇劍林

單位丨廣州火焰信息科技有限公司

研究方向丨NLP,神經(jīng)網(wǎng)絡(luò)

個人主頁丨kexue.fm


不知道從什么時候開始,我發(fā)現(xiàn)我也掉到了 GAN 的大坑里邊了,唉,爭取早日能跳出來。


本文介紹的是我最近提交到 arXiv 的一個關(guān)于 GAN 的新框架,里邊主要介紹了一種對概率散度的新理解,并且基于這種理解推導(dǎo)出了一個新的 GAN。整篇文章比較偏理論,對這個 GAN 的相關(guān)性質(zhì)都做了完整的論證,自認為是一個理論完備的結(jié)果。




先擺結(jié)論:


1. 論文提供了一種分析和構(gòu)造概率散度的直接思路,從而簡化了構(gòu)建新 GAN 框架的過程;


2. 推導(dǎo)出了一個稱為 GAN-QP 的 GAN 框架,這個 GAN 不需要像 WGAN 那樣的 L 約束,又不會有 SGAN 的梯度消失問題,實驗表明它至少有不遜色于、甚至優(yōu)于 WGAN 的表現(xiàn)。


?GAN-QP效果圖


論文的實驗最大做到了 512 x 512 的人臉生成(CelebA HQ),充分表明了模型的有效性(效果不算完美,但是模型特別簡單)。有興趣的朋友,歡迎繼續(xù)閱讀下去。


直面對偶空間


我們現(xiàn)在要構(gòu)建一個 GAN 框架,一般包含三個步驟:


  • 尋求一種良好的概率散度;

  • 找出它的對偶形式;?

  • 轉(zhuǎn)化為極小-極大游戲(min-max game)。


問題是:真正對訓(xùn)練過程有用的是第二、第三步,第一步并不是那么必要。


事實上,從原空間要定義一個新的散度很難,定義了之后也不一定容易轉(zhuǎn)化為對偶形式。然而,我們可以直接在對偶空間分析,由此可以發(fā)現(xiàn)一批新的、形態(tài)良好的散度。換言之,我們其實可以直接在對偶空間中論述一個式子是否滿足散度的定義,從而直接給出可優(yōu)化的目標,而不需要關(guān)心它具體是 JS 散度還是 W 距離了。


下面我們來舉例說明這個思路。


散度


首先我們來給出散度的定義:


如果 D[p,q] 是關(guān)于 p,q 的標量函數(shù),并且滿足:


  • D[p,q]≥0 恒成立;

  • D[p,q]=0?p=q。


那么稱 D[p,q] 為 p,q 的一個散度,散度與“距離”的主要差別是散度不用滿足三角不等式,也不用滿足對稱性。但是散度已經(jīng)保留了度量差距的最基本的性質(zhì),所以我們可以用它來度量 p,q 之間的差異程度。


SGAN


基本定義


我們先來看 SGAN 中的判別器 loss,定義:



這其實就是 JS 散度的對偶形式。但是我們可以直接基于這個定義來證明它是一個散度,然后討論這個散度本身的性質(zhì),而根本不需要知道它是 JS 散度。


怎么證明?只需要證明這個結(jié)果滿足剛才說的散度的兩點要求。注意,按照我們的邏輯,我們不知道它是 JS 散度,但我們可以從數(shù)學(xué)角度證明它是一個散度。


其實如果讀者真的明白了式 (1) 的含義,證明就不困難了。式 (1) 先定義了一個期望的式子,然后對 T 取最大(用更準確的說法是求“上確界”),取最大的結(jié)果才是散度。再強調(diào)一遍,“取最大之后的結(jié)果才是散度”,這個式子并不是散度。


具體的證明過程略微冗長,就不完整擺出來了,請讀者自行去看原文的附錄?;蛘呖聪旅娴?WGAN 的部分,因為 WGAN 的部分相對簡單。


對抗網(wǎng)絡(luò)


假如有了散度之后,我們就可以通過縮小兩個概率分布的散度,來訓(xùn)練生成模型了。也就是說接下來要做的事情應(yīng)該是:



注意 D[p(x),q(x)] 是通過 maxT 操作實現(xiàn)的,所以組合起來就是一個 min-max 的過程,比如前面的例子,等價地就是:



這就是 SGAN。


所以我們發(fā)現(xiàn),GAN 的過程其實就兩步:1)通過 max 定義一個散度;2)通過 min 縮小兩個分布的散度。這里的新觀點,就是將 max 直接作為散度的定義的一部分。


性能分析


我們知道 SGAN 可能有梯度消失的風(fēng)險,這是為什么呢?我們考察一個極端情形:



其中 α≠β。這樣一來,兩個分布分別只是單點分布,完全沒有交集。這種情況下代入 (1),結(jié)果就是:



注意我們對 T 沒有任何約束,所以為了取最大,我們可以讓 T(α)→+∞,T(β)→?∞,從而得到上確界是一個常數(shù) log2。即這種情況下 D[p(x),q(x)]=log2。


這就是說,對于兩個幾乎沒有交集的分布,式 (1) 定義的散度給出的度量結(jié)果是常數(shù) log2,常數(shù)就意味著梯度是 0,無法優(yōu)化。而 WGAN 的那兩篇文章則表明,“沒有交集”理論上在 GAN 中是很常見的,所以這是 SGAN 的固有毛病。


一般的f散度


上面的幾個小節(jié)已經(jīng)完整了呈現(xiàn)了這種理解的流程:


1. 我們通過 max 定義一個數(shù)學(xué)式子,然后可以從數(shù)學(xué)角度直接證明這是一個散度,而不用關(guān)心它叫什么名字;


2. 通過 min 最小化這個散度,組合起來就是一個 min-max 的過程,就得到了一種 GAN;


3. 為了檢查這種散度在極端情況下的表現(xiàn),我們可以用 p(x)=δ(x?α),q(x)=δ(x?β) 去測試它。


上述關(guān)于 SGAN 的論述過程,可以平行地推廣到所有的 f-GAN 中(參考《f-GAN簡介:GAN模型的生產(chǎn)車間》[1]),各種 f 散度其實沒有本質(zhì)上的差異,它們有同樣的固有毛病(要不就梯度消失,要不就梯度爆炸)。



WGAN


基本定義?


現(xiàn)在我們轉(zhuǎn)向一類新的散度:Wasserstein 距離。注意 Wasserstein 距離是一個嚴格的、滿足公理化定義的距離,不過我們這里只關(guān)心它的散度性質(zhì)。定義:



這里:



而 d(x,y) 是任意一種現(xiàn)成的距離。


可以直接證明它是一個散度。這個證明還算經(jīng)典,所以將它寫在這里:


1. 不管是什么 p(x),q(x),只要讓 T(x)≡0,我們就得到,因為散度的定義是要遍歷所有的 T 取最大的,所以它至少不會小于 0,這就證明了第一點非負性;


2. 證明 p(x)=q(x) 時,W[p(x),q(x)]=0,也就是 W[p(x),p(x)]=0,這幾乎是顯然成立的了;


3. 證明 p(x)≠q(x) 時(嚴格來講是它們不等的測度大于 0),W[p(x),q(x)]>0。這個相對難一點,但其實也很簡單,只需要令 T0(x)=sign(p(x)?q(x)),那么顯然有:



這樣我們就直接地證明了 W[p(x),q(x)] 是滿足散度的定義的。


對抗網(wǎng)絡(luò)


同樣地,有了新散度,就可以定義新 GAN 了:



這就是 WGAN,相應(yīng)的參考資料有互懟的藝術(shù):從零直達WGAN-GP、WGAN-div:一個默默無聞的WGAN填坑者。


性能分析


同樣地,用 p(x)=δ(x?α),q(x)=δ(x?β) 去測試 W[p(x),q(x)] 散度的性能,我們得到:



注意我們有 L 約束 ‖T‖L≤1,這意味著 |T(α)?T(β)|≤d(α,β),等號可以取到,所以:



結(jié)果不是常數(shù),所以即使在這種極端情況下我們可以也拉近兩個分布的距離。所以從這一點看,WGAN 要比 SGAN 要好。


L約束


WGAN 的遺留問題就是如何往判別器加入 L 約束,目前有三種方案:參數(shù)裁剪、梯度懲罰、譜歸一化,請參考深度學(xué)習(xí)中的Lipschitz約束:泛化與生成模型和WGAN-div:一個默默無聞的WGAN填坑者。


參數(shù)裁剪基本已經(jīng)被棄用了。梯度懲罰原則上只是一個經(jīng)驗方法,有它的不合理之處,而且要算梯度通常很慢。譜歸一化看起來最優(yōu)雅,目前效果也挺好,不過也有限制的太死的可能性。進一步討論請看WGAN-div:一個默默無聞的WGAN填坑者。


新散度,新GAN


現(xiàn)在的結(jié)論是:SGAN 可能有梯度消失的風(fēng)險,WGAN 雖然很好,但需要額外的 L 約束。那么很自然就會問:有沒有不需要 L 約束,又不會梯度消失的 GAN?魚與熊掌能否兼得?


還真的可以,下面帶你找一個。不對,其實不止一個,帶你找一批都行。


平方勢散度


基本定義


下面要給出的散度,形式是這樣的:



其中 λ>0 是一個超參數(shù),d 可以是任意距離。?


這個形式好像就在 WGAN 的基礎(chǔ)上加了一個平方形式的勢能,所以稱為平方勢散度(QP-div,quadratic potential divergence)。?


論文的附錄已經(jīng)證明了式 (12) 確實是一個散度。


性能分析


用 p(x)=δ(x?α),q(x)=δ(x?β) 去測試這個散度,結(jié)果是:



設(shè) z=T(α,β)?T(β,α) 就得到,很熟悉有沒有?這只是個二次函數(shù)的最大值問題呀,最大值是呀,所以我們就有:



這不就跟 WGAN 差不多了嘛,哪怕對于極端分布,也不會有梯度消失的風(fēng)險。魚與熊掌真的可以兼得。


GAN-QP


對抗網(wǎng)絡(luò)


有了散度就可以構(gòu)建對抗網(wǎng)絡(luò),我們最終給出的形式為:



我在論文中稱之為 GAN-QP。


注意不要把二次項這一項加入到生成器的 loss 中(理論上不成問題,但是用梯度下降優(yōu)化時會有問題。),因為這一項的分母是 d(xr,xf),一旦最小化二次項,等價于最小化 d(xr,xf),也就是用 d(xr,xf) 來度量圖片的差距,這是不科學(xué)的。


解的分析


通過變分法可以證明(還是在附錄),判別器的最優(yōu)解是:



由這個最優(yōu)解,我們可以得到兩點結(jié)論。首先,不難證明最優(yōu)解滿足:



也就是說最優(yōu)解自動滿足 L 約束。所以我們可以認為 GAN-QP 是一種自適應(yīng) L 約束的方案。


其次,將最優(yōu)解代入生成器的 loss,那么得到判別器的目標是:



這也是一個概率散度,并且我們也從理論上證明了它不會梯度消失/爆炸(跟柯西不等式有關(guān))。此外,還可以看到 λ 只是一個縮放因子,事實上并不重要,從而這個 GAN-QP 對 λ 是魯棒的,λ 不會明顯影響模型的效果。


實驗結(jié)果


論文在 CelebA HQ 數(shù)據(jù)集上,比較了多種 GAN 與 GAN-QP 的效果,表明 GAN-QP 能媲美甚至超越當前最優(yōu)的模型。?


注意,模型 (15) 中,T 是 (xr,xf) 的二元函數(shù),但實驗表明,取最簡單的一元特例 T(xr,xf)≡T(xr) 即可,即 T(xr,xf)?T(xf,xr) 用 T(xr)?T(xf) 就夠了,改成二元函數(shù)并沒有明顯提升(但也可能是我沒調(diào)好)。這樣的話,形式上就跟 WGAN-GP 非常相似了,但理論更完備。?


代碼開源:


https://github.com/bojone/gan-qp


128 x 128


在 128 x 128 分辨率上,我們進行了較為全面的比較,定量指標是 FID。結(jié)果如下圖:


?不同GAN的FID定量曲線


以及下表:



256 與 512


在 128 分辨率上,最好的表現(xiàn)是 GAN-QP 和 SGAN-SN,不過在 256 x 256 分辨率上,它們的表現(xiàn)就拉開了差距:



我最大把 GAN-QP 的實驗做到了 512 x 512 的人臉生成,效果還是不錯的,最終的 FID 是 26.44:


?512 x 512人臉效果圖


論文綜述


這篇文章源于我對概率散度的思考,企圖得到一種更直接的理解概率散度的方案,其中還受啟發(fā)于 WGAN-div。


幸好,最后把這條路走通了,還得到了一些新結(jié)果,遂提交到 Github 中,供各位參考,希望得到各位前輩高手的指點。事實上,基于類似的思路,我們可以構(gòu)造很多類似的散度,比如將平方換成 4 次、6 次方等,只不過理論分析起來就會困難一些了。


限于算力,加之我不是專門研究 GAN 的,所以實驗方面可能做得不夠完善,基本能論證結(jié)論即可,請大家體諒,當然也歡迎各位的指導(dǎo)。


相關(guān)鏈接


[1]. https://kexue.fm/archives/6016




點擊以下標題查看作者其他文章:?


  • 變分自編碼器VAE:原來是這么一回事 | 附開源代碼

  • 再談變分自編碼器VAE:從貝葉斯觀點出發(fā)

  • 變分自編碼器VAE:這樣做為什么能成?

  • 深度學(xué)習(xí)中的互信息:無監(jiān)督提取特征

  • 全新視角:用變分推斷統(tǒng)一理解生成模型

  • 細水長flow之NICE:流模型的基本概念與實現(xiàn)

  • 細水長flow之f-VAEs:Glow與VAEs的聯(lián)姻

  • 深度學(xué)習(xí)中的Lipschitz約束:泛化與生成模型


關(guān)于PaperWeekly


PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學(xué)術(shù)平臺。如果你研究或從事 AI 領(lǐng)域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。


▽ 點擊 |?閱讀原文?| 查看作者博客

總結(jié)

以上是生活随笔為你收集整理的不用L约束又不会梯度消失的GAN,了解一下?的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。

主站蜘蛛池模板: 在线观看成人动漫 | 久久久久99| 国产三级免费观看 | 成人性生活免费看 | 午夜痒痒网 | 91精品999| 白嫩初高中害羞小美女 | 久久国产福利 | 操操日 | 免费观看一区二区三区 | 黄色私人影院 | 黄色污污网站在线观看 | 亚洲区自拍 | 在线看片国产 | 国产午夜视频 | 欧美做受视频 | 夜夜嗨av一区二区三区 | 亚洲少妇一区二区 | 91精品人妻一区二区三区蜜桃2 | 日本一二三不卡 | jjzz黄色片 | 欧美日本在线 | 手机av中文字幕 | 久久久久这里只有精品 | 日韩高清不卡一区 | 欧美性插插 | 欧美另类极品 | 久久婷婷综合色丁香五月 | 久久久久久久久成人 | 国产视频第一区 | 午夜激情视频在线播放 | 久久特黄视频 | 又粗又猛又爽又黄的视频 | 男人捅爽女人 | 亚洲一区二区精品 | 野花社区视频在线观看 | 亚洲一区二区av在线 | 无码aⅴ精品一区二区三区浪潮 | 青青草这里只有精品 | 免费观看在线播放 | 色妇网 | 无码一区二区三区免费 | 五月天av影院 | 女人18毛片毛片毛片毛片区二 | 娇妻高潮浓精白浆xxⅹ | 国产毛片基地 | 污污视频网站 | 国产丝袜一区二区 | 最近日本中文字幕 | 欧美日韩国产区 | 国产亚洲欧美视频 | 神马久久香蕉 | 奇米影视第4色 | 国产97视频| 成年人毛片视频 | 欧美香蕉在线 | 香蕉视频久久久 | 欧美性另类 | 亚洲女人毛茸茸 | 日皮视频免费看 | 欧美激情一区二区三区 | 亚洲深夜av | 国产老女人精品毛片久久 | 好紧好爽再浪一点视频 | 天天干天天要 | 久操成人 | 日一日射一射 | 性色tv| 日韩中文久久 | 鬼眼 电影 | 艳妇臀荡乳欲伦交换在线播放 | 国产免费看片 | 成人毛片在线观看 | 四虎影院国产精品 | 极品91| 精品一区二区无码 | 日本精品一区在线 | 免费看黄色aaaaaa 片 | 可以免费看的av毛片 | yy色综合 | 法国空姐在线观看完整版 | 国产乱码精品一区二区三区不卡 | 五月婷婷深深爱 | 色啪视频| 黄色av网站免费看 | 亚洲免费网| 在线中文字幕av | 日本啊啊视频 | av福利片| 法国空姐在线观看完整版 | 翔田千里一区 | 在线视频 一区二区 | 国产三级精品三级 | 91羞羞网站| 操一操 | 欧美成人午夜精品免费 | 啪啪网免费 | 粗了大了 整进去好爽视频 日本女优中文字幕 | 中文无码日韩欧 |