T-GANs:基于“图灵测试”的生成对抗模型
在碎片化閱讀充斥眼球的時(shí)代,越來(lái)越少的人會(huì)去關(guān)注每篇論文背后的探索和思考。
在這個(gè)欄目里,你會(huì)快速 get 每篇精選論文的亮點(diǎn)和痛點(diǎn),時(shí)刻緊跟 AI 前沿成果。
點(diǎn)擊本文底部的「閱讀原文」即刻加入社區(qū),查看更多最新論文推薦。
這是 PaperDaily 的第?114?篇文章作者丨武廣
學(xué)校丨合肥工業(yè)大學(xué)碩士生
研究方向丨圖像生成
本期推薦的論文筆記來(lái)自 PaperWeekly 社區(qū)用戶?@TwistedW。本文將“圖靈思想”用在 GAN 的框架下,這個(gè)思想在 RSGAN 中最先提出——將以往判別器逐個(gè)判斷數(shù)據(jù)真假換為將真假樣本混合后再做判斷,同時(shí)在生成器下引入真實(shí)樣本做參考,增加了生成器的生成能力。本文對(duì)該思想做了更一般化的推證和應(yīng)用,可以說(shuō)”圖靈思想“適用于任何一種 GAN 模型。
引言
利用 GAN 做實(shí)驗(yàn)的學(xué)者一定為其訓(xùn)練不穩(wěn)定感到痛苦,如何去控制超參數(shù),如何去平衡判別器和生成器間的迭代都是操碎了心。盡管 WGAN [1]、LSGAN [2]?對(duì)于 GAN 的梯度消失做了解釋和改進(jìn),但是在實(shí)際的訓(xùn)練中模型的不穩(wěn)定一直存在。SNGAN [3]?可以有效地約束判別器的能力,但是隨著生成精度的增加,仍然不可避免訓(xùn)練的不穩(wěn)定。
T-GANs 是蘇劍林的一篇在 RSGAN 的基礎(chǔ)上對(duì)相對(duì)判別器做一般化改進(jìn)的文章,論文現(xiàn)已掛在 arXiv,代碼已開(kāi)源。文章中出現(xiàn)了較多的數(shù)學(xué)公式,筆者盡量用簡(jiǎn)潔的話語(yǔ)闡述清楚文章觀點(diǎn)。
源碼鏈接:
https://github.com/bojone/T-GANs
論文引入
由于 GAN 的文章更新太多,現(xiàn)將原始 GAN 稱(chēng)為 Standard GAN,簡(jiǎn)稱(chēng) SGAN,文章后續(xù)的 SGAN 就是大家最熟悉的由 Goodfellow 創(chuàng)作的最原始的 GAN?[4]。
GAN 在訓(xùn)練和分析過(guò)程中都會(huì)發(fā)現(xiàn)判別器 D 的能力是遠(yuǎn)超生成器 G 的,這個(gè)理論推導(dǎo)在 SNGAN 中有所提及。為了較好地平衡 D 和 G 的關(guān)系,在 GAN 剛開(kāi)始的階段,大多數(shù)學(xué)者是控制判別器和生成器的更新比例。由于 WGAN 和 LSGAN 等一系列改進(jìn)文章的提出,權(quán)重裁剪、梯度懲罰得到應(yīng)用,SNGAN 對(duì)判別器做譜歸一化來(lái)約束判別器的能力。?
上述這些方法仍然無(wú)法完全消除 GAN 訓(xùn)練過(guò)程中的不穩(wěn)定,尤其是訓(xùn)練特別高維數(shù)據(jù)的情況下,例如 1024 x 1024 的圖像。這個(gè)觀念在最近新出的 BigGAN 中作者也是吐槽了一下。
RSGAN 將“圖靈測(cè)試”的思想引入到了 GAN 中,何謂圖靈測(cè)試,借用蘇大哥文章中的描述做解釋:?
圖靈測(cè)試指的是測(cè)試者在無(wú)法預(yù)知的情況下同時(shí)跟機(jī)器人和人進(jìn)行交流,如果測(cè)試者無(wú)法成功分別出人和機(jī)器人,那么說(shuō)明這個(gè)機(jī)器人已經(jīng)(在某個(gè)方面)具有人的智能了。“圖靈測(cè)試”也強(qiáng)調(diào)了對(duì)比的重要性,如果機(jī)器人和人混合起來(lái)后就無(wú)法分辨了,那么說(shuō)明機(jī)器人已經(jīng)成功了。?
RSGAN 把圖靈測(cè)試在 GAN 中的應(yīng)用可以這么理解,對(duì)于真實(shí)樣本我們將其理解為人,假樣本則理解為機(jī)器人,不再按照 SGAN 中一張張送到判別器下判斷樣本真假,而是將真假樣本混合在一起讓判別器判斷何為真何為假。
這樣判別器將不再按照記憶去判斷真假,而是在混合的數(shù)據(jù)堆中找到真假,這個(gè)無(wú)疑是增加了判別器的判別要求,在訓(xùn)練階段有用的和豐富的梯度將得到保留;同時(shí)讓生成器也看到真實(shí)樣本,在生成階段更加逼真的生成高質(zhì)量樣本。這種一收一放,有效地控制了 D 和 G 的能力,進(jìn)而在整體上提高了 GAN 的性能。
GAN的回顧
為了保證與原文的公式一致,接下來(lái)部分的公式保持與原文一致。大部分 GAN 的目的都是為了減小真實(shí)樣本和生成樣本的分布差異。我們定義真實(shí)樣本的分布為 p?(x),生成樣本分布為 q(x),對(duì)于 SGAN 對(duì)抗下最大最小化博弈,對(duì)于判別器 T(x) 和生成器 G(z):
這里的 σ 為 sigmoid 函數(shù),其中 h 可以是任何標(biāo)量函數(shù),只要使 h(log(t)) 成為變量 t 的凸函數(shù)即可,這個(gè)后續(xù)再說(shuō)。對(duì)上述的判別器優(yōu)化公式 (1) 進(jìn)行變分操作,類(lèi)似于微分,可以得到:
詳細(xì)證明可參看RSGAN:對(duì)抗模型中的“圖靈測(cè)試”思想。帶入到公式 (2),可以得到:
設(shè) f(t)=h(log(t)),可以看出 SGAN 的基本目標(biāo)是最小化 p(x) 和 q(x) 之間的 f- 散度,函數(shù) f 受凸函數(shù)約束。因此,任何使 h(log(t)) 成為凸函數(shù)的函數(shù)都可以使用,例如 h(t)=?t,h(t)=?logσ(t),h(t)=log(1?σ(t))。?
對(duì)于 WGAN 中的 Wasserstein distance,其目的也是為了最小化 p(x) 和 q(x) 之間的距離,詳細(xì)解釋可參看原文,這里不再贅述。不過(guò)統(tǒng)一起來(lái),這些 GAN 都是為了拉近生成分布與真實(shí)分布;在更新生成器時(shí),只有來(lái)自生成分布的假樣本可用。這種一張張輸入判斷真假的任務(wù)對(duì)于擁有強(qiáng)大記憶性的判別器來(lái)說(shuō)是容易的,這無(wú)疑會(huì)導(dǎo)致越訓(xùn)練判別器的能力越強(qiáng),最終導(dǎo)致訓(xùn)練的失敗。
RSGAN
RSGAN 在 SGAN 的基礎(chǔ)上對(duì)判別器做了一定變化,此時(shí)判別器不再是一張張判斷輸入的真假,而是將真假混合在一起來(lái)判斷,同時(shí)生成器的更新也加入了真實(shí)樣本作為指導(dǎo),這就是 RSGAN 的整體思路,所對(duì)應(yīng)的優(yōu)化公式為:
繼續(xù)通過(guò)變分的思想,可以對(duì)公式 (5) 進(jìn)一步分析,得到的最優(yōu)解:
帶入到公式 (6) 可以得到:
這就是 RSGAN 的目的所在,它實(shí)際上優(yōu)化的是 p?(Xr)q(Xf) 和 p?(Xf)q(Xr) 的 f- 散度。我們可以進(jìn)一步分析(以下觀點(diǎn)借鑒自蘇劍林文章):?
假如我從真實(shí)樣本采樣一個(gè) Xr 出來(lái),從偽造樣本采樣一個(gè) Xf 出來(lái),然后將它們交換一下,把假的當(dāng)成真,真的當(dāng)成假,那么還能分辨出來(lái)嗎?換言之:p?(Xf)q(Xr) 有大變化嗎??
假如沒(méi)有什么變化,那就說(shuō)明真假樣本已經(jīng)無(wú)法分辨了,訓(xùn)練成功。假如還能分辨出來(lái),說(shuō)明還需要借助真實(shí)樣本來(lái)改善偽造樣本。所以,式 (8) 就是 RSGAN 中“圖靈測(cè)試”思想的體現(xiàn):打亂了數(shù)據(jù),是否還能分辨出來(lái)?
T-GANs
前面說(shuō)到 RSGAN 的突破性工作就是優(yōu)化了 p?(Xr)q(Xf) 和 p?(Xf)q(Xr) 的 f- 散度,利用“圖靈測(cè)試”的思想來(lái)優(yōu)化 GAN。為了讓這一思想更加一般化,更可以稱(chēng)得上是“圖靈測(cè)試”在 GAN 中的應(yīng)用,T-GANs 顯示出了更加一般化的思想。?
假設(shè)聯(lián)合分布 P(Xr,Xf)=q?(Xr)p(Xf),Q(Xr,Xf)=q?(Xf)p(Xr)。現(xiàn)在的目的是想最小化 P(Xr,Xf) 和 Q(Xr,Xf) 的距離,如果將 (Xr,Xf) 視為一個(gè)變量,并帶入 SGAN 即公式 (1) 中,可以得到:
代入公式 (2) 可以得到 G 的優(yōu)化公式,這里的 Xf 可以表示為 Xf=G(z),z~q(z),最終得到一般化優(yōu)化公式:
這就是利用 SGAN 實(shí)現(xiàn)了 p?(Xr)q(Xf) 和 p?(Xf)q(Xr) 分布距離的拉近,并且也可以進(jìn)一步將“圖靈測(cè)試”思想用在 WGAN 上。
最終應(yīng)用在優(yōu)化公式上:
怎么去實(shí)現(xiàn) T(Xr,Xf) 呢?
可以構(gòu)造一個(gè)編碼器 E,將真實(shí)樣本和生成樣本先編碼到潛在空間,再通過(guò)判別器 D 判斷 E(Xr)?E(Xf) 的真假,可以表示為:
當(dāng)然這種“圖靈思想”可以用在更多的 GAN 模型上,甚至可以說(shuō)對(duì)于任何一種 GAN 都是適用的,所以文章將“圖靈思想(Turing Test)”用作題目,簡(jiǎn)稱(chēng)為 T-GANs。
實(shí)驗(yàn)
在不同的圖像尺寸上,T-GANs 展示了更多的網(wǎng)絡(luò)適應(yīng)能力和更快的收斂速度。在私下和作者交流的過(guò)程中,64 尺寸到 128,甚至是 256 整體框架的改動(dòng)不大, 這對(duì)于一般 GAN 模型是困難的,看一下實(shí)驗(yàn)結(jié)果對(duì)比:
由于文章還處于初稿階段,本博文只是為了對(duì)文章做中文解釋,后續(xù)的實(shí)驗(yàn)還會(huì)再豐富。
總結(jié)
在本文中,作者提出了一種新的對(duì)抗模式,用于訓(xùn)練稱(chēng)為 T-GAN 的生成模型。這種對(duì)抗模式可以解釋為 GAN 中的圖靈測(cè)試,它是訓(xùn)練 GAN 而不是特定 GAN 模型的指導(dǎo)思想。 它可以與當(dāng)前流行的 GAN(如 SGAN 和 WGAN)集成,從而實(shí)現(xiàn) T-SGAN 和 T-WGAN。
實(shí)驗(yàn)表明,T-GAN 在從小規(guī)模到大規(guī)模的數(shù)據(jù)集上具有良好且穩(wěn)定的性能。 它表明在 GAN 中更新發(fā)生器時(shí),實(shí)際樣本的信號(hào)非常重要。然而,T-GAN 提高穩(wěn)定性和收斂速度的機(jī)制仍有待進(jìn)一步探索。
參考文獻(xiàn)
[1]?Martin Arjovsky, Soumith Chintala, and Le?on Bottou. Wasserstein generative adversarial networks. In International Conference on Machine Learning, pages 214–223, 2017.
[2] Xudong Mao, Qing Li, Haoran Xie, Raymond YK Lau, Zhen Wang, and Stephen Paul Smolley. Least squares generative adversarial networks. In 2017 IEEE International Conference on Computer Vision (ICCV), pages 2813–2821. IEEE, 2017.
[3] Takeru Miyato, Toshiki Kataoka, Masanori Koyama, and Yuichi Yoshida. Spectral normalization for generative adversarial networks. arXiv preprint arXiv:1802.05957, 2018.
[4] Ian Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, David Warde-Farley, Sherjil Ozair, Aaron Courville, and Yoshua Bengio. Generative Adversarial Networks. Advances in Neural Information Processing Systems 27, pages 2672–2680. Curran Associates, Inc., 2014.
本文由 AI 學(xué)術(shù)社區(qū) PaperWeekly 精選推薦,社區(qū)目前已覆蓋自然語(yǔ)言處理、計(jì)算機(jī)視覺(jué)、人工智能、機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘和信息檢索等研究方向,點(diǎn)擊「閱讀原文」即刻加入社區(qū)!
點(diǎn)擊標(biāo)題查看更多論文解讀:?
在全景視頻中預(yù)測(cè)頭部運(yùn)動(dòng):一種深度強(qiáng)化學(xué)習(xí)方法
網(wǎng)絡(luò)表示學(xué)習(xí)綜述:一文理解Network Embedding
神經(jīng)網(wǎng)絡(luò)架構(gòu)搜索(NAS)綜述
從傅里葉分析角度解讀深度學(xué)習(xí)的泛化能力
深度解讀DeepMind新作:史上最強(qiáng)GAN圖像生成器
ACL2018高分論文:混合高斯隱向量文法
自然語(yǔ)言處理中的語(yǔ)言模型預(yù)訓(xùn)練方法
EMNLP 2018論文解讀 | 對(duì)話生成 & 文本風(fēng)格轉(zhuǎn)化
#投 稿 通 道#
?讓你的論文被更多人看到?
如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達(dá)讀者群體,縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢??答案就是:你不認(rèn)識(shí)的人。
總有一些你不認(rèn)識(shí)的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學(xué)者和學(xué)術(shù)靈感相互碰撞,迸發(fā)出更多的可能性。?
PaperWeekly 鼓勵(lì)高校實(shí)驗(yàn)室或個(gè)人,在我們的平臺(tái)上分享各類(lèi)優(yōu)質(zhì)內(nèi)容,可以是最新論文解讀,也可以是學(xué)習(xí)心得或技術(shù)干貨。我們的目的只有一個(gè),讓知識(shí)真正流動(dòng)起來(lái)。
??來(lái)稿標(biāo)準(zhǔn):
? 稿件確系個(gè)人原創(chuàng)作品,來(lái)稿需注明作者個(gè)人信息(姓名+學(xué)校/工作單位+學(xué)歷/職位+研究方向)?
? 如果文章并非首發(fā),請(qǐng)?jiān)谕陡鍟r(shí)提醒并附上所有已發(fā)布鏈接?
? PaperWeekly 默認(rèn)每篇文章都是首發(fā),均會(huì)添加“原創(chuàng)”標(biāo)志
? 投稿郵箱:
? 投稿郵箱:hr@paperweekly.site?
? 所有文章配圖,請(qǐng)單獨(dú)在附件中發(fā)送?
? 請(qǐng)留下即時(shí)聯(lián)系方式(微信或手機(jī)),以便我們?cè)诰庉嫲l(fā)布時(shí)和作者溝通
?
現(xiàn)在,在「知乎」也能找到我們了
進(jìn)入知乎首頁(yè)搜索「PaperWeekly」
點(diǎn)擊「關(guān)注」訂閱我們的專(zhuān)欄吧
關(guān)于PaperWeekly
PaperWeekly 是一個(gè)推薦、解讀、討論、報(bào)道人工智能前沿論文成果的學(xué)術(shù)平臺(tái)。如果你研究或從事 AI 領(lǐng)域,歡迎在公眾號(hào)后臺(tái)點(diǎn)擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
▽ 點(diǎn)擊 |?閱讀原文?| 下載論文 & 源碼
總結(jié)
以上是生活随笔為你收集整理的T-GANs:基于“图灵测试”的生成对抗模型的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 自然语言处理太难?按这个方式走,就是砍瓜
- 下一篇: 自动机器学习(AutoML)最新综述