當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

RSGAN：对抗模型中的“图灵测试”思想

發布時間：2024/10/8 编程问答 42 豆豆

生活随笔收集整理的這篇文章主要介紹了 RSGAN：对抗模型中的“图灵测试”思想小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

作者丨蘇劍林

單位丨廣州火焰信息科技有限公司

研究方向丨NLP，神經網絡

個人主頁丨kexue.fm

這兩天無意間發現一個非常有意義的工作，稱為“相對GAN”，簡稱 RSGAN，來自文章 The relativistic discriminator: a key element missing from standard GAN，據說該文章還得到了 GAN 創始人 Goodfellow 的點贊。這篇文章提出了用相對的判別器來取代標準 GAN 原有的判別器，使得生成器的收斂更為迅速，訓練更為穩定。?

可惜的是，這篇文章僅僅從訓練和實驗角度對結果進行了論述，并沒有進行更深入的分析，以至于不少人覺得這只是 GAN 訓練的一個 trick。但是在筆者看來，RSGAN 具有更為深刻的含義，甚至可以看成它已經開創了一個新的 GAN 流派。所以，筆者決定對 RSGAN 模型及其背后的內涵做一個基本的介紹。不過需要指出的是，除了結果一樣之外，本文的介紹過程跟原論文相比幾乎沒有重合之處。

“圖靈測試”思想

SGAN

SGAN 就是標準的 GAN（Standard GAN）。就算沒有做過 GAN 研究的讀者，相信也從各種渠道了解到 GAN 的大概原理：“造假者”不斷地進行造假，試圖愚弄“鑒別者”；“鑒別者”不斷提高鑒別技術，以分辨出真品和贗品。兩者相互競爭，共同進步，直到“鑒別者”無法分辨出真、贗品了，“造假者”就功成身退了。?

在建模時，通過交替訓練實現這個過程：固定生成器，訓練一個判別器（二分類模型），將真實樣本輸出 1，將偽造樣本輸出 0；然后固定判別器，訓練生成器讓偽造樣本盡可能輸出 1，后面這一步不需要真實樣本參與。

問題所在

然而，這個建模過程似乎對判別器的要求過于苛刻了，因為判別器是孤立運作的：訓練生成器時，真實樣本沒有參與，所以判別器必須把關于真實樣本的所有屬性記住，這樣才能指導生成器生成更真實的樣本。

在生活實際中，我們并不是這樣做的，所謂“沒有對比就沒有傷害，沒有傷害就沒有進步”，我們很多時候是根據真、贗品的對比來分辨的。比如識別一張假幣，可能需要把它跟一張真幣對比一下；識別山寨手機，只需要將它跟正版手機對比一下就行了；等等。類似地，如果要想把贗品造得更真，那么需要把真品放在一旁不斷地進行對比改進，而不是單單憑借“記憶”中的真品來改進。

“對比”能讓我們更容易識別出真、贗品出來，從而更好地制造贗品。而在人工智能領域，我們知道有非常著名的“圖靈測試”，指的是測試者在無法預知的情況下同時跟機器人和人進行交流，如果測試者無法成功分別出人和機器人，那么說明這個機器人已經（在某個方面）具有人的智能了。“圖靈測試”也強調了對比的重要性，如果機器人和人混合起來后就無法分辨了，那么說明機器人已經成功了。

接下來我們將會看到，RSGAN 就是基于“圖靈測試”的思想的：如果鑒別器無法鑒別出混合的真假圖片，那么生成器就成功了；而為了生成更好的圖片，生成器也需要直接借助于真實圖片。

RSGAN基本框架

SGAN分析

首先，我們來回顧一下標準 GAN 的流程。設真實樣本分布為 p?(x)，偽造樣本分布為 q(x)，那么固定生成器后，我們來優化判別器 T(x)：

這里的 σ 就是 sigmoid 激活函數。然后固定判別器，我們優化生成器 G(z)：?

注意這里我們有個不確定 h，我們馬上就來分析它。從 (1) 我們可以解出判別器的最優解滿足（后面有補充證明）：

代入 (2)，可以發現結果為：

寫成最后一個等式，是因為只需要設 f(t)=h(log(t))，就能夠看出它具有 f 散度的形式。也就是說，最小化 (2) 就是在最小化對應的 f 散度。關于 f 散度，可以參數我之前寫的?f-GAN 簡介：GAN 模型的生產車間 [1]。

f 散度中的 f 的本質要求是 f 是一個凸函數，所以只需要選擇 h 使得 h(log(t)) 為凸函數就行。最簡單的情況是 h(t)=?t，對應 h(log(t))=?logt 為凸函數，這時候 (2) 為：

類似的選擇有很多，比如當 h(t)=?logσ(t) 時，也是凸函數（t>0 時），所以：

也是一個合理的選擇，它便是 GAN 常用的生成器 loss 之一。類似地還有 h(t)=log(1?σ(t))，這些選擇就不枚舉了。

RSGAN目標

這里，我們先直接給出 RSGAN 的優化目標：固定生成器后，我們來優化判別器 T(x)：

這里的 σ 就是 sigmoid 激活函數。然后固定判別器，我們優化生成器 G(z)：

跟 SGAN 一樣，我們這里保留了一般的 h，h 的要求跟前面的 SGAN 的討論一致。而 RSGAN 原論文的選擇是：

看上去就是把 SGAN 的判別器的兩項換成一個相對判別器了，相關的分析結果有什么變化呢？

理論結果

通過變分法（后面有補充證明）可以得到，(7) 的最優解為：

代入到 (8)，結果是：

這個結果便是整個 RSGAN 的精華所在了，它優化的是 p?(Xr)q(Xf) 與 p?(Xf)q(Xr) 的 f 散度！?

這是什么意思呢？它就是說，假如我從真實樣本采樣一個 Xr 出來，從偽造樣本采樣一個 Xf 出來，然后將它們交換一下，把假的當成真，真的當成假，那么還能分辨出來嗎？換言之：p?(Xf)q(Xr) 有大變化嗎？?

假如沒有什么變化，那就說明真假樣本已經無法分辨了，訓練成功，假如還能分辨出來，說明還需要借助真實樣本來改善偽造樣本。所以，式 (11) 就是 RSGAN 中的“圖靈測試”思想的體現：打亂了數據，是否還能分辨出來？

模型效果分析

作者在原論文中還提出了一個 RaSGAN，a 是 average 的意思，就是用整個 batch 的平均來代替單一的真/偽樣本。但我覺得這不是一個特別優雅的做法，而且論文也表明 RaSGAN 的效果并非總是比 RSGAN 要好，所以這就不介紹了，有興趣的讀者看看原論文即可。?

至于效果，論文中的效果列表顯示，RSGAN 在不少任務上都提升了模型的生成質量，但這并非總是這樣，平均而言有輕微的提升吧。作者特別指出的是 RSGAN 能夠加快生成器的訓練速度，我個人也實驗了一下，比 SGAN、SNGAN 都要快一些。

我的參考代碼：

https://github.com/bojone/gan/blob/master/keras/rsgan_sn_celeba.py

借用 MingtaoGuo [2] 的一張圖來對比 RSGAN 的收斂速度：

▲?RSGAN收斂速度對比

從直觀來看，RSGAN 更快是因為在訓練生成器時也借用了真實樣本的信息，而不僅僅通過判別器的“記憶”；從理論上看，通過 T(Xr)、T(Xf) 作差的方式，使得判別器只依賴于它們的相對值，從而簡單地改善了判別器 T 可能存在的偏置情況，使得梯度更加穩定。甚至我覺得，把真實樣本也引入到生成器的訓練中，有可能（沒仔細證明）提升偽造樣本的多樣性，因為有了各種真實樣本來對比，模型如果只生成單一樣本，也很難滿足判別器的對比判別標準。

生活随笔