當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Generative Adversarial Networks 生成对抗网络的简单理解

發(fā)布時間：2025/3/15 编程问答 31 豆豆

生活随笔收集整理的這篇文章主要介紹了 Generative Adversarial Networks 生成对抗网络的简单理解小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

1. 引言

在對抗網(wǎng)絡(luò)中，生成模型與判別相競爭，判別模型通過學習確定樣本是來自生成模型分布還是原始數(shù)據(jù)分布。生成模型可以被認為是類似于一組偽造者，試圖產(chǎn)生假幣并在沒有檢測的情況下使用它，而判別模型類似于警察，試圖檢測假幣。在這個游戲中的競爭驅(qū)動兩個團隊改進他們的方法，直到假冒與真正的物品難以分別。

生成模型和判別模型對抗的結(jié)果是，兩者都提升了自己的能力。生成模型提高了模擬原始數(shù)據(jù)分布的能力，判別模型提高了分辨的能力。

GAN之所以叫生成對抗網(wǎng)絡(luò)，是因為判別模型和生成模型都是用的神經(jīng)網(wǎng)絡(luò)模型，如果選擇其他模型的話，可能就要叫GAXX了

2. 生成模型

2.1 GAN是生成模型的一種

“生成模型”表示任何一種可以接受訓練集（從一個分布 $p_{data}$ ?采樣的樣本）學會表示該分布的估計的模型。其結(jié)果是一個概率分布 $p_{model}$ 。有些時候，模型會顯式地估計 $p_{model}$ ，比如說圖上半部分所示。還有些時候，模型只能從? $p_{model}$ ?中生成樣本，比如說圖下半部分。有些模型能夠同時這兩件事情。雖說 GANs 經(jīng)過設(shè)計可以做到這兩點，我們這里把精力放在 GANs 樣本生成上。

作者雖然說GANs可以都做，但是現(xiàn)在的應(yīng)用一般都是在樣本生成上
關(guān)于判別模型和生成模型的區(qū)別，請參考《統(tǒng)計學習方法》第17-18頁

2.2 GAN與其他生成模型的對比

上圖是作者將要與GAN比較的集中生成模型

GANs是針對其他生成式模型的缺點進行設(shè)計的:

作者原話：GANs were designed to avoid many disadvantages associated with other generative models,相當直白，毫不客氣

相對于FVBN，可以并行生成樣本，而不是隨 x 的維度變化的運行時間。
相對于玻爾茨曼機，生成器函數(shù)的設(shè)計只有很少的限制。在玻爾茨曼機中，只有很少概率分布能夠給出易解的 Markov chain 采樣。而非線性ICA中生成器必須是可逆的而且隱含編碼 z 必須要和樣本 x 有著同樣的維度。
相對于玻爾茨曼機和GSNs，不需要 Markov chain。
不需要有變分界，在 GANs 框架中可用的特定模型族已經(jīng)證實是通用近似子，所以 GANs 其實是漸進一致的。某些 VAEs 被猜想是漸進一致的，但還沒有被證實。
主觀上判斷 GANs 能夠產(chǎn)生比其他方法更好的樣本。（僅僅是主觀，ian 本人也說，這事兒沒法衡量什么是「好」或「不好」）
同時，GANs 也有新的缺點，訓練 GANs 需要找到博弈的 Nash 均衡，這個其實是一個比優(yōu)化目標函數(shù)更加困難的問題。

3. 生成對抗網(wǎng)絡(luò)

GANs 的基本思想是設(shè)置兩個參與人的博弈。其中一個是生成器(generator)。生成器的目的產(chǎn)生來自和訓練樣本一樣的分布的樣本（制作跟真幣一樣的假幣）。另外一個判別器(discriminator)。判別器檢查這些樣本來確定他們是真實的還是偽造的（識別真幣和假幣）。判別器使用傳統(tǒng)的監(jiān)督學習技術(shù)進行訓練，將輸入分成兩類（真實的或者偽造的）。生成器訓練的目標就是欺騙判別器。

博弈中的兩個參與人由兩個函數(shù)表示，每個都是關(guān)于輸入和參數(shù)可微分的。判別器是一個以 x （真實數(shù)據(jù)）作為輸入和使用? $\theta^{(D)}$ ?為參數(shù)的函數(shù) $D$ ?定義。生成器由一個以 z（噪音數(shù)據(jù)即假數(shù)據(jù)）為輸入使用 $\theta^{(G)}$ ?為參數(shù)的函數(shù)? $G$ ?定義。

雙方的? $c o s t f u n c t i o n$ 都有雙方定義的參數(shù)。判別器希望僅控制住? $\theta^{(D)}$ ?情形下最小化? $J^{(D)}(\theta^{(D)}, \theta^{(G)})$ 。生成器希望在僅控制? $\theta^{(D)}$ ?情形下最小化? $J^{(G)}(\theta^{(D)}, \theta^{(G)})$ 。因為每個人的 $c o s t f u n c t i o n$ 都依賴于另一個人的參數(shù)，但是每個人都不能控制別人的參數(shù)，這個場景其實更為接近一個博弈而非優(yōu)化問題。優(yōu)化問題的解是一個局部最小，而一個博弈的解是一個納什均衡。在這樣的設(shè)定下，Nash 均衡是一個元組， $(\theta^{(D)}, \theta^{(G)})$ ?既是關(guān)于? $\theta^{(D)}$ 的? $J^{(D)}$ ?的局部最小值和也是關(guān)于 $\theta^{(G)}$ 的? $J^{(G)}$ ?局部最小值。

3.1 生成模型

生成器是一個可微分函數(shù) $G$ 。當 $z$ ?從某個簡單的先驗分布中采樣出來時， $G (z)$ ?產(chǎn)生一個從? $p < e m > m o d e l < / e m >$ ?中的樣本? $x$ 。一般來說，深度神經(jīng)網(wǎng)絡(luò)可以用來表示? $G$ 。注意函數(shù)? $G$ ?的輸入不需要和深度神經(jīng)網(wǎng)絡(luò)的第一層的輸入相同；輸入可能放在網(wǎng)絡(luò)的任何地方。例如，我們可以將 $z$ ?劃分成兩個向量? $z (1)$ ?和? $z (2)$ ，然后讓? $z (1)$ ?作為神經(jīng)網(wǎng)絡(luò)的第一層的輸入，將? $z (2)$ ?作為神經(jīng)網(wǎng)絡(luò)的最后一層的輸入。如果? $z (2)$ ?是 Gaussian，這就使得? $x$ ?成為 $z (1)$ ?條件高斯。另外一個流行的策略是將噪聲加到或者乘到隱含層或者將噪聲拼接到神經(jīng)網(wǎng)絡(luò)的隱含層上。總之，我們看到其實對于生成式網(wǎng)絡(luò)只有很少的限制。如果我們希望? $p$ {model} 是? $x$ ?空間的支集(support)，我們需要 z 的維度需要至少和? $x$ 的維度一樣大，而且? $G$ ?必須是可微分的，但是這些其實就是僅有的要求了。特別地，注意到使用非線性 ICA 方法的任何模型都可以成為一個 GAN 生成器網(wǎng)絡(luò)。GANs 和變分自編碼器的關(guān)系更加復雜一點；一方面 GAN 框架可以訓練一些 VAE 不能的訓練模型，反之亦然，但是兩個框架也有很大的重合部分。最為顯著的差異是，如果采用標準的反向傳播，VAEs 不能在生成器輸入有離散變量，而?GANs 不能夠在生成器的輸出層有離散變量。

3.2 訓練過程

訓練過程包含同時隨機梯度下降 simultaneous SGD。在每一步，會采樣兩個 minibatch：一個來自數(shù)據(jù)集的 $x$ ?的 minibatch 和一個從隱含變量的模型先驗采樣的 $z$ 的 minibatch。然后兩個梯度步驟同時進行：一個更新?來降低?J(D)，另一個更新?θ^(G)?來降低?J(G)。這兩個步驟都可以使用你選擇的基于梯度的優(yōu)化算法。 Adam (Kingmaand Ba, 2014) 通常是一個好的選擇。

很多作者推薦其中某個參與人運行更多步驟(包括14年的文章上，算法過程在上圖)，但是在 2016 年的年末，觀點是最好的機制就是同時梯度下降，每個參與人都是一步。

下面這張圖可能更加容易理解訓練過程

訓練對抗的生成網(wǎng)絡(luò)時，同時更新判別分布（D，藍色虛線）使D能區(qū)分數(shù)據(jù)生成分布px（黑色虛線）中的樣本和生成分布?p_g?(G，綠色實線) 中的樣本。下面的水平線為均勻采樣z的區(qū)域，上面的水平線為x的部分區(qū)域。朝上的箭頭顯示映射x=G(z)如何將非均勻分布p_g作用在轉(zhuǎn)換后的樣本上。G在pg高密度區(qū)域收縮，且在pg的低密度區(qū)域擴散。(a)考慮一個接近收斂的對抗的模型對：p_g與p{data}相似，且D是個部分準確的分類器。(b)算法的內(nèi)循環(huán)中，訓練D來判別數(shù)據(jù)中的樣本，收斂到：D^?(x)={p{data}(x)} \over {p{data}(x)+pg(x)}。(c)在G的1次更新后，D的梯度引導G(z)流向更可能分類為數(shù)據(jù)的區(qū)域。(d)訓練若干步后，如果G和D性能足夠，它們接近某個穩(wěn)定點并都無法繼續(xù)提高性能，因為此時p_g=p{data}。判別器將無法區(qū)分訓練數(shù)據(jù)分布和生成數(shù)據(jù)分布，即D(x)=1 \over 2。

3.3 cost function

目前為 GANs 設(shè)計的所有不同的博弈針對判別器?J(D)?使用了同樣的代價函數(shù)。他們僅僅是生成器?J(G)?的代價函數(shù)不同。

3.3.1 判別模型 cost function

其實就是標準的訓練一個 sigmoid 輸出的標準的二分類器交叉熵代價。唯一的不同就是分類器在兩個 minibatch 的數(shù)據(jù)上進行訓練；一個來自數(shù)據(jù)集（其中的標簽均是 1），另一個來自生成器（其標簽均是 0）。

GAN 博弈的所有版本都期望判別器能夠最小化（8）式。所有情況下，判別器有同樣最優(yōu)策略。

3.3.2生成模型 cost function

- Minimax

最簡單的博弈版本是零和博弈，其中所有參與人的代價總是 0。在這個版本的博弈中

- 啟發(fā)式，非飽和博弈

在 minimax 博弈中用在生成器上的代價對理論分析很有用但是在實踐中表現(xiàn)很糟糕。

最小化目標類和分類器預(yù)測的分布的交叉熵是很高效的，因為代價不會在分類器有錯誤的輸出的時候飽和。最終代價會飽和到\theta，但是僅僅是在分類器選擇了正確的類標的情況下。

在 minimax 博弈中，判別器最小化交叉熵，但是生成器是最大化同一個交叉熵。這對于生成器是不利的，因為判別器成功地以高置信度反對生成器產(chǎn)生的樣本時，生成器的梯度會消失。

為了解決這個問題，一種方式是繼續(xù)使用交叉熵來最小化生成器。不過我們不是去改變判別器代價函數(shù)的正負號來獲得生成器的代價。我們是將用來構(gòu)造交叉熵代價的目標的正負號。所以，生成器的代價函數(shù)就是：

-最大似然博弈

我們可能能夠使用 GANs 進行最大似然學習，這就意味著可以最小化數(shù)據(jù)和模型之間的 KL 散度

有很多中方式能夠使用 GAN 框架來近似（4）式:

上述不同損失函數(shù)的比較：

3.4 缺點

最大的缺點就是訓練困難，導致無法收斂和模式崩潰

現(xiàn)在 GAN 面臨的最大問題就是不穩(wěn)定，很多情況下都無法收斂（non-convergence）。原因是我們使用的優(yōu)化方法很容易只找到一個局部最優(yōu)點，而不是全局最優(yōu)點。或者，有些算法根本就沒法收斂。

模式崩潰（mode collapse）就是一種無法收斂的情況，這在 Ian 2014 年的首篇論文中就被提及了。比如，對于一個最小最大博弈的問題，我們把最小（min）還是最大（max）放在內(nèi)循環(huán)？minmax V(G,D) 不等于 maxmin V(G,D)。如果 maxD 放在內(nèi)圈，算法可以收斂到應(yīng)該有的位置，如果 minG 放在內(nèi)圈，算法就會一股腦地撲向其中一個聚集區(qū)，而不會看到全局分布

不過值得慶幸的是，現(xiàn)在已經(jīng)有算法解決這些問題，這也是2016年GAN才火的一個原因吧

4. 后續(xù)發(fā)展

github上有人總結(jié)的GAN的文章：AdversarialNetsPapers

5. 參考

Generative Adversarial Nets

NIPS 2016 Tutorial: Generative Adversarial Networks

GAN之父NIPS 2016演講現(xiàn)場直擊：全方位解讀生成對抗網(wǎng)絡(luò)的原理及未來

原文地址：　http://www.datalearner.com/blog/1051488206986609

總結(jié)

以上是生活随笔為你收集整理的Generative Adversarial Networks 生成对抗网络的简单理解的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇： tensorflow笔记：模型的保存与训
下一篇： TFboys：使用Tensorflow搭