當(dāng)前位置：首頁 >

PaperNotes(5)-Conditional Generative Adversarial Nets

發(fā)布時間：2023/12/13 53 豆豆

生活随笔收集整理的這篇文章主要介紹了 PaperNotes(5)-Conditional Generative Adversarial Nets 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

Conditional GAN 論文閱讀筆記

Abstract
1 Introduction
2 Related Work
3 Conditional Adversarial Nets
- 3.1 Generative Adversarial Nets
- 3.2 Conditional Adversarial Nets
4 Experimental Results
- 4.1 Unimodal
- 4.2 Multimodal
5 Future Work
6.思考

文章地址：https://arxiv.org/abs/1411.1784
Mirza M, Osindero S. Conditional Generative Adversarial Nets[J]. Computer Science, 2014:2672-2680.

Abstract

生成對抗網(wǎng)[8]是最近被提出的一種訓(xùn)練生成模型的新方法。本文介紹了條件版本的GAN，僅通過多增加一個條件輸入數(shù)據(jù)y。我們希望這個條件能同時約束生成器和判別器。我們展示了本文模型能夠產(chǎn)生以類標簽為條件的MNIST數(shù)字。這個模型還可以用來學(xué)習(xí)多模態(tài)模型，和標注圖像–可以為沒有訓(xùn)練標簽的數(shù)據(jù)提供描述性的tags.

1 Introduction

最近，生成對抗網(wǎng)被提出，其作為生成模型的一種框架，可以避免許多難以處理的概率計算的困難。

對抗網(wǎng)絡(luò)的優(yōu)點是不需要馬爾可夫鏈，只需要反向傳播獲得梯度，學(xué)習(xí)過程中不需要推理，并且可以很容易地將各種因素和相互作用納入模型中。

此外，如[8]所示，它可以產(chǎn)生最先進的對數(shù)似然估計和逼真的樣本。

在一個無條件的GAN模型中，數(shù)據(jù)生成的模式不受控制。但是，可以通過附加信息調(diào)整指導(dǎo)數(shù)據(jù)生成過程。條件可以是類標簽，像[5]中的繪畫數(shù)據(jù)的某些部分，甚至基于不同模態(tài)的數(shù)據(jù)。

本文我們展示了如何構(gòu)建條件對抗網(wǎng)。在文中我們展示了兩組實驗結(jié)果。一個是基于類標簽的MNIST數(shù)字數(shù)據(jù)集，另一個是MIR Flickr 25000數(shù)據(jù)集，用于多模式學(xué)習(xí)。

2 Related Work

最近監(jiān)督神經(jīng)網(wǎng)絡(luò)（尤其是卷積網(wǎng)絡(luò)）取得了許多成功[13,17]，但要調(diào)整這些模型以適應(yīng)大量的輸出類別仍然是一個挑戰(zhàn)。第二個問題是，迄今為止的大部分工作都集中在學(xué)習(xí)從輸入到輸出的一對一映射。然而，許多有趣的問題是一對多的概率映射。例如，在圖像標記問題中，可以許多不同的標記賦予給定的同張圖像，并且不同的注釋者可以使用不同的（但通常是同義或相關(guān)的）術(shù)語來描述同一圖像。

解決第一個問題的一種方法是利用其他模式的信息：例如，使用自然語言語料庫中標簽的向量表示，其中幾何關(guān)系在語義上是有意義的。當(dāng)在這樣的空間中進行預(yù)測時，我們受益于：當(dāng)預(yù)測錯誤時，我們?nèi)匀弧敖咏笔聦?#xff08;例如預(yù)測“桌子”而不是“椅子”）。而且我們可以自然地對訓(xùn)練期間沒見過的標簽進行預(yù)測。文獻[3]等研究表明，即使是從圖像特征空間到詞表示空間的簡單線性映射也可以提高分類性能。

解決第二個問題的一種方法是使用條件概率生成模型，輸入被視為條件變量，一對多映射被實例化為條件預(yù)測分布。

[16] 采用類似的方法來解決這個問題，并在MIR flickr25000數(shù)據(jù)集上訓(xùn)練一個多模態(tài)的深度Boltzmann機器。

此外，在[12]中，作者展示了如何訓(xùn)練一個有監(jiān)督的多模態(tài)神經(jīng)語言模型，并且他們能夠為圖像生成的描述性句子。

（這些相關(guān)工作的相關(guān)性不高吧）

3 Conditional Adversarial Nets

3.1 Generative Adversarial Nets

生成對抗網(wǎng)是一種新的生成式模型。它們由兩個“對抗性”模型組成：一個是捕獲數(shù)據(jù)分布的生成器G，另一個是判斷樣本來自訓(xùn)練數(shù)據(jù)還是生成數(shù)據(jù)的判別器D。G和D都可以是一個非線性映射函數(shù)，比如多層感知器。

為了學(xué)習(xí)數(shù)據(jù)x上的生成分布 $p_g$ ，生成器構(gòu)建了一個從先驗噪聲分布 $p_z(z)$ 到數(shù)據(jù)空間 $G(z;θ_g)$ 的映射函數(shù)。鑒別器 $D(x;θ_d)$ 輸出單個標量，表示x來自真實s數(shù)據(jù)的概率。

G和D同時訓(xùn)練：調(diào)整G的參數(shù)使 $l o g (1 ? D (G (z))$ 最小化，調(diào)整D的參數(shù)使 $l o g D (X)) 最大化，以上過程遵循兩人的最小 ? 最大博弈，其值函數(shù) 為$ V(G,D)$:

$min?Gmax?DV(D,G)=Ex～pdata(x)[log?D(x)]+Ez～pz(z)[log(1?D(G(z)))]\min_G \max_D V(D,G) = \mathbb{E}_{x\sim p_{data}(x)}[\log D(x)]+ \mathbb{E}_{z\sim p_z(z)}[log(1-D(G(z)))]$

3.2 Conditional Adversarial Nets

如果生成器和鑒別器都以一些附加信息為條件y，生成對抗網(wǎng)可以擴展為一個條件模型。y可以是任何類型的輔助信息，例如類標簽或來自其他模式的數(shù)據(jù)。我們可以通過向D和G輸入y作為附加輸入層來實現(xiàn)條件控制。

在G中，先驗輸入噪聲pz（z）和y被組合在聯(lián)合隱藏表示中，并且對抗性訓(xùn)練框架對hidden representation的構(gòu)成方式具有很大的靈活性。(目前，我們只是將條件輸入和先驗噪聲作為MLP的一個隱藏層的輸入，但是可以想象使用更高階的交互來允許復(fù)雜的生成機制，這在傳統(tǒng)的生成框架中是非常困難的。)

在鑒別器中，x和y被表示為判別函數(shù)的輸入（在這種情況下由MLP實現(xiàn)）。

此時兩人極小極大博弈的目標函數(shù)如下所示：
$min?Gmax?DV(D,G)=Ex～pdata(x)[logD(x∣y)]+Ez～pz(z)[log?(1?D(G(z∣y)))]\min_G \max_D V(D,G)= \mathbb{E}_{x\sim p_{data}(x)}[logD(x|y)]+\mathbb{E}_{z\sim p_z(z)}[\log (1-D(G(z|y)))]$

(細節(jié)沒有說)
圖1展示了一個簡單條件對抗網(wǎng)的結(jié)構(gòu)。

4 Experimental Results

4.1 Unimodal

我們在MNIST圖像上訓(xùn)練了一個條件對抗網(wǎng)絡(luò)，條件輸入是類標簽。類標簽采用one-hot 編碼。

對于生成器G，噪聲先驗z是從單位超立方體內(nèi)的均勻分布提取維數(shù)為100向量。ReLu作為隱藏層的激活函數(shù)[4，11]，層大小分別為200和1000，然后將它們映射到維度為1200的第二個組合隱藏ReLu層。然后我們有一個最終的sigmoid單元層作為我們的輸出，用于生成784維MNIST樣本（28*28）。

判別器D將x映射到具有240個單元和5個pieces的maxout[6]層，而將y映射到具有50個單元和5個pieces的maxout層。這兩個隱藏層映射到一個有240個單元和4個pieces的聯(lián)合maxout層，然后被送入sigmoid層。（只要判別器有足夠的能力，判別器的精確結(jié)構(gòu)并不重要；我們發(fā)現(xiàn)maxout單元通常非常適合這項任務(wù)。）
網(wǎng)絡(luò)訓(xùn)練超參數(shù)設(shè)置

（maxout 通俗理解–本來傳統(tǒng)的MLP算法在第i層到第i+1層，參數(shù)只有一組，然而現(xiàn)在不這么干了，在這一層同時訓(xùn)練n組參數(shù)，然后選擇激活值最大的作為下一層神經(jīng)元的激活值。）

模型采用隨機梯度下降法訓(xùn)練，mini-batch size為100，初始學(xué)習(xí)率為0.1，指數(shù)下降到0.000001，衰減因子為1.00004。同時使用動量系數(shù)，初始值為0.5，增加到0.7。概率為0.5的Dropout[9]同時應(yīng)用于生成器和鑒別器。以驗證集上對數(shù)似然的最佳估計作為停止點。（什么的停止點？超參數(shù)的停止點？）

表1顯示了MNIST數(shù)據(jù)集測試數(shù)據(jù)的高斯Parzen窗口對數(shù)似然估計。從每10個類中抽取1000個樣本，并將高斯Parzen窗口（概率密度估計的一種）擬合到這些樣本上。然后，我們使用Parzen窗口分布估計測試集的對數(shù)似然（關(guān)于如何構(gòu)造這個估計的更多細節(jié)，請參見[8]）

我們所提出的條件對抗網(wǎng)絡(luò)結(jié)果與一些模型的效果是相當(dāng)，也優(yōu)于一些方法（包括非條件對抗網(wǎng)絡(luò)）。我們提出這些結(jié)果更多的是概念的證明，而不是作為有效性的證明，并認為隨著超參數(shù)空間和體系結(jié)構(gòu)的進一步探索，條件模型應(yīng)該匹配或?qū)⒊^非條件模型的性能。

4.2 Multimodal

（生成詞向量的工作）

像Flickr這樣的照片網(wǎng)站？是一個豐富的標記數(shù)據(jù)源，這些數(shù)據(jù)以圖像和它們相關(guān)聯(lián)的用戶生成元數(shù)據(jù)（UGM）的形式存在，尤其是用戶標記。

用戶生成的元數(shù)據(jù)不同于更“規(guī)范”的圖像標記模式，因為它們通常更具描述性，并且在語義上更接近人類用自然語言描述圖像的方式，而不僅僅是識別圖像中的對象。UGM的另一個方面是synoymy很流行，不同的用戶可能使用不同的詞匯來描述相同的概念，因此，有一種有效的方法來規(guī)范這些標簽變得非常重要。概念詞嵌入[14]在這里是非常有用的，因為相關(guān)概念最終由相似的向量表示。

在本節(jié)中，我們將演示圖像的自動標記，使用基于圖像特征的條件對抗網(wǎng)絡(luò)來生成的標記向量分布來實現(xiàn)。

對于圖像特征，我們在帶有21000個標簽的完整ImageNet數(shù)據(jù)集上預(yù)先訓(xùn)練了一個類似于[13]的卷積模型[15]。我們使用最后一個有4096個單元的全連接層的輸出作為圖像表示。

對于單詞表示，我們首先從YFCC100M 數(shù)據(jù)集元數(shù)據(jù)中收集用戶標記、標題和描述的文本語料庫。在對文本進行預(yù)處理和清理之后，我們訓(xùn)練了一個單詞向量大小為200的skip gram模型[14]。我們省略了詞匯表中出現(xiàn)次數(shù)少于200次的單詞，最終得到了一本247465的詞典。

在GAN訓(xùn)練過程中，我們保持卷積模型和語言模型參數(shù)不變。梯度在這兩個模型中的傳遞將作為下一步的工作。

在實驗中，我們使用MIR-flickr25000數(shù)據(jù)集[10]，并使用上面描述的卷積模型和語言模型提取圖像和標簽特征。我們的實驗中省略了沒有任何標記的圖像，并將注釋視為額外的標記。前15萬個樣本被用作訓(xùn)練集。在訓(xùn)練集中帶有多標簽的圖像會按相應(yīng)的tag 重復(fù)多次。

為了評估，我們?yōu)槊總€圖像生成100個樣本，并使用詞匯表中單詞與每個樣本向量表示的余弦相似度來找出最接近的20個單詞。然后我們從100個樣本中選出最常見的10個單詞。表4.2顯示了用戶分配的標記和注釋以及生成的標記的一些示例。

最佳的生成器結(jié)構(gòu)為：接收大小為100的高斯噪聲作為噪聲先驗，并將其映射到500維ReLu層。將4096維圖像特征向量映射到2000維ReLu隱層。這兩個層被映射到一個200維線性層的聯(lián)合表示，該層將輸出生成的詞向量。

最佳鑒別器結(jié)構(gòu)為：500維和1200維ReLu隱層組成，分別用于詞向量和圖像特征，maxout層由1000個單元和3個塊組成連接層，最后送入單個sigmoid單元。

模型采用隨機梯度下降法訓(xùn)練，mini-batch size 為100，初始學(xué)習(xí)率為0.1，指數(shù)下降到.000001，衰減因子為1.00004。使用動量梯度下降算法，動量系數(shù)的初始值為0.5，增加到0.7。發(fā)生器和鑒別器均采用了概率為0.5的drop out 結(jié)構(gòu)。

超參數(shù)和體系結(jié)構(gòu)的選擇是通過交叉驗證以及隨機網(wǎng)格搜索和手動選擇的混合（盡管搜索空間有限）

5 Future Work

本文的結(jié)果是非常初步的，但它們展示了條件對抗網(wǎng)的潛力，并顯示了有趣和有用的應(yīng)用前景。

在未來探索中，我們希望探索更復(fù)雜的模型，并對其性能和特點進行更詳細和透徹的分析。

在目前的實驗中，我們只單獨使用每個標簽。但是，我們希望通過同時使用多個標簽（有效地將生成問題作為“集合生成”的一個）來實現(xiàn)更好的結(jié)果。

另外一個可以深入研究的方向是構(gòu)建一個聯(lián)合訓(xùn)練方案，用來學(xué)習(xí)語言模型（語言模型隨著網(wǎng)絡(luò)進行訓(xùn)練）。類似[12]這樣的工作表明，我們可以學(xué)習(xí)適合特定任務(wù)的語言模型。

6.思考

1.本文只是簡單的在GAN的輸入處嵌入了一個條件，并沒有說明由此帶來的訓(xùn)練上的差別。光從目標函數(shù)上來看應(yīng)該是訓(xùn)練形式不做改變。

2.與早期調(diào)研的李宏毅的條件GAN目標函數(shù)有所不同。李宏毅的課件中所用的框架為另一篇文章的工作：Generative Adversarial Text to Image Synthesis [ICML 2016,http://arxiv.org/abs/1605.05396] ，此文是目前公認的條件GAN框架的出處。

創(chuàng)作挑戰(zhàn)賽新人創(chuàng)作獎勵來咯，堅持創(chuàng)作打卡瓜分現(xiàn)金大獎

總結(jié)

以上是生活随笔為你收集整理的PaperNotes(5)-Conditional Generative Adversarial Nets的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇： PaperNotes(7)-GANs模式
下一篇：矩阵论-线性变换的特征值与特征变换