日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪(fǎng)問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

PaperNotes(5)-Conditional Generative Adversarial Nets

發(fā)布時(shí)間:2023/12/13 编程问答 50 豆豆
生活随笔 收集整理的這篇文章主要介紹了 PaperNotes(5)-Conditional Generative Adversarial Nets 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

Conditional GAN 論文閱讀筆記

  • Abstract
  • 1 Introduction
  • 2 Related Work
  • 3 Conditional Adversarial Nets
    • 3.1 Generative Adversarial Nets
    • 3.2 Conditional Adversarial Nets
  • 4 Experimental Results
    • 4.1 Unimodal
    • 4.2 Multimodal
  • 5 Future Work
  • 6.思考

文章地址:https://arxiv.org/abs/1411.1784
Mirza M, Osindero S. Conditional Generative Adversarial Nets[J]. Computer Science, 2014:2672-2680.

Abstract

生成對(duì)抗網(wǎng)[8]是最近被提出的一種訓(xùn)練生成模型的新方法。本文介紹了條件版本的GAN,僅通過(guò)多增加一個(gè)條件輸入數(shù)據(jù)y。我們希望這個(gè)條件能同時(shí)約束生成器和判別器。我們展示了本文模型能夠產(chǎn)生以類(lèi)標(biāo)簽為條件的MNIST數(shù)字。這個(gè)模型還可以用來(lái)學(xué)習(xí)多模態(tài)模型,和標(biāo)注圖像–可以為沒(méi)有訓(xùn)練標(biāo)簽的數(shù)據(jù)提供描述性的tags.

1 Introduction

最近,生成對(duì)抗網(wǎng)被提出,其作為生成模型的一種框架,可以避免許多難以處理的概率計(jì)算的困難。

對(duì)抗網(wǎng)絡(luò)的優(yōu)點(diǎn)是不需要馬爾可夫鏈,只需要反向傳播獲得梯度,學(xué)習(xí)過(guò)程中不需要推理,并且可以很容易地將各種因素和相互作用納入模型中。

此外,如[8]所示,它可以產(chǎn)生最先進(jìn)的對(duì)數(shù)似然估計(jì)和逼真的樣本。

在一個(gè)無(wú)條件的GAN模型中,數(shù)據(jù)生成的模式不受控制。但是,可以通過(guò)附加信息調(diào)整指導(dǎo)數(shù)據(jù)生成過(guò)程。條件可以是類(lèi)標(biāo)簽,像[5]中的繪畫(huà)數(shù)據(jù)的某些部分,甚至基于不同模態(tài)的數(shù)據(jù)。

本文我們展示了如何構(gòu)建條件對(duì)抗網(wǎng)。在文中我們展示了兩組實(shí)驗(yàn)結(jié)果。一個(gè)是基于類(lèi)標(biāo)簽的MNIST數(shù)字?jǐn)?shù)據(jù)集,另一個(gè)是MIR Flickr 25000數(shù)據(jù)集,用于多模式學(xué)習(xí)。

2 Related Work

最近監(jiān)督神經(jīng)網(wǎng)絡(luò)(尤其是卷積網(wǎng)絡(luò))取得了許多成功[13,17],但要調(diào)整這些模型以適應(yīng)大量的輸出類(lèi)別仍然是一個(gè)挑戰(zhàn)。第二個(gè)問(wèn)題是,迄今為止的大部分工作都集中在學(xué)習(xí)從輸入到輸出的一對(duì)一映射。然而,許多有趣的問(wèn)題是一對(duì)多的概率映射。例如,在圖像標(biāo)記問(wèn)題中,可以許多不同的標(biāo)記賦予給定的同張圖像,并且不同的注釋者可以使用不同的(但通常是同義或相關(guān)的)術(shù)語(yǔ)來(lái)描述同一圖像。

解決第一個(gè)問(wèn)題的一種方法是利用其他模式的信息:例如,使用自然語(yǔ)言語(yǔ)料庫(kù)中標(biāo)簽的向量表示,其中幾何關(guān)系在語(yǔ)義上是有意義的。當(dāng)在這樣的空間中進(jìn)行預(yù)測(cè)時(shí),我們受益于:當(dāng)預(yù)測(cè)錯(cuò)誤時(shí),我們?nèi)匀弧敖咏笔聦?shí)(例如預(yù)測(cè)“桌子”而不是“椅子”)。而且我們可以自然地對(duì)訓(xùn)練期間沒(méi)見(jiàn)過(guò)的標(biāo)簽進(jìn)行預(yù)測(cè)。文獻(xiàn)[3]等研究表明,即使是從圖像特征空間到詞表示空間的簡(jiǎn)單線(xiàn)性映射也可以提高分類(lèi)性能。

解決第二個(gè)問(wèn)題的一種方法是使用條件概率生成模型,輸入被視為條件變量,一對(duì)多映射被實(shí)例化為條件預(yù)測(cè)分布。

[16] 采用類(lèi)似的方法來(lái)解決這個(gè)問(wèn)題,并在MIR flickr25000數(shù)據(jù)集上訓(xùn)練一個(gè)多模態(tài)的深度Boltzmann機(jī)器。

此外,在[12]中,作者展示了如何訓(xùn)練一個(gè)有監(jiān)督的多模態(tài)神經(jīng)語(yǔ)言模型,并且他們能夠?yàn)閳D像生成的描述性句子。

(這些相關(guān)工作的相關(guān)性不高吧)

3 Conditional Adversarial Nets

3.1 Generative Adversarial Nets

生成對(duì)抗網(wǎng)是一種新的生成式模型。它們由兩個(gè)“對(duì)抗性”模型組成:一個(gè)是捕獲數(shù)據(jù)分布的生成器G,另一個(gè)是判斷樣本來(lái)自訓(xùn)練數(shù)據(jù)還是生成數(shù)據(jù)的判別器D。G和D都可以是一個(gè)非線(xiàn)性映射函數(shù),比如多層感知器。

為了學(xué)習(xí)數(shù)據(jù)x上的生成分布pgp_gpg?,生成器構(gòu)建了一個(gè)從先驗(yàn)噪聲分布pz(z)p_z(z)pz?(z)到數(shù)據(jù)空間G(z;θg)G(z;θ_g)G(z;θg?)的映射函數(shù)。鑒別器D(x;θd)D(x;θ_d)D(x;θd?)輸出單個(gè)標(biāo)量,表示x來(lái)自真實(shí)s數(shù)據(jù)的概率。

G和D同時(shí)訓(xùn)練:調(diào)整G的參數(shù)使log(1?D(G(z))log(1- D(G(z))log(1?D(G(z))最小化,調(diào)整D的參數(shù)使logD(X))最大化,以上過(guò)程遵循兩人的最小?最大博弈,其值函數(shù)為logD(X))最大化,以上過(guò)程遵循兩人的最小-最大博弈,其值函數(shù)為logD(X))過(guò)?數(shù)V(G,D)$:

min?Gmax?DV(D,G)=Ex~pdata(x)[log?D(x)]+Ez~pz(z)[log(1?D(G(z)))]\min_G \max_D V(D,G) = \mathbb{E}_{x\sim p_{data}(x)}[\log D(x)]+ \mathbb{E}_{z\sim p_z(z)}[log(1-D(G(z)))]Gmin?Dmax?V(D,G)=Expdata?(x)?[logD(x)]+Ezpz?(z)?[log(1?D(G(z)))]

3.2 Conditional Adversarial Nets

如果生成器和鑒別器都以一些附加信息為條件y,生成對(duì)抗網(wǎng)可以擴(kuò)展為一個(gè)條件模型。y可以是任何類(lèi)型的輔助信息,例如類(lèi)標(biāo)簽或來(lái)自其他模式的數(shù)據(jù)。我們可以通過(guò)向D和G輸入y作為附加輸入層來(lái)實(shí)現(xiàn)條件控制。

在G中,先驗(yàn)輸入噪聲pz(z)和y被組合在聯(lián)合隱藏表示中,并且對(duì)抗性訓(xùn)練框架對(duì)hidden representation的構(gòu)成方式具有很大的靈活性。(目前,我們只是將條件輸入和先驗(yàn)噪聲作為MLP的一個(gè)隱藏層的輸入,但是可以想象使用更高階的交互來(lái)允許復(fù)雜的生成機(jī)制,這在傳統(tǒng)的生成框架中是非常困難的。)

在鑒別器中,x和y被表示為判別函數(shù)的輸入(在這種情況下由MLP實(shí)現(xiàn))。

此時(shí)兩人極小極大博弈的目標(biāo)函數(shù)如下所示:
min?Gmax?DV(D,G)=Ex~pdata(x)[logD(x∣y)]+Ez~pz(z)[log?(1?D(G(z∣y)))]\min_G \max_D V(D,G)= \mathbb{E}_{x\sim p_{data}(x)}[logD(x|y)]+\mathbb{E}_{z\sim p_z(z)}[\log (1-D(G(z|y)))]Gmin?Dmax?V(D,G)=Expdata?(x)?[logD(xy)]+Ezpz?(z)?[log(1?D(G(zy)))]

(細(xì)節(jié)沒(méi)有說(shuō))
圖1展示了一個(gè)簡(jiǎn)單條件對(duì)抗網(wǎng)的結(jié)構(gòu)。

4 Experimental Results

4.1 Unimodal

我們?cè)贛NIST圖像上訓(xùn)練了一個(gè)條件對(duì)抗網(wǎng)絡(luò),條件輸入是類(lèi)標(biāo)簽。類(lèi)標(biāo)簽采用one-hot 編碼。

對(duì)于生成器G,噪聲先驗(yàn)z是從單位超立方體內(nèi)的均勻分布提取維數(shù)為100向量。ReLu作為隱藏層的激活函數(shù)[4,11],層大小分別為200和1000,然后將它們映射到維度為1200的第二個(gè)組合隱藏ReLu層。然后我們有一個(gè)最終的sigmoid單元層作為我們的輸出,用于生成784維MNIST樣本(28*28)。

判別器D將x映射到具有240個(gè)單元和5個(gè)pieces的maxout[6]層,而將y映射到具有50個(gè)單元和5個(gè)pieces的maxout層。這兩個(gè)隱藏層映射到一個(gè)有240個(gè)單元和4個(gè)pieces的聯(lián)合maxout層,然后被送入sigmoid層。(只要判別器有足夠的能力,判別器的精確結(jié)構(gòu)并不重要;我們發(fā)現(xiàn)maxout單元通常非常適合這項(xiàng)任務(wù)。)
網(wǎng)絡(luò)訓(xùn)練超參數(shù)設(shè)置

(maxout 通俗理解–本來(lái)傳統(tǒng)的MLP算法在第i層到第i+1層,參數(shù)只有一組,然而現(xiàn)在不這么干了,在這一層同時(shí)訓(xùn)練n組參數(shù),然后選擇激活值最大的作為下一層神經(jīng)元的激活值。)

模型采用隨機(jī)梯度下降法訓(xùn)練,mini-batch size為100,初始學(xué)習(xí)率為0.1,指數(shù)下降到0.000001,衰減因子為1.00004。同時(shí)使用動(dòng)量系數(shù),初始值為0.5,增加到0.7。概率為0.5的Dropout[9]同時(shí)應(yīng)用于生成器和鑒別器。以驗(yàn)證集上對(duì)數(shù)似然的最佳估計(jì)作為停止點(diǎn)。(什么的停止點(diǎn)?超參數(shù)的停止點(diǎn)?)

表1顯示了MNIST數(shù)據(jù)集測(cè)試數(shù)據(jù)的高斯Parzen窗口對(duì)數(shù)似然估計(jì)。從每10個(gè)類(lèi)中抽取1000個(gè)樣本,并將高斯Parzen窗口(概率密度估計(jì)的一種)擬合到這些樣本上。然后,我們使用Parzen窗口分布估計(jì)測(cè)試集的對(duì)數(shù)似然(關(guān)于如何構(gòu)造這個(gè)估計(jì)的更多細(xì)節(jié),請(qǐng)參見(jiàn)[8])

我們所提出的條件對(duì)抗網(wǎng)絡(luò)結(jié)果與一些模型的效果是相當(dāng),也優(yōu)于一些方法(包括非條件對(duì)抗網(wǎng)絡(luò))。我們提出這些結(jié)果更多的是概念的證明,而不是作為有效性的證明,并認(rèn)為隨著超參數(shù)空間和體系結(jié)構(gòu)的進(jìn)一步探索,條件模型應(yīng)該匹配或?qū)⒊^(guò)非條件模型的性能。

4.2 Multimodal

(生成詞向量的工作)

像Flickr這樣的照片網(wǎng)站?是一個(gè)豐富的標(biāo)記數(shù)據(jù)源,這些數(shù)據(jù)以圖像和它們相關(guān)聯(lián)的用戶(hù)生成元數(shù)據(jù)(UGM)的形式存在,尤其是用戶(hù)標(biāo)記。

用戶(hù)生成的元數(shù)據(jù)不同于更“規(guī)范”的圖像標(biāo)記模式,因?yàn)樗鼈兺ǔ8呙枋鲂?#xff0c;并且在語(yǔ)義上更接近人類(lèi)用自然語(yǔ)言描述圖像的方式,而不僅僅是識(shí)別圖像中的對(duì)象。UGM的另一個(gè)方面是synoymy很流行,不同的用戶(hù)可能使用不同的詞匯來(lái)描述相同的概念,因此,有一種有效的方法來(lái)規(guī)范這些標(biāo)簽變得非常重要。概念詞嵌入[14]在這里是非常有用的,因?yàn)橄嚓P(guān)概念最終由相似的向量表示。

在本節(jié)中,我們將演示圖像的自動(dòng)標(biāo)記,使用基于圖像特征的條件對(duì)抗網(wǎng)絡(luò)來(lái)生成的標(biāo)記向量分布來(lái)實(shí)現(xiàn)。

對(duì)于圖像特征,我們?cè)趲в?1000個(gè)標(biāo)簽的完整ImageNet數(shù)據(jù)集上預(yù)先訓(xùn)練了一個(gè)類(lèi)似于[13]的卷積模型[15]。我們使用最后一個(gè)有4096個(gè)單元的全連接層的輸出作為圖像表示。

對(duì)于單詞表示,我們首先從YFCC100M 數(shù)據(jù)集元數(shù)據(jù)中收集用戶(hù)標(biāo)記、標(biāo)題和描述的文本語(yǔ)料庫(kù)。在對(duì)文本進(jìn)行預(yù)處理和清理之后,我們訓(xùn)練了一個(gè)單詞向量大小為200的skip gram模型[14]。我們省略了詞匯表中出現(xiàn)次數(shù)少于200次的單詞,最終得到了一本247465的詞典。

在GAN訓(xùn)練過(guò)程中,我們保持卷積模型和語(yǔ)言模型參數(shù)不變。梯度在這兩個(gè)模型中的傳遞將作為下一步的工作。

在實(shí)驗(yàn)中,我們使用MIR-flickr25000數(shù)據(jù)集[10],并使用上面描述的卷積模型和語(yǔ)言模型提取圖像和標(biāo)簽特征。我們的實(shí)驗(yàn)中省略了沒(méi)有任何標(biāo)記的圖像,并將注釋視為額外的標(biāo)記。前15萬(wàn)個(gè)樣本被用作訓(xùn)練集。在訓(xùn)練集中帶有多標(biāo)簽的圖像會(huì)按相應(yīng)的tag 重復(fù)多次。

為了評(píng)估,我們?yōu)槊總€(gè)圖像生成100個(gè)樣本,并使用詞匯表中單詞與每個(gè)樣本向量表示的余弦相似度來(lái)找出最接近的20個(gè)單詞。然后我們從100個(gè)樣本中選出最常見(jiàn)的10個(gè)單詞。表4.2顯示了用戶(hù)分配的標(biāo)記和注釋以及生成的標(biāo)記的一些示例。

最佳的生成器結(jié)構(gòu)為:接收大小為100的高斯噪聲作為噪聲先驗(yàn),并將其映射到500維ReLu層。將4096維圖像特征向量映射到2000維ReLu隱層。這兩個(gè)層被映射到一個(gè)200維線(xiàn)性層的聯(lián)合表示,該層將輸出生成的詞向量。

最佳鑒別器結(jié)構(gòu)為:500維和1200維ReLu隱層組成,分別用于詞向量和圖像特征,maxout層由1000個(gè)單元和3個(gè)塊組成連接層,最后送入單個(gè)sigmoid單元。

模型采用隨機(jī)梯度下降法訓(xùn)練,mini-batch size 為100,初始學(xué)習(xí)率為0.1,指數(shù)下降到.000001,衰減因子為1.00004。使用動(dòng)量梯度下降算法,動(dòng)量系數(shù)的初始值為0.5,增加到0.7。發(fā)生器和鑒別器均采用了概率為0.5的drop out 結(jié)構(gòu)。

超參數(shù)和體系結(jié)構(gòu)的選擇是通過(guò)交叉驗(yàn)證以及隨機(jī)網(wǎng)格搜索和手動(dòng)選擇的混合(盡管搜索空間有限)

5 Future Work

本文的結(jié)果是非常初步的,但它們展示了條件對(duì)抗網(wǎng)的潛力,并顯示了有趣和有用的應(yīng)用前景。

在未來(lái)探索中,我們希望探索更復(fù)雜的模型,并對(duì)其性能和特點(diǎn)進(jìn)行更詳細(xì)和透徹的分析。

在目前的實(shí)驗(yàn)中,我們只單獨(dú)使用每個(gè)標(biāo)簽。但是,我們希望通過(guò)同時(shí)使用多個(gè)標(biāo)簽(有效地將生成問(wèn)題作為“集合生成”的一個(gè))來(lái)實(shí)現(xiàn)更好的結(jié)果。

另外一個(gè)可以深入研究的方向是構(gòu)建一個(gè)聯(lián)合訓(xùn)練方案,用來(lái)學(xué)習(xí)語(yǔ)言模型(語(yǔ)言模型隨著網(wǎng)絡(luò)進(jìn)行訓(xùn)練)。類(lèi)似[12]這樣的工作表明,我們可以學(xué)習(xí)適合特定任務(wù)的語(yǔ)言模型。

6.思考

1.本文只是簡(jiǎn)單的在GAN的輸入處嵌入了一個(gè)條件,并沒(méi)有說(shuō)明由此帶來(lái)的訓(xùn)練上的差別。光從目標(biāo)函數(shù)上來(lái)看應(yīng)該是訓(xùn)練形式不做改變。

2.與早期調(diào)研的李宏毅的條件GAN目標(biāo)函數(shù)有所不同。李宏毅的課件中所用的框架為另一篇文章的工作:Generative Adversarial Text to Image Synthesis [ICML 2016,http://arxiv.org/abs/1605.05396] ,此文是目前公認(rèn)的條件GAN框架的出處。

創(chuàng)作挑戰(zhàn)賽新人創(chuàng)作獎(jiǎng)勵(lì)來(lái)咯,堅(jiān)持創(chuàng)作打卡瓜分現(xiàn)金大獎(jiǎng)

總結(jié)

以上是生活随笔為你收集整理的PaperNotes(5)-Conditional Generative Adversarial Nets的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。