日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

GAN——UNIT简单梳理

發(fā)布時(shí)間:2025/3/15 编程问答 22 豆豆
生活随笔 收集整理的這篇文章主要介紹了 GAN——UNIT简单梳理 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

自從2014年Goodfellow提出GAN(Generative adversarial networks)模型之后,在機(jī)器學(xué)習(xí)領(lǐng)域就砸下了一個(gè)大大的隕石坑,此后至今,已經(jīng)有成百上千篇的GAN相關(guān)論文在Arxiv以及各大頂級會(huì)議期刊上被發(fā)表。時(shí)至今日,GAN的各種相關(guān)改進(jìn)模型已經(jīng)在CV,NLP,語音等相關(guān)領(lǐng)域取得了不錯(cuò)的效果,但是待解決的問題依舊很多,廣闊天地依舊可以大GAN一場。

GAN 在結(jié)構(gòu)上受博弈論中的二人零和博弈 (即二人的利益之和為零, 一方的所得正是另一方的所失) 的啟發(fā), 系統(tǒng)由一個(gè)生成器和一個(gè)判別器構(gòu)成,想法十分的巧妙,目前已經(jīng)成為人工智能學(xué)界一個(gè)熱門的研究方向, 著名學(xué)者 LeCun 甚至將其稱為“過去十年間機(jī)器學(xué)習(xí)領(lǐng)域最讓人激動(dòng)的點(diǎn)子”。在經(jīng)過幾天的材料閱讀之后,想將自己學(xué)習(xí)到的東西保存下來,以便加深印象,有不對的地方也歡迎大家批評指正。

文章大致分為三個(gè)部分:

·GAN思維導(dǎo)圖

·哈工大左旺孟教授在Valse2017上做的GAN報(bào)告簡單總結(jié)

·大致解讀幾篇圖像翻譯相關(guān)的論文

GAN思維導(dǎo)圖

GAN存在的三個(gè)主要改進(jìn)方向

以下內(nèi)容主要整理自哈工大左旺孟教授在Valse2017上做的關(guān)于GAN綜述的報(bào)告,如有侵權(quán),請聯(lián)系作者,將立即刪除。

左教授主要闡述了三個(gè)改進(jìn)方向:

1.更好的度量目標(biāo)分布和生成分布之間的差異

2.設(shè)計(jì)更好的生成器

3.連接輸入和輸出

簡單闡述一下,詳細(xì)信息后續(xù)補(bǔ)充。

1.第一個(gè)改進(jìn)方向主要解決GAN存在的模型崩塌問題,主要解決方向體現(xiàn)在判別器的改進(jìn)上,如后續(xù)提出的GMMN,ImprovedGAN,WGAN等均是從此方向入手。普遍觀點(diǎn)認(rèn)為,分布相同時(shí)期望相同,反之卻不成立,但是如果所有期望的非線性變換后依舊相同,則可以認(rèn)為兩個(gè)分布相同,之前采用的方法是核變換或者高斯核變換,目前主流使用CNN模擬各種非線性變換。

2.左教授認(rèn)為,不同的任務(wù)目標(biāo)需要使用不同的生成器,已達(dá)到期望效果。例如在DCGAN中使用FC+BN訓(xùn)練生成器,在復(fù)雜圖像生成任務(wù)中,使用stacked generator,在圖像增強(qiáng)任務(wù)中使用ResNet,在Image Translation任務(wù)中使用Unet保留更多的結(jié)構(gòu)相關(guān)特征,在具有時(shí)序特征的任務(wù)中,例如圖文轉(zhuǎn)換,圖像生成任務(wù)使用CNN+RNN結(jié)構(gòu)。

3.關(guān)于如何連接輸入和輸出信息,這方面做的比較好的論文包括InfoGAN,cGAN,CCGAN等,詳細(xì)解讀后續(xù)補(bǔ)充。

Image-Image Translation?

圖像翻譯這個(gè)概念首先來自于《Image-to-Image Translation with Conditional Adversarial Networks》這篇論文,作者提出了一個(gè)十分有效的通用圖象任務(wù)的框架,具體可以完成的任務(wù)和效果將在下文具體給出,另外為了更好的保留原作者意圖,部分內(nèi)容將使用英文表述。

提出概念:該文章首次提Image-Image Translation這個(gè)概念,將計(jì)算機(jī)視覺和計(jì)算機(jī)圖形學(xué)的許多任務(wù)總結(jié)進(jìn)去,分為一對多和多對一的兩類轉(zhuǎn)換任務(wù),包括CV里的邊緣檢測,圖像分割,語義標(biāo)簽以及CG里的mapping labels or sparse user inputs to realistic images.

上面已經(jīng)提到,作者的目的就是提出一個(gè)通用框架以滿足圖像翻譯的需求,這也是作者論文中所提到的兩大貢獻(xiàn)的綜合敘述。

網(wǎng)絡(luò)結(jié)構(gòu):

生成器:U-Net,更高層次的信息共享。

判別器:“PatchGAN”,判別圖像的紋理或者語義上的分布差異。

Final Object:

優(yōu)化方法:MinibatchSGD,輪流訓(xùn)練G和D。

實(shí)驗(yàn)結(jié)果:論文共進(jìn)行了七種實(shí)驗(yàn),以下一一列舉并展示實(shí)驗(yàn)結(jié)果。

1.Semantic Labels——Photo:

2.Architectural Labels——Photo:

3.Map——Area Photo:

4.BW——Color Photo:

5.Edges——Photos:

6.Day——Night:

評價(jià)方法:傳統(tǒng)的計(jì)算均方誤差的評價(jià)方法并不適合圖像翻譯的評價(jià)工作,所以作者提出了兩種新的評價(jià)方法,第一種就是進(jìn)行人工評價(jià),在亞馬遜平臺上進(jìn)行測試(AMT),如果人類無法找出機(jī)器生成的圖片,則說明生產(chǎn)效果比較好,第二就是利用已有的語義分割網(wǎng)絡(luò)進(jìn)行評價(jià),生成圖片越接近真實(shí)圖片則在進(jìn)行語義分割時(shí)分割結(jié)果越好。

CCGAN/DiscoGAN/DualGAN:

由于cGAN的訓(xùn)練需要pair data,也就是訓(xùn)練數(shù)據(jù)和評價(jià)數(shù)據(jù)是成對出現(xiàn)的,這種數(shù)據(jù)集的采集和制作需要耗費(fèi)大量的人力,并且網(wǎng)絡(luò)的訓(xùn)練是屬于有監(jiān)督學(xué)習(xí)范圍,因此這三篇文章提出了一種無監(jiān)督的不需要成對數(shù)據(jù)的網(wǎng)絡(luò)框架。三篇文章的核心思想同時(shí)也是創(chuàng)新點(diǎn)是一樣的,在沒有標(biāo)簽數(shù)據(jù)進(jìn)行監(jiān)督學(xué)習(xí)的情況下,利用網(wǎng)絡(luò)自身來判斷生成圖片的效果,也就是體現(xiàn)在Cycle這個(gè)詞上。網(wǎng)絡(luò)中使用兩個(gè)生成器(F和G)和兩個(gè)判別器(Dx和Dy),需要達(dá)到的效果就是F(G(X)) ≈ X,反之也成立。

三篇論文的指導(dǎo)思想大致相同,不同的就是網(wǎng)絡(luò)細(xì)節(jié)啦(引用自知乎回答https://zhuanlan.zhihu.com/p/26332365)

CycleGAN:

這里的generator跟Perceptual losses for real-time style transfer and super-resolution是一樣的。他們使用了Instance Normalization。判別器使用的和pix2pix一樣(PatchGAN on 70x70 patches). 為了穩(wěn)定GAN的訓(xùn)練,他們使用了最小二乘gan(least square gan)和 Replay buffer。不像pix2pix,他們的模型沒有任何的隨機(jī)性。(沒有隨機(jī)輸入z,沒有dropout)這里的生成器更像是一個(gè)deteministic的style transfer模型,而不是一個(gè)條件GAN。他們使用了L1距離作為cycle consistency.

DualGAN:

他們的生成器和判別器都和pix2pix一樣 (沒有隨機(jī)輸入z,但是有dropout的隨機(jī))。 他們用了wgan來訓(xùn)練。cycle consistency同樣選用了l1。

DiscoGAN:

他們用了conv,deconv和leaky relu組成了生成器,然后一個(gè)conv+leaky relu作為判別器。他們用l2作為cycle consistency。

下面展示一些實(shí)驗(yàn)結(jié)果:

DistanceGAN

這篇文章認(rèn)為對兩類數(shù)據(jù)(A域和B域)的循環(huán)映射約束依舊不夠強(qiáng),并且多對多的映射過程容易導(dǎo)致模型崩塌(例如兩個(gè)域中圖片物體形狀差異較大時(shí)),因此作者提出了一種只需要單邊映射的距離約束,該約束的思想就是A域中的兩個(gè)樣本距離在經(jīng)過映射后樣本間距離保持高度相關(guān)。

文章中作者對圖像翻譯的常見約束做了簡單闡述,并提出了自己的約束方法,個(gè)人感覺還蠻有借鑒意義的:

Adversarial constraints:

這個(gè)約束就是最初GAN的思想,其目的是保證生成器的轉(zhuǎn)換可以把A分布的樣本轉(zhuǎn)化成B分布,也是GAN網(wǎng)絡(luò)的的核心約束方法,用Goodfellow的描述就是經(jīng)典的警察和假幣的問題啦。

Circularity constraints:

這個(gè)就是CCGAN里面提到的環(huán)狀約束,具體約束思想上文已經(jīng)提到過。

Target Domain Identity:

這個(gè)約束在CCGAN中有提到過,思想就是目標(biāo)域同一性,我的理解是目標(biāo)域分布樣本經(jīng)過轉(zhuǎn)換后其分布依舊滿足目標(biāo)域的分布。

Distance Constraints:

這個(gè)約束就是本文作者提出的距離約束,作者認(rèn)為只有對抗約束的話,從A域的n個(gè)樣本學(xué)習(xí)B域的n個(gè)樣本的映射則函數(shù)映射空間會(huì)很大,反之加上環(huán)狀約束的話又會(huì)過于限制映射空間,使得映射過于單一,而這種利用同一域樣本距離的約束方式是的約束強(qiáng)度適中,同時(shí)不要求源域和目標(biāo)域的分布差異,因此不會(huì)產(chǎn)生CCGAN中出現(xiàn)的模型崩塌問題。

Self-distance Constraints:

跟上面的約束類似,只不過作者主要與CCGAN中的結(jié)果進(jìn)行對比,而CCGAN中的minibatchs的size是1,因此作者把自己實(shí)驗(yàn)中的圖片分成左右兩部分來計(jì)算距離,所以作者把它稱為Self-distance Constraints。

至于訓(xùn)練細(xì)節(jié)和參數(shù)設(shè)置這里就不贅述了,作者在DiscoGAN,CCGAN上都進(jìn)行了改進(jìn)實(shí)驗(yàn),大家有興趣可以看看原論文,下面就簡單展示一下實(shí)驗(yàn)結(jié)果:

UNIT:

這篇文章也是解決上述問題的,發(fā)表在2017NIPS上,主要思路和框架實(shí)在作者之前(16年NIPS)提出的CoupleGAN的基礎(chǔ)上提出的,但是不像上面幾篇論文,這篇論文的數(shù)學(xué)理論解釋比較多,所以讀起來比較難,有好多地方都沒看懂,這里冒昧做個(gè)簡述,當(dāng)然歡迎大家指教。

網(wǎng)絡(luò)架構(gòu):

先看a圖,也是本篇文章的核心思想所在,按照作者的觀點(diǎn),X1域的分布和X2域的分布可以通過VAE共同編碼到Z域,然后又可以通過生成器將Z域的分布信息分別轉(zhuǎn)換成X1和X2域的分布信息。作者把Z命名為潛在隱藏空間,其中Z的分布滿足有條件獨(dú)立和單位方差的高斯分布。

再看b圖,這里共享了E的后幾層和G的前幾層權(quán)重,目的就是提取到并保留兩個(gè)分布域的高層信息,后面的G和D就是傳統(tǒng)的GAN思想,需要提到的就是,在這個(gè)網(wǎng)絡(luò)中,類似于x1→x1-1的同一域圖片經(jīng)過編碼生成又映射到本域的情況,這里本身就對應(yīng)著前面幾篇文章的循環(huán)一致性的約束,所以作者在目標(biāo)函數(shù)中提到了這一項(xiàng)。

這個(gè)網(wǎng)絡(luò)又可以看成是幾個(gè)子網(wǎng)絡(luò)的結(jié)合,作者總結(jié)如下:

在實(shí)驗(yàn)部分也進(jìn)行了不同組合形式的實(shí)驗(yàn)結(jié)果以驗(yàn)證每一部分的作用:

作者:但愿逍遙仙兒 鏈接:http://www.jianshu.com/p/60804d9aeb77 來源:簡書

著作權(quán)歸作者所有。商業(yè)轉(zhuǎn)載請聯(lián)系作者獲得授權(quán),非商業(yè)轉(zhuǎn)載請注明出處。

總結(jié)

以上是生活随笔為你收集整理的GAN——UNIT简单梳理的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。