日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

GAN应用汇总

發(fā)布時間:2023/12/10 编程问答 42 豆豆
生活随笔 收集整理的這篇文章主要介紹了 GAN应用汇总 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

GAN的應(yīng)用匯總(持續(xù)更新)


前言:


GAN全稱是Generator adversarial networks,中文是生成對抗網(wǎng)絡(luò),是一種生成式模型,由good fellow在14年提出,近四年來被AI研究者瘋狂研(guan)究(shui),更有大神建立一個GAN zoo,收集了上百種不同的GAN:https://github.com/hindupuravinash/the-gan-zoo
事實(shí)上隨著GAN理論的不斷完善,GAN逐漸展現(xiàn)出了自己非凡的魅力,在一些應(yīng)用領(lǐng)域開始大放異彩,由此衍生了一些非常fancy的應(yīng)用。本文對其中的一部分做一些匯總展示給讀者,希望在枯燥的科研生活之余給讀者一些消遣。

注:本文不牽涉復(fù)雜的公式說明,旨在用結(jié)果展示GAN的應(yīng)用場景,文中包含大量的圖片。

圖像生成


前言里提到了GAN是一個生成模型,可以用來生成圖像、音頻等等,生成質(zhì)量逐年增加,看下圖:


從32x32分辨率生成都困難的GAN,到生成2K真假難辨高清分辨率圖像的proGAN,GAN正在發(fā)揮著自己獨(dú)特的優(yōu)勢,并且逐漸滲透到二次元領(lǐng)域。

上圖是同濟(jì)大學(xué)的一個工作,生成二次元軟妹子。
不僅僅作用于圖像,GAN用來生成3D目標(biāo)和音樂上也是不含糊:


說到這里,就可能有一些疑問,圖像生成除了養(yǎng)眼,究竟有什么用呢,事實(shí)上用處還是很廣泛的,比如可以用來制作海報,自己用來生成一個高清美女圖像作為海報主角,省了一大批廣告費(fèi)。

圖像轉(zhuǎn)換


圖像轉(zhuǎn)換或者說是圖像翻譯,是將圖像轉(zhuǎn)換為另一種形式的圖像,與風(fēng)格遷移稍有不同,這方面典型的工作是pixel-2-pixel

一般的GAN的生成器G輸入是一個隨機(jī)向量,輸出的是圖像,這里的生成器的輸入是圖像,輸出的是轉(zhuǎn)換后的圖像。
感興趣的可以玩一下pix2pix的demo,還是很有趣的:https://affinelayer.com/pixsrv/

說到這里,就需要提到cycle-GAN了,可以實(shí)現(xiàn)風(fēng)景畫和油畫互變,馬和斑馬互相轉(zhuǎn)換等domain transfer等任務(wù),更多有意思的變化可以在論文主頁上看到:https://junyanz.github.io/CycleGAN/,cycleGAN的主要貢獻(xiàn)是提供了一種無監(jiān)督的圖像翻譯方法,這是pix2pix所做不到的

除了cycleGAN還有一篇和其比較相似的論文,就是DiscoGAN,DiscoGAN在不需要label標(biāo)記和圖像pairing的情況下學(xué)習(xí)交叉domain之間的聯(lián)系,比如它可以將包包的圖像風(fēng)格遷移到鞋子的圖像上,效果上圖:

事實(shí)上,理工科的可愛的研究員們可不會僅滿足于此,他們更希望全世界充滿笑容,于是用cycleGAN給冷酷大哥加上笑容,將人臉圖像轉(zhuǎn)換為卡通圖像,類似之前很火的臉萌APP,這個工作見DTN(https://arxiv.org/pdf/1611.02200.pdf)。

圖像合成


圖像合成這個任務(wù)是通過某種形式的圖像描述創(chuàng)建新圖像的過程。pix2pix和cycleGAN 都屬于圖像合成領(lǐng)域的一部分。圖像合成也有一些典型的工作,并且有很nice的應(yīng)用場景。

場景合成

首先,第一個場景合成,此部分在于如何給定部分顯示場景的信息還原出真實(shí)的場景信息,比如根據(jù)分割圖像還原出原始場景信息,剛好是圖像分割的逆過程,據(jù)說英偉達(dá)在不斷的開拓這個方向,試想一下,只要GAN還原的場景足夠真實(shí),完全可以模擬無人駕駛的路況場景,從而在實(shí)驗室階段就可以完成無人駕駛汽車的上路測試工作,很nice的一個應(yīng)用,但是面對的問題就是如何生成高分辨率的和足夠真實(shí)的圖像,此部分工作可以見pix2pixHD。

人臉合成

人臉合成主要是根據(jù)一張人臉的圖像,合成出不同角度的人臉圖像,可以用做人臉對齊,姿態(tài)轉(zhuǎn)換等輔助手段提高人臉識別的精度,典型的工作是中科院的TP-GAN,可以根據(jù)半邊人臉生成整張人臉的前向圖,對人臉識別任務(wù)有很大的輔助效果。

文本到圖像的合成

這個方向是NLP與CV碰撞的結(jié)果,任務(wù)描述為:從給定的一段文字描述,生成一張和圖像文字匹配的圖像。比如:根據(jù)文字:一只黑色冠冕和黃色喙的白色的鳥,生成下面的這張圖像;

類似的工作還有stack GAN和attn GAN:https://arxiv.org/abs/1711.10485,后者更是在細(xì)粒度的text-to-image上做了一番功夫。

風(fēng)格遷移

效果看上去很nice,此部分的工作是:Precomputed Real-Time Texture Synthesis with Markovian Generative Adversarial Networks,作者發(fā)明了一種馬爾可夫GAN遷移圖像的風(fēng)格,算是不錯的貢獻(xiàn)了。

20年后的肖像

想不想知道自己20年后長什么樣子呢,Age-cGAN可以告訴我們答案,只要有一張年輕時候的照片,就可以提前知道自己幾十年之后的樣子,還是蠻期待的,這個方向之前有朋友做過,生成了一張50歲的韓庚的樣子,效果還不錯。

圖像超分辨率


圖像超分辨率一直是一個很重要的研究課題,比較重要的是對天文圖像和衛(wèi)星圖像做超分辨率,不管是在天文,軍事還是其他方面,都有很重要的應(yīng)用。在生活中,如果有標(biāo)清的視頻可以變?yōu)楦咔宓囊曨l,我相信很多人還是很樂意的,下圖是超分之后的七龍珠和原版的七龍珠視頻。


上述過程都是可逆的,既然可以增加圖像的分辨率,那么同樣可以減小圖像的分辨率。既然都說到了圖像超分辨率,那么就談?wù)剤D像去馬賽克的一些操作,知乎一位大佬集圖像轉(zhuǎn)化和超分辨率之大成,完成了對愛情動作片的添加和去除馬賽克操作,詳情請移步知乎:https://zhuanlan.zhihu.com/p/27199954,36k的高贊文章,相信可以從中學(xué)到一些知識。

圖像域的轉(zhuǎn)換


GAN很適合學(xué)習(xí)數(shù)據(jù)的分布(只要是數(shù)據(jù)是連續(xù)的,對于離散的文本數(shù)據(jù)效果不是很好),同時也能完成domain轉(zhuǎn)換的任務(wù),比如使用GAN完成domain的遷移,此部分有比較典型的工作,CVPR的oral論文StarGAN是其中一個。Pix2Pix模型解決了有Pair對數(shù)據(jù)的圖像翻譯問題;CycleGAN解決了Unpaired數(shù)據(jù)下的圖像翻譯問題。但無論是Pix2Pix還是CycleGAN,都是解決了一對一的問題,即一個domain到另一個domain的轉(zhuǎn)換。StarGAN就是在多個domain之間進(jìn)行轉(zhuǎn)換的方法。可以做多個圖像翻譯任務(wù),比如更換頭發(fā)顏色,表情變化,年齡變換等等,文章公布了代碼:https://github.com/yunjey/StarGAN。

另外一個比較有意思的domain轉(zhuǎn)換的是穿衣搭配問題,詳細(xì)工作可見PixelDTGAN: https://github.com/fxia22/PixelDTGAN PixelDTGAN是指像素級的domain 轉(zhuǎn)換,輸入的是一張復(fù)雜的圖片,輸出的是不包含背景的單純的服飾的圖像,下圖中第一行是數(shù)據(jù)集中的例子,第二行是左圖是輸入圖像,右圖是輸出的效果。

感覺這個工作反過來就可以做穿衣搭配問題了,之前有個工作是穿衣搭配的,還被iangood fellow轉(zhuǎn)發(fā)在了twitter上,奈何現(xiàn)在找不到這個內(nèi)容了。穿衣搭配也可以看為是conditioned image generation,不過更加復(fù)雜。

圖像修復(fù)


圖像修復(fù)

GAN在圖像修復(fù)(image inpainting)上絕對是大放異彩了,Generative Image Inpainting with Contextual Attention是其中一個

英偉達(dá)最新的研究成果(Image Inpainting for Irregular Holes Using Partial Convolutions)是目前的state-of-art,給定一張缺失的圖像,修復(fù)出完整的圖像,下面左圖為待修復(fù)圖像,右圖為修復(fù)好的圖像。


之前借助GAN做過一段時間的image inpainting,奈何實(shí)驗結(jié)果的更新速度總比不上arxiv上inpainting論文的更新速度。

MaskGAN


GAN在圖像領(lǐng)域建樹頗多,但是在文本領(lǐng)域作用并不是很大,主要是NLP中的詞的數(shù)據(jù)都是離散數(shù)據(jù),GAN不適合學(xué)習(xí)離散的數(shù)據(jù)分布,但是并不意味著沒法學(xué),Google brain的團(tuán)隊發(fā)明了一個結(jié)合強(qiáng)化學(xué)習(xí)的MaskGAN,可以用作完型填空,具體任務(wù)是補(bǔ)全句子中的缺失部分。

不得不說,作者起名字也是很有水平,論文的標(biāo)題竟然空了一個單詞,使用下劃線來代替。

其他


另外,有研究者們希望將GAN的學(xué)習(xí)方式和學(xué)習(xí)能力用在藥學(xué)分子和材料學(xué)領(lǐng)域,用來生成藥學(xué)分子結(jié)構(gòu)和合成新材料配方,不得不說,這相當(dāng)?shù)挠袆?chuàng)意,如果真的能完成的話,那么AI將無所不能。

上文總結(jié)的GAN應(yīng)用并不包含所有的工作,舉得例子也很有限,另外有GAN用在視頻預(yù)測,視頻生成等領(lǐng)域的,在目標(biāo)檢測、行人識別、重定位上也有輔助作用,了解有限,不詳細(xì)展開,讀者有意可自行Google查詢。

參考文獻(xiàn)

【1】Towards the Automatic Anime Characters Creation with Generative Adversarial Networks
【2】 https://arxiv.org/pdf/1710.10196.pdf
【3】 http://papers.nips.cc/paper/6096-learning-a-probabilistic-latent-space-of-object-shapes-via-3d-generative-adversarial-modeling.pdf
【4】https://arxiv.org/pdf/1703.10847.pdf
【5】pix2pix https://affinelayer.com/pixsrv/
【6】CycleGAN https://arxiv.org/pdf/1703.10593.pdf
【7】DiscoGAN https://github.com/carpedm20/DiscoGAN-pytorch
【8】TPGAN https://arxiv.org/pdf/1704.04086.pdf
【9】pix2pix HD https://tcwang0509.github.io/pix2pixHD/
【10】stackGAN https://arxiv.org/pdf/1612.03242.pdf
【11】AttnGAN https://arxiv.org/abs/1711.10485
【12】DTN https://arxiv.org/pdf/1611.02200.pdf
【13】MGAN https://arxiv.org/pdf/1604.04382.pdf
【14】Age-cGAN https://arxiv.org/pdf/1702.01983.pdf
【15】StarGAN https://arxiv.org/abs/1711.09020
【16】image inpainting https://arxiv.org/abs/1804.07723
【17】MaskGAN https://arxiv.org/abs/1801.07736

我的博客即將搬運(yùn)同步至騰訊云+社區(qū),邀請大家一同入駐:https://cloud.tencent.com/developer/support-plan?invite_code=4anlkywq6dz1

總結(jié)

以上是生活随笔為你收集整理的GAN应用汇总的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。