日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 人工智能 > pytorch >内容正文

pytorch

旋钮编码器c代码_人脸合成效果媲美StyleGAN,而它是个自编码器

發(fā)布時(shí)間:2024/9/15 pytorch 56 豆豆
生活随笔 收集整理的這篇文章主要介紹了 旋钮编码器c代码_人脸合成效果媲美StyleGAN,而它是个自编码器 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

機(jī)器之心報(bào)道

參與:魔王

自編碼器(AE)與生成對(duì)抗網(wǎng)絡(luò)(GAN)是復(fù)雜分布上無(wú)監(jiān)督學(xué)習(xí)最具前景的兩類(lèi)方法,它們也經(jīng)常被拿來(lái)比較。人們通常認(rèn)為自編碼器在圖像生成上的應(yīng)用范圍比 GAN 窄,那么自編碼器到底能不能具備與 GAN 同等的生成能力呢?這篇研究提出的新型自編碼器 ALAE 可以給你答案。目前,該論文已被 CVPR 2020 會(huì)議接收。

論文地址:https://arxiv.org/pdf/2004.04467.pdf

GitHub 地址:https://github.com/podgorskiy/ALAE

自編碼器是一種無(wú)監(jiān)督方法,它通過(guò)同時(shí)學(xué)習(xí)編碼器-生成器圖將「生成性」和「表征性」結(jié)合起來(lái)。關(guān)于自編碼器有兩個(gè)疑問(wèn)尚未得到解決:

自編碼器是否具備和 GAN 同等的生成能力?

自編碼器能否學(xué)習(xí)解耦表征(disentangled representation)?

最近,來(lái)自美國(guó)西弗吉尼亞大學(xué)的研究者提出一種新型自編碼器 Adversarial Latent Autoencoder (ALAE),試圖解決以上問(wèn)題。ALAE 是一個(gè)通用架構(gòu),它能夠利用近期 GAN 在訓(xùn)練方面的改進(jìn)。研究者表示 ALAE 具備與 GAN 相當(dāng)?shù)纳赡芰?#xff0c;且能夠?qū)W習(xí)解耦表征。

利用 ALAE 通用架構(gòu),該研究設(shè)計(jì)了兩個(gè)自編碼器:一種基于 MLP 編碼器,另一種基于 StyleGAN 生成器,即 StyleALAE。

研究者對(duì)這兩個(gè)架構(gòu)的解耦能力進(jìn)行了驗(yàn)證,發(fā)現(xiàn) StyleALAE 不僅能夠生成與 StyleGAN 生成質(zhì)量相當(dāng)?shù)?1024x1024 人臉圖像,在同樣分辨率條件下,它還可以基于真實(shí)圖像生成人臉重建和操縱結(jié)果。

研究者認(rèn)為,ALAE 是首個(gè)性能匹配甚至超過(guò)生成器架構(gòu)的自編碼器

ALAE 到底效果如何呢?我們來(lái)看展示圖:

StyleALAE 的風(fēng)格混合效果。

感興趣的讀者可以自己運(yùn)行 demo,不過(guò)你需要 CUDA capable GPU、v1.3.1 及以上版本的 PyTorch 和 cuda/cuDNN 驅(qū)動(dòng),詳情參見(jiàn) GitHub 地址。

新型通用自編碼器 ALAE

研究者觀察到每個(gè) AE 方法都使用同樣的假設(shè):潛在空間的概率分布應(yīng)與先驗(yàn)相關(guān),自編碼器應(yīng)該與之匹配。而 StyleGAN 相關(guān)論文證明,中間潛在空間應(yīng)當(dāng)具備更好的解耦能力。

于是研究者通過(guò)修改原始 GAN 范式設(shè)計(jì)了一種新型 AE 架構(gòu):

允許基于數(shù)據(jù)學(xué)得的潛在分布解決耦合問(wèn)題 (A),并使用對(duì)抗策略學(xué)習(xí)輸出數(shù)據(jù)分布 (B),以保留 GAN 的生成能力;為了實(shí)現(xiàn) (A) 和 (B),該研究提出將 AE reciprocity 置于潛在空間中 (C),以避免使用在數(shù)據(jù)空間中運(yùn)行的基于簡(jiǎn)單 l_2 范數(shù)的重建損失(對(duì)于圖像空間來(lái)說(shuō)它們通常是次優(yōu)選擇)。

如下圖 1 所示,研究者將生成器 G 和判別器 D 分別分解成兩個(gè)網(wǎng)絡(luò):F、G 和 E、D。

圖 1:ALAE 架構(gòu)。

此外,研究者還展示了 ALAE 與其他自編碼器的關(guān)聯(lián),詳見(jiàn)下表:

StyleALAE

研究者使用 ALAE 構(gòu)建了一個(gè)自編碼器,該自編碼器使用的是基于 StyleGAN 的生成器。具體架構(gòu)如下圖 2 所示:

圖 2:StyleALAE 架構(gòu)。StyleALAE 編碼器中的實(shí)例歸一化(IN)層用來(lái)提取多尺度風(fēng)格信息,并通過(guò)可學(xué)習(xí)的多重線性映射(multilinear map)將它們組合成為一個(gè)潛在代碼 w。

實(shí)現(xiàn)

ALAE 的算法訓(xùn)練過(guò)程參見(jiàn)下圖:

ALAE 效果如何?

該研究在多個(gè)數(shù)據(jù)集上評(píng)估了 ALAE 的性能,實(shí)驗(yàn)代碼和數(shù)據(jù)參見(jiàn) GitHub 地址。

在 MNIST 上的性能

研究者使用 MNIST 數(shù)據(jù)集訓(xùn)練 ALAE,并使用特征表示來(lái)執(zhí)行分類(lèi)、重建和分析解耦能力的任務(wù)。

表 2:不同方法在 MNIST 分類(lèi)任務(wù)上的性能。

圖 3:MNIST 重建效果。

StyleALAE 學(xué)習(xí)風(fēng)格表征的能力

研究者在 FFHQ、LSUN 和 CelebA-HQ 數(shù)據(jù)集上評(píng)估 StyleALAE 的性能。

表 3:不同方法在 FFHQ 和 LSUN 數(shù)據(jù)集上的 FID 分?jǐn)?shù)。

表 4:不同方法的感知路徑長(zhǎng)度(PPL),表示表征解耦程度。

圖 5:FFHQ 重建結(jié)果。StyleALAE 對(duì)未見(jiàn)過(guò)的圖像的 1024×1024 重建結(jié)果。

圖 6:StyleALAE 的 FFHQ 生成結(jié)果(1024 × 1024 分辨率)。

圖 9:StyleALAE 的風(fēng)格混合效果。「coarse styles」從 Source 圖像中復(fù)制了高級(jí)特征,如姿勢(shì)、大致發(fā)型和臉型,從 Destination 圖像中復(fù)制了所有顏色(眸色、發(fā)色和光照);「middle styles」從 Source 圖像中復(fù)制了較小型的面部特征例如發(fā)式、眼睛睜/閉,從 Destination 圖像中復(fù)制了臉型;「fine styles」從 Source 圖像中復(fù)制了顏色和微結(jié)構(gòu)。

圖 8:不同方法在 CelebA-HQ 數(shù)據(jù)集上的重建結(jié)果。第一行是真實(shí)圖像;第二行:StyleALAE;第三行:Balanced PIONEER;第四行:PIONEER。

從圖中可以看出,StyleALAE 的生成結(jié)果更加清晰,失真度也最低。

總結(jié)

以上是生活随笔為你收集整理的旋钮编码器c代码_人脸合成效果媲美StyleGAN,而它是个自编码器的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。