高糊马赛克秒变高清,表情帝:这还是我吗?
全世界有3.14 %?的人已經(jīng)關(guān)注了
爆炸吧知識(shí)
來(lái)源:機(jī)器之心
參與:魔王、杜偉
有了這個(gè)工具,我們終于能夠看到馬賽克下的那張臉了。
給出一張高糊人臉照片,你能用它做什么?
杜克大學(xué)近期的一項(xiàng)研究可以將高糊人臉照片轉(zhuǎn)換成清晰的面部圖像,而且你完全看不出來(lái)圖像中的人并非真人,而是計(jì)算機(jī)生成的人臉。
此外,這個(gè)名為 PULSE 的方法還可以「有來(lái)有往」,生成的高分辨率照片可以再次降級(jí),回到高糊狀態(tài)。在具體實(shí)現(xiàn)方面,該方法使用了 StyleGAN 來(lái)生成高分辨率圖像。
看起來(lái),PULSE 方法與其他方法相比,展示出了更好的生成效果,清晰度更高,細(xì)節(jié)也更加豐富。
不過(guò),AI 方法「看到」的面部圖像和我們猜測(cè)的似乎存在差別。該項(xiàng)目提供了 Colab 環(huán)境,眾多網(wǎng)友試用后發(fā)現(xiàn)了一些效果不太好的例子。
比如,超級(jí)馬里奧在 PULSE 眼里成了這樣:
我有點(diǎn)不敢玩這款游戲了……
奧巴馬似乎變年輕了,好像也變白了,但這還是奧巴馬嗎?
表情包界王者也突然變了模樣:
?想必此時(shí)表情包主角的內(nèi)心是:
有網(wǎng)友質(zhì)疑該方法生成結(jié)果存在偏見(jiàn),尤其是對(duì)黑人圖像的處理效果并不好。對(duì)此,項(xiàng)目作者給出了回應(yīng):
PULSE 生成白人面部圖像的頻率確實(shí)要高于有色人種的面部圖像。這一偏見(jiàn)很可能來(lái)自于 StyleGAN 的訓(xùn)練數(shù)據(jù)集,可能還有其他未知因素。我們意識(shí)到偏見(jiàn)是機(jī)器學(xué)習(xí)和計(jì)算機(jī)視覺(jué)領(lǐng)域的重要問(wèn)題,并就此問(wèn)題聯(lián)系了 StyleGAN 和 FFHQ 數(shù)據(jù)集的創(chuàng)建者。我們希望這能夠促進(jìn)不具備此類偏見(jiàn)行為的方法的誕生。
此外,PULSE 作者強(qiáng)調(diào),該方法最后輸出的高分辨率圖像并非真人。因此,該方法無(wú)法用于識(shí)別或重建原始圖像,大家無(wú)需擔(dān)心該方法會(huì)對(duì)現(xiàn)實(shí)中的人造成困擾。
那么,這個(gè)新方法到底是怎么做的呢?我們來(lái)細(xì)看下。
論文地址:https://arxiv.org/abs/2003.03808
GitHub 地址:https://github.com/adamian98/pulse
網(wǎng)站地址:http://pulse.cs.duke.edu/
Colab 地址:https://colab.research.google.com/github/tg-bomze/Face-Depixelizer/blob/master/Face_Depixelizer_Eng.ipynb
PULSE 開(kāi)啟圖像超分辨率新范式?
單圖像超分辨率任務(wù)即基于低分辨率(LR)輸入生成高分辨率(HR)圖像。之前的方法通常是監(jiān)督式的,其訓(xùn)練目標(biāo)通常是度量超分辨率(SR)和高分辨率圖像之間的像素級(jí)平均距離。而對(duì)此類度量指標(biāo)的優(yōu)化往往導(dǎo)致模糊,尤其是高方差區(qū)域的模糊。
杜克大學(xué)將超分辨率問(wèn)題重構(gòu)為:如何創(chuàng)建可以準(zhǔn)確降級(jí)回去的逼真 SR 圖像。這提供了圖像超分辨率的新范式。
具體來(lái)說(shuō),研究者提出一種新型超分辨率算法 PULSE (Photo Upsampling via Latent Space Exploration),該算法可以生成高分辨率的逼真圖像,分辨率之高超過(guò)之前的方法。
此外,PULSE 是以完全自監(jiān)督的方式進(jìn)行的,且不受限于訓(xùn)練期間使用的特定降級(jí)算子(degradation operator),這與之前的方法有所不同。
PULSE 不從 LR 圖像開(kāi)始緩慢地添加細(xì)節(jié),而是遍歷高分辨率自然圖像流形,搜索可以降級(jí)至原始 LR 圖像的高分辨率圖像。這一過(guò)程通過(guò)「降尺度損失」(downscaling loss)完成,它指引著在生成模型潛在空間中的探索。
此外,研究者利用高維高斯的特性限制搜索空間,使其保證輸出結(jié)果是逼真的。因此,PULSE 得以生成既逼真又能進(jìn)行恰當(dāng)分辨率降級(jí)的超分辨率圖像。
該研究進(jìn)行了大量實(shí)驗(yàn),表明 PULSE 方法在人臉超分辨率領(lǐng)域中的效果。該方法以更高的分辨率和縮放因子(scale factor)超過(guò)了當(dāng)前最優(yōu)方法的感知質(zhì)量。
具體而言,PULSE 可以在幾秒鐘內(nèi)將 16x16 像素圖像轉(zhuǎn)換為 1024 x 1024 像素圖像,添加了一百萬(wàn)像素。此外,它還可以將低分辨率圖像中無(wú)法看清的毛孔、皺紋、頭發(fā)等轉(zhuǎn)換得清晰。
研究者請(qǐng) 40 個(gè)人對(duì) PULSE 和其他五種方法生成的 1440 張圖像進(jìn)行評(píng)分(1-5 分),結(jié)果表明 PULSE 分?jǐn)?shù)最高,接近真人的高質(zhì)量圖像。
PULSE 如何實(shí)現(xiàn)最優(yōu)效果?
研究者首先定義了超分辨率問(wèn)題的術(shù)語(yǔ)。假設(shè)低分辨率圖像為 I_LR,超分辨率方法即學(xué)習(xí)一個(gè)條件生成函數(shù) G,把 G 應(yīng)用于 I_LR 時(shí)可以得到超分辨率圖像 I_SR。
形式上,I_LR ∈ R^m×n。期望函數(shù) SR 是 R^m×n → R^M×N 的映射(M > m, N > n)。于是超分辨率圖像 I_SR ∈ R^M×N 可被定義為:
傳統(tǒng)的超分辨率方法認(rèn)為,低分辨率圖像可以表示與理論上高分辨率圖像 I_HR ∈ R^M×N 相同的信息。然后此類方法試圖基于 I_LR 恢復(fù)特定 I_HR,從而將超分辨率問(wèn)題簡(jiǎn)化為優(yōu)化任務(wù):擬合函數(shù) SR,使下式最小化
然而,在實(shí)踐中,即使得到了正確的訓(xùn)練,這些算法仍無(wú)法提升高方差區(qū)域的細(xì)節(jié)。讓我們通過(guò)修復(fù)低分辨率圖像 I_LR,來(lái)探究其背后的原因。
假設(shè) M 是 R^M×N 中的自然圖像流形,即 R^M×N 的這一子集類似自然逼真圖像;假設(shè) P 是基于 M 的概率分布,用于描述數(shù)據(jù)集中某張圖像出現(xiàn)的概率;假設(shè) R 是分辨率恰當(dāng)降低后的圖像集合,即 R = {I ∈ R^N×M : DS(I) = I_LR}。則隨著數(shù)據(jù)集規(guī)模趨向于無(wú)窮大,算法輸出修復(fù)圖像 I_SR 的期望損失是:
當(dāng) I_SR 是 I_HR(M ∩ R)的 l_p 平均時(shí),損失得到最小化。事實(shí)上,當(dāng) p = 2 時(shí),損失最小化,即
因此,最優(yōu) I_SR 是分辨率恰當(dāng)降低的高分辨率圖像集合的像素級(jí)加權(quán)平均值。因此,這些算法缺乏細(xì)節(jié)僅僅是因?yàn)闊o(wú)法通過(guò)改變網(wǎng)絡(luò)架構(gòu)來(lái)恢復(fù) l_p 范數(shù)。
杜克大學(xué)對(duì)該問(wèn)題進(jìn)行了重新定義,他們提出一種新型單圖像超分辨率框架。對(duì)于 LR 圖像 I_LR ∈ R^m×n 且 ? > 0,杜克大學(xué)研究者旨在找到符合下列條件的圖像 I_SR ∈ M:
具體而言,令 R_?? ? R^N×M 表示分辨率恰當(dāng)降低的圖像集合,即
然后尋找圖像 ISR ∈ M∩R_?。M∩ R_? 是可行解的集合,因?yàn)槿绻玫浇獾姆直媛薀o(wú)法恰當(dāng)降低或者不夠逼真,則它并非可行解。
有趣的是,M∩R_?的交集(尤其是 M ∩ R_0) 不能為空,因?yàn)樗鼈儽仨毎几叻直媛蕡D像(即傳統(tǒng)方法旨在重建的圖像)。
PULSE 的實(shí)驗(yàn)效果如何?
研究者通過(guò)多項(xiàng)實(shí)驗(yàn)對(duì)該算法進(jìn)行評(píng)估,并將重點(diǎn)放在了人臉幻覺(jué)(face hallucination)這一熱點(diǎn)問(wèn)題上。
具體來(lái)說(shuō),研究者利用了 Karras 等人在 Flickr Face HQ (FFHQ) 數(shù)據(jù)集上預(yù)訓(xùn)練的 Face StyleGAN。對(duì)于每個(gè)實(shí)驗(yàn),他們從隨機(jī)初始化開(kāi)始,進(jìn)行了 100 次學(xué)習(xí)率為 0.4 的球面梯度下降迭代。因此,該方法使用單個(gè)英偉達(dá) V100 GPU 生成每張圖像的時(shí)間約為 5 秒。
不同方法的視覺(jué)效果
下圖 5 展示了不同方法生成圖像的視覺(jué)質(zhì)量:
圖 5:PULSE 與雙三次升尺度(bicubic upscaling)、FSRNet 和 FSRGAN 方法的效果對(duì)比。在第一張圖像中,PULSE 在頭發(fā)里添加了一個(gè) messy 圖像塊,以匹配 LR 圖像放大后中間可見(jiàn)的兩個(gè)黑色對(duì)角線像素值。
定量結(jié)果
研究者進(jìn)行了感知超分辨率文獻(xiàn)中常用的 MOS 分?jǐn)?shù)評(píng)估,如下表所示:
表 1:PULSE 與其他幾種方法在 128×128 分辨率上的 MOS 分?jǐn)?shù),其中分?jǐn)?shù)越高效果越好。可以看到,PULSE 的分?jǐn)?shù)最高。
為了提供另一種感知質(zhì)量度量,研究者還對(duì)感知超分辨率問(wèn)題常用的自然圖像質(zhì)量評(píng)價(jià)(Naturalness Image Quality Evaluator, NIQE)分?jǐn)?shù)進(jìn)行了評(píng)估。
具體來(lái)說(shuō),他們對(duì)每種方法在 1024×1024 分辨率上的 NIQE 分?jǐn)?shù)進(jìn)行了評(píng)估,其中輸入分辨率為 16×16,縮放因子為 64。
表 2:每種方法在 1024×1024 分辨率上的 NIQE 分?jǐn)?shù),分?jǐn)?shù)越低效果越好。可以看到,PULSE 的 NIQE 分?jǐn)?shù)最低。
魯棒性
最后,研究者對(duì) PULSE 算法的魯棒性進(jìn)行了評(píng)估。該算法的主要目的是利用已知的降尺度算子來(lái)執(zhí)行感知逼真的超分辨率任務(wù)。
研究者發(fā)現(xiàn),即使對(duì)于各種未知的降尺度算子,該方法都可以使用雙三次降尺度(bicubic downscaling)實(shí)現(xiàn)充分的降級(jí),具體如下圖 6 所示:
圖 6:研究者證實(shí)了利用不同降級(jí)算子時(shí) PULSE 的魯棒性。
版權(quán)歸原作者所有,轉(zhuǎn)載僅供學(xué)習(xí)使用,不用于任何商業(yè)用途,如有侵權(quán)請(qǐng)留言聯(lián)系刪除,感謝合作。
總結(jié)
以上是生活随笔為你收集整理的高糊马赛克秒变高清,表情帝:这还是我吗?的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 她在哭,但我没资格安慰她......
- 下一篇: 我女朋友让我删前任,我明明删了她还是要分