利用条件GANs的pix2pix进化版:高分辨率图像合成和语义操作 | PaperDaily #23
在碎片化閱讀充斥眼球的時(shí)代,越來(lái)越少的人會(huì)去關(guān)注每篇論文背后的探索和思考。
在這個(gè)欄目里,你會(huì)快速 get 每篇精選論文的亮點(diǎn)和痛點(diǎn),時(shí)刻緊跟 AI 前沿成果。
點(diǎn)擊本文底部的「閱讀原文」即刻加入社區(qū),查看更多最新論文推薦。
這是 PaperDaily 的第?23?篇文章本期推薦的論文筆記來(lái)自 PaperWeekly 社區(qū)用戶 @Aidon。這個(gè)名為 pix2pixHD 的項(xiàng)目來(lái)自英偉達(dá)和 UC Berkeley,利用條件 GAN 進(jìn)行 2048 x 1024 分辨率的圖像合成和處理。
本文從三個(gè)方面對(duì) pix2pix 方法做了改進(jìn),還將他們的方法擴(kuò)展到交互式語(yǔ)義操作,這對(duì)于傳統(tǒng)的圖像逼真渲染是一個(gè)顛覆性的工作。
如果你對(duì)本文工作感興趣,點(diǎn)擊底部的閱讀原文即可查看原論文。
關(guān)于作者:鄭琪,華中科技大學(xué)碩士生,研究方向?yàn)橛?jì)算機(jī)視覺(jué)和自然語(yǔ)言處理。
■?論文 | High-Resolution Image Synthesis and Semantic Manipulation with Conditional GANs
■ 鏈接 | https://www.paperweekly.site/papers/1278
■ 作者 | Aidon
論文導(dǎo)讀
現(xiàn)有的用于圖像逼真渲染的圖形學(xué)技術(shù),在構(gòu)建和編輯虛擬環(huán)境時(shí)往往非常復(fù)雜并且耗時(shí),因?yàn)榭坍?huà)真實(shí)的世界要考慮的方面太多。
如果我們可以從數(shù)據(jù)中學(xué)習(xí)出一個(gè)模型,將圖形渲染的問(wèn)題變成模型學(xué)習(xí)和推理的問(wèn)題,那么當(dāng)我們需要?jiǎng)?chuàng)造新的虛擬環(huán)境時(shí),只需要在新的數(shù)據(jù)上訓(xùn)練我們的模型即可。
之前的一些利用語(yǔ)義標(biāo)簽合成圖像的工作存在兩個(gè)主要問(wèn)題:1. 難以用 GANs 生成高分辨率圖像(比如 pix2pix 方法);2. 相比于真實(shí)圖像,生成的圖像往往缺少一些細(xì)節(jié)和逼真的紋理。
本文從三個(gè)方面對(duì) pix2pix 方法做了改進(jìn):一個(gè) coarse-to-fine 生成器,一個(gè) multi-scale 判別器和一個(gè)魯棒的 loss,從而成功合成出 2048 x 1024 的逼真圖像。此外,本文還將他們的方法擴(kuò)展到交互式語(yǔ)義操作,這對(duì)于傳統(tǒng)的圖像逼真渲染是一個(gè)顛覆性的工作。
模型介紹
1. The pix2pix Baseline?
給定語(yǔ)義標(biāo)簽圖和對(duì)應(yīng)的真實(shí)照片集 (si,xi),該模型中的生成器用于從語(yǔ)義標(biāo)簽圖生成出真實(shí)圖像,而判別器用于區(qū)分真實(shí)圖像和生成的圖像,該條件GANs對(duì)應(yīng)的優(yōu)化問(wèn)題如下:
其中:
pix2pix 采用 U-Net 作為生成器,在 Cityscapes 數(shù)據(jù)集上生成的圖像分辨率最高只有 256 x 256。
2. Coarse-to-fine 生成器?
這里一個(gè)基本的想法是將生成器拆分成兩個(gè)子網(wǎng)絡(luò) G={G1,G2}:全局生成器網(wǎng)絡(luò) G1 和局部增強(qiáng)網(wǎng)絡(luò) G2,前者輸入和輸出的分辨率保持一致(如 1024 x 512),后者輸出尺寸(2048 x 1024)是輸入尺寸(1024 x 512)的 4 倍(長(zhǎng)寬各兩倍)。
以此類(lèi)推,如果想要得到更高分辨率的圖像,只需要增加更多的局部增強(qiáng)網(wǎng)絡(luò)即可(如 G={G1,G2,G3}),具體的網(wǎng)絡(luò)結(jié)構(gòu)如圖所示:
其中 G1 由卷積前端,一系列殘差塊和一個(gè)轉(zhuǎn)置卷積后端組成,G2 也由卷積前端,一系列殘差塊和一個(gè)轉(zhuǎn)置卷積(有時(shí)也叫反卷積)后端組成。從圖中可以看到,的輸入是由的輸出和最后一層的 feature map 相加得到,這樣就使得全局信息可以傳遞到 G2。
3. Multi-scale 判別器?
要在高分辨率下區(qū)分真實(shí)的與合成的圖像,就要求判別器有很大的感受野,這需要更深的網(wǎng)絡(luò)或者更大的卷積核才能實(shí)現(xiàn),而這兩種選擇都會(huì)增加網(wǎng)絡(luò)容量從而使網(wǎng)絡(luò)更容易產(chǎn)生過(guò)擬合問(wèn)題,并且訓(xùn)練所需的存儲(chǔ)空間也會(huì)增大。
這里用 3 個(gè)判別器 {D1,D2,D3} 來(lái)處理不同尺度的圖像,它們具有相同的網(wǎng)絡(luò)結(jié)構(gòu):
4. 改進(jìn)的 adversarial loss?
由于生成器要產(chǎn)生不同尺度的圖像,為使訓(xùn)練更加穩(wěn)定,這里引入特征匹配損失:
其中表示判別器 Dk 提取的第 i 層特征,T 為總的層數(shù),Ni 為該層總元素的個(gè)數(shù)。于是,總的目標(biāo)函數(shù)如下:
5. 學(xué)習(xí) instance-level 的特征嵌入?
當(dāng)前的圖像合成方法都只利用了 pixel-level 的語(yǔ)義標(biāo)簽圖,這樣無(wú)法區(qū)分同類(lèi)物體,而 instance-level 的語(yǔ)義標(biāo)簽為每一個(gè)單獨(dú)的物體提供了唯一的標(biāo)簽。
文章指出,示例圖(instance map)所提供的最重要的信息其實(shí)是物體的邊緣。所以本文首先計(jì)算出示例邊緣圖(instance boundary map),如圖所示:
然后將語(yǔ)義標(biāo)簽圖和示例邊緣圖連接起來(lái),輸入到生成器網(wǎng)絡(luò)中。?
考慮到一個(gè)理想的圖像合成算法應(yīng)該能夠從同一個(gè)語(yǔ)義標(biāo)簽圖產(chǎn)生出多種逼真的圖像,而現(xiàn)有的方法無(wú)法讓用戶直觀地控制產(chǎn)生什么樣的圖像,并且不允許 object-level 的控制,于是本文提出將額外的低維特征也輸入到生成器網(wǎng)絡(luò)中。
為此,需要訓(xùn)練一個(gè)編碼器網(wǎng)絡(luò) E,用于確定與真實(shí)圖像中每個(gè)目標(biāo)示例的低維特征向量,以 G(s,E(x)) 代替之前的 G(s),如圖所示:
在編碼器訓(xùn)練好之后,輸入訓(xùn)練圖像,找出圖像中的所有示例,并記錄對(duì)應(yīng)的特征。然后利用 KK-means 聚類(lèi)得到每一個(gè)語(yǔ)義類(lèi)別的特征編碼。推斷時(shí),隨機(jī)選取一個(gè)聚類(lèi)中心作為編碼特征,與之前的標(biāo)簽圖連接輸入到生成器網(wǎng)絡(luò)中。
實(shí)驗(yàn)結(jié)果
實(shí)驗(yàn)中設(shè)置 λ=10,K=10,用 3 維向量對(duì)示例特征進(jìn)行編碼,采樣 LSGANs 用于穩(wěn)定訓(xùn)練。實(shí)驗(yàn)比較了不同的圖像合成算法,包括 pix2pix 和 CRN,還比較了加入感知損失(w/o VGG)的結(jié)果,其中 F(i) 表示 VGG 網(wǎng)絡(luò)的第 i 層。
在 Cityscapes 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果如下:
在 NYU Indoor RGBD 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果如下:
更多關(guān)于的實(shí)驗(yàn)結(jié)果可以閱讀原文或者訪問(wèn) project 網(wǎng)頁(yè):
https://tcwang0509.github.io/pix2pixHD/
總結(jié)
本文提出了一個(gè)有通用性的基于條件 GANs 的網(wǎng)絡(luò)框架,用于高分辨率圖像合成和語(yǔ)義操作。相比于 pix2pix,本文在語(yǔ)義分割結(jié)果和圖像合成的清晰度以及細(xì)節(jié)上都有了很大的提升。
本文由 AI 學(xué)術(shù)社區(qū) PaperWeekly 精選推薦,社區(qū)目前已覆蓋自然語(yǔ)言處理、計(jì)算機(jī)視覺(jué)、人工智能、機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘和信息檢索等研究方向,點(diǎn)擊「閱讀原文」即刻加入社區(qū)!
? ? ? ? ??
?我是彩蛋
?PaperWeekly x 百度
深度學(xué)習(xí)有獎(jiǎng)?wù){(diào)研
你最喜歡的深度學(xué)習(xí)框架是...
TensorFlow? PyTorch? Caffe?
?
?獎(jiǎng)品福利?
我們將從認(rèn)真作答的同學(xué)中抽取50名
贈(zèng)送限量版禮品一份作為答謝
?
長(zhǎng)按識(shí)別二維碼,參與調(diào)研
*本次活動(dòng)獎(jiǎng)品由百度提供
關(guān)于PaperWeekly
PaperWeekly 是一個(gè)推薦、解讀、討論、報(bào)道人工智能前沿論文成果的學(xué)術(shù)平臺(tái)。如果你研究或從事 AI 領(lǐng)域,歡迎在公眾號(hào)后臺(tái)點(diǎn)擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
▽ 點(diǎn)擊 |?閱讀原文?| 查看原論文
與50位技術(shù)專(zhuān)家面對(duì)面20年技術(shù)見(jiàn)證,附贈(zèng)技術(shù)全景圖總結(jié)
以上是生活随笔為你收集整理的利用条件GANs的pix2pix进化版:高分辨率图像合成和语义操作 | PaperDaily #23的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 亚马逊高级应用科学家熊元骏:人类行为理解
- 下一篇: 当我们谈论「Chatbot」时,我们在读