日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

利用条件GANs的pix2pix进化版:高分辨率图像合成和语义操作 | PaperDaily #23

發(fā)布時(shí)間:2024/10/8 编程问答 35 豆豆
生活随笔 收集整理的這篇文章主要介紹了 利用条件GANs的pix2pix进化版:高分辨率图像合成和语义操作 | PaperDaily #23 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.




在碎片化閱讀充斥眼球的時(shí)代,越來(lái)越少的人會(huì)去關(guān)注每篇論文背后的探索和思考。


在這個(gè)欄目里,你會(huì)快速 get 每篇精選論文的亮點(diǎn)和痛點(diǎn),時(shí)刻緊跟 AI 前沿成果。


點(diǎn)擊本文底部的「閱讀原文」即刻加入社區(qū),查看更多最新論文推薦。

這是 PaperDaily 的第?23?篇文章

本期推薦的論文筆記來(lái)自 PaperWeekly 社區(qū)用戶 @Aidon。這個(gè)名為 pix2pixHD 的項(xiàng)目來(lái)自英偉達(dá)和 UC Berkeley,用條件 GAN 進(jìn)行 2048 x 1024 分辨率的圖像合成和處理。

本文從三個(gè)方面對(duì) pix2pix 方法做了改進(jìn),還將他們的方法擴(kuò)展到交互式語(yǔ)義操作,這對(duì)于傳統(tǒng)的圖像逼真渲染是一個(gè)顛覆性的工作。

如果你對(duì)本文工作感興趣,點(diǎn)擊底部的閱讀原文即可查看原論文。

關(guān)于作者:鄭琪,華中科技大學(xué)碩士生,研究方向?yàn)橛?jì)算機(jī)視覺(jué)和自然語(yǔ)言處理。


■?論文 | High-Resolution Image Synthesis and Semantic Manipulation with Conditional GANs

■ 鏈接 | https://www.paperweekly.site/papers/1278

■ 作者 | Aidon


論文導(dǎo)讀


現(xiàn)有的用于圖像逼真渲染的圖形學(xué)技術(shù),在構(gòu)建和編輯虛擬環(huán)境時(shí)往往非常復(fù)雜并且耗時(shí),因?yàn)榭坍?huà)真實(shí)的世界要考慮的方面太多。


如果我們可以從數(shù)據(jù)中學(xué)習(xí)出一個(gè)模型,將圖形渲染的問(wèn)題變成模型學(xué)習(xí)和推理的問(wèn)題,那么當(dāng)我們需要?jiǎng)?chuàng)造新的虛擬環(huán)境時(shí),只需要在新的數(shù)據(jù)上訓(xùn)練我們的模型即可。

之前的一些利用語(yǔ)義標(biāo)簽合成圖像的工作存在兩個(gè)主要問(wèn)題:1. 難以用 GANs 生成高分辨率圖像(比如 pix2pix 方法);2. 相比于真實(shí)圖像,生成的圖像往往缺少一些細(xì)節(jié)和逼真的紋理。

本文從三個(gè)方面對(duì) pix2pix 方法做了改進(jìn):一個(gè) coarse-to-fine 生成器,一個(gè) multi-scale 判別器和一個(gè)魯棒的 loss,從而成功合成出 2048 x 1024 的逼真圖像。此外,本文還將他們的方法擴(kuò)展到交互式語(yǔ)義操作,這對(duì)于傳統(tǒng)的圖像逼真渲染是一個(gè)顛覆性的工作。


模型介紹


1. The pix2pix Baseline?

給定語(yǔ)義標(biāo)簽圖和對(duì)應(yīng)的真實(shí)照片集 (si,xi),該模型中的生成器用于從語(yǔ)義標(biāo)簽圖生成出真實(shí)圖像,而判別器用于區(qū)分真實(shí)圖像和生成的圖像,該條件GANs對(duì)應(yīng)的優(yōu)化問(wèn)題如下:

其中:


pix2pix 采用 U-Net 作為生成器,在 Cityscapes 數(shù)據(jù)集上生成的圖像分辨率最高只有 256 x 256。

2. Coarse-to-fine 生成器?

這里一個(gè)基本的想法是將生成器拆分成兩個(gè)子網(wǎng)絡(luò) G={G1,G2}:全局生成器網(wǎng)絡(luò) G1 和局部增強(qiáng)網(wǎng)絡(luò) G2,前者輸入和輸出的分辨率保持一致(如 1024 x 512),后者輸出尺寸(2048 x 1024)是輸入尺寸(1024 x 512)的 4 倍(長(zhǎng)寬各兩倍)。

以此類(lèi)推,如果想要得到更高分辨率的圖像,只需要增加更多的局部增強(qiáng)網(wǎng)絡(luò)即可(如 G={G1,G2,G3}),具體的網(wǎng)絡(luò)結(jié)構(gòu)如圖所示:



其中 G1 由卷積前端,一系列殘差塊和一個(gè)轉(zhuǎn)置卷積后端組成,G2 也由卷積前端,一系列殘差塊和一個(gè)轉(zhuǎn)置卷積(有時(shí)也叫反卷積)后端組成。從圖中可以看到,的輸入是由的輸出和最后一層的 feature map 相加得到,這樣就使得全局信息可以傳遞到 G2

3. Multi-scale 判別器?

要在高分辨率下區(qū)分真實(shí)的與合成的圖像,就要求判別器有很大的感受野,這需要更深的網(wǎng)絡(luò)或者更大的卷積核才能實(shí)現(xiàn),而這兩種選擇都會(huì)增加網(wǎng)絡(luò)容量從而使網(wǎng)絡(luò)更容易產(chǎn)生過(guò)擬合問(wèn)題,并且訓(xùn)練所需的存儲(chǔ)空間也會(huì)增大。

這里用 3 個(gè)判別器 {D1,D2,D3} 來(lái)處理不同尺度的圖像,它們具有相同的網(wǎng)絡(luò)結(jié)構(gòu):

4. 改進(jìn)的 adversarial loss?

由于生成器要產(chǎn)生不同尺度的圖像,為使訓(xùn)練更加穩(wěn)定,這里引入特征匹配損失:

其中表示判別器 Dk 提取的第 i 層特征,T 為總的層數(shù),Ni 為該層總元素的個(gè)數(shù)。于是,總的目標(biāo)函數(shù)如下:

5. 學(xué)習(xí) instance-level 的特征嵌入?

當(dāng)前的圖像合成方法都只利用了 pixel-level 的語(yǔ)義標(biāo)簽圖,這樣無(wú)法區(qū)分同類(lèi)物體,而 instance-level 的語(yǔ)義標(biāo)簽為每一個(gè)單獨(dú)的物體提供了唯一的標(biāo)簽。

文章指出,示例圖(instance map)所提供的最重要的信息其實(shí)是物體的邊緣。所以本文首先計(jì)算出示例邊緣圖(instance boundary map),如圖所示:



然后將語(yǔ)義標(biāo)簽圖和示例邊緣圖連接起來(lái),輸入到生成器網(wǎng)絡(luò)中。?

考慮到一個(gè)理想的圖像合成算法應(yīng)該能夠從同一個(gè)語(yǔ)義標(biāo)簽圖產(chǎn)生出多種逼真的圖像,而現(xiàn)有的方法無(wú)法讓用戶直觀地控制產(chǎn)生什么樣的圖像,并且不允許 object-level 的控制,于是本文提出將額外的低維特征也輸入到生成器網(wǎng)絡(luò)中。

為此,需要訓(xùn)練一個(gè)編碼器網(wǎng)絡(luò) E,用于確定與真實(shí)圖像中每個(gè)目標(biāo)示例的低維特征向量,以 G(s,E(x)) 代替之前的 G(s),如圖所示:



在編碼器訓(xùn)練好之后,輸入訓(xùn)練圖像,找出圖像中的所有示例,并記錄對(duì)應(yīng)的特征。然后利用 KK-means 聚類(lèi)得到每一個(gè)語(yǔ)義類(lèi)別的特征編碼。推斷時(shí),隨機(jī)選取一個(gè)聚類(lèi)中心作為編碼特征,與之前的標(biāo)簽圖連接輸入到生成器網(wǎng)絡(luò)中。


實(shí)驗(yàn)結(jié)果


實(shí)驗(yàn)中設(shè)置 λ=10,K=10,用 3 維向量對(duì)示例特征進(jìn)行編碼,采樣 LSGANs 用于穩(wěn)定訓(xùn)練。實(shí)驗(yàn)比較了不同的圖像合成算法,包括 pix2pix 和 CRN,還比較了加入感知損失(w/o VGG)的結(jié)果,其中 F(i) 表示 VGG 網(wǎng)絡(luò)的第 i 層。


在 Cityscapes 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果如下:

在 NYU Indoor RGBD 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果如下:

更多關(guān)于的實(shí)驗(yàn)結(jié)果可以閱讀原文或者訪問(wèn) project 網(wǎng)頁(yè):

https://tcwang0509.github.io/pix2pixHD/


總結(jié)


本文提出了一個(gè)有通用性的基于條件 GANs 的網(wǎng)絡(luò)框架,用于高分辨率圖像合成和語(yǔ)義操作。相比于 pix2pix,本文在語(yǔ)義分割結(jié)果和圖像合成的清晰度以及細(xì)節(jié)上都有了很大的提升。


本文由 AI 學(xué)術(shù)社區(qū) PaperWeekly 精選推薦,社區(qū)目前已覆蓋自然語(yǔ)言處理、計(jì)算機(jī)視覺(jué)、人工智能、機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘和信息檢索等研究方向,點(diǎn)擊「閱讀原文」即刻加入社區(qū)!

? ? ? ? ??

?我是彩蛋


?PaperWeekly x 百度


深度學(xué)習(xí)有獎(jiǎng)?wù){(diào)研


你最喜歡的深度學(xué)習(xí)框架是...


TensorFlow? PyTorch? Caffe?

?

?獎(jiǎng)品福利?


我們將從認(rèn)真作答的同學(xué)中抽取50名

贈(zèng)送限量版禮品一份作為答謝

?

長(zhǎng)按識(shí)別二維碼,參與調(diào)研

*本次活動(dòng)獎(jiǎng)品由百度提供




關(guān)于PaperWeekly


PaperWeekly 是一個(gè)推薦、解讀、討論、報(bào)道人工智能前沿論文成果的學(xué)術(shù)平臺(tái)。如果你研究或從事 AI 領(lǐng)域,歡迎在公眾號(hào)后臺(tái)點(diǎn)擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。


▽ 點(diǎn)擊 |?閱讀原文?| 查看原論文

與50位技術(shù)專(zhuān)家面對(duì)面20年技術(shù)見(jiàn)證,附贈(zèng)技術(shù)全景圖

總結(jié)

以上是生活随笔為你收集整理的利用条件GANs的pix2pix进化版:高分辨率图像合成和语义操作 | PaperDaily #23的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。