當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

CVPR 2019 | INIT：针对实例级的图像翻译

發(fā)布時(shí)間：2024/10/8 编程问答 60 豆豆

生活随笔收集整理的這篇文章主要介紹了 CVPR 2019 | INIT：针对实例级的图像翻译小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

作者丨薛潔婷

學(xué)校丨北京交通大學(xué)碩士生

研究方向丨圖像翻譯

研究動(dòng)機(jī)

近年來關(guān)于圖像翻譯的研究越來越多，其中比較經(jīng)典的有監(jiān)督模型包括 Pix2Pix, BicycleGAN 等，無監(jiān)督模型包括 CycleGAN, MUNIT, StarGAN, DRIT 等。

由于這些模型無論是針對(duì)多領(lǐng)域翻譯還是單領(lǐng)域翻譯都是將目標(biāo)域圖像的風(fēng)格/屬性整個(gè)遷移到源域圖像上，因此雖然這些方法可以很好的解決風(fēng)格統(tǒng)一或者內(nèi)容相關(guān)的圖像翻譯問題，但對(duì)于有大量實(shí)例物體并且物體與背景之間的風(fēng)格差異非常巨大的復(fù)雜結(jié)構(gòu)圖像翻譯來說是很困難的。

為了解決該問題，作者基于 MUNIT 模型提出了基于端到端的訓(xùn)練模型 INIT，其采用不同的風(fēng)格編碼來獨(dú)立的翻譯圖像中的物體、背景以及全局區(qū)域。

▲?圖1. 現(xiàn)有圖像翻譯模型的局限

模型架構(gòu)

INIT 的網(wǎng)絡(luò)架構(gòu)非常類似于 MUNIT 模型，但不同于 MUNIT 模型，作者提出的模型不僅對(duì)全局圖像進(jìn)行內(nèi)容和屬性編碼，而且還對(duì)實(shí)例物體以及背景也進(jìn)行內(nèi)容-屬性編碼。即首先給定一對(duì)未對(duì)齊的圖像和實(shí)例物體的坐標(biāo)位置，應(yīng)用全局編碼器 Eg 以及局部編碼器 Eo 分別獲取全局圖像和實(shí)例物體圖像內(nèi)容 c 和屬性向量 s，然后通過交換屬性向量來獲取跨域的目標(biāo)實(shí)例對(duì)象圖像，整個(gè)模型的架構(gòu)如下圖所示。

▲?圖2.?INIT模型網(wǎng)絡(luò)結(jié)構(gòu)

另外作者修改了原始的循環(huán)重建過程使其不僅包括跨域（X 域->Y 域）模式重建還包括了跨粒度級(jí)（實(shí)例物體->全局圖像）模式重建。對(duì)于跨域來說是完全基于 MUNIT 模型所提出的循環(huán)重建，針對(duì)跨粒度級(jí)的重建過程如圖 3 所示，作者通過交換圖像和實(shí)例物體的編碼-解碼對(duì)后生成圖像，再對(duì)生成圖像繼續(xù)重復(fù)上一操作使得再次生成出的圖像和實(shí)例物體應(yīng)和原始圖像以及實(shí)例物體一致。

▲?圖3.?循環(huán)一致性損失（僅針對(duì)跨粒度級(jí)）

對(duì)于交換粒度級(jí)內(nèi)容-屬性編碼對(duì)需要注意的是，作者采用了從粗略（全局）屬性向量去結(jié)合細(xì)粒度級(jí)內(nèi)容向量的交換方式，而如果逆轉(zhuǎn)這一過程即利用細(xì)粒度的屬性向量去結(jié)合粗粒度級(jí)的內(nèi)容向量則無法實(shí)現(xiàn)（如圖 4 所示）。

▲?圖4.?內(nèi)容-屬性對(duì)交換策略

綜上所述，模型采用的損失包括重構(gòu)損失以及對(duì)抗損失，重構(gòu)損失包括了全局圖像重構(gòu)以及局部實(shí)例物體重構(gòu)，這兩類的重構(gòu)中又包括了圖像重建損失、內(nèi)容重建損失以風(fēng)格重建損失。對(duì)抗損失也包括了全局對(duì)抗損失以及局部實(shí)例對(duì)抗損失，整個(gè)模型的損失函數(shù)如下。

實(shí)驗(yàn)結(jié)果

作者的實(shí)驗(yàn)主要采用了自己設(shè)計(jì)的 INIT 數(shù)據(jù)集以及 COCO 數(shù)據(jù)集，INIT 數(shù)據(jù)集是由作者設(shè)計(jì)并首次應(yīng)用于圖像翻譯問題，其中包含 155529 張高清街景圖像并且不僅設(shè)計(jì)了 sunny, night, cloud, rain 四種域標(biāo)簽而且還對(duì)詳細(xì)實(shí)例對(duì)象邊界框注釋（車，人以及交通標(biāo)志）。

作者使用 LPIPS 矩陣、Inception-Score 以及 Conditional Inception-Score 對(duì) INIT 模型進(jìn)行評(píng)估，并和 CycleGAN, UNIT, MUNIT, DRIT 進(jìn)行比對(duì)，其中 INIT w/Ds 表示全局圖像和局部實(shí)例對(duì)象共享一個(gè)鑒別器，INIT w/o Ds 則表示兩個(gè)鑒別器獨(dú)立，以下是實(shí)驗(yàn)結(jié)果。

總結(jié)

作者基于 MUNIT 的架構(gòu)提出了針對(duì)實(shí)例級(jí)圖像翻譯技術(shù)，通過對(duì)提取實(shí)例對(duì)象的風(fēng)格/屬性來直接影響和指導(dǎo)目標(biāo)域該物體的生成，這使得在進(jìn)行復(fù)雜結(jié)構(gòu)圖象翻譯時(shí)能產(chǎn)生更細(xì)致的結(jié)果。

從實(shí)驗(yàn)的效果圖來看也能發(fā)現(xiàn)翻譯后的圖像在具體實(shí)例對(duì)象上也能更符合現(xiàn)實(shí)場(chǎng)景。另外作者還設(shè)計(jì)了 INIT 街景數(shù)據(jù)集，該數(shù)據(jù)集包括了對(duì)具體實(shí)例對(duì)象的注釋框，有助于今后的圖像翻譯問題研究。

點(diǎn)擊以下標(biāo)題查看更多往期內(nèi)容：?

最新Anchor-Free目標(biāo)檢測(cè)模型—FoveaBox
論文盤點(diǎn)：CVPR 2019 - 文本檢測(cè)專題
近期值得讀的10篇GAN進(jìn)展論文
天秤座R-CNN：全面平衡的目標(biāo)檢測(cè)器
萬字綜述之生成對(duì)抗網(wǎng)絡(luò)（GAN）
CVPR 2019 | 基于高清表示網(wǎng)絡(luò)的人體姿態(tài)估計(jì)
PoolNet：基于池化技術(shù)的顯著性目標(biāo)檢測(cè)
全新缺失圖像數(shù)據(jù)插補(bǔ)框架—CollaGAN

#投稿通道#

?讓你的論文被更多人看到?

如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達(dá)讀者群體，縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢？答案就是：你不認(rèn)識(shí)的人。

總有一些你不認(rèn)識(shí)的人，知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁，促使不同背景、不同方向的學(xué)者和學(xué)術(shù)靈感相互碰撞，迸發(fā)出更多的可能性。?

PaperWeekly 鼓勵(lì)高校實(shí)驗(yàn)室或個(gè)人，在我們的平臺(tái)上分享各類優(yōu)質(zhì)內(nèi)容，可以是最新論文解讀，也可以是學(xué)習(xí)心得或技術(shù)干貨。我們的目的只有一個(gè)，讓知識(shí)真正流動(dòng)起來。

??來稿標(biāo)準(zhǔn)：

? 稿件確系個(gè)人原創(chuàng)作品，來稿需注明作者個(gè)人信息（姓名+學(xué)校/工作單位+學(xué)歷/職位+研究方向）?

? 如果文章并非首發(fā)，請(qǐng)?jiān)谕陡鍟r(shí)提醒并附上所有已發(fā)布鏈接?

? PaperWeekly 默認(rèn)每篇文章都是首發(fā)，均會(huì)添加“原創(chuàng)”標(biāo)志

? 投稿郵箱：

? 投稿郵箱：hr@paperweekly.site?

? 所有文章配圖，請(qǐng)單獨(dú)在附件中發(fā)送?

? 請(qǐng)留下即時(shí)聯(lián)系方式（微信或手機(jī)），以便我們?cè)诰庉嫲l(fā)布時(shí)和作者溝通

現(xiàn)在，在「知乎」也能找到我們了

進(jìn)入知乎首頁搜索「PaperWeekly」

點(diǎn)擊「關(guān)注」訂閱我們的專欄吧

關(guān)于PaperWeekly

PaperWeekly 是一個(gè)推薦、解讀、討論、報(bào)道人工智能前沿論文成果的學(xué)術(shù)平臺(tái)。如果你研究或從事 AI 領(lǐng)域，歡迎在公眾號(hào)后臺(tái)點(diǎn)擊「交流群」，小助手將把你帶入 PaperWeekly 的交流群里。

▽ 點(diǎn)擊 |?閱讀原文?| 下載論文

總結(jié)

以上是生活随笔為你收集整理的CVPR 2019 | INIT：针对实例级的图像翻译的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：飞桨上线万能转换小工具，教你玩转Tens
下一篇：清华大学计算机系毕业季博论 | 预荐未来

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

编程问答

CVPR 2019 | INIT：针对实例级的图像翻译

研究動(dòng)機(jī)

模型架構(gòu)

實(shí)驗(yàn)結(jié)果

總結(jié)

總結(jié)