CVPR 2019 | INIT:针对实例级的图像翻译
作者丨薛潔婷
學(xué)校丨北京交通大學(xué)碩士生
研究方向丨圖像翻譯
研究動(dòng)機(jī)
近年來關(guān)于圖像翻譯的研究越來越多,其中比較經(jīng)典的有監(jiān)督模型包括 Pix2Pix, BicycleGAN 等,無監(jiān)督模型包括 CycleGAN, MUNIT, StarGAN, DRIT 等。
由于這些模型無論是針對(duì)多領(lǐng)域翻譯還是單領(lǐng)域翻譯都是將目標(biāo)域圖像的風(fēng)格/屬性整個(gè)遷移到源域圖像上,因此雖然這些方法可以很好的解決風(fēng)格統(tǒng)一或者內(nèi)容相關(guān)的圖像翻譯問題,但對(duì)于有大量實(shí)例物體并且物體與背景之間的風(fēng)格差異非常巨大的復(fù)雜結(jié)構(gòu)圖像翻譯來說是很困難的。
為了解決該問題,作者基于 MUNIT 模型提出了基于端到端的訓(xùn)練模型 INIT,其采用不同的風(fēng)格編碼來獨(dú)立的翻譯圖像中的物體、背景以及全局區(qū)域。
▲?圖1. 現(xiàn)有圖像翻譯模型的局限
模型架構(gòu)
INIT 的網(wǎng)絡(luò)架構(gòu)非常類似于 MUNIT 模型,但不同于 MUNIT 模型,作者提出的模型不僅對(duì)全局圖像進(jìn)行內(nèi)容和屬性編碼,而且還對(duì)實(shí)例物體以及背景也進(jìn)行內(nèi)容-屬性編碼。即首先給定一對(duì)未對(duì)齊的圖像和實(shí)例物體的坐標(biāo)位置,應(yīng)用全局編碼器 Eg 以及局部編碼器 Eo 分別獲取全局圖像和實(shí)例物體圖像內(nèi)容 c 和屬性向量 s,然后通過交換屬性向量來獲取跨域的目標(biāo)實(shí)例對(duì)象圖像,整個(gè)模型的架構(gòu)如下圖所示。
▲?圖2.?INIT模型網(wǎng)絡(luò)結(jié)構(gòu)
另外作者修改了原始的循環(huán)重建過程使其不僅包括跨域(X 域->Y 域)模式重建還包括了跨粒度級(jí)(實(shí)例物體->全局圖像)模式重建。對(duì)于跨域來說是完全基于 MUNIT 模型所提出的循環(huán)重建,針對(duì)跨粒度級(jí)的重建過程如圖 3 所示,作者通過交換圖像和實(shí)例物體的編碼-解碼對(duì)后生成圖像,再對(duì)生成圖像繼續(xù)重復(fù)上一操作使得再次生成出的圖像和實(shí)例物體應(yīng)和原始圖像以及實(shí)例物體一致。
▲?圖3.?循環(huán)一致性損失(僅針對(duì)跨粒度級(jí))
對(duì)于交換粒度級(jí)內(nèi)容-屬性編碼對(duì)需要注意的是,作者采用了從粗略(全局)屬性向量去結(jié)合細(xì)粒度級(jí)內(nèi)容向量的交換方式,而如果逆轉(zhuǎn)這一過程即利用細(xì)粒度的屬性向量去結(jié)合粗粒度級(jí)的內(nèi)容向量則無法實(shí)現(xiàn)(如圖 4 所示)。
▲?圖4.?內(nèi)容-屬性對(duì)交換策略
綜上所述,模型采用的損失包括重構(gòu)損失以及對(duì)抗損失,重構(gòu)損失包括了全局圖像重構(gòu)以及局部實(shí)例物體重構(gòu),這兩類的重構(gòu)中又包括了圖像重建損失、內(nèi)容重建損失以風(fēng)格重建損失。對(duì)抗損失也包括了全局對(duì)抗損失以及局部實(shí)例對(duì)抗損失,整個(gè)模型的損失函數(shù)如下。
實(shí)驗(yàn)結(jié)果
作者的實(shí)驗(yàn)主要采用了自己設(shè)計(jì)的 INIT 數(shù)據(jù)集以及 COCO 數(shù)據(jù)集,INIT 數(shù)據(jù)集是由作者設(shè)計(jì)并首次應(yīng)用于圖像翻譯問題,其中包含 155529 張高清街景圖像并且不僅設(shè)計(jì)了 sunny, night, cloud, rain 四種域標(biāo)簽而且還對(duì)詳細(xì)實(shí)例對(duì)象邊界框注釋(車,人以及交通標(biāo)志)。
作者使用 LPIPS 矩陣、Inception-Score 以及 Conditional Inception-Score 對(duì) INIT 模型進(jìn)行評(píng)估,并和 CycleGAN, UNIT, MUNIT, DRIT 進(jìn)行比對(duì),其中 INIT w/Ds 表示全局圖像和局部實(shí)例對(duì)象共享一個(gè)鑒別器,INIT w/o Ds 則表示兩個(gè)鑒別器獨(dú)立,以下是實(shí)驗(yàn)結(jié)果。
總結(jié)
作者基于 MUNIT 的架構(gòu)提出了針對(duì)實(shí)例級(jí)圖像翻譯技術(shù),通過對(duì)提取實(shí)例對(duì)象的風(fēng)格/屬性來直接影響和指導(dǎo)目標(biāo)域該物體的生成,這使得在進(jìn)行復(fù)雜結(jié)構(gòu)圖象翻譯時(shí)能產(chǎn)生更細(xì)致的結(jié)果。
從實(shí)驗(yàn)的效果圖來看也能發(fā)現(xiàn)翻譯后的圖像在具體實(shí)例對(duì)象上也能更符合現(xiàn)實(shí)場(chǎng)景。另外作者還設(shè)計(jì)了 INIT 街景數(shù)據(jù)集,該數(shù)據(jù)集包括了對(duì)具體實(shí)例對(duì)象的注釋框,有助于今后的圖像翻譯問題研究。
點(diǎn)擊以下標(biāo)題查看更多往期內(nèi)容:?
最新Anchor-Free目標(biāo)檢測(cè)模型—FoveaBox
論文盤點(diǎn):CVPR 2019 - 文本檢測(cè)專題
近期值得讀的10篇GAN進(jìn)展論文
天秤座R-CNN:全面平衡的目標(biāo)檢測(cè)器
萬字綜述之生成對(duì)抗網(wǎng)絡(luò)(GAN)
CVPR 2019 | 基于高清表示網(wǎng)絡(luò)的人體姿態(tài)估計(jì)
PoolNet:基于池化技術(shù)的顯著性目標(biāo)檢測(cè)
全新缺失圖像數(shù)據(jù)插補(bǔ)框架—CollaGAN
#投 稿 通 道#
?讓你的論文被更多人看到?
如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達(dá)讀者群體,縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢?答案就是:你不認(rèn)識(shí)的人。
總有一些你不認(rèn)識(shí)的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學(xué)者和學(xué)術(shù)靈感相互碰撞,迸發(fā)出更多的可能性。?
PaperWeekly 鼓勵(lì)高校實(shí)驗(yàn)室或個(gè)人,在我們的平臺(tái)上分享各類優(yōu)質(zhì)內(nèi)容,可以是最新論文解讀,也可以是學(xué)習(xí)心得或技術(shù)干貨。我們的目的只有一個(gè),讓知識(shí)真正流動(dòng)起來。
??來稿標(biāo)準(zhǔn):
? 稿件確系個(gè)人原創(chuàng)作品,來稿需注明作者個(gè)人信息(姓名+學(xué)校/工作單位+學(xué)歷/職位+研究方向)?
? 如果文章并非首發(fā),請(qǐng)?jiān)谕陡鍟r(shí)提醒并附上所有已發(fā)布鏈接?
? PaperWeekly 默認(rèn)每篇文章都是首發(fā),均會(huì)添加“原創(chuàng)”標(biāo)志
? 投稿郵箱:
? 投稿郵箱:hr@paperweekly.site?
? 所有文章配圖,請(qǐng)單獨(dú)在附件中發(fā)送?
? 請(qǐng)留下即時(shí)聯(lián)系方式(微信或手機(jī)),以便我們?cè)诰庉嫲l(fā)布時(shí)和作者溝通
?
現(xiàn)在,在「知乎」也能找到我們了
進(jìn)入知乎首頁搜索「PaperWeekly」
點(diǎn)擊「關(guān)注」訂閱我們的專欄吧
關(guān)于PaperWeekly
PaperWeekly 是一個(gè)推薦、解讀、討論、報(bào)道人工智能前沿論文成果的學(xué)術(shù)平臺(tái)。如果你研究或從事 AI 領(lǐng)域,歡迎在公眾號(hào)后臺(tái)點(diǎn)擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
▽ 點(diǎn)擊 |?閱讀原文?| 下載論文
總結(jié)
以上是生活随笔為你收集整理的CVPR 2019 | INIT:针对实例级的图像翻译的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 飞桨上线万能转换小工具,教你玩转Tens
- 下一篇: 清华大学计算机系毕业季博论 | 预荐未来