CVPR 2019 | INIT:针对实例级的图像翻译
作者丨薛潔婷
學校丨北京交通大學碩士生
研究方向丨圖像翻譯
研究動機
近年來關于圖像翻譯的研究越來越多,其中比較經典的有監督模型包括 Pix2Pix, BicycleGAN 等,無監督模型包括 CycleGAN, MUNIT, StarGAN, DRIT 等。
由于這些模型無論是針對多領域翻譯還是單領域翻譯都是將目標域圖像的風格/屬性整個遷移到源域圖像上,因此雖然這些方法可以很好的解決風格統一或者內容相關的圖像翻譯問題,但對于有大量實例物體并且物體與背景之間的風格差異非常巨大的復雜結構圖像翻譯來說是很困難的。
為了解決該問題,作者基于 MUNIT 模型提出了基于端到端的訓練模型 INIT,其采用不同的風格編碼來獨立的翻譯圖像中的物體、背景以及全局區域。
▲?圖1. 現有圖像翻譯模型的局限
模型架構
INIT 的網絡架構非常類似于 MUNIT 模型,但不同于 MUNIT 模型,作者提出的模型不僅對全局圖像進行內容和屬性編碼,而且還對實例物體以及背景也進行內容-屬性編碼。即首先給定一對未對齊的圖像和實例物體的坐標位置,應用全局編碼器 Eg 以及局部編碼器 Eo 分別獲取全局圖像和實例物體圖像內容 c 和屬性向量 s,然后通過交換屬性向量來獲取跨域的目標實例對象圖像,整個模型的架構如下圖所示。
▲?圖2.?INIT模型網絡結構
另外作者修改了原始的循環重建過程使其不僅包括跨域(X 域->Y 域)模式重建還包括了跨粒度級(實例物體->全局圖像)模式重建。對于跨域來說是完全基于 MUNIT 模型所提出的循環重建,針對跨粒度級的重建過程如圖 3 所示,作者通過交換圖像和實例物體的編碼-解碼對后生成圖像,再對生成圖像繼續重復上一操作使得再次生成出的圖像和實例物體應和原始圖像以及實例物體一致。
▲?圖3.?循環一致性損失(僅針對跨粒度級)
對于交換粒度級內容-屬性編碼對需要注意的是,作者采用了從粗略(全局)屬性向量去結合細粒度級內容向量的交換方式,而如果逆轉這一過程即利用細粒度的屬性向量去結合粗粒度級的內容向量則無法實現(如圖 4 所示)。
▲?圖4.?內容-屬性對交換策略
綜上所述,模型采用的損失包括重構損失以及對抗損失,重構損失包括了全局圖像重構以及局部實例物體重構,這兩類的重構中又包括了圖像重建損失、內容重建損失以風格重建損失。對抗損失也包括了全局對抗損失以及局部實例對抗損失,整個模型的損失函數如下。
實驗結果
作者的實驗主要采用了自己設計的 INIT 數據集以及 COCO 數據集,INIT 數據集是由作者設計并首次應用于圖像翻譯問題,其中包含 155529 張高清街景圖像并且不僅設計了 sunny, night, cloud, rain 四種域標簽而且還對詳細實例對象邊界框注釋(車,人以及交通標志)。
作者使用 LPIPS 矩陣、Inception-Score 以及 Conditional Inception-Score 對 INIT 模型進行評估,并和 CycleGAN, UNIT, MUNIT, DRIT 進行比對,其中 INIT w/Ds 表示全局圖像和局部實例對象共享一個鑒別器,INIT w/o Ds 則表示兩個鑒別器獨立,以下是實驗結果。
總結
作者基于 MUNIT 的架構提出了針對實例級圖像翻譯技術,通過對提取實例對象的風格/屬性來直接影響和指導目標域該物體的生成,這使得在進行復雜結構圖象翻譯時能產生更細致的結果。
從實驗的效果圖來看也能發現翻譯后的圖像在具體實例對象上也能更符合現實場景。另外作者還設計了 INIT 街景數據集,該數據集包括了對具體實例對象的注釋框,有助于今后的圖像翻譯問題研究。
點擊以下標題查看更多往期內容:?
最新Anchor-Free目標檢測模型—FoveaBox
論文盤點:CVPR 2019 - 文本檢測專題
近期值得讀的10篇GAN進展論文
天秤座R-CNN:全面平衡的目標檢測器
萬字綜述之生成對抗網絡(GAN)
CVPR 2019 | 基于高清表示網絡的人體姿態估計
PoolNet:基于池化技術的顯著性目標檢測
全新缺失圖像數據插補框架—CollaGAN
#投 稿 通 道#
?讓你的論文被更多人看到?
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學習心得或技術干貨。我們的目的只有一個,讓知識真正流動起來。
??來稿標準:
? 稿件確系個人原創作品,來稿需注明作者個人信息(姓名+學校/工作單位+學歷/職位+研究方向)?
? 如果文章并非首發,請在投稿時提醒并附上所有已發布鏈接?
? PaperWeekly 默認每篇文章都是首發,均會添加“原創”標志
? 投稿郵箱:
? 投稿郵箱:hr@paperweekly.site?
? 所有文章配圖,請單獨在附件中發送?
? 請留下即時聯系方式(微信或手機),以便我們在編輯發布時和作者溝通
?
現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
關于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
▽ 點擊 |?閱讀原文?| 下載論文
總結
以上是生活随笔為你收集整理的CVPR 2019 | INIT:针对实例级的图像翻译的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 飞桨上线万能转换小工具,教你玩转Tens
- 下一篇: 清华大学计算机系毕业季博论 | 预荐未来