當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

CVPR 2019 开源论文 | 基于翻译向量的图像翻译

發布時間：2024/10/8 编程问答 30 豆豆

生活随笔收集整理的這篇文章主要介紹了 CVPR 2019 开源论文 | 基于翻译向量的图像翻译小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

作者丨薛潔婷

學校丨北京交通大學碩士生

研究方向丨圖像翻譯

圖像翻譯通常要解決兩個問題：將原域圖像翻譯至目標域并且翻譯后的圖像和原域圖像保持相似性。我們利用 GAN 可以很好的解決第一個問題，而針對第二個問題大多數模型都是通過限制生成器來實現，比如在生成器某層中使用跨域權重耦合或者設計循環一致性損失等。但是限制生成器可能不僅會影響模型的多樣性而且還會阻止模型學習某些必要映射。

因此作者提出了利用三個網絡來進行圖像翻譯：Generator, Discriminator 以及 Siamese，其中前兩個網絡主要解決將原域圖像翻譯至目標域的問題，Siamese 網絡用于學習圖像高級語義特征從而保證翻譯后的圖像與原域圖像相似。

模型架構

TraVeLGAN 主要依賴于三個網絡，其模型架構如圖 1。其中 Generator 和 Discriminator 與之前大多數基于 GAN 的圖像翻譯模型類似，都是基于 U-Net 架構來將原域圖像翻譯至目標域圖像，Siamese 網絡用于提取圖像的高級語義特征。

▲?圖1. TraVeLGAN模型架構

對于 Siamese 網絡而言其希望可以保證原域任意圖像間的高級語義特征差：與對應翻譯后圖像間的高級語義特征差保持一致，即：

作者將定義為模型的翻譯向量，這部分的損失函數如下。不同于 Generator 和 Discriminator 之間互相對抗的關系，這里的 Siamese 和 Generator 是互相協作的，它們都希望能最小化損失。

為了避免 Siamese 網絡偏向于學習使損失為 0 的情況，其還必須保證每個點至少與潛在空間中的其他點相距 δ，即，因此模型整體的的損失函數如下，對于鑒別器而言其僅優化對抗損失即可。

實驗結果

作者主要針對傳統圖像翻譯模型經常采用的 Apples to oranges, Van Gogh to landscape photo, Sketch to shoe 等異構性不大的數據集進行對比實驗，另外也選取了 ImageNet 中 abacus, crossword, volcano, jack-o-lantern 等異構性較大的數據集進行實驗。

▲?圖2. 相似域翻譯的實驗結果

對于相似域間的圖像翻譯效果的評估，作者使用了 SSIM 結構相似性來衡量，結果如表 1 所示，其中主要的對比實驗是 CycleGAN 及其變種，可以看出對于相似域間的圖像翻譯 TraVeLGAN 可以達到和 CycleGAN 類似的效果，也就是我們完全可以不對生成器進行限制就能達到良好的翻譯結果，如圖 2 所示。

▲?表1. 相似域間的 SSIM 得分

對于強異構性的圖像翻譯，作者發現加入 Siamese 網絡后 TraVeLGAN 可以學習到更高級的語義特征。如圖 3 所示，TraVeLGAN 可以將算盤中的黑色珠子映射到填字游戲中的黑/白方塊中，而 CycelGAN 僅能學習到將黑色珠子映射為白色方塊，即在強異構性的圖像翻譯中 TraVeLGAN 比 CycelGAN 能產生更合理更多樣的輸出結果。

▲?圖3. TraVeLGAN vs CycelGAN

由于強異構性域圖像翻譯的目標不再是希望翻譯后的圖像和原域圖像相似，因此作者采用了 FID 得分以及鑒別器得分來衡量模型效果，由表 2 可以看出相比 CycelGAN 及其變種 TraVeLGAN 對于強異構性域的圖像翻譯效果更好，具體效果如圖 4 所示。

▲?表2. 強異構型域間 FID 得分

▲?圖4. 強異構性域間翻譯效果

總結

目前絕大多數的無監督圖像翻譯都是通過限制生成器來保證翻譯后圖像與原域圖像的相似性，而這種限制可能會影響模型的表達能力，限制其翻譯的多樣性。作者發現加入 Siamese 網絡可以幫助模型在不損害原有翻譯能力的前提下進行強異構型的圖像翻譯，并且能有效的指導生成器生成更加合理逼真的結果，這無疑為之后更加靈活的圖像翻譯模型設計提供了新的思路。

點擊以下標題查看更多往期內容：?

#投稿通道#

?讓你的論文被更多人看到?

如何才能讓更多的優質內容以更短路徑到達讀者群體，縮短讀者尋找優質內容的成本呢？答案就是：你不認識的人。

總有一些你不認識的人，知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁，促使不同背景、不同方向的學者和學術靈感相互碰撞，迸發出更多的可能性。?

PaperWeekly 鼓勵高校實驗室或個人，在我們的平臺上分享各類優質內容，可以是最新論文解讀，也可以是學習心得或技術干貨。我們的目的只有一個，讓知識真正流動起來。

??來稿標準：

? 稿件確系個人原創作品，來稿需注明作者個人信息（姓名+學校/工作單位+學歷/職位+研究方向）?

? 如果文章并非首發，請在投稿時提醒并附上所有已發布鏈接?

? PaperWeekly 默認每篇文章都是首發，均會添加“原創”標志

? 投稿郵箱：

? 投稿郵箱：hr@paperweekly.site?

? 所有文章配圖，請單獨在附件中發送?

? 請留下即時聯系方式（微信或手機），以便我們在編輯發布時和作者溝通

現在，在「知乎」也能找到我們了

進入知乎首頁搜索「PaperWeekly」

點擊「關注」訂閱我們的專欄吧

關于PaperWeekly

PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域，歡迎在公眾號后臺點擊「交流群」，小助手將把你帶入 PaperWeekly 的交流群里。

▽ 點擊 |?閱讀原文?| 下載論文 & 源碼

總結

以上是生活随笔為你收集整理的CVPR 2019 开源论文 | 基于翻译向量的图像翻译的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：十年编程经验输给新晋AI工程师，6个月我
下一篇：为什么电脑桌面黑屏怎么办电脑桌面怎么办