日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

近年图像翻译先进模型小结

發布時間:2024/3/13 编程问答 41 豆豆
生活随笔 收集整理的這篇文章主要介紹了 近年图像翻译先进模型小结 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

?PaperWeekly 原創 ·?作者|武廣

學校|合肥工業大學碩士生

研究方向|圖像生成

計算機視覺下的任務紛繁龐大,除了熟悉的目標檢測、圖像識別、圖像分類等常見的視覺應用,還有著圖像翻譯、圖像分割和圖像超分辨率等十分具有研究和應用價值的方向。本文就近年(2019 和 2020 年)圖像翻譯下的先進模型進行典型性介紹,一起梳理下圖像翻譯的發展和未來研究的趨勢。

圖像翻譯的發展

圖像翻譯旨在通過設計端到端的模型將源域圖像轉換到目標域圖像,通常源域提供圖像的內容,目標域提供圖像的“風格”(可以是圖像屬性或圖像風格),在源域內容下實現目標域的“風格”化,從而實現源域圖像到目標域圖像的轉換。

說的通俗點圖像翻譯可以是標簽圖到場景圖的轉換、線條輪廓到色彩圖像轉換、圖像的風格轉換,春夏場景的變換,人臉的屬性變換,也可以是白晝交替的轉換。只要符合上述端到端轉換的任務,都可以通過圖像翻譯實現。引用 pix2pix [1] 中的經典插圖,一起看下圖像翻譯的實際應用。

▲ 圖1.圖像翻譯的不同任務場景

圖像翻譯自深度學習應用下便得到了快速的發展,尤其是隨著生成對抗網絡(GAN)的提出,大大加速了圖像翻譯的演進。從早期的 pix2pix、CycleGAN [2]、UNIT [3] 到較為成熟的 StarGAN [4] 都是圖像翻譯在上幾年較為成功和經典的模型。

這些模型實現了從源域圖像到目標域圖像的轉換,但這往往需要一定的標簽參與或者需要建立源域和目標域各自的生成器,同時任務往往實現的是單目標域的轉換。

隨著發展到 MUNIT [5]、DRIT [6] 以及 UGATIT [7] 則進一步實現了由源域到多目標域的轉換,也有利用語義 mask 圖像實現無條件圖像翻譯的 SPADE [8]。

StyleGAN [9] 實現了高質量的圖像風格轉換,這無疑于 StyleGAN 的細致的架構,逐步分辨率的階段性生成、自適應實例正則化(AdaIN)和風格空間的應用。

StyleGAN2 [10] 在 StyleGAN 的基礎上進一步對 AdnIN 進行修正,demodulation 操作應用于每個卷積層相關的權重,并且通過 skip generator 代替 progressive growing,實現了更為細致的圖像轉換。這些基礎性的圖像轉換架構對于近年來的圖像翻譯任務提供價值性的指導。

近年來,圖像翻譯實現了更加細致的任務實現,StarGAN v2 [11] 在 StarGAN 的基礎上實現了多源域到多目標域的圖像轉換;ALAE [12] 將自編碼器拓展到高精致的圖像轉換。

HiDT [13] 提供了多域圖像轉換下對圖像翻譯下的網絡邏輯和損失函數做了細致的總結;ConSinGAN [14] 代表了一眾單幅圖像訓練的先進模型,實現了單幅圖像訓練下的圖像轉換任務。本文將以這 4 篇論文進行介紹,對近年圖像翻譯模型進行分析和小結。

圖像翻譯模型

2.1 StarGAN v2

論文標題:StarGAN v2: Diverse Image Synthesis for Multiple Domains

論文來源:CVPR 2020

論文鏈接:https://arxiv.org/abs/1912.01865

代碼鏈接:https://github.com/clovaai/stargan-v2

StarGAN v2 針對 StarGAN 存在的僅能在單目標域下轉換和需要標簽信息參與的兩個問題,提出了目標域下多風格圖像的轉換。如何實現多目標域的轉換呢?StarGAN v2 設計了 Mapping Network 用于生成風格編碼,從而為目標域下提供多類型的風格表示而不需要額外的標簽,模型的整體結構如圖 2 所示。

▲ 圖2.StarGAN v2模型整體結構

可以看出 StarGAN v2 由四部分組成,生成器 ,映射網絡 ,風格編碼器 判別器 。我們先捋一下整個過程,首先映射網絡學習到目標域圖像的風格編碼 ,其中 ,這是映射網絡學習到的目標域圖像的風格編碼。

而作為參照真實目標域圖像的風格編碼由風格編碼器得到 ,得到了風格編碼 結合源域輸入圖像? 便可送入到生成器,生成器輸出的就是轉換后的目標域圖像 ,而判別器則為了區分生成的目標域圖像是否是真實來源于真實目標域。

StarGAN v2 中映射網絡、風格編碼器和判別器的輸出都是多分支的,因為文章的目的是進行多目標域的轉換,這里的多分支就是不同的目標域的表示,對于映射網絡和風格編碼器,多分支表示的是多個目標域圖像的風格表示,對于判別器多分支則是代表不同目標域的判別真假情況,作者在附錄中用 表示分支數。

圖 3 展示了 StarGAN v2 的較為詳細的網絡設計。

▲ 圖3.StarGAN v2模型設計結構

至于損失函數上,值得一提的是風格表示上的風格重構損失

和映射網絡豐富化的?

(使得目標風格表示之間邊界分明,產生多目標轉換結果,最大化 ),還有就是較為熟悉的對抗損失 和循環一致損失 ,在最終的損失優化上:

實驗上,在圖像轉換上展示了優越的效果。

▲ 圖4.StarGAN v2定性對比結果

2.2 ALAE

論文標題:Adversarial Latent Autoencoders

論文鏈接:https://arxiv.org/abs/2004.04467

代碼鏈接:https://github.com/podgorskiy/ALAE

自編碼器能否具有像 GAN 那樣的生成能力呢?ALAE 給出了肯定的答案,ALAE 算是建立在 StyleGAN 基礎之上,具備與 GAN 相當的生成能力,且能夠學習解耦表征,在人臉屬性變換上展示了優越的效果。

ALAE 采用自編碼器架構,將 GAN 中的生成器和判別器分解為兩個網絡,生成器對應著 和 ,判別器對應著 和 ,先從整體架構來看一下 ALAE 模型。

▲ 圖5.ALAE模型結構

在訓練階段,隨機噪聲 經過網絡 ,將隨機噪聲映射到數據的潛在空間 ,網絡 則負責將數據潛在空間 和風格變量 映射到數據空間。此時輸入的 經過 和 得到圖像輸出 ,判別部分由網絡 和 組成,網絡? 將數據編碼到潛在空間 并且與 投影得到的 做分布拉近,理想狀態下 。

網絡 是個新穎的設計,它并沒有嚴格的目的性也就是并沒有強調和約束數據的潛在空間分布,而是由全局優化下自動學習數據的潛在空間。也正因為存在了數據的潛在空間的刻畫,ALAE 才可以說是建立在自編碼器下結構下的模型。

在測試階段,由網絡 和 構成了自編碼器的編碼器和解碼器,構成 Encoder-Decoder 的結構,由? 可以控制圖像屬性從而實現圖像翻譯任務。

損失設計上除了對抗損失,還有就是潛在空間分布下的拉近 ,這也是文章稱為為對抗性潛在自動編碼器(ALAE)的原因。ALAE 在設計上借鑒了 StyleGAN 的結構并稱之為 StyleALAE,整體的架構如圖 6 所示。

▲ 圖6.StyleALAE網絡架構

作者使用 MNIST 數據集訓練 ALAE,并使用特征表示來執行分類、重建和分析解耦能力的任務,與已有的自編碼器模型對比結果存在優勢,ALAE 最讓人印象深刻的就是 StyleALAE 在 FFHQ 上的生成效果,真是將自編碼器做到了 GAN 的高精度生成。

▲ 圖7.StyleALAE的生成效果

本文圍繞著圖像翻譯展開,ALAE 當然適用于圖像翻譯任務,在人臉屬性的轉換上也做到了優越的轉換效果。

▲ 圖8.StyleALAE人臉屬性變換

2.3 ConSinGAN

論文標題:Improved Techniques for Training Single-Image GANs

論文鏈接:https://arxiv.org/abs/2003.11512

代碼鏈接:https://github.com/tohinz/ConSinGAN

近年有部分研究者將目光投入到單幅圖像訓練網絡上,ICCV 2019 best paper SinGAN [15] 便是一個代表作,此處要介紹的 ConSinGAN 則是在 SinGAN 的基礎上的升級版。

受限于數據樣本和網絡訓練時長,單幅圖像訓練的模型存在著很大的應用意義。要介紹清 ConSinGAN 則必須要提一下 SinGAN,本質上 ConSinGAN 就是并行的 SinGAN,縮寫中不同的 Con 就是指 Concurrent 的意思。

SinGAN 按照不同分辨率分階段訓練生成器和判別器,在串行的階段訓練上,當前生成器將前一個生成器生成的圖像作為輸入,在此基礎上生成比當前還要高分辨率的圖像,此時不同階段的生成器都是單獨訓練的,這也意味著在訓練當前生成器時,之前的生成器的權重都保持不變,這個過程由圖 9 所示。

▲ 圖9.SinGAN訓練過程

ConSinGAN 指出每個分辨率下僅訓練一個生成器而固定前面的生成器的參數,這僅僅將前一階段生成器輸出作為當前的輸入,這一定程度上限制了不同階段生成器之間的交互。

ConSInGAN 設計了對生成器進行端到端的訓練,也就是說,在給定時間內可以訓練多個生成器,每個生成器將前一個生成器生成的特征(而不是圖像)作為輸入。這種訓練是對多個階段下的生成器同時進行的,也稱之為并行訓練的方式,這個過程如圖 10 所示。

▲ 圖10.ConSinGAN訓練過程

然而訓練多個分辨率下的生成器將會導致另一個問題,那就是過擬合,也就是最后得到的圖像失去了多樣性,為了解決這個問題,ConSinGAN 提出了 2 個應對方案。

  • 在任意給定時間內,只訓練一部分生成器

  • 在訓練一部分生成器時,還要對不同的生成器使用不同的學習率,對于低分辨率階段的生成器使用較小的學習率

文章和源碼中默認最多同時訓練 3 個生成器,此時對前兩階段的生成器采用當前學習率的 和 ,這個過程圖 11 進行展示。

▲ 圖11.ConSinGAN訓練不同生成器不同學習率

實驗發現如果對早階段的生成器采用較高的學習率,那么生成的圖像質量會高些,但是差異性較弱。相反,如果對早階段的生成器采用較小的學習率,那么生成圖像的差異性會豐富一些。

在進行圖像翻譯任務時,ConSinGAN 進行了圖像協調實驗,主要與 SinGAN 進行對比,得到的對比結果如圖 12 所示。

▲ 圖12.ConSinGAN在圖像協調下的轉換結果

2.4 HiDT

論文標題:High-Resolution Daytime Translation Without Domain Labels

論文來源:CVPR 2020

論文鏈接:https://arxiv.org/abs/2003.08791

最后來分析下 High-Resolution Daytime Translation Without Domain Labels (HiDT),這篇文章雖然做的是高清自然場景時移變換,但是確實將圖像翻譯的訓練邏輯和損失函數介紹的非常清晰的文章,HiDT 也是 CVPR 2020 oral 的一篇文章,在這里梳理一下 HiDT 對圖像翻譯的設計邏輯和損失函數的設計。

▲ 圖13.HiDT網絡優化過程

先交代下符號, 表示源域輸入圖像, 表示內容編碼器相對應的 為內容編碼, 表示風格編碼器相對應的 為風格編碼, 為生成器, 為目標域風格編碼, 為風格編碼的先驗分布, 為在風格編碼的先驗分布下隨機采樣的風格編碼。生成器 不光光輸出的是轉換后的圖像,同時也輸出相對應的風格掩碼圖 。

從上到下分析,隨機風格采樣 與內容編碼 生成 ,此時 的風格取決于隨機風格 ,掩碼 則是受內容 的影響,對 繼續進行內容和風格編碼得到 ,將 饋送到生成器 得到重構的 ,為什么說是重構呢?

因為此時輸入的風格是 自身的風格編碼;中間一路就是對 進行編碼后再重構得到 ;最下面一路則是先根據源域內容編碼 與目標域風格編碼 生成得到目標域圖像和分割掩碼 ,再由 編碼得到的內容編碼 與風格編碼 得到最原始源域圖像 ,由于 給出的損失為 ,這里推測風格編碼 就是源域圖像的風格表示。

上述分析,總結起來就是模型在優化階段由三種模式,一是隨機風格的轉換和重構,二是原始圖像的重構,三是目標域圖像轉換和循環一致的轉換。

最后就是如何對模型進行損失優化,正由圖 13 中所展示的,重構損失 ,風格掩碼損失 ,內容編碼損失 ,風格編碼損失 ,風格編碼下趨緊先驗分布的損失 以及循環一致損失 ,由此衍生的 也是一樣的含義,圖 13 中省略了對抗損失 ,對抗損失主要是對轉換后的 和 進行優化。

重構損失為 損失,即 ,類似的有 ,循環一致損失也是采用 損失 。對于分割掩碼損失則是采取交叉熵損失:

則有:

由于風格編碼的維度較低,此時可以通過均值和方差拉向正態分布,達到風格編碼向先驗分布靠近:

對于內容編碼損失 和風格編碼損失 ,則是通過 損失一致性優化,即:

總的損失可變式為:

其中 為超參數。HiDT 的模型優化算是對圖像翻譯下的損失進行了一個系統的介紹,同時也是我認為在不系統閱讀代碼下對圖像翻譯下的邏輯介紹最為清晰的一篇文章。

總結

近年來圖像翻譯的文章還有很多,本文僅僅是筆者選摘的有代表性的幾篇文章,圖像翻譯已不再是簡單的圖像風格變換或是源域到目標域的轉換,而是上升到多源域到多目標域圖像的轉換。

同時基于 GAN,基于自編碼器,基于 pixelCNN 的模型也是十分豐富。從龐大的數據集進行訓練,到可以由單幅圖像的訓練,對于訓練的樣本要求也在逐步降低。

總的來說,圖像翻譯向著更加系統和全面的方向有序進展,雖然模型做到了多源域到多目標域圖像的轉換,但是這個過程仍存在很多的限制,限制于數據集和各目標域間的標注,同時不同目標域間的差距仍不能做到很大,one for all 的理念仍是一個很值得研究和邁進的方向。

參考文獻

[1] Isola P, Zhu J Y, Zhou T, et al. Image-to-image translation with conditional adversarial networks[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2017: 1125-1134.

[2] Zhu J Y, Park T, Isola P, et al. Unpaired image-to-image translation using cycle-consistent adversarial networks[C]//Proceedings of the IEEE international conference on computer vision. 2017: 2223-2232.

[3] Liu M Y, Breuel T, Kautz J. Unsupervised image-to-image translation networks[C]//Advances in neural information processing systems. 2017: 700-708.

[4] Choi Y, Choi M, Kim M, et al. Stargan: Unified generative adversarial networks for multi-domain image-to-image translation[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2018: 8789-8797.

[5] Huang X, Liu M Y, Belongie S, et al. Multimodal unsupervised image-to-image translation[C]//Proceedings of the European Conference on Computer Vision (ECCV). 2018: 172-189.

[6] Lee H Y, Tseng H Y, Mao Q, et al. Drit++: Diverse image-to-image translation via disentangled representations[J]. International Journal of Computer Vision, 2020: 1-16.

[7] Kim J, Kim M, Kang H, et al. U-GAT-IT: unsupervised generative attentional networks with adaptive layer-instance normalization for image-to-image translation[J]. arXiv preprint arXiv:1907.10830, 2019.

[8] Park T, Liu M Y, Wang T C, et al. Semantic image synthesis with spatially-adaptive normalization[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2019: 2337-2346.

[9] Karras T, Laine S, Aila T. A style-based generator architecture for generative adversarial networks[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2019: 4401-4410.

[10] Karras T, Laine S, Aittala M, et al. Analyzing and improving the image quality of stylegan[J]. arXiv preprint arXiv:1912.04958, 2019.

[11] Choi Y, Uh Y, Yoo J, et al. StarGAN v2: Diverse Image Synthesis for Multiple Domains[J]. arXiv preprint arXiv:1912.01865, 2019.

[12] Pidhorskyi, Stanislav and Adjeroh, Donald A and Doretto, Gianfranco, et al. Adversarial Latent Autoencoders[J]. arXiv preprint arXiv:2004.04467, 2020.

[13] Anokhin I, Solovev P, Korzhenkov D, et al. High-Resolution Daytime Translation Without Domain Labels[J]. arXiv preprint arXiv:2003.08791, 2020.

[14] Hinz T, Fisher M, Wang O, et al. Improved Techniques for Training Single-Image GANs[J]. arXiv preprint arXiv:2003.11512, 2020.

[15] Rott Shaham T, Dekel T, Michaeli T. SinGAN: Learning a Generative Model from a Single Natural Image[J]. arXiv preprint arXiv:1905.01164, 2019.

點擊以下標題查看更多往期內容:?

  • CVPR 2020 | 自適應聚合網絡:更高效的立體匹配

  • CVPR 2020最新熱點:物體位姿估計

  • 格“物”致知:多模態預訓練再次入門

  • 對比學習(Contrastive Learning)相關進展梳理

  • CVPR 2020 Oral | 無域標簽下高清場景時移變換

  • CVPR 2020 | 商湯TSD目標檢測算法解讀

#投 稿?通 道#

?讓你的論文被更多人看到?

如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。

總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。?

PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學習心得技術干貨。我們的目的只有一個,讓知識真正流動起來。

?????來稿標準:

? 稿件確系個人原創作品,來稿需注明作者個人信息(姓名+學校/工作單位+學歷/職位+研究方向)?

? 如果文章并非首發,請在投稿時提醒并附上所有已發布鏈接?

? PaperWeekly 默認每篇文章都是首發,均會添加“原創”標志

?????投稿郵箱:

? 投稿郵箱:hr@paperweekly.site?

? 所有文章配圖,請單獨在附件中發送?

? 請留下即時聯系方式(微信或手機),以便我們在編輯發布時和作者溝通

????

現在,在「知乎」也能找到我們了

進入知乎首頁搜索「PaperWeekly」

點擊「關注」訂閱我們的專欄吧

關于PaperWeekly

PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。

總結

以上是生活随笔為你收集整理的近年图像翻译先进模型小结的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。

主站蜘蛛池模板: 人与嘼交av免费 | 国产高清免费在线播放 | 亚洲精品国 | 亚洲综合天堂 | 亚洲永久免费网站 | 草久久| 国产麻豆剧传媒精品国产av | 992tv成人免费视频 | 久久久久99精品 | 香蕉在线网站 | 日韩在线观看视频一区 | 免费观看黄色小视频 | 奇米影视网 | 日本a级网站 | 精品国产aⅴ麻豆 | www.一区二区三区四区 | 成人污视频 | 欧美毛片在线观看 | 日本草逼视频 | 久久久久爱 | 高跟肉丝丝袜呻吟啪啪网站av | 伊人久久一区二区 | 亚洲一区二区三区综合 | 欧美激情一区二区三区在线 | 欧美日韩一区二区在线播放 | 国模吧一区二区三区 | 精品三级视频 | 精品人人妻人人澡人人爽牛牛 | 18xxxx日本| 2018狠狠干 | 亚洲精品免费在线观看视频 | 九月婷婷丁香 | 亚洲最新色图 | 少妇被躁爽到高潮无码人狍大战 | 亚洲欧洲自拍偷拍 | av在线免 | 日本免费一区视频 | 91av影院| 亚洲乱码国产乱码精品精的特点 | a级片中文字幕 | 久久久99国产精品免费 | 日韩大片免费看 | 自拍偷拍第3页 | 精品一区二区三区在线观看 | 亚洲欧洲日韩av | 国产精品变态另类虐交 | 日本h视频在线观看 | 亚洲区一 | 国产乱码久久久久久 | 国产九九精品视频 | 国产免费福利视频 | 男生插女生视频在线观看 | 青青草国产在线播放 | 特级毛片av | wwwxxxx国产| 国产成年无码久久久久毛片 | 精品色哟哟 | 乳罩脱了喂男人吃奶视频 | 国产日韩欧美视频在线 | 饥渴丰满的少妇喷潮 | 一区二区三区精品视频在线观看 | 波多野结衣办公室双飞 | 成人黄色免费视频 | 中文字幕亚洲日本 | 啪啪啪毛片| a天堂av| 亚洲少妇30p | www.日日日| 男男play视频 | 国产日产精品一区二区三区 | 午夜神马影院 | 女同在线视频 | 99精品人妻无码专区在线视频区 | 日韩av一| 在线观看不卡av | 久久久久网 | 第一福利视频 | 极品国产一区 | 99久久网站 | 伊人日日夜夜 | 夜夜草天天草 | 无码人妻丰满熟妇区96 | 精品少妇久久 | 精品乱子一区二区三区 | 亚洲图片在线视频 | 粉嫩av网站 | 黄色特级网站 | 视频二区 | 国产91对白在线播放 | 台湾综合色 | 69国产精品 | 成人日韩精品 | 亚洲欧美另类激情 | 久热免费视频 | 中文字幕日韩人妻在线视频 | 色综合中文综合网 | 麻豆传媒在线播放 | 五月天在线 | 97日韩精品 |