日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

2022图像翻译/扩散模型:UNIT-DDPM: UNpaired Image Translation with Denoising Diffusion Probabilistic Models

發(fā)布時間:2023/12/20 编程问答 44 豆豆
生活随笔 收集整理的這篇文章主要介紹了 2022图像翻译/扩散模型:UNIT-DDPM: UNpaired Image Translation with Denoising Diffusion Probabilistic Models 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

2022圖像翻譯/擴散模型:UNIT-DDPM: UNpaired Image Translation with Denoising Diffusion Probabilistic Models. UNIT-DDPM:無配對圖像翻譯與去噪擴散概率模型

  • 0.摘要
  • 1.概述
  • 2.相關(guān)工作
    • 2.1.Image-to-Image翻譯
      • 2.1.1成對圖像間翻譯
      • 2.1.2未配對的圖像間翻譯
    • 2.2. 擴散概率模型去噪
  • 3.方法
    • 3.1.模型訓(xùn)練
    • 3.2. 圖像翻譯推理
  • 4.評估
    • 4.1.基線
    • 4.2.數(shù)據(jù)集
    • 4.3.通過UNIT-DDPM的圖像到圖像翻譯
    • 4.4.結(jié)果
    • 4.5.消融實驗
    • 4.6.局限
  • 5.結(jié)論
  • 參考文獻(xiàn)

0.摘要

我們提出了一種新的無配對圖像間翻譯方法,該方法使用去噪擴散概率模型而不需要對抗訓(xùn)練。我們的方法,UNpaired Image Translation with Denoising Diffusion Probabilistic Models(UNIT-DDPM),訓(xùn)練一個生成模型,通過最小化另一個域條件下的去噪分?jǐn)?shù)匹配目標(biāo),推斷圖像在兩個域上的聯(lián)合分布作為馬爾可夫鏈。特別地,我們同時更新兩個域轉(zhuǎn)換模型,并基于Langevin dynamics,以輸入源域圖像為條件,通過去噪馬爾可夫鏈蒙特卡羅方法生成目標(biāo)域圖像。我們的方法為圖像到圖像的轉(zhuǎn)換提供了穩(wěn)定的模型訓(xùn)練,并生成高質(zhì)量的圖像輸出。這使得在若干公共數(shù)據(jù)集(包括彩色圖像和多光譜圖像)上的先進(jìn)技術(shù)初始距離(FID)性能顯著優(yōu)于同時代的對抗性圖像對圖像翻譯方法

1.概述

合成真實的圖像是計算機視覺長期以來的目標(biāo),因為它能夠?qū)崿F(xiàn)有益和廣泛的應(yīng)用,如機器學(xué)習(xí)任務(wù)中的數(shù)據(jù)增強,隱私保護(hù)和數(shù)據(jù)采集中的成本降低。雖然有各種各樣的替代方法用于圖像合成,如物理模擬[7],分形景觀[31],和圖像編輯[30],隨機生成建模[46]的使用繼續(xù)提供顯著的有效性,在特定領(lǐng)域中制作相似但不同的圖像,而不需要任何特定領(lǐng)域的知識。值得注意的是,最近對生成建模的研究集中在深度神經(jīng)網(wǎng)絡(luò)(DNN)[10],即深度生成模型(DGNN),因為它們具有對真實世界數(shù)據(jù)模式的潛在建模能力。生成對抗網(wǎng)絡(luò)(GAN)[11],自回歸模型[12],基于流的模型如NICE[3],圖1:使用去噪擴散概率模型的小說圖像到圖像翻譯方法的概念說明。RealNVP[4]和Glow[22],變分自編碼器(VAE)[32]和圖像轉(zhuǎn)換器[29]已經(jīng)合成了非常合理的圖像。類似地,在迭代生成模型中也有顯著的進(jìn)步,如去噪擴散概率模型(DDPM)[15]和噪聲條件評分網(wǎng)絡(luò)(NCSN)[38],它們已經(jīng)證明了產(chǎn)生與其他當(dāng)代方法相媲美的更高質(zhì)量合成圖像的能力,但不必執(zhí)行(潛在的問題)對抗訓(xùn)練。為了實現(xiàn)這一目標(biāo),許多去噪自編碼模型被訓(xùn)練去噪被不同級別的高斯噪聲破壞的樣本。然后通過馬爾可夫鏈蒙特卡羅(MCMC)過程產(chǎn)生樣本,從白噪聲開始,逐步去噪并轉(zhuǎn)換為有意義的高質(zhì)量圖像。生成馬爾可夫鏈過程基于Langevin dynamics[36],通過反轉(zhuǎn)前向擴散過程逐步將圖像轉(zhuǎn)換為噪聲
DGNN在圖像到圖像(I2I)的翻譯中也引起了極大的關(guān)注[8][20][19][44]。圖像到圖像是一項計算機視覺任務(wù),用于建模不同視覺域之間的映射,如風(fēng)格轉(zhuǎn)換[8],著色[5],超分辨率[23],照片真實感圖像合成[2],域適應(yīng)[26]。對于樣式轉(zhuǎn)移,提出了樣式轉(zhuǎn)移網(wǎng)絡(luò)[8]作為dnn,訓(xùn)練它將樣式從一個圖像轉(zhuǎn)移到另一個圖像,同時保留其語義內(nèi)容。此外,樣式傳輸網(wǎng)絡(luò)用于圖像樣式[20]的隨機化。對于一般用途,Pix2Pix[19]使用GAN使用成對訓(xùn)練數(shù)據(jù)對映射函數(shù)建模。為了降低配對訓(xùn)練的依賴性,提出了周期一致性GAN (CycleGAN)[44],利用周期一致性對訓(xùn)練進(jìn)行正則化。然而,這種基于gan的方法需要在優(yōu)化和架構(gòu)上非常具體的選擇來穩(wěn)定訓(xùn)練,并且很容易無法覆蓋所有數(shù)據(jù)分布模式[9]。

圖1:使用去噪擴散概率模型的四種新的圖像轉(zhuǎn)換方法的概念說明

本文提出了一種新的I2I翻譯方法,使用DDPM作為后端,而不是對抗網(wǎng)絡(luò),以緩解不穩(wěn)定訓(xùn)練的限制,提高生成圖像的質(zhì)量(圖1)。本文的主要貢獻(xiàn)是:

  • 基于雙域馬爾可夫鏈的生成視頻模型——引入了一種馬爾可夫鏈I2I翻譯方法,近似源域和目標(biāo)域的數(shù)據(jù)分布,使它們相互關(guān)聯(lián)(第3節(jié))。
  • 穩(wěn)定的基于非gan的圖像對圖像翻譯訓(xùn)練——該方法不需要對抗訓(xùn)練,然而,該模型生成了真實的輸出,根據(jù)不同級別噪聲的擾動捕獲了高頻變化(第3.1節(jié))。
  • 馬爾可夫鏈蒙特卡羅抽樣(Markov Chain Monte Carlo Sampling)的新應(yīng)用。提出的采樣算法可以以未配對的源域圖像為條件來合成目標(biāo)域圖像(章節(jié)3.2)。
  • 的標(biāo)準(zhǔn)數(shù)據(jù)集(Facade[39],照片-地圖[44],夏季-冬季[44],和rgb - thermal[17])(表1和圖5),詳見第4節(jié)。

2.相關(guān)工作

我們回顧了兩個相關(guān)主題的之前工作:圖像對圖像的翻譯和去噪擴散概率模型

2.1.Image-to-Image翻譯

I2I翻譯的目標(biāo)是學(xué)習(xí)來自源域的圖像和來自目標(biāo)域的圖像之間的映射,I2I翻譯通常分為兩種方法:成對和非成對。

2.1.1成對圖像間翻譯

有監(jiān)督I2I方法的目的是學(xué)習(xí)輸入圖像和輸出圖像之間的映射,通過訓(xùn)練一組對齊的圖像對。早期的工作提出使用預(yù)先訓(xùn)練的CNN和Gram矩陣來獲得圖像[6]的感知分解。這分離了圖像內(nèi)容和風(fēng)格,在保留語義內(nèi)容的同時支持風(fēng)格變化。最近的許多I2I方法都是使用GAN[11]進(jìn)行對抗訓(xùn)練的,這是一個生成模型,設(shè)計為具有一個生成器和一個鑒別器組件,它們彼此競爭。該生成器經(jīng)過訓(xùn)練,通過鑒別器輸出將隨機值映射到真實數(shù)據(jù)示例。該鑒別器同時被訓(xùn)練來鑒別由生成器產(chǎn)生的真實和虛假數(shù)據(jù)示例。Pix2Pix[19]提供了一個通用的對抗框架,將圖像從一個域轉(zhuǎn)換到另一個域。使用U-Net[34]代替自動編碼器,在輸入和輸出之間共享底層信息。BicycleGAN[45]結(jié)合了條件VAE-GAN(CVAE-GAN)和一種恢復(fù)潛伏代碼的方法,這提高了性能,其中CVAE-GAN重構(gòu)特定類別的圖像[1]。

2.1.2未配對的圖像間翻譯

配對I2I翻譯需要源域和目標(biāo)域的對齊圖像對,而非配對方法學(xué)習(xí)的源和目標(biāo)圖像集是完全獨立的,沒有兩個域之間的成對例子。CycleGAN[44]是一種使用GAN的未配對I2I翻譯方法。CycleGAN修改生成器G和鑒別器D,使其從源圖像xs∈Xsx_s∈X_sxs?Xs?傳輸?shù)侥繕?biāo)圖像xt∈Xtx_t∈X_txt?Xt?。這不僅學(xué)習(xí)了橫向變換G,還學(xué)習(xí)了雙向變換路徑Gt(xs)G_t(x_s)Gt?(xs?)Gs(xt)G_s(x_t)Gs?(xt?)。此外,這采用了一個新的損失度量,命名為循環(huán)一致性損失Lcyc(Gs,Gt)L_{cyc}(G_s,G_t)Lcyc?(Gs?,Gt?):

它強制每個域的真實圖像和它們生成的對應(yīng)圖像之間的一致性。
無監(jiān)督圖像對圖像翻譯網(wǎng)絡(luò)(UNIT)[25]在其方法中進(jìn)一步假設(shè)了共享潛在空間。為了解決多模態(tài)問題,Multi-modalUNIT(MUNIT)[16]和multi-image-to-image Translation via Disentangled Representations (DIRT++)[24]采用了一種解耦合特征表示,分離了圖像中特定領(lǐng)域的屬性和共享的內(nèi)容信息,進(jìn)一步從未配對的圖像樣本中實現(xiàn)多樣化的I2I翻譯。

2.2. 擴散概率模型去噪

去噪擴散概率模型(DDPM)[15]序列敗壞圖像與增加的噪聲,并學(xué)習(xí)逆轉(zhuǎn)敗壞作為一個生成模型。特別是,生成過程被定義為馬爾可夫擴散過程的逆過程,從白噪聲化開始,逐步將樣本降噪為圖像
DDPM將數(shù)據(jù)作為潛變量的形式pθ(x0):=∫pθ(x0:T)dx1:Tp_θ(x_0):=\int{p_θ(x_{0:T})}dx_{1:T}pθ?(x0?):=pθ?(x0:T?)dx1:T?,其中x0q(x0)x_0 ~ q(x_0)x0??q(x0?)為圖像,T是馬爾可夫鏈的長度,x1,…,xTx_1,…,x_Tx1?,xT?與圖像維度相同,pθ(x0:T)p_θ(x_{0:T})pθ?(x0:T?)是一個具有已知高斯躍遷的馬爾可夫鏈(逆過程)

DDPM還近似于正向過程中的posterior q(x1:T∣x0)q(x_{1:T}|x_0)q(x1:T?x0?)。這個馬爾可夫鏈逐漸向圖像中添加漸進(jìn)的高斯噪聲:

其中αt∈{α1,…,αT}為噪聲的調(diào)度權(quán)值,因此式(5)根據(jù)方差調(diào)度αT逐步添加高斯噪聲。式(6)是噪聲和圖像的線性插值函數(shù),它允許以任意時間步長采樣xt:

其中:

為了近似pθ(xt?1∣xt)p_θ(x_{t?1}|x_t)pθ?(xt?1?xt?), DDPM優(yōu)化了模型參數(shù)θ通過去噪分?jǐn)?shù)匹配(DSM)[41]。因此,損失函數(shù)被重新定義為一種更簡單的形式:

其中?θ\epsilon_θ?θ?是通過t時刻和xt預(yù)測所加上的噪聲?\epsilon?的非線性函數(shù)。使用近似的?θ\epsilon_θ?θ?μθ\mu_θμθ?可以被預(yù)測為:

(3)中的∑θ\sum_{\theta}θ?被設(shè)定為∑θ(xt,t)=(1?αt)I\sum_{\theta}(x_t,t)=(1-\alpha_t)Iθ?(xt?,t)=(1?αt?)I,這允許從xtx_txt?中采樣xt?1x_{t-1}xt?1?:

這允許采樣至x0x_0x0?
我們的方法應(yīng)用通過DDPM近似的潛在信息來學(xué)習(xí)圖像的不同領(lǐng)域,并在這些領(lǐng)域的潛在信息之間建立聯(lián)系。因此,它允許在目標(biāo)域內(nèi),以與輸入源域圖像相關(guān)的方式,從噪聲中逐步采樣,逐步對圖像進(jìn)行噪聲處理。

3.方法

圖2:我們的方法的處理流程。模型訓(xùn)練(頂部)和圖像翻譯推理(底部)

我們的目標(biāo)是在圖像的不同域之間發(fā)展I2I平移,其分布分別形成為式(2)的聯(lián)合概率。該方法需要通過經(jīng)驗風(fēng)險最小化從給定的源域和目標(biāo)域數(shù)據(jù)集中學(xué)習(xí)模型的參數(shù),然后能夠從對應(yīng)的源域圖像推斷目標(biāo)域圖像。

3.1.模型訓(xùn)練

個人理解:正向過程是從噪聲到圖像的建模,反向過程就是圖像到噪聲的建模,θ是兩個域的反向擴散模型的參數(shù)\color{red}{個人理解:正向過程是從噪聲到圖像的建模,反向過程就是圖像到噪聲的建模,θ是兩個域的反向擴散模型的參數(shù)}個人理解:正向過程是從噪聲到圖像的建模,反向過程就是圖像到噪聲的建模,θ是兩個域的反向擴散模型的參數(shù)
?則是圖像翻譯網(wǎng)絡(luò)的參數(shù)\color{red}{\phi則是圖像翻譯網(wǎng)絡(luò)的參數(shù)}?則是圖像翻譯網(wǎng)絡(luò)的參數(shù)
假設(shè)一個源域x0A∈XAx^A_0∈X^Ax0A?XA和一個目標(biāo)域x0B∈XBx^B_0∈X^Bx0B?XB,我們迭代優(yōu)化每個域pθAAp^A_{θ^A}pθAA?,pθBBp^B_{θ^B}pθBB?的反向過程和領(lǐng)域翻譯函數(shù)x~0B=g?AA(x0A),x~0A=g?BB(x0B)\tilde{x}^B_0=g^A_{\phi^A}(x^A_0),\tilde{x}^A_0=g^B_{\phi^B}(x^B_0)x~0B?=g?AA?(x0A?),x~0A?=g?BB?(x0B?),它們僅用于模型訓(xùn)練,通過DSM(Domain-Specific Modeling?)分別將域A轉(zhuǎn)移到B和B轉(zhuǎn)移到A(圖2(上))。為了使源域和目標(biāo)域圖像對之間能夠轉(zhuǎn)換pθAAp^A_{θ^A}pθAA?,pθBBp^B_{θ^B}pθBB?被修改為pθAA(xt?1A∣xtA,x~tB),pθBB(xt?1B∣xtB,x~tA)p^A_{θ^A}(x^A_{t?1}|x^A_t,\tilde{x}^B_t),p^B_{θ^B}(x^B_{t?1}|x^B_t,\tilde{x}^A_t)pθAA?(xt?1A?xtA?x~tB?)pθBB?(xt?1B?xtB?x~tA?)等對生成的圖像具有條件。在反向過程優(yōu)化步驟中,模型參數(shù)θA、θB更新為基于式(8)的最小損失函數(shù),重寫為:

域平移函數(shù)的參數(shù)?A,?B\phi^A,\phi^B?A,?B更新為最小化DSM目標(biāo),固定θA、θB


重點解釋一下(11)(12)損失的含義,關(guān)鍵是理清幾個記法\color{red}{重點解釋一下(11)(12)損失的含義,關(guān)鍵是理清幾個記法}重點解釋一下(11)(12)損失的含義,關(guān)鍵是理清幾個記法
tA,tB分別表示A、B域的擴散時刻\color{red}{t^A,t^B分別表示A、B域的擴散時刻}tAtB分別表示AB域的擴散時刻
?θAA代表A領(lǐng)域的建模的擴散模型\color{red}{\epsilon^A_{\theta^A}代表A領(lǐng)域的建模的擴散模型}?θAA?代表A領(lǐng)域的建模的擴散模型
xt(x0A,?)代表A領(lǐng)域t時刻的加噪圖像\color{red}{x_t(x^A_0,\epsilon)代表A領(lǐng)域t時刻的加噪圖像}xt?(x0A?,?)代表A領(lǐng)域t時刻的加噪圖像
x~0B=g?AA(x0A),x~0A=g?BB(x0B)代表無噪聲的原始圖像經(jīng)過翻譯網(wǎng)絡(luò)翻譯的結(jié)果\color{red}{\tilde{x}^B_0=g^A_{\phi^A}(x^A_0),\tilde{x}^A_0=g^B_{\phi^B}(x^B_0)代表無噪聲的原始圖像經(jīng)過翻譯網(wǎng)絡(luò)翻譯的結(jié)果}x~0B?=g?AA?(x0A?),x~0A?=g?BB?(x0B?)代表無噪聲的原始圖像經(jīng)過翻譯網(wǎng)絡(luò)翻譯的結(jié)果
xt(g?BB(x0B),?)代表經(jīng)過翻譯后的B域圖像在t時刻的加噪圖像\color{red}{x_t(g^B_{\phi^B}(x^B_0),\epsilon)代表經(jīng)過翻譯后的B域圖像在t時刻的加噪圖像}xt?(g?BB?(x0B?),?)代表經(jīng)過翻譯后的B域圖像在t時刻的加噪圖像
g?BB(xt(x0B),?)代表B域在t時刻的加噪圖像經(jīng)過翻譯后的結(jié)果\color{red}{g^B_{\phi^B}(x_t(x^B_0),\epsilon)代表B域在t時刻的加噪圖像經(jīng)過翻譯后的結(jié)果}g?BB?(xt?(x0B?),?)代表B域在t時刻的加噪圖像經(jīng)過翻譯后的結(jié)果
xt(g?BB(x0B),?)=x~tBA表示無噪聲的B影像翻譯至域A在tB時刻的加噪圖像,xt(g?AA(x0A),?)=x~tAB\color{red}{x_t(g^B_{\phi^B}(x^B_0),\epsilon)=\tilde{x}^A_{t^B}表示無噪聲的B影像翻譯至域A在t^B時刻的加噪圖像,x_t(g^A_{\phi^A}(x^A_0),\epsilon)=\tilde{x}^B_{t^A}}xt?(g?BB?(x0B?),?)=x~tBA?表示無噪聲的B影像翻譯至域AtB時刻的加噪圖像,xt?(g?AA?(x0A?),?)=x~tAB?
g?BB(xt(x0B),?)=x~tAB表示無噪聲的A影像翻譯至域B在tA時刻的加噪圖像,g?AA(xt(x0A),?)=x~tBA\color{red}{g^B_{\phi^B}(x_t(x^B_0),\epsilon)=\tilde{x}^B_{t^A}表示無噪聲的A影像翻譯至域B在t^A時刻的加噪圖像,g^A_{\phi^A}(x_t(x^A_0),\epsilon)=\tilde{x}^A_{t^B}}g?BB?(xt?(x0B?),?)=x~tAB?表示無噪聲的A影像翻譯至域BtA時刻的加噪圖像,g?AA?(xt?(x0A?),?)=x~tBA?
10.11未理清,慎看,等我慢慢來\color{red}{10.11未理清,慎看,等我慢慢來}10.11未理清,慎看,等我慢慢來
此外,通過[44]中提出的周期一致性損失對訓(xùn)練進(jìn)行正則化,使兩個域翻譯模型都是雙客觀的。將(1)式的循環(huán)一致性損失改寫為:

損失函數(shù)描述如下:

其中λcyc為循環(huán)一致性損失的權(quán)重。算法1給出了整個訓(xùn)練過程。

3.2. 圖像翻譯推理

使用訓(xùn)練過的θA、θB,將輸入圖像從源域轉(zhuǎn)換到目標(biāo)域。在推理中不再使用域翻譯函數(shù)。相反,目標(biāo)域圖像由高斯噪聲和噪聲源域圖像逐步合成.在采樣過程中,生成過程以輸入源域圖像為條件,這些源域圖像受來自t=T直到任意時間步長tr∈[1,T]正向過程的擾動。然后,這個時間步驟通過反向過程重新生成,我們將其表示為釋放時間(圖2(底部))。從域Ax0Ax^A_0x0A?轉(zhuǎn)移到域B x^0B\hat{x}^B_0x^0B? 的情況描述如下:

整個翻譯(推理)過程在Algorithm2中介紹

4.評估

我們的方法與之前的未配對圖像到圖像翻譯方法[44][25][16][24]在公共數(shù)據(jù)集上進(jìn)行了評估,其中地面真相輸入輸出對是可用的[39][44][17]

4.1.基線

從我們提出的方法中推斷出的輸出圖像與CycleGAN[44]、UNIT[25]、MUNIT[16]和DRIT++[24]的輸出圖像進(jìn)行了定量和定性比較(圖5)。

4.2.數(shù)據(jù)集

我們?yōu)閷嶒灉?zhǔn)備了以下數(shù)據(jù)集。每個數(shù)據(jù)集包括圖像的兩個域(此處縮寫為域A和域B),并分為訓(xùn)練和測試數(shù)據(jù)集。所有圖像的大小都提前調(diào)整為64×64像素。
Facade:CMP Facades dataset中的(A)照片和(B)語義分割標(biāo)記了建筑物圖像[39]。包括400對用于訓(xùn)練,106對用于測試
Photos-Maps:(A)照片和(B)地圖圖像是從谷歌地圖中抓取的[44]。訓(xùn)練1096對,測試1098對。
Summer-Winter:使用Flickr API下載的(A)summer和(B)winterYosemite圖像[44]。數(shù)據(jù)集包括1231張夏季和962張冬季訓(xùn)練圖像,309張夏季和238張冬季測試圖像。
RGB-Thermal:KAIST多光譜行人數(shù)據(jù)集的(A)可見和(B)行人熱紅外圖像[17]。此數(shù)據(jù)集包含各種常規(guī)交通場景中的對齊可見圖像和熱圖像。由于圖像標(biāo)注了行人邊界框的區(qū)域,我們從一個場景(set00)中裁剪723對行人區(qū)域(大于64×64像素大小)用于訓(xùn)練,從另一個場景中裁剪425對行人區(qū)域用于測試(圖3)。

圖3:RGB–從KAIST多光譜行人數(shù)據(jù)集裁剪的熱數(shù)據(jù)集[17]。

4.3.通過UNIT-DDPM的圖像到圖像翻譯

圖4:我們的U-net架構(gòu)圖。每個Conv2d或ConvTranspose2d在輸入之前都包括BatchNorm2d和ReLU。

我們方法的去噪模型是使用基于PixelCNN[35]和Wide ResNet[43]的U-Net[34]實現(xiàn)的,變壓器正弦位置嵌入[40]對時間步長T=1000進(jìn)行編碼,αT從α1=0.9999線性減少到αT=0.98,與原始DDPM[15]相同,但用ReLU[27]替換Swith[33],組歸一化[42]與批歸一化[18],并移除自我注意塊以減少計算(圖4)。域轉(zhuǎn)換函數(shù)具有ResNet[13]體系結(jié)構(gòu),與U-net具有相同的層深度。在訓(xùn)練中,一對訓(xùn)練樣本和另一個偽域樣本連接為輸入。模型參數(shù)更新為λcyc=10.0,批次大小B=16,通過Adam(初始學(xué)習(xí)率η=10?51= 0.5,β2= 0.999)迭代20000epochs

4.4.結(jié)果

表1:不同圖像到圖像轉(zhuǎn)換方法的Fríechet初始距離(FID)[14]分?jǐn)?shù)

圖5:不同圖像到圖像轉(zhuǎn)換方法生成的輸出圖像示例。

圖6:通過我們的方法生成漸進(jìn)圖像的示例

由每種方法合成的輸出圖像如圖5所示,從圖中可以明顯看出,我們的方法在質(zhì)量上比CycleGAN[44]、UNIT[25]、MUNIT[16]和DRIT++[24]生成的圖像更逼真。我們還發(fā)現(xiàn),我們的方法根本沒有受到模式崩潰的影響,由于不需要對抗訓(xùn)練,因此得到的模型訓(xùn)練更加穩(wěn)定。此外,圖6顯示了反向過程中通過我們的方法進(jìn)行的累進(jìn)采樣。通過地面實況和輸出圖像之間的Fríechet InceptionDistance(FID)[14]進(jìn)行比較,如表1所示。在所有基準(zhǔn)數(shù)據(jù)集Facade、Photos–Maps、Summer–Winter、,and RGB–Thermal使~在所有此類數(shù)據(jù)集中,與之前的方法相比,為20%。

4.5.消融實驗

圖7:FID與釋放時間的比較。

我們通過從tr=1變?yōu)?00來分析釋放時間對性能的影響。FID的比較(圖7)顯示沒有顯著變化。我們可以觀察到歸因于釋放時間變化的細(xì)微差異,但這取決于數(shù)據(jù)集。這一結(jié)果表明,釋放時間超參數(shù)的調(diào)整依賴于數(shù)據(jù)集,進(jìn)一步的分析代表了未來工作的方向

4.6.局限

圖4:我們的U-net架構(gòu)圖。每個Conv2d或ConvTranspose2d在輸入之前都包括BatchNorm2d和ReLU。

圖8:使用我們的方法訓(xùn)練的模型生成的256×256像素的輸出圖像示例(Facade數(shù)據(jù)集大小調(diào)整為256×256像素)

我們還觀察了輸入圖像分辨率增加256×256像素時的輸出圖像。高分辨率模型使用相同的網(wǎng)絡(luò)架構(gòu)(圖4)和第節(jié)中的學(xué)習(xí)參數(shù)進(jìn)行訓(xùn)練。4.3.圖8所示的輸出在整個像素上被錯誤著色。這表明,由于高維圖像空間的復(fù)雜性增加,模型無法學(xué)習(xí)圖像的全局信息。一種可能的解決方案是在去噪模型中的Unet中添加更多層和注意機制,以便捕獲更精確的圖像多分辨率結(jié)構(gòu),這將在未來的工作中進(jìn)行研究。

5.結(jié)論

本文提出了一種新的非成對I2I翻譯方法,該方法使用DDPM而不需要對抗訓(xùn)練,稱為帶去噪擴散概率模型的未成對圖像翻譯(UNIT-DDPM)。我們的方法訓(xùn)練一個生成模型,通過最小化另一個域上的DSM目標(biāo),將兩個域上圖像的聯(lián)合分布推斷為馬爾可夫鏈。隨后,領(lǐng)域翻譯模型將同時更新,以最小化該DSM目標(biāo)。在聯(lián)合優(yōu)化這些生成和翻譯模型后,我們通過去噪MCMC方法生成目標(biāo)域圖像,該方法以基于Langevin動力學(xué)的輸入源域圖像為條件。我們的方法為I2I翻譯提供穩(wěn)定的模型訓(xùn)練,并生成高質(zhì)量的圖像輸出。
盡管實驗顯示了令人信服的結(jié)果,但我們方法的當(dāng)前形式遠(yuǎn)遠(yuǎn)不是一致肯定的,特別是在分辨率更高的情況下。為了解決這個問題,需要修改實現(xiàn)以更準(zhǔn)確地建模大型圖像。
此外,DDPM的一個缺點是圖像生成的時間。然而,這可以通過修改馬爾可夫過程來加速,例如去噪擴散隱式模型[37]或使用可學(xué)習(xí)∑θ[28]減少時間步長。未來的工作將考慮修改以實現(xiàn)更短的采樣時間和更高質(zhì)量的圖像輸出,以及將合成圖像應(yīng)用于其他下游計算機視覺系統(tǒng)(如對象分類)時的性能評估。

參考文獻(xiàn)

[1] Jianmin Bao, Dong Chen, Fang Wen, Houqiang Li, andGang Hua. Cvae-gan: fine-grained image generation throughasymmetric training. InProc. of the IEEE Intl. Conf. onComputer Vision, 2017. 2
[2] Qifeng Chen and Vladlen Koltun.Photographic imagesynthesis with cascaded refinement networks. InProc. ofthe IEEE Intl. Conf. on Computer Vision, 2017. 2
[3] Laurent Dinh, David Krueger, and Yoshua Bengio. Nice:Non-linear independent components estimation.Proc. 3rdIntl Conf. on Learning Representations, 2015.
[4] Laurent Dinh, Jascha Sohl-Dickstein, and Samy Bengio.Density estimation using real nvp. InProc. 5th Intl Conf.on Learning Representations, 2017. 1
[5] Z. Dong, S. Kamata, and T.P. Breckon.Infrared imagecolorization using s-shape network. InProc. Int. Conf. onImage Processing, 2018. 2
[6] Leon A. Gatys, Alexander S. Ecker, and Matthias Bethge.A neural algorithm of artistic style.CoRR abs/1508.06576,2015. 2
[7] G Gerhart, G Martin, and T Gonda.Thermal imagemodeling.InInfrared Sensors and Sensor Fusion.International Society for Optics and Photonics, 1987. 1
[8] Golnaz Ghiasi, Honglak Lee, Manjunath Kudlur, VincentDumoulin, and Jonathon Shlens. Exploring the structure ofa real-time, arbitrary neural artistic stylization network. InProc. British Machine Vision Conf., 2017. 1, 2
[9] Ian Goodfellow. Nips 2016 tutorial: Generative adversarialnetworks.CoRR abs/1701.00160, 2017. 2
[10] Ian Goodfellow, Yoshua Bengio, and Aaron C. Courville.Deep learning.Nature, 521:436–444, 2015. 1
[11] Ian Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, BingXu, David Warde-Farley, Sherjil Ozair, Aaron Courville, andYoshua Bengio. Generative adversarial nets. InAdvances inNeural Information Processing Systems 27. 2014. 1, 2
[12] Karol Gregor, Ivo Danihelka, Andriy Mnih, CharlesBlundell, and Daan Wierstra. Deep autoregressive networks.InProc. Intl. Conf. on Machine Learning, 2014. 1
[13] Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun.Deep residual learning for image recognition. InProc. ofthe IEEE Conf. on Computer Vision and Pattern Recognition,2016. 5
[14] Martin Heusel, Hubert Ramsauer, Thomas Unterthiner,Bernhard Nessler, and Sepp Hochreiter. Gans trained bya two time-scale update rule converge to a local nashequilibrium.InProc. Advances in Neural InformationProcessing Systems 30. 2017. 2, 7
[15] Jonathan Ho, Ajay Jain, and Pieter Abbeel.Denoisingdiffusionprobabilisticmodels.arXivpreprintarXiv:2006.11239, 2020. 1, 3, 5
[16] Xun Huang, Ming-Yu Liu, Serge Belongie, and Jan Kautz.Multimodal unsupervised image-to-image translation.InProc. of the European Conf. on Computer Vision, 2018. 2, 3,5, 6, 7
[17] Soonmin Hwang, Jaesik Park, Namil Kim, Yukyung Choi,and In So Kweon.Multispectral pedestrian detection:Benchmark dataset and baselines. InProc. of IEEE Conf.on Computer Vision and Pattern Recognition, 2015. 2, 5
[18] Sergey Ioffe and Christian Szegedy. Batch normalization:Accelerating deep network training by reducing internalcovariate shift. InProc. Intl. Conf. on Machine Learning,2015. 5
[19] Phillip Isola, Jun-Yan Zhu, Tinghui Zhou, and Alexei AEfros.Image-to-image translation with conditionaladversarial networks.InProc. of the IEEE Conf. onComputer Vision and Pattern Recognition, 2017. 1, 2
[20] Philip T. G. Jackson, Amir Atapour Abarghouei, StephenBonner, Toby P. Breckon, and Boguslaw Obara.Styleaugmentation: Data augmentation via style randomization.InProc. IEEE Conf. on Computer Vision and PatternRecognition Workshops, 2019
[21] Diederik P. Kingma and Jimmy Ba. Adam: A method forstochastic optimization. InProc. 3rd Intl. Conf. on LearningRepresentations, 2015. 7
[22] Durk P Kingma and Prafulla Dhariwal. Glow: Generativeflow with invertible 1x1 convolutions. InProc. Advances inNeural Information Processing Systems 31, 2018. 1
[23] Christian Ledig, Lucas Theis, Ferenc Husz ?ar, JoseCaballero, Andrew Cunningham, Alejandro Acosta, AndrewAitken, Alykhan Tejani, Johannes Totz, Zehan Wang,et al. Photo-realistic single image super-resolution using agenerative adversarial network. InProc. of the IEEE Conf.on Computer Vision and Pattern Recognition, 2017. 2
[24] Hsin-Ying Lee, Hung-Yu Tseng, Jia-Bin Huang, ManeeshSingh, and Ming-Hsuan Yang.Diverse image-to-imagetranslation via disentangled representations. InProc. of theEuropean Conf. on Computer Vision, 2018. 2, 3, 5, 6, 7
[25] Ming-Yu Liu, Thomas Breuel, and Jan Kautz. Unsupervisedimage-to-image translation networks. InAdvances in NeuralInformation Processing Systems 30. 2017. 2, 3, 5, 6, 7
[26] Zak Murez, Soheil Kolouri, David Kriegman, RaviRamamoorthi, and Kyungnam Kim.Image to imagetranslation for domain adaptation. InProc. of the IEEE Conf.on Computer Vision and Pattern Recognition, 2018. 2
[27] Vinod Nair and Geoffrey E Hinton. Rectified linear unitsimprove restricted boltzmann machines. InProc. of the 27thIntl. Conf. on Machine Learning, 2010. 5
[28] AlexNicholandPrafullaDhariwal.Improveddenoising diffusion probabilistic models.arXiv preprintarXiv:2102.09672, 2021. 8
[29] Niki Parmar, Ashish Vaswani, Jakob Uszkoreit, ?ukaszKaiser, Noam Shazeer, Alexander Ku, and Dustin Tran.Image transformer.InProc. 6th Intl Conf. on LearningRepresentations, 2018. 1
[30] Patrick P ?erez, Michel Gangnet, and Andrew Blake. Poissonimage editing. InACM SIGGRAPH 2003 Papers, 2003. 1
[31] Przemyslaw Prusinkiewicz and Mark Hammel. A fractalmodel of mountains and rivers. InGraphics Interface, 1993.1
[32] Yunchen Pu, Zhe Gan, Ricardo Henao, Xin Yuan, ChunyuanLi, Andrew Stevens, and Lawrence Carin.Variationalautoencoder for deep learning of images, labels and captions.InAdvances in Neural Information Processing Systems 29.2016. 1
[33] Prajit Ramachandran, Barret Zoph, and Quoc V. Le.Searching for activation functions.CoRR abs/1710.05941,2017. 5
[34] Olaf Ronneberger, Philipp Fischer, and Thomas Brox.U-net:Convolutional networks for biomedical imagesegmentation. InIntl. Conf. on Medical Image Computingand Computer-Assisted Intervention, 2015. 2, 5
[35] Tim Salimans, Andrej Karpathy, Xi Chen, and Diederik P.Kingma.Pixelcnn++:A pixelcnn implementationwith discretized logistic mixture likelihood and othermodifications.InProc. 5th Intl Conf. on LearningRepresentations, 2017
[36] Jascha Sohl-Dickstein, Eric Weiss, Niru Maheswaranathan,and Surya Ganguli.Deep unsupervised learning usingnonequilibrium thermodynamics.InProc. of MachineLearning Research 37, 2015. 1
[37] Jiaming Song,Chenlin Meng,and Stefano Ermon.Denoising diffusion implicit models.arXiv preprintarXiv:2010.02502, 2020. 8
[38] Yang Song and Stefano Ermon. Generative modeling byestimating gradients of the data distribution.InProc.Advances in Neural Information Processing Systems 32.2019. 1
[39] Radim Tyleˇcek and RadimˇS ?ara. Spatial pattern templatesfor recognition of objects with regular structure. InGermanConference on Pattern Recognition, 2013. 2, 5
[40] Ashish Vaswani, Noam Shazeer, Niki Parmar, JakobUszkoreit, Llion Jones, Aidan N Gomez, ? ukasz Kaiser, andIllia Polosukhin. Attention is all you need. InProc. Advancesin Neural Information Processing Systems 30, 2017. 5
[41] Pascal Vincent.A connection between score matchingand denoising autoencoders.Neural computation,23(7):1661–1674, 2011. 3
[42] Yuxin Wu and Kaiming He. Group normalization. InProc.of the European Conf. on Computer Vision, 2018. 5
[43] Sergey Zagoruyko and Nikos Komodakis. Wide residualnetworks. InProc. of the British Machine Vision Conference,2016. 5
[44] Jun-Yan Zhu, Taesung Park, Phillip Isola, and Alexei A.Efros.Unpaired image-to-image translation usingcycle-consistent adversarial networks.InProc. IEEEIntl. Conf. on Computer Vision, 2017. 1, 2, 3, 4, 5, 6, 7
[45] Jun-Yan Zhu, Richard Zhang, Deepak Pathak, TrevorDarrell, Alexei A Efros, Oliver Wang, and Eli Shechtman.Toward multimodal image-to-image translation. InProc.Advances in Neural Information Processing Systems 30.2017. 2
[46] Song-Chun Zhu. Statistical modeling and conceptualizationof visual patterns.IEEE Transactions on Pattern Analysisand Machine Intelligence, 25(6):691–712, 2003. 110

總結(jié)

以上是生活随笔為你收集整理的2022图像翻译/扩散模型:UNIT-DDPM: UNpaired Image Translation with Denoising Diffusion Probabilistic Models的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。