日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

2021-06-03 【论文笔记】Cross-domain Correspondence Learning for Exemplar-based Image Translation

發(fā)布時(shí)間:2023/12/8 编程问答 40 豆豆
生活随笔 收集整理的這篇文章主要介紹了 2021-06-03 【论文笔记】Cross-domain Correspondence Learning for Exemplar-based Image Translation 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

論文題目:Cross-domain Correspondence Learning for Exemplar-based Image Translation

論文主頁(yè):https://panzhang0212.github.io/CoCosNet/

論文鏈接:https://arxiv.org/abs/2004.05571

代碼鏈接:https://github.com/microsoft/CoCosNet

摘要

本文提供了一種圖像翻譯的通用框架,它從輸入的語(yǔ)義圖像合成真實(shí)的照片圖像。與常規(guī)不同的是這個(gè)框架可以再輸入一個(gè) exemplar image,以這個(gè) exemplar image的風(fēng)格來(lái)輸出最后的真實(shí)照片圖像。這個(gè)exemplar圖像給輸出圖像更多的限制,也提供了更多信息。
這個(gè)框架主要由兩部分組成,一是解決跨域語(yǔ)義對(duì)應(yīng)的Cross domain correspondence Network,二是解決翻譯生成圖像的Translation network。傳統(tǒng)方法的理論只能處理自然圖像直接的關(guān)系,無(wú)法處理跨域圖像,但本框架可以處理跨域圖像的問(wèn)題。

Cross domain correspondence Network
首先建立了位于不同領(lǐng)域的input和exemplar image之間的對(duì)應(yīng)關(guān)系,并對(duì)exemplar image進(jìn)行了相應(yīng)的扭曲,使其語(yǔ)義與input一致。具體是把兩個(gè)域的圖像映射到一個(gè)中間域,找到對(duì)應(yīng)關(guān)系,從而扭曲exemplar image.

input圖像xA屬于A域,exemplar圖像yB屬于B域,作者通過(guò)把xA 和yB放入feature pyramid network(利用FPN方法)提取特征,轉(zhuǎn)化為中間域S的xS和yS.
其中θF\theta_{\mathcal{F}}θF?是需要學(xué)習(xí)的參數(shù)
此步驟損失函數(shù)為:

Ldomain??1=∥FA→S(xA)?FB→S(xB)∥1\mathcal{L}_{\text {domain }}^{\ell_{1}}=\left\|\mathcal{F}_{A \rightarrow S}\left(x_{A}\right)-\mathcal{F}_{B \rightarrow S}\left(x_{B}\right)\right\|_{1}Ldomain??1??=FAS?(xA?)?FBS?(xB?)1?

由于XA和YB是不同域圖像,但包含相同語(yǔ)義,他們轉(zhuǎn)化到S域之后應(yīng)當(dāng)盡量對(duì)其,故損失函數(shù)為使兩者在S域中的映射之間的差別。應(yīng)使這個(gè)差異最小。

xA和yB都映射到域S之后,計(jì)算一個(gè)S域中他們倆的相關(guān)矩陣,然后通過(guò)softmax加權(quán)選擇yB中最相關(guān)的像素。
M(u,v)=x^S(u)Ty^S(v)∥x^S(u)∥∥y^S(v)∥\mathcal{M}(u, v)=\frac{\hat{x}_{S}(u)^{T} \hat{y}_{S}(v)}{\left\|\hat{x}_{S}(u)\right\|\left\|\hat{y}_{S}(v)\right\|}M(u,v)=x^S?(u)y^?S?(v)x^S?(u)Ty^?S?(v)?

ry→x(u)=∑vsoftmax?v(αM(u,v))?yB(v)r_{y \rightarrow x}(u)=\sum_{v} \operatorname{softmax}_{v}(\alpha \mathcal{M}(u, v)) \cdot y_{B}(v)ryx?(u)=v?softmaxv?(αM(u,v))?yB?(v)

損失函數(shù)為:Lreg=∥ry→x→y?yB∥1\mathcal{L}_{r e g}=\left\|r_{y \rightarrow x \rightarrow y}-y_{B}\right\|_{1}Lreg?=ryxy??yB?1?

Translation Network
把扭曲的exemplar image合成輸出圖像。從一個(gè)固定的常量z開(kāi)始,通過(guò)卷積逐步扭曲圖像的風(fēng)格信息。

αh,wi(ry→x)×Fc,h,wi?μh,wiσh,wi+βh,wi(ry→x)\alpha_{h, w}^{i}\left(r_{y \rightarrow x}\right) \times \frac{F_{c, h, w}^{i}-\mu_{h, w}^{i}}{\sigma_{h, w}^{i}}+\beta_{h, w}^{i}\left(r_{y \rightarrow x}\right)αh,wi?(ryx?)×σh,wi?Fc,h,wi??μh,wi??+βh,wi?(ryx?)

αi,βi=Ti(ry→x;θT)\alpha^{i}, \beta^{i}=\mathcal{T}_{i}\left(r_{y \rightarrow x} ; \theta_{\mathcal{T}}\right)αi,βi=Ti?(ryx?;θT?)

最終生成圖像:

x^B=G(z,Ti(ry→x;θT);θG)\hat{x}_{B}=\mathcal{G}\left(z, \mathcal{T}_{i}\left(r_{y \rightarrow x} ; \theta_{\mathcal{T}}\right) ; \theta_{\mathcal{G}}\right)x^B?=G(z,Ti?(ryx?;θT?);θG?)

最終網(wǎng)絡(luò)為七層,得到輸出圖片。
另外的一些損失函數(shù):
第一個(gè)是偽參考圖像對(duì)損失,xB作為真實(shí)值,xB’是xB的變形,保持圖片內(nèi)容不變,如翻轉(zhuǎn)等。如果吧xB’作為exemplar image,xA作為input,那么生成圖像應(yīng)接近xB。故損失函數(shù)為:

Lfeat?=∑lλl∥?l(G(xA,xB′))??l(xB)∥1\mathcal{L}_{\text {feat }}=\sum_{l} \lambda_{l}\left\|\phi_{l}\left(\mathcal{G}\left(x_{A}, x_{B}^{\prime}\right)\right)-\phi_{l}\left(x_{B}\right)\right\|_{1}Lfeat??=l?λl??l?(G(xA?,xB?))??l?(xB?)1?

第二個(gè)是參考圖像轉(zhuǎn)換損失,其中包含兩項(xiàng),perceptual loss和contextual loss。
perceptual loss:

Lperc?=∥?l(x^B)??l(xB)∥1\mathcal{L}_{\text {perc }}=\left\|\phi_{l}\left(\hat{x}_{B}\right)-\phi_{l}\left(x_{B}\right)\right\|_{1}Lperc??=?l?(x^B?)??l?(xB?)1?

contextual loss:

Lcontext?=∑lωl[?log?(1nl∑imax?jAl(?il(x^B),?jl(yB)))]\mathcal{L}_{\text {context }}=\sum_{l} \omega_{l}\left[-\log \left(\frac{1}{n_{l}} \sum_{i} \max _{j} A^{l}\left(\phi_{i}^{l}\left(\hat{x}_{B}\right), \phi_{j}^{l}\left(y_{B}\right)\right)\right)\right]Lcontext??=l?ωl?[?log(nl?1?i?maxj?Al(?il?(x^B?),?jl?(yB?)))]

最后是Adversarial loss:

LadvD=?E[h(D(yB))]?E[h(D(G(xA,yB)))]\mathcal{L}_{a d v}^{\mathcal{D}}=-\mathbb{E}\left[h\left(\mathcal{D}\left(y_{B}\right)\right)\right]-\mathbb{E}\left[h\left(\mathcal{D}\left(\mathcal{G}\left(x_{A}, y_{B}\right)\right)\right)\right]LadvD?=?E[h(D(yB?))]?E[h(D(G(xA?,yB?)))]

LadvG=?E[D(G(xA,yB))]\mathcal{L}_{a d v}^{\mathcal{G}}=-\mathbb{E}\left[\mathcal{D}\left(\mathcal{G}\left(x_{A}, y_{B}\right)\right)\right]LadvG?=?E[D(G(xA?,yB?))]

最終損失函數(shù)為:

Lθ=min?F,T,Gmax?Dψ1Lfeat?+ψ2Lperc?+ψ3Lcontext?+ψ4LadvG+ψ5Ldomain??1+ψ6Lreg?\begin{aligned} \mathcal{L}_{\theta}=\min _{\mathcal{F}, \mathcal{T}, \mathcal{G}} & \max _{\mathcal{D}} \psi_{1} \mathcal{L}_{\text {feat }}+\psi_{2} \mathcal{L}_{\text {perc }}+\psi_{3} \mathcal{L}_{\text {context }} \\ &+\psi_{4} \mathcal{L}_{a d v}^{\mathcal{G}}+\psi_{5} \mathcal{L}_{\text {domain }}^{\ell_{1}}+\psi_{6} \mathcal{L}_{\text {reg }}\end{aligned}Lθ?=F,T,Gmin??Dmax?ψ1?Lfeat??+ψ2?Lperc??+ψ3?Lcontext??+ψ4?LadvG?+ψ5?Ldomain??1??+ψ6?Lreg???

實(shí)驗(yàn)
生成圖像對(duì)比:

跨領(lǐng)域的相關(guān)度
利用correlation matrix可以計(jì)算輸入語(yǔ)義圖像和輸入?yún)⒖硷L(fēng)格圖像之間不同點(diǎn)的對(duì)應(yīng)關(guān)系

圖像編輯
給定一張圖像及其對(duì)應(yīng)的mask,對(duì)語(yǔ)義mask進(jìn)行修改,再將原圖像作為參考風(fēng)格圖像

方法限制

示例圖像中的兩輛不同顏色汽車(chē)同時(shí)與input中的汽車(chē)相對(duì)應(yīng),方法可能會(huì)產(chǎn)生混合顏色偽影,與現(xiàn)實(shí)不符;此外,在多對(duì)一映射(第二行)的 情況下,多個(gè)實(shí)例(圖中的枕頭)可能使用相同的樣式

另外,相關(guān)矩陣等計(jì)算非常占用GPU內(nèi)存,使得這個(gè)方法很難用在高分辨率的圖像上。

總結(jié)

以上是生活随笔為你收集整理的2021-06-03 【论文笔记】Cross-domain Correspondence Learning for Exemplar-based Image Translation的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。