译文(Artistic Style Transfer with Internal-external Learning and Contrastive Learning)
內(nèi)部-外部學(xué)習(xí)和對(duì)比性學(xué)習(xí)的藝術(shù)風(fēng)格轉(zhuǎn)移
摘要?
盡管現(xiàn)有的藝術(shù)風(fēng)格轉(zhuǎn)移方法在深度神經(jīng)網(wǎng)絡(luò)的作用下取得了明顯的改善,但它們?nèi)匀淮嬖谥T如不和諧的顏色和重復(fù)的圖案等偽影。受此啟發(fā),我們提出了一種具有兩種對(duì)比性損失的內(nèi)部-外部風(fēng)格轉(zhuǎn)移方法。具體來(lái)說(shuō),我們利用單個(gè)風(fēng)格圖像的內(nèi)部統(tǒng)計(jì)數(shù)據(jù)來(lái)確定風(fēng)格化圖像的顏色和紋理模式,同時(shí),我們利用大規(guī)模風(fēng)格數(shù)據(jù)集的外部信息來(lái)學(xué)習(xí)人類(lèi)感知的風(fēng)格信息,這使得風(fēng)格化圖像中的顏色分布和紋理模式更加合理和諧。此外,我們認(rèn)為現(xiàn)有的風(fēng)格轉(zhuǎn)換方法只考慮了內(nèi)容到風(fēng)格化和風(fēng)格到風(fēng)格化的關(guān)系,忽視了風(fēng)格化到風(fēng)格化的關(guān)系。為了解決這個(gè)問(wèn)題,我們引入了兩個(gè)對(duì)比性損失,當(dāng)多個(gè)風(fēng)格化嵌入具有相同的內(nèi)容或風(fēng)格時(shí),它們會(huì)相互拉近,但在其他情況下則會(huì)推遠(yuǎn)。我們進(jìn)行了廣泛的實(shí)驗(yàn),表明我們提出的方法不僅可以產(chǎn)生視覺(jué)上更加和諧和令人滿意的藝術(shù)圖像,而且還可以促進(jìn)渲染視頻片段的穩(wěn)定性和一致性。
1 引言
圖1:風(fēng)格化的例子。第一列和第二列分別顯示了風(fēng)格和內(nèi)容圖像。其他七列顯示了由我們的方法、Gatys等人[10]、AdaIN[15]、WCT[30]、Avatar-Net[41]、LST[28]和SANet[36]產(chǎn)生的風(fēng)格化圖像。
藝術(shù)風(fēng)格轉(zhuǎn)移是一個(gè)長(zhǎng)期的研究課題,它試圖用給定的藝術(shù)作品風(fēng)格來(lái)呈現(xiàn)一張照片。自從Gatys等人[10]首次提出利用預(yù)訓(xùn)練的深度卷積神經(jīng)網(wǎng)絡(luò)(DCNN)來(lái)分離和重新組合任意圖像的內(nèi)容和風(fēng)格的神經(jīng)方法以來(lái),風(fēng)格轉(zhuǎn)換出現(xiàn)了空前的繁榮[20, 26, 15, 30, 36, 51, 48]。
盡管最近取得了一些進(jìn)展,但在真實(shí)的藝術(shù)作品和合成的風(fēng)格化之間仍然存在著很大的差距。如圖1所示,風(fēng)格化的圖像通常包含一些不和諧的顏色和重復(fù)的圖案,這使得它們很容易與真實(shí)的藝術(shù)作品相區(qū)別。我們認(rèn)為,這是因?yàn)楝F(xiàn)有的風(fēng)格轉(zhuǎn)換方法往往局限于單個(gè)藝術(shù)圖像的內(nèi)部風(fēng)格統(tǒng)計(jì)。在其他一些任務(wù)中(例如,圖像到圖像的翻譯[17, 60, 16, 25, 8, 18]),風(fēng)格通常是從圖像集合中學(xué)習(xí)的,這啟發(fā)我們利用大規(guī)模風(fēng)格數(shù)據(jù)集中保留的外部信息來(lái)提高風(fēng)格轉(zhuǎn)移的風(fēng)格化結(jié)果。為什么外部信息對(duì)風(fēng)格轉(zhuǎn)換如此重要?我們的分析如下:
盡管風(fēng)格數(shù)據(jù)集中的不同圖像在細(xì)節(jié)上有很大的不同,但它們有一個(gè)關(guān)鍵的共同點(diǎn):它們都是人類(lèi)創(chuàng)造的藝術(shù)品,其筆觸、色彩分布、紋理模式、色調(diào)等更符合人類(lèi)的感知。也就是說(shuō),它們包含了一些人類(lèi)意識(shí)到的風(fēng)格信息,而這些信息在合成的風(fēng)格化中是缺乏的。一個(gè)自然的想法是利用這種人類(lèi)意識(shí)到的風(fēng)格信息來(lái)改善風(fēng)格化的結(jié)果。為此,我們?cè)谟?xùn)練中采用了內(nèi)部-外部學(xué)習(xí)方案,將內(nèi)部學(xué)習(xí)和外部學(xué)習(xí)都考慮在內(nèi)。
更具體地說(shuō),一方面,我們遵循以前的方法[10, 20, 46, 54, 58],利用單個(gè)藝術(shù)品的內(nèi)部統(tǒng)計(jì)數(shù)據(jù)來(lái)確定風(fēng)格化圖像的顏色和紋理模式。另一方面,我們采用生成對(duì)抗網(wǎng)(GANs)[11, 39, 2, 56, 3],從大規(guī)模風(fēng)格數(shù)據(jù)集中外部學(xué)習(xí)人類(lèi)感知的風(fēng)格信息,然后利用這些信息使風(fēng)格化圖像的顏色分布和紋理模式更加合理、和諧,大大彌補(bǔ)了人類(lèi)創(chuàng)作的藝術(shù)品與人工智能創(chuàng)作的藝術(shù)品之間的差距。
此外,現(xiàn)有的風(fēng)格轉(zhuǎn)換方法還有一個(gè)問(wèn)題:它們通常采用內(nèi)容損失和風(fēng)格損失來(lái)分別執(zhí)行內(nèi)容到風(fēng)格的關(guān)系和風(fēng)格到風(fēng)格的關(guān)系,而忽略了風(fēng)格化到風(fēng)格化的關(guān)系,這對(duì)風(fēng)格轉(zhuǎn)換也很重要。什么是風(fēng)格化與風(fēng)格化的關(guān)系?直觀地說(shuō),用同一風(fēng)格圖像渲染的風(fēng)格化圖像應(yīng)該比用不同風(fēng)格圖像渲染的圖像在風(fēng)格上有更緊密的關(guān)系。同樣地,基于相同內(nèi)容圖像的風(fēng)格化圖像應(yīng)該比基于不同內(nèi)容圖像的風(fēng)格化圖像在內(nèi)容上有更緊密的關(guān)系。受此啟發(fā),本文介紹了兩種對(duì)比性損失:內(nèi)容對(duì)比性損失和風(fēng)格對(duì)比性損失,當(dāng)多個(gè)風(fēng)格化嵌入具有相同的內(nèi)容或風(fēng)格時(shí),它們可以相互拉近,但在其他情況下則會(huì)推遠(yuǎn)。據(jù)我們所知,這是第一項(xiàng)在風(fēng)格轉(zhuǎn)換場(chǎng)景中成功利用對(duì)比學(xué)習(xí)[6, 12, 21, 38]力量的工作。
我們大量的實(shí)驗(yàn)表明,所提出的方法不僅可以產(chǎn)生視覺(jué)上更和諧、更合理的藝術(shù)形象,而且還可以促進(jìn)渲染的視頻片段的穩(wěn)定性和一致性。
總而言之,這項(xiàng)工作的主要貢獻(xiàn)有三點(diǎn):
2 相關(guān)工作
藝術(shù)風(fēng)格的轉(zhuǎn)移。藝術(shù)風(fēng)格轉(zhuǎn)移是一項(xiàng)圖像編輯任務(wù),目的是將藝術(shù)風(fēng)格轉(zhuǎn)移到日常照片上,以創(chuàng)造新的藝術(shù)作品。早期的方法通常借助于傳統(tǒng)的2種技術(shù),如筆畫(huà)渲染[13]、圖像類(lèi)比[14, 42, 9, 31]和圖像過(guò)濾[52]來(lái)進(jìn)行藝術(shù)風(fēng)格轉(zhuǎn)移。這些方法通常依賴(lài)于低級(jí)別的統(tǒng)計(jì),往往不能捕捉到語(yǔ)義信息。最近,Gatys等人[10]發(fā)現(xiàn),從預(yù)訓(xùn)練的DCNN中提取的深層特征后的Gram矩陣可以明顯代表視覺(jué)風(fēng)格的特征,這開(kāi)啟了神經(jīng)風(fēng)格轉(zhuǎn)移的時(shí)代。此后,一系列的神經(jīng)方法被提出,從不同的關(guān)注點(diǎn)推動(dòng)了風(fēng)格轉(zhuǎn)移的發(fā)展。具體來(lái)說(shuō),[20, 27, 46]利用前饋網(wǎng)絡(luò)來(lái)提高工作效率。[26, 54, 36, 58, 35]細(xì)化風(fēng)格化圖像中的各種元素(包括內(nèi)容保存、紋理、筆觸等),以提高視覺(jué)質(zhì)量。[7, 15, 30, 41, 28]提出通用的風(fēng)格轉(zhuǎn)移方法,以實(shí)現(xiàn)通用化。[29、47、51]向生成網(wǎng)絡(luò)注入隨機(jī)噪聲以鼓勵(lì)多樣性。盡管進(jìn)展迅速,但這些風(fēng)格轉(zhuǎn)移方法仍然存在虛假的假象,如不和諧的顏色和重復(fù)的圖案。
請(qǐng)注意,還有另一條工作路線[40, 24, 23, 45, 4, 5],旨在從藝術(shù)家的所有作品中學(xué)習(xí)其風(fēng)格。相比之下,我們的重點(diǎn)不是學(xué)習(xí)藝術(shù)家的風(fēng)格,而是在外部風(fēng)格數(shù)據(jù)集中保留的人類(lèi)意識(shí)的風(fēng)格信息的幫助下,更好地傾向于藝術(shù)品的風(fēng)格(就像上一段提到的風(fēng)格轉(zhuǎn)移方法)。因此,我們的方法與這些工作是正交的。
圖像到圖像的轉(zhuǎn)換。圖像到圖像轉(zhuǎn)移(I2I)[17,60,16,25,8,18]旨在學(xué)習(xí)不同視覺(jué)領(lǐng)域之間的映射,這與風(fēng)格遷移密切相關(guān)。[60,16]已經(jīng)區(qū)分了這兩個(gè)任務(wù):(I)I2I只能在內(nèi)容相似的視域(如馬?斑馬和夏天?冬天)之間進(jìn)行翻譯,而風(fēng)格轉(zhuǎn)移沒(méi)有這樣的限制,其內(nèi)容圖像和樣式圖像可以完全不同(例如,前者是一個(gè)人的照片,后者是梵高的《星空》)。(II)I2I旨在學(xué)習(xí)兩個(gè)圖像集合之間的映射,而風(fēng)格遷移則旨在學(xué)習(xí)兩個(gè)特定圖像之間的映射。然而,我們認(rèn)為可以借鑒I2I的一些見(jiàn)解,利用大規(guī)模風(fēng)格圖像集合的外部信息來(lái)提高風(fēng)格傳遞的風(fēng)格化質(zhì)量。
內(nèi)部-外部學(xué)習(xí)。內(nèi)部-外部學(xué)習(xí)在各種圖像生成任務(wù)中顯示出有效性,如超分辨率、圖像繪畫(huà)等。詳細(xì)來(lái)說(shuō),Soh等人[44]通過(guò)利用外部和內(nèi)部樣本,提出了一種快速、靈活和輕量級(jí)的自監(jiān)督超分辨率方法。Park等人[37]開(kāi)發(fā)了一種內(nèi)部-外部超分辨率方法,促進(jìn)了超分辨率網(wǎng)絡(luò)的發(fā)展,進(jìn)一步提高了修復(fù)圖像的質(zhì)量。Wang等人[49]提出了一個(gè)通用的外部-內(nèi)部學(xué)習(xí)繪畫(huà)方案,該方案通過(guò)在大型數(shù)據(jù)集上的訓(xùn)練從外部學(xué)習(xí)語(yǔ)義知識(shí),同時(shí)充分利用單一測(cè)試圖像的內(nèi)部統(tǒng)計(jì)數(shù)據(jù)。然而,在風(fēng)格轉(zhuǎn)換領(lǐng)域,現(xiàn)有的方法只使用單一的藝術(shù)圖像來(lái)學(xué)習(xí)風(fēng)格,導(dǎo)致風(fēng)格化的結(jié)果不令人滿意。受此啟發(fā),在這項(xiàng)工作中,我們提出了一種內(nèi)部-外部風(fēng)格轉(zhuǎn)移方法,該方法同時(shí)考慮了內(nèi)部學(xué)習(xí)和外部學(xué)習(xí),大大縮小了人類(lèi)創(chuàng)造的藝術(shù)品和人工智能創(chuàng)造的藝術(shù)品之間的差距。
對(duì)比性學(xué)習(xí)。一般來(lái)說(shuō),對(duì)比學(xué)習(xí)過(guò)程中有三個(gè)關(guān)鍵因素:查詢、正面例子和負(fù)面例子。對(duì)比學(xué)習(xí)的目標(biāo)是將 "查詢 "與 "正面 "例子聯(lián)系起來(lái),同時(shí)將 "查詢 "與其他被稱(chēng)為 "負(fù)面 "的例子分開(kāi)。最近,對(duì)比性學(xué)習(xí)在條件圖像合成領(lǐng)域顯示了其有效性。更具體地說(shuō),ContraGAN[21]引入了條件性對(duì)比損失(2C損失)來(lái)學(xué)習(xí)數(shù)據(jù)到類(lèi)別和數(shù)據(jù)到數(shù)據(jù)的關(guān)系。Park等人[38]通過(guò)對(duì)比性學(xué)習(xí)使輸入和輸出之間的相互信息最大化,以鼓勵(lì)在非配對(duì)圖像翻譯問(wèn)題中保留內(nèi)容。Liu等人[34]引入了潛伏的對(duì)比性損失,鼓勵(lì)由相鄰的潛在的代碼生成的圖像相似,由不同的潛在的代碼生成的圖像不相似,實(shí)現(xiàn)了多樣化的圖像合成。Yu等人[55]提出了對(duì)抗性訓(xùn)練中的雙重對(duì)比損失,通過(guò)泛化表征來(lái)更有效地區(qū)分真假,并進(jìn)一步激勵(lì)圖像生成質(zhì)量。Wu等人[53]通過(guò)引入對(duì)比性學(xué)習(xí)改進(jìn)了圖像去模糊的結(jié)果,確保修復(fù)后的圖像在表示空間中被拉近到清晰的圖像,并被推遠(yuǎn)到模糊的圖像。
需要注意的是,上述所有的對(duì)比性學(xué)習(xí)方法都不能被用于風(fēng)格轉(zhuǎn)換。在這項(xiàng)工作中,我們首次嘗試將對(duì)比學(xué)習(xí)適用于藝術(shù)風(fēng)格轉(zhuǎn)移,并提出了兩種新的對(duì)比損失:內(nèi)容對(duì)比損失和風(fēng)格對(duì)比損失,以學(xué)習(xí)現(xiàn)有風(fēng)格轉(zhuǎn)移方法所忽略的風(fēng)格化與靜態(tài)化關(guān)系。
3 提出的方法?
圖2:擬議方法的概述。(a)說(shuō)明了我們的基本框架,它主要包含一個(gè)預(yù)訓(xùn)練的編碼器,一個(gè)風(fēng)格-注意力轉(zhuǎn)換模塊,一個(gè)解碼器和一個(gè)鑒別器。風(fēng)格損失Ls和內(nèi)容損失Lc分別用于學(xué)習(xí)風(fēng)格和內(nèi)容信息。對(duì)抗性損失Ladv被用來(lái)學(xué)習(xí)人類(lèi)意識(shí)到的風(fēng)格信息。(b)和(c)描述了身份損失Lidentity和對(duì)比損失Ls-contra & Lc-contra,其中Lidentity用于保留風(fēng)格化圖像中更多的內(nèi)容結(jié)構(gòu)和風(fēng)格特征,而Ls-contra & Lc-contra用于學(xué)習(xí)風(fēng)格化與風(fēng)格化的關(guān)系。
現(xiàn)有的風(fēng)格轉(zhuǎn)移方法通常會(huì)產(chǎn)生令人不滿意的風(fēng)格化結(jié)果,具有不和諧的顏色和重復(fù)的圖案,這使得它們很容易與真實(shí)的藝術(shù)作品相區(qū)別。
為了彌補(bǔ)人類(lèi)創(chuàng)作的藝術(shù)作品和人工智能創(chuàng)作的藝術(shù)作品之間的巨大差距,我們提出了一種新型的內(nèi)部-外部風(fēng)格轉(zhuǎn)移方法,該方法有兩個(gè)對(duì)比性損失。我們的方法概述如圖2所示。值得注意的是,我們的框架建立在SANet[36](最先進(jìn)的風(fēng)格轉(zhuǎn)移方法之一)的主干上,它由一個(gè)編碼器E、一個(gè)轉(zhuǎn)換模塊T和一個(gè)解碼器D組成。具體來(lái)說(shuō),E是一個(gè)預(yù)訓(xùn)練的VGG-19網(wǎng)絡(luò)[43],用于提取圖像特征;T是一個(gè)風(fēng)格注意網(wǎng)絡(luò),可以靈活地將語(yǔ)義最近的風(fēng)格特征匹配到內(nèi)容特征上;D是一個(gè)生成網(wǎng)絡(luò),用于將編碼的語(yǔ)義特征圖轉(zhuǎn)化為風(fēng)格化圖像。我們用我們提出的修改來(lái)擴(kuò)展SANet[36],我們的完整模型描述如下。
3.1?內(nèi)部-外部學(xué)習(xí)?
讓C和S分別為照藝術(shù)作品的集合。我們的目標(biāo)是既從單個(gè)藝術(shù)品Is∈S中學(xué)習(xí)內(nèi)部風(fēng)格特征,又從數(shù)據(jù)集S中學(xué)習(xí)外部人類(lèi)意識(shí)的風(fēng)格信息,然后將它們轉(zhuǎn)移到任意的內(nèi)容圖像Ic∈C中,以創(chuàng)建新的藝術(shù)圖像Isc。
內(nèi)部風(fēng)格學(xué)習(xí)。按照以前的風(fēng)格轉(zhuǎn)移方法[15, 36, 1],我們使用預(yù)先訓(xùn)練好的VGG-19網(wǎng)絡(luò)φ來(lái)捕捉單一藝術(shù)圖像的內(nèi)部風(fēng)格特征,風(fēng)格損失一般可以計(jì)算為:
其中φi表示VGG-19網(wǎng)絡(luò)的第i層(Relu1_1, Relu2_1, Relu3_1, Relu4_1和Relu5_1層在我們的模型中被使用)。μ和σ分別代表由φi提取的特征圖的平均值和標(biāo)準(zhǔn)偏差。
外部風(fēng)格學(xué)習(xí)。在這里,我們采用GAN[11, 39, 2, 56, 3]來(lái)從風(fēng)格數(shù)據(jù)集S中學(xué)習(xí)人類(lèi)意識(shí)到的風(fēng)格信息。GAN是一個(gè)流行的生成模型,由兩個(gè)相互競(jìng)爭(zhēng)的網(wǎng)絡(luò)(即生成器G和判別器D)組成。具體來(lái)說(shuō),我們將生成器產(chǎn)生的風(fēng)格化圖像和從S中取樣的藝術(shù)作品分別作為假數(shù)據(jù)和真實(shí)數(shù)據(jù)輸入到鑒別器。在訓(xùn)練過(guò)程中,生成器將試圖通過(guò)生成真實(shí)的藝術(shù)圖像來(lái)欺騙鑒別器,而鑒別器將試圖區(qū)分生成的假藝術(shù)作品和真實(shí)的藝術(shù)作品。這兩個(gè)網(wǎng)絡(luò)的聯(lián)合訓(xùn)練導(dǎo)致生成器能夠利用學(xué)到的人類(lèi)意識(shí)風(fēng)格信息生成顯著的逼真假圖像。對(duì)抗性訓(xùn)練過(guò)程可以被表述為(注意我們的生成器G包含一個(gè)編碼器E,一個(gè)轉(zhuǎn)換模塊T,和一個(gè)解碼器D,如圖2(a)所示)。
內(nèi)容結(jié)構(gòu)保存。為了在風(fēng)格化圖像Isc中保留Ic的內(nèi)容結(jié)構(gòu),我們采用廣泛使用的感知損失:
身份損失。與[36, 32, 59]類(lèi)似,當(dāng)內(nèi)容圖像和風(fēng)格圖像相同時(shí),我們利用身份損失來(lái)鼓勵(lì)生成器G成為一個(gè)近似的身份映射。通過(guò)這種方式,在風(fēng)格化結(jié)果中可以保留更多的內(nèi)容結(jié)構(gòu)和風(fēng)格特征。身份損失在圖2(b)中描述,定義為:
其中Icc是內(nèi)容圖像和風(fēng)格圖像都是Ic時(shí)產(chǎn)生的輸出圖像。λidentity1和λidentity2是與不同損失項(xiàng)相關(guān)的權(quán)重。對(duì)于φi,我們?cè)趯?shí)驗(yàn)中選擇Relu1_1、Relu2_1、Relu3_1、Relu4_1和Relu5_1層。
3.2對(duì)比學(xué)習(xí)?
直觀地說(shuō),用相同風(fēng)格的圖像渲染的風(fēng)格化圖像應(yīng)該比用不同風(fēng)格的圖像渲染的圖像在風(fēng)格上有更緊密的關(guān)系。同樣地,基于相同內(nèi)容圖像的風(fēng)格化圖像應(yīng)該比基于不同內(nèi)容圖像的風(fēng)格化圖像在內(nèi)容上有更緊密的關(guān)系。我們把這種關(guān)系稱(chēng)為風(fēng)格化與風(fēng)格化的關(guān)系。一般來(lái)說(shuō),現(xiàn)有的風(fēng)格轉(zhuǎn)換方法只考慮了內(nèi)容到風(fēng)格和風(fēng)格到風(fēng)格的關(guān)系,采用了內(nèi)容損失和風(fēng)格損失(如上面介紹的Lc和Ls),而忽略了風(fēng)格化到風(fēng)格化的關(guān)系。為了解決這個(gè)問(wèn)題,我們首次將對(duì)比性學(xué)習(xí)引入到風(fēng)格轉(zhuǎn)換中。對(duì)比學(xué)習(xí)的核心思想是將數(shù)據(jù)點(diǎn)與它們的 "正面 "例子聯(lián)系起來(lái),而將它們與其他被認(rèn)為是 "負(fù)面 "的數(shù)據(jù)點(diǎn)分開(kāi)。
具體來(lái)說(shuō),我們提出了兩種對(duì)比性損失:風(fēng)格對(duì)比性損失和內(nèi)容對(duì)比性損失來(lái)學(xué)習(xí)風(fēng)格化與風(fēng)格化的關(guān)系。請(qǐng)注意,為了更清楚地表達(dá),以下我們用si表示第i個(gè)風(fēng)格圖像,ci表示第i個(gè)內(nèi)容圖像,sici表示用si和ci生成的風(fēng)格化圖像。為了在每個(gè)訓(xùn)練批次中進(jìn)行對(duì)比學(xué)習(xí),我們以下列方式安排一批風(fēng)格和內(nèi)容圖像:
假設(shè)批次大小=b,是一個(gè)偶數(shù)。那么我們得到一批風(fēng)格化圖像{s1, s2, ..., sb/2, s1, s2, ..., sb/2-1, sb/2},和一批內(nèi)容圖像{c1, c2, ..., cb/2, c2, c3, ..., cb/2, c1}。因此,相應(yīng)的風(fēng)格化圖像是{s1c1, s2c2, ..., sb/2cb/2, s1c2, s2c3, ..., sb/2-1cb/2, sb/2c1}。通過(guò)這種方式,我們確保對(duì)于每個(gè)風(fēng)格化的圖像sicj,我們可以找到一個(gè)與它有相同風(fēng)格的風(fēng)格化圖像sicx(x ≠?j),以及一個(gè)與它有相同內(nèi)容的風(fēng)格化圖像sycj(y ≠?i)在同一批次。圖2(c)以b=8為例,描述了這個(gè)過(guò)程。
風(fēng)格對(duì)比性損失。為了關(guān)聯(lián)具有相同風(fēng)格的風(fēng)格化圖像,對(duì)于一個(gè)風(fēng)格化圖像sicj,我們選擇sicx(x ≠?j)作為它的正面例子(sicx與sicj具有相同的風(fēng)格),并選擇smcn(m ≠?i和n ≠?j)作為它的負(fù)面例子。請(qǐng)注意,smcn代表了一系列風(fēng)格化的圖像,而不僅僅是一個(gè)圖像。那么我們可以把我們的風(fēng)格對(duì)比損失表述如下:
其中l(wèi)s = hs(φrelu3_1(·)),其中hs是一個(gè)風(fēng)格投影網(wǎng)絡(luò)。ls用于從風(fēng)格化圖像中獲得風(fēng)格嵌入。τ是一個(gè)溫度超參數(shù),用于控制推力和拉力。
內(nèi)容對(duì)比性損失。與風(fēng)格對(duì)比損失類(lèi)似,為了關(guān)聯(lián)共享相同內(nèi)容的風(fēng)格化圖像,對(duì)于風(fēng)格化圖像sicj,我們選擇sycj(y ≠?i)作為其正面例子(sycj與sicj共享相同的內(nèi)容),選擇smcn(m ≠?i和n ≠?j)作為其負(fù)面例子。我們將內(nèi)容對(duì)比損失表示為:
其中l(wèi)c = hc(φrelu4_1(·)),其中hc是一個(gè)內(nèi)容投影網(wǎng)絡(luò)。lc被用來(lái)從風(fēng)格化的圖像中獲得內(nèi)容嵌入。
3.3最終目標(biāo)
我們總結(jié)所有上述損失,得到我們模型的最終目標(biāo),
其中λ1、λ2、λ3、λ4、λ5和λ6是用于適當(dāng)平衡損失的超參數(shù)。
4 實(shí)驗(yàn)結(jié)果
在本節(jié)中,我們首先介紹了實(shí)驗(yàn)設(shè)置。然后,我們介紹了所提出的方法和幾個(gè)基線模型之間的定性和定量比較。最后,我們通過(guò)進(jìn)行消融研究來(lái)討論我們模型中每個(gè)組成部分的效果。
4.1實(shí)驗(yàn)設(shè)置
實(shí)施細(xì)節(jié)。我們?cè)谧罱腟ANet[36]骨干網(wǎng)的基礎(chǔ)上,用我們提出的修改來(lái)擴(kuò)展它,以進(jìn)一步推動(dòng)自動(dòng)藝術(shù)品生成的界限。關(guān)于編碼器E、轉(zhuǎn)換模塊T和解碼器D的詳細(xì)網(wǎng)絡(luò)結(jié)構(gòu),我們參考原始論文[36]。至于判別器D,我們采用Wang等人[50]提出的多尺度判別器。風(fēng)格投影網(wǎng)絡(luò)hs是一個(gè)兩層的MLP(多層感知器),第一層有256個(gè)單元,第二層有128個(gè)單元。同樣地,內(nèi)容投影網(wǎng)絡(luò)hc是一個(gè)兩層MLP,每層有128個(gè)單元。公式(5)和(6)中的超參數(shù)τ被設(shè)定為0.2。方程(4)和(7)中的損失權(quán)重設(shè)置為λidentity1=50,λidentity2=1,λ1=1,λ2=5,λ3=1,λ4=1,λ5=0.3,和λ6=0.3。我們使用Adam優(yōu)化器訓(xùn)練我們的網(wǎng)絡(luò),學(xué)習(xí)率為0.0001,批次大小為16,迭代次數(shù)為160000。我們的代碼可在以下網(wǎng)站獲得:
GitHub - HalbertCH/IEContraAST: This is the official PyTorch implementation of our paper: "Artistic Style Transfer with Internal-external Learning and Contrastive Learning".
數(shù)據(jù)集。與[15, 58, 36, 19]一樣,我們將MS-COCO[33]和WikiArt[22]分別作為內(nèi)容數(shù)據(jù)集和風(fēng)格數(shù)據(jù)集。在訓(xùn)練階段,我們首先將訓(xùn)練圖像的最小尺寸調(diào)整為512,同時(shí)保留長(zhǎng)寬比,然后從這些圖像中隨機(jī)裁剪出256×256的補(bǔ)丁作為輸入。請(qǐng)注意,在參考階段,我們的方法適用于任何尺寸的內(nèi)容圖像和風(fēng)格圖像。
基線。我們選擇了幾種最先進(jìn)的風(fēng)格轉(zhuǎn)換方法作為基線,包括Gatys等人[10]、AdaIN[15]、WCT[30]、Avatar-Net[41]、LST[28]和SANet[36]。所有這些方法都是通過(guò)使用公共代碼和默認(rèn)配置進(jìn)行的。
圖3:圖像風(fēng)格遷移的定性比較。第一行顯示內(nèi)容和樣式圖像。其余行顯示使用不同樣式傳遞方法生成的樣式化結(jié)果。
4.2定性比較
在圖3中,我們顯示了我們的方法與上面介紹的六個(gè)基線之間的定性比較。我們觀察到Gatys等人[10]容易陷入糟糕的局部最小值(例如,第1、2和3列)。Adain[15]有時(shí)會(huì)產(chǎn)生亂七八糟的風(fēng)格化圖像,邊緣帶有看不見(jiàn)的顏色和不想要的光暈(例如,第1、3和6列)。WCT[30]經(jīng)常引入扭曲的圖案,從而產(chǎn)生結(jié)構(gòu)較少且缺乏風(fēng)格化的圖像(例如,第二、第四和第五列)。Avatar-Net[41]很難產(chǎn)生清晰的細(xì)節(jié)和細(xì)膩的筆觸(例如,第一、第四和第五欄)。LST[28]通常產(chǎn)生樣式較少的圖像,紋理圖案非常有限(例如,第2、4和6列)。SANET[36]傾向于在不同的風(fēng)格(例如,第1、第3和第6列)之間應(yīng)用相似的重復(fù)紋理圖案。
盡管最近取得了一些進(jìn)展,但合成的藝術(shù)圖像和真實(shí)的藝術(shù)作品之間的差距仍然很大。為了進(jìn)一步縮小這一差距,我們將內(nèi)部-外部學(xué)習(xí)和對(duì)比學(xué)習(xí)引入到藝術(shù)風(fēng)格的轉(zhuǎn)換中,從而使視覺(jué)上更加和諧和,如圖3的第二行所示。
我們還將我們的方法與6條基線進(jìn)行了視頻風(fēng)格轉(zhuǎn)換的比較,視頻風(fēng)格轉(zhuǎn)換是在內(nèi)容視頻和風(fēng)格圖像之間以幀的方式進(jìn)行的。樣式化結(jié)果如圖4所示。為了可視化合成視頻剪輯的穩(wěn)定性和一致性,我們還在圖4的最后一列中顯示了不同幀之間差異的熱圖。正如我們可以看到的那樣,我們的方法在穩(wěn)定性和一致性方面明顯優(yōu)于現(xiàn)有的樣式轉(zhuǎn)換方法。這可以歸因于兩點(diǎn):(I)外部學(xué)習(xí)通過(guò)消除那些扭曲的紋理模式來(lái)平滑風(fēng)格化結(jié)果;(II)擬議的對(duì)比損失考慮了風(fēng)格化與風(fēng)格化的關(guān)系,將相鄰的風(fēng)格化框架拉得更近,因?yàn)樗鼈儞碛邢嗤娘L(fēng)格和相似的內(nèi)容。
圖4:視頻風(fēng)格轉(zhuǎn)移的定性比較。第一行顯示了幾個(gè)視頻幀和樣式圖像。其余行顯示使用不同樣式傳遞方法生成的樣式化結(jié)果。最后一列顯示了不同幀之間差異的熱圖。
4.3定量比較
由于上面提出的定性評(píng)估可能是主觀的,在本節(jié)中,我們借助幾個(gè)評(píng)估指標(biāo),以定量的方式更好地評(píng)估所提出的方法的性能。
用戶研究[54, 36, 24, 23, 48]是風(fēng)格轉(zhuǎn)換中最廣泛采用的評(píng)價(jià)指標(biāo),它調(diào)查了用戶對(duì)不同風(fēng)格化結(jié)果的偏好,以進(jìn)行更客觀的比較。
傾向性得分。我們使用10張內(nèi)容圖像和15張風(fēng)格圖像來(lái)合成150張風(fēng)格化的圖像。每種方法。然后為每個(gè)參與者隨機(jī)選擇20個(gè)內(nèi)容-風(fēng)格對(duì),并按隨機(jī)順序向他們展示我們的方法和競(jìng)爭(zhēng)者的方法所產(chǎn)生的風(fēng)格化圖像。接下來(lái),我們要求每個(gè)參與者為每個(gè)內(nèi)容風(fēng)格對(duì)選擇他/她最喜歡的風(fēng)格化結(jié)果。最后,我們從50名參與者中收集了1000張投票,并在表1的第二行列出了每種方法的得票率在表1的第二行。結(jié)果表明,由我們的方法生成的風(fēng)格化圖像與其他競(jìng)爭(zhēng)方法生成的圖像相比,人類(lèi)參與者更喜歡我們的風(fēng)格化圖像。 ?
欺騙得分。為了衡量人工智能創(chuàng)造的藝術(shù)圖像和人類(lèi)創(chuàng)造的藝術(shù)作品之間的差距,我們進(jìn)行了另一項(xiàng)用戶研究:對(duì)于每個(gè)參與者,我們向他們展示80張藝術(shù)圖像,其中包括從WikiArt[22]收集的10張人類(lèi)創(chuàng)造的藝術(shù)作品,以及由我們和6種基線方法生成的70張風(fēng)格化圖像(注意,每種方法提供10張風(fēng)格化的圖像)。然后,對(duì)于每張圖片,我們要求這些參與者猜測(cè)它是否是真正的藝術(shù)品。欺騙得分被計(jì)算為由該方法生成的風(fēng)格化圖像被識(shí)別為 "真實(shí) "的次數(shù)的百分比。為了比較,我們也報(bào)告了人類(lèi)創(chuàng)造的藝術(shù)品被識(shí)別為 "真實(shí) "的次數(shù)。結(jié)果顯示在表1的第三行,我們可以看到我們的方法的欺騙率最接近人類(lèi)創(chuàng)造的藝術(shù)品,進(jìn)一步證明了我們方法的有效性。
為了定量評(píng)估所提出的方法在視頻風(fēng)格轉(zhuǎn)換上的穩(wěn)定性和一致性,我們采用LPIPS(學(xué)習(xí)感知圖像補(bǔ)丁相似度)[57]作為評(píng)估指標(biāo)。
LPIPS。LPIPS是多模態(tài)圖像-圖像轉(zhuǎn)換(MI2I)領(lǐng)域中廣泛使用的指標(biāo)[61, 16, 25, 8],用于衡量多樣性。在本文中,我們采用LPIPS,通過(guò)計(jì)算相鄰幀之間的平均感知距離來(lái)衡量渲染片段的穩(wěn)定性和一致性。
請(qǐng)注意,與MI2I方法相反的是,我們期望較高的LPIPS值能實(shí)現(xiàn)更好的多樣性,我們期望較低的LPIPS值能實(shí)現(xiàn)更好的穩(wěn)定性和一致性。我們?yōu)槊糠N方法合成了18個(gè)風(fēng)格化的視頻片段,并在表2中報(bào)告了平均LPIPS距離,我們觀察到我們的方法在所有方法中獲得了最好的分?jǐn)?shù),與圖4中的定性比較一致。
4.4消融研究?
圖5:外部學(xué)習(xí)(abbr . EL)和對(duì)比學(xué)習(xí)(abbr . CL)對(duì)(a)圖像風(fēng)格轉(zhuǎn)移和(b)視頻風(fēng)格轉(zhuǎn)移的消融研究。請(qǐng)放大以獲得更好的視野和細(xì)節(jié)。
在本節(jié)中,我們進(jìn)行了幾項(xiàng)消融研究,以突出我們模型中不同成分的效果。
我們首先探討外部學(xué)習(xí)(abbr . EL)和對(duì)比學(xué)習(xí)(abbr . CL)對(duì)圖像風(fēng)格轉(zhuǎn)移的影響。至于內(nèi)部學(xué)習(xí),由于它的效果已經(jīng)在現(xiàn)有的風(fēng)格轉(zhuǎn)移方法中得到了充分的驗(yàn)證,所以我們?cè)诒緦?shí)驗(yàn)中沒(méi)有消減它。圖5(a)顯示了我們的方法在有和沒(méi)有EL/CL的情況下的圖像風(fēng)格化結(jié)果。可以看出,沒(méi)有EL,風(fēng)格化的圖像變得更加混亂,顏色突變,明顯失真。原因可能是沒(méi)有EL的模型只注重提高風(fēng)格化圖像和風(fēng)格化圖像之間的風(fēng)格相似度,而沒(méi)有考慮風(fēng)格化圖像中的顏色分布和紋理模式是否自然和諧。相比之下,帶有EL的模型可以從大規(guī)模的風(fēng)格數(shù)據(jù)集中學(xué)習(xí)人類(lèi)意識(shí)到的風(fēng)格信息,從而得到更真實(shí)、更和諧的風(fēng)格化圖像,辨別器無(wú)法將其與真實(shí)的藝術(shù)作品區(qū)分開(kāi)。此外,我們還發(fā)現(xiàn),我們的方法可以通過(guò)提出的對(duì)比性損失更好地將目標(biāo)風(fēng)格與內(nèi)容圖像相匹配。這是因?yàn)槲覀兊膶?duì)比性損失可以幫助網(wǎng)絡(luò)通過(guò)考慮風(fēng)格化與風(fēng)格化的關(guān)系來(lái)學(xué)習(xí)更好的風(fēng)格和內(nèi)容表征,進(jìn)一步完善風(fēng)格化的結(jié)果。圖5(a)最后一欄報(bào)告的用戶偏好結(jié)果也表明,我們的完整模型具有最好的性能。
在視頻風(fēng)格轉(zhuǎn)移上也進(jìn)行了類(lèi)似的消融研究。如圖5(b)所示,在我們將外部學(xué)習(xí)或?qū)Ρ葘W(xué)習(xí)從我們的方法中移除后,可以觀察到穩(wěn)定性的下降(注意頭發(fā)和皮膚的顏色),這與報(bào)道的LPIPS距離是一致的。結(jié)果表明,外部學(xué)習(xí)和對(duì)比性學(xué)習(xí)都可以提高視頻風(fēng)格轉(zhuǎn)移的穩(wěn)定性。正如我們?cè)诘?.2節(jié)中所分析的,外部學(xué)習(xí)通過(guò)消除扭曲的紋理模式獲得穩(wěn)定性收益,而對(duì)比學(xué)習(xí)通過(guò)將相鄰的風(fēng)格化幀拉近來(lái)獲得穩(wěn)定性收益。
5 局限性?
本工作的一個(gè)局限性是,所提出的內(nèi)部-外部學(xué)習(xí)方案和兩個(gè)對(duì)比性損失不能應(yīng)用于無(wú)學(xué)習(xí)的風(fēng)格轉(zhuǎn)移方法,如WCT[30],Avatar-Net[41],LST[28]等。這是因?yàn)橛?xùn)練過(guò)程對(duì)我們的方法是必要的。因此,我們的方法只能被納入到基于學(xué)習(xí)的方法中,如Johnson等人[20]、AdaIN[15]、SANet[36](在這項(xiàng)工作中,我們主要以SANet為骨干來(lái)展示我們方法的有效性和優(yōu)越性)等。另一個(gè)限制是,在推理階段,與訓(xùn)練風(fēng)格差異過(guò)大的風(fēng)格圖像可能無(wú)法從外部學(xué)習(xí)方案中受益,因?yàn)樗鼈儾辉趯W(xué)習(xí)的風(fēng)格分布范圍內(nèi)。
6 結(jié)論?
在本文中,我們提出了一種具有兩種新型對(duì)比損失的內(nèi)部-外部風(fēng)格轉(zhuǎn)移方法。
內(nèi)部-外部學(xué)習(xí)方案同時(shí)學(xué)習(xí)單個(gè)藝術(shù)圖像的內(nèi)部統(tǒng)計(jì)數(shù)據(jù)和大規(guī)模風(fēng)格數(shù)據(jù)集的人類(lèi)感知風(fēng)格信息。至于對(duì)比損失,它們專(zhuān)門(mén)用于學(xué)習(xí)風(fēng)格化與風(fēng)格化之間的關(guān)系,當(dāng)多個(gè)風(fēng)格化嵌入具有相同的內(nèi)容或風(fēng)格時(shí),它們會(huì)相互拉近,而在其他情況下則會(huì)相互推遠(yuǎn)。大量的實(shí)驗(yàn)表明,我們的方法不僅可以產(chǎn)生視覺(jué)上更和諧、更令人滿意的藝術(shù)圖像,而且還可以大大促進(jìn)渲染的視頻片段的穩(wěn)定性和一致性。所提出的方法簡(jiǎn)單而有效,并可能從一個(gè)新的角度為未來(lái)對(duì)藝術(shù)風(fēng)格轉(zhuǎn)移的更多理解提供啟示。在未來(lái),我們希望將我們的方法擴(kuò)展到其他視覺(jué)任務(wù)中,例如,紋理合成。
參看文獻(xiàn)
[1] Jie An, Siyu Huang, Yibing Song, Dejing Dou, Wei Liu, and Jiebo Luo. Artflow: Unbiased image style
transfer via reversible neural flows. arXiv preprint arXiv:2103.16877, 2021.
[2] Martin Arjovsky, Soumith Chintala, and Léon Bottou. Wasserstein gan. arXiv preprint arXiv:1701.07875,
2017.
[3] Andrew Brock, Jeff Donahue, and Karen Simonyan. Large scale gan training for high fidelity natural
image synthesis. arXiv preprint arXiv:1809.11096, 2018.
[4] Haibo Chen, Lei Zhao, Zhizhong Wang, Huiming Zhang, Zhiwen Zuo, Ailin Li, Wei Xing, and Dongming
Lu. Dualast: Dual style-learning networks for artistic style transfer. In Proceedings of the IEEE/CVF
Conference on Computer Vision and Pattern Recognition, pages 872–881, 2021.
[5] Haibo Chen, Lei Zhao, Huiming Zhang, Zhizhong Wang, Zhiwen Zuo, Ailin Li, Wei Xing, and Dongming
Lu. Diverse image style transfer via invertible cross-space mapping. In Proceedings of the IEEE/CVF
International Conference on Computer Vision (ICCV), pages 14880–14889, October 2021.
[6] Ting Chen, Simon Kornblith, Mohammad Norouzi, and Geoffrey Hinton. A simple framework for
contrastive learning of visual representations. In International conference on machine learning, pages
1597–1607. PMLR, 2020.
[7] Tian Qi Chen and Mark Schmidt. Fast patch-based style transfer of arbitrary style. arXiv preprint
arXiv:1612.04337, 2016.
[8] Y unjey Choi, Y oungjung Uh, Jaejun Y oo, and Jung-Woo Ha. Stargan v2: Diverse image synthesis
for multiple domains. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern
Recognition, pages 8188–8197, 2020.
[9] Oriel Frigo, Neus Sabater, Julie Delon, and Pierre Hellier. Split and match: Example-based adaptive patch
sampling for unsupervised style transfer. In Proceedings of the IEEE Conference on Computer Vision and
Pattern Recognition, pages 553–561, 2016.
[10] Leon A Gatys, Alexander S Ecker, and Matthias Bethge. Image style transfer using convolutional neural
networks. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages
2414–2423, 2016.
[11] Ian Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, David Warde-Farley, Sherjil Ozair, Aaron
Courville, and Y oshua Bengio. Generative adversarial nets. In Advances in neural information processing
systems, pages 2672–2680, 2014.
[12] Kaiming He, Haoqi Fan, Y uxin Wu, Saining Xie, and Ross Girshick. Momentum contrast for unsupervised
visual representation learning. In Proceedings of the IEEE/CVF Conference on Computer Vision and
Pattern Recognition, pages 9729–9738, 2020.
[13] Aaron Hertzmann. Painterly rendering with curved brush strokes of multiple sizes. In Proceedings of the
25th annual conference on Computer graphics and interactive techniques, pages 453–460, 1998.
[14] Aaron Hertzmann, Charles E Jacobs, Nuria Oliver, Brian Curless, and David H Salesin. Image analogies.
In Proceedings of the 28th annual conference on Computer graphics and interactive techniques, pages
327–340, 2001.
[15] Xun Huang and Serge Belongie. Arbitrary style transfer in real-time with adaptive instance normalization.
In Proceedings of the IEEE International Conference on Computer Vision, pages 1501–1510, 2017.
[16] Xun Huang, Ming-Y u Liu, Serge Belongie, and Jan Kautz. Multimodal unsupervised image-to-image
translation. In Proceedings of the European Conference on Computer Vision (ECCV), pages 172–189,
2018.
[17] Phillip Isola, Jun-Y an Zhu, Tinghui Zhou, and Alexei A Efros. Image-to-image translation with conditional
adversarial networks. In Proceedings of the IEEE conference on computer vision and pattern recognition,
pages 1125–1134, 2017.
[18] Somi Jeong, Y oungjung Kim, Eungbean Lee, and Kwanghoon Sohn. Memory-guided unsupervised
image-to-image translation. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern
Recognition, pages 6558–6567, 2021.
[19] Y ongcheng Jing, Xiao Liu, Y ukang Ding, Xinchao Wang, Errui Ding, Mingli Song, and Shilei Wen.
Dynamic instance normalization for arbitrary style transfer. In Proceedings of the AAAI Conference on
Artificial Intelligence, volume 34, pages 4369–4376, 2020.
[20] Justin Johnson, Alexandre Alahi, and Li Fei-Fei. Perceptual losses for real-time style transfer and
super-resolution. In European conference on computer vision, pages 694–711. Springer, 2016.
[21] Minguk Kang and Jaesik Park. ContraGAN: Contrastive Learning for Conditional Image Generation.
2020.
[22] Sergey Karayev, Matthew Trentacoste, Helen Han, Aseem Agarwala, Trevor Darrell, Aaron Hertzmann,
and Holger Winnemoeller. Recognizing image style. arXiv preprint arXiv:1311.3715, 2013.
[23] Dmytro Kotovenko, Artsiom Sanakoyeu, Sabine Lang, and Bjorn Ommer. Content and style disentangle-
ment for artistic style transfer. In Proceedings of the IEEE/CVF International Conference on Computer
Vision, pages 4422–4431, 2019.
[24] Dmytro Kotovenko, Artsiom Sanakoyeu, Pingchuan Ma, Sabine Lang, and Bjorn Ommer. A content
transformation block for image style transfer. In Proceedings of the IEEE Conference on Computer Vision
and Pattern Recognition, pages 10032–10041, 2019.
[25] Hsin-Ying Lee, Hung-Y u Tseng, Jia-Bin Huang, Maneesh Singh, and Ming-Hsuan Yang. Diverse image-
to-image translation via disentangled representations. In Proceedings of the European conference on
computer vision (ECCV), pages 35–51, 2018.
[26] Chuan Li and Michael Wand. Combining markov random fields and convolutional neural networks for
image synthesis. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,
pages 2479–2486, 2016.
[27] Chuan Li and Michael Wand. Precomputed real-time texture synthesis with markovian generative adver-
sarial networks. In European Conference on Computer Vision, pages 702–716. Springer, 2016.
[28] Xueting Li, Sifei Liu, Jan Kautz, and Ming-Hsuan Yang. Learning linear transformations for fast image
and video style transfer. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern
Recognition, pages 3809–3817, 2019.
[29] Yijun Li, Chen Fang, Jimei Yang, Zhaowen Wang, Xin Lu, and Ming-Hsuan Yang. Diversified texture
synthesis with feed-forward networks. In Proceedings of the IEEE Conference on Computer Vision and
Pattern Recognition, pages 3920–3928, 2017.
[30] Yijun Li, Chen Fang, Jimei Y ang, Zhaowen Wang, Xin Lu, and Ming-Hsuan Y ang. Universal style transfer
via feature transforms. In Advances in neural information processing systems, pages 386–396, 2017.
[31] Jing Liao, Y uan Yao, Lu Y uan, Gang Hua, and Sing Bing Kang. Visual attribute transfer through deep
image analogy. arXiv preprint arXiv:1705.01088, 2017.
[32] Jianxin Lin, Yingxue Pang, Yingce Xia, Zhibo Chen, and Jiebo Luo. Tuigan: Learning versatile image-to-
image translation with two unpaired images. In European Conference on Computer Vision, pages 18–35.
Springer, 2020.
[33] Tsung-Yi Lin, Michael Maire, Serge Belongie, James Hays, Pietro Perona, Deva Ramanan, Piotr Dollár,
and C Lawrence Zitnick. Microsoft coco: Common objects in context. In European conference on
computer vision, pages 740–755. Springer, 2014.
[34] Rui Liu, Yixiao Ge, Ching Lam Choi, Xiaogang Wang, and Hongsheng Li. Divco: Diverse conditional
image synthesis via contrastive generative adversarial network. arXiv preprint arXiv:2103.07893, 2021.
[35] Ming Lu, Hao Zhao, Anbang Yao, Y urong Chen, Feng Xu, and Li Zhang. A closed-form solution to
universal style transfer. In Proceedings of the IEEE/CVF International Conference on Computer Vision,
pages 5952–5961, 2019.
[36] Dae Y oung Park and Kwang Hee Lee. Arbitrary style transfer with style-attentional networks. In
Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 5880–5888,
2019.
[37] Seobin Park, Jinsu Y oo, Donghyeon Cho, Jiwon Kim, and Tae Hyun Kim. Fast adaptation to super-
resolution networks via meta-learning. arXiv preprint arXiv:2001.02905, 5, 2020.
[38] Taesung Park, Alexei A Efros, Richard Zhang, and Jun-Yan Zhu. Contrastive learning for unpaired
image-to-image translation. In European Conference on Computer Vision, pages 319–345. Springer, 2020.
[39] Alec Radford, Luke Metz, and Soumith Chintala. Unsupervised representation learning with deep
convolutional generative adversarial networks. arXiv preprint arXiv:1511.06434, 2015.
[40] Artsiom Sanakoyeu, Dmytro Kotovenko, Sabine Lang, and Bjorn Ommer. A style-aware content loss for
real-time hd style transfer. In Proceedings of the European Conference on Computer Vision (ECCV), pages
698–714, 2018.
[41] Lu Sheng, Ziyi Lin, Jing Shao, and Xiaogang Wang. Avatar-net: Multi-scale zero-shot style transfer by
feature decoration. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,
pages 8242–8250, 2018.
[42] YiChang Shih, Sylvain Paris, Connelly Barnes, William T Freeman, and Frédo Durand. Style transfer for
headshot portraits. 2014.
[43] Karen Simonyan and Andrew Zisserman. V ery deep convolutional networks for large-scale image recogni-
tion. arXiv preprint arXiv:1409.1556, 2014.
[44] Jae Woong Soh, Sunwoo Cho, and Nam Ik Cho. Meta-transfer learning for zero-shot super-resolution. In
Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 3516–3525,
2020.
[45] Jan Svoboda, Asha Anoosheh, Christian Osendorfer, and Jonathan Masci. Two-stage peer-regularized
feature recombination for arbitrary image style transfer. In Proceedings of the IEEE/CVF Conference on
Computer Vision and Pattern Recognition, pages 13816–13825, 2020.
[46] Dmitry Ulyanov, V adim Lebedev, Andrea V edaldi, and Victor S Lempitsky. Texture networks: Feed-
forward synthesis of textures and stylized images. In ICML, volume 1, page 4, 2016.
[47] Dmitry Ulyanov, Andrea V edaldi, and Victor Lempitsky. Improved texture networks: Maximizing quality
and diversity in feed-forward stylization and texture synthesis. In Proceedings of the IEEE Conference on
Computer Vision and Pattern Recognition, pages 6924–6932, 2017.
[48] Huan Wang, Yijun Li, Y uehai Wang, Haoji Hu, and Ming-Hsuan Yang. Collaborative distillation for
ultra-resolution universal style transfer. In Proceedings of the IEEE/CVF Conference on Computer Vision
and Pattern Recognition, pages 1860–1869, 2020.
[49] Tengfei Wang, Hao Ouyang, and Qifeng Chen. Image inpainting with external-internal learning and
monochromic bottleneck. arXiv preprint arXiv:2104.09068, 2021.
[50] Ting-Chun Wang, Ming-Y u Liu, Jun-Yan Zhu, Andrew Tao, Jan Kautz, and Bryan Catanzaro. High-
resolution image synthesis and semantic manipulation with conditional gans. In Proceedings of the IEEE
conference on computer vision and pattern recognition, pages 8798–8807, 2018.
[51] Zhizhong Wang, Lei Zhao, Haibo Chen, Lihong Qiu, Qihang Mo, Sihuan Lin, Wei Xing, and Dongming
Lu. Diversified arbitrary style transfer via deep feature perturbation. In Proceedings of the IEEE/CVF
Conference on Computer Vision and Pattern Recognition, pages 7789–7798, 2020.
[52] Holger Winnem?ller, Sven C Olsen, and Bruce Gooch. Real-time video abstraction. ACM Transactions
On Graphics (TOG), 25(3):1221–1226, 2006.
[53] Haiyan Wu, Yanyun Qu, Shaohui Lin, Jian Zhou, Ruizhi Qiao, Zhizhong Zhang, Y uan Xie, and Lizhuang
Ma. Contrastive learning for compact single image dehazing. In Proceedings of the IEEE/CVF Conference
on Computer Vision and Pattern Recognition, pages 10551–10560, 2021.
[54] Y uan Yao, Jianqiang Ren, Xuansong Xie, Weidong Liu, Y ong-Jin Liu, and Jun Wang. Attention-aware
multi-stroke style transfer. In Proceedings of the IEEE Conference on Computer Vision and Pattern
Recognition, pages 1467–1475, 2019.
[55] Ning Y u, Guilin Liu, Aysegul Dundar, Andrew Tao, Bryan Catanzaro, Larry Davis, and Mario Fritz. Dual
contrastive loss and attention for gans. arXiv preprint arXiv:2103.16748, 2021.
[56] Han Zhang, Ian Goodfellow, Dimitris Metaxas, and Augustus Odena. Self-attention generative adversarial
networks. In International conference on machine learning, pages 7354–7363. PMLR, 2019.
[57] Richard Zhang, Phillip Isola, Alexei A Efros, Eli Shechtman, and Oliver Wang. The unreasonable
effectiveness of deep features as a perceptual metric. In Proceedings of the IEEE Conference on Computer
Vision and Pattern Recognition, pages 586–595, 2018.
[58] Y ulun Zhang, Chen Fang, Yilin Wang, Zhaowen Wang, Zhe Lin, Y un Fu, and Jimei Yang. Multimodal
style transfer via graph cuts. In Proceedings of the IEEE International Conference on Computer Vision,
pages 5943–5951, 2019.
[59] Yihao Zhao, Ruihai Wu, and Hao Dong. Unpaired image-to-image translation using adversarial consistency
loss. In European Conference on Computer Vision, pages 800–815. Springer, 2020.
[60] Jun-Y an Zhu, Taesung Park, Phillip Isola, and Alexei A Efros. Unpaired image-to-image translation using
cycle-consistent adversarial networks. In Proceedings of the IEEE international conference on computer
vision, pages 2223–2232, 2017.
[61] Jun-Yan Zhu, Richard Zhang, Deepak Pathak, Trevor Darrell, Alexei A Efros, Oliver Wang, and Eli
Shechtman. Toward multimodal image-to-image translation. In Advances in neural information processing
systems, pages 465–476, 2017.
總結(jié)
以上是生活随笔為你收集整理的译文(Artistic Style Transfer with Internal-external Learning and Contrastive Learning)的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: Open*** 服务器的搭建
- 下一篇: [Leetcode][第332题][JA