【翻译】Drafting and Revision: Laplacian Pyramid Network for Fast High-Quality Artistic Style Transfer
目錄
- 摘要
- 1、介紹
- 2、相關(guān)工作
- 3、方法
- 3.1. 網(wǎng)絡(luò)結(jié)構(gòu)
- 3.2. Drafting Network
- 3.3. Revision Network
- 3.4. 訓(xùn)練
- 4、結(jié)論
- 4.1. 數(shù)據(jù)集和設(shè)置
- 4.2. 與先前作品的比較
- 4.3. 消融學(xué)習(xí)
- 5、結(jié)論
摘要
藝術(shù)風(fēng)格轉(zhuǎn)移的目的是將風(fēng)格從示例圖像遷移到內(nèi)容圖像。目前,基于優(yōu)化的方法已經(jīng)取得了很好的風(fēng)格化質(zhì)量,但昂貴的時(shí)間成本限制了其實(shí)際應(yīng)用。同時(shí),前饋方法仍然無(wú)法合成復(fù)雜的風(fēng)格,特別是當(dāng)存在整體的全局和局部模式時(shí)。受常見(jiàn)的繪畫(huà)過(guò)程–繪制草稿和修改細(xì)節(jié)–的啟發(fā),我們引入了一種新的前饋方法,名為L(zhǎng)aplacian Pyramid Network(LapStyle)。LapStyle首先通過(guò)繪圖網(wǎng)絡(luò)傳輸?shù)头直媛实娜诛L(fēng)格模式。然后,它通過(guò)一個(gè)修訂網(wǎng)絡(luò)在高分辨率下修改低級(jí)別的細(xì)節(jié),該網(wǎng)絡(luò)根據(jù)草案和拉普拉斯濾波提取的圖像紋理幻化出一個(gè)剩余的圖像。通過(guò)堆疊具有多個(gè)拉普拉斯金字塔級(jí)別的修正網(wǎng)絡(luò),可以很容易地生成更高的重述細(xì)節(jié)。最終的風(fēng)格化圖像是由所有金字塔層的輸出匯總而得到的。實(shí)驗(yàn)表明,我們的方法可以實(shí)時(shí)合成高質(zhì)量的風(fēng)格化圖像,其中整體風(fēng)格模式被適當(dāng)?shù)剞D(zhuǎn)移到了圖像中。
1、介紹
藝術(shù)風(fēng)格轉(zhuǎn)移是一種有吸引力的技術(shù),它可以用內(nèi)容圖像的結(jié)構(gòu)和范例風(fēng)格圖像的風(fēng)格模式創(chuàng)造一個(gè)藝術(shù)圖像。它一直是學(xué)術(shù)界和工業(yè)界盛行的研究課題。最近,已經(jīng)有很多方法被提出來(lái),這些方法可以大致分為兩類(lèi):圖像優(yōu)化和模型優(yōu)化方法。
圖像優(yōu)化方法是用固定的網(wǎng)絡(luò)反復(fù)優(yōu)化風(fēng)格化的圖像。Gatys等人的開(kāi)創(chuàng)性工作[6]在一個(gè)迭代優(yōu)化過(guò)程中實(shí)現(xiàn)了風(fēng)格轉(zhuǎn)移,其中風(fēng)格模式是通過(guò)從預(yù)先訓(xùn)練的深度神經(jīng)網(wǎng)絡(luò)中提取的特征的相關(guān)性來(lái)捕獲的。隨后的工作主要以不同損失函數(shù)的形式改進(jìn)了[6][12, 24]。雖然取得了卓越的風(fēng)格化結(jié)果,例如STROTSS[12],但這些方法的廣泛應(yīng)用仍受限于其緩慢的在線優(yōu)化過(guò)程。相反,模型優(yōu)化方法通過(guò)訓(xùn)練更新神經(jīng)網(wǎng)絡(luò),并且在測(cè)試中是前饋的。主要有三種細(xì)分類(lèi)型:
(1)每風(fēng)格-每模型方法[10, 15, 29, 30, 31]被訓(xùn)練成以單一的給定風(fēng)格圖像來(lái)合成圖像。
(2)Multi-Style-Per-Model方法[2, 5, 32, 17, 34]引入各種網(wǎng)絡(luò)結(jié)構(gòu)來(lái)同時(shí)處理多種風(fēng)格;
(3)Arbitrary-Style-Per-Model方法[9, 18, 27, 16, 22]進(jìn)一步采用各種特征修改機(jī)制來(lái)轉(zhuǎn)移任意風(fēng)格。
回顧這些方法,我們發(fā)現(xiàn),雖然局部風(fēng)格模式可以被轉(zhuǎn)移,但混合了全局和局部模式的復(fù)雜風(fēng)格仍然不能被正確轉(zhuǎn)移。同時(shí),在很多情況下會(huì)出現(xiàn)偽裝和缺陷。為此,在這項(xiàng)工作中,我們的主要目標(biāo)是通過(guò)前饋網(wǎng)絡(luò)實(shí)現(xiàn)高質(zhì)量的藝術(shù)風(fēng)格轉(zhuǎn)移結(jié)果,其中局部和全局模式可以保留美學(xué)。
人類(lèi)畫(huà)家在作畫(huà)時(shí)如何處理復(fù)雜的風(fēng)格模式?一個(gè)常見(jiàn)的過(guò)程,特別是對(duì)于初學(xué)者來(lái)說(shuō),是先畫(huà)一個(gè)草稿來(lái)捕捉全局結(jié)構(gòu),然后逐步修改局部細(xì)節(jié),而不是直接逐個(gè)完成最后的繪畫(huà)。受此啟發(fā),我們提出了一個(gè)新的神經(jīng)網(wǎng)絡(luò),名為L(zhǎng)aplacian Pyramid Network(LapStyle),用于風(fēng)格轉(zhuǎn)換。首先,在我們的框架中,一個(gè)起草網(wǎng)絡(luò)被設(shè)計(jì)用來(lái)在低分辨率下轉(zhuǎn)移全局風(fēng)格模式,因?yàn)槲覀?strong>觀察到在低分辨率下,由于更大的感受野和更少的局部細(xì)節(jié),全局模式更容易被轉(zhuǎn)移。然后,修訂網(wǎng)絡(luò)被用來(lái)修改高分辨率下的局部細(xì)節(jié),其方法是根據(jù)草案和拉普拉斯濾波在2倍分辨率的內(nèi)容圖像上產(chǎn)生的紋理,幻化出一個(gè)殘余圖像。請(qǐng)注意,我們的修正網(wǎng)絡(luò)可以以金字塔的方式堆疊,以產(chǎn)生更高分辨率的細(xì)節(jié)。最終的風(fēng)格化圖像是由所有金字塔級(jí)別的輸出匯總得到的。此外,我們采用淺層補(bǔ)丁判別器來(lái)對(duì)抗性地學(xué)習(xí)局部風(fēng)格模式。如圖1所示,通過(guò)我們的 "起草和修改 "過(guò)程,實(shí)現(xiàn)了有吸引力的風(fēng)格化結(jié)果??偨Y(jié)起來(lái),我們的主要貢獻(xiàn)有以下幾點(diǎn)。
- 我們引入了一個(gè)新的框架 “起草和修訂”,它通過(guò)將風(fēng)格轉(zhuǎn)移過(guò)程分成全局風(fēng)格模式的起草和局部風(fēng)格模式的修訂來(lái)模擬繪畫(huà)創(chuàng)作機(jī)制。
- 我們提出了一種名為L(zhǎng)apStyle的新穎前饋式風(fēng)格轉(zhuǎn)換方法。它使用起草網(wǎng)絡(luò)在低分辨率下傳輸全局風(fēng)格模式,并根據(jù)內(nèi)容圖像的多級(jí)拉普拉斯濾波輸出,采用高分辨率的修訂網(wǎng)絡(luò)以金字塔方式修訂局部風(fēng)格模式。
- 實(shí)驗(yàn)表明,我們的方法可以產(chǎn)生高分辨率和高質(zhì)量的風(fēng)格化結(jié)果,其中全局和局部風(fēng)格模式都能有效地合成。此外,我們提出的LapStyle非常高效,可以在110幀/秒的時(shí)間內(nèi)合成512像素的高分辨率風(fēng)格化圖像。
圖1. 我們提出的風(fēng)格轉(zhuǎn)移過(guò)程的說(shuō)明。首先,我們?cè)诘头直媛氏罗D(zhuǎn)移全局模式,然后在高分辨率下修改局部模式。為了更好的可視化,我們將不同比例的風(fēng)格化圖像調(diào)整為相同的尺寸。放大以獲得更好的視野。
2、相關(guān)工作
Style Transfer. 風(fēng)格轉(zhuǎn)移算法的目的是將風(fēng)格從示例圖像遷移到內(nèi)容圖像。隨著Gatys等人的開(kāi)創(chuàng)性工作[6],此后開(kāi)發(fā)了各種方法來(lái)解決不同方面的問(wèn)題,包括視覺(jué)質(zhì)量[14,8],頭部肖像[25],語(yǔ)義控制[1,7]等等。Kolkin等人提出了STROTSS[12],通過(guò)采用Earth Movers Distance(rEMD)損失進(jìn)行優(yōu)化,可以生成更高質(zhì)量的風(fēng)格化圖像,該方法在對(duì)內(nèi)容的語(yǔ)義布局進(jìn)行最小失真的情況下部署風(fēng)格屬性。然而,基于優(yōu)化方法的昂貴計(jì)算成本阻礙了它們的實(shí)際應(yīng)用。為了提高運(yùn)行效率,研究人員建議用前饋網(wǎng)絡(luò)取代迭代優(yōu)化程序。每風(fēng)格-每模型方法[10, 15, 29, 30, 31, 3]采用自動(dòng)編碼器作為風(fēng)格轉(zhuǎn)移網(wǎng)絡(luò),用來(lái)自[6]的內(nèi)容和風(fēng)格損失的變體來(lái)訓(xùn)練。多風(fēng)格-每模型方法[2, 5, 32, 17, 34]在自動(dòng)編碼器的中間嵌入了可學(xué)習(xí)的仿生變換結(jié)構(gòu),以納入多種風(fēng)格。最近,任意風(fēng)格-每個(gè)模型的方法[9, 18, 27, 16, 22]通過(guò)風(fēng)格特征嵌入網(wǎng)絡(luò)實(shí)現(xiàn)任意風(fēng)格的轉(zhuǎn)移。
基于模型優(yōu)化的方法在視覺(jué)質(zhì)量方面的妥協(xié)下,極大地提高了計(jì)算的效率。AdaIN[9]、WCT[18]和線性變換[16]調(diào)整了整體的特征分布,因此它們都不能保留局部風(fēng)格模式。SANet[22]借助于風(fēng)格關(guān)注機(jī)制將局部風(fēng)格模式嵌入到內(nèi)容特征圖中,但它們?cè)谔幚泶笠?guī)模紋理(如《星空》中的漩渦)時(shí)不能表現(xiàn)良好。相反,我們提出的LapStyle可以捕獲不同尺度的風(fēng)格統(tǒng)計(jì),這比目前基于模型優(yōu)化的方法大大提高了視覺(jué)質(zhì)量。
多尺度學(xué)習(xí)(Multi-scale Learning). 在圖像處理領(lǐng)域,多尺度工作是一種常見(jiàn)的技術(shù),可以更好地捕捉到廣泛的圖像統(tǒng)計(jì)數(shù)據(jù)。[4, 13, 26, 28, 20, 32, 12]。Lai等人提出LapSRN[13],通過(guò)用級(jí)聯(lián)卷積網(wǎng)絡(luò)預(yù)測(cè)高頻殘差來(lái)逐步重建高分辨率圖像。Shaham等人提出SinGAN[26],通過(guò)捕捉不同圖像尺度的補(bǔ)丁級(jí)分布,用金字塔式的對(duì)抗網(wǎng)絡(luò)來(lái)訓(xùn)練單一圖像的網(wǎng)絡(luò)。WCT[18]和PhotoWCT[19]也逐漸產(chǎn)生了從粗到細(xì)的結(jié)果,但它們?cè)谠嫉腞GB域工作,而不像LapStyle那樣在殘差域明確地修改風(fēng)格化的細(xì)節(jié)。WCT2[33]也通過(guò)小波變換利用殘差信息,其中殘差信息主要用于保持原始圖像的空間細(xì)節(jié)。不同的是,LapStyle在殘差場(chǎng)中構(gòu)建了修正網(wǎng)絡(luò),以更好地轉(zhuǎn)移和增強(qiáng)局部風(fēng)格化細(xì)節(jié)。STROTSS[12]也采用了一個(gè)多尺度方案,通過(guò)在提高分辨率時(shí)最小化EMD損失來(lái)應(yīng)用風(fēng)格轉(zhuǎn)移,并表現(xiàn)出高視覺(jué)質(zhì)量。然而,迭代優(yōu)化程序的計(jì)算成本很高,合成一個(gè)樣式需要幾分鐘。我們提出的LapStyle通過(guò)采用多尺度網(wǎng)絡(luò)來(lái)捕捉從全局分布到局部模式的廣泛的風(fēng)格統(tǒng)計(jì),以更好地平衡運(yùn)行時(shí)間效率和視覺(jué)質(zhì)量之間的權(quán)衡。
3、方法
在本節(jié)中,我們將詳細(xì)介紹擬議的前饋式傳輸網(wǎng)絡(luò)LapStyle。為了便于理解,在本節(jié)中,我們只描述2級(jí)金字塔的架構(gòu)。如圖2所示,基礎(chǔ)層是一個(gè)起草網(wǎng)絡(luò),而修訂網(wǎng)絡(luò)則用于更高分辨率的第二層。通過(guò)堆疊修訂網(wǎng)絡(luò)來(lái)建立更多的層次是很簡(jiǎn)單的。
圖2. 我們框架的概述。(a) 我們首先在拉普拉斯濾波器的幫助下從內(nèi)容圖像xc生成圖像金字塔{ ?xc, rc}。(b) 繪圖網(wǎng)絡(luò)生成粗糙的低分辨率風(fēng)格化圖像。(c ) 然后,修訂網(wǎng)絡(luò)生成高分辨率的風(fēng)格化細(xì)節(jié)圖像。(4) 最終的風(fēng)格化圖像是通過(guò)匯總輸出金字塔而產(chǎn)生的。圖像中的L、C和A分別代表拉普拉斯、串聯(lián)和聚合操作。
3.1. 網(wǎng)絡(luò)結(jié)構(gòu)
我們提出的LapStyle將內(nèi)容圖像xc∈RHc×Wc和預(yù)先定義的風(fēng)格圖像xs作為輸入,并最終合成一個(gè)風(fēng)格化的圖像xcs。如圖2所示,為了進(jìn)行預(yù)處理,我們構(gòu)建了一個(gè)2級(jí)圖像金字塔{ ?xc, rc}。 rc是在拉普拉斯濾波的幫助下得到的,即rc = xc - U p(L( ?xc)),其中L表示拉普拉斯濾波,U p是2×上采樣操作。風(fēng)格圖像xs也被下采樣為低分辨率版本 ?xs。
在第一階段, Drafting Network 首先用預(yù)先訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)編碼 ?xc和 ?xs中的內(nèi)容和風(fēng)格特征,然后用風(fēng)格特征對(duì)內(nèi)容特征進(jìn)行多粒度的調(diào)制,最后用解碼器生成風(fēng)格化圖像 ?xcs∈RHc/2-Wc/2。在第二階段,修正網(wǎng)絡(luò)首先 ?xcs上采樣為x′cs∈RHc-Wc,然后將x′cs和rc連接起來(lái)作為輸入,生成風(fēng)格化的細(xì)節(jié)圖像rcs∈RHc-Wc。最后,我們通過(guò)聚合金字塔的輸出得到風(fēng)格化的圖像xcs∈RHc-Wc:
其中A表示聚合函數(shù)。在下文中,我們將詳細(xì)介紹起草網(wǎng)絡(luò)和修訂網(wǎng)絡(luò)的配置。
3.2. Drafting Network
Drafting Network 的目的是在低分辨率下合成全局風(fēng)格模式。為什么是低分辨率?正如第4.3節(jié)所展示的,我們觀察到在低分辨率下,由于大的接受域和較少的局部細(xì)節(jié),全局模式可以更容易地被轉(zhuǎn)移。為了實(shí)現(xiàn)單一風(fēng)格的轉(zhuǎn)移,早期的工作[10]直接訓(xùn)練了一個(gè)編碼器-解碼器模塊,其中只有內(nèi)容圖像被用作輸入。為了更好地結(jié)合風(fēng)格特征和內(nèi)容特征,我們采用最近的任意風(fēng)格轉(zhuǎn)移方法中的AdaIN模塊[9]。
Drafting Network 的結(jié)構(gòu)如圖3所示,它包括一個(gè)編碼器、幾個(gè)AdaIN模塊和一個(gè)解碼器。
(1)編碼器是一個(gè)預(yù)先訓(xùn)練好的VGG-19網(wǎng)絡(luò),它在訓(xùn)練期間是固定的。給定?xc和和?xs,VGG編碼器在2 1、3 1和4 1層提取多個(gè)粒度的特征。
(2)然后,我們?cè)? 1、3 1和4 1層之后分別使用AdaIN模塊對(duì)內(nèi)容和風(fēng)格特征進(jìn)行特征調(diào)制。
(3)最后,在每個(gè)粒度的解碼器中,來(lái)自AdaIN模塊的相應(yīng)特征通過(guò)一個(gè)跳過(guò)連接被合并起來(lái)。
這里,低層和高層的AdaIN模塊后的跳過(guò)連接被用來(lái)幫助保留內(nèi)容結(jié)構(gòu),特別是對(duì)于低分辨率的圖像。
圖3. 擬議的 Drafting Network 的圖示。
3.3. Revision Network
Revision Network 旨在通過(guò)生成的殘差細(xì)節(jié)圖像rcs來(lái)修訂粗糙的風(fēng)格化圖像,而最終的風(fēng)格化圖像是由rcs和粗糙的風(fēng)格化圖像?xcs組合生成的。這一過(guò)程確保了?xcs中全局風(fēng)格模式的分布得到適當(dāng)?shù)谋3?。同時(shí),學(xué)習(xí)用殘余的細(xì)節(jié)圖像來(lái)修改局部風(fēng)格模式對(duì) Revision Network 來(lái)說(shuō)是比較容易的。
如圖4所示,Revision Network 被設(shè)計(jì)成一個(gè)簡(jiǎn)單而有效的編碼器-解碼器結(jié)構(gòu),只有一個(gè)下采樣和一個(gè)上采樣層。此外,我們引入了一個(gè)補(bǔ)丁判別器,以幫助Revision Network 在對(duì)抗性學(xué)習(xí)環(huán)境下捕捉精細(xì)的補(bǔ)丁紋理。我們按照 SinGAN[26] 定義補(bǔ)丁判別器D,其中D擁有5個(gè)卷積層和32個(gè)隱藏通道。我們選擇定義一個(gè)相對(duì)較淺的D,以:
(1)避免過(guò)度擬合,因?yàn)槲覀冎挥幸粋€(gè)樣式的圖像;
(2)控制感受野,以確保D只能捕獲局部模式。
圖4. 擬議的 Revision Network 的說(shuō)明。這里的C和A分別代表串聯(lián)和聚合操作。
3.4. 訓(xùn)練
在訓(xùn)練過(guò)程中,Drafting Network 和 Revision Network 都用內(nèi)容和風(fēng)格損失進(jìn)行了優(yōu)化,而 Revision Network 則進(jìn)一步采用了對(duì)抗性損失。因此,我們首先描述風(fēng)格和內(nèi)容損失,然后分別介紹兩個(gè)網(wǎng)絡(luò)的全部目標(biāo)。由于我們的LapStyle是 “Per-Style-Per-Model”,在訓(xùn)練過(guò)程中,我們保留一個(gè)單一的xs,以及一組來(lái)自?xún)?nèi)容數(shù)據(jù)集Xc的xc。
風(fēng)格損失。按照最近的基于優(yōu)化的方法STROTSS[12],我們將寬松的Earth Mover Distance(rEMD)損失和常用的平均差值損失結(jié)合起來(lái)作為風(fēng)格損失。首先,給定一個(gè)圖像,我們可以使用預(yù)先訓(xùn)練好的VGG-19編碼器來(lái)提取一組特征向量。rEMD損失旨在測(cè)量風(fēng)格圖像xs和風(fēng)格化圖像xcs的特征分布之間的距離。為了簡(jiǎn)單起見(jiàn),我們?cè)谙挛闹惺÷粤吮硎緦铀饕纳蠘?biāo)。假設(shè)Fs∈Rhsws×c,Fcs∈Rhcswcs×c是xs和xcs的特征,它們的rEMD損失可以計(jì)算為:
其中余弦距離項(xiàng) Cij 定義為:
為了保持特征向量的大小,我們還采用了常用的均值-方差損失為:
其中,μ和σ分別計(jì)算特征向量的平均值和共變率。
內(nèi)容損失(Content Loss) 對(duì)于內(nèi)容損失,我們采用常用的歸一化感知損失和[12]中提出的Fc∈R^hcwc×c 和 Fcs∈R^hcswcs×c 之間的自我相似度損失。請(qǐng)注意,hcs等于hc,wc等于wcs,因?yàn)閤c和xcs的分辨率相同。感知損失被定義為:
其中norm表示F的通道歸一化。自相似性損失旨在保留內(nèi)容圖像與風(fēng)格化圖像的相對(duì)關(guān)系,其定義為:
這里Dcij和Dcsij分別是自相似性矩陣Dc和Dcs的第(i,j)項(xiàng)。這里Dij是成對(duì)的余弦相似度<Fi, Fj>。
Loss of Drafting Network. 在 Drafting Network 的訓(xùn)練階段,使用低分辨率圖像 ?xc 和 ?xs 作為網(wǎng)絡(luò)輸入,也分別用于計(jì)算內(nèi)容損失和風(fēng)格損失。 Drafting Network 的整體訓(xùn)練目標(biāo)函數(shù)定義為:
其中λ1, λ2和α是權(quán)重項(xiàng)。我們通過(guò)調(diào)整α來(lái)控制內(nèi)容和風(fēng)格損失的平衡。具體來(lái)說(shuō),lr和lss被定義在3_1和4_1層,同時(shí)lm和lp被定義在1_1到5_1層。
Loss of Revision Network. 在 Revision Network 的訓(xùn)練階段,Drafting Network 的參數(shù)是固定的,訓(xùn)練損失是建立在xcs之上的。為了更好地學(xué)習(xí)局部細(xì)粒度紋理,除了基礎(chǔ)內(nèi)容和風(fēng)格損失Lbase = LDraft,我們引入了一個(gè)判別器,用對(duì)抗性損失項(xiàng)訓(xùn)練修訂網(wǎng)絡(luò)。整體優(yōu)化目標(biāo)定義為:
其中Rev表示修訂網(wǎng)絡(luò),D表示判別器,β控制基礎(chǔ)風(fēng)格轉(zhuǎn)移損失和對(duì)抗性損失之間的平衡。Ladv是標(biāo)準(zhǔn)的對(duì)抗性訓(xùn)練損失。
4、結(jié)論
4.1. 數(shù)據(jù)集和設(shè)置
Dataset. 為了訓(xùn)練我們的模型,我們需要一個(gè)單一的風(fēng)格圖像和一個(gè)內(nèi)容圖像的集合。在這項(xiàng)工作中,按照慣例,我們使用MS-COCO[21]作為內(nèi)容圖像,并從WikiArt[23]中選擇風(fēng)格圖像。一些來(lái)自Pexels.com的無(wú)版權(quán)圖片也被用作風(fēng)格圖片。
實(shí)施細(xì)節(jié)。 在LapStyle中,Drafting 和 Revision Networks 是依次訓(xùn)練的。前者首先以128×128的分辨率進(jìn)行訓(xùn)練,然后再以256×256的分辨率訓(xùn)練。為了達(dá)到更高的分辨率,我們可以用512和1024的分辨率連續(xù)訓(xùn)練更多的 Revision Networks。對(duì)于這兩個(gè)網(wǎng)絡(luò),我們使用 Adam 優(yōu)化器[11],學(xué)習(xí)率為1e-4,批次大小為5張內(nèi)容圖像。對(duì)于這兩個(gè)網(wǎng)絡(luò),訓(xùn)練過(guò)程包括30,000次迭代。損失權(quán)重項(xiàng)λ1、λ2、α和β分別被設(shè)置為16、3、3和1。更詳細(xì)的LapStyle的網(wǎng)絡(luò)配置見(jiàn)我們的補(bǔ)充材料。
4.2. 與先前作品的比較
定性比較。 如圖6所示,我們將我們的方法與最先進(jìn)的前饋方法進(jìn)行比較。
與我們的LapStyle一樣,Johnson等人[10]也是一種單一的風(fēng)格轉(zhuǎn)換方法。[10]可以合成一些結(jié)構(gòu)清晰的局部風(fēng)格模式(如第8行),但是,內(nèi)容圖像的顏色分布和紋理結(jié)構(gòu)經(jīng)常被保持(如第2行和第8行),導(dǎo)致風(fēng)格化不足。
AdaIN[9]、WCT[18]和SANet[22]是任意的風(fēng)格轉(zhuǎn)移模型,它們有一些共同的特點(diǎn):
(1)它們主要轉(zhuǎn)移風(fēng)格圖像的顏色分布和簡(jiǎn)單的局部圖案;
(2)尺寸較大的復(fù)雜風(fēng)格圖案基本不轉(zhuǎn)移(如第2、5、6行);
(3)局部圖案通常不被準(zhǔn)確轉(zhuǎn)移,導(dǎo)致局部紋理凌亂(如第2、8行)。
具體來(lái)說(shuō),在AdaIN[9]中,保留內(nèi)容的顏色分布問(wèn)題很?chē)?yán)重(如第2、7、8行)。WCT[18]丟棄了太多的上下文結(jié)構(gòu),導(dǎo)致了無(wú)序和混亂的圖像。與這些方法相比,我們的方法可以同時(shí)轉(zhuǎn)移簡(jiǎn)單的局部風(fēng)格模式和復(fù)雜的全局風(fēng)格模式,保留清晰干凈的風(fēng)格模式結(jié)構(gòu)。顏色分布也被完全轉(zhuǎn)移。雖然LapStyle不能轉(zhuǎn)移任意風(fēng)格,但我們認(rèn)為提高風(fēng)格化的質(zhì)量對(duì)前饋方法來(lái)說(shuō)是最重要的。我們將任意的LapStyle留給未來(lái)的工作。
在圖7中,我們展示了一些由我們的方法和兩種基于優(yōu)化的風(fēng)格轉(zhuǎn)換方法[12,6]合成的風(fēng)格化實(shí)例,為了更好地進(jìn)行比較,還展示了放大的視圖。Gatys等人[6]通過(guò)優(yōu)化柵格矩陣合成單一比例的風(fēng)格化圖像。如圖7所示,雖然整體風(fēng)格圖案被轉(zhuǎn)移,但風(fēng)格圖案的分布往往是不恰當(dāng)?shù)?#xff08;例如,左下和右下)。同時(shí),風(fēng)格化圖像的顏色分布也不夠準(zhǔn)確。STROTSS[12]是最先進(jìn)的基于優(yōu)化的方法,它以EMD損失的方式將風(fēng)格化圖像按多個(gè)比例(從32像素到512像素)進(jìn)行同步。如圖7所示,風(fēng)格化的圖像具有精致的紋理和清晰的風(fēng)格模式。作為一種前饋方法,我們的方法取得了與STROTSS相當(dāng)?shù)娘L(fēng)格化結(jié)果。在某些情況下(如圖7中的右上角和左下角),我們的方法能更好地合成大尺度圖案。STROTSS的比較優(yōu)勢(shì)在于,由于其優(yōu)化過(guò)程,在某些情況下(如圖7的右下角),風(fēng)格模式和上下文結(jié)構(gòu)結(jié)合得更好。
用戶(hù)研究。 我們選擇了15張風(fēng)格圖片和15張內(nèi)容圖片,用我們的方法和5種有競(jìng)爭(zhēng)力的SOTA方法共合成了225張圖片。然后,我們隨機(jī)抽取20個(gè)內(nèi)容風(fēng)格對(duì)。對(duì)于每一對(duì),我們將風(fēng)格化的圖像以隨機(jī)的順序并排展示給受試者,并要求他們選擇他們最喜歡的一張。如圖5所示,我們從100個(gè)用戶(hù)那里收集了2000張投票,并以餅圖的形式顯示了每種方法的投票百分比。比較結(jié)果表明,我們的風(fēng)格化結(jié)果明顯比競(jìng)爭(zhēng)對(duì)手更有吸引力。
效率分析。 我們比較了我們所提出的方法和其他優(yōu)化方法以及前饋方法的效率。在評(píng)估中使用了兩種圖像比例:256和512分辨率。對(duì)于512像素的推斷,使用了兩個(gè)修正網(wǎng)絡(luò)。所有的實(shí)驗(yàn)都是使用單個(gè)Nvidia Titan X GPU進(jìn)行的。比較結(jié)果見(jiàn)表1,我們可以發(fā)現(xiàn)我們的方法是實(shí)時(shí)運(yùn)行的,在256像素和512像素的情況下分別達(dá)到了120幀和110幀。推理速度快的原因有三個(gè):
(1)起草網(wǎng)絡(luò)是建立在低分辨率的基礎(chǔ)上;
(2)AdaIN模塊是高效的;
(3)修訂網(wǎng)絡(luò)是淺層的。
如圖6和圖7所示,我們的方法生成的風(fēng)格化圖像的質(zhì)量與基于優(yōu)化的方法相當(dāng),并且明顯優(yōu)于前饋方法。最后,表1顯示,我們的方法達(dá)到了最佳效果。表1表明,我們的方法在前饋方法中達(dá)到了SOTA推理的速度,并且比優(yōu)化方法快得多。
4.3. 消融學(xué)習(xí)
損失函數(shù)(Loss Function) 我們進(jìn)行了消融實(shí)驗(yàn)來(lái)驗(yàn)證用于訓(xùn)練LapStyle的各個(gè)損失項(xiàng)的有效性,結(jié)果如圖8所示。
(1)沒(méi)有rEMD損失lr,黃圈的風(fēng)格模式消失,整體風(fēng)格化程度下降。這一結(jié)果證明了rEMD損失的有效性,我們是第一個(gè)用rEMD損失訓(xùn)練前饋網(wǎng)絡(luò)的人。
(2)如果沒(méi)有自我相似性損失lss,左下角會(huì)出現(xiàn)一些不合適的黑色風(fēng)格圖案。
(3)在沒(méi)有感知損失lp的情況下,內(nèi)容圖像的結(jié)構(gòu)被完全丟棄,LapStyle直接重新建立風(fēng)格圖像。這些結(jié)果表明,lp對(duì)于我們的方法是必要的,同時(shí)lss可以進(jìn)一步約束內(nèi)容的一致性,以實(shí)現(xiàn)更好的風(fēng)格分布。
(4)如果沒(méi)有對(duì)抗性損失 ladv,紋理質(zhì)量和顏色分布會(huì)比完整模型差。這一比較表明,修改階段的對(duì)抗性學(xué)習(xí)可以有效地改善風(fēng)格的質(zhì)量,特別是局部紋理和顏色的分布。
圖8. 訓(xùn)練期間使用的損失函數(shù)的影響的消融研究。這里,lr、lss和lp都用于兩個(gè)網(wǎng)絡(luò),而ladv只用于修正網(wǎng)絡(luò)。lm用于所有消融設(shè)置以保持風(fēng)格轉(zhuǎn)移。最好在屏幕上放大觀看。
Revision Network 的有效性 消融實(shí)驗(yàn)的結(jié)果如圖9所示。在修改之前,由于低分辨率,圖9(a)中Drafting Network的結(jié)果是模糊的。如果我們直接在256個(gè)像素上訓(xùn)練Drafting Network,如圖9(b)所示,其結(jié)果是清晰的,但其風(fēng)格化程度有限。 這些結(jié)果證明了我們的 “Drafting and Reviso ” 框架的有效性和必要性。另一個(gè)問(wèn)題是,是否有必要在拉普拉斯差分圖像的幫助下修正粗糙的風(fēng)格化圖像?圖9(c )的圖像是由 Revision Network 在RGB空間直接生成的。我們可以看到修改結(jié)果的風(fēng)格分布與 drafting image(a)相去甚遠(yuǎn),似乎不如原始結(jié)果那么和諧。這一觀察結(jié)果表明,以殘差形式修改風(fēng)格化的圖像更容易控制,并能產(chǎn)生更好的結(jié)果。
圖9. 對(duì) Revision Network 有效性的消融研究。
(a) 在128像素上訓(xùn)練的繪圖網(wǎng)絡(luò)(結(jié)果圖像被上采樣為256像素)。
(b) 直接在256像素上訓(xùn)練的繪圖網(wǎng)絡(luò)。在(a)和(b)中,沒(méi)有使用Revision Network。
(c ) Revision Network 直接建立在RGB圖像上,而不是殘差圖像。
(d) Revision Network 是在沒(méi)有Drafting Network 的情況下訓(xùn)練的。
Drafting Network 的有效性 如圖9所示,在沒(méi)有DraNet的情況下,RevNet仍能在一定程度上捕捉到風(fēng)格模式,但明顯比全模型差。
內(nèi)容風(fēng)格的權(quán)衡 在訓(xùn)練階段,我們可以通過(guò)調(diào)整權(quán)重項(xiàng)α來(lái)控制風(fēng)格化程度。如圖10所示,網(wǎng)絡(luò)傾向于在低風(fēng)格損失的情況下保留內(nèi)容圖像的更多細(xì)節(jié)和結(jié)構(gòu),而在高風(fēng)格損失的情況下合成多余的風(fēng)格模式。
圖10. 內(nèi)容式損失的權(quán)衡
5、結(jié)論
最后,我們提出了一種新的前饋風(fēng)格轉(zhuǎn)換算法 LapStyle,該算法以漸進(jìn)的方式合成風(fēng)格化的圖像。在 LapStyle 中,我們提出了一個(gè)新穎的框架 “Drafting and Revision”,它首先合成一個(gè)具有全局模式的粗略草圖,然后根據(jù)在拉普拉斯濾波幫助下產(chǎn)生的殘差圖像修訂局部風(fēng)格模式。實(shí)驗(yàn)證明,我們的方法是有效和高效的。它所合成的圖像比其他最先進(jìn)的前饋風(fēng)格轉(zhuǎn)移算法更有優(yōu)勢(shì),并且可以實(shí)時(shí)運(yùn)行。目前,我們的 LapStyle 是按照 Per-Style-Per-Model 的方式設(shè)計(jì)的,任意的風(fēng)格轉(zhuǎn)移將是我們未來(lái)的工作。
總結(jié)
以上是生活随笔為你收集整理的【翻译】Drafting and Revision: Laplacian Pyramid Network for Fast High-Quality Artistic Style Transfer的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: Netbeans8下 Weblogic
- 下一篇: [Leetcode][程序员面试金典][