當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

【翻译】Drafting and Revision: Laplacian Pyramid Network for Fast High-Quality Artistic Style Transfer

發布時間：2023/12/10 编程问答 39 豆豆

生活随笔收集整理的這篇文章主要介紹了【翻译】Drafting and Revision: Laplacian Pyramid Network for Fast High-Quality Artistic Style Transfer 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

摘要

藝術風格轉移的目的是將風格從示例圖像遷移到內容圖像。目前，基于優化的方法已經取得了很好的風格化質量，但昂貴的時間成本限制了其實際應用。同時，前饋方法仍然無法合成復雜的風格，特別是當存在整體的全局和局部模式時。受常見的繪畫過程–繪制草稿和修改細節–的啟發，我們引入了一種新的前饋方法，名為Laplacian Pyramid Network（LapStyle）。LapStyle首先通過繪圖網絡傳輸低分辨率的全局風格模式。然后，它通過一個修訂網絡在高分辨率下修改低級別的細節，該網絡根據草案和拉普拉斯濾波提取的圖像紋理幻化出一個剩余的圖像。通過堆疊具有多個拉普拉斯金字塔級別的修正網絡，可以很容易地生成更高的重述細節。最終的風格化圖像是由所有金字塔層的輸出匯總而得到的。實驗表明，我們的方法可以實時合成高質量的風格化圖像，其中整體風格模式被適當地轉移到了圖像中。

1、介紹

藝術風格轉移是一種有吸引力的技術，它可以用內容圖像的結構和范例風格圖像的風格模式創造一個藝術圖像。它一直是學術界和工業界盛行的研究課題。最近，已經有很多方法被提出來，這些方法可以大致分為兩類：圖像優化和模型優化方法。

圖像優化方法是用固定的網絡反復優化風格化的圖像。Gatys等人的開創性工作[6]在一個迭代優化過程中實現了風格轉移，其中風格模式是通過從預先訓練的深度神經網絡中提取的特征的相關性來捕獲的。隨后的工作主要以不同損失函數的形式改進了[6][12, 24]。雖然取得了卓越的風格化結果，例如STROTSS[12]，但這些方法的廣泛應用仍受限于其緩慢的在線優化過程。相反，模型優化方法通過訓練更新神經網絡，并且在測試中是前饋的。主要有三種細分類型：
（1）每風格-每模型方法[10, 15, 29, 30, 31]被訓練成以單一的給定風格圖像來合成圖像。
（2）Multi-Style-Per-Model方法[2, 5, 32, 17, 34]引入各種網絡結構來同時處理多種風格；
（3）Arbitrary-Style-Per-Model方法[9, 18, 27, 16, 22]進一步采用各種特征修改機制來轉移任意風格。
回顧這些方法，我們發現，雖然局部風格模式可以被轉移，但混合了全局和局部模式的復雜風格仍然不能被正確轉移。同時，在很多情況下會出現偽裝和缺陷。為此，在這項工作中，我們的主要目標是通過前饋網絡實現高質量的藝術風格轉移結果，其中局部和全局模式可以保留美學。

人類畫家在作畫時如何處理復雜的風格模式？一個常見的過程，特別是對于初學者來說，是先畫一個草稿來捕捉全局結構，然后逐步修改局部細節，而不是直接逐個完成最后的繪畫。受此啟發，我們提出了一個新的神經網絡，名為Laplacian Pyramid Network（LapStyle），用于風格轉換。首先，在我們的框架中，一個起草網絡被設計用來在低分辨率下轉移全局風格模式，因為我們觀察到在低分辨率下，由于更大的感受野和更少的局部細節，全局模式更容易被轉移。然后，修訂網絡被用來修改高分辨率下的局部細節，其方法是根據草案和拉普拉斯濾波在2倍分辨率的內容圖像上產生的紋理，幻化出一個殘余圖像。請注意，我們的修正網絡可以以金字塔的方式堆疊，以產生更高分辨率的細節。最終的風格化圖像是由所有金字塔級別的輸出匯總得到的。此外，我們采用淺層補丁判別器來對抗性地學習局部風格模式。如圖1所示，通過我們的 "起草和修改 "過程，實現了有吸引力的風格化結果。總結起來，我們的主要貢獻有以下幾點。

我們引入了一個新的框架 “起草和修訂”，它通過將風格轉移過程分成全局風格模式的起草和局部風格模式的修訂來模擬繪畫創作機制。
我們提出了一種名為LapStyle的新穎前饋式風格轉換方法。它使用起草網絡在低分辨率下傳輸全局風格模式，并根據內容圖像的多級拉普拉斯濾波輸出，采用高分辨率的修訂網絡以金字塔方式修訂局部風格模式。
實驗表明，我們的方法可以產生高分辨率和高質量的風格化結果，其中全局和局部風格模式都能有效地合成。此外，我們提出的LapStyle非常高效，可以在110幀/秒的時間內合成512像素的高分辨率風格化圖像。

圖1. 我們提出的風格轉移過程的說明。首先，我們在低分辨率下轉移全局模式，然后在高分辨率下修改局部模式。為了更好的可視化，我們將不同比例的風格化圖像調整為相同的尺寸。放大以獲得更好的視野。

2、相關工作

Style Transfer. 風格轉移算法的目的是將風格從示例圖像遷移到內容圖像。隨著Gatys等人的開創性工作[6]，此后開發了各種方法來解決不同方面的問題，包括視覺質量[14，8]，頭部肖像[25]，語義控制[1，7]等等。Kolkin等人提出了STROTSS[12]，通過采用Earth Movers Distance（rEMD）損失進行優化，可以生成更高質量的風格化圖像，該方法在對內容的語義布局進行最小失真的情況下部署風格屬性。然而，基于優化方法的昂貴計算成本阻礙了它們的實際應用。為了提高運行效率，研究人員建議用前饋網絡取代迭代優化程序。每風格-每模型方法[10, 15, 29, 30, 31, 3]采用自動編碼器作為風格轉移網絡，用來自[6]的內容和風格損失的變體來訓練。多風格-每模型方法[2, 5, 32, 17, 34]在自動編碼器的中間嵌入了可學習的仿生變換結構，以納入多種風格。最近，任意風格-每個模型的方法[9, 18, 27, 16, 22]通過風格特征嵌入網絡實現任意風格的轉移。

基于模型優化的方法在視覺質量方面的妥協下，極大地提高了計算的效率。AdaIN[9]、WCT[18]和線性變換[16]調整了整體的特征分布，因此它們都不能保留局部風格模式。SANet[22]借助于風格關注機制將局部風格模式嵌入到內容特征圖中，但它們在處理大規模紋理（如《星空》中的漩渦）時不能表現良好。相反，我們提出的LapStyle可以捕獲不同尺度的風格統計，這比目前基于模型優化的方法大大提高了視覺質量。

多尺度學習（Multi-scale Learning）. 在圖像處理領域，多尺度工作是一種常見的技術，可以更好地捕捉到廣泛的圖像統計數據。[4, 13, 26, 28, 20, 32, 12]。Lai等人提出LapSRN[13]，通過用級聯卷積網絡預測高頻殘差來逐步重建高分辨率圖像。Shaham等人提出SinGAN[26]，通過捕捉不同圖像尺度的補丁級分布，用金字塔式的對抗網絡來訓練單一圖像的網絡。WCT[18]和PhotoWCT[19]也逐漸產生了從粗到細的結果，但它們在原始的RGB域工作，而不像LapStyle那樣在殘差域明確地修改風格化的細節。WCT2[33]也通過小波變換利用殘差信息，其中殘差信息主要用于保持原始圖像的空間細節。不同的是，LapStyle在殘差場中構建了修正網絡，以更好地轉移和增強局部風格化細節。STROTSS[12]也采用了一個多尺度方案，通過在提高分辨率時最小化EMD損失來應用風格轉移，并表現出高視覺質量。然而，迭代優化程序的計算成本很高，合成一個樣式需要幾分鐘。我們提出的LapStyle通過采用多尺度網絡來捕捉從全局分布到局部模式的廣泛的風格統計，以更好地平衡運行時間效率和視覺質量之間的權衡。

3、方法

在本節中，我們將詳細介紹擬議的前饋式傳輸網絡LapStyle。為了便于理解，在本節中，我們只描述2級金字塔的架構。如圖2所示，基礎層是一個起草網絡，而修訂網絡則用于更高分辨率的第二層。通過堆疊修訂網絡來建立更多的層次是很簡單的。

圖2. 我們框架的概述。(a) 我們首先在拉普拉斯濾波器的幫助下從內容圖像xc生成圖像金字塔{ ?xc, rc}。(b) 繪圖網絡生成粗糙的低分辨率風格化圖像。(c ) 然后，修訂網絡生成高分辨率的風格化細節圖像。(4) 最終的風格化圖像是通過匯總輸出金字塔而產生的。圖像中的L、C和A分別代表拉普拉斯、串聯和聚合操作。

3.1. 網絡結構

我們提出的LapStyle將內容圖像xc∈RHc×Wc和預先定義的風格圖像xs作為輸入，并最終合成一個風格化的圖像xcs。如圖2所示，為了進行預處理，我們構建了一個2級圖像金字塔{ ?xc, rc}。 rc是在拉普拉斯濾波的幫助下得到的，即rc = xc - U p(L( ?xc))，其中L表示拉普拉斯濾波，U p是2×上采樣操作。風格圖像xs也被下采樣為低分辨率版本 ?xs。

在第一階段， Drafting Network 首先用預先訓練好的神經網絡編碼 ?xc和 ?xs中的內容和風格特征，然后用風格特征對內容特征進行多粒度的調制，最后用解碼器生成風格化圖像 ?xcs∈RHc/2-Wc/2。在第二階段，修正網絡首先 ?xcs上采樣為x′cs∈RHc-Wc，然后將x′cs和rc連接起來作為輸入，生成風格化的細節圖像rcs∈RHc-Wc。最后，我們通過聚合金字塔的輸出得到風格化的圖像xcs∈RHc-Wc：

其中A表示聚合函數。在下文中，我們將詳細介紹起草網絡和修訂網絡的配置。

3.2. Drafting Network

Drafting Network 的目的是在低分辨率下合成全局風格模式。為什么是低分辨率？正如第4.3節所展示的，我們觀察到在低分辨率下，由于大的接受域和較少的局部細節，全局模式可以更容易地被轉移。為了實現單一風格的轉移，早期的工作[10]直接訓練了一個編碼器-解碼器模塊，其中只有內容圖像被用作輸入。為了更好地結合風格特征和內容特征，我們采用最近的任意風格轉移方法中的AdaIN模塊[9]。

Drafting Network 的結構如圖3所示，它包括一個編碼器、幾個AdaIN模塊和一個解碼器。
（1）編碼器是一個預先訓練好的VGG-19網絡，它在訓練期間是固定的。給定?xc和和?xs，VGG編碼器在2 1、3 1和4 1層提取多個粒度的特征。
（2）然后，我們在2 1、3 1和4 1層之后分別使用AdaIN模塊對內容和風格特征進行特征調制。
（3）最后，在每個粒度的解碼器中，來自AdaIN模塊的相應特征通過一個跳過連接被合并起來。
這里，低層和高層的AdaIN模塊后的跳過連接被用來幫助保留內容結構，特別是對于低分辨率的圖像。

圖3. 擬議的 Drafting Network 的圖示。

3.3. Revision Network

Revision Network 旨在通過生成的殘差細節圖像rcs來修訂粗糙的風格化圖像，而最終的風格化圖像是由rcs和粗糙的風格化圖像?xcs組合生成的。這一過程確保了?xcs中全局風格模式的分布得到適當的保持。同時，學習用殘余的細節圖像來修改局部風格模式對 Revision Network 來說是比較容易的。

如圖4所示，Revision Network 被設計成一個簡單而有效的編碼器-解碼器結構，只有一個下采樣和一個上采樣層。此外，我們引入了一個補丁判別器，以幫助Revision Network 在對抗性學習環境下捕捉精細的補丁紋理。我們按照 SinGAN[26] 定義補丁判別器D，其中D擁有5個卷積層和32個隱藏通道。我們選擇定義一個相對較淺的D，以：
（1）避免過度擬合，因為我們只有一個樣式的圖像；
（2）控制感受野，以確保D只能捕獲局部模式。

圖4. 擬議的 Revision Network 的說明。這里的C和A分別代表串聯和聚合操作。

3.4. 訓練

在訓練過程中，Drafting Network 和 Revision Network 都用內容和風格損失進行了優化，而 Revision Network 則進一步采用了對抗性損失。因此，我們首先描述風格和內容損失，然后分別介紹兩個網絡的全部目標。由于我們的LapStyle是 “Per-Style-Per-Model”，在訓練過程中，我們保留一個單一的xs，以及一組來自內容數據集Xc的xc。

風格損失。按照最近的基于優化的方法STROTSS[12]，我們將寬松的Earth Mover Distance（rEMD）損失和常用的平均差值損失結合起來作為風格損失。首先，給定一個圖像，我們可以使用預先訓練好的VGG-19編碼器來提取一組特征向量。rEMD損失旨在測量風格圖像xs和風格化圖像xcs的特征分布之間的距離。為了簡單起見，我們在下文中省略了表示層索引的上標。假設Fs∈Rhsws×c，Fcs∈Rhcswcs×c是xs和xcs的特征，它們的rEMD損失可以計算為：

其中余弦距離項 Cij 定義為：

為了保持特征向量的大小，我們還采用了常用的均值-方差損失為：

其中，μ和σ分別計算特征向量的平均值和共變率。

內容損失（Content Loss） 對于內容損失，我們采用常用的歸一化感知損失和[12]中提出的Fc∈R^hcwc×c 和 Fcs∈R^hcswcs×c 之間的自我相似度損失。請注意，hcs等于hc，wc等于wcs，因為xc和xcs的分辨率相同。感知損失被定義為：

其中norm表示F的通道歸一化。自相似性損失旨在保留內容圖像與風格化圖像的相對關系，其定義為：

這里Dcij和Dcsij分別是自相似性矩陣Dc和Dcs的第（i，j）項。這里Dij是成對的余弦相似度<Fi, Fj>。

Loss of Drafting Network. 在 Drafting Network 的訓練階段，使用低分辨率圖像 ?xc 和 ?xs 作為網絡輸入，也分別用于計算內容損失和風格損失。 Drafting Network 的整體訓練目標函數定義為：

其中λ1, λ2和α是權重項。我們通過調整α來控制內容和風格損失的平衡。具體來說，lr和lss被定義在3_1和4_1層，同時lm和lp被定義在1_1到5_1層。

Loss of Revision Network. 在 Revision Network 的訓練階段，Drafting Network 的參數是固定的，訓練損失是建立在xcs之上的。為了更好地學習局部細粒度紋理，除了基礎內容和風格損失Lbase = LDraft，我們引入了一個判別器，用對抗性損失項訓練修訂網絡。整體優化目標定義為：

其中Rev表示修訂網絡，D表示判別器，β控制基礎風格轉移損失和對抗性損失之間的平衡。Ladv是標準的對抗性訓練損失。

4、結論

4.1. 數據集和設置

Dataset. 為了訓練我們的模型，我們需要一個單一的風格圖像和一個內容圖像的集合。在這項工作中，按照慣例，我們使用MS-COCO[21]作為內容圖像，并從WikiArt[23]中選擇風格圖像。一些來自Pexels.com的無版權圖片也被用作風格圖片。

實施細節。 在LapStyle中，Drafting 和 Revision Networks 是依次訓練的。前者首先以128×128的分辨率進行訓練，然后再以256×256的分辨率訓練。為了達到更高的分辨率，我們可以用512和1024的分辨率連續訓練更多的 Revision Networks。對于這兩個網絡，我們使用 Adam 優化器[11]，學習率為1e-4，批次大小為5張內容圖像。對于這兩個網絡，訓練過程包括30,000次迭代。損失權重項λ1、λ2、α和β分別被設置為16、3、3和1。更詳細的LapStyle的網絡配置見我們的補充材料。

4.2. 與先前作品的比較

定性比較。 如圖6所示，我們將我們的方法與最先進的前饋方法進行比較。

與我們的LapStyle一樣，Johnson等人[10]也是一種單一的風格轉換方法。[10]可以合成一些結構清晰的局部風格模式（如第8行），但是，內容圖像的顏色分布和紋理結構經常被保持（如第2行和第8行），導致風格化不足。

AdaIN[9]、WCT[18]和SANet[22]是任意的風格轉移模型，它們有一些共同的特點：
(1)它們主要轉移風格圖像的顏色分布和簡單的局部圖案；
(2)尺寸較大的復雜風格圖案基本不轉移(如第2、5、6行)；
(3)局部圖案通常不被準確轉移，導致局部紋理凌亂(如第2、8行)。
具體來說，在AdaIN[9]中，保留內容的顏色分布問題很嚴重（如第2、7、8行）。WCT[18]丟棄了太多的上下文結構，導致了無序和混亂的圖像。與這些方法相比，我們的方法可以同時轉移簡單的局部風格模式和復雜的全局風格模式，保留清晰干凈的風格模式結構。顏色分布也被完全轉移。雖然LapStyle不能轉移任意風格，但我們認為提高風格化的質量對前饋方法來說是最重要的。我們將任意的LapStyle留給未來的工作。

在圖7中，我們展示了一些由我們的方法和兩種基于優化的風格轉換方法[12，6]合成的風格化實例，為了更好地進行比較，還展示了放大的視圖。Gatys等人[6]通過優化柵格矩陣合成單一比例的風格化圖像。如圖7所示，雖然整體風格圖案被轉移，但風格圖案的分布往往是不恰當的（例如，左下和右下）。同時，風格化圖像的顏色分布也不夠準確。STROTSS[12]是最先進的基于優化的方法，它以EMD損失的方式將風格化圖像按多個比例（從32像素到512像素）進行同步。如圖7所示，風格化的圖像具有精致的紋理和清晰的風格模式。作為一種前饋方法，我們的方法取得了與STROTSS相當的風格化結果。在某些情況下（如圖7中的右上角和左下角），我們的方法能更好地合成大尺度圖案。STROTSS的比較優勢在于，由于其優化過程，在某些情況下（如圖7的右下角），風格模式和上下文結構結合得更好。

用戶研究。 我們選擇了15張風格圖片和15張內容圖片，用我們的方法和5種有競爭力的SOTA方法共合成了225張圖片。然后，我們隨機抽取20個內容風格對。對于每一對，我們將風格化的圖像以隨機的順序并排展示給受試者，并要求他們選擇他們最喜歡的一張。如圖5所示，我們從100個用戶那里收集了2000張投票，并以餅圖的形式顯示了每種方法的投票百分比。比較結果表明，我們的風格化結果明顯比競爭對手更有吸引力。

效率分析。 我們比較了我們所提出的方法和其他優化方法以及前饋方法的效率。在評估中使用了兩種圖像比例：256和512分辨率。對于512像素的推斷，使用了兩個修正網絡。所有的實驗都是使用單個Nvidia Titan X GPU進行的。比較結果見表1，我們可以發現我們的方法是實時運行的，在256像素和512像素的情況下分別達到了120幀和110幀。推理速度快的原因有三個：
（1）起草網絡是建立在低分辨率的基礎上；
（2）AdaIN模塊是高效的；
（3）修訂網絡是淺層的。
如圖6和圖7所示，我們的方法生成的風格化圖像的質量與基于優化的方法相當，并且明顯優于前饋方法。最后，表1顯示，我們的方法達到了最佳效果。表1表明，我們的方法在前饋方法中達到了SOTA推理的速度，并且比優化方法快得多。

4.3. 消融學習

損失函數（Loss Function） 我們進行了消融實驗來驗證用于訓練LapStyle的各個損失項的有效性，結果如圖8所示。
（1）沒有rEMD損失lr，黃圈的風格模式消失，整體風格化程度下降。這一結果證明了rEMD損失的有效性，我們是第一個用rEMD損失訓練前饋網絡的人。
（2）如果沒有自我相似性損失lss，左下角會出現一些不合適的黑色風格圖案。
（3）在沒有感知損失lp的情況下，內容圖像的結構被完全丟棄，LapStyle直接重新建立風格圖像。這些結果表明，lp對于我們的方法是必要的，同時lss可以進一步約束內容的一致性，以實現更好的風格分布。
（4）如果沒有對抗性損失 ladv，紋理質量和顏色分布會比完整模型差。這一比較表明，修改階段的對抗性學習可以有效地改善風格的質量，特別是局部紋理和顏色的分布。

圖8. 訓練期間使用的損失函數的影響的消融研究。這里，lr、lss和lp都用于兩個網絡，而ladv只用于修正網絡。lm用于所有消融設置以保持風格轉移。最好在屏幕上放大觀看。

Revision Network 的有效性 消融實驗的結果如圖9所示。在修改之前，由于低分辨率，圖9（a）中Drafting Network的結果是模糊的。如果我們直接在256個像素上訓練Drafting Network，如圖9（b）所示，其結果是清晰的，但其風格化程度有限。這些結果證明了我們的 “Drafting and Reviso ” 框架的有效性和必要性。另一個問題是，是否有必要在拉普拉斯差分圖像的幫助下修正粗糙的風格化圖像？圖9(c )的圖像是由 Revision Network 在RGB空間直接生成的。我們可以看到修改結果的風格分布與 drafting image（a）相去甚遠，似乎不如原始結果那么和諧。這一觀察結果表明，以殘差形式修改風格化的圖像更容易控制，并能產生更好的結果。

圖9. 對 Revision Network 有效性的消融研究。
(a) 在128像素上訓練的繪圖網絡（結果圖像被上采樣為256像素）。
(b) 直接在256像素上訓練的繪圖網絡。在(a)和(b)中，沒有使用Revision Network。
(c ) Revision Network 直接建立在RGB圖像上，而不是殘差圖像。
(d) Revision Network 是在沒有Drafting Network 的情況下訓練的。

Drafting Network 的有效性 如圖9所示，在沒有DraNet的情況下，RevNet仍能在一定程度上捕捉到風格模式，但明顯比全模型差。

內容風格的權衡 在訓練階段，我們可以通過調整權重項α來控制風格化程度。如圖10所示，網絡傾向于在低風格損失的情況下保留內容圖像的更多細節和結構，而在高風格損失的情況下合成多余的風格模式。

圖10. 內容式損失的權衡

5、結論

最后，我們提出了一種新的前饋風格轉換算法 LapStyle，該算法以漸進的方式合成風格化的圖像。在 LapStyle 中，我們提出了一個新穎的框架 “Drafting and Revision”，它首先合成一個具有全局模式的粗略草圖，然后根據在拉普拉斯濾波幫助下產生的殘差圖像修訂局部風格模式。實驗證明，我們的方法是有效和高效的。它所合成的圖像比其他最先進的前饋風格轉移算法更有優勢，并且可以實時運行。目前，我們的 LapStyle 是按照 Per-Style-Per-Model 的方式設計的，任意的風格轉移將是我們未來的工作。

總結

以上是生活随笔為你收集整理的【翻译】Drafting and Revision: Laplacian Pyramid Network for Fast High-Quality Artistic Style Transfer的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： Netbeans8下 Weblogic
下一篇： [Leetcode][程序员面试金典][