日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Neural Style Transfer: A Review

發(fā)布時間:2023/12/20 编程问答 39 豆豆
生活随笔 收集整理的這篇文章主要介紹了 Neural Style Transfer: A Review 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

這篇是風(fēng)格轉(zhuǎn)移方面的綜述,文中總結(jié)了多種風(fēng)格轉(zhuǎn)移的方法。因為18年看過很多風(fēng)格轉(zhuǎn)移方面的論文,因此翻譯這篇綜述。

Gatys等人的開創(chuàng)性工作。通過分離和重新組合圖像內(nèi)容和風(fēng)格,展示了卷積神經(jīng)網(wǎng)絡(luò)(CNN)在創(chuàng)作藝術(shù)圖像方面的力量。使用CNN以不同樣式呈現(xiàn)內(nèi)容圖像的該過程被稱為神經(jīng)樣式轉(zhuǎn)移(NST)。從那時起,NST已經(jīng)成為學(xué)術(shù)文獻和工業(yè)應(yīng)用中的熱門話題。它正在受到越來越多的關(guān)注,并且提出了各種方法來改進或擴展原始NST算法。在本文中,我們的目的是全面概述當(dāng)前在NST方面取得的進展。我們首先在NST領(lǐng)域提出當(dāng)前算法的分類。然后,我們提出了幾種評估方法,并定性和定量地比較了不同的NST算法。審查結(jié)束時討論了NST的各種應(yīng)用以及未來研究的未決問題。本評論中討論的論文清單,相應(yīng)代碼,預(yù)先訓(xùn)練的模型和更多比較結(jié)果可在以下網(wǎng)址公開獲取:https://github.com/ycjing/Neural-Style-Transfer-Papers。

?

STYLE TRANSFER WITHOUT NEURAL NETWORKS?

藝術(shù)風(fēng)格化是一個長期的研究課題。 由于其廣泛的應(yīng)用,二十多年來它一直是一個重要的研究領(lǐng)域。 在NST出現(xiàn)之前,相關(guān)研究已經(jīng)擴展到一個稱為非真實感渲染(NPR)的領(lǐng)域。 在本節(jié)中,我們將簡要介紹一些沒有CNN的藝術(shù)渲染(AR)算法。 具體而言,我們專注于2D圖像的藝術(shù)風(fēng)格化,在[14]中稱為基于圖像的藝術(shù)渲染(IB-AR)。 有關(guān)IB-AR技術(shù)的更全面概述,我們建議[3],[14],[15]。 遵循由Kyprianidis等人定義的IB-AR分類法。 [14],我們首先介紹了沒有CNN的每類IB-AR技術(shù),然后討論它們的優(yōu)缺點。

?

?

Stroke-Based Rendering:

基于筆畫的渲染。 基于筆劃的渲染(SBR)是指在數(shù)字畫布上放置虛擬筆劃(例如,筆刷筆觸,平鋪,點畫)以渲染具有特定樣式的照片的過程[16]。 SBR的過程通常從源照片開始,逐漸合成筆畫以匹配照片,并最終產(chǎn)生非真實照片,其看起來像照片但具有藝術(shù)風(fēng)格。 在此過程中,目標函數(shù)被設(shè)計用于指導(dǎo)筆畫的貪婪或迭代放置。

Region-Based Techniques:

基于地區(qū)的技術(shù)。 基于區(qū)域的渲染是結(jié)合區(qū)域分割以基于區(qū)域中的內(nèi)容實現(xiàn)渲染的自適應(yīng)。 早期基于區(qū)域的IB-AR算法利用區(qū)域的形狀來指導(dǎo)中風(fēng)放置[17],[18]。 以這種方式,可以在圖像中的不同語義區(qū)域中產(chǎn)生不同的筆劃圖案。 宋等人。 [19]進一步提出了一種基于區(qū)域的IB-AR算法來操縱藝術(shù)風(fēng)格的幾何。 他們的算法通過用幾個規(guī)范形狀替換區(qū)域來創(chuàng)建簡化的形狀渲染效果。 考慮到地區(qū)的提升需要對細節(jié)層面進行控制。 然而,SBR中的問題仍然存在:基于一個區(qū)域的渲染算法無法模擬任意樣式。

Example-Based Rendering:

基于示例的渲染。 基于示例的渲染的目標是學(xué)習(xí)示例對之間的映射。 這類IB-AR技術(shù)是由Hertzmann等人提出的,他提出了一個名為圖像類比的框架[9]。 圖像類比旨在以受監(jiān)督的方式學(xué)習(xí)一對源圖像和目標風(fēng)格化圖像之間的映射。 圖像類比訓(xùn)練集包括成對的未校正的源圖像和具有特定樣式的相應(yīng)的程式化圖像。 然后,圖像類比算法從示例訓(xùn)練對中學(xué)習(xí)類似變換,并在給出測試輸入照片時創(chuàng)建類似的程式化結(jié)果。 圖像類比也可以以各種方式擴展,例如,以學(xué)習(xí)用于肖像繪制渲染的筆劃放置[20]。

一般來說,圖像類比對各種藝術(shù)風(fēng)格都有效。 但是,實際上通常無法獲得成對的訓(xùn)練數(shù)據(jù)。 另一個限制是圖像類比僅利用低級圖像特征。 因此,圖像類比通常無法有效捕獲內(nèi)容和樣式,從而限制了性能

Image Processing and Filtering:

創(chuàng)建藝術(shù)形象是一個旨在簡化圖像簡化和抽象的過程。 因此,考慮采用和組合一些相關(guān)的圖像處理濾波器來渲染給定的照片是很自然的。 例如,在[21]中,Winnem¨oller等人。 首次利用雙邊[22]和高斯濾波器[23]的差異自動產(chǎn)生卡通效果。

與其他類別的IB-AR技術(shù)相比,基于圖像濾波的渲染算法通常可以直接實現(xiàn)并且在實踐中有效。 在費用上,他們的風(fēng)格多樣性非常有限。

?

摘要。 基于上述討論,雖然一些沒有CNN的IB-AR算法能夠忠實地描繪某些規(guī)定的風(fēng)格,但它們通常在靈活性,風(fēng)格多樣性和有效的圖像結(jié)構(gòu)提取方面具有局限性。因此,需要新穎的算法。 解決這些限制,從而產(chǎn)生了NST的領(lǐng)域。

?

?

?

?DERIVATIONS OF NEURAL STYLE TRANSFER

神經(jīng)傳遞的衍生

為了更好地理解NST的發(fā)展,我們首先介紹它的推導(dǎo)。 為了自動轉(zhuǎn)換藝術(shù)風(fēng)格,第一個也是最重要的問題是如何從圖像中建模和提取樣式。 由于樣式與紋理1非常相關(guān),因此直觀的方法是將視覺樣式建模與之前經(jīng)過深入研究的視覺紋理建模方法聯(lián)系起來。在獲得樣式表示之后,問題是如何在保留其內(nèi)容的同時利用期望的樣式信息來重建圖像,這通過圖像重建技術(shù)來解決。

Visual Texture Modelling

?????? 視覺紋理建模[24]以前被研究作為紋理合成的核心[25],[26]。 在整個歷史中,有兩種不同的方法來模擬視覺紋理,即使用匯總統(tǒng)計的參數(shù)化紋理建模和使用馬爾可夫隨機場(MRF)的非參數(shù)紋理建模。

1)具有匯總統(tǒng)計的參數(shù)化紋理建模。紋理建模的一條途徑是從樣本紋理中捕獲圖像統(tǒng)計信息,并利用摘要統(tǒng)計屬性來對紋理進行建模。這個想法首先由Julesz [27]提出,他將紋理建模為基于像素的N階統(tǒng)計量。 后來,[28]中的工作利用過濾器分析紋理的響應(yīng),而不是直接的基于像素的測量。 之后,Portilla和Simoncelli [29]進一步引入了基于多尺度定向濾波器響應(yīng)的紋理模型,并使用梯度下降來改善合成結(jié)果。Gatys等人提出的更新的參數(shù)紋理建模方法。 [30]是第一個測量CNN領(lǐng)域的匯總統(tǒng)計數(shù)據(jù)。 他們設(shè)計了一種基于Gram的表示來模擬紋理,這是預(yù)訓(xùn)練分類網(wǎng)絡(luò)(VGG網(wǎng)絡(luò))不同層中過濾器響應(yīng)之間的相關(guān)性[31]。更具體地說,基于Gram的表示編碼CNN濾波器響應(yīng)集的二階統(tǒng)計量。 接下來,我們將詳細解釋此表示,以便使用以下部分。

?????? 假設(shè)樣本紋理圖像的特征圖在預(yù)訓(xùn)練的深度分類網(wǎng)絡(luò)的第1層是

?

C是通道數(shù),H和W待變特征圖F的高度和寬度。基于Gram的表示可以通過計算Gram矩陣獲取((Fl(Is)的重新形成版本)

?????? 來自CNN的這種基于Gram的紋理表示有效地模擬了天然和非自然紋理的各種變化。 然而,基于Gram的表示旨在捕獲全局統(tǒng)計數(shù)據(jù)并拋出空間排列,這導(dǎo)致用于建模具有長距離對稱結(jié)構(gòu)的常規(guī)紋理的結(jié)果令人不滿意。為了解決這個問題,Berger和Memisevic [32]提出用δ像素水平和垂直地轉(zhuǎn)換特征圖,以將位置(i,j)處的特征與位置(i +δ,j)和(i,j +)處的特征相關(guān)聯(lián)。δ)。通過這種方式,表示結(jié)合了空間排列信息,因此在建模具有對稱屬性的紋理時更有效。

?????? 2)使用MRF進行非參數(shù)紋理建模。 另一個值得注意的紋理建模方法是使用非參數(shù)重采樣。 各種非參數(shù)方法基于MRF模型,其假設(shè)在紋理圖像中,每個像素完全由其空間鄰域表征。在這種假設(shè)下,Efros和Leung [25]建議通過搜索源紋理圖像中的相似鄰域并分配相應(yīng)的像素來逐個合成每個像素。 他們的工作是最早的MRF非參數(shù)算法之一。 在他們的工作之后,Wei和Levoy [26]通過始終使用固定的鄰域來進一步加快鄰域匹配過程。

Image Reconstruction

?????? 通常,許多視覺任務(wù)的關(guān)鍵步驟是從輸入圖像中提取抽象表示。 圖像重建是一個逆過程,它是從提取的圖像表示中重建整個輸入圖像。先前研究過分析特定圖像表示并發(fā)現(xiàn)抽象表示中包含哪些信息。這里主要關(guān)注CNN基于圖像優(yōu)化的圖像重構(gòu)(IOB-IR)和基于模型優(yōu)化的圖像重建(MOB-IR)。

?????? 1)基于圖像優(yōu)化的在線圖像重建。 第一種反轉(zhuǎn)CNN表示的算法由Mahendran和Vedaldi提出[33],[34]。 給定要反轉(zhuǎn)的CNN表示,他們的算法迭代地優(yōu)化圖像(通常從隨機噪聲開始),直到它具有類似的期望CNN表示。迭代優(yōu)化過程基于圖像空間中的梯度下降。因此,該過程是耗時的,尤其是當(dāng)期望的重建圖像很大時。

?????? 2)基于模型優(yōu)化的圖像重建。 為了解決[33],[34]的效率問題,Dosovitskiy和Brox [35]建議提前訓(xùn)練前饋網(wǎng)絡(luò)并將計算負擔(dān)置于訓(xùn)練階段。在測試階段,可以通過網(wǎng)絡(luò)前向傳遞簡單地完成相反的過程。 他們的算法顯著加快了圖像重建過程。 在他們后來的工作[36]中,他們進一步結(jié)合了生成對抗網(wǎng)絡(luò)(GAN)[37]來改進結(jié)果。

?

A TAXONOMY OF NEURAL STYLE TRANSFER ALGORITHMS

?????? NST是上述基于示例的IB-AR技術(shù)的子集。 在本節(jié)中,我們首先提供NST算法的分類,然后詳細解釋主要的基于2D圖像的非真實感NST算法(圖2,紫色框)。更具體地說,對于每種算法,我們首先介紹主要思想,然后討論它的弱點和優(yōu)勢。 由于定義風(fēng)格[3],[38]的概念很復(fù)雜,因此非常主觀地定義哪個標準對于成功的風(fēng)格轉(zhuǎn)換算法很重要[39],這里我們嘗試以更加結(jié)構(gòu)化的方式評估這些算法 只關(guān)注細節(jié),語義,深度和筆觸的變化2。我們將在第8節(jié)中更多地討論美學(xué)評價標準的問題,并在第6節(jié)中提出更多的評價結(jié)果。

?????? 我們提出的NST技術(shù)分類如圖2所示。我們保留了Kyprianidis等人提出的IB-AR技術(shù)的分類。 [14]未受影響并通過NST算法擴展它。 當(dāng)前的NST方法分為兩類:基于圖像優(yōu)化的在線神經(jīng)方法(IOB-NST)和基于模型優(yōu)化的基于神經(jīng)網(wǎng)絡(luò)方法(MOB-NST)。第一類通過迭代地優(yōu)化圖像來傳送樣式,即,屬于該類別的算法是基于IOB-IR技術(shù)構(gòu)建的。 第二類優(yōu)化了離線的生成模型,并通過單個前向傳遞產(chǎn)生風(fēng)格化圖像,其利用了MOB-IR技術(shù)的思想。

?

?

4.1 Image-Optimisation-Based Online Neural Methods

?????? DeepDream [40]是通過使用IOB-IR技術(shù)反轉(zhuǎn)CNN表示來產(chǎn)生藝術(shù)圖像的第一次嘗試。 通過進一步將視覺紋理建模技術(shù)與模型風(fēng)格相結(jié)合,隨后提出了IOB-NST算法,為NST領(lǐng)域構(gòu)建了早期基礎(chǔ)。 他們的基本思想是首先從相應(yīng)的風(fēng)格和內(nèi)容圖像中建模和提取風(fēng)格和內(nèi)容信息,將它們重新組合為目標表示,然后迭代地重建與目標表示匹配的風(fēng)格化結(jié)果。 通常,不同的IOBNST算法共享相同的IOB-IR技術(shù),但它們對視覺樣式進行建模的方式不同,視覺樣式是基于上述兩類視覺紋理建模技術(shù)構(gòu)建的。 IOB-NST算法的共同限制是由于迭代圖像優(yōu)化過程,它們在計算上是昂貴的。

?

4.1.1 Parametric Neural Methods with Summary Statistics

?????? IOB-NST方法的第一個子集基于帶有摘要統(tǒng)計的參數(shù)紋理建模。 該樣式被表征為一組空間摘要統(tǒng)計。

?????? 我們首先介紹Gatys等人提出的第一個NST算法。 [4],[10]。 通過重建VGG-19網(wǎng)絡(luò)中間層的表示,Gatys等人。 觀察到深度卷積神經(jīng)網(wǎng)絡(luò)能夠從任意照片和來自著名藝術(shù)品的一些外觀信息中提取圖像內(nèi)容。根據(jù)這一觀察,他們通過懲罰從內(nèi)容和程式化圖像派生的高級表示的差異來構(gòu)建新風(fēng)格化圖像的內(nèi)容組件,并通過匹配基于Gram的樣式概要統(tǒng)計和程式化圖像來構(gòu)建樣式組件, 這是從他們提出的紋理建模技術(shù)[30](第3.1節(jié))得出的。 其算法的細節(jié)如下。

給定內(nèi)容圖像Ic和樣式圖像Is,[4]中的算法試圖尋找最小化以下目標的程式化圖像I.

?

?????? 其中Lc將給定內(nèi)容圖像的內(nèi)容表示與風(fēng)格化圖像的內(nèi)容表示進行比較,并且Ls將從樣式圖像導(dǎo)出的基于Gram的樣式表示與風(fēng)格化圖像的表示進行比較。 α和β用于平衡風(fēng)格化結(jié)果中的內(nèi)容組件和樣式組件。

?????? 內(nèi)容損失Lc由層1中的內(nèi)容圖像Ic的特征表示F1與用噪聲圖像初始化的風(fēng)格化圖像I的特征表示F1之間的平方歐幾里德距離來定義:

?

?????? 其中{lc}表示用于計算內(nèi)容丟失的VGG層集。 對于樣式損失Ls,[4]利用基于Gram的視覺紋理建模技術(shù)對樣式進行建模,這已經(jīng)在3.1節(jié)中進行了解釋。 因此,樣式損失是由Is和I的基于Gram的樣式表示之間的歐幾里德距離的平方定義的:

?

?

其中G是前面提到的Gram矩陣,用于編碼濾波器響應(yīng)集的二階統(tǒng)計量。 {ls}表示用于計算樣式丟失的VGG圖層集。

?????? 內(nèi)容和樣式層的選擇是樣式轉(zhuǎn)移過程中的一個重要因素。 不同的位置和層數(shù)可以導(dǎo)致非常不同的視覺體驗。 鑒于預(yù)先訓(xùn)練的VGG-19 [31]作為損失網(wǎng)絡(luò),Gatys等人在[4]中選擇{ls}和{lc}是{ls} = {relu1 1,relu2 1,relu3 1, relu4 1,relu5 1}和{lc} = {relu4 2}。對于{ls},組合多個層(高達高層)的想法對于Gatys等人的NST算法的成功至關(guān)重要。 匹配多尺度樣式表示導(dǎo)致更平滑和更連續(xù)的樣式化,這給出了視覺上最吸引人的結(jié)果[4]。對于內(nèi)容層{lc},匹配較低層上的內(nèi)容表示保留了不期望的結(jié)構(gòu)(例如,風(fēng)格化期間原始內(nèi)容圖像的,邊緣和顏色圖)。相反,通過匹配網(wǎng)絡(luò)的較高層上的內(nèi)容,可以改變細節(jié)結(jié)構(gòu)以與期望的樣式一致,同時保留內(nèi)容圖像的內(nèi)容信息。 此外,使用基于VGG的損失網(wǎng)絡(luò)進行樣式轉(zhuǎn)移不是唯一的選擇。 通過選擇其他預(yù)訓(xùn)練的分類網(wǎng)絡(luò),例如ResNet [41],可以實現(xiàn)類似的性能。

?????? 在等式(2)中,Lc和Ls是可微分的。 因此,利用隨機噪聲作為初始I,可以通過在具有反向傳播的圖像空間中使用梯度下降來最小化等式(2)。 此外,通常在實踐中添加總方差去噪術(shù)語以鼓勵程式化結(jié)果的平滑性。

?????? Gatys等人的算法。 不需要用于訓(xùn)練的地面實況數(shù)據(jù),也沒有對樣式圖像類型的明確限制,這解決了以前沒有CNN的IB-AR算法的局限性(第2節(jié))。然而,由于CNN特征不可避免地會丟失一些低級信息,因此Gatys等人的算法在風(fēng)格化過程中不能保持細節(jié)結(jié)構(gòu)和細節(jié)的一致性。而且,由于基于Gram的樣式表示的局限性,它通常不能用于照片級真實感合成。更重要的是,它沒有考慮畫筆筆畫的變化以及內(nèi)容圖像中包含的語義和深度信息,這些是評估中的重要因素

?????? 此外,基于Gram的樣式表示不是統(tǒng)計編碼樣式信息的唯一選擇。 還有一些其他有效的統(tǒng)計風(fēng)格表示,它們來自基于Gram的表示。 李等人[42]通過考慮轉(zhuǎn)移學(xué)習(xí)領(lǐng)域中的風(fēng)格轉(zhuǎn)移,或更具體地,領(lǐng)域適應(yīng)[43],得出一些不同的風(fēng)格表征。鑒于來自不同分布的訓(xùn)練和測試數(shù)據(jù),域適應(yīng)的目標是使來自源域的標記訓(xùn)練數(shù)據(jù)訓(xùn)練的模型適應(yīng)于預(yù)測來自目標域的未標記測試數(shù)據(jù)的標記。域適應(yīng)的一種選擇是匹配樣本 通過最小化它們的分布差異,在源域中與目標域中的分布差異,其中最大均值差異(MMD)是衡量兩個分布之間差異的流行選擇。 李等人。 證明在一對樣式和風(fēng)格化圖像之間匹配基于Gram的樣式表示本質(zhì)上是使用二次多項式內(nèi)核最小化MMD。因此,期望MMD的其他核函數(shù)可以在NST中同等地應(yīng)用,例如線性核,多項式核和高斯核。 另一個相關(guān)的表示是批量標準化(BN)統(tǒng)計表示,它使用VGG圖層中要素圖的均值和方差來建模樣式:

其中F1c∈RH×W是VGG網(wǎng)絡(luò)的第一層的第c個特征映射信道,C1是信道的數(shù)量。

Li等人算法的主要貢獻在于理論上證明了NST中的Gram矩陣匹配過程相當(dāng)于用二階多項式核最小化MMD,從而提出了對NST的及時解釋并使NST原理更加清晰。 但是,Li等人的算法。 沒有解決Gatys等人的算法的上述限制。

基于Gram的算法的一個限制是其在優(yōu)化期間的不穩(wěn)定性。 此外,它需要手動調(diào)整參數(shù),這是非常繁瑣的。 Risser等。 [44]發(fā)現(xiàn)具有完全不同的均值和方差的特征激活仍然可以具有相同的革蘭矩陣,這是穩(wěn)定性的主要原因。在這種觀察的情況下,Risser等人。 引入額外的直方圖損失,引導(dǎo)優(yōu)化以匹配特征激活的整個直方圖。 它們還提供了自動參數(shù)調(diào)整的初步解決方案,即通過極端梯度歸一化明確地防止具有極值的梯度。

通過額外匹配特征激活的直方圖,Risser等人的算法。 通過更少的迭代和參數(shù)調(diào)整工作實現(xiàn)更穩(wěn)定的樣式傳輸。 然而,它的好處是以高計算復(fù)雜性為代價。 此外,Gatys等人的算法的上述缺點仍然存在,例如缺乏深度考慮和細節(jié)的一致性。

所有這些上述神經(jīng)方法僅比較CNN特征空間中的內(nèi)容和風(fēng)格化圖像,以使風(fēng)格化圖像在語義上與內(nèi)容圖像相似。 但由于CNN特征不可避免地丟失了圖像中包含的一些低級信息,因此在程式化結(jié)果中通常會出現(xiàn)一些不具吸引力的扭曲結(jié)構(gòu)和不規(guī)則的偽像。為了在風(fēng)格化過程中保持細節(jié)結(jié)構(gòu)的連貫性,Li等人。 [45]建議在像素空間中的低級特征上加入附加約束。 它們引入了一個額外的拉普拉斯損失,它被定義為方位圖像的拉普拉斯濾波器響應(yīng)與程式化結(jié)果之間的平方歐幾里德距離。 拉普拉斯濾波器計算圖像中像素的二階導(dǎo)數(shù),并廣泛用于邊緣檢測。

Li等人的算法。 在風(fēng)格化過程中保留了細節(jié)結(jié)構(gòu)和細節(jié)方面具有良好的表現(xiàn)。但它在語義,深度,畫筆筆劃的變化等方面仍然缺乏考慮。

?

?

?

4.1.2 Non-parametric Neural Methods with MRFs

?????? 非參數(shù)化IOB-NST是在基于MRF的非參數(shù)化紋理建模的基礎(chǔ)上建立起來的。此類別在本地級別考慮NST,即在補丁上操作以匹配樣式。

?????? LI和Wand[46]是第一個提出基于MRF的NST算法。他們發(fā)現(xiàn),帶有匯總統(tǒng)計的參數(shù)化NST方法只捕獲了令人困惑的特征相關(guān)性,并且不限制空間布局,這導(dǎo)致了照片真實感樣式在視覺上不太可信的結(jié)果。他們的解決方案是以非參數(shù)化的方式對樣式進行建模,并引入一個新的樣式丟失函數(shù),其中包括基于補丁的MRF:

?

?

式中,ψ(fl(i))是特征圖fl(i)中所有局部斑塊的集合。ψi表示第i個局部面片,ψnn(i)是樣式化圖像i中與第i個局部面片最相似的樣式面片。通過計算樣式圖像中所有樣式塊的歸一化互相關(guān),得到最佳匹配的ψnn(i)。m是本地補丁的總數(shù)。由于他們的算法匹配補丁級別的樣式,因此可以更好地保留文件結(jié)構(gòu)和排列。

?????? LI和Wand算法的優(yōu)點在于,當(dāng)內(nèi)容照片和樣式在形狀和角度上相似時,由于基于補丁的MRF丟失,它在照片真實感樣式(或者更具體地說)中表現(xiàn)得特別好。然而,當(dāng)內(nèi)容和樣式圖像在透視和結(jié)構(gòu)上存在很大差異時,由于圖像補丁無法正確匹配,通常會失敗。它在保存清晰的細節(jié)和深度信息方面也受到限制。

?

4.2 Model-Optimisation-Based Of?ine Neural Methods

?????? 雖然IOB-NST能夠生成令人印象深刻的風(fēng)格化圖像,但仍然存在一些限制。最令人擔(dān)憂的限制是效率問題。第二類mobst通過利用mob-ir重建風(fēng)格化結(jié)果來解決速度和計算成本問題,也就是說,對于一個或多個風(fēng)格的圖像,前饋網(wǎng)絡(luò)g在一組圖像IC上優(yōu)化為:

?

?????? 根據(jù)一個G可以產(chǎn)生的藝術(shù)風(fēng)格的數(shù)量,MOB-NST算法進一步分為PerStyle per model(PSPM)MOB-NST方法、Multiple Styleper model(MSPM)MOB-NST方法和任意Styleper model(ASPM)MOB-NST方法。

4.2.1 Per-Style-Per-Model Neural Methods

?????? 1)具有匯總統(tǒng)計的參數(shù)化PSPM。前兩種MOB-NST算法由Johnson等人提出。[47]和Ulyanov等人[48]分別。這兩種方法有一個相似的想法,即預(yù)先訓(xùn)練前饋式專用網(wǎng)絡(luò),并在測試階段通過一次前饋,產(chǎn)生一個風(fēng)格化的結(jié)果。它們只在網(wǎng)絡(luò)架構(gòu)上有所不同,Johnson等人他的設(shè)計粗略地遵循了阿德福德等人提出的網(wǎng)絡(luò)方案。但對于剩余塊以及分段跨步卷積,Ulyanov等人使用多尺度結(jié)構(gòu)作為發(fā)電機網(wǎng)絡(luò)。目標函數(shù)類似于Gatys等人的算法。[4]表明它們也是具有匯總統(tǒng)計的參數(shù)化方法。

?????? Johnson等人和烏里揚諾夫等人的算法實現(xiàn)了實時風(fēng)格轉(zhuǎn)換。然而,它們的算法設(shè)計基本上遵循了Gatys等人的算法,這使得它們與Gatys等人的算法同樣面臨上述問題(例如,在細節(jié)和深度信息的一致性方面缺乏考慮)。

?????? 在[47]、[48]之后不久,Ulyanov等人[50]進一步發(fā)現(xiàn),簡單地對每一個圖像而不是一批圖像應(yīng)用歸一化(精確的批量歸一化(bn))會導(dǎo)致樣式化質(zhì)量的顯著提高。這種單一圖像歸一化稱為實例歸一化(in),當(dāng)批量大小設(shè)置為1時,這相當(dāng)于批量歸一化。帶有in的樣式傳輸網(wǎng)絡(luò)的收斂速度比bn快,并且在視覺上也取得了更好的效果。一種解釋是in是樣式歸一化的一種形式,可以直接將每個內(nèi)容圖像的樣式歸一化為所需的樣式[51]。因此,這個目標更容易學(xué)習(xí),因為網(wǎng)絡(luò)的其他部分只需要處理內(nèi)容丟失。

?????? 2)帶MRF的非參數(shù)PSPM。Li和Wand[52]的另一項工作受到了第4.1.2節(jié)中基于MRF的NST[46]算法的啟發(fā)。他們通過使用對抗性訓(xùn)練來訓(xùn)練馬爾可夫前饋網(wǎng)絡(luò)來解決效率問題。與[46]相似,他們的算法是一種基于補丁的非參數(shù)化MRF方法。結(jié)果表明,該方法優(yōu)于Johnson等人的算法。烏里揚諾夫等人由于其基于補丁的設(shè)計,在復(fù)雜圖像中保留了連貫的紋理。然而,他們的算法對于非紋理樣式(例如,人臉圖像)的性能不太滿意,因為他們的算法在語義上缺乏考慮。他們算法的其他缺點包括缺乏對深度信息的考慮和畫筆筆畫的變化,這是重要的視覺因素。

?

4.2.2 Multiple-Style-Per-Model Neural Methods

?????? 雖然上述的PSPM方法可以比以前的IOBNST方法更快地生成兩個數(shù)量級的風(fēng)格化圖像,但是必須為每個特定的風(fēng)格圖像訓(xùn)練單獨的生成網(wǎng)絡(luò),這是非常耗時和靈活的。但許多繪畫(如印象派繪畫)都有相似的筆觸,只是在色彩調(diào)色板上有所不同。直觀地說,為每個人訓(xùn)練一個單獨的網(wǎng)絡(luò)是多余的。因此,提出了MSPM,進一步將多種樣式合并到一個模型中,從而提高了PSPM的靈活性。處理這個問題通常有兩條途徑:1)將網(wǎng)絡(luò)中的少量參數(shù)與每種樣式聯(lián)系起來([53],[54]),2)仍然只利用一個像pspm這樣的網(wǎng)絡(luò),但將樣式和內(nèi)容作為輸入結(jié)合起來([55],[56])。

?????? 1)僅將少量參數(shù)綁定到每個樣式。Dumoulin等人的早期研究。[53]是根據(jù)PSPM算法[50]中建議的層內(nèi)算法(第4.2.1節(jié))構(gòu)建的。他們出人意料地發(fā)現(xiàn),使用相同的卷積參數(shù),但只有層中的縮放和移動參數(shù)才能夠模擬不同的樣式。因此,他們提出了一種基于條件實例歸一化(CIN)的條件多式傳輸網(wǎng)絡(luò)訓(xùn)練算法,其定義如下:

其中f是輸入特征激活,s是一組樣式圖像中所需樣式的索引。如式(8)所示,每種類型的調(diào)節(jié)是通過將特征激活f(ic)歸一化后的參數(shù)γs和βs進行縮放和移動來完成的,即每種類型都可以通過調(diào)整一系列的參數(shù)轉(zhuǎn)換來實現(xiàn)。解釋與第4.2.1節(jié)中的[50]類似,即使用不同系列的參數(shù)對特征統(tǒng)計進行歸一化,可以將輸入內(nèi)容圖像歸一化為不同的樣式。此外,Dumoulin等人的算法。還可以通過組合不同樣式的固定參數(shù),到將多種樣式擴展組合到一個單一樣式化結(jié)果中。

?????? Chen等人提出了另一種遵循MSPM第一條路徑的算法。[54]。 他們的想法是明確地分離樣式和內(nèi)容,即使用單獨的網(wǎng)絡(luò)組件來學(xué)習(xí)相應(yīng)的內(nèi)容和樣式信息。 更具體地說,他們使用中級卷積濾波器(稱為“StyleBank”層)來單獨學(xué)習(xí)不同的風(fēng)格。 每個樣式都綁定到“StyleBank”圖層中的一組參數(shù)。 網(wǎng)絡(luò)中的其余組件用于學(xué)習(xí)內(nèi)容信息,這些信息由不同的樣式共享。 他們的算法還支持靈活的增量訓(xùn)練,即訓(xùn)練網(wǎng)絡(luò)中的內(nèi)容組件,并且只為新風(fēng)格訓(xùn)練“StyleBank”層。

總之,Dumoulin等人的算法都是如此。 和陳等人學(xué)習(xí)新風(fēng)格和靈活控制風(fēng)格融合需要付出很少的努力。 然而,它們沒有解決NST算法的常見限制,例如,缺少細節(jié),語義,深度和畫筆筆劃的變化。

2)將風(fēng)格和內(nèi)容結(jié)合起來作為輸入。 第一類的一個缺點是模型尺寸通常隨著學(xué)習(xí)樣式數(shù)量的增加而變大。 MSPM的第二條路徑通過充分探索單一網(wǎng)絡(luò)的能力,并將內(nèi)容和風(fēng)格結(jié)合到網(wǎng)絡(luò)中進行風(fēng)格識別來解決這一局限性。 不同的MSPM算法在將樣式合并到網(wǎng)絡(luò)中的方式不同。

在[55]中,給定N個目標樣式,Li等人。 設(shè)計一個樣式選擇的選擇單元,它是一個N維單熱矢量。 選擇單元中的每個位代表目標樣式集中的特定樣式。 對于選擇單元中的每個位,Li等人。 首先從均勻分布中采樣相應(yīng)的噪聲圖f(Is),然后將f(Is)饋入樣式子網(wǎng)絡(luò)以獲得相應(yīng)的樣式編碼特征F(f(Is))。 通過將樣式編碼特征F(f(Is))和內(nèi)容編碼特征Enc(Ic)的串聯(lián)饋送到樣式傳送網(wǎng)絡(luò)的解碼器部分Dec中,可以產(chǎn)生期望的程式化結(jié)果:I = Dec(F( f(Is))⊕Enc(Ic))。

Zhang和Dana [56]的另一項工作首先通過預(yù)先訓(xùn)練的VGG網(wǎng)絡(luò)轉(zhuǎn)發(fā)每個風(fēng)格圖像,并獲得不同VGG層中的多尺度特征激活F(Is)。 然后,通過其提出的靈感層,將多尺度F(Is)與來自編碼器中的不同層的多尺度編碼特征Enc(Ic)組合。 靈感層設(shè)計用于重塑F(Is)以匹配所需的尺寸,并且還具有可學(xué)習(xí)的權(quán)重矩陣以調(diào)整特征圖以幫助最小化目標函數(shù)。

第二種類型的MSPM解決了第一類MSPM中增加的模型尺寸的限制。 第二種類型的MSPM的樣式可擴展性要小得多,因為只有一個網(wǎng)絡(luò)用于多種樣式。 我們將在第6節(jié)中定量比較不同MSPM算法的樣式可擴展性。此外,第一類MSPM中存在一些上述限制,即第二類MSPM算法仍然受限于保持細節(jié)結(jié)構(gòu)的相干性和深度信息。

4.2.3 Arbitrary-Style-Per-Model Neural Methods

?????? 第三類,ASPM-MOB-NST,旨在實現(xiàn)單模式全能,即一種單一的可訓(xùn)練模型,以傳遞任意藝術(shù)風(fēng)格。 還有兩種類型的ASPM,一種建立在使用MRF的非參數(shù)紋理建模上,另一種建立在使用摘要統(tǒng)計的參數(shù)化紋理建模之上。

?????? 1)具有MRF的非參數(shù)ASPM。 第一個ASPM算法由Chen和Schmidt [57]提出。 他們首先從預(yù)先訓(xùn)練的VGG網(wǎng)絡(luò)中計算的內(nèi)容和樣式特征激活中提取一組激活補丁。 然后他們將每個內(nèi)容補丁匹配到最相似的樣式補丁并交換它們(在[57]中稱為“樣式交換”)。可以通過使用IOB-IR或MOB-IR技術(shù)在“樣式交換”之后重建所得到的激活圖來產(chǎn)生程式化結(jié)果。 Chen和Schmidt的算法比以前的方法更靈活,因為它具有單模型的特點。但是[57]的程式化結(jié)果不太吸引人,因為內(nèi)容補丁通常與不代表所需風(fēng)格的樣式補丁交換。 因此,內(nèi)容得到很好的保留,而風(fēng)格通常不會很好地反映出來。

?????? 2)具有匯總統(tǒng)計的參數(shù)化ASPM。 考慮到4.2.2節(jié)中的[53],任意樣式轉(zhuǎn)移的最簡單方法是訓(xùn)練一個單獨的參數(shù)預(yù)測網(wǎng)絡(luò)P,用多種訓(xùn)練方式[58]預(yù)測方程(8)中的γs和βs。 給定測試樣式圖像Is,樣式傳遞網(wǎng)絡(luò)中的CIN層從P(Is)獲取參數(shù)γs和βs,并且通過前向傳遞將輸入內(nèi)容圖像歸一化為期望的樣式。

?????? 基于[53]的另一種類似方法由Huang和Belongie [51]提出。 Huang和Belongie建議將等式(8)中的條件實例歸一化(CIN)修改為自適應(yīng)實例歸一化(AdaIN),而不是訓(xùn)練參數(shù)預(yù)測網(wǎng)絡(luò):

?

?

?

?

?
?

?

?

?

?

?

?

?

AdaIN在內(nèi)容和樣式特征激活之間傳遞渠道方面的均值和方差特征統(tǒng)計,這與[57]也有類似的想法。 與[53]不同,[51]的樣式傳輸網(wǎng)絡(luò)中的編碼器是固定的,并且包括預(yù)訓(xùn)練的VGG網(wǎng)絡(luò)中的前幾層。因此,[51]中的F是來自預(yù)訓(xùn)練的VGG網(wǎng)絡(luò)的特征激活。 解碼器部分需要使用大量樣式和內(nèi)容圖像進行訓(xùn)練,以在AdaIN到樣式化結(jié)果之后解碼所得到的特征激活:I = Dec(AdaIN(F(Ic),F(Is)))。

?????? Huang和Belongie [51]的算法是實現(xiàn)實時樣式化的第一個ASPM算法。 然而,Huang和Belongie [51]的算法是數(shù)據(jù)驅(qū)動的,并且局限于看不見的風(fēng)格。 此外,簡單地調(diào)整要素統(tǒng)計的均值和方差使得難以合成具有豐富細節(jié)和局部結(jié)構(gòu)的復(fù)雜樣式模式。

?????? Li等人最近的一項工作。 [59]試圖利用一系列特征變換以一種無風(fēng)格學(xué)習(xí)方式轉(zhuǎn)移任意藝術(shù)風(fēng)格。 與[51]類似,Li等人。 使用預(yù)先訓(xùn)練的VGG的前幾層作為編碼器并訓(xùn)練相應(yīng)的解碼器。 但是他們用一對白化和著色變換(WCT)代替編碼器和解碼器之間的AdaIN層[51]:I = Dec(WCT(F(Ic),F(Is)))。他們的算法建立在觀察美白變換可以去除風(fēng)格相關(guān)信息并保留內(nèi)容結(jié)構(gòu)的基礎(chǔ)上。 因此,從編碼器接收內(nèi)容激活F(Ic),白化變換可以過濾輸入內(nèi)容圖像中的原始樣式并返回僅具有內(nèi)容信息的過濾表示。然后,通過應(yīng)用著色變換,將包含在F(Is)中的樣式模式合并到濾波的內(nèi)容表示中,并且可以通過解碼變換的特征來獲得程式化的結(jié)果I. 他們還將這種單級風(fēng)格化擴展到多級風(fēng)格化,以進一步提高視覺質(zhì)量。

?????? Li等人的算法。 是第一個以無學(xué)習(xí)方式傳遞藝術(shù)風(fēng)格的ASPM算法。 因此,與[51]相比,它沒有泛化能力的限制。 但李等人的算法。 仍然無法產(chǎn)生尖銳的細節(jié)和細微的筆觸。 樣式化結(jié)果將在第6節(jié)中顯示。此外,它在保留深度信息和畫筆筆劃的變化方面缺乏考慮因素。

5 IMPROVEMENTS AND EXTENSIONS

?????? 自NST算法出現(xiàn)以來,還有一些研究致力于通過控制感知因素(例如,筆畫大小控制,空間樣式控制和顏色控制)來改進當(dāng)前的NST算法(圖2,綠框)。 而且,所有上述NST方法都是針對一般靜止圖像而設(shè)計的。 它們可能不適合于特殊類型的圖像和視頻(例如,涂鴉,頭像和視頻幀)。 因此,各種后續(xù)研究(圖2,粉紅色框)旨在將一般NST算法擴展到這些特定類型的圖像,甚至將它們擴展到藝術(shù)圖像樣式(例如,音頻樣式)之外。

?????? 控制神經(jīng)風(fēng)格轉(zhuǎn)移中的感知因素。 加蒂等人他們自己[60]提出了幾個微小的修改來改進他們以前的算法[4]。 他們展示了一種空間風(fēng)格控制策略來控制內(nèi)容圖像每個區(qū)域的風(fēng)格。 他們的想法是為內(nèi)容和風(fēng)格圖像的特征激活定義引導(dǎo)通道。引導(dǎo)通道具有[0,1]的值,指定哪個樣式應(yīng)該轉(zhuǎn)移到哪個內(nèi)容區(qū)域,即內(nèi)容引導(dǎo)通道的內(nèi)容區(qū)域。 應(yīng)使用樣式引導(dǎo)通道等于1的樣式呈現(xiàn)1。對于顏色控制,原始NST算法產(chǎn)生具有樣式圖像的顏色分布的風(fēng)格化圖像。 然而,有時人們更喜歡保持顏色的樣式轉(zhuǎn)移,即在樣式轉(zhuǎn)移期間保留內(nèi)容圖像的顏色。 相應(yīng)的解決方案是首先在樣式傳輸之前變換樣式圖像的顏色以匹配內(nèi)容圖像的顏色,或者僅在亮度通道中執(zhí)行樣式傳送。

?????? 對于筆劃大小控制,問題要復(fù)雜得多。 我們在圖3中顯示了中風(fēng)大小控制的樣本結(jié)果。中風(fēng)大小控制策略的討論需要分成幾個案例[61]:

1)具有非高分辨率圖像的IOB-NST:由于當(dāng)前樣式統(tǒng)計(例如,基于Gram和基于BN的統(tǒng)計)是尺度敏感的[61],為了實現(xiàn)不同的筆劃大小,解決方案只是調(diào)整給定的大小 風(fēng)格圖像到不同的尺度。

2)具有非高分辨率圖像的MOB-NST:一種可能的解決方案是在前向通過之前將輸入圖像調(diào)整到不同的比例,這不可避免地損害了樣式化質(zhì)量。 另一種可能的解決方案是訓(xùn)練具有不同尺度的樣式圖像的多個模型,這是消耗空間和時間的。 而且,可能的解決方案不能保持具有不同筆劃尺寸的結(jié)果之間的筆劃一致性,即,結(jié)果在筆劃方向,筆劃配置等方面變化。然而,用戶通常希望僅改變筆劃大小而不改變其他大小。 為了解決這個問題,Jing等人。 [61]提出了一種可控制的PSPM算法。 他們的算法的核心部分是StrokePyramid模塊,它通過自適應(yīng)接收場學(xué)習(xí)不同的筆畫大小。在不犧牲質(zhì)量和速度的情況下,他們的算法首先利用單個模型來實現(xiàn)靈活的連續(xù)筆畫大小控制,同時保持筆畫一致性,并進一步實現(xiàn)空間筆畫大小控制以產(chǎn)生新的藝術(shù)效果。 雖然也可以使用ASPM算法來控制筆劃大小,但ASPM會降低質(zhì)量和速度。 因此,與[61]相比,ASPM在產(chǎn)生細節(jié)和細節(jié)方面無效。

?????? 3)具有高分辨率圖像的IOB-NST:對于高分辨率圖像(例如,[60]中的3000×3000像素),通過簡單地將樣式圖像大規(guī)模地調(diào)整大小,不能實現(xiàn)大的筆劃尺寸。 由于只有具有接收場尺寸VGG的內(nèi)容圖像中的區(qū)域可能受到損耗網(wǎng)絡(luò)中的神經(jīng)元的影響,因此在具有接收場尺寸的小圖像區(qū)域中,大的和較大的筆刷筆劃之間幾乎沒有視覺差異。 加蒂等人。 [60]通過提出粗略到最終的IOB-NST程序,通過下采樣,樣式化,上采樣和最終樣式化的幾個步驟來解決這個問題。

?????? 4)具有高分辨率圖像的MOB-NST:類似于3),風(fēng)格化結(jié)果中的筆劃大小不隨高分辨率圖像的樣式圖像比例而變化。 該解決方案也類似于Gatys等人。 [60]中的算法,這是一種粗略的風(fēng)格化程序[62]。 我們的想法是利用包含多個子網(wǎng)的多模型。 每個子網(wǎng)接收前一個子網(wǎng)的上采樣程式化結(jié)果作為輸入,并用更精細的筆劃再次對其進行樣式化。

?????? 當(dāng)前NST算法的另一個限制是它們不考慮圖像中包含的深度信息。 為了解決這一局限性,提出了深度保持NST算法[63]。他們的方法是在[47]的基礎(chǔ)上增加深度損失函數(shù)來測量內(nèi)容圖像和程式化圖像之間的深度差異。 通過應(yīng)用單圖像深度估計算法(例如,Chen等人在[64]中的工作)來獲取圖像深度。

?????? 語義風(fēng)格轉(zhuǎn)移。 給定一對內(nèi)容相似的風(fēng)格和內(nèi)容圖像,語義風(fēng)格轉(zhuǎn)移的目的是在風(fēng)格和內(nèi)容之間建立語義對應(yīng)關(guān)系,將每個風(fēng)格區(qū)域映射到對應(yīng)的語義相似的內(nèi)容區(qū)域。 然后將每個樣式區(qū)域中的樣式轉(zhuǎn)移到語義上相似的內(nèi)容區(qū)域。

?????? 1)基于圖像優(yōu)化的語義風(fēng)格轉(zhuǎn)移。 由于補丁匹配方案自然滿足基于區(qū)域的通信的要求,Champandard [65]提出基于上述基于補丁的算法[46](第4.1.2節(jié))構(gòu)建語義樣式轉(zhuǎn)移算法。 盡管由Li和Wand [46]算法產(chǎn)生的結(jié)果接近于語義風(fēng)格轉(zhuǎn)移的目標,[46]并沒有包含準確的分割掩碼,這有時會導(dǎo)致錯誤的語義匹配。因此,Champandard在[46]上增加了一個額外的語義通道,這是一個下采樣的語義分割圖。 分割圖可以手動注釋,也可以來自語義分割算法[66],[67]。 盡管[65]有效,但基于MRF的設(shè)計并非唯一的選擇。 Chen和Hsu [68]沒有結(jié)合MRF先驗,而是提供了一種語義風(fēng)格轉(zhuǎn)移的替代方法,即利用掩蔽過程來約束空間對應(yīng),并且還有一個更高階的樣式特征統(tǒng)計來進一步改善結(jié)果。 最近,Mechrez等人。 [69]提出了一種替代的語境損失,以無分割的方式實現(xiàn)語義風(fēng)格轉(zhuǎn)移。

?????? 2)基于模型優(yōu)化的語義風(fēng)格轉(zhuǎn)移。 和以前一樣,效率問題始終是一個大問題。 [65]和[68]都基于IOB-NST算法,因此留有很大的改進空間。 Lu等人。 [70]通過優(yōu)化特征空間中的目標函數(shù)而不是像素空間來加速該過程。 更具體地說,他們建議進行特征重建,而不是像以前的算法那樣進行圖像重建。 這種優(yōu)化策略減少了計算負擔(dān),因為損失不需要通過深層網(wǎng)絡(luò)傳播。 利用訓(xùn)練好的解碼器將得到的重構(gòu)特征解碼成最終結(jié)果。由于[70]的速度沒有達到實時,因此仍有很大的空間可供進一步研究。

?????? 實例樣式轉(zhuǎn)移。 實例樣式傳輸基于實例分割,旨在僅對圖像中的單個用戶指定對象進行樣式化。 挑戰(zhàn)主要在于程式化對象和非固定背景之間的過渡。 Castillo等。 [71]通過向平滑和抗別名邊界像素添加額外的基于MRF的損失來解決此問題。

?????? 涂鴉風(fēng)格轉(zhuǎn)移。 在[65]中可以找到一個有趣的擴展,即利用NST將粗略的草圖轉(zhuǎn)換為精美的藝術(shù)作品。 該方法簡單地丟棄內(nèi)容丟失術(shù)語并使用涂鴉作為分割圖來進行語義樣式轉(zhuǎn)移。

?????? 立體風(fēng)格轉(zhuǎn)移。 受AR / VR需求驅(qū)動,陳等人。 [72]提出了用于立體圖像的立體NST算法。 他們提出差異損失來懲罰雙向差異。 他們的算法被證明可以為不同的視圖產(chǎn)生更一致的筆畫。

?????? 縱向樣式Transfer.Current樣式傳輸算法通常不針對頭像進行優(yōu)化。 由于它們沒有施加空間限制,直接將這些現(xiàn)有算法應(yīng)用于頭部肖像會使面部結(jié)構(gòu)變形,這對人類視覺系統(tǒng)來說是不可接受的.Selimet al。 [73]解決了這個問題并將[4]擴展到頭像轉(zhuǎn)移。 他們建議使用增益圖的概念來約束空間配置,這可以在傳遞風(fēng)格圖像的紋理時保留面部結(jié)構(gòu)。

?????? 視頻風(fēng)格轉(zhuǎn)移。 用于視頻序列的NST算法基本上是在Gatys等人的靜止圖像的第一個NST算法之后不久提出的[4]。 與靜止圖像樣式傳遞不同,視頻樣式傳遞算法的設(shè)計需要考慮相鄰視頻幀之間的平滑過渡。 像以前一樣,我們將相關(guān)算法劃分為基于圖像優(yōu)化和基于模型優(yōu)化的視頻樣式轉(zhuǎn)換。

?????? 1)基于圖像優(yōu)化的在線視頻風(fēng)格轉(zhuǎn)移。 第一種視頻樣式傳輸算法由Ruder等人提出。 [74],[75]。 它們引入了基于光學(xué)流動的時間一致性損失,以懲罰沿點軌跡的偏差。 光流通過使用新型光學(xué)流動估計算法計算[76],[77]。 結(jié)果,他們的算法消除了時間假象并產(chǎn)生了流暢的風(fēng)格化視頻。然而,他們在[4]上構(gòu)建他們的算法并且需要幾分鐘來處理單個幀。

?????? 2)基于模型優(yōu)化的視頻樣式轉(zhuǎn)換。 一些后續(xù)研究專門用于實時定制給定視頻。 黃等人。 [78]建議在現(xiàn)有的PSPM算法上增加Ruder等人的時間一致性損失[74]。 給定兩個連續(xù)幀,使用樣式轉(zhuǎn)移網(wǎng)絡(luò)的兩個相應(yīng)輸出直接計算時間一致性損失以促進逐像素一致性,并且引入相應(yīng)的兩幀協(xié)同訓(xùn)練策略用于計算時間一致性損失。在[79]中可以找到另一項與[78]有相似想法但又對風(fēng)格不穩(wěn)定問題進行探索的并行工作。 與[78],[79]不同,陳等人。 [80]提出了一個流程子網(wǎng)來產(chǎn)生特征流,并在特征空間中包含光流信息。 他們的算法建立在預(yù)訓(xùn)練的樣式傳輸網(wǎng)絡(luò)(編碼器 - 解碼器對)上,并使用獲得的特征流包裹來自預(yù)訓(xùn)練的樣式編碼器的特征激活。

?????? 字符樣式轉(zhuǎn)移。給出包含多個字符的樣式圖像,字符樣式轉(zhuǎn)移的目標是應(yīng)用NST生成新字體和文本效果的想法。 在[81]中,Atarsaikhan等人。 直接將[4]中的算法應(yīng)用于字體樣式轉(zhuǎn)換,并獲得視覺上合理的結(jié)果。 而楊等人。 [82]建議首先表征風(fēng)格元素并利用提取的特征來指導(dǎo)文本效果的生成。 最近的一項工作[83]設(shè)計了用于字形預(yù)測的條件GAN模型,以及用于顏色和紋理預(yù)測用法的裝飾網(wǎng)絡(luò)。 通過聯(lián)合訓(xùn)練這兩個網(wǎng)絡(luò),可以以端到端的方式實現(xiàn)字體樣式傳輸。

逼真的風(fēng)格轉(zhuǎn)移。 真實感風(fēng)格轉(zhuǎn)移(也稱為色彩風(fēng)格轉(zhuǎn)移)旨在轉(zhuǎn)移色彩分布的風(fēng)格。 一般的想法是建立在當(dāng)前的語義樣式轉(zhuǎn)移上,但是消除失真并保留內(nèi)容圖像的原始結(jié)構(gòu)。

?????? 1)基于圖像優(yōu)化的照片寫實風(fēng)格轉(zhuǎn)換。 最早的照片寫實風(fēng)格轉(zhuǎn)移方法是由Luan等人提出的。[84]。 他們提出了一個兩階段優(yōu)化程序,即通過使用非真實感風(fēng)格轉(zhuǎn)移算法[65]對給定照片進行樣式化來初始化優(yōu)化,然后通過添加照片級正則化來懲罰圖像失真。 但由于Luan等人的算法建立在基于圖像優(yōu)化的語義風(fēng)格轉(zhuǎn)移方法[65]的基礎(chǔ)上,因此它們的算法計算成本很高。 與[84]類似,Mechrez等人提出的另一種算法。 [85]也采用兩階段優(yōu)化程序。 他們建議通過將輸出圖像中的漸變與內(nèi)容照片中的漸變相匹配來重新定義非照片寫實風(fēng)格化結(jié)果。 與[84]相比,Mechrez等人的算法。 實現(xiàn)更快的照片級逼真的程式化速度。

?????? 2)基于模型優(yōu)化的照片寫實風(fēng)格轉(zhuǎn)換。 Li etal。[86]通過兩個步驟(樣式化步驟和平滑步驟)處理這個問題來解決[84]的效率問題。 樣式化步驟是在[59]中應(yīng)用NST算法,但是將上采樣層替換為未分層,以產(chǎn)生具有較少失真的樣式化結(jié)果。 然后平滑步驟進一步消除了結(jié)構(gòu)假象。 這兩個上述算法[84],[86]主要是為自然圖像設(shè)計的。 [87]中的另一項工作提出利用GAN將顏色從人類設(shè)計的動漫圖像轉(zhuǎn)移到草圖。 他們的算法展示了一種有希望的現(xiàn)實應(yīng)用,即現(xiàn)實主義風(fēng)格傳遞,即自動圖像著色。

?????? 屬性樣式轉(zhuǎn)移。 圖像屬性通常被稱為圖像顏色,紋理等。以前,圖像屬性轉(zhuǎn)移是通過圖像類比[9]以監(jiān)督方式完成的(第2節(jié))。 來自基于補丁的NST [46],Liao等人的想法。 [88]提出了一種深度圖像類比來研究CNN特征域中的圖像類比。該算法基于匹配技術(shù),實現(xiàn)了弱監(jiān)督圖像類比,即它們的算法只需要一對源圖像和目標圖像而不是大的訓(xùn)練集。

?????? 時尚風(fēng)格轉(zhuǎn)移。 時尚風(fēng)格轉(zhuǎn)移以時尚風(fēng)格形象為目標,生成具有所需時尚風(fēng)格的服裝形象。時尚風(fēng)格轉(zhuǎn)移的挑戰(zhàn)在于保留與基本輸入服裝相似的設(shè)計,同時融合所需的風(fēng)格圖案。 這個想法首先由Jiang和Fu [89]提出。 他們通過提出一對時尚風(fēng)格的生成器和鑒別器來解決這個問題。??? ?????

?????? 音頻風(fēng)格轉(zhuǎn)移。 除了傳輸圖像樣式之外,[90],[91]還將圖像樣式的域擴展為音頻樣式,并通過從目標音頻傳輸所需的樣式來合成新的聲音。 音頻風(fēng)格轉(zhuǎn)移的研究也遵循圖像風(fēng)格轉(zhuǎn)移的路線,即基于音頻優(yōu)化的在線音頻風(fēng)格轉(zhuǎn)移,然后基于模型優(yōu)化 - 基于音頻風(fēng)格轉(zhuǎn)移。 受基于圖像的IOB-NST的啟發(fā),Verma和Smith [90]提出了一種基于音頻優(yōu)化的在線音頻傳輸算法,該算法基于在線音頻優(yōu)化。 它們從噪聲信號開始,并使用反向傳播迭代地優(yōu)化它。 [91]通過以前饋方式傳輸音頻來提高效率,并可以實時產(chǎn)生結(jié)果。

6 EVALUATION METHODOLOGY

?????? NST算法的評估在這個領(lǐng)域仍然是一個開放和重要的問題。 一般而言,有兩種主要類型的評估方法可用于NST領(lǐng)域,即定性評估和定量評估。 定性評估依賴于觀察者的審美判斷。 評估結(jié)果與許多因素(例如,參與者的年齡和職業(yè))有關(guān)。 雖然定量評估側(cè)重于精確的評估指標,包括時間復(fù)雜度,損失變化等。在本節(jié)中,我們通過實驗比較不同的NST算法的定性和定量。

?

6.1 Experimental Setup

?????? 評估數(shù)據(jù)集。 總的來說,我們的實驗中使用了十種風(fēng)格圖像和二十種內(nèi)容圖像。

?????? 對于風(fēng)格圖像,我們選擇多種風(fēng)格的藝術(shù)作品,如圖4所示。例如,有印象派,立體派,抽象派,現(xiàn)代派,未來派,超現(xiàn)實主義和表現(xiàn)主義藝術(shù)。 關(guān)于介質(zhì),這些藝術(shù)品中的一些是在畫布上繪制的,而其他的則是用紙板或羊毛,棉花,聚酯等涂漆。此外,我們還嘗試對圖像特征(例如細節(jié),對比度,復(fù)雜性和顏色分布)進行處理。 ),受[92],[93],[95]中作品的啟發(fā)。 表1給出了我們風(fēng)格圖像的更多詳細信息。

對于內(nèi)容圖像,已經(jīng)有精心挑選和描述良好的基準數(shù)據(jù)集,用于評估Mold和Rosin的樣式化[92],[93],[95]。 他們提出的NPR基準稱為NPR一般由覆蓋廣泛特征(例如,對比度,紋理,邊緣和有意義的結(jié)構(gòu))的圖像組成,并且滿足許多標準。 因此,我們直接在他們提出的NPR通用基準中使用所選擇的二十個圖像作為我們的內(nèi)容圖像。?

對于基于系列模型優(yōu)化的算法,MS-COCO數(shù)據(jù)集[96]用于執(zhí)行訓(xùn)練。 所有內(nèi)容圖像都不用于訓(xùn)練。

原則。 為了最大限度地提高比較的公平性,我們在實驗過程中也遵循以下原則:

1)為了涵蓋每個算法中的每個細節(jié),我們嘗試使用他們發(fā)布的文獻中提供的實現(xiàn)。 為了最大化比較的公平性,尤其是速度比較,[10],我們使用了一種流行的基于火炬的開源代碼[97],作者也承認了這一點。 在我們的實驗中,除了基于TensorFlow的[32],[53]之外,所有其他代碼都是基于Torch 7實現(xiàn)的。

2)由于視覺效果受到內(nèi)容和風(fēng)格重量的影響,因此很難將結(jié)果與不同程度的風(fēng)格進行比較。 由于在每種算法中計算損失的不同方式(例如,內(nèi)容和樣式層的不同選擇,不同的損失函數(shù)),簡單地給出相同的內(nèi)容和樣式權(quán)重不是最佳解決方案。 因此,在我們的實驗中,我們盡力平衡不同算法之間的內(nèi)容和樣式權(quán)重。

3)我們嘗試使用作者建議的默認參數(shù)(例如,圖層的選擇,學(xué)習(xí)率等),除了上述內(nèi)容和樣式權(quán)重。 雖然通過更仔細的超參數(shù)調(diào)整可以進一步改進某些算法的結(jié)果,但我們選擇作者的默認參數(shù),因為我們認為超參數(shù)的靈敏度也是一個重要的隱式比較標準。 例如,如果算法需要大量工作來調(diào)整每個樣式的參數(shù),我們就不能說算法是有效的。

還有一些其他實現(xiàn)細節(jié)需要注意。 對于[47]和[48],我們使用[50]中提出的實例歸一化策略,這在發(fā)表的論文中沒有涉及。 此外,我們不考慮所有算法的分集損失項(在[50],[55]中提出),即,一對內(nèi)容和樣式圖像對應(yīng)于我們實驗中的一個程式化結(jié)果。 對于Chen和Schmidt的算法[57],我們使用前饋重建來重建程式化結(jié)果。

?

6.2 Qualitative Evaluation

?????? 示例程式化結(jié)果顯示在圖5,圖7和圖9中。可以在補充材料3中找到更多結(jié)果

?????? 1)IOB-NST的結(jié)果。 在內(nèi)容和樣式圖像之后,圖5包含了基于在線圖像優(yōu)化的Gatys等人的IOBNST算法的結(jié)果[4]。 樣式轉(zhuǎn)移過程在計算上很昂貴,但相比之下,結(jié)果在視覺質(zhì)量上很有吸引力。 因此,Gatys等人的算法。 通常被認為是NST社區(qū)的黃金標準方法。

?????? 2)PSPM-MOB-NST的結(jié)果。 圖5顯示了每個模型的每個模型MOB-NST算法的結(jié)果(第4.2節(jié))。 每個型號只有一種款式。 可以注意到Ulyanov等人的程式化結(jié)果。 [48]和約翰遜等人。 [47]有些相似。 這并不奇怪,因為他們有著相似的想法,只是在他們詳細的網(wǎng)絡(luò)架構(gòu)上有所不同。 對于Li和Wand [52]的結(jié)果,結(jié)果不那么令人印象深刻。 由于[52]基于生成對抗網(wǎng)絡(luò)(GAN),在某種程度上,培訓(xùn)過程并不穩(wěn)定。 但我們認為基于GAN的風(fēng)格轉(zhuǎn)移是一個非常有前景的方向,并且在NST領(lǐng)域已經(jīng)有一些其他基于GAN的作品[83],[87],[98](第5節(jié))。

3)MSPM-MOB-NST的結(jié)果。圖7展示了多模式每模型MOB-NST算法的結(jié)果。 多種樣式合并到一個模型中。 Dumoulin等人的算法[53]和Chen等人的算法[54]的想法是將少量參數(shù)與每種風(fēng)格聯(lián)系起來。同時,他們都在[[]的架構(gòu)上構(gòu)建算法。47。 因此,它們的結(jié)果在視覺上相似并不奇怪。 雖然[53],[54]的結(jié)果很吸引人,但隨著學(xué)習(xí)風(fēng)格數(shù)量的增加,它們的模型尺寸會變大。 相比之下,Zhang和Dana的算法[56]和Li等人的算法[55]使用單一網(wǎng)絡(luò),具有相同的可訓(xùn)練網(wǎng)絡(luò)權(quán)重,用于多種樣式。模型大小問題得到解決,但似乎存在一些干擾 不同的款式,略微影響了款式的質(zhì)量。

4)ASPM-MOB-NST的結(jié)果。 圖9顯示了最后一類MOB-NST算法,即ArbitraryStyle-Per-Model MOB-NST算法。 他們的想法是一個模型。 在全球范圍內(nèi),ASPM的結(jié)果比其他類型的算法稍微不那么令人印象深刻。這是可以接受的,因為在研究中,速度,靈活性和質(zhì)量之間的三方面權(quán)衡是常見的。 Chen和Schmidt基于補丁的算法[57]似乎沒有將足夠的樣式元素組合到內(nèi)容圖像中。 他們的算法基于類似的補丁交換。 當(dāng)許多內(nèi)容補丁與不包含足夠樣式元素的樣式補丁交換時,目標樣式將無法很好地反映出來。Ghiasi等人的算法[58]是數(shù)據(jù)驅(qū)動的,其樣式化質(zhì)量非常依賴于各種訓(xùn)練方式。 對于Huang和Belongie [51]的算法,他們建議匹配全局概要特征統(tǒng)計,并與[57]相比成功地提高視覺質(zhì)量。 然而,他們的算法似乎不善于處理復(fù)雜的風(fēng)格模式,他們的風(fēng)格化質(zhì)量仍然與各種訓(xùn)練風(fēng)格有關(guān)。 Li等人的算法。 [59]用一系列轉(zhuǎn)換取代了訓(xùn)練過程。但[59]并不能有效地產(chǎn)生尖銳的細節(jié)和細節(jié)。

顯著性比較。 NST是一個藝術(shù)創(chuàng)作過程。如[3],[38],[39]所述,風(fēng)格的定義是主觀的,也是非常復(fù)雜的,涉及個人偏好,紋理成分以及使用的工具和媒介。因此,它很難定義風(fēng)格化藝術(shù)品的審美標準。對于相同的程式化結(jié)果,不同的人可能具有不同甚至相反的視圖。盡管如此,我們的目標是盡可能客觀地比較不同NST技術(shù)的結(jié)果(如圖5,圖7和圖9所示)。在這里,我們考慮比較顯著性圖,如[63]中提出的。相應(yīng)的結(jié)果顯示在圖6,圖8和圖10中。顯著性圖可以顯示圖像中的視覺主導(dǎo)位置。直觀地說,成功的樣式轉(zhuǎn)移可能削弱或增強內(nèi)容圖像中的顯著性圖,但不應(yīng)改變完整性和連貫性。從圖6(IOB-NST和PSPM-MOB-NST的顯著性檢測結(jié)果)可以看出,[4],[47],[48]的程式化結(jié)果很好地保留了內(nèi)容圖像的結(jié)構(gòu);然而,對于[52],觀察者在風(fēng)格化之后識別對象可能更難。使用類似的分析方法,從圖8(MSPM-MOB-NST的顯著性檢測結(jié)果),[53]和[54]保留了原始內(nèi)容圖像的類似顯著性,因為它們都將少量參數(shù)與每種樣式聯(lián)系起來。 [56]和[55]在保留原始顯著性圖的完整性方面也是類似的,因為它們都使用單個網(wǎng)絡(luò)用于所有樣式。 如圖10所示,對于ASPMMOB-NST的顯著性檢測結(jié)果,[58]和[51]的表現(xiàn)優(yōu)于[57]和[59]; 然而,[58]和[51]都是數(shù)據(jù)驅(qū)動的方法,其質(zhì)量取決于培訓(xùn)方式的多樣性。 一般來說,似乎MSPM-MOB-NST的結(jié)果比ASPM-MOB-NST保持更好的顯著一致性,但略遜于IOB-NST和PSPM-MOB-NST。

?

6.3 Quantitative Evaluation

?????? 關(guān)于定量評估,我們主要關(guān)注五個評估指標,即:為不同大小的單個內(nèi)容圖像生成時間; 單個模型的培訓(xùn)時間; 內(nèi)容圖像的平均損失,以衡量損失函數(shù)的最小化程度; 訓(xùn)練期間的損失變化以測量模型收斂的速度; 樣式可伸縮性來衡量學(xué)習(xí)樣式集的大小。

?????? 1)程式化速度。 效率問題是MOB-NST算法的重點。 在本小節(jié)中,我們根據(jù)樣式化速度定量地比較不同的算法。 表2演示了使用不同算法對具有三種分辨率的一個圖像進行樣式化的平均時間。 在我們的實驗中,樣式圖像具有與內(nèi)容圖像相同的大小。 表2中的第五列表示每種算法的一個模型可以產(chǎn)生的樣式數(shù)。k(k∈Z+)表示單個模型可以產(chǎn)生多個樣式,這對應(yīng)于MSPM算法。 ∞表示單個模型適用于任何樣式,對應(yīng)于ASPM算法。 表2中報告的數(shù)字是通過平均100個圖像的生成時間獲得的。 請注意,我們不包括表2中[53],[58]的速度,因為他們的算法是基于Johnson等人的算法來縮放和移動參數(shù)。[47]。使用[32],[53]對一個圖像進行樣式化所需的時間在相同設(shè)置下非常接近[47]。 對于陳等人在[54]中的算法,由于他們的算法受專利保護,他們沒有公開詳細的架構(gòu)設(shè)計,這里我們只附上作者提供的速度信息以供參考:Ona Pascal TitanXGPU,256×256:0.007s;512×512:0.024s; 1024×1024:0.089s。 對于Chen和Schmidt的算法[57],由于視頻內(nèi)存的限制,沒有報告處理1024×1024圖像的時間。兩個1024×1024圖像的交換補丁需要超過24 GB的視頻內(nèi)存,因此,樣式化過程不實用。 我們可以觀察到除了[57],[59]之外,所有其他MOBNST算法都能夠?qū)崟r地對高分辨率內(nèi)容圖像進行樣式化。 ASPM算法通常比PSPM和MSPM慢,這再次證明了前面提到的三向權(quán)衡。

?????? 2)訓(xùn)練時間。另一個問題是單個模型的訓(xùn)練時間。 不同算法的訓(xùn)練時間很難比較,因為有時僅用幾次迭代訓(xùn)練的模型能夠產(chǎn)生足夠的視覺吸引力的結(jié)果。 因此,我們只是概述了不同算法(在相同設(shè)置下)的訓(xùn)練時間,作為后續(xù)研究的參考。在NVIDIA Quadro M6000上,對于Johnson等人的算法,單個模型的訓(xùn)練時間約為3.5小時。 [47],Ulyanov等人的算法需要3個小時。 [48],Li和Wand [52]算法需要2小時,Zhang和Dana算法需要4小時[56],Li等人需要8小時。[55]。 Chen和Schmidt的算法[57]以及Huang和Belongie的算法[51]需要更長的時間(例如,幾天),這是可以接受的,因為預(yù)訓(xùn)練的模型可以適用于任何風(fēng)格。 [58]的訓(xùn)練時間取決于訓(xùn)練方式的大小。 對于MSPM算法,可以通過預(yù)訓(xùn)練模型的增量學(xué)習(xí)進一步減少訓(xùn)練時間。 例如,Chen等人的算法。 只需要8分鐘就可以逐步學(xué)習(xí)新風(fēng)格,如[54]中所述。??

?????? 3)損失比較。 評估共享相同損失函數(shù)的一些MOBNST算法的一種方法是比較它們在訓(xùn)練期間的損失變化,即訓(xùn)練曲線比較。 它可以幫助研究人員通過測量模型收斂的速度以及最小化相同損耗函數(shù)的程度來證明建筑設(shè)計的選擇。 在這里,我們比較了圖11中兩種流行的MOB-NST算法[47],[48]的訓(xùn)練曲線,因為大多數(shù)后續(xù)工作都是基于它們的架構(gòu)設(shè)計。我們刪除了總變異項,并為兩種算法保持相同的目標。 其他設(shè)置(例如,丟失網(wǎng)絡(luò),所選擇的層)也保持相同。 對于樣式圖像,我們從樣式集中隨機選擇四種樣式,并在圖11中以不同顏色表示它們。可以觀察到兩種算法在收斂速度方面相似。 此外,兩種算法在訓(xùn)練期間都很好地最小化了內(nèi)容丟失,并且它們主要在于學(xué)習(xí)風(fēng)格目標的速度不同。 [47]中的算法可以更好地減少樣式損失。

?????? 另一個相關(guān)標準是比較一組測試圖像上不同算法的最終損失值。 該度量標準演示了使用不同算法可以最小化相同損失函數(shù)的程度。 為了公平比較,損失函數(shù)和其他設(shè)置也需要保持不變。 我們在圖12中顯示了一個IOB-NST算法[4]和兩個MOB-NST算法[47],[48]的結(jié)果。結(jié)果與上述速度和質(zhì)量之間的權(quán)衡相一致。 盡管MOB-NST算法能夠?qū)崟r地對圖像進行樣式化,但就最小化相同的損失函數(shù)而言,它們并不像IOB-NST算法那樣好。

4)樣式可擴展性。 可伸縮性是MSPM算法的一個非常重要的標準。 但是,由于單個模型的最大功能與特定樣式集高度相關(guān),因此很難測量。 如果大多數(shù)樣式具有某些相似的模式,則單個模型可以生成數(shù)千種樣式甚至更多樣式,因為這些相似樣式的樣式特征統(tǒng)計分布有些相似。 相反,如果風(fēng)格模式在不同風(fēng)格圖像之間變化很大,則單個模型的能力將小得多。 但很難衡量這些風(fēng)格在風(fēng)格模式上的差異程度。 因此,為了向讀者提供參考,這里我們只是總結(jié)了作者對樣式可擴展性的嘗試:[53]的數(shù)量為32,[54]和[55]的數(shù)量為1000,[56]的數(shù)量為100。??

在該實驗部分中提到的算法的優(yōu)點和缺點的總結(jié)可以在表3中找到。

?

7 APPLICATIONS

?????? 由于視覺上看似合理的風(fēng)格化結(jié)果,NST的研究已經(jīng)導(dǎo)致許多成功的工業(yè)應(yīng)用并開始提供商業(yè)利益。 在本節(jié)中,我們總結(jié)了這些應(yīng)用程序并提供了一些潛在的用法。

?

7.1 Social Communication

?????? NST在學(xué)術(shù)界和工業(yè)界引起注意的一個原因是它在一些社交網(wǎng)站(例如Facebook和Twitter)中的受歡迎程度。最近出現(xiàn)的名為Prisma的移動應(yīng)用程序[11]是提供NST算法作為服務(wù)的第一個工業(yè)應(yīng)用程序之一。由于其高風(fēng)格質(zhì)量,Prisma取得了巨大成功,并在全球范圍內(nèi)廣受歡迎。提供相同服務(wù)的一些其他應(yīng)用程序一個接一個地出現(xiàn)并開始提供商業(yè)利益,例如,Web應(yīng)用程序Ostagram [12]要求用戶支付更快的樣式化速度。在這些工業(yè)應(yīng)用[13],[99],[100]的幫助下,人們可以創(chuàng)建自己的藝術(shù)畫作,并在Twitter和Facebook上與他人分享他們的作品,這是一種新的社交方式。還有一些相關(guān)的應(yīng)用論文:[101]介紹了一個iOS應(yīng)用程序Pictory,它結(jié)合了風(fēng)格轉(zhuǎn)移技術(shù)和圖像過濾; [102]進一步介紹了Pictory的技術(shù)實施細節(jié); [103]演示了另一個基于GPU的移動應(yīng)用程序ProsumerFX的設(shè)計。

?????? NST在社交溝通中的應(yīng)用加強了人與人之間的聯(lián)系,也對學(xué)術(shù)界和工業(yè)界產(chǎn)生了積極影響。 對于學(xué)術(shù)界來說,當(dāng)人們分享他們自己的杰作時,他們的評論可以幫助研究人員進一步改進算法。 此外,NST在社交傳播中的應(yīng)用也推動了其他新技術(shù)的進步。 例如,受到NST對視頻的實時要求的啟發(fā),Facebook AI Research(FAIR)首先開發(fā)了一種新的移動嵌入式深度學(xué)習(xí)系統(tǒng)Caffe2Go,然后是Caffe2(現(xiàn)在與PyTorch合并),可以在手機上運行深度神經(jīng)網(wǎng)絡(luò)[104]。 對于工業(yè)而言,該應(yīng)用帶來了商業(yè)利益并促進了經(jīng)濟發(fā)展。

?

7.2 User-assisted Creation Tools

?????? NST的另一個用途是使其充當(dāng)用戶輔助的創(chuàng)建工具。 雖然沒有流行的應(yīng)用程序?qū)ST技術(shù)應(yīng)用于創(chuàng)建工具,但我們相信它將來會成為一種很有前途的潛在用途。

?????? 作為畫家和設(shè)計師的創(chuàng)作工具,NST可以讓畫家更方便地創(chuàng)作出特定風(fēng)格的藝術(shù)作品,特別是在創(chuàng)作計算機制作的藝術(shù)品時。 此外,使用NST算法,為時裝設(shè)計師制作風(fēng)格化的時尚元素和為各種風(fēng)格的建筑師制作風(fēng)格化的CAD圖紙是微不足道的,這在手工創(chuàng)建時會很昂貴。

?

7.3 Production Tools for Entertainment Applications

?????? 一些娛樂應(yīng)用程序,如電影,動畫和游戲可能是NST的最多應(yīng)用形式。 例如,創(chuàng)建動畫通常需要每秒8到24個彩繪幀。 如果NST可以應(yīng)用于將真人視頻自動設(shè)計為動畫風(fēng)格,則生產(chǎn)成本將大大降低。 同樣,當(dāng)應(yīng)用于創(chuàng)建一些電影和電腦游戲時,NST可以顯著節(jié)省時間和成本。已經(jīng)有一些申請文件旨在介紹如何將NST用于生產(chǎn),例如Joshi等。 探索使用NST重繪一部名為Come Swim [105]的電影中的一些場景,這表明NST在這個領(lǐng)域有潛在的應(yīng)用前景。 在[106],Fiser等人。 研究用于3D渲染風(fēng)格化的照明引導(dǎo)式傳輸算法。 他們演示了如何利用他們的算法在不使用參考3D模型的情況下渲染各種幾何體的預(yù)覽,自動完成著色和傳輸樣式。

?

8 FUTURE CHALLENGES

?????? NST領(lǐng)域的進步令人鼓舞,一些算法已經(jīng)在工業(yè)應(yīng)用中得到應(yīng)用。 盡管當(dāng)前的算法具有良好的性能,但仍然存在一些挑戰(zhàn)和開放性問題。 在本節(jié)中,我們總結(jié)了NST這一領(lǐng)域的主要挑戰(zhàn),并討論了在未來工作中如何處理這些挑戰(zhàn)的可能策略。 由于NST與NPR密切相關(guān),NPR中的一些關(guān)鍵問題(在[3],[14],[107],[108],[109],[110]中總結(jié))也是NST研究的未來挑戰(zhàn)。 因此,我們首先回顧了NPR和NST中存在的一些主要挑戰(zhàn),然后討論了專門針對NST領(lǐng)域的研究問題。

?

8.1 Evaluation Methodology

?????? 審美評估是NPR和NST的關(guān)鍵問題。 在NPR領(lǐng)域,許多研究人員解釋了審美評價的必要性[3],[14],[107],[108],[109],[110],例如,[3],Rosin和Collomosse 用兩章來探討這個問題。 隨著NPR和NST領(lǐng)域的成熟,這個問題越來越重要。 正如[3]中所指出的,研究人員需要一些可靠的標準來評估他們提出的方法相對于現(xiàn)有技術(shù)的好處,并且還需要一種評估一種特定方法對一種特定方案的適用性的方法。然而,大多數(shù)NPR和NST論文通過并排主觀視覺比較或通過各種用戶研究得出的測量來評估他們提出的方法[59],[111],[112]。 例如,為了評估所提出的通用樣式轉(zhuǎn)移算法,Li等人。 [59]進行用戶研究,要求參與者投票選出他們最喜歡的程式化結(jié)果。 我們認為它不是最佳解決方案,因為不同觀察者的結(jié)果差異很大。 受[113]的啟發(fā),我們使用不同NST算法的程式化結(jié)果進行了一個簡單的用戶研究實驗。在我們的實驗中,每個風(fēng)格化的圖像由8個不同的評估者(4名男性和4名女性)評定,具有相同的職業(yè)和年齡。如圖13所示,給定相同的程式化結(jié)果,具有相同職業(yè)和年齡的不同觀察者仍然有很大不同收視率。 然而,目前還沒有用于評估NPR和NST算法的黃金標準評估方法。 審美評估的挑戰(zhàn)將繼續(xù)成為NPR和NST社區(qū)的一個懸而未決的問題,其解決方案可能需要與專業(yè)藝術(shù)家合作以及確定潛在美學(xué)原則的努力。

?????? 在NST的領(lǐng)域,還有另一個與審美評價有關(guān)的重要問題。目前,沒有用于評估NST算法的標準基準圖像集。不同的作者通常使用自己的圖像進行評估。在我們的實驗中,我們使用精心挑選的NPR基準圖像集NPR general [92],[93]作為我們的內(nèi)容圖像來比較不同的技術(shù),這是由[92],[93]中的綜合研究支持;但是,我們必須承認,我們的風(fēng)格圖像的選擇遠非標準的NST基準樣式集。與NPR不同,NST算法對樣式圖像的類型沒有明確的限制。因此,為了比較不同NST方法的風(fēng)格可擴展性,尋找基準風(fēng)格集合是至關(guān)重要的,這些風(fēng)格集合共同展示了廣泛的可能屬性,同時詳細描述了所采用的原理,圖像特征的數(shù)值測量以及討論與[92],[93],[95]中的作品有關(guān)。基于上述討論,尋求NST基準圖像集是一個獨立而重要的研究方向,它不僅為研究人員提供了一種方法來證明他們提出的方法相對于現(xiàn)有技術(shù)的改進,而且還提供了一種測量適用性的工具。 一個特定的NST算法對一個特定要求的影響。 此外,隨著幾個NST擴展(第5節(jié))的出現(xiàn),研究專業(yè)基準數(shù)據(jù)集以及評估這些擴展工作的相應(yīng)評估標準(例如,視頻風(fēng)格轉(zhuǎn)移,音頻風(fēng)格轉(zhuǎn)移,立體視覺)仍然是另一個開放性問題。 風(fēng)格轉(zhuǎn)移,個性風(fēng)格轉(zhuǎn)移和時尚風(fēng)格轉(zhuǎn)移)。

?

8.2 Interpretable Neural Style Transfer

?????? 另一個具有挑戰(zhàn)性的問題是NST算法的可解釋性。 像許多其他基于CNN的視覺任務(wù)一樣,NST的過程就像一個黑盒子,這讓它變得無法控制。 在這一部分,我們關(guān)注與NST可解釋性相關(guān)的三個關(guān)鍵問題,即通過解纏結(jié)表示的可解釋和可控制的NST,與NST相關(guān)的標準化方法,以及NST中的對抗性示例。代表解開。表征解開的目標是學(xué)習(xí)維度可解釋的表示,其中一個或多個特定維度的某些變化對應(yīng)于單個變異因子中的精確變化,而對其他因素不變[114],[115],[116] ,[117]。這種表示對于各種機器學(xué)習(xí)任務(wù)是有用的,例如,視覺概念學(xué)習(xí)[118]和轉(zhuǎn)移學(xué)習(xí)[119]。例如,在風(fēng)格轉(zhuǎn)移中,如果可以學(xué)習(xí)其中變化因素(例如,顏色,形狀,筆劃大小,筆劃方向和筆畫組成)被精確地解開的表示,則可以在風(fēng)格化期間自由地控制這些因素。例如通過簡單地改變學(xué)習(xí)的解纏結(jié)表示中的相應(yīng)維度,可以改變風(fēng)格化圖像中的筆畫方向。為了解開表示的目標,當(dāng)前的方法分為兩類,即監(jiān)督方法和無監(jiān)督方法。監(jiān)督解開方法的基本思想是利用注釋數(shù)據(jù)來監(jiān)督輸入和屬性之間的映射[120],[121]。盡管它們有效,但是有監(jiān)督的解開方法通常需要大量的訓(xùn)練樣本。 然而,在NST的情況下,模擬和捕獲一些上述變化因素是相當(dāng)復(fù)雜的。 例如,很難收集具有不同筆劃方向但具有完全相同的顏色分布,筆劃大小和筆劃組成的一組圖像。 相比之下,無監(jiān)督解開方法不需要注釋; 然而,它們通常會產(chǎn)生解析的表示,這些表示是維度不可控且無法解釋的[122],即我們無法控制在每個特定維度中編碼的內(nèi)容。 基于上述討論,為了獲得NST中的解開的表示,要解決的第一個問題是如何定義,建模和捕獲NST中復(fù)雜的變化因素。

?

規(guī)范化方法。 NST領(lǐng)域的進步與新型標準化方法的出現(xiàn)密切相關(guān),如表4所示。這些標準化方法中的一些還會影響超出風(fēng)格轉(zhuǎn)移的更大視覺社區(qū)(例如,圖像重新著色[123]和 視頻顏色傳播[124])。 在這一部分中,我們首先簡要回顧一下NST中的這些規(guī)范化方法,然后討論相應(yīng)的問題。 NST中首先出現(xiàn)的歸一化方法是由Ulyanov等人提出的實例歸一化(或?qū)Φ日?guī)化)。[50]。 當(dāng)批量大小為1時,實例規(guī)范化等同于批量規(guī)范化。 結(jié)果表明,與具有批量標準化層的網(wǎng)絡(luò)相比,具有實例標準化層的樣式轉(zhuǎn)移網(wǎng)絡(luò)收斂速度更快,并且產(chǎn)生視覺上更好的結(jié)果。Ulyanovetal。認為實例規(guī)范化的優(yōu)越性能源于實例規(guī)范化使網(wǎng)絡(luò)能夠丟棄內(nèi)容圖像中的對比度信息,從而使學(xué)習(xí)更簡單。 Huang和Belongie [51]提出的另一種解釋是實例歸一化通過歸一化特征統(tǒng)計(即均值和方差)來執(zhí)行一種樣式歸一化。 通過實例規(guī)范化,可以將每個單獨圖像的樣式直接標準化為目標樣式。 因此,網(wǎng)絡(luò)的其余部分只需要處理內(nèi)容丟失,使目標更容易學(xué)習(xí)。 基于實例規(guī)范化,Dumoulin等人。 [53]進一步提出條件實例歸一化,其是在實例歸一化層中縮放和移位參數(shù)(如等式(8)所示)。根據(jù)Huang和Belongie提出的解釋,通過使用不同的參數(shù),可以將特征統(tǒng)計量歸一化為不同的值。 相應(yīng)地,每個樣本的樣式可以歸一化為不同的樣式。 此外,在[51]中,Huang和Belongie提出了自適應(yīng)實例歸一化,以通過樣式特征統(tǒng)計自適應(yīng)地實例化內(nèi)容特征(如等式(9)所示)。 通過這種方式,他們相信單個圖像的樣式可以歸一化為任意樣式。 盡管通過實例規(guī)范化,條件實例規(guī)范化和自適應(yīng)實例規(guī)范化實現(xiàn)了卓越的性能,但其成功背后的原因仍然不清楚。雖然Ulyanov等人。 [50] Huang和Belongie [51]分別基于像素空間和特征空間提出了他們自己的假設(shè),他們提出的理論缺乏理論證據(jù)。 此外,他們提出的理論也建立在其他假設(shè)之上,例如,Huang和Belongie基于Li等人的觀察提出了他們的解釋。 [42]:渠道特征統(tǒng)計,即均值和方差,可以代表風(fēng)格。 然而,仍然不確定為什么特征統(tǒng)計可以表示樣式,或者甚至特征統(tǒng)計是否可以表示所有樣式,這與樣式表示的可解釋性有關(guān)。

?????? 對抗性的例子。一些研究表明,深層分類網(wǎng)絡(luò)很容易被對抗性的例子[125],[126]所愚弄,這些例子是通過對輸入圖像應(yīng)用擾動而產(chǎn)生的(例如,圖14(c))。之前關(guān)于對抗性實例的研究主要集中在深層分類網(wǎng)絡(luò)上。然而,如圖14所示,我們發(fā)現(xiàn)在生成風(fēng)格轉(zhuǎn)移網(wǎng)絡(luò)中也存在對抗性的例子。在圖14(d)中,人們很難識別出最初包含在圖14(c)中的內(nèi)容。它揭示了生成網(wǎng)絡(luò)和人類視覺系統(tǒng)之間的差異。擾動的圖像仍然可以被人識別,但導(dǎo)致生成風(fēng)格轉(zhuǎn)移網(wǎng)絡(luò)的不同結(jié)果。然而,仍然不清楚為什么一些擾動可以產(chǎn)生這樣的差異,以及用戶上傳的一些類似的噪聲圖像是否仍然可以最佳化為所需的樣式。解釋和理解NST中的對抗性示例可以幫助避免樣式化中的一些失敗案例。

?

8.3 Three-way Trade-off in Neural Style Transfer

?????? 在NST的領(lǐng)域,速度,靈活性和質(zhì)量之間存在三方面的權(quán)衡。 IOB-NST在質(zhì)量方面實現(xiàn)了卓越的性能,但計算成本很高。 PSPM-MOB-NST實現(xiàn)了實時樣式化; 但是,PSPM-MOB-NST需要為每種風(fēng)格訓(xùn)練一個單獨的網(wǎng)絡(luò),這是不靈活的。 MSPM-MOB-NST通過將多種樣式合并到一個單一模型中來提高靈活性,但仍需要針對一組目標樣式預(yù)先訓(xùn)練網(wǎng)絡(luò)。 盡管ASPM-MOB-NST算法成功地傳輸了任意樣式,但它們在感知質(zhì)量和速度方面并不令人滿意。 數(shù)據(jù)驅(qū)動ASPM的質(zhì)量完全依賴于培訓(xùn)方式的多樣性。 然而,由于藝術(shù)品的多樣性,很難涵蓋每種風(fēng)格。 基于圖像變換的ASPM算法以無學(xué)習(xí)的方式傳遞任意樣式,但速度落后于其他樣式。另一個相關(guān)問題是超參數(shù)調(diào)整的問題。 為了產(chǎn)生最具視覺吸引力的結(jié)果,仍然不確定如何設(shè)置內(nèi)容和樣式權(quán)重的值,如何選擇用于計算內(nèi)容和樣式丟失的層,使用哪個優(yōu)化器以及如何設(shè)置學(xué)習(xí)率的值。 目前,研究人員根據(jù)經(jīng)驗設(shè)置這些超參數(shù);但是,一組超參數(shù)不一定適用于任何樣式,并且為內(nèi)容和樣式圖像的每個組合手動調(diào)整這些參數(shù)是繁瑣的。 解決此問題的關(guān)鍵之一是更好地理解NST中的優(yōu)化過程。 深入了解優(yōu)化程序?qū)⒂兄诹私馊绾握业綄?dǎo)致高質(zhì)量的局部最小值。

9 DISCUSSIONS AND CONCLUSIONS

?????? 在過去幾年中,NST一直是一個鼓舞人心的研究領(lǐng)域,受到科學(xué)挑戰(zhàn)和工業(yè)需求的推動。 在NST領(lǐng)域進行了大量的研究。 圖2總結(jié)了該領(lǐng)域的主要進展。表5中列出了相應(yīng)的樣式轉(zhuǎn)移損失函數(shù)的摘要.NST是一個相當(dāng)快節(jié)奏的領(lǐng)域,我們正在尋找更多令人興奮的工作,致力于推動開發(fā) 這個領(lǐng)域。

?????? 在準備本次審查期間,我們也很高興發(fā)現(xiàn)有關(guān)NST的相關(guān)研究也為其他領(lǐng)域[127],[128],[129],[130],[131]帶來了新的啟示,并加速了NST的發(fā)展。 更廣闊的視覺社區(qū)。 對于圖像重建領(lǐng)域,受到NST,Ulyanov等人的啟發(fā)。 [127]提出了一種新的深度圖像先驗,用隨機初始化的深度神經(jīng)網(wǎng)絡(luò)取代了[33]中手動設(shè)計的總變差規(guī)則器。 給定任務(wù)相關(guān)的損失函數(shù)L,圖像Io和固定的均勻噪聲z作為輸入,它們的算法可以表示為:

人們可以很容易地注意到等式(10)與等式(7)非常相似。 [127]中的過程與MOB-NST的訓(xùn)練過程相當(dāng),當(dāng)訓(xùn)練集中只有一個可用圖像時,但用Z替換Ic,用L替換Ltotal。換句話說,[127]中的g被訓(xùn)練為 超過一個樣本。 靈感來自NST,Upchurch等。 [128]提出了一種深度特征插值技術(shù),并為圖像變換領(lǐng)域提供了新的基線(例如,面部老化和微笑)。 根據(jù)IOB-NST算法[4]的過程,他們添加了一個額外的步驟,該步驟在VGG特征空間中進行插值。通過這種方式,他們的算法以無學(xué)習(xí)的方式成功地改變了圖像內(nèi)容。 與NST密切相關(guān)的另一個領(lǐng)域是Face Photo-sketch Synthesis。 例如,[132]利用樣式轉(zhuǎn)換為最終面部草圖生成陰影和紋理。 同樣,對于Face Swapping領(lǐng)域,MOB-NST算法[48]的思想可以直接應(yīng)用于構(gòu)建前饋Face-Swap算法[133]。 NST還提供了一種新的域適應(yīng)方式,正如Atapour-Abarghouei和Breckon [131]的工作所證實的那樣。他們應(yīng)用樣式轉(zhuǎn)換技術(shù)來翻譯來自不同領(lǐng)域的圖像,以提高其單目深度估計模型的泛化能力。

盡管近年來取得了很大進展,但NST領(lǐng)域還遠未成熟。 目前,NST的第一階段是重新定義和優(yōu)化最近的NST算法,旨在完美地模仿各種風(fēng)格。 這個階段涉及兩個技術(shù)方向。 第一個是減少故障情況并提高各種風(fēng)格和內(nèi)容圖像的風(fēng)格化質(zhì)量。 雖然沒有對樣式類型的明確限制,但是NST確實具有它特別擅長的樣式以及它所弱的某些樣式。例如,NST通常在生成不規(guī)則樣式元素(例如,繪畫)方面表現(xiàn)良好, 正如許多NST論文[4],[47],[53],[59]所證明的那樣; 然而,對于具有常規(guī)元素的一些樣式,例如低多樣式[134],[135]和像素化器樣式[136],由于基于CNN的圖像重建的特性,NST通常產(chǎn)生失真和不規(guī)則的結(jié)果。

對于內(nèi)容圖像,以前的NST論文通常使用自然圖像作為內(nèi)容來演示他們提出的算法;然而,給定抽象圖像(例如,草圖和漫畫)作為輸入內(nèi)容,NST通常不組合足夠的樣式元素以匹配內(nèi)容[137],因為預(yù)訓(xùn)練的分類網(wǎng)絡(luò)不能從這些抽象圖像中提取適當(dāng)?shù)膱D像內(nèi)容。第一階段的另一個技術(shù)方向在于從一般的NST算法中獲得更多的擴展。例如,隨著3D視覺技術(shù)的出現(xiàn),有望研究3D表面樣式化,即直接優(yōu)化和生成用于照片級真實感和非真實感風(fēng)格化的3D對象。在超越第一階段之后,NST的另一個趨勢是不僅用NST技術(shù)模仿人類創(chuàng)造的藝術(shù),而是在潛在的美學(xué)原則的指導(dǎo)下創(chuàng)造一種新形式的AI創(chuàng)作藝術(shù)。朝著這個方向邁出了第一步,即使用當(dāng)前的NST方法[53],[54],[62]來組合不同的風(fēng)格。例如,在[62]中,Wang等人。成功地利用他們提出的算法來產(chǎn)生一種新風(fēng)格,它將一種風(fēng)格的粗糙紋理扭曲與另一種風(fēng)格圖像的精細筆觸相融合。??????????????

總結(jié)

以上是生活随笔為你收集整理的Neural Style Transfer: A Review的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。