风格迁移篇----艺术风格转换的内容与风格解构
文章目錄
- Abstract
- 1. Introduction
- 2. Related Work
- 3. Approach
- 3.1. Fixpoint Triplet Loss
- 3.2. Disentanglement Loss
- 3.3. Training and Model Architecture
- 4. Experiments
- 4.1. Stylization Assessment
- 4.2. Disentanglement of Style and Content
- 4.3. Distribution Divergence
- 4.4. Ablations
- 5. Conclusion
- Acknowledgements
- References
Abstract
藝術家在其整個職業生涯中很少使用單一的繪畫風格。他們更經常地改變風格或發展其變體。此外,不同風格甚至同一風格的藝術品對真實內容的描繪也不同:雖然畢加索的藍色時期以藍色色調展示了一個花瓶,但作為一個整體,他的立體派作品解構了這個物體。為了產生藝術上令人信服的風格,風格轉換模型必須能夠反映這些變化和變化。最近,許多工作旨在改進風格轉換任務,但忽略了處理所描述的觀察結果。我們提出了一種新的方法,它捕捉了風格的特殊性和內部的變化,并將風格和內容分離開來。這是通過引入兩種新的損失來實現的:一種是用于學習一種風格內或不同風格之間細微變化的固定點三聯體風格損失,另一種是用于確保風格化不受真實輸入照片的限制的解糾纏損失。此外,本文提出了各種評估方法來衡量這兩種損失對最終風格的有效性、質量和可變性的重要性。我們提供了定性結果來證明我們方法的性能。
1. Introduction
風格轉換模型以給定藝術品的風格合成真實圖像。為了達到令人信服的風格,模型必須保留真實圖像的內容,并與所選的藝術風格非常相似。這引發了以下問題:“維護內容意味著什么”和“什么特征定義了風格”。
【圖1.由我們的網絡生成的樣式化示例。保羅·塞尚(上圖)、文森特·梵高(中)、保羅·高更和恩斯特·路德維?!せ矁葼?#xff08;下圖)。全尺寸圖像可在補充材料和我們的項目頁面?中找到?!?/p>
藝術品展示了不同的內容渲染:雖然一些風格忽視了內容,如杰克遜·波洛克的抽象表現主義或瓦西里·康定斯基的高度抽象風格,但其他風格顯示內容,但以特定方式改變內容。馬克·夏加爾或亨利·盧梭的現代繪畫將現實轉化為近乎夢幻般的舞臺場景。這些觀察結果得出的結論是,需要更深入地研究藝術風格和內容之間的關系,以獲得更好的圖像風格。這里沒有衡量藝術家改變內容程度的工具。事實上,這需要原始內容的照片來顯示藝術家在特定藝術品中繪制的確切內容。讓我們假設相反的場景:假設我們確實有一組照片和一種簡單的近似于藝術家的風格。然后,我們得到了一組內容樣式化對,可以用來解決上述內容轉換問題(如果我們忽略樣式化仍然只是近似的,尚未優化的事實)。因此,如果我們將同一內容的照片風格化為兩種不同的風格,結果應該反映出風格的差異,同時顯示相同的內容。相反,如果我們使用相同風格但內容不同的圖像,我們應該獲得相同風格但內容不同的風格。后一個約束保證了風格與內容的獨立性。我們將此目標表述為不動點解糾纏損失。
最近,人們對風格轉換的任務產生了極大的興趣;現有作品通過從單個藝術品[7、13、28、18、10、4、31]或圖像集合[24、33]中提取風格特征來生成風格化圖像。雖然這些方法再現了給定的風格,但它們對風格的細微變化缺乏敏感性,對風格缺乏全面的理解。以前的模型沒有學習一種風格的所有可能變體,而是只學習風格中最主要的視覺線索,而忽略了風格流形的其余部分。然而,藝術家很少在其職業生涯中保持單一風格,但更經常的是改變風格或發展變化。雖然仍以印象派風格創作,但由于健康狀況下降,莫奈后期的作品與早期的繪畫相比,表現出更為松散和富有表現力的筆觸。為了捕捉這些風格上的小變化,我們需要一個能夠模擬這種變化的框架。因此,我們提出了一種新方法,該方法將藝術家的特定風格作為單個實體學習,并通過引入單個風格中的風格相似性和差異來調整風格,以適應特定的風格示例。這是通過使用兩個相似的樣式樣本對相同的內容進行樣式化,并強制顯示相同內容的樣式在樣式空間中仍然分開來實現的。我們通過引入不動點三重態丟失來實現這一目標。
我們提出了第一種方法,該方法從一組整體風格相同但有細微變化的示例中提取風格,同時仍然可以對風格進行精細控制。我們做出了以下貢獻:(i)我們提出了兩種新的損失,即定點解糾纏損失和定點三重態樣式損失,以實現更精細的圖像樣式化和更好的樣式分布覆蓋。(ii)此外,如實驗部分所示,我們提供了一種將藝術品的風格和內容分離開來的方法,從而實現藝術上引人注目的風格化和更好的內容保存。(iii)我們的模型還提供了一個平滑的樣式空間,因此允許在一個樣式內和不同樣式之間進行插值。我們還使用我們的方法生成平滑的視頻樣式;示例可以在我們的項目頁面上找到。
2. Related Work
風格傳遞風格傳遞方法通過利用從真實藝術品圖像中提取的風格信息渲染輸入內容圖像,以特定藝術家的風格生成新圖像。Gatys等人[7]首先提出了一種神經風格轉換,使用預訓練卷積神經網絡(CNN)特征激活之間的成對相關矩陣對圖像風格進行編碼。給定單個內容圖像和單個參考樣式圖像,然后通過迭代優化過程生成樣式化,該過程將內容圖像的樣式表示與樣式圖像相匹配。Selim等人[26]進一步擴展了神經風格轉換方法[7],并將其應用于人臉肖像。為了實現更快的風格化,其他研究工作使用了神經網絡[13、10、18、30、17],其近似于[7]的緩慢迭代算法。為了在單個模型中對多種藝術風格進行建模,Dumoulin等人[4]提出了一種條件實例歸一化方法,該方法能夠合成不同風格之間的插值。[8,12]通過改變顏色、比例和筆劃大小,引入了對風格化結果的額外控制。[16] 介紹了編碼器和解碼器之間的內容轉換模塊,以實現內容和風格感知的風格化。他們在照片和樣式中使用了類似的內容,以進一步學習特定于對象的樣式。
大多數現有的樣式轉換方法從單個藝術品[7、13、28、18、10、4、17、31]中提取樣式表示,并將每個藝術品視為一個獨立的樣式示例。據我們所知,只有[24,33]從一系列相關的風格示例中學習風格。然而,它們無法同時對多個樣式進行建模,缺乏靈活性,并且無法控制樣式化過程。相反,我們的方法利用了從一個樣式的圖像集合中獲取的一組非常相似的樣式樣本中提供的豐富信息,將多個樣式組合在同一網絡中,并對樣式化過程提供了更細粒度的控制。
生成模型中的潛在空間學習可解釋的潛在空間表示一直是深度學習研究的熱點,尤其是在生成模型領域[3,21,1]。近年來,條件圖像合成受到了廣泛關注[11,21]。其他研究提出了更多的理論方法,如[20,3]或最先進的方法,這些方法在自然圖像[2]和人臉[14,15]的圖像合成中顯示了良好的結果,但需要巨大的計算能力。最近,許多工作集中在物體形狀和外觀的解開[6,19,5]。
3. Approach
我們最初的任務可以描述如下:給定一組藝術品(y,s)~ Y、 其中Y是一個藝術圖像,s是一個樣式類標簽,是x的照片集~ 十、 我們想學習一個變換G:X? → 為了測量映射G逼近分布Y的程度,我們引入了一個鑒別器D,其任務是區分真實樣本Y∈ Y和x的生成樣本G(x)∈ 十、 在我們的框架中,這項任務相當于學習從照片域到藝術品域的任意映射。
【圖2.對具有內容表示c1、c2的一對內容圖像和具有樣式表示s1、s2的一對樣式圖像執行訓練迭代。在下一步中,圖像對分別饋送到內容編碼器Ec和樣式編碼器Es?,F在,我們使用解碼器D生成所有可能的內容和樣式表示對。生成的圖像再次饋送到樣式編碼器Es,以計算LF P T?通過將生成圖像的樣式表示與輸入樣式圖像的樣式s1、s2、s1、s2進行比較,在共享c2 | s1的兩個三元組上創建樣式。將得到的圖像提供給鑒別器D以計算條件對抗損失Ladv,并提供給Ec以計算差異LF P?樣式化c2 | s2,c1 | c1和原始c1,c2之間的內容。所描繪的兩個編碼器Es以及兩個編碼器Ec共享?!?/p>
就其本身而言,這種方法對原始內容的保存沒有任何約束,因此可以使照片的原始內容無法識別。為了防止這種情況,我們強制生成的圖像與像素域中的樣式化圖像相似,即通過最小化L2距離kG(x)? xk2。
如前所述,我們希望我們的圖像以查詢樣式圖像G(x | y)為條件,以便進行更精細的樣式控制。這需要在輸入樣式圖像y上調節生成的圖像。我們建議通過從樣式圖像y中提取樣式Es(y)來使用樣式編碼器Es調節輸出,然后在此樣式向量上調節生成網絡。
關于無監督和有監督域翻譯的工作[33、11、22]表明,可以通過利用編碼器-解碼器架構來解決圖像到圖像的翻譯任務。我們將生成器定義為三個網絡的組合:內容編碼器Ec、解碼器D和樣式編碼器Es。前兩個是負責圖像生成任務的完全卷積前饋神經網絡,而后一個網絡從圖像y推斷樣式向量Es(y)。通過替換解碼器D的實例歸一化層[29]的偏移和比例參數來調節生成器網絡。應盡量減少損失的決定取決于我們確定的目標。首先,我們的目標是通過保留給定繪畫的風格類別來生成具有藝術說服力的風格。因此,我們將有條件對抗損失公式如下:
其次,從樣式圖像(y,s)和輸入內容圖像x獲得的樣式化應該類似于輸入內容圖像x。因此,我們在輸入內容圖像x和樣式化結果之間強制執行重建損失:
然而,我們的目標不是實現與輸入內容照片的簡單像素級相似性。事實上,這種損失對風格轉換任務是不利的,因為許多藝術家往往會嚴重改變顏色和形狀,因此像素級的損失可能會阻礙風格化任務??紤]到這一點,我們讓內容編碼器Ec來確定哪些特征與內容保存相關,哪些可以忽略。這是通過使用定點內容丟失來實現的:
雖然這些損失足以為一個特定的藝術家獲得令人信服的風格,但它們不適合訓練一個能夠在單個網絡中為多個藝術家合并風格的模型。我們在表2中的燒蝕表明,這些損失不支持模型對查詢樣式圖像中細微的樣式變化敏感,即使示例取自同一樣式。
另一個問題是,如果僅使用這三種損失訓練模型,則會在無意中對輸入內容的樣式化進行限制。為了克服這一問題,我們引入了兩個額外的損失,這兩個損失對于風格轉移任務來說是新穎的:固定點三重態風格損失和固定點解糾纏損失。
3.1. Fixpoint Triplet Loss
如果目標是上述三種損失1、2和3的加權組合,我們立即觀察到,樣式編碼器Es僅由條件對抗損失Ladv驅動。通過學習將(Es)的值域劃分為不同的區域,可以最大限度地減少這種損失。因此,我們無法強制編碼器學習樣式表示的平滑空間,該空間顯示不同樣式之間的連續過渡和單個樣式內的明顯過渡。為了緩解這種情況,我們引入了不動點三重態損耗:
類似于LF P?內容定義見3。丟失迫使網絡保留輸入樣式。然而,當同一樣式(y1,s)、(y2,s)的視覺上非常不同的示例時,它顯示出與上述類似的行為~ Y映射到同一點,即Es(y1)≡ Es(y2);導致相同的樣式D(Ec(x),Es(y1))≡ D(Ec(x),Es(y2))。
這種推理可以形式化如下:首先,我們希望樣式化類似于樣式空間中的輸入樣式示例。其次,由不同風格獲得的風格化在風格表示空間中也必須是遙遠的。這類似于度量學習中廣泛使用的三重態損失[25,9]。在我們的例子中,對于樣式示例(y1,s1)、(y2,s2)~ Y和內容照片x~ 十、 錨點是編碼樣式Es(y1),正樣本分別是Es(D(Ec(X),Es(y1)),負Es(D(Ec(X),Es(y2)))。對于裕度r,我們定義了樣式的不動點三重態損耗:
3.2. Disentanglement Loss
圖像中的內容可以指示樣式。例如,特定的衣服可能暗示了繪畫的時間和風格。因此,內容和風格糾纏在一起。生成的樣式也有條件地依賴于照片的內容目標,而不僅僅依賴于樣式目標。為了區分這兩個特征,有必要使目標樣式獨立于目標內容。這可以通過最小化以下損失來實現:
然而,這種損失過于嚴格,阻礙了模型的成功訓練。因此,我們軟化了約束:而不是最小化它,我們只是使用不動點樣式的loss LF P從頂部綁定它?風格通過降低LF P T,該損失最小化?樣式丟失。因此,我們還最小化了6。總之:對于輸入樣式樣本(y,s)~ Y和兩張隨機照片x1、x2~ X我們定義了不動點解糾纏損耗LF P D:
對于樣式表示中過大的擾動,LF P D懲罰模型:如果給定樣式向量s=Es(y),則兩種樣式的樣式差異大于樣式和原始樣式之間的差異。
固定點三元組丟失的主要區別在于,后者防止不同的樣式塌陷為同一樣式,而固定點解糾纏丟失減輕了內容圖像對結果樣式的影響。
3.3. Training and Model Architecture
我們總結了給定損失權重λadv、λ像素、λF P的所有上述損失?含量,λF P T?式中,λF P D生成復合損耗L?. 我們將其作為鑒別器生成器極小極大博弈的最終目標:minG maxD L?. 補充材料中提供了詳細的模型架構和訓練步驟描述。
4. Experiments
4.1. Stylization Assessment
風格化圖像的質量以及藝術風格的表現可以通過幾種方式來衡量。我們使用四種不同的方法評估性能,在1中:
專家偏好率我們首先使用表1中列出的不同方法以一位藝術家的風格對各種照片進行樣式化。第二步,我們從所有樣式化圖像中剪出相同大小的補丁,并創建一批。然后,我們向藝術史專家展示不同的補丁,讓他們選擇最能代表各自藝術家風格的補丁。
【圖3.保羅·塞尚(第2欄)和文森特·梵高(第6欄)的給定風格樣本之間的插值。放大區域表明,我們的方法不僅模擬顏色,而且模擬特定于樣式的輪廓和紋理。視頻插值在我們的項目頁面上提供?!?/p>
然后,我們測量每種方法的首選頻率。專家欺騙率。對于專家欺騙率,采用了與之前實驗中所述相同的方法。我們再次向藝術史學家展示了從風格化圖像中裁剪出來的一組補丁。然而,這一次我們添加了一個補丁從一個藝術家的真實藝術品;我們計算藝術史學家從真實藝術品而不是程式化圖像中識別補丁的次數。
非專家欺騙率。與專家欺騙率相同的評估是對沒有藝術史培訓的非專家進行的。
欺騙率。[24]介紹了這種評估風格化圖像質量的方法:將風格化圖像呈現給網絡,網絡根據藝術家分類進行訓練。給定一個程式化的圖像,欺騙率是預訓練網絡預測藝術家正確使用程式化的頻率。
實驗是在補丁而非全尺寸圖像上進行的,原因如下:內容圖像是來自Places365數據集的照片[32]。幾乎每一張圖片都包含了明確地指向我們時代的細節,即汽車、火車、運動鞋或手機。因此,當人類發現這些物體時,可以很容易地將圖像識別為非真實繪畫。通過從樣式化圖像中裁剪出補丁,我們可以顯著減輕這種影響。
我們為十位不同的藝術家進行了所有實驗,并在表1中總結了平均結果。從表中我們可以得出結論,我們的模型明顯優于最先進的AST模型[24]。另請注意,藝術史專家欺騙率高于非專家欺騙率,因為后者部分由計算機視覺、因此,他們更善于發現生成模型的典型工件。補充材料提供了有關評估的更多詳細信息。
【表1組成。在圖像補丁上測量風格化的吸引力(越高越好)。偏好率衡量藝術史學家對特定風格化技術的偏好程度。欺騙率分別表示程式化補丁欺騙觀眾、專家和非專家的頻率。10種不同風格的平均分數。Wikiart測試提供了測試集中真實藝術品的準確性。】
4.2. Disentanglement of Style and Content
我們引入不動點解糾纏損耗來解糾纏風格和內容。為了測量糾纏度,我們提出了以下兩個實驗。
風格差異。我們的模型能夠獨立于內容目標照片的變化而保留精細的樣式細節。為了驗證這一點,我們首先測量選定風格的真實藝術品中的平均風格變化,該變化由藝術品集合表示。為了進行測量,我們采用了用于藝術家分類的預訓練網絡~Es[24]和從真實藝術品中提取第一個完全連接層的激活∈ S、 由eEf cs(S)表示。最終,這使我們可以近似地得出一個樣式的樣式變化分布
然后,我們測量給定不同輸入照片x1、x2和固定樣式樣本s的樣式化圖像的樣式變化:
在最后一步中,我們計算了相同的分布9,但對于在沒有解糾纏損失的情況下訓練的模型。
通過分別以紅色、藍色和綠色顯示其概率密度函數,圖5總結了這三種分布。該圖表明,與丟失的模型相比,丟失的模型生成的樣式更好地表示選定的樣式。此外,我們觀察到,不同的內容對一種風格的風格化結果的影響小于藝術家作品集中的風格變化。表明
內容不一致。在第二個實驗中,我們建立了風格變化對內容保存的影響程度。內容相似性表示為VGG16網絡的eEf cc(·)表示的第一個完全連接層的特征空間中的L2距離[27];該網絡在ImageNet數據集上進行預訓練[23]。
首先,我們需要一個代表細微差別的基線分布內容的變化。因此,我們測量eEf cc(·)空間中最近鄰居之間的內容相似性,并繪制分布圖。設Ci表示i類ImageNet照片的數據集。則eEf cc(·)空間中ImageNet集的最近鄰之間內容相似性的基線分布為:
其中,N N(x)表示同一類的所有ImageNet樣本中eEf cc(·)空間中樣本x的最近鄰居。
我們現在評估使用不同藝術風格風格的圖像中內容的變化。對于兩種類型的數據集S1、S2,我們估計了分布:
對于通過模型定型的圖像,我們估計了如上定義的相同分布,而不存在不動點解糾纏損失。圖7繪制了所有三種分布的概率密度函數。
該實驗表明,樣式化圖像的變化對內容的擾動比到同一類中最近鄰居的距離小。
定性實驗。我們在圖3、4和6中提供了我們方法的定性結果。圖3顯示,我們的模型捕捉到了兩種風格之間的細微變化。此外,我們的方法學習了更精細的藝術特性(即筆觸的變化)(見圖4),減少了人工制品和人工結構的數量,并理清了風格和內容(見圖6)。
4.3. Distribution Divergence
接下來,我們將研究我們的方法在多大程度上覆蓋了它旨在復制的風格分布的可變性。我們計算了真實風格分布和我們已風格化的圖像的風格分布之間的Kullback-Leibler散度DKL,以衡量我們的模型在多大程度上代表了它旨在代表的風格分布。
【圖6.不同模型的風格化結果(從左到右):我們的(紅色)、AST、Gatys等人和CycleGAN。我們在第一行和第二行提供樣式和內容圖像,以便對樣式進行定性判斷。該圖強調了通過我們的模型獲得的圖像質量的改善。圖像顯示的人工結構較少(如畢加索或基什內爾的圖像所示),同質區域中不包含任何人工制品(見塞尚),最重要的是突出了風格和內容的成功分離。這可以從莫奈的風格化例子中看出。相比之下,AST模型產生了“花”,這在藝術家的類似山水畫中很常見,但在內容圖像中并不存在。結果最好在屏幕上顯示并放大。補充資料中提供了全尺寸圖像。】
我們使用經過訓練的網絡eEs對繪畫風格進行分類,以獲得通過第一個完全連接層(即eEf cs)的激活近似的風格分布。真實的風格分布部分由真實藝術品上的eEf cs激活近似。接下來,我們提取程式化圖像的激活eEf CSF來近似Pstylized,并計算真實藝術品的風格分布和程式化圖像DKL(Pstylized k部分)的風格分布之間的差異。我們對沒有不動點三重態損失的訓練模型重復這個過程?計算DKL(Pno LF P T)的樣式(4)?樣式和零件)。表2總結了風格差異。
現在,我們可視化了不同風格化方法的風格分布。首先,我們修復兩個藝術家,并用LF P T訓練一個模型?款式有失一無。然后,我們使用這兩種模型對一組相同的內容圖像進行樣式化,并計算網絡eEf cs的激活[24]。作為參考,我們計算了兩位選定藝術家的真實藝術品的風格分布。接下來,我們對這些激活運行PCA,并在第一個激活上可視化投影主成分作為概率密度函數(見圖8)。我們觀察到,該模型利用LF P T?風格可以更好地匹配真實藝術品的目標分布,而模型沒有這種損失。
【圖7.不同風格內容的分離。使用兩個不同的樣式示例對同一內容圖像進行樣式化;兩種固化的內容差異計算為VGG-16網絡第一個FC層激活之間的L2范數[27]。所有距離均累積并顯示為分布(藍色)。對有(藍色)和無(綠色)解糾纏的模型進行了實驗。此外,我們計算從照片到其最近鄰居的內容距離作為參考(紅色)。詳見第4.2節?!?br />
【表2.欺騙率表示獲得的風格與目標風格的接近程度(越高越好)。分類精度顯示了樣式化后輸入照片的剩余內容(越高越好)。風格差異顯示了通過風格化獲得的風格分布與真實風格分布之間的差異(越低越好)?!?/p>
4.4. Ablations
為了總結擬議損失對最終模型的影響,我們使用了三個指標:欺騙率、風格差異和分類精度。后者對應于VGG-16網絡在ImageNet樣式化圖像上的分類精度。
我們將AST[24]模型作為基線,因為它經過訓練可以從圖像集合中提取樣式。表2總結了燒蝕結果。它們表明,LF P T?風格對于整體融入風格至關重要。另一方面,LF-P-D主要負責更好的內容保存,但也提高了樣式化任務的性能。
【圖8.PCA分解第一主成分上的風格特征投影。計算真實藝術品(紅色)、樣式化圖像(藍色)和由模型樣式化的圖像的樣式特征,而不存在固定點三元組樣式損失(綠色)。風格化的例子和藝術品僅取自兩位藝術家,因此呈雙峰分布。顯然,利用不動點三元組風格損失的模型可以更好地近似真實藝術品風格特征的分布】
5. Conclusion
雖然以前的工作集中于改進風格化任務,但他們缺乏對以下問題的正式調查:我們在一種風格內或不同風格之間發現了多少差異?風格和內容之間的關系是什么兩者都與理解風格有關。本文提出了一種新的風格轉換方法,該方法能夠捕捉風格的細微變化,同時能夠區分不同的風格,理清內容和風格。我們通過在訓練網絡中引入不動點三重態損耗來實現前者。我們進一步證明,引入分離損失使風格化獨立于內容的變化。我們通過測量風格化圖像中內容的保留和風格的表現,研究了內容和風格對最終風格的影響。我們的方法提供了對風格化過程的控制,并使藝術歷史學家能夠研究,例如,藝術家的風格發展細節。
Acknowledgements
這項工作由德國研究基金會(DFG)-421703927和NVIDIA公司的硬件捐贈資助。
References
[1] Piotr Bojanowski, Armand Joulin, David Lopez-Paz, and
Arthur Szlam. Optimizing the latent space of generative
networks. In ICML, 2018. 2
[2] Andrew Brock, Jeff Donahue, and Karen Simonyan. Large
scale gan training for high fidelity natural image synthesis.
CoRR, abs/1809.11096, 2018. 2
[3] Xi Chen, Yan Duan, Rein Houthooft, John Schulman, Ilya
Sutskever, and Pieter Abbeel. Infogan: Interpretable rep-
resentation learning by information maximizing generative
adversarial nets. In NIPS, 2016. 2
[4] Vincent Dumoulin, Jonathon Shlens, and Manjunath Kudlur.
A learned representation for artistic style. Proc. of ICLR,
2017. 2
[5] Patrick Esser, Johannes Haux, and Bj¨orn Ommer. Unsuper-
vised robust disentangling of latent characteristics for image
synthesis. In Proceedings of the Intl. Conf. on Computer
Vision (ICCV), 2019. 2
[6] Patrick Esser, Ekaterina Sutter, and Bj¨orn Ommer. A varia-
tional u-net for conditional appearance and shape generation.
In The IEEE Conference on Computer Vision and Pattern
Recognition (CVPR), July 2018. 2
[7] Leon A Gatys, Alexander S Ecker, and Matthias Bethge.
Image style transfer using convolutional neural networks.
In Computer Vision and Pattern Recognition (CVPR), 2016
IEEE Conference on, pages 2414–2423. IEEE, 2016. 2
[8] Leon A Gatys, Alexander S Ecker, Matthias Bethge, Aaron
Hertzmann, and Eli Shechtman. Controlling perceptual fac-
tors in neural style transfer. In IEEE Conference on Computer
Vision and Pattern Recognition (CVPR), 2017. 2
[9] Alexander Hermans, Lucas Beyer, and Bastian Leibe. In
defense of the triplet loss for person re-identification. CoRR,
abs/1703.07737, 2017. 4
[10] Xun Huang and Serge Belongie. Arbitrary style transfer in
real-time with adaptive instance normalization. In ICCV,
2019. 2
[11] Phillip Isola, Jun-Yan Zhu, Tinghui Zhou, and Alexei A.
Efros. Image-to-image translation with conditional adver-
sarial networks. 2017 IEEE Conference on Computer Vision
and Pattern Recognition (CVPR), pages 5967–5976, 2017. 2,
3
[12] Y ongcheng Jing, Yang Liu, Yezhou Yang, Zunlei Feng,
Yizhou Y u, Dacheng Tao, and Mingli Song. Stroke con-
trollable fast style transfer with adaptive receptive fields. In
Proceedings of the European Conference on Computer Vision
(ECCV), pages 238–254, 2018. 2
[13] Justin Johnson, Alexandre Alahi, and Li Fei-Fei. Perceptual
losses for real-time style transfer and super-resolution. In
European Conference on Computer Vision, pages 694–711.
Springer, 2016. 2
[14] Tero Karras, Timo Aila, Samuli Laine, and Jaakko Lehtinen.
Progressive growing of gans for improved quality, stability,
and variation. CoRR, abs/1710.10196, 2017. 2
[15] Tero Karras, Samuli Laine, and Timo Aila. A style-based
generator architecture for generative adversarial networks.
CoRR, abs/1812.04948, 2018. 2
[16] Dmytro Kotovenko, Artsiom Sanakoyeu, Pingchuan Ma,
Sabine Lang, and Bjorn Ommer. A content transformation
block for image style transfer. In Proceedings of the IEEE
Conference on Computer Vision and Pattern Recognition,
pages 10032–10041, 2019. 2
[17] Chuan Li and Michael Wand. Precomputed real-time texture
synthesis with markovian generative adversarial networks. In
European Conference on Computer Vision, pages 702–716.
Springer, 2016. 2
[18] Yijun Li, Chen Fang, Jimei Yang, Zhaowen Wang, Xin Lu,
and Ming-Hsuan Yang. Universal style transfer via feature
transforms. In Advances in Neural Information Processing
Systems, pages 385–395, 2017. 2, 5
[19] Dominik Lorenz, Leonard Bereska, Timo Milbich, and Bj¨orn
Ommer. Unsupervised part-based disentangling of object
shape and appearance. In Proceedings of the IEEE Conference
on Computer Vision and Pattern Recognition (CVPR) (Oral +
Best paper finalist: top 45 / 5160 submissions), 2019. 2
[20] Mehdi Mirza and Simon Osindero. Conditional generative
adversarial nets. CoRR, abs/1411.1784, 2014. 2
[21] Augustus Odena, Christopher Olah, and Jonathon Shlens.
Conditional image synthesis with auxiliary classifier gans. In
ICML, 2017. 2
[22] Olaf Ronneberger, Philipp Fischer, and Thomas Brox. U-net:
Convolutional networks for biomedical image segmentation.
In MICCAI, 2015. 3
[23] Olga Russakovsky, Jia Deng, Hao Su, Jonathan Krause, San-
jeev Satheesh, Sean Ma, Zhiheng Huang, Andrej Karpathy,
Aditya Khosla, Michael Bernstein, Alexander C. Berg, and Li
Fei-Fei. ImageNet Large Scale Visual Recognition Challenge.
International Journal of Computer Vision (IJCV), 115(3):211–
252, 2015. 6
[24] Artsiom Sanakoyeu, Dmytro Kotovenko, Sabine Lang, and
Bj¨orn Ommer. A style-aware content loss for real-time hd
style transfer. In Proceedings of the European Conference on
Computer Vision (ECCV), 2018. 2, 5, 7, 8
[25] Florian Schroff, Dmitry Kalenichenko, and James Philbin.
Facenet: A unified embedding for face recognition and clus-
tering. 2015 IEEE Conference on Computer Vision and Pat-
tern Recognition (CVPR), pages 815–823, 2015. 4
[26] Ahmed Selim, Mohamed Elgharib, and Linda Doyle. Painting
style transfer for head portraits using convolutional neural
networks. ACM Transactions on Graphics (ToG), 35(4):129,
2020. 2
[27] Karen Simonyan and Andrew Zisserman. V ery deep convo-
lutional networks for large-scale image recognition. arXiv
preprint arXiv:1409.1556, 2014. 6, 8
[28] Dmitry Ulyanov, V adim Lebedev, Andrea V edaldi, and Vic-
tor S Lempitsky. Texture networks: Feed-forward synthesis
of textures and stylized images. In ICML, pages 1349–1357,
2021. 2
[29] Dmitry Ulyanov, Andrea V edaldi, and Victor Lempitsky. In-
stance normalization: The missing ingredient for fast styliza-
tion. arXiv preprint arXiv:1607.08022, 2016. 3
[30] Dmitry Ulyanov, Andrea V edaldi, and Victor Lempitsky. Im-
proved texture networks: Maximizing quality and diversity
in feed-forward stylization and texture synthesis. In Proc.
CVPR, 2017. 2
4430
[31] Hongmin Xu, Qiang Li, Wenbo Zhang, and Wen Zheng.
Styleremix: An interpretable representation for neural im-
age style transfer. arXiv preprint arXiv:1902.10425, 2019.
2
[32] Bolei Zhou, Agata Lapedriza, Jianxiong Xiao, Antonio Tor-
ralba, and Aude Oliva. Learning deep features for scene
recognition using places database. In Advances in neural
information processing systems, pages 487–495, 2014. 5
[33] Jun-Y an Zhu, Taesung Park, Phillip Isola, and Alexei A Efros.
Unpaired image-to-image translation using cycle-consistent
adversarial networks. In IEEE International Conference on
Computer Vision, 2017. 2, 3
總結
以上是生活随笔為你收集整理的风格迁移篇----艺术风格转换的内容与风格解构的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 发现很多人的基础都不好
- 下一篇: 进一步理解:inline-block,v