當前位置：首頁 > 人工智能 > pytorch >内容正文

pytorch

CVPR 2019 | APDrawingGAN：人脸秒变艺术肖像画

發布時間：2024/10/8 pytorch 124 豆豆

生活随笔收集整理的這篇文章主要介紹了 CVPR 2019 | APDrawingGAN：人脸秒变艺术肖像画小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

作者丨武廣

學校丨合肥工業大學碩士生

研究方向丨圖像生成

固定的應用場景對于泛化的圖像翻譯模型來說存在著一定的局限性，往往需要根據實際的需求對網絡和細節進行設計以達到特定的效果。圖像轉換模型中

本篇的目的是為了解讀在人臉到肖像畫的圖像翻譯任務下，如何做到這種固定需求的高質量圖像轉換。本篇的主角是 APDrawingGAN，同時也是 CVPR 2019?Oral，實現了高質量的人臉到肖像圖的轉換。

論文引入

肖像畫是一種藝術表現形式，可以簡單的通過線條去捕捉人的獨特外觀，并且可以做到高相似度的描述。這類素描圖往往需要藝術家在人或他們的照片面前繪制，且依賴于整體的觀察、分析和經驗去創作。一副好的肖像畫可以形象的表征人的個性和神氣，這往往需要一個受過好的培訓的藝術家幾個小時的時間去創作。
這種耗時的工作當然可以交給計算機去實現了，但是在實現之前還是要分析一下這項任務的難點。藝術肖像畫（APDrawings）是高度抽象的，包含少量稀疏但連續的圖形元素（線條）。
同時，APDrawings 涉及數千個不同大小和形狀的筆畫的密集集合，面部特征下一些小的偽像也能被清楚的看到，面部特征不能有錯位、移位出現。不同人物的肖像結構是變化的，沒有固定的精確位置，再者為了體現發型的流動性，往往 APDrawings 會有一些指示頭發流動的線條。
綜合這些難點，想實現一個高質量的人臉到肖像畫的轉換是難度很大的，上述的特點都要在考慮范圍內。
為了解決上述挑戰，本文提出了 APDrawingGAN，一種新穎的 Hierarchical GAN 架構，專門用于面部結構和 APDrawing 樣式，用于將面部照片轉換為高質量的 APDrawings。
為了有效地學習不同面部區域的不同繪圖風格，GAN 架構涉及專門用于面部特征區域的幾個局部網絡，以及用于捕獲整體特征的全局網絡。為了進一步應對藝術家繪畫中基于線條筆劃的風格和不精確定位的元素，還提出了一種新的距離變換（DT）損失來學習 APDrawings 中的筆劃線。
總結一下 APDrawingGAN 的優勢：?
1. 提出了一種 Hierarchical GAN 架構，用于從面部照片中進行藝術人像合成，可以生成高質量和富有表現力的藝術肖像畫。特別是，可以用細膩的白線學習復雜的發型；
2. 為了最好地模擬藝術家，模型將 GAN 的渲染輸出分成多個層，每個層由分離的損失函數控制；
3. 從 10 個面部數據集中收集的 6,655 張正面照片預訓練模型，并構建適合訓練和測試的 APDrawing 數據集（包含 140 張專業藝術家的高分辨率面部照片和相應的肖像畫）。

模型結構

先從整體上看一下 APDrawingGAN 模型結構：

整體結構是比較直觀理解的，整個網絡是基于 GAN 建立的，左邊為分層生成器，右邊為分層判別器，輸入的原始人臉圖記為。分層生成器的上部分為全局生成器它的輸出為全局人臉肖像，下部分為分別對應著左眼、右眼、鼻子、嘴巴、頭發、背景的六個局部生成器，這六個生成器得到的肖像局部圖結合在一起便得到了，通過融合生成器便得到最終的輸出結果。
對于判別器則整體上采用的是條件 GAN 的判別器設計，對于真實的肖像圖給定的標簽為 True，對于合成的肖像圖給定的標簽是 False，這個標簽是人為構建的。同時也是采用全局判別器和六個局部判別器組成，最終確定真假以優化生成器。

接下來，我們對各個部分詳細的進行梳理。

全局生成器

這里說的全局生成器和局部生成器并不是我們在感受野中定義的全局和局部，這里的全局和局部就是全局得到的人臉肖像和局部得到的眼睛、鼻子、嘴巴和頭發。對于全局生成器采用的是 U-Net 的設計思路，通過下采樣結合特征復用的上采樣最終得到全局的輸出。

局部生成器

局部生成器的前提是要把人臉的各個部位提取出來，將人臉圖取出左眼、右眼、鼻子、嘴巴出來，扣除掉這些部位后得到的就是頭發部分，對人臉圖取掩碼得到背景圖。將這六個部分分別進行小尺度下的 U-Net 的重構得到對應的局部肖像圖，通過 partCombiner2_bg 網絡將這六個部分組合組合成一副完整的人臉肖像圖，partCombiner2_bg 主要通過在重疊區域使用最小池化來將所有局部生成器的輸出混合到聚合圖形。
其實從扣出局部的部位到再次將每一個部位整合在一起，這中間還是比較繁瑣的，同時這塊也是 APDrawingGAN 的主要創新之處，在源碼中作者通過固定各個部位的尺度大小，然后通過對每一幅圖像的各個部位進行標注（主要是嘴巴和中心位置，保存在 txt 中的 5 行 2 列的坐標），在訓練階段進行截取局部位置時調用。

融合生成器

融合生成器就是將全局生成器得到的全局圖和局部生成器得到的局部整合圖進行 channel 維度的 concat 后送入到 combine 網絡再次經過一些卷積處理最終得到最后的輸出。

全局判別器和局部判別器

全局判別器和局部判別器就和條件 GAN 的判別器類似，定義真實部分的 label 為真，合成部分的 label 為假，然后通過條件判別器進行優化，整個網絡的架構就是堆疊的下采樣。

損失函數

整個模型的損失函數由四部分組成，大家熟知的生成對抗損失、像素層面損失、距離變換損失以及局部像素損失。對于生成對抗損失，主要分為兩部分一個是全局性的生成對抗損失和局部性六個部位的生成對抗損失；像素層面損失主要是采用 L1 損失：

其中就是真實肖像畫的數據；局部像素損失就是對各個部位的合成和真實進行 L1 損失優化，比如對鼻子的局部損失：

我們重點分析一下距離變換損失。

距離變換損失

距離變換指的是對于一張圖像中的每一個像素點的值用距離來代替，其實得到的就是一副類似于二值圖的圖像，用于表示肖像圖的黑線分布，用于表示肖像圖白線的分布，由肖像圖計算黑線與白線可以用卷積層去檢測到，從而確定確定對應的和。我們可以用下圖進一步理解距離變換的定義。

距離變換損失就是衡量真實肖像圖與生成肖像圖的和的差值：

其中像素 (j,k) 在真實和生成肖像圖下和的距離，得到的最終的損失表示為：?

這種對肖像圖中的黑線和白線的距離控制是為了盡可能還原肖像圖中的發型流動性和光澤度，讓肖像圖更加地逼真。

整體損失

最終得到的損失函數為：?

實驗

數據集處理

由于由藝術家手繪的肖像圖的成本過高，實驗組是收集了 140 對面部照片和相應的肖像畫的數據集（由專業人員手繪的肖像圖），為了實現少量圖像對下的訓練，從 10 個面部數據集中收集了 6,655 張正面照片，對每張圖片使用雙色調 NPR 算法?[1]?生成肖像圖紙，這個階段得到的結果通常會產生沒有明確下顎線的結果（由于這些位置的圖像中的對比度低），再使用 OpenFace?[2]?中的面部模型來檢測頜骨上的標記，然后將下頜線添加到NPR結果中。
對于這種處理得到的數據，主要用于預訓練，預訓練階段為前 10 個 epoch，由于 NPR 生成的繪圖（與藝術家的繪圖不同）與照片準確對齊，因此在預訓練中不去優化距離變換損失。預訓練結束后，將數據集換為由專業人員手繪的肖像圖進一步訓練得到最后的結果，這個過程解釋可看下圖。

消融對比

文章在定性上做了消融性對比，包括有無局部生成器、距離變換損失、預訓練和完整結果。

實驗對比

和已有的方法，APDrawingGAN 也與時下的模型進行了定性和定量上的對比。

總結

文章提出了 APDrawingGAN，一種用于將面部照片轉換為 APDrawing 的分層 GAN 模型。實驗致力于特定的人臉和 APDrawing 風格的轉換，特別是旨在完成這種特定的轉換工作。通過全局生成器和局部生成器對人臉進行肖像圖重構，利用距離變換損失加強肖像圖的逼真度，從實驗結果上可以實現成功的藝術肖像風格轉移，并且取得了一定的優勢。

這也啟發了我們在通用型的圖像翻譯工作下，具體的模型設計還需要根據具體的目的需求去設計，在特定的任務下實現合理而且高質量的結果。

參考文獻

[1]?Paul L. Rosin and Yu-Kun Lai. Towards artistic minimal rendering. In International Symposium on Non-Photorealistic Animation and Rendering, NPAR ’10, pages 119–127, 2010. 5, 6?

[2] Brandon Amos, Bartosz Ludwiczuk, and Mahadev Satyanarayanan. OpenFace: A general-purpose face recognition library with mobile applications. Technical report, CMUCS-16-118, CMU School of Computer Science, 2016. 6

點擊以下標題查看更多往期內容：?

#投稿通道#

?讓你的論文被更多人看到?

如何才能讓更多的優質內容以更短路徑到達讀者群體，縮短讀者尋找優質內容的成本呢？答案就是：你不認識的人。

總有一些你不認識的人，知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁，促使不同背景、不同方向的學者和學術靈感相互碰撞，迸發出更多的可能性。?

PaperWeekly 鼓勵高校實驗室或個人，在我們的平臺上分享各類優質內容，可以是最新論文解讀，也可以是學習心得或技術干貨。我們的目的只有一個，讓知識真正流動起來。

??來稿標準：

? 稿件確系個人原創作品，來稿需注明作者個人信息（姓名+學校/工作單位+學歷/職位+研究方向）?

? 如果文章并非首發，請在投稿時提醒并附上所有已發布鏈接?

? PaperWeekly 默認每篇文章都是首發，均會添加“原創”標志

? 投稿郵箱：

? 投稿郵箱：hr@paperweekly.site?

? 所有文章配圖，請單獨在附件中發送?

? 請留下即時聯系方式（微信或手機），以便我們在編輯發布時和作者溝通

現在，在「知乎」也能找到我們了

進入知乎首頁搜索「PaperWeekly」

點擊「關注」訂閱我們的專欄吧

關于PaperWeekly

PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域，歡迎在公眾號后臺點擊「交流群」，小助手將把你帶入 PaperWeekly 的交流群里。

▽ 點擊 |?閱讀原文?| 下載論文 & 源碼

總結

以上是生活随笔為你收集整理的CVPR 2019 | APDrawingGAN：人脸秒变艺术肖像画的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：文件夹隐藏后怎么找出来找回被隐藏的文件
下一篇： Nature论文解读：深度学习助力毫秒之