CVPR 2019 | APDrawingGAN:人脸秒变艺术肖像画
作者丨武廣
學(xué)校丨合肥工業(yè)大學(xué)碩士生
研究方向丨圖像生成
固定的應(yīng)用場景對于泛化的圖像翻譯模型來說存在著一定的局限性,往往需要根據(jù)實際的需求對網(wǎng)絡(luò)和細(xì)節(jié)進行設(shè)計以達到特定的效果。圖像轉(zhuǎn)換模型中
本篇的目的是為了解讀在人臉到肖像畫的圖像翻譯任務(wù)下,如何做到這種固定需求的高質(zhì)量圖像轉(zhuǎn)換。本篇的主角是 APDrawingGAN,同時也是 CVPR 2019?Oral,實現(xiàn)了高質(zhì)量的人臉到肖像圖的轉(zhuǎn)換。
論文引入
肖像畫是一種藝術(shù)表現(xiàn)形式,可以簡單的通過線條去捕捉人的獨特外觀,并且可以做到高相似度的描述。這類素描圖往往需要藝術(shù)家在人或他們的照片面前繪制,且依賴于整體的觀察、分析和經(jīng)驗去創(chuàng)作。一副好的肖像畫可以形象的表征人的個性和神氣,這往往需要一個受過好的培訓(xùn)的藝術(shù)家?guī)讉€小時的時間去創(chuàng)作。
這種耗時的工作當(dāng)然可以交給計算機去實現(xiàn)了,但是在實現(xiàn)之前還是要分析一下這項任務(wù)的難點。藝術(shù)肖像畫(APDrawings)是高度抽象的,包含少量稀疏但連續(xù)的圖形元素(線條)。
同時,APDrawings 涉及數(shù)千個不同大小和形狀的筆畫的密集集合,面部特征下一些小的偽像也能被清楚的看到,面部特征不能有錯位、移位出現(xiàn)。不同人物的肖像結(jié)構(gòu)是變化的,沒有固定的精確位置,再者為了體現(xiàn)發(fā)型的流動性,往往 APDrawings 會有一些指示頭發(fā)流動的線條。
綜合這些難點,想實現(xiàn)一個高質(zhì)量的人臉到肖像畫的轉(zhuǎn)換是難度很大的,上述的特點都要在考慮范圍內(nèi)。
為了解決上述挑戰(zhàn),本文提出了 APDrawingGAN,一種新穎的 Hierarchical GAN 架構(gòu),專門用于面部結(jié)構(gòu)和 APDrawing 樣式,用于將面部照片轉(zhuǎn)換為高質(zhì)量的 APDrawings。
為了有效地學(xué)習(xí)不同面部區(qū)域的不同繪圖風(fēng)格,GAN 架構(gòu)涉及專門用于面部特征區(qū)域的幾個局部網(wǎng)絡(luò),以及用于捕獲整體特征的全局網(wǎng)絡(luò)。為了進一步應(yīng)對藝術(shù)家繪畫中基于線條筆劃的風(fēng)格和不精確定位的元素,還提出了一種新的距離變換(DT)損失來學(xué)習(xí) APDrawings 中的筆劃線。
總結(jié)一下 APDrawingGAN 的優(yōu)勢:?
1. 提出了一種 Hierarchical GAN 架構(gòu),用于從面部照片中進行藝術(shù)人像合成,可以生成高質(zhì)量和富有表現(xiàn)力的藝術(shù)肖像畫。特別是,可以用細(xì)膩的白線學(xué)習(xí)復(fù)雜的發(fā)型;
2. 為了最好地模擬藝術(shù)家,模型將 GAN 的渲染輸出分成多個層,每個層由分離的損失函數(shù)控制;
3. 從 10 個面部數(shù)據(jù)集中收集的 6,655 張正面照片預(yù)訓(xùn)練模型,并構(gòu)建適合訓(xùn)練和測試的 APDrawing 數(shù)據(jù)集(包含 140 張專業(yè)藝術(shù)家的高分辨率面部照片和相應(yīng)的肖像畫)。
模型結(jié)構(gòu)
先從整體上看一下 APDrawingGAN 模型結(jié)構(gòu):
整體結(jié)構(gòu)是比較直觀理解的,整個網(wǎng)絡(luò)是基于 GAN 建立的,左邊為分層生成器,右邊為分層判別器,輸入的原始人臉圖記為。分層生成器的上部分為全局生成器它的輸出為全局人臉肖像,下部分為分別對應(yīng)著左眼、右眼、鼻子、嘴巴、頭發(fā)、背景的六個局部生成器,這六個生成器得到的肖像局部圖結(jié)合在一起便得到了,通過融合生成器便得到最終的輸出結(jié)果。
對于判別器則整體上采用的是條件 GAN 的判別器設(shè)計,對于真實的肖像圖給定的標(biāo)簽為 True,對于合成的肖像圖給定的標(biāo)簽是 False,這個標(biāo)簽是人為構(gòu)建的。同時也是采用全局判別器和六個局部判別器組成,最終確定真假以優(yōu)化生成器。接下來,我們對各個部分詳細(xì)的進行梳理。全局生成器這里說的全局生成器和局部生成器并不是我們在感受野中定義的全局和局部,這里的全局和局部就是全局得到的人臉肖像和局部得到的眼睛、鼻子、嘴巴和頭發(fā)。對于全局生成器采用的是 U-Net 的設(shè)計思路,通過下采樣結(jié)合特征復(fù)用的上采樣最終得到全局的輸出。局部生成器局部生成器的前提是要把人臉的各個部位提取出來,將人臉圖取出左眼、右眼、鼻子、嘴巴出來,扣除掉這些部位后得到的就是頭發(fā)部分,對人臉圖取掩碼得到背景圖。將這六個部分分別進行小尺度下的 U-Net 的重構(gòu)得到對應(yīng)的局部肖像圖,通過 partCombiner2_bg 網(wǎng)絡(luò)將這六個部分組合組合成一副完整的人臉肖像圖,partCombiner2_bg 主要通過在重疊區(qū)域使用最小池化來將所有局部生成器的輸出混合到聚合圖形。
其實從扣出局部的部位到再次將每一個部位整合在一起,這中間還是比較繁瑣的,同時這塊也是 APDrawingGAN 的主要創(chuàng)新之處,在源碼中作者通過固定各個部位的尺度大小,然后通過對每一幅圖像的各個部位進行標(biāo)注(主要是嘴巴和中心位置,保存在 txt 中的 5 行 2 列的坐標(biāo)),在訓(xùn)練階段進行截取局部位置時調(diào)用。融合生成器融合生成器就是將全局生成器得到的全局圖和局部生成器得到的局部整合圖進行 channel 維度的 concat 后送入到 combine 網(wǎng)絡(luò)再次經(jīng)過一些卷積處理最終得到最后的輸出。全局判別器和局部判別器全局判別器和局部判別器就和條件 GAN 的判別器類似,定義真實部分的 label 為真,合成部分的 label 為假,然后通過條件判別器進行優(yōu)化,整個網(wǎng)絡(luò)的架構(gòu)就是堆疊的下采樣。
損失函數(shù)
整個模型的損失函數(shù)由四部分組成,大家熟知的生成對抗損失、像素層面損失、距離變換損失以及局部像素?fù)p失。對于生成對抗損失,主要分為兩部分一個是全局性的生成對抗損失和局部性六個部位的生成對抗損失;像素層面損失主要是采用 L1 損失:
其中就是真實肖像畫的數(shù)據(jù);局部像素?fù)p失就是對各個部位的合成和真實進行 L1 損失優(yōu)化,比如對鼻子的局部損失:
我們重點分析一下距離變換損失。距離變換損失距離變換指的是對于一張圖像中的每一個像素點的值用距離來代替,其實得到的就是一副類似于二值圖的圖像,用于表示肖像圖的黑線分布,用于表示肖像圖白線的分布,由肖像圖計算黑線與白線可以用卷積層去檢測到,從而確定確定對應(yīng)的和。我們可以用下圖進一步理解距離變換的定義。
距離變換損失就是衡量真實肖像圖與生成肖像圖的和的差值:其中像素 (j,k) 在真實和生成肖像圖下和的距離,得到的最終的損失表示為:?
這種對肖像圖中的黑線和白線的距離控制是為了盡可能還原肖像圖中的發(fā)型流動性和光澤度,讓肖像圖更加地逼真。整體損失最終得到的損失函數(shù)為:?
實驗
數(shù)據(jù)集處理由于由藝術(shù)家手繪的肖像圖的成本過高,實驗組是收集了 140 對面部照片和相應(yīng)的肖像畫的數(shù)據(jù)集(由專業(yè)人員手繪的肖像圖),為了實現(xiàn)少量圖像對下的訓(xùn)練,從 10 個面部數(shù)據(jù)集中收集了 6,655 張正面照片,對每張圖片使用雙色調(diào) NPR 算法?[1]?生成肖像圖紙,這個階段得到的結(jié)果通常會產(chǎn)生沒有明確下顎線的結(jié)果(由于這些位置的圖像中的對比度低),再使用 OpenFace?[2]?中的面部模型來檢測頜骨上的標(biāo)記,然后將下頜線添加到NPR結(jié)果中。
對于這種處理得到的數(shù)據(jù),主要用于預(yù)訓(xùn)練,預(yù)訓(xùn)練階段為前 10 個 epoch,由于 NPR 生成的繪圖(與藝術(shù)家的繪圖不同)與照片準(zhǔn)確對齊,因此在預(yù)訓(xùn)練中不去優(yōu)化距離變換損失。預(yù)訓(xùn)練結(jié)束后,將數(shù)據(jù)集換為由專業(yè)人員手繪的肖像圖進一步訓(xùn)練得到最后的結(jié)果,這個過程解釋可看下圖。
消融對比文章在定性上做了消融性對比,包括有無局部生成器、距離變換損失、預(yù)訓(xùn)練和完整結(jié)果。
實驗對比和已有的方法,APDrawingGAN 也與時下的模型進行了定性和定量上的對比。
總結(jié)
文章提出了 APDrawingGAN,一種用于將面部照片轉(zhuǎn)換為 APDrawing 的分層 GAN 模型。實驗致力于特定的人臉和 APDrawing 風(fēng)格的轉(zhuǎn)換,特別是旨在完成這種特定的轉(zhuǎn)換工作。通過全局生成器和局部生成器對人臉進行肖像圖重構(gòu),利用距離變換損失加強肖像圖的逼真度,從實驗結(jié)果上可以實現(xiàn)成功的藝術(shù)肖像風(fēng)格轉(zhuǎn)移,并且取得了一定的優(yōu)勢。這也啟發(fā)了我們在通用型的圖像翻譯工作下,具體的模型設(shè)計還需要根據(jù)具體的目的需求去設(shè)計,在特定的任務(wù)下實現(xiàn)合理而且高質(zhì)量的結(jié)果。
參考文獻
[1]?Paul L. Rosin and Yu-Kun Lai. Towards artistic minimal rendering. In International Symposium on Non-Photorealistic Animation and Rendering, NPAR ’10, pages 119–127, 2010. 5, 6?
[2] Brandon Amos, Bartosz Ludwiczuk, and Mahadev Satyanarayanan. OpenFace: A general-purpose face recognition library with mobile applications. Technical report, CMUCS-16-118, CMU School of Computer Science, 2016. 6
點擊以下標(biāo)題查看更多往期內(nèi)容:?
#投 稿 通 道#
?讓你的論文被更多人看到?
如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達讀者群體,縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢?答案就是:你不認(rèn)識的人。
總有一些你不認(rèn)識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學(xué)者和學(xué)術(shù)靈感相互碰撞,迸發(fā)出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優(yōu)質(zhì)內(nèi)容,可以是最新論文解讀,也可以是學(xué)習(xí)心得或技術(shù)干貨。我們的目的只有一個,讓知識真正流動起來。
??來稿標(biāo)準(zhǔn):
? 稿件確系個人原創(chuàng)作品,來稿需注明作者個人信息(姓名+學(xué)校/工作單位+學(xué)歷/職位+研究方向)?
? 如果文章并非首發(fā),請在投稿時提醒并附上所有已發(fā)布鏈接?
? PaperWeekly 默認(rèn)每篇文章都是首發(fā),均會添加“原創(chuàng)”標(biāo)志
? 投稿郵箱:
? 投稿郵箱:hr@paperweekly.site?
? 所有文章配圖,請單獨在附件中發(fā)送?
? 請留下即時聯(lián)系方式(微信或手機),以便我們在編輯發(fā)布時和作者溝通
?
現(xiàn)在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關(guān)注」訂閱我們的專欄吧
關(guān)于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學(xué)術(shù)平臺。如果你研究或從事 AI 領(lǐng)域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
▽ 點擊 |?閱讀原文?| 下載論文 & 源碼
總結(jié)
以上是生活随笔為你收集整理的CVPR 2019 | APDrawingGAN:人脸秒变艺术肖像画的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 文件夹隐藏后怎么找出来 找回被隐藏的文件
- 下一篇: Nature论文解读:深度学习助力毫秒之