CVPR 2021 | 天津大学提出PISE:形状与纹理解耦的人体图像生成与编辑方法
?PaperWeekly 原創(chuàng) ·?作者|張勁松
學(xué)校|天津大學(xué)碩士生
研究方向|計(jì)算機(jī)視覺
導(dǎo)讀:由單張人體圖像來生成任意視角任意姿態(tài)下的圖像,是近幾年視覺領(lǐng)域研究的熱點(diǎn)問題。現(xiàn)有方法無法實(shí)現(xiàn)靈活的圖像編輯且難以合理預(yù)測不可見信息,其根本原因是衣服形狀與風(fēng)格/紋理的耦合以及空域相關(guān)信息的丟失。為了解決以上問題,該研究工作設(shè)計(jì)了形狀與風(fēng)格/紋理信息的分離方案,建立了分階段分區(qū)域圖像表示模型,聯(lián)合局部與全局信息對(duì)目標(biāo)圖像進(jìn)行合理預(yù)測,同時(shí)使用空間感知的正則化方法保留空間信息,實(shí)現(xiàn)了語義引導(dǎo)的新姿態(tài)圖像生成與編輯,突破了形狀與紋理難以解耦的瓶頸,并賦予算法靈活可控的編輯能力。
論文鏈接:
https://arxiv.org/abs/2103.04023
項(xiàng)目主頁:
http://cic.tju.edu.cn/faculty/likun/projects/PISE
代碼鏈接:
https://github.com/Zhangjinso/PISE
?
人體姿態(tài)遷移簡介
簡單來說,人體姿態(tài)遷移就是給定一張人物圖像,希望生成該人物在指定姿態(tài)下的圖像。如下圖所示,最左列為給定的人物圖像,在給定不同的新姿態(tài)下,該工作模型可以生成在新姿態(tài)下該人物的圖像。
人體姿態(tài)遷移在角色動(dòng)畫、視頻制作等領(lǐng)域都有著巨大的潛力。但由于人物圖片紋理的多樣性以及變換姿態(tài)和視點(diǎn)導(dǎo)致的自遮擋問題,人體姿態(tài)遷移系統(tǒng)很難得到令人滿意的結(jié)果。
以往方法?[1-4]?針對(duì)如何提升人體姿態(tài)遷移系統(tǒng)的性能,即對(duì)如何生成更真實(shí)的圖片進(jìn)行了大量的研究。然而,人體姿態(tài)遷移系統(tǒng)生成人體圖像的整個(gè)過程是不可控的,只能遷移姿態(tài),不能遷移衣服的形狀或者衣服的紋理。
PINet [5] 和 ADGAN [6] 對(duì)人體姿態(tài)遷移的可控性能進(jìn)行了探索,但難以細(xì)致地控制屬性,只能大致調(diào)整生成人物圖像的穿著,不能靈活地控制其衣物樣式及紋理。這是因?yàn)樵谌梭w圖像生成的過程中,衣物的形狀以及紋理信息是耦合的。
因此,如果可以將衣物的形狀信息與紋理信息進(jìn)行解耦,就可以在實(shí)現(xiàn)姿態(tài)遷移的同時(shí)還能靈活地編輯人體圖像。
方法思路
該工作的目標(biāo)是在實(shí)現(xiàn)人體姿態(tài)遷移,即分離出人體姿態(tài)的基礎(chǔ)上,解耦形狀信息與紋理信息,從而實(shí)現(xiàn)靈活的人體圖像編輯。然而將形狀信息與紋理信息從耦合的圖像中分離出來是非常困難的。為此,作者引入人體語義分割圖作為中間結(jié)果,將形狀信息顯示地表示出來。
具體來說,該方法分為兩個(gè)階段:1)采用解析生成器(Parsing Generator)根據(jù)原始語義分割圖與目標(biāo)姿態(tài),生成目標(biāo)圖像的語義分割圖;2)采用圖像生成器(Image Generator)將生成的語義分割圖依據(jù)輸入圖像轉(zhuǎn)換為目標(biāo)圖像。
Parsing Generator
首先,作者使用 OpenPose [7] 提取出的 18 個(gè)關(guān)鍵點(diǎn)表示人體姿態(tài)信息,使用 CIHP PGN [8] 得到原始圖像的人體語義分割圖。Parsing Generator 負(fù)責(zé)根據(jù)目標(biāo)姿態(tài)、原始姿態(tài)及其語義分割圖去生成目標(biāo)人物的語義分割圖。
相比于直接對(duì)像素點(diǎn)的 RGB 進(jìn)行預(yù)測輸出最終結(jié)果的方法,兩階段的結(jié)構(gòu)在一定程度上降低了問題的難度。但對(duì)目標(biāo)人物的語義分割圖進(jìn)行預(yù)測仍然是一個(gè)輸入輸出不對(duì)齊的問題。
傳統(tǒng)卷積對(duì)輸入特征不同空間位置信息是平等對(duì)待的,因此并不適用于需要對(duì)特征進(jìn)行空間變換的問題。作者在特征空間采用了門控卷積(gated convolution)來動(dòng)態(tài)地賦予空間注意力,將原始姿態(tài)下的語義圖變換為目標(biāo)姿態(tài)下的語義圖。
Image Generator
通過將人體語義分割圖作為中間結(jié)果,作者把形狀信息顯示地表示了出來。基于此,作者進(jìn)一步將解耦形狀信息與紋理信息轉(zhuǎn)化為解耦每個(gè)語義區(qū)域的形狀信息與紋理信息。
首先,提取原始圖像的特征,并根據(jù)原始圖像的語義圖,針對(duì)每個(gè)語義區(qū)域提取和形狀無關(guān)的特征向量。在根據(jù)第一階段產(chǎn)生的目標(biāo)語義圖生成目標(biāo)圖像的過程中,對(duì)于在原圖像中可見的區(qū)域,使用原圖像對(duì)應(yīng)語義區(qū)域的特征向量進(jìn)行調(diào)制;對(duì)于在原圖像中不可見的區(qū)域,使用原圖像所有區(qū)域的特征向量對(duì)其進(jìn)行預(yù)測。
之后,將原圖像中與形狀無關(guān)的紋理信息使用正則化的方式注入到生成的圖像特征中。然而,在提取原圖像不同語義區(qū)域特征的過程中,丟失了每個(gè)語義區(qū)域的空間信息。為了保留原圖像中每個(gè)語義區(qū)域的空間信息,作者引入了空間感知的歸一化方法。在對(duì)生成特征注入紋理信息時(shí),使用目標(biāo)圖像的 VGG 特征進(jìn)行約束,使兩者盡可能處于同一域內(nèi),進(jìn)而計(jì)算兩者的注意力圖。
之后,對(duì)原圖像特征進(jìn)行通道歸一化,保留其空間信息,使用之前預(yù)測的注意力圖對(duì)原始圖像的空間特征進(jìn)行變形,進(jìn)而得到與目標(biāo)圖像對(duì)齊的空間特征,并使用正則化方式進(jìn)行特征調(diào)制。
整個(gè)過程在盡可能保持原圖像中的紋理信息與空間信息的基礎(chǔ)上,通過全局與局部聯(lián)合的分區(qū)域歸一化以及空間感知?dú)w一化方法,解耦了形狀信息與紋理信息。
實(shí)驗(yàn)結(jié)果
在人體姿態(tài)遷移任務(wù)上,作者在 DeepFashion 數(shù)據(jù)集上與六種 SOTA 方法進(jìn)行了對(duì)比。在定性比較上,該方法獲得了最好的視覺結(jié)果,同時(shí)和原圖像中的人物和衣著有著更高的一致性,空間上下文信息也很好地保留了下來。
在定量比較上,該方法產(chǎn)生的結(jié)果誤差最小,有著最好的真實(shí)性以及與目標(biāo)圖像的一致性。
此外,作者還進(jìn)行了紋理遷移和語義圖編輯的實(shí)驗(yàn),證明了該方法可以對(duì)人物圖像進(jìn)行靈活可控的編輯。更多的結(jié)果請(qǐng)參見該工作的論文與補(bǔ)充材料。
關(guān)于作者
張勁松 /?天津大學(xué)研三學(xué)生
主要研究方向:計(jì)算機(jī)視覺、圖像生成等
https://zhangjinso.github.io
李坤 / 天津大學(xué)副教授、博導(dǎo)
主要研究方向:計(jì)算機(jī)視覺、計(jì)算機(jī)圖形學(xué)、圖像處理等?
http://cic.tju.edu.cn/faculty/likun
來煜坤 / 英國卡迪夫大學(xué)副教授
主要研究方向:計(jì)算機(jī)圖形學(xué),幾何處理,圖像處理和計(jì)算機(jī)視覺
http://users.cs.cf.ac.uk/Yukun.Lai/
楊敬鈺?/ 天津大學(xué)教授、博導(dǎo)
主要研究方向:計(jì)算機(jī)視覺、智能圖像/視頻處理、計(jì)算成像與三維重建
http://tju.iirlab.org/doku.php?id=people:faculty:yjy
?
?
參考文獻(xiàn)
[1] Zhen Zhu, Tengteng Huang, Baoguang Shi, Miao Yu, Bofei Wang, and Xiang Bai. Progressive pose attention transfer for person image generation. In Proc. IEEE Conf. Comput. Vis. Pattern Recog., pages 2342–2351, 2019.
[2] Kun Li, Jinsong Zhang, Yebin Liu, Yu-Kun Lai, Qionghai Dai. PoNA: Pose-guided Non-local Attention for Human Pose Transfer. IEEE Trans. Image Processing, vol. 29, pp. 9584-9599, 2020.
[3] Hao Tang, Song Bai, Philip HS Torr, and Nicu Sebe. Bipartite graph reasoning gans for person image generation. In Proc. Brit. Mach. Vis. Conf., 2020. 1, 6, 7
[4] Hao Tang, Song Bai, Li Zhang, Philip HS Torr, and Nicu Sebe. Xinggan for person image generation. In Proc. Eur. Conf. Comput. Vis., 2020.
[5] Jinsong Zhang,Xingzi Liu,Kun Li. Human Pose Transfer by Adaptive Hierarchical Deformation. Computer Graphics Forum, vol. 39, no. 7, pp. 325-337, 2020.
[6] Yifang Men, Yiming Mao, Yuning Jiang, Wei-Ying Ma, and Zhouhui Lian. Controllable person image synthesis with attribute-decomposed gan. In Proc. IEEE Conf. Comput. Vis. Pattern Recog., pages 5083–5092, 2020.
[7] Zhe Cao, Tomas Simon, Shih-En Wei, and Yaser Sheikh. Realtime multi-person 2D pose estimation using part affinity fields. In Proc. IEEE Conf. Comput. Vis. Pattern Recog., 2017.
[8] Ke Gong, Xiaodan Liang, Yicheng Li, Yimin Chen, Ming Yang, and Liang Lin. Instance-level human parsing via part grouping network. In Proc. Eur. Conf. Comput. Vis., 2018.
更多閱讀
#投 稿?通 道#
?讓你的論文被更多人看到?
如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達(dá)讀者群體,縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢?答案就是:你不認(rèn)識(shí)的人。
總有一些你不認(rèn)識(shí)的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學(xué)者和學(xué)術(shù)靈感相互碰撞,迸發(fā)出更多的可能性。?
PaperWeekly 鼓勵(lì)高校實(shí)驗(yàn)室或個(gè)人,在我們的平臺(tái)上分享各類優(yōu)質(zhì)內(nèi)容,可以是最新論文解讀,也可以是學(xué)習(xí)心得或技術(shù)干貨。我們的目的只有一個(gè),讓知識(shí)真正流動(dòng)起來。
?????來稿標(biāo)準(zhǔn):
? 稿件確系個(gè)人原創(chuàng)作品,來稿需注明作者個(gè)人信息(姓名+學(xué)校/工作單位+學(xué)歷/職位+研究方向)?
? 如果文章并非首發(fā),請(qǐng)?jiān)谕陡鍟r(shí)提醒并附上所有已發(fā)布鏈接?
? PaperWeekly 默認(rèn)每篇文章都是首發(fā),均會(huì)添加“原創(chuàng)”標(biāo)志
?????投稿郵箱:
? 投稿郵箱:hr@paperweekly.site?
? 所有文章配圖,請(qǐng)單獨(dú)在附件中發(fā)送?
? 請(qǐng)留下即時(shí)聯(lián)系方式(微信或手機(jī)),以便我們?cè)诰庉嫲l(fā)布時(shí)和作者溝通
????
現(xiàn)在,在「知乎」也能找到我們了
進(jìn)入知乎首頁搜索「PaperWeekly」
點(diǎn)擊「關(guān)注」訂閱我們的專欄吧
關(guān)于PaperWeekly
PaperWeekly 是一個(gè)推薦、解讀、討論、報(bào)道人工智能前沿論文成果的學(xué)術(shù)平臺(tái)。如果你研究或從事 AI 領(lǐng)域,歡迎在公眾號(hào)后臺(tái)點(diǎn)擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
總結(jié)
以上是生活随笔為你收集整理的CVPR 2021 | 天津大学提出PISE:形状与纹理解耦的人体图像生成与编辑方法的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 换行标怎么去掉(换行符怎么去掉)
- 下一篇: 谷歌自锤Attention:纯注意力并没