人工智能用你的照片合成舞蹈
轉(zhuǎn)載:機(jī)器之心
編者按:你能想象到自己翩翩起舞的樣子嘛?可能你的答案是“我不會跳舞”,但我想給你說,沒有什么事情是一行代碼解決不了的,如果有,那就多寫幾行;在這個(gè)“萬物皆AI”的時(shí)代,一切都將變得很簡單。我已經(jīng)在想象自己以科比的動作在打籃球了。對于大多數(shù)人來說,跳舞并不是一件簡單的事情。但不會跳并不意味著看不到自己跳舞的樣子。
想展示自己的完美舞姿嗎?你現(xiàn)在只需要一段別人跳舞的視頻,和自己的一張照片。最近,來自上海科技大學(xué)和騰訊 AI Lab 的新研究著實(shí)讓很多人躍躍欲試。
雖然性別不同,身材也相差不少,但 AI 能夠做到近乎完美的動作遷移,看來以后在視頻網(wǎng)站的舞蹈區(qū),我們也要注意辨別真假了。不僅如此,這項(xiàng)研究還可以實(shí)現(xiàn)實(shí)時(shí)變裝,3D 建模等功能,可謂強(qiáng)大。這篇論文已經(jīng)入選計(jì)算機(jī)視覺頂會 ICCV 2019。論文:https://arxiv.org/pdf/1909.12224.pdf作者還開源了 PyTorch 實(shí)現(xiàn):https://github.com/svip-lab/impersonator擅長代碼的同學(xué)可以前去嘗試。跳舞的同時(shí),你還能換上自己想穿的衣服。想怎么跳這么跳,想穿什么穿什么。人體圖像合成包括人體動作模仿、外觀遷移和新視圖合成,它們在重演、角色動畫、虛擬試裝、電影以及游戲制作等領(lǐng)域具有巨大的應(yīng)用潛力。現(xiàn)有的針對特定任務(wù)的方法主要利用 2D 關(guān)鍵點(diǎn)(姿態(tài))來估計(jì)人體結(jié)構(gòu)。但是,這些方法只能表達(dá)位置信息,既無法表征個(gè)人的個(gè)性化姿態(tài),也不能對四肢旋轉(zhuǎn)進(jìn)行建模。具體來說,現(xiàn)有的人體圖像合成方法在以下三個(gè)方面遇到了挑戰(zhàn):1)衣服在紋理、風(fēng)格、顏色和深層人臉識別等方面呈現(xiàn)出多樣性,所以在網(wǎng)絡(luò)架構(gòu)中很難進(jìn)行捕捉和保留;2)以關(guān)節(jié)相連以及可變形的人體導(dǎo)致任意姿態(tài)操縱出現(xiàn)較大的空間分布和幾何變化;3)無法處理多源輸入,例如在外觀遷移過程中,不同的身體部位可能來自不同的源人物。針對現(xiàn)有方法的局限性,在這篇論文中,研究者通過一個(gè)統(tǒng)一的框架實(shí)現(xiàn)了人體動作模仿、外觀遷移和新視圖合成,這意味著訓(xùn)練過的模型可用來執(zhí)行這三項(xiàng)任務(wù)。他們提出利用 3D 人體網(wǎng)格復(fù)原模塊來分離人體姿態(tài)和外形,這樣不僅可以對人體銜接位置和旋轉(zhuǎn)進(jìn)行建模,而且可以表征個(gè)性化的人體形態(tài)(體型)。為了保留紋理、風(fēng)格、顏色和身份等源信息,研究者提出了一個(gè)具有 Liquid Warping Block(LWB)的 Liquid Warping GAN,它能夠在圖像和特征空間中傳播源信息,并且可以合成類似于參照人物的圖像。具體來說,研究者通過對卷積自編碼器去噪,從而提取源特征,實(shí)現(xiàn)對源身份較好地表征。他們提出的 Liquid Warping GAN 還可以支持來自多源的更靈活的 warping。此外,研究者還構(gòu)建了一個(gè)名為 Impersonator(iPER)的新數(shù)據(jù)集,用于人體動作模仿、外觀遷移和新視圖合成的評估。大量的實(shí)驗(yàn)結(jié)果表明,Liquid Warping GAN 實(shí)現(xiàn)了在遮擋情況下的魯棒性、人臉的保真性、外形的連貫性和衣服的細(xì)節(jié)。Liquid Swarping GAN 的實(shí)現(xiàn)效果那么,Liquid Swarping GAN 的實(shí)現(xiàn)效果是怎樣的呢?
如下圖 1 上所示,在人體動態(tài)模仿過程中,首先給定源人物圖像和參照人物姿態(tài),然后生成集合源人物和參照人物姿態(tài)的合成圖像;
如圖 1 中所示,在新視圖合成過程中,首先給定人體的源圖像,然后生成該人體不同角度的合成圖像;
如圖 1 下所示,在外觀遷移過程中,首先給定源人物圖像和穿著不同衣服的參照人物圖像,然后生成源人物穿著參照人物衣服的合成圖像。
對卷積自編碼器進(jìn)行去噪處理,用于提取源信息中紋理、顏色、風(fēng)格和人臉身份等有用特征;
通過 Liquid Warping Block 將局部源特征混合到全局特征流(global feature stream),以進(jìn)一步保留源人物細(xì)節(jié);
Liquid Warping Block 支持多源 warping,比如在外觀遷移過程中,分別提取源人物的頭部特征以及參照人物的身體特征,將它們聚合成全局特征流,生成一個(gè)新的合成圖像。
其他兩個(gè)流分別是源身份流 G_SID 和遷移流 G_TSF。前者是一個(gè)去噪卷積自編碼器,旨在引導(dǎo)編碼器提取出能夠保留源信息的特征。它與?一起,將 masked 源前景(foreground)I_ft 和對應(yīng)圖 C_s(總共 6 個(gè)通道)作為輸入,并重建源前景圖。G_TSF 流用來合成最終結(jié)果,它通過雙線性采樣器和對應(yīng)圖 C_t(共 6 個(gè)通道)接收扭曲的前景。為了保留紋理、風(fēng)格、顏色等源信息,研究者提出了一個(gè)新的 Liquid Warping Block(LWB),將源流和目標(biāo)流連接起來。它將來自 G_SID 的源特征融合到遷移流 G_TSF 中,如上圖 3c 的第三行所示。Liquid Warping Block 的優(yōu)勢之一是它可以應(yīng)用于多個(gè)源,如人體外觀遷移,保留源人物 1 的頭部,同時(shí)又能穿上源人物 2 的上衣以及源人物 3 的褲子。特征的不同部分則分別通過它們各自的轉(zhuǎn)換流聚合到 G_TSF 中。此處以兩個(gè)源為例,如下圖 4 所示:
圖 4:Liquid Warping Block 示意圖。(a)LWB 結(jié)構(gòu);(b)LWB 架構(gòu)。
G_BG、G_SID 和 G_TSF 擁有相似的架構(gòu),即 ResUnet,由 ResNet 和 UNet 組合而成,但沒有共享參數(shù)。對于 G_BG,研究者直接復(fù)原了最后的背景圖像;而對于 G_SID 和 G_TSF,研究者生成了一個(gè)注意力圖 A 和顏色圖 P,如圖 3c 所示。最后的圖像可以通過以下公式得到:鑒別器Liquid Warping GAN 中的鑒別器采用了 Pix2Pix 的架構(gòu)。詳情可以參見論文補(bǔ)充材料。實(shí)驗(yàn)為了評估 Liquid Swarping GAN 在人體動作模仿、外觀遷移和新視圖合成三項(xiàng)任務(wù)上的效果,研究者構(gòu)建了一個(gè)包含不同風(fēng)格衣服的 iPER 數(shù)據(jù)集。該數(shù)據(jù)集中共有 30 名不同外形、身高和性別的受試者。每位受試者身著不同的衣服,并演示 A 字形姿態(tài)以及其他隨機(jī)動作。與其他方法的比較研究者對 Liquid Swarping GAN 和 PG2、DSC 和 SHUP 等現(xiàn)有方法的實(shí)現(xiàn)效果進(jìn)行了比較。他們在 iPER 數(shù)據(jù)集上訓(xùn)練這些方法,并應(yīng)用到了 SSIM、LPIPS、IS 和 FReID 四種指標(biāo)。具體結(jié)果如下表 1 所示:表 1:在 iPER 數(shù)據(jù)集上不同方法的人體動作模仿結(jié)果,↑表示數(shù)值越大效果越好,↓表示數(shù)值越小效果越好。此外,SSIM 數(shù)值越大并不代表圖像質(zhì)量越高。由此可見,Liquid Swarping GAN 優(yōu)于 PG2、DSC 和 SHUP 等其他人體圖像合成方法。此外,在下圖 6 中,研究者還對生成圖像進(jìn)行分析,并對比了自身方法和其他方法的最終合成效果。圖 6:在 iPER 數(shù)據(jù)集上對比 Liquid Swarping GAN 和其他動作模仿方法。由最終效果圖(紅色和藍(lán)色邊框)可見,PG2、DSC 和 SHUP 等 2D 姿態(tài)導(dǎo)向方法無法保留源圖像的衣服細(xì)節(jié)、清晰人臉和外形連貫性。
如下圖 7 所示,Liquid Swarping GAN 還可以在交叉模仿設(shè)置下生成高保真圖像。圖 7:在 iPER 數(shù)據(jù)集上利用 Liquid Swarping GAN 的人體動作模仿示例。Liquid Swarping GAN 可以生成保留源人臉身份、外形連貫性和衣服細(xì)節(jié)的高保真圖像,源圖像有遮擋也不影響合成效果。人體外觀遷移效果值得強(qiáng)調(diào)的是,訓(xùn)練過的模型可以直接應(yīng)用到人體動作模仿、外觀遷移和新視圖合成三項(xiàng)任務(wù)中。下圖 8 是研究者隨機(jī)挑選的一些示例。
圖 8. 在 iPER 測試集中人類外觀遷移方法的示例。新的方法可以生成具有高保真度的圖像,其保持了源圖像中面部和身體的一些特征,并遷移到參考圖像中新衣著上形成了逼真的細(xì)節(jié)。新視圖合成的效果研究人員從 iPER 的測試集中隨機(jī)抽取圖片,并將視圖從 30°調(diào)整為 330°,其結(jié)果如下圖所示:圖 9. 使用新方法在 iPER 數(shù)據(jù)集上和成全新視圖的示例。新的方法可以在不同攝像機(jī)視角下實(shí)現(xiàn)逼真的結(jié)果,而且即使在有自我遮擋的情況下(如手和腿),也可以保留源信息。
想脫單,找灣區(qū)人工智能
長按掃碼撩海歸
覺得不錯, 請隨意轉(zhuǎn)發(fā),麻煩點(diǎn)個(gè)在看!總結(jié)
以上是生活随笔為你收集整理的人工智能用你的照片合成舞蹈的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 计算机婚纱影楼毕业设计开题报告,毕业设计
- 下一篇: c语言实现hdr图像合成,怎样完成一张H