人工智能用你的照片合成舞蹈
生活随笔
收集整理的這篇文章主要介紹了
人工智能用你的照片合成舞蹈
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
轉載:機器之心
編者按:你能想象到自己翩翩起舞的樣子嘛?可能你的答案是“我不會跳舞”,但我想給你說,沒有什么事情是一行代碼解決不了的,如果有,那就多寫幾行;在這個“萬物皆AI”的時代,一切都將變得很簡單。我已經在想象自己以科比的動作在打籃球了。對于大多數人來說,跳舞并不是一件簡單的事情。但不會跳并不意味著看不到自己跳舞的樣子。
想展示自己的完美舞姿嗎?你現在只需要一段別人跳舞的視頻,和自己的一張照片。最近,來自上海科技大學和騰訊 AI Lab 的新研究著實讓很多人躍躍欲試。
雖然性別不同,身材也相差不少,但 AI 能夠做到近乎完美的動作遷移,看來以后在視頻網站的舞蹈區,我們也要注意辨別真假了。不僅如此,這項研究還可以實現實時變裝,3D 建模等功能,可謂強大。這篇論文已經入選計算機視覺頂會 ICCV 2019。論文:https://arxiv.org/pdf/1909.12224.pdf作者還開源了 PyTorch 實現:https://github.com/svip-lab/impersonator擅長代碼的同學可以前去嘗試。跳舞的同時,你還能換上自己想穿的衣服。想怎么跳這么跳,想穿什么穿什么。人體圖像合成包括人體動作模仿、外觀遷移和新視圖合成,它們在重演、角色動畫、虛擬試裝、電影以及游戲制作等領域具有巨大的應用潛力。現有的針對特定任務的方法主要利用 2D 關鍵點(姿態)來估計人體結構。但是,這些方法只能表達位置信息,既無法表征個人的個性化姿態,也不能對四肢旋轉進行建模。具體來說,現有的人體圖像合成方法在以下三個方面遇到了挑戰:1)衣服在紋理、風格、顏色和深層人臉識別等方面呈現出多樣性,所以在網絡架構中很難進行捕捉和保留;2)以關節相連以及可變形的人體導致任意姿態操縱出現較大的空間分布和幾何變化;3)無法處理多源輸入,例如在外觀遷移過程中,不同的身體部位可能來自不同的源人物。針對現有方法的局限性,在這篇論文中,研究者通過一個統一的框架實現了人體動作模仿、外觀遷移和新視圖合成,這意味著訓練過的模型可用來執行這三項任務。他們提出利用 3D 人體網格復原模塊來分離人體姿態和外形,這樣不僅可以對人體銜接位置和旋轉進行建模,而且可以表征個性化的人體形態(體型)。為了保留紋理、風格、顏色和身份等源信息,研究者提出了一個具有 Liquid Warping Block(LWB)的 Liquid Warping GAN,它能夠在圖像和特征空間中傳播源信息,并且可以合成類似于參照人物的圖像。具體來說,研究者通過對卷積自編碼器去噪,從而提取源特征,實現對源身份較好地表征。他們提出的 Liquid Warping GAN 還可以支持來自多源的更靈活的 warping。此外,研究者還構建了一個名為 Impersonator(iPER)的新數據集,用于人體動作模仿、外觀遷移和新視圖合成的評估。大量的實驗結果表明,Liquid Warping GAN 實現了在遮擋情況下的魯棒性、人臉的保真性、外形的連貫性和衣服的細節。Liquid Swarping GAN 的實現效果那么,Liquid Swarping GAN 的實現效果是怎樣的呢?
如下圖 1 上所示,在人體動態模仿過程中,首先給定源人物圖像和參照人物姿態,然后生成集合源人物和參照人物姿態的合成圖像;
如圖 1 中所示,在新視圖合成過程中,首先給定人體的源圖像,然后生成該人體不同角度的合成圖像;
如圖 1 下所示,在外觀遷移過程中,首先給定源人物圖像和穿著不同衣服的參照人物圖像,然后生成源人物穿著參照人物衣服的合成圖像。
對卷積自編碼器進行去噪處理,用于提取源信息中紋理、顏色、風格和人臉身份等有用特征;
通過 Liquid Warping Block 將局部源特征混合到全局特征流(global feature stream),以進一步保留源人物細節;
Liquid Warping Block 支持多源 warping,比如在外觀遷移過程中,分別提取源人物的頭部特征以及參照人物的身體特征,將它們聚合成全局特征流,生成一個新的合成圖像。
其他兩個流分別是源身份流 G_SID 和遷移流 G_TSF。前者是一個去噪卷積自編碼器,旨在引導編碼器提取出能夠保留源信息的特征。它與?一起,將 masked 源前景(foreground)I_ft 和對應圖 C_s(總共 6 個通道)作為輸入,并重建源前景圖。G_TSF 流用來合成最終結果,它通過雙線性采樣器和對應圖 C_t(共 6 個通道)接收扭曲的前景。為了保留紋理、風格、顏色等源信息,研究者提出了一個新的 Liquid Warping Block(LWB),將源流和目標流連接起來。它將來自 G_SID 的源特征融合到遷移流 G_TSF 中,如上圖 3c 的第三行所示。Liquid Warping Block 的優勢之一是它可以應用于多個源,如人體外觀遷移,保留源人物 1 的頭部,同時又能穿上源人物 2 的上衣以及源人物 3 的褲子。特征的不同部分則分別通過它們各自的轉換流聚合到 G_TSF 中。此處以兩個源為例,如下圖 4 所示:
圖 4:Liquid Warping Block 示意圖。(a)LWB 結構;(b)LWB 架構。
G_BG、G_SID 和 G_TSF 擁有相似的架構,即 ResUnet,由 ResNet 和 UNet 組合而成,但沒有共享參數。對于 G_BG,研究者直接復原了最后的背景圖像;而對于 G_SID 和 G_TSF,研究者生成了一個注意力圖 A 和顏色圖 P,如圖 3c 所示。最后的圖像可以通過以下公式得到:鑒別器Liquid Warping GAN 中的鑒別器采用了 Pix2Pix 的架構。詳情可以參見論文補充材料。實驗為了評估 Liquid Swarping GAN 在人體動作模仿、外觀遷移和新視圖合成三項任務上的效果,研究者構建了一個包含不同風格衣服的 iPER 數據集。該數據集中共有 30 名不同外形、身高和性別的受試者。每位受試者身著不同的衣服,并演示 A 字形姿態以及其他隨機動作。與其他方法的比較研究者對 Liquid Swarping GAN 和 PG2、DSC 和 SHUP 等現有方法的實現效果進行了比較。他們在 iPER 數據集上訓練這些方法,并應用到了 SSIM、LPIPS、IS 和 FReID 四種指標。具體結果如下表 1 所示:表 1:在 iPER 數據集上不同方法的人體動作模仿結果,↑表示數值越大效果越好,↓表示數值越小效果越好。此外,SSIM 數值越大并不代表圖像質量越高。由此可見,Liquid Swarping GAN 優于 PG2、DSC 和 SHUP 等其他人體圖像合成方法。此外,在下圖 6 中,研究者還對生成圖像進行分析,并對比了自身方法和其他方法的最終合成效果。圖 6:在 iPER 數據集上對比 Liquid Swarping GAN 和其他動作模仿方法。由最終效果圖(紅色和藍色邊框)可見,PG2、DSC 和 SHUP 等 2D 姿態導向方法無法保留源圖像的衣服細節、清晰人臉和外形連貫性。
如下圖 7 所示,Liquid Swarping GAN 還可以在交叉模仿設置下生成高保真圖像。圖 7:在 iPER 數據集上利用 Liquid Swarping GAN 的人體動作模仿示例。Liquid Swarping GAN 可以生成保留源人臉身份、外形連貫性和衣服細節的高保真圖像,源圖像有遮擋也不影響合成效果。人體外觀遷移效果值得強調的是,訓練過的模型可以直接應用到人體動作模仿、外觀遷移和新視圖合成三項任務中。下圖 8 是研究者隨機挑選的一些示例。
圖 8. 在 iPER 測試集中人類外觀遷移方法的示例。新的方法可以生成具有高保真度的圖像,其保持了源圖像中面部和身體的一些特征,并遷移到參考圖像中新衣著上形成了逼真的細節。新視圖合成的效果研究人員從 iPER 的測試集中隨機抽取圖片,并將視圖從 30°調整為 330°,其結果如下圖所示:圖 9. 使用新方法在 iPER 數據集上和成全新視圖的示例。新的方法可以在不同攝像機視角下實現逼真的結果,而且即使在有自我遮擋的情況下(如手和腿),也可以保留源信息。
想脫單,找灣區人工智能
長按掃碼撩海歸
覺得不錯, 請隨意轉發,麻煩點個在看!總結
以上是生活随笔為你收集整理的人工智能用你的照片合成舞蹈的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 计算机婚纱影楼毕业设计开题报告,毕业设计
- 下一篇: c语言实现hdr图像合成,怎样完成一张H