日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

人工智能用你的照片合成舞蹈

發布時間:2023/12/8 编程问答 39 豆豆
生活随笔 收集整理的這篇文章主要介紹了 人工智能用你的照片合成舞蹈 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

轉載:機器之心

編者按:你能想象到自己翩翩起舞的樣子嘛?可能你的答案是“我不會跳舞”,但我想給你說,沒有什么事情是一行代碼解決不了的,如果有,那就多寫幾行;在這個“萬物皆AI”的時代,一切都將變得很簡單。我已經在想象自己以科比的動作在打籃球了。

對于大多數人來說,跳舞并不是一件簡單的事情。但不會跳并不意味著看不到自己跳舞的樣子。

想展示自己的完美舞姿嗎?你現在只需要一段別人跳舞的視頻,和自己的一張照片。最近,來自上海科技大學和騰訊 AI Lab 的新研究著實讓很多人躍躍欲試。

雖然性別不同,身材也相差不少,但 AI 能夠做到近乎完美的動作遷移,看來以后在視頻網站的舞蹈區,我們也要注意辨別真假了。不僅如此,這項研究還可以實現實時變裝,3D 建模等功能,可謂強大。這篇論文已經入選計算機視覺頂會 ICCV 2019。

論文:https://arxiv.org/pdf/1909.12224.pdf

作者還開源了 PyTorch 實現:https://github.com/svip-lab/impersonator

擅長代碼的同學可以前去嘗試。

跳舞的同時,你還能換上自己想穿的衣服。

想怎么跳這么跳,想穿什么穿什么。


人體圖像合成包括人體動作模仿、外觀遷移和新視圖合成,它們在重演、角色動畫、虛擬試裝、電影以及游戲制作等領域具有巨大的應用潛力。

現有的針對特定任務的方法主要利用 2D 關鍵點(姿態)來估計人體結構。但是,這些方法只能表達位置信息,既無法表征個人的個性化姿態,也不能對四肢旋轉進行建模。

具體來說,現有的人體圖像合成方法在以下三個方面遇到了挑戰:1)衣服在紋理、風格、顏色和深層人臉識別等方面呈現出多樣性,所以在網絡架構中很難進行捕捉和保留;2)以關節相連以及可變形的人體導致任意姿態操縱出現較大的空間分布和幾何變化;3)無法處理多源輸入,例如在外觀遷移過程中,不同的身體部位可能來自不同的源人物。

針對現有方法的局限性,在這篇論文中,研究者通過一個統一的框架實現了人體動作模仿、外觀遷移和新視圖合成,這意味著訓練過的模型可用來執行這三項任務。他們提出利用 3D 人體網格復原模塊來分離人體姿態和外形,這樣不僅可以對人體銜接位置和旋轉進行建模,而且可以表征個性化的人體形態(體型)。為了保留紋理、風格、顏色和身份等源信息,研究者提出了一個具有 Liquid Warping Block(LWB)的 Liquid Warping GAN,它能夠在圖像和特征空間中傳播源信息,并且可以合成類似于參照人物的圖像。

具體來說,研究者通過對卷積自編碼器去噪,從而提取源特征,實現對源身份較好地表征。他們提出的 Liquid Warping GAN 還可以支持來自多源的更靈活的 warping。此外,研究者還構建了一個名為 Impersonator(iPER)的新數據集,用于人體動作模仿、外觀遷移和新視圖合成的評估。

大量的實驗結果表明,Liquid Warping GAN 實現了在遮擋情況下的魯棒性、人臉的保真性、外形的連貫性和衣服的細節。

Liquid Swarping GAN 的實現效果

那么,Liquid Swarping GAN 的實現效果是怎樣的呢?

  • 如下圖 1 上所示,在人體動態模仿過程中,首先給定源人物圖像和參照人物姿態,然后生成集合源人物和參照人物姿態的合成圖像;

  • 如圖 1 中所示,在新視圖合成過程中,首先給定人體的源圖像,然后生成該人體不同角度的合成圖像;

  • 如圖 1 下所示,在外觀遷移過程中,首先給定源人物圖像和穿著不同衣服的參照人物圖像,然后生成源人物穿著參照人物衣服的合成圖像。

Liquid Swarping GAN 在人體動作模仿、外觀遷移和新視圖合成三項任務上的實現效果展示。

那么,Liquid Swarping GAN 具體是如何保留衣服細節和人臉身份等源信息的呢?

研究者提出利用 Liquid Warping Block 來從以下三個方面解決源信息損失問題:

  • 對卷積自編碼器進行去噪處理,用于提取源信息中紋理、顏色、風格和人臉身份等有用特征;

  • 通過 Liquid Warping Block 將局部源特征混合到全局特征流(global feature stream),以進一步保留源人物細節;

  • Liquid Warping Block 支持多源 warping,比如在外觀遷移過程中,分別提取源人物的頭部特征以及參照人物的身體特征,將它們聚合成全局特征流,生成一個新的合成圖像。

  • 此外,現有的方法主要依賴 2D 姿態、密集姿態和人體分解。這些方法只關注人體布局位置,而忽略了個性化的外形和四肢(關節)旋轉,這些在人體圖像合成中更加重要。如下圖 6 底部圖片所示,在高個子模仿低個子動作的特殊情況下,使用 2D 骨架、密集姿態和人體分解狀況將不可避免地改變高個子的身高和尺寸。所以,為了克服這些缺點,研究者使用了一個參數統計人體模型 SMPL,該模型可以將人體分解為姿態(關節旋轉)和外形,并輸出 3D 網格(去除衣服),而不是人體關節和部位的布局。此外,通過匹配兩個 3D 三角網格的對應關系,轉換流(transformation flows)可以輕松地計算出來,并且較以前的關鍵點擬合防射矩陣更準確,誤差也更小。

    基于 SMPL 模型和 Liquid Warping Block,研究者提出的 Liquid Warping GAN 還可以擴展到其他任務中。

    Liquid Warping GAN 詳解

    論文中提到的 Liquid Warping GAN 包含三個步驟:身體網格復原(body mesh recovery)、流組成(flow composition)和帶有 Liquid Warping Block 的 GAN 模塊。不同任務的訓練 pipeline 是相同的,在一個任務上訓練的模型也可以用在其他任務中。研究者以動作模仿為例,其訓練流程如下圖 3 所示:

    圖 3:Liquid Warping GAN 訓練流程。

    Liquid Warping GAN 階段在所需條件下合成高保真人體圖像:1)合成背景圖像;2)基于可見部分預測不可見部分的顏色;3)通過對 SMPL 的重構生成衣服、頭發及其他部分的像素。

    生成器

    Liquip Warping GAN 的生成器有三個流:一個是 G_BG,用于將 masked 背景圖像 I_bg 和 4 個顏色通道中 C_s 二值化得到的掩碼拼接起來,以生成逼真的背景圖像,如上圖 3 最上方所示。


    其他兩個流分別是源身份流 G_SID 和遷移流 G_TSF。前者是一個去噪卷積自編碼器,旨在引導編碼器提取出能夠保留源信息的特征。它與?一起,將 masked 源前景(foreground)I_ft 和對應圖 C_s(總共 6 個通道)作為輸入,并重建源前景圖。

    G_TSF 流用來合成最終結果,它通過雙線性采樣器和對應圖 C_t(共 6 個通道)接收扭曲的前景。為了保留紋理、風格、顏色等源信息,研究者提出了一個新的 Liquid Warping Block(LWB),將源流和目標流連接起來。它將來自 G_SID 的源特征融合到遷移流 G_TSF 中,如上圖 3c 的第三行所示。

    Liquid Warping Block 的優勢之一是它可以應用于多個源,如人體外觀遷移,保留源人物 1 的頭部,同時又能穿上源人物 2 的上衣以及源人物 3 的褲子。特征的不同部分則分別通過它們各自的轉換流聚合到 G_TSF 中。此處以兩個源為例,如下圖 4 所示:

    圖 4:Liquid Warping Block 示意圖。(a)LWB 結構;(b)LWB 架構。

    G_BG、G_SID 和 G_TSF 擁有相似的架構,即 ResUnet,由 ResNet 和 UNet 組合而成,但沒有共享參數。對于 G_BG,研究者直接復原了最后的背景圖像;而對于 G_SID 和 G_TSF,研究者生成了一個注意力圖 A 和顏色圖 P,如圖 3c 所示。最后的圖像可以通過以下公式得到:

    鑒別器

    Liquid Warping GAN 中的鑒別器采用了 Pix2Pix 的架構。詳情可以參見論文補充材料。

    實驗

    為了評估 Liquid Swarping GAN 在人體動作模仿、外觀遷移和新視圖合成三項任務上的效果,研究者構建了一個包含不同風格衣服的 iPER 數據集。該數據集中共有 30 名不同外形、身高和性別的受試者。每位受試者身著不同的衣服,并演示 A 字形姿態以及其他隨機動作。

    與其他方法的比較

    研究者對 Liquid Swarping GAN 和 PG2、DSC 和 SHUP 等現有方法的實現效果進行了比較。他們在 iPER 數據集上訓練這些方法,并應用到了 SSIM、LPIPS、IS 和 FReID 四種指標。具體結果如下表 1 所示:

    表 1:在 iPER 數據集上不同方法的人體動作模仿結果,↑表示數值越大效果越好,↓表示數值越小效果越好。此外,SSIM 數值越大并不代表圖像質量越高。

    由此可見,Liquid Swarping GAN 優于 PG2、DSC 和 SHUP 等其他人體圖像合成方法。此外,在下圖 6 中,研究者還對生成圖像進行分析,并對比了自身方法和其他方法的最終合成效果。

    圖 6:在 iPER 數據集上對比 Liquid Swarping GAN 和其他動作模仿方法。由最終效果圖(紅色和藍色邊框)可見,PG2、DSC 和 SHUP 等 2D 姿態導向方法無法保留源圖像的衣服細節、清晰人臉和外形連貫性。

    如下圖 7 所示,Liquid Swarping GAN 還可以在交叉模仿設置下生成高保真圖像。

    圖 7:在 iPER 數據集上利用 Liquid Swarping GAN 的人體動作模仿示例。Liquid Swarping GAN 可以生成保留源人臉身份、外形連貫性和衣服細節的高保真圖像,源圖像有遮擋也不影響合成效果。

    人體外觀遷移效果

    值得強調的是,訓練過的模型可以直接應用到人體動作模仿、外觀遷移和新視圖合成三項任務中。下圖 8 是研究者隨機挑選的一些示例。

    圖 8. 在 iPER 測試集中人類外觀遷移方法的示例。新的方法可以生成具有高保真度的圖像,其保持了源圖像中面部和身體的一些特征,并遷移到參考圖像中新衣著上形成了逼真的細節。

    新視圖合成的效果

    研究人員從 iPER 的測試集中隨機抽取圖片,并將視圖從 30°調整為 330°,其結果如下圖所示:

    圖 9. 使用新方法在 iPER 數據集上和成全新視圖的示例。新的方法可以在不同攝像機視角下實現逼真的結果,而且即使在有自我遮擋的情況下(如手和腿),也可以保留源信息。

    想脫單,找灣區人工智能

    長按掃碼撩海歸

    覺得不錯, 請隨意轉發,麻煩點個在看!

    總結

    以上是生活随笔為你收集整理的人工智能用你的照片合成舞蹈的全部內容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。