日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Write-a-speaker: Text-based Emotional and Rhythmic Talking-head Generation(译文)

發布時間:2024/3/26 编程问答 47 豆豆
生活随笔 收集整理的這篇文章主要介紹了 Write-a-speaker: Text-based Emotional and Rhythmic Talking-head Generation(译文) 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

Write-a-speaker: Text-based Emotional and Rhythmic Talking-head Generation

寫一個演講者:基于文本的情緒化和有節奏的談話頭生成

鏈接

Arxiv:https://arxiv.org/abs/2104.07995
Video:https://www.youtube.com/watch?v=weHA6LHv-Ew

摘要

在本文中,我們提出了一種新的基于文本的說話人頭部視頻生成框架,該框架綜合了高保真的面部表情和頭部運動,并與文本情感、語音節奏和停頓相一致。具體來說,我們的框架包括一個獨立于說話人的階段和一個特定于說話人的階段。在與說話人無關的階段,我們設計了三個并行網絡,分別從文本中生成嘴巴、上臉和頭部的動畫參數。在特定說話人階段,我們提出了一個3D人臉模型引導的注意網絡來合成針對不同個體的視頻。它將動畫參數作為輸入,并利用注意遮罩操縱輸入個體的面部表情變化。此外,為了更好地在視覺運動(即面部表情變化和頭部移動)和音頻之間建立真實的對應關系,我們利用高精度的運動帽數據集,而不是依賴特定個體的長視頻。在獲得視覺和音頻通信后,我們可以以端到端的方式有效地訓練我們的網絡。對定性和定量結果的大量實驗表明,我們的算法實現了高質量的照片真實感對話頭部視頻,包括根據語音節奏進行的各種面部表情和頭部運動,并超過了最先進的水平。

1. 介紹

Talking head合成技術旨在從輸入語音中生成具有真實面部動畫的特定說話人的對話視頻。輸出的說話人頭部視頻已被應用于許多應用,如智能輔助、人機交互、虛擬現實和計算機游戲。由于其廣泛的應用,說話人頭部合成引起了廣泛的關注。

以前的許多以音頻為輸入的作品主要關注面部下部(如嘴巴)的同步,但往往忽略頭部和面部上部(如眼睛和眉毛)的動畫。然而,整體面部表情和頭部運動也被視為傳遞交流信息的關鍵因素(Ekman 1997)。例如,人類無意識地使用面部表情和頭部動作來表達自己的情緒。因此,生成完整的面部表情和頭部動作將導致更具說服力的人物談話視頻。

此外,由于不同個體之間的音色差異可能導致測試話語中的聲學特征超出訓練聲學特征的分布范圍,因此建立在音頻和視覺模式之間直接關聯基礎上的現有技術也可能無法推廣到新說話者的音頻(Chou等人,2018)。因此,基于聲學特征的框架不能很好地處理來自不同音色的人的現場演講或合成演講(Sadoughi和Busso,2016)。

與以前的作品不同,我們采用時間對齊的文本(即,帶有對齊音素時間戳的文本)作為輸入特征,而不是聲學特征,以緩解音色差距問題。一般來說,時間對齊的文本可以通過語音識別工具從音頻中提取,或者通過文本到語音工具生成。由于口語腳本對不同的人是不變的,因此我們基于文本的框架能夠針對不同的說話人實現健壯的性能。

本文提出了一種新的基于語音腳本生成整體面部表情和相應頭部動畫的框架。我們的框架由兩個階段組成,即說話人無關階段和說話人特定階段。在與說話人無關的階段,我們的網絡作品旨在捕捉文本和視覺外觀之間的一般關系。與以前的方法(Suwajanakorn、Seitz和Kemelmacher-Shlizerman 2017;Taylor等人2017;Fried等人2019)不同,我們的方法僅合成和混合口腔區域像素,我們的方法旨在產生整體面部表情變化和頭部運動。因此,我們設計了三個網絡,分別將輸入文本映射為嘴巴、上臉和頭部姿勢的動畫參數。此外,我們使用一個運動帽系統來構建高質量面部表情以及頭部運動和音頻之間的對應關系,作為我們的訓練數據。因此,我們收集的數據可以用于有效地訓練我們的非特定人網絡,而不需要特定人的長時間談話視頻。

由于與說話人無關的網絡輸出的動畫參數是通用的,因此我們需要根據特定的輸入說話人定制動畫參數,以獲得令人信服的生成視頻。在特定說話人階段,我們將動畫參數作為輸入,然后利用它們來裝配給定說話人的面部標志。此外,我們還開發了一個自適應注意網絡,使被操縱的地標適應特定人的說話特征。在這樣做的過程中,我們只需要新發言人的參考視頻(約5分鐘),而不是以前方法通常要求的超過一小時的特定發言人視頻(Suwajanakorn、Seitz和Kemelmacher Shlizerman 2017;Fried等人,2019)。

總的來說,我們的方法從目標表演者的簡短參考視頻中生成照片逼真的說話頭部視頻。生成的視頻還提供了前體的豐富細節,如逼真的衣服、頭發和面部表情

2. 相關工作

2.1 人臉動畫合成

面部動畫合成預先定義3D面部模型并生成動畫參數以控制面部變化。LSTM(Hochreiter和Schmidhuber,1997)廣泛用于序列建模的人臉動畫合成。一些作品采用BiLSTM(Pham、Cheung和Pavlovic 2017)、CNN-LSTM(Pham、Wang和Pavlovic 2017)或精心設計的LSTM(Zhou等人,2018)和回歸損失、GAN損失(Sadougi和Busso 2019)或多任務訓練策略(Sadougi和Busso 2017)來合成完整的面部/口腔動畫。然而,由于順序計算,LSTM的工作速度往往較慢。CNN被證明具有處理順序數據的類似能力(Bai、Kolter和Koltun,2018年)。一些作品利用CNN從聲學特征(Karras et al.2017;Cudeiro et al.2019)或時間對齊音素(Taylor et al.2017)中模仿嘴巴或臉部。頭部動畫合成側重于從輸入語音合成頭部姿勢。一些作品使用BiLSTM(丁、朱和謝,2015;Green-wood、Matthews和Laycock,2018)或trans-former編碼器(Vaswani等人,2017)直接回歸頭部姿勢。更準確地說,由言語產生的頭部姿勢是一對多映射,Sadoughi和Busso(2018)采用了GAN(Goodfelle等人,2014;Mirza and Osindero 2014; Yu et al. 2019b,a) 保持多樣性。

2.2 人臉視頻生成

音頻驅動。音頻驅動的人臉視頻合成直接從輸入音頻生成2D對話視頻。之前的作品(Vougioukas、Petridis和Pantic 2019;Chen等人2018;Zhou等人2019;Wiles、Sophia和Zisserman 2018;Pra-jwal等人2020)利用兩個子模塊計算目標揚聲器的人臉嵌入特征和音頻嵌入特征,然后將其作為輸入融合到一個會說話的人臉生成器。另一組作品將幾何體生成和外觀生成分離為兩個階段。視覺測量生成階段推斷出合適的面部標志,并將其作為外觀生成階段的輸入。使用特定說話人模型(Suwa-janakorn、Seitz和Kemelmacher-Shlizerman 2017;Das等人2020;Zhou等人2020)或線性主成分(Chen等人2019、2020)推斷地標。Thies等人(2020年)生成3D可變形模型(3DMM)的表達式系數,然后使用神經渲染器生成照片真實感圖像。Fried等人(2019年)通過搜索和混合參考視頻的現有表達式來推斷表達式參數,然后使用遞歸神經網絡生成修改后的視頻。雖然他們的方法也以文本作為輸入,但由于viseme搜索,生成新句子的效率很低(10min-2h)。此外,兩部作品都未能控制上臉和頭部姿勢,以匹配語音節奏和情感。

視頻驅動。視頻驅動的方法將一個人的表情傳遞給另一個人。一些作品(Ha等人,2020年;Zeng等人,2020年;Song等人,2019年;Siarohin等人,2019年)將單個圖像作為身份輸入。其他作品采用視頻(Thies等人,2015年、2018年)作為身份輸入,以提高視覺質量。Thies等人(2016年)重建并渲染網格模型并填充內嘴作為輸出,重建的面部紋理在說話時保持不變。一些作品使用GAN直接生成2D圖像,而不是3D渲染(Nirkin、Keller和Hassner 2019;Zakharov等人2019;Wu等人2018;Thies、Zollh?ofer和Nie?ner 2019)。Kim等人(2019年)基于對兩位說話者未配對數據的順序學習,保留口腔運動風格。或者,我們的工作生成成對的口腔表達數據,使風格學習更容易。Kim等人(2018年)還使用3DMM渲染幾何體信息。我們的方法不是轉移現有表達式,而是從文本生成新表達式。此外,我們的方法保留了說話人的嘴運動風格,并設計了一個自適應注意網絡,以獲得更高的圖像分辨率和更好的視覺質量

3. 基于文本的說話人生成



圖2:我們方法的管道。與說話人無關的階段將時間對齊的文本作為輸入,并生成頭部姿勢、上臉和嘴形狀動畫參數。然后,特定于說話人的舞臺根據動畫參數生成合成的說話人頭部視頻。



圖3:Mocap數據集的集合。錄音是由一位戴著頭盔的職業女演員進行的。頭盔上的標記提供頭部姿勢的信息。頭盔上的紅外攝像機記錄精確的面部表情。


我們的框架將時間對齊的文本作為輸入,并輸出照片逼真的對話頭視頻。它可以推廣到一個特定的演講者,他/她有大約5分鐘的談話視頻(參考視頻)。圖2展示了我們框架的管道。Gmou?,Gupp?G^{\text {mou }},G^{\text {upp }}Gmou?,Gupp?Ghed?G^{\text {hed }}Ghed? 以時間對齊的文本作為輸入,分別生成與說話人無關的口腔動畫參數,正臉及頭部姿態。他們沒有從參考視頻中學習,而是利用Mocap數據集獲得更高的準確性。由于幾何推斷中的一個小錯誤可能會導致外觀推斷中的明顯偽影,我們引入了一個3D人臉模塊 GldmkG^{ldmk}Gldmk 來合并頭部和面部表情參數,并將其轉換為特定于說話人的面部關鍵點序列。最后,GvidG^{vid}Gvid 通過渲染頭發、面部、上身和背景的紋理,根據人臉關鍵點序列合成特定于說話人的說話人頭部視頻。

3.1 Mocap數據集

為了獲得高保真的完整面部表情和頭部姿勢,我們根據圖3所示的運動捕捉(Mocap)系統1記錄一個視聽數據集。收集的數據包含mouth參數序列 mmou?={mtmou?}t=1Tm^{\text {mou }}=\left\{m_{t}^{\text {mou }}\right\}_{t=1}^{T}mmou?={mtmou??}t=1T? ,其中 mtmou?∈R28m_{t}^{\text {mou }} \in \mathbb{R}^{28}mtmou??R28 ,上表面參數序列 mupp={mtupp}t=1Tm^{u p p}=\left\{m_{t}^{u p p}\right\}_{t=1}^{T}mupp={mtupp?}t=1T? ,其中 mtupp∈R23m_{t}^{u p p} \in \mathbb{R}^{23}mtupp?R23 和頭部姿勢參數序列 mhed?={mthed?}t=1Tm^{\text {hed }}=\left\{m_{t}^{\text {hed }}\right\}_{t=1}^{T}mhed?={mthed??}t=1T? ,其中 mthed?∈R6m_{t}^{\text {hed }} \in \mathbb{R}^{6}mthed??R6TTT 是一段話語中的幀長度。 mmou?m^{\text {mou }}mmou?mupp?m^{\text {upp }}mupp? 根據面移定義定義為混合形狀權重。每個混合形狀代表面部運動的某一部分,例如眼睛睜開,嘴巴向左。我們用英語記錄了一位職業女演員的865次情感話語(203驚訝,273憤怒,255中立和134高興),每次持續時間為3到6秒。時間對齊分析器用于計算音頻中每個音素和每個單詞的持續時間。根據對齊結果,我們將單詞序列和音素序列分別表示為 w={wt}t=1Tw=\left\{w_{t}\right\}_{t=1}^{T}w={wt?}t=1T?ph={pht}t=1Tp h=\left\{p h_{t}\right\}_{t=1}^{T}ph={pht?}t=1T? ,其中 wtw_{t}wt?phtp h_{t}pht? 是在第T幀發出的單詞和音素。通過這種方式,我們構建了一個高保真的Mocap數據集, 包括mmou,mupp,mhed,wm^{m o u}, m^{u p p}, m^{h e d}, wmmou,mupp,mhed,wphp hph,然后用于訓練與說話人無關的生成器。另一個中文數據集(925個3到6秒的話語)也同樣建立起來。這兩個數據集都是為研究目的發布的。

3.2 嘴動畫生成器



圖4:嘴巴動畫生成器


由于口腔動畫主要用于發聲音素而不是語義結構,GmouG^{mou}Gmou 學習從 phphphmmoum^{mou}mmou 的映射,忽略 www ,如圖4所示。第一步是將 phphph 從音素空間轉換成更靈活的空間中的嵌入向量 EphE^{ph}Eph。我們構建了一個可訓練的查找表(Tang等人,2014年) VphV^{ph}Vph 以滿足目標,該表是在訓練階段隨機初始化和更新的。然后,疊加的Res1D層接收 EphE^{ph}Eph 作為輸入,并根據共同發音效應輸出合成嘴參數序列 m^mou{\hat{m}^{mou}}m^mou。為了便于并行計算,我們設計了基于CNN而非LSTM的結構。

我們將L1損失和LSGAN損失(Mao等人,2017年)用于訓練 GmouG^{mou}Gmou。L1損失寫為:

L1mou?=1T∑i=1T(∥mimou??m^imou?∥1)L_{1}^{\text {mou }}=\frac{1}{T} \sum_{i=1}^{T}\left(\left\|m_{i}^{\text {mou }}-\hat{m}_{i}^{\text {mou }}\right\|_{1}\right) L1mou??=T1?i=1T?(mimou???m^imou??1?)

這里 mimoum_{i}^{m o u}mimou?m^imou\hat{m}_{i}^{m o u}m^imou?分別是第 iii 幀的實向量和生成向量。對抗性損失表示為:

Ladvmou=arg?min?Gmoumax?Dmou?LGAN(Gmou?,Dmou?)L_{a d v}^{m o u}=\arg \min _{G^{m o u}} \max _{D^{\text {mou }}} L_{G A N}\left(G^{\text {mou }}, D^{\text {mou }}\right) Ladvmou?=argGmoumin?Dmou?max?LGAN?(Gmou?,Dmou?)

靈感來自于面片鑒別器的想法 (Isola et al. 2017), Dmou?D^{\text {mou }}Dmou? 應用于混合形狀的時間主干,它也由堆疊的 Res1D 層組成。目標函數寫為:
L(Gmou)=Ladvmou+λmouL1mouL\left(G^{m o u}\right)=L_{a d v}^{m o u}+\lambda_{m o u} L_{1}^{m o u} L(Gmou)=Ladvmou?+λmou?L1mou?

3.3 上臉/頭部姿勢生成器



圖 5:上面部表情生成器。


雖然嘴巴運動有助于語音協同發音,但上面部表情和頭部運動往往會傳達情緒、意圖和語音節奏。因此,GuppG^{upp}GuppGhedG^{hed}Ghed 旨在從 www 而不是 phphph 捕獲更長時間的依賴關系。它們共享相同的網絡并且與 GmouG^{mou}Gmou 的網絡不同,如圖 5 所示。與 VphV^{ph}Vph 類似,一個可訓練的查找表 VtxtV^{txt}Vtxtwww 映射到嵌入向量 EtxtE^{txt}Etxt。為了生成具有一致情感的 muppm^{upp}mupp,情感標簽(驚喜、憤怒、中性、幸福)要么由文本情感分類器檢測(Yang 等人,2019 年),要么明確分配給特定的情感類型。另一個可訓練的查找表 VemoV^{emo}Vemo 將情感標簽投影到嵌入向量 EemoE^{emo}EemoEtxtE^{txt}EtxtEemoE^{emo}Eemo 被饋送到編碼器-解碼器網絡以合成 muppm^{upp}mupp 。受益于大的感受野,編碼器-解碼器結構捕獲了單詞之間的長期依賴關系。

由于從文本合成 muppm^{upp}mupp 是一對多映射,L1 損失被 SSIM 損失取代(Wang 等人,2004 年)。 SSIM 模擬人類視覺感知,具有提取結構信息的優點。我們擴展 SSIM 以分別對每個參數執行,即 SSIM-Seq 損失,公式為

LSupp=1?123∑i=123(2μiμ^i+δ1)(2cov?i+δ2))(μi2+μ^i2+δ1)(σi2+σ^i2+δ2))L_{S}^{u p p}=1-\frac{1}{23} \sum_{i=1}^{23} \frac{\left.\left(2 \mu_{i} \hat{\mu}_{i}+\delta_{1}\right)\left(2 \operatorname{cov}_{i}+\delta_{2}\right)\right)}{\left.\left(\mu_{i}^{2}+\hat{\mu}_{i}^{2}+\delta_{1}\right)\left(\sigma_{i}^{2}+\hat{\sigma}_{i}^{2}+\delta_{2}\right)\right)} LSupp?=1?231?i=123?(μi2?+μ^?i2?+δ1?)(σi2?+σ^i2?+δ2?))(2μi?μ^?i?+δ1?)(2covi?+δ2?))?

μi/μ^i\mu_{i} / \hat{\mu}_{i}μi?/μ^?i?σi/σ^i\sigma_{i} / \hat{\sigma}_{i}σi?/σ^i? 表示實數/合成 mupp 第 iii 維的均值和標準差,cov?i\operatorname{cov}_{i}covi? 是協方差。δ1\delta_{1}δ1?δ2\delta_{2}δ2? 是兩個小常數。 GAN 損失表示為:

Ladv?upp?=arg?min?Guppmax?DuppLGAN(Gupp?,Dupp?)L_{\text {adv }}^{\text {upp }}=\arg \min _{G^{u p p}} \max _{D^{u p p}} L_{G A N}\left(G^{\text {upp }}, D^{\text {upp }}\right) Ladv?upp??=argGuppmin?Duppmax?LGAN?(Gupp?,Dupp?)

其中 DuppD^{u p p}DuppDmou?D^{\text {mou }}Dmou? 共享相同的結構。目標函數寫為:
L(Gupp)=Ladvupp+λuppLSuppL\left(G^{u p p}\right)=L_{a d v}^{u p p}+\lambda_{u p p} L_{S}^{u p p} L(Gupp)=Ladvupp?+λupp?LSupp?

Ghed?G^{\text {hed }}Ghed? 共享相同的網絡和損失,但忽略了 Vemo?V^{\text {emo }}Vemo? 來生成 mhed?m^{\text {hed }}mhed?,因為不同情緒下頭部姿勢的變化不如面部表情的變化顯著。

3.4 風格保留人臉關鍵點生成器

GldmkG^{ldmk}Gldmk 從參考視頻重建 3D 人臉,然后驅動它獲得說話人特定的地標圖像。多線性 3DMM U(s,e)U(s,e)U(s,e) 由形狀參數 s∈R60s \in \mathbb{R}^{60}sR60 和表達式參數 e∈R51e \in \mathbb{R}^{51}eR51 構成。線性形狀基礎取自 LSFM (Booth et al. 2018) 并按奇異值縮放。我們根據Mocap數據集的定義在LSFM上雕刻51個面部混合形狀作為表達基礎,使 eee(mtupp,mtmou)\left(m_{t}^{u p p}, m_{t}^{m o u}\right)(mtupp?,mtmou?) 一致。采用3DMM擬合方法來估計參考視頻的 sss 。之后,我們使用生成的 m^hed?,m^mou?\hat{m}^{\text {hed }}, \hat{m}^{\text {mou }}m^hed?,m^mou?m^upp\hat{m}^{u p p}m^upp 驅動特定于說話者的 3D 人臉以獲得關鍵點圖像序列。我們之前的實驗表明,從地標圖像生成的視頻和渲染的密集網格在視覺上是無關緊要的,因此我們選擇關鍵點圖像來減少渲染器。

此外,說話者可能會使用不同的嘴形來發音相同的單詞,例如有些人傾向于張大嘴巴,而人們對不匹配的風格很敏感。同時,通用 m^upp\hat{m}^{u p p}m^uppm^hed\hat{m}^{h e d}m^hed 在實踐中在不同的人之間工作得很好。因此,我們重新定位 m^mou\hat{m}^{m o u}m^mou 以保留說話者的風格,同時保持 m^upp\hat{m}^{u p p}m^uppm^hed\hat{m}^{h e d}m^hed 不變。一方面,我們從參考視頻中提取時間對齊的文本并使用 Gmou?G^{\text {mou }}Gmou? 生成 m^mou?\hat{m}^{\text {mou }}m^mou? 。另一方面,我們使用 3DMM 從參考視頻中估計個性化的 m?mou?\breve{m}^{\text {mou }}m?mou? 。通過這種方式,我們獲得了發音相同音素的成對嘴形。使用配對數據,可以輕松學習從 m^mou\hat{m}^{m o u}m^moum?mou\breve{m}^{m o u}m?mou 的樣式保留映射。具有 MSE 損失的兩層全連接網絡在我們的實驗中運行良好。我們使用映射的 m?mou?\breve{m}^{\text {mou }}m?mou? 來生成地標圖像。

3.5 逼真的視頻生成器



圖 6:逼真的視頻生成器。



圖 7:我們的照片級逼真視頻生成器的示例輸出。它表明自適應注意力掩碼能夠將嘴巴和眼睛區域與其他區域區分開來。


GvidG^{vid}Gvid 從地標圖像中逐幀生成說話頭視頻 {I^t}t=1T\left\{\hat{I}_{t}\right\}_{t=1}^{T}{I^t?}t=1T?I^t\hat{I}_{t}I^t? 它描繪了說話者的完整面部表情、頭發、頭部和上身姿勢,以及第 ttt 幀的背景。考慮到高時間相干性,我們通過在長度為 15 的時間滑動窗口中堆疊地標圖像來構建條件時空體積 VVV 作為 GvidG^{vid}Gvid 的輸入。

盡管典型的圖像合成網絡(Isola et al. 2017; Wang et al. 2018; Yu and Porikli 2016, 2017a,b)能夠產生合理的頭部圖像,但它們的輸出往往在高頻運動區域模糊,尤其是眼睛和嘴巴區域。可能的解釋是眼睛和嘴巴的運動與地標高度相關,而軀干姿勢和背景較少,因此將所有部分視為一個整體并不是最好的解決方案。受觀察的啟發,我們設計了一個自適應注意力結構。如圖 6 所示,GvidG^{vid}Gvid 由特征提取網絡 NfeatN^{feat}Nfeat 和自注意力渲染網絡 NrendN^{rend}Nrend 組成。為了從高分辨率地標圖像中提取特征, NfeatN^{feat}Nfeat 由兩個不同輸入尺度的路徑組成。兩條路徑的提取特征按元素相加。 NrendN^{rend}Nrend 根據潛在特征渲染會說話的頭部圖像。為了模擬身體部位的不同相關性,我們設計了三個并行子網絡的組合。 Nface?rend?N_{\text {face }}^{\text {rend }}Nface?rend?? 生成目標人臉 I^face?\hat{I}^{\text {face }}I^face?NclrrendN_{c l r}^{r e n d}Nclrrend? 預計會計算全局顏色圖 I^color?\hat{I}^{\text {color }}I^color? ,包括頭發、上身、背景等。 Nmask?rend?N_{\operatorname{mask}}^{\text {rend }}Nmaskrend?? 產生專注于高頻運動區域的自適應注意力融合掩碼 M。最終生成的圖像 由以下給出:

I^t=M?I^face?+(1?M)?I^color?\hat{I}_{t}=M * \hat{I}^{\text {face }}+(1-M) * \hat{I}^{\text {color }} I^t?=M?I^face?+(1?M)?I^color?

圖7詳細展示了我們的注意力掩碼。
我們遵循 pix2pixHD (Wang et al. 2018) 的鑒別器,由 3 個多尺度鑒別器D1vid?,D2vid?D_{1}^{\text {vid }}, D_{2}^{\text {vid }}D1vid??,D2vid??D3vidD_{3}^{v i d}D3vid? 組成。它們的輸入是 I^t/It\hat{I}_{t} / I_{t}I^t?/It?VVV ,其中 ItI_{t}It? 是真實的幀。對抗性損失定義為:

Ladvvid=min?Gvidmax?D1vid,D2vid,D3vid∑i=13LGAN(Gvid,Divid)L_{a d v}^{v i d}=\min _{G^{v i d}} \max _{D_{1}^{v i d}, D_{2}^{v i d}, D_{3}^{v i d}} \sum_{i=1}^{3} L_{G A N}\left(G^{v i d}, D_{i}^{v i d}\right) Ladvvid?=Gvidmin?D1vid?,D2vid?,D3vid?max?i=13?LGAN?(Gvid,Divid?)

為了捕捉精細的面部細節,我們采用了感知損失(Johnson、Alahi 和 Fei-Fei 2016),遵循 Yu 等人。 (2018):

Lperc?=∑i=1n1WiHiCi∥Fi(It)?Fi(I^t)∥1L_{\text {perc }}=\sum_{i=1}^{n} \frac{1}{W_{i} H_{i} C_{i}}\left\|F_{i}\left(I_{t}\right)-F_{i}\left(\hat{I}_{t}\right)\right\|_{1} Lperc??=i=1n?Wi?Hi?Ci?1??Fi?(It?)?Fi?(I^t?)?1?

其中 Fi∈RWi×Hi×CiF_{i} \in \mathbb{R}^{W_{i} \times H_{i} \times C_{i}}Fi?RWi?×Hi?×Ci? 是 VGG-19 第 i 層的特征圖(Simonyan and Zisserman 2014)。匹配低層和高層特征引導生成網絡學習細粒度細節和全局部分排列。此外,我們使用 L1L_{1}L1? 損失來監督生成的 I^face?\hat{I}_{\text {face }}I^face??I^t\hat{I}_{t}I^t?

L1img=∥It?I^t∥1,L1face=∥Itface?I^tface∥1L_{1}^{i m g}=\left\|I_{t}-\hat{I}_{t}\right\|_{1}, L_{1}^{f a c e}=\left\|I_{t}^{f a c e}-\hat{I}_{t}^{f a c e}\right\|_{1} L1img?=?It??I^t??1?,L1face?=?Itface??I^tface??1?

根據檢測到的地標(Baltrusaitis 等人,2018 年), Iface?I_{\text {face }}Iface?? 是從 ItI_{t}It? 中裁剪出來的。總損失定義為:

L(Gvid)=αLperc+βL1img+γL1face+LadvvidL\left(G^{v i d}\right)=\alpha L_{p e r c}+\beta L_{1}^{i m g}+\gamma L_{1}^{f a c e}+L_{a d v}^{v i d} L(Gvid)=αLperc?+βL1img?+γL1face?+Ladvvid?

4. 實驗及結果

我們在單個 GTX 2080Ti 上使用 PyTorch 實現系統。在 Mocap 數據集上訓練說話人獨立階段需要 3 小時。在 5 分鐘的參考視頻中,針對演講者特定階段的培訓需要一天時間。我們的方法以每秒 5 幀的速度生成 512 × 512 分辨率的視頻。更多的實現細節在補充材料中介紹。我們將所提出的方法與最先進的音頻/視頻驅動方法進行比較,并評估子模塊的有效性。視頻比較顯示在補充視頻中。

5. 局限性



圖 15:來自極端參數的失敗案例,包括 (a) 上面部表情; (b) 嘴巴表情; ? 頭部旋轉; (d) 頭部翻譯。


我們的工作有幾個局限性。所提出的方法利用了高質量的 Mocap 數據集。我們的方法僅限于產生說英語或中文的說話者,因為我們只捕獲了 Mocap 數據集與兩種語言。 Mocap 數據的數量也不足以捕獲更詳細的動作對應關系以及文本輸入的語義和句法結構。在不久的將來,我們將記錄更多語言的 Mocap 數據并發布用于研究目的。我們的渲染網絡無法處理動態背景和復雜的上身運動,例如聳肩、擺臂、駝背、極端頭部姿勢等。如果預期的表情或頭部運動超出參考視頻的范圍,則生成的視頻將退化。情緒對生成的嘴唇和頭部動畫的影響被忽略。圖 15 顯示了一些失敗案例。未來,我們將致力于解決上述問題。

6. 結論

本文提出了一個基于文本的談話頭視頻生成框架。合成的視頻顯示了情感完整的面部表情、有節奏的頭部運動、上半身運動和背景。生成框架可以適應新演講者的 5 分鐘參考視??頻。我們的方法通過一系列實驗進行評估,包括定性評估和定量評估。評估結果表明,我們的方法可以生成高質量的照片逼真的頭部談話視頻,并且優于最先進的方法。據我們所知,我們的工作是第一個從時間對齊的文本表示中制作帶有情緒面部表情和有節奏的頭部運動的完整頭部談話視頻。

總結

以上是生活随笔為你收集整理的Write-a-speaker: Text-based Emotional and Rhythmic Talking-head Generation(译文)的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。