當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

ReenactGAN: Learning to Reenact Faces via Boundary Transfer 论文翻译

發布時間：2023/12/20 编程问答 46 豆豆

生活随笔收集整理的這篇文章主要介紹了 ReenactGAN: Learning to Reenact Faces via Boundary Transfer 论文翻译小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

隨便發的

有些機翻有些地方加入了自己的理解（少）

ReenactGAN: Learning to Reenact Faces via Boundary Transfer Abstract：
我們提出了一種新穎的基于學習的面部重現框架。該提議的方法稱為ReenactGAN，它能夠將面部運動和表情從任意人的單眼視頻輸入傳輸到目標人的視頻。與其在像素空間中執行直接轉移（這可能會導致結構偽影），我們首先將源面映射到邊界潛在空間上。隨后使用transformer將源面的邊界調整為目標面的邊界。最后，使用特定于目標的decoder生成重新制定的目標面孔。由于有效和可靠的基于邊界的傳輸，我們的方法可以執行逼真的面部重現。此外，ReenactGAN的吸引力在于，整個重新制定過程都是純前饋，因此重新制定過程可以實時運行（一個GTX 1080 GPU上為30 FPS）。
數據集和模型已經開源：[https://wywu.github.io/projects/ReenactGAN/ReenactGAN.html]

Introduction：
面部重現旨在將一個人的面部表情和動作轉移到另一目標人的面部。真實的、逼真的面部重現可以找到廣泛的應用，包括電影制作，視頻會議和增強現實（例如虛擬YouTuber）。近年來，由于RGB-D和RGB相機上越來越精確，可靠的3D面部模型擬合和界標檢測技術，提出了許多令人印象深刻的面部重現方法。大多數現有方法將人臉表示為參數已經預定義好的3D模型。這些方法通常涉及跟蹤和優化，將源視頻放入一組具有限制的面部姿態和表情參數空間，然后呈現經過處理的目標輸出。一般來說，基于優化的方法可以更好地處理背景區域，而基于前饋的方法只能支持人臉周圍的像素生成。盡管如此，預定義的參數3D模型幾乎無法捕獲人臉的所有細微運動。此外，這些工作需要大量的努力和復雜的參數擬合的精細設計。考慮到這些方法的算法復雜性，很少有開源的。
生成式對抗網絡(GAN)方法的出現，如Pix2Pix和CycleGAN，為面部重現提供了一種吸引人且簡潔的選擇。然而，盡管GAN在許多圖像到圖像的轉換應用中取得了成功，但訓練一種純粹的基于學習的面部重現方法并非易事:
(1)面部圖像是在非常不同的姿態、表情和光照條件下捕捉的。因此，學習基于有限樣本但涵蓋所有方差的直接面對面的映射是困難的。傳統的最先進的GAN，如CycleGAN，在極端條件下會產生非自然的圖像，如較大的姿態，或在未看到的圖像上失敗，如圖1所示。
(2)沒有兩兩配對的數據，對于任意一組源視頻和目標視頻，我們很難匹配不同的表達式。
(3)我們希望執行多對一的映射，即，只用一個給定的源面模型來重新設定一個特定的目標。這個場景違反了CycleGAN的假設，因為不存在逆映射(一對多)。
ReenactGAN能夠通過從任意一個人的視頻中傳輸動作和面部表情來操縱視頻中的目標人臉。與CycleGAN[57]不同，ReenactGAN可以輕松地支持面部大動作的重現。如最后三列所示，CycleGAN不可能傳輸不可見的數據。

為了解決前兩個挑戰，我們需要定義一個空間或媒介，允許一個有效和強大的面部運動和表情的轉移。受之前面部模型擬合方法的啟發，我們提出使用面部輪廓或邊界作為緊湊的媒介來捕捉面部幾何變異。具體地說，我們將一個源面映射到一個潛在的邊界空間，我們希望這個邊界空間能夠忠實地保留面部運動和表情。然后我們調整空間，以適應特定的目標人物和解碼的外觀。
將面部邊界作為潛在空間引入，有利于面部重現。首先，人臉圖像與人臉邊界空間的映射關系到人臉對齊問題。由于采用了現代的人臉標志檢測方法，在較大的姿態、多樣的表情和極端的光照條件下，可以準確、穩健地獲取人臉邊界。這是直接基于原始像素的映射所沒有的獨特優勢。其次，簡化了用非配對數據傳遞不同表達式的過程。大規模人臉對準訓練集的可用性提供了高質量的成對訓練數據，這些訓練數據包括人臉圖像和相應的邊界。無配對數據的學習只發生在定義好的邊界空間，同時輸入人臉編碼和目標人臉解碼過程可以充分利用成對人臉對齊數據的功能。（借用大規模數據集提升模型對人臉圖像及其邊界的檢測能力）？
我們最后的挑戰是解決多對一的映射問題。為了解決這一問題，我們設計了一個基于GAN-based的Transformer，使輸入的面部的邊界空間與目標的面部相適應。為了保證轉換的質量，我們在PCA空間中使用循環損失、對抗性損失和形狀損失來約束過程。使用特定于目標的Transformer，我們可以根據來自任意來源的圖像或視頻重新生成目標面部。總的來說,提出ReenactGAN取決于三個組件:
(1)編碼器編碼輸入的臉變成一個潛在的邊界空間
(2)特定于目標的Transformer，使任意源邊界空間適應于特定目標的邊界空間
(3)目標特定解碼器，將潛在空間解碼到目標面部。
ReenactGAN易于重新實現和分發，因為框架中的每個組件都是一個前饋網絡，唯一的培訓材料是源目標視頻和面部對準訓練集。

我們的貢獻總結如下:
-我們引入了面部重現的“邊界潛空間”概念。我們發現，面部邊界擁有足夠的幾何信息，可以用豐富的表情重現一張臉，但與直接用原始像素映射相比，它相對“身份不可知”。重要的是，邊界空間對于具有挑戰性的姿勢、表情和照明條件更加健壯。

-基于邊界潛在空間的概念，我們提出了一種新的基于學習的人臉再現框架。所有組件都是前饋的。與傳統的基于模型的方法相比，ReenactGAN更易于訓練和實現。

-我們向空間中引入特定于目標的Transformer，以實現多對一的面部重現，否則，使用傳統的基于GAN的圖像到圖像的傳輸方法是不可能實現的。
Related Work：
Face Reenactment: 大多數現有的研究可以歸類為“基于模型”的方法。這些方法通常包括三個步驟:
(1)人臉捕捉，例如跟蹤人臉模板，使用光流作為外觀和速度測量來匹配數據庫中的人臉，或者使用RGB或RGB- d相機來捕捉人臉運動。近年來，人臉標記檢測技術的發展使得我們能夠有效地跟蹤輸入的面部成分，如眼睛和嘴巴。
(2)一旦捕捉到面部運動，許多研究將隨后在參數空間或模型中擬合該運動，包括頭部姿態、眼睛注視、或3D模型基上的PCA系數，甚至詳細的3D人臉網格。
(3)模型擬合完成后，下一步是重新渲染一個新的視頻。Garrido等人直接從目標視頻中獲取與源視頻相似的姿態，并通過變形渲染新視頻。采用相似的策略優化內口生成過程。基于檢索的方法具有較低的計算效率。
最近，CycleGAN為face reenactment提供了一個新的可行的解決方案。據我們所知，盡管文獻中沒有發表過經過同行評審的論文，但在社區中發布或展示了一些有趣的工作。與CycleGAN只能處理一個源人員和一個目標不同，我們的框架旨在解決更困難的多對一問題，這允許更多的實際應用。
Generative Adversarial Network (GAN) and CycleGAN: 生成式對抗網絡(GAN)已被廣泛應用于包括人臉圖像在內的圖像生成領域。通過采用對抗性損失，可以將低維噪聲向量輸入、時尚設計編碼、不真實的面部圖像或文本描述映射到真實的圖像。Zhu等人的研究表明，通過加入一個循環一致性損失，CycleGAN在學習兩個域之間的轉換函數方面取得了令人印象深刻的結果。最近，Mueller等人利用幾何一致性損失來保持基于CycleGAN的手部姿勢。我們的方法不同于直接在幾何潛在空間上進行圖像到圖像的平移，而不是添加一個輔助的幾何約束。Xu等人應用CycleGAN來研究特定的一對人之間的轉換。他們在不同的面部成分上添加了特定的鑒別器，以提高每個局部的表現。與此相反，ReenactGAN首先將所有面孔映射到一個邊界潛在空間中，然后將其解碼到每個特定的人。利用所提出的特定于目標的Transformer，每個解碼器可以根據所適應的邊界空間將任意的人重新設定為特定的目標，從而高效、方便地實現多對一的重新設定。引入邊界空間也提高了面部動作的一致性和極端姿態的魯棒性。

Face Reenactment via Boundary Transfer：

ReenactGAN的框架:有三個主要組件，它們都是前饋網絡。在測試階段,一個Encoder φ編碼圖像x到邊界空間b。Transformer ρ適應任意的邊界到目標。一個解碼器ψ解碼適應邊界ρ(b)到目標的臉t。

提出的框架ReenactGAN如圖2所示。ReenactGAN可以分為三個組件:邊界encoder、特定于目標的多對一Transformer和特定于目標的decoder。每個組件都是一個前饋網絡。在測試階段，將向前通過每個組件傳遞一個查詢面。本節其余內容組織如下:3.1節給出編碼器、解碼器和聯合重建損耗;第3.2節描述了邊界層潛伏層;

3.3節解釋了特定于目標的多對一Transformer的詳細信息。(數學公式有空更新)
3.1 Encoder and Decoder
3.2 Boundary Latent Space
3.3 Boundary Transformer

Experiments：
我們從兩個方面對面部重現進行了評估:
(1)圖像質量——在第4.1節中展示了定性結果之后，我們在第4.2節中報告了一個用戶研究。
(2)面部動作一致性——為了測量生成的輸出是否正確捕獲了輸入面部的表情，我們比較了4.3節中面部動作單元的響應。第4.4節最后對Transformer的損耗進行了ablation研究。

總結

以上是生活随笔為你收集整理的ReenactGAN: Learning to Reenact Faces via Boundary Transfer 论文翻译的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。