當前位置：首頁 >

论文研读：Automatic Temporal Segment Detection and Affect Recognition From Face and Body Display

發布時間：2025/5/22 26 豆豆

生活随笔收集整理的這篇文章主要介紹了论文研读：Automatic Temporal Segment Detection and Affect Recognition From Face and Body Display 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

摘要：情感的呈現包含一系列的時域分割：開啟（onset）、峰值（apex）、結束（offset）。在過去15年中（論文發表于2009年），計算機界對情感識別進行了大量的研究，但是大多數方法都有兩點局限：1.從單一的模式進行表情識別。2.即便少數多模態的方法中，對于動態模式關注過少。本文主要研究基于臉部表情和肢體呈現的情感識別方法。提出了一種自動識別時域分割的方法，并基于時域分割的片段進行情感識別。實驗結果表明：1）基于情感的臉部特征和肢體呈現具有關聯性但并非完全同步。2）明確的檢測時域分割片段可以提升情感識別的準確率。3）通過表情和肢體呈現結合來識別情感的正確率高于單一模式。4）同步特征融合（feature-level）的性能優于決策融合（decision-level）

1.introduction

在情感識別領域，過去15年的研究局限于單一模式，少數研究著眼于多模態情感識別。由此衍生出一個新的研究領域：運用哪些模態來進行情感識別以及如何把它們結合起來（what modalities to use and how to combine them）。最初的方法是基于視覺和音頻數據，實驗結果也比較樂觀：多模態情感識別提升了準確率，使得系統更加有效和可靠。盡管學者Ambady和Rosenthal作的基礎研究表明：對人的行為的判別的重要線索大多來自于臉部表情和肢體動作。但是，只有在最近幾年計算機界才開始關注通過肢體語言來進行情感識別。

研究表明時序動態（temporal dynamics）對于情感識別至關重要。但是在為數不多的多模態情感識別系統中，尚無將面部表情和肢體語言結合的模型。本文主要創新在于：1）表情和肢體動作的時間分隔是完全自動的。2）設計了phase-synchronization scheme來應對表情和肢體動作相關但不完全同步的問題。
本文主要貢獻有6點：
1）雙模態方法
2）use of the first publicly available database to date to
combine affective face and body displays in a bimodal
manner
3）在基礎表情（生氣、失望、害怕、幸福、悲傷）的基礎上分析非基礎表情（anxiety,
boredom, uncertainty, puzzlement, and neutral/negative/
positive surpris）
4）檢測情感呈現的時間分隔，從空間擴大中分離時間動態，對數據。
5）對無用的時間分隔段進行了大量的全局實驗。
6）通過對比試驗，找到最佳融合。

2.背景及相關工作

A.背景

Ekman and Frisen的研究指出，人類的面部表情有六種基本形態：生氣、失望、害怕、幸福、悲傷、驚奇。但是情緒研究領域對這一說法持保留態度，關于這一點，心理學家并沒有統一的定論。許多學者基于六種基本形態的表情進行研究。

Russell認為每一種基本表情都是雙極性實體，極性包括arousal和valence。

通過肢體語言手勢來識別人類情感，這一方向目前在心理學和非語言溝通領域仍舊是有所保留。Coulson通過試驗總結出，通過姿勢識別情感和進過聲音來識別具有可比性。總體而言，肢體語言比表情更加豐富。尚有許多工作和研究需要做。Ambady and Rosenthal的研究表明通過結合表情加肢體語言來識別情感的準確率優于單一模式近35%。面部動作按照時間分割為四個階段：平靜（neutral）、開啟（onset）、apex（峰值）、offset（結束）。neutral是指沒有任何肌肉信號，面部放松。

onset是指面部肌肉被喚起，逐漸緊張并呈現出面部的改變。apex是面部表情的峰值。offset是面部肌肉又逐步放松。自然的面部表情呈現過程是：neutral ?→
onset ?→ apex ?→ offset → neutral 。同理，肢體語言的呈現也分為五個階段：preparation ?→ (prestroke) hold ?→
stroke ?→ (poststroke) hold ?→ retraction。目前在面部/肢體語言的onset-apex-offset的標記上是非常耗時的。

B.相關工作

這一部分總結了現有的多模態情感識別的方法，包括時域分割和結合臉部表情即肢體語言進行情感識別的方法。 1）單模態情感識別系統：目前為止，現有的大多數單模態的情感識別系統建立在識別基礎表情（例如happiness 和 anger）的照片識別系統。同樣也存在一些通過面部視頻來識別非基礎表情的系統，例如attentiveness、fatigue、pain。大多數面部識別系統都是依賴于posed data（posed：擺姿勢），只有最近出現了一些基于spontaneous facial expression data（自發性面部表情）的自動識別。研究顯示，在識別過程中temporal dynamics是至關重要的一步。據此，最近在情感識別領域的研究更加關注面部特征中的時空成分（spatio-temporal properties of

facial features ）和對通過隱式的合并動態特性（by implicitly incorporating the
dynamics）來對動態面部表情建模或動作單元（modeling dynamic facial expressions or AUs（action unit））。傳統的對AU的分析是基于獨立的對某一個AU或者AU的組合進行統計和分類，最近的研究則表明，探索AU的動態特征和語義關聯（semantic
relationships）有助于提升識別的性能。
有一部分研究著眼于用馬爾科夫鏈來探究時域分割或者面部表情，也有一些研究用支持向量機或者AdaBoost這樣的分類方法來研究面部AUs。處理時域分割有兩種方式，一種是將每一幀獨立的進行分類，還有一種方法是把一連串的幀看作是一個時間序列。基于此，本文分別參考了frame-based和sequence-based兩種分類方式。
對于情感狀態的識別，常用的技術是利用HMM及其變換。這一類模型同樣可以用于對時域分割的研究，鑒于我們可以證明情感狀態的HMM和情感的時域分割之間的HMM具有相關性。在臉部呈現的情景中，HMM的emissions（which are also known as observations
or measurements）主要是由一組基于臉部特征計算后的特征來表達。

2）單模態分析肢體語言：相較于面部表情方面的文獻，通過肢體語言識別情感的資料比較少。現有文獻的主要關注點是在基于posed肢體語言數據庫的分析。
Meservy的團隊關注在國家安全領域，通過一連串的肢體線索，識別行為是可信的（innocent）還是故意的（guilty）。在這個二類問題上，他們達到了71%的識別率。

3）多模態系統識別面部和肢體表達：這方面研究比較新。Balomenos et al采用了結合面部表情和手勢來識別六類基礎情感。他們在判別時，將兩個子系統的權重進行融合。他們的系統中，通過面部表情單模來識別情感的識別率達到了85%。通過手勢識別的正確率達到了94.3%。然而他們并沒有給出兩者結合之后的識別率也沒有對臉部和手勢的時域分割給出解決方案。Kapoor and Picard就兒童solving a puzzle中的興趣高，興趣低，和恢復精神三種狀態進行識別。他們結合了視頻、姿式傳感器（椅子上的傳感器）等多種信息傳感器以及游戲的概率框架。由高斯過程獲取的每個模式各自的分類結果從高到低為posture channel（82%）、upper face（67%）、game（57%）、lower face（53%）。融合后的最好識別率為87%。然而，Kapoor and Picard并不關注姿勢手勢這些肢體語言，也沒有給出時域分割的方法。
Karpouzis et al.試圖融合面部、肢體、和語音線索來識別情感。他們的報告給出了4類問題的精確度：67% (visual), 73% (prosody), and 82% (with all modalities
combined)。融合方法是基于幀的，這意味著視覺數據對于音頻信息重復出現。他們同樣沒有給出時域分割方法。
Hartmann et al.給出了產生手勢及面部表達的一些參數（generation of expressive gesturing for virtual agents）。實驗證明只有一部分參數和表達能夠被用戶識別。還需要更深入的研究這些參數。

與以上工作相比，本文：1）采用了手勢和肢體姿勢的更高維數據（use
a higher number of hand gestures and body postures）。2）除了六種基本情緒外，我們還分析了正向負向驚訝、焦慮、無聊、不確定和疑惑等這些情緒。3）詳細分析了情感/情緒狀態的時域分割（temporal segments），以及這項工作對整個識別的意義。4）我們創新的提出了同步性的概念以及一種通過選擇融合方法來獲取更高識別率的方法。

方法

在多模態識別系統中，特征和融合策略的選取取決于融合的自然模態。在待融合的模式之間或許存在某種固有的異步性。對于情感感知和識別，多模態融合旨在盡可能的整合所有的輸入成為用戶的一個單一的表情呈現。多模態數據的時域分析是建立在多模態特征之間的時域接近（time proximity）上的。由此，根據多模態之間實時切合程度的不同（how closely coupled the modalities are in time）對于情感數據有兩種整合方式：特征層intermediate level (also known as feature-level fusion or early fusion) and 決策層 high level(also known as decision-level fusion or late fusion).
特征層融合用于模態之間具有聯系和同步性的情況。需要模態之間有著嚴格的時域同步性。（例如語音和唇部動作）如果不具備這種同步性的模態采用特征層融合，效果將大打折扣（例如語音和手勢）。由圖一可知，面部表情和肢體語言之間存在相關性但是并不同步。（As can be seen in the figure, face movement
starts earlier compared to body movement and has longer
onset stage and longer apex stage (20 frames) compared to
body movement (17 frames).）對于這類問題該如何處理？
在處理特征層融合時，多個模態下的特征必須是可比的（compatible），我們需要探究不同模態下特征的關聯，基于這個目標，有許多技術。常用的有DTW（dynamic time warping），用于找到兩個時間序列的最優排序，我們會對其中一個序列沿著時間軸，進行壓縮或者拉伸的非線性變換。此外HMM的變換也是常用的方法。我們為兩個非同步的訓練序列建立一對HMM模型。Coupled HMMs and fused HMMs常用基于音頻加視頻特征的語言識別。

我們認為，對于面部和肢體的多模信息，可以通過相位同步來獲取同步。相位存在于面部和肢體的特征向量中，這一點歸因于他們的語義和結構約束（semantics and anatomical constraints）。我們采用的是自然的數據，具有先天的有限個相位，且相位具有特定的順序：neutral–onset–apex–offset–
neutral. Pikovsky指出，傳統的技術忽視了通過信號的相位來探究系統的關聯性。因此，我們關注相位也就是所謂的時域分割，以此來關聯面部個肢體模態。在特征融合的時候，我們探究每一幀的相位，并且將兩個屬于同一相位的雙模態信息融合。接下來的問題就是，不同相位的幀對于情感識別是否具有相同的貢獻。在后文中，我們會論證，應當首選“apex”相位的幀，因為這類幀具有最大的空間展開特征，情感識別的效果也最好。另外，在“apex”和“neutral”相位之間，肌肉的動作達到峰值。我們的方法基于以上的假設，并且將以實驗來驗證。
方法的具體流程見圖二，方法分為三個步驟：
1）對于面部和肢體的多模態信息，每一幀先進行相位分類。
2）對apex相位的信息進行特征向量的提取，面部和肢體兩個模態同時進行。
3）a.如果選擇特征層融合，將兩個模態的特征向量融合成一個特征。
b.如果選擇決策層融合，先分別給出兩個模態下的判別，然后結合決策層融合的準則給出融合之后的判別。
在分類階段，基于幀和基于序列的分類器均被采用。在基于序列的分類器里，我們采用了HMM，基于幀的分類器里，我們采用了SVM，Adaboost，C4.5等這些Weka工具。若采用基于幀的分類器，第2，3步中，只采用apex幀。如果采用基于序列的分類，數據是采用整個序列的數據。

數據和特征集合
A. FABO數據集
以往的數據集并沒有適合的雙模態信息，因此，實驗的第一步是收集FABO系統可用的雙模態情感數據。通過兩架攝像機，在自然情景下，分別采集面部和肢體的信息。
最近，在情感識別領域，關于數據源存在一些討論。情感數據源自三個渠道：自發性的（在真實環境下產生，源自人與人之間交流的場景，例如面試）、被誘導的（例如看電影時，表現出的情緒）、擺拍的。FABO系統采用的是擺拍的雙模態數據。Banziger and
Scherer曾指出，擺拍數據有它的優勢，可以提供高質量的標準的基于個人的豐富多變的表情。自發性的數據有時只能記錄有限的情感反應，減少了情緒反應間的可比性。FABO數據集可以視為一個“半自發性”的數據集。采用人工的方式來對雙模態情感信息進行標注。

B.面部特征提取

現有的面部識別方法分為基于呈現（appearance-based）和基于面部幾何特征（geometric feature-based）兩種。基于幾何特征的例子有輔助粒子濾波（auxiliary particle
filtering）。基于呈現的例子有Gabor-wavelet-based methods。也有將兩種方法結合的。本文就采用兩種方式融合的方法。
本文采用的方法概括如下：對臉部建模、逐幀進行臉部探測，臉部特征提取（提取包括眼睛、眉毛、鼻子、嘴巴等臉部區域），情緒分析，將持續不斷的幀流與參考幀比較（neutral expression frame作為參考幀）。

*1）*face model： FABO系統采用正面臉部模型，對感興趣的區域采用特征邊界矩形（feature bounding
rectangles）。系統首先自動標定八個面部特征區域，隨后，計算出每個特征的邊界矩形。固定區域的定義如下：the forehead, upper and lower eyebrows, upper and
lower eyes, nose, upper right lip, lower right lip, upper left lip,
lower left lip, and chin regions。另外有五個邊界矩形定義固定區域間的過度區域。the region(s) between the eyes and the eyebrows,
corner of right eye, corner of left eye, right cheek, and left
cheek.

*2）*Face Detection: FABO系統采用現有的fast and robust stump-based
20 × 20 Gentle AdaBoost (GAB) frontal face detector來進行面部區域探測。以及一個類似的方法來進行面部區域特征分類。

總結

以上是生活随笔為你收集整理的论文研读：Automatic Temporal Segment Detection and Affect Recognition From Face and Body Display的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： PostgreSQL和Kingbase中
下一篇：中国如何买美股