论文研读:Automatic Temporal Segment Detection and Affect Recognition From Face and Body Display
摘要:情感的呈現(xiàn)包含一系列的時(shí)域分割:開(kāi)啟(onset)、峰值(apex)、結(jié)束(offset)。在過(guò)去15年中(論文發(fā)表于2009年),計(jì)算機(jī)界對(duì)情感識(shí)別進(jìn)行了大量的研究,但是大多數(shù)方法都有兩點(diǎn)局限:1.從單一的模式進(jìn)行表情識(shí)別。2.即便少數(shù)多模態(tài)的方法中,對(duì)于動(dòng)態(tài)模式關(guān)注過(guò)少。本文主要研究基于臉部表情和肢體呈現(xiàn)的情感識(shí)別方法。提出了一種自動(dòng)識(shí)別時(shí)域分割的方法,并基于時(shí)域分割的片段進(jìn)行情感識(shí)別。實(shí)驗(yàn)結(jié)果表明:1)基于情感的臉部特征和肢體呈現(xiàn)具有關(guān)聯(lián)性但并非完全同步。2)明確的檢測(cè)時(shí)域分割片段可以提升情感識(shí)別的準(zhǔn)確率。3)通過(guò)表情和肢體呈現(xiàn)結(jié)合來(lái)識(shí)別情感的正確率高于單一模式。4)同步特征融合(feature-level)的性能優(yōu)于決策融合(decision-level)
1.introduction
在情感識(shí)別領(lǐng)域,過(guò)去15年的研究局限于單一模式,少數(shù)研究著眼于多模態(tài)情感識(shí)別。由此衍生出一個(gè)新的研究領(lǐng)域:運(yùn)用哪些模態(tài)來(lái)進(jìn)行情感識(shí)別以及如何把它們結(jié)合起來(lái)(what modalities to use and how to combine them)。最初的方法是基于視覺(jué)和音頻數(shù)據(jù),實(shí)驗(yàn)結(jié)果也比較樂(lè)觀:多模態(tài)情感識(shí)別提升了準(zhǔn)確率,使得系統(tǒng)更加有效和可靠。盡管學(xué)者Ambady和Rosenthal作的基礎(chǔ)研究表明:對(duì)人的行為的判別的重要線索大多來(lái)自于臉部表情和肢體動(dòng)作。但是,只有在最近幾年計(jì)算機(jī)界才開(kāi)始關(guān)注通過(guò)肢體語(yǔ)言來(lái)進(jìn)行情感識(shí)別。
研究表明時(shí)序動(dòng)態(tài)(temporal dynamics)對(duì)于情感識(shí)別至關(guān)重要。但是在為數(shù)不多的多模態(tài)情感識(shí)別系統(tǒng)中,尚無(wú)將面部表情和肢體語(yǔ)言結(jié)合的模型。本文主要?jiǎng)?chuàng)新在于:1)表情和肢體動(dòng)作的時(shí)間分隔是完全自動(dòng)的。2)設(shè)計(jì)了phase-synchronization scheme來(lái)應(yīng)對(duì)表情和肢體動(dòng)作相關(guān)但不完全同步的問(wèn)題。
本文主要貢獻(xiàn)有6點(diǎn):
1)雙模態(tài)方法
2)use of the first publicly available database to date to
combine affective face and body displays in a bimodal
manner
3)在基礎(chǔ)表情(生氣、失望、害怕、幸福、悲傷)的基礎(chǔ)上分析非基礎(chǔ)表情(anxiety,
boredom, uncertainty, puzzlement, and neutral/negative/
positive surpris)
4)檢測(cè)情感呈現(xiàn)的時(shí)間分隔,從空間擴(kuò)大中分離時(shí)間動(dòng)態(tài),對(duì)數(shù)據(jù)。
5)對(duì)無(wú)用的時(shí)間分隔段進(jìn)行了大量的全局實(shí)驗(yàn)。
6)通過(guò)對(duì)比試驗(yàn),找到最佳融合。
2.背景及相關(guān)工作
A.背景
Ekman and Frisen的研究指出,人類的面部表情有六種基本形態(tài):生氣、失望、害怕、幸福、悲傷、驚奇。但是情緒研究領(lǐng)域?qū)@一說(shuō)法持保留態(tài)度,關(guān)于這一點(diǎn),心理學(xué)家并沒(méi)有統(tǒng)一的定論。許多學(xué)者基于六種基本形態(tài)的表情進(jìn)行研究。Russell認(rèn)為每一種基本表情都是雙極性實(shí)體,極性包括arousal和valence。
通過(guò)肢體語(yǔ)言手勢(shì)來(lái)識(shí)別人類情感,這一方向目前在心理學(xué)和非語(yǔ)言溝通領(lǐng)域仍舊是有所保留。Coulson通過(guò)試驗(yàn)總結(jié)出,通過(guò)姿勢(shì)識(shí)別情感和進(jìn)過(guò)聲音來(lái)識(shí)別具有可比性。總體而言,肢體語(yǔ)言比表情更加豐富。尚有許多工作和研究需要做。Ambady and Rosenthal的研究表明通過(guò)結(jié)合表情加肢體語(yǔ)言來(lái)識(shí)別情感的準(zhǔn)確率優(yōu)于單一模式近35%。面部動(dòng)作按照時(shí)間分割為四個(gè)階段:平靜(neutral)、開(kāi)啟(onset)、apex(峰值)、offset(結(jié)束)。neutral是指沒(méi)有任何肌肉信號(hào),面部放松。onset是指面部肌肉被喚起,逐漸緊張并呈現(xiàn)出面部的改變。apex是面部表情的峰值。offset是面部肌肉又逐步放松。自然的面部表情呈現(xiàn)過(guò)程是:neutral ?→
onset ?→ apex ?→ offset → neutral 。同理,肢體語(yǔ)言的呈現(xiàn)也分為五個(gè)階段:preparation ?→ (prestroke) hold ?→
stroke ?→ (poststroke) hold ?→ retraction。目前在面部/肢體語(yǔ)言的onset-apex-offset的標(biāo)記上是非常耗時(shí)的。
B.相關(guān)工作
這一部分總結(jié)了現(xiàn)有的多模態(tài)情感識(shí)別的方法,包括時(shí)域分割和結(jié)合臉部表情即肢體語(yǔ)言進(jìn)行情感識(shí)別的方法。 1)單模態(tài)情感識(shí)別系統(tǒng):目前為止,現(xiàn)有的大多數(shù)單模態(tài)的情感識(shí)別系統(tǒng)建立在識(shí)別基礎(chǔ)表情(例如happiness 和 anger)的照片識(shí)別系統(tǒng)。同樣也存在一些通過(guò)面部視頻來(lái)識(shí)別非基礎(chǔ)表情的系統(tǒng),例如attentiveness、fatigue、pain。 大多數(shù)面部識(shí)別系統(tǒng)都是依賴于posed data(posed:擺姿勢(shì)),只有最近出現(xiàn)了一些基于spontaneous facial expression data(自發(fā)性面部表情)的自動(dòng)識(shí)別。 研究顯示,在識(shí)別過(guò)程中temporal dynamics是至關(guān)重要的一步。據(jù)此,最近在情感識(shí)別領(lǐng)域的研究更加關(guān)注面部特征中的時(shí)空成分(spatio-temporal properties offacial features )和對(duì)通過(guò)隱式的合并動(dòng)態(tài)特性(by implicitly incorporating the
dynamics)來(lái)對(duì)動(dòng)態(tài)面部表情建模或動(dòng)作單元 (modeling dynamic facial expressions or AUs(action unit))。傳統(tǒng)的對(duì)AU的分析是基于獨(dú)立的對(duì)某一個(gè)AU或者AU的組合進(jìn)行統(tǒng)計(jì)和分類,最近的研究則表明,探索AU的動(dòng)態(tài)特征和語(yǔ)義關(guān)聯(lián)(semantic
relationships)有助于提升識(shí)別的性能。
有一部分研究著眼于用馬爾科夫鏈來(lái)探究時(shí)域分割或者面部表情,也有一些研究用支持向量機(jī)或者AdaBoost這樣的分類方法來(lái)研究面部AUs。處理時(shí)域分割有兩種方式,一種是將每一幀獨(dú)立的進(jìn)行分類,還有一種方法是把一連串的幀看作是一個(gè)時(shí)間序列。基于此,本文分別參考了frame-based和sequence-based兩種分類方式。
對(duì)于情感狀態(tài)的識(shí)別,常用的技術(shù)是利用HMM及其變換。這一類模型同樣可以用于對(duì)時(shí)域分割的研究,鑒于我們可以證明情感狀態(tài)的HMM和情感的時(shí)域分割之間的HMM具有相關(guān)性。在臉部呈現(xiàn)的情景中,HMM的emissions(which are also known as observations
or measurements)主要是由一組基于臉部特征計(jì)算后的特征來(lái)表達(dá)。
2)單模態(tài)分析肢體語(yǔ)言:相較于面部表情方面的文獻(xiàn),通過(guò)肢體語(yǔ)言識(shí)別情感的資料比較少。現(xiàn)有文獻(xiàn)的主要關(guān)注點(diǎn)是在基于posed肢體語(yǔ)言數(shù)據(jù)庫(kù)的分析。
Meservy的團(tuán)隊(duì)關(guān)注在國(guó)家安全領(lǐng)域,通過(guò)一連串的肢體線索,識(shí)別行為是可信的(innocent)還是故意的(guilty)。在這個(gè)二類問(wèn)題上,他們達(dá)到了71%的識(shí)別率。
3)多模態(tài)系統(tǒng)識(shí)別面部和肢體表達(dá):這方面研究比較新。Balomenos et al采用了結(jié)合面部表情和手勢(shì)來(lái)識(shí)別六類基礎(chǔ)情感。他們?cè)谂袆e時(shí),將兩個(gè)子系統(tǒng)的權(quán)重進(jìn)行融合。他們的系統(tǒng)中,通過(guò)面部表情單模來(lái)識(shí)別情感的識(shí)別率達(dá)到了85%。通過(guò)手勢(shì)識(shí)別的正確率達(dá)到了94.3%。然而他們并沒(méi)有給出兩者結(jié)合之后的識(shí)別率也沒(méi)有對(duì)臉部和手勢(shì)的時(shí)域分割給出解決方案。Kapoor and Picard就兒童solving a puzzle中的興趣高,興趣低,和恢復(fù)精神三種狀態(tài)進(jìn)行識(shí)別。他們結(jié)合了視頻、姿式傳感器(椅子上的傳感器)等多種信息傳感器以及游戲的概率框架。由高斯過(guò)程獲取的每個(gè)模式各自的分類結(jié)果從高到低為posture channel(82%)、upper face(67%)、game(57%)、lower face(53%)。融合后的最好識(shí)別率為87%。然而,Kapoor and Picard并不關(guān)注姿勢(shì)手勢(shì)這些肢體語(yǔ)言,也沒(méi)有給出時(shí)域分割的方法。
Karpouzis et al.試圖融合面部、肢體、和語(yǔ)音線索來(lái)識(shí)別情感。他們的報(bào)告給出了4類問(wèn)題的精確度:67% (visual), 73% (prosody), and 82% (with all modalities
combined)。融合方法是基于幀的,這意味著視覺(jué)數(shù)據(jù)對(duì)于音頻信息重復(fù)出現(xiàn)。他們同樣沒(méi)有給出時(shí)域分割方法。
Hartmann et al.給出了產(chǎn)生手勢(shì)及面部表達(dá)的一些參數(shù)(generation of expressive gesturing for virtual agents)。實(shí)驗(yàn)證明只有一部分參數(shù)和表達(dá)能夠被用戶識(shí)別。還需要更深入的研究這些參數(shù)。
與以上工作相比,本文:1)采用了手勢(shì)和肢體姿勢(shì)的更高維數(shù)據(jù)(use
a higher number of hand gestures and body postures)。2)除了六種基本情緒外,我們還分析了正向負(fù)向驚訝、焦慮、無(wú)聊、不確定和疑惑等這些情緒。3)詳細(xì)分析了情感/情緒狀態(tài)的時(shí)域分割(temporal segments),以及這項(xiàng)工作對(duì)整個(gè)識(shí)別的意義。4)我們創(chuàng)新的提出了同步性的概念以及一種通過(guò)選擇融合方法來(lái)獲取更高識(shí)別率的方法。
在多模態(tài)識(shí)別系統(tǒng)中,特征和融合策略的選取取決于融合的自然模態(tài)。在待融合的模式之間或許存在某種固有的異步性。對(duì)于情感感知和識(shí)別,多模態(tài)融合旨在盡可能的整合所有的輸入成為用戶的一個(gè)單一的表情呈現(xiàn)。多模態(tài)數(shù)據(jù)的時(shí)域分析是建立在多模態(tài)特征之間的時(shí)域接近(time proximity)上的。由此,根據(jù)多模態(tài)之間實(shí)時(shí)切合程度的不同(how closely coupled the modalities are in time)對(duì)于情感數(shù)據(jù)有兩種整合方式:特征層intermediate level (also known as feature-level fusion or early fusion) and 決策層 high level(also known as decision-level fusion or late fusion).
特征層融合用于模態(tài)之間具有聯(lián)系和同步性的情況。需要模態(tài)之間有著嚴(yán)格的時(shí)域同步性。(例如語(yǔ)音和唇部動(dòng)作)如果不具備這種同步性的模態(tài)采用特征層融合,效果將大打折扣(例如語(yǔ)音和手勢(shì))。由圖一可知,面部表情和肢體語(yǔ)言之間存在相關(guān)性但是并不同步。(As can be seen in the figure, face movement
starts earlier compared to body movement and has longer
onset stage and longer apex stage (20 frames) compared to
body movement (17 frames).)對(duì)于這類問(wèn)題該如何處理?
在處理特征層融合時(shí),多個(gè)模態(tài)下的特征必須是可比的(compatible),我們需要探究不同模態(tài)下特征的關(guān)聯(lián),基于這個(gè)目標(biāo),有許多技術(shù)。常用的有DTW(dynamic time warping),用于找到兩個(gè)時(shí)間序列的最優(yōu)排序,我們會(huì)對(duì)其中一個(gè)序列沿著時(shí)間軸,進(jìn)行壓縮或者拉伸的非線性變換。此外HMM的變換也是常用的方法。我們?yōu)閮蓚€(gè)非同步的訓(xùn)練序列建立一對(duì)HMM模型。Coupled HMMs and fused HMMs常用基于音頻加視頻特征的語(yǔ)言識(shí)別。
我們認(rèn)為,對(duì)于面部和肢體的多模信息,可以通過(guò)相位同步來(lái)獲取同步。相位存在于面部和肢體的特征向量中,這一點(diǎn)歸因于他們的語(yǔ)義和結(jié)構(gòu)約束(semantics and anatomical constraints)。我們采用的是自然的數(shù)據(jù),具有先天的有限個(gè)相位,且相位具有特定的順序:neutral–onset–apex–offset–
neutral. Pikovsky指出,傳統(tǒng)的技術(shù)忽視了通過(guò)信號(hào)的相位來(lái)探究系統(tǒng)的關(guān)聯(lián)性。因此,我們關(guān)注相位也就是所謂的時(shí)域分割,以此來(lái)關(guān)聯(lián)面部個(gè)肢體模態(tài)。在特征融合的時(shí)候,我們探究每一幀的相位,并且將兩個(gè)屬于同一相位的雙模態(tài)信息融合。接下來(lái)的問(wèn)題就是,不同相位的幀對(duì)于情感識(shí)別是否具有相同的貢獻(xiàn)。在后文中,我們會(huì)論證,應(yīng)當(dāng)首選“apex”相位的幀,因?yàn)檫@類幀具有最大的空間展開(kāi)特征,情感識(shí)別的效果也最好。另外,在“apex”和“neutral”相位之間,肌肉的動(dòng)作達(dá)到峰值。我們的方法基于以上的假設(shè),并且將以實(shí)驗(yàn)來(lái)驗(yàn)證。
方法的具體流程見(jiàn)圖二,方法分為三個(gè)步驟:
1)對(duì)于面部和肢體的多模態(tài)信息,每一幀先進(jìn)行相位分類。
2)對(duì)apex相位的信息進(jìn)行特征向量的提取,面部和肢體兩個(gè)模態(tài)同時(shí)進(jìn)行。
3)a.如果選擇特征層融合,將兩個(gè)模態(tài)的特征向量融合成一個(gè)特征。
b.如果選擇決策層融合,先分別給出兩個(gè)模態(tài)下的判別,然后結(jié)合決策層融合的準(zhǔn)則給出融合之后的判別。
在分類階段,基于幀和基于序列的分類器均被采用。在基于序列的分類器里,我們采用了HMM,基于幀的分類器里,我們采用了SVM,Adaboost,C4.5等這些Weka工具。若采用基于幀的分類器,第2,3步中,只采用apex幀。如果采用基于序列的分類,數(shù)據(jù)是采用整個(gè)序列的數(shù)據(jù)。
A. FABO數(shù)據(jù)集
以往的數(shù)據(jù)集并沒(méi)有適合的雙模態(tài)信息,因此,實(shí)驗(yàn)的第一步是收集FABO系統(tǒng)可用的雙模態(tài)情感數(shù)據(jù)。通過(guò)兩架攝像機(jī),在自然情景下,分別采集面部和肢體的信息。
最近,在情感識(shí)別領(lǐng)域,關(guān)于數(shù)據(jù)源存在一些討論。情感數(shù)據(jù)源自三個(gè)渠道:自發(fā)性的(在真實(shí)環(huán)境下產(chǎn)生,源自人與人之間交流的場(chǎng)景,例如面試)、被誘導(dǎo)的(例如看電影時(shí),表現(xiàn)出的情緒)、擺拍的。FABO系統(tǒng)采用的是擺拍的雙模態(tài)數(shù)據(jù)。Banziger and
Scherer曾指出,擺拍數(shù)據(jù)有它的優(yōu)勢(shì),可以提供高質(zhì)量的標(biāo)準(zhǔn)的基于個(gè)人的豐富多變的表情。自發(fā)性的數(shù)據(jù)有時(shí)只能記錄有限的情感反應(yīng),減少了情緒反應(yīng)間的可比性。FABO數(shù)據(jù)集可以視為一個(gè)“半自發(fā)性”的數(shù)據(jù)集。采用人工的方式來(lái)對(duì)雙模態(tài)情感信息進(jìn)行標(biāo)注。
B.面部特征提取
現(xiàn)有的面部識(shí)別方法分為基于呈現(xiàn)(appearance-based)和基于面部幾何特征(geometric feature-based)兩種。基于幾何特征的例子有輔助粒子濾波(auxiliary particle
filtering)。基于呈現(xiàn)的例子有Gabor-wavelet-based methods。也有將兩種方法結(jié)合的。本文就采用兩種方式融合的方法。
本文采用的方法概括如下:對(duì)臉部建模、逐幀進(jìn)行臉部探測(cè),臉部特征提取(提取包括眼睛、眉毛、鼻子、嘴巴等臉部區(qū)域),情緒分析,將持續(xù)不斷的幀流與參考幀比較(neutral expression frame作為參考幀)。
*1)*face model: FABO系統(tǒng)采用正面臉部模型,對(duì)感興趣的區(qū)域采用特征邊界矩形(feature bounding
rectangles)。系統(tǒng)首先自動(dòng)標(biāo)定八個(gè)面部特征區(qū)域,隨后,計(jì)算出每個(gè)特征的邊界矩形。固定區(qū)域的定義如下:the forehead, upper and lower eyebrows, upper and
lower eyes, nose, upper right lip, lower right lip, upper left lip,
lower left lip, and chin regions。另外有五個(gè)邊界矩形定義固定區(qū)域間的過(guò)度區(qū)域。the region(s) between the eyes and the eyebrows,
corner of right eye, corner of left eye, right cheek, and left
cheek.
*2)*Face Detection: FABO系統(tǒng)采用現(xiàn)有的fast and robust stump-based
20 × 20 Gentle AdaBoost (GAB) frontal face detector來(lái)進(jìn)行面部區(qū)域探測(cè)。以及一個(gè)類似的方法來(lái)進(jìn)行面部區(qū)域特征分類。
總結(jié)
以上是生活随笔為你收集整理的论文研读:Automatic Temporal Segment Detection and Affect Recognition From Face and Body Display的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: PostgreSQL和Kingbase中
- 下一篇: Kingbase金仓查看和剔除连接