AU R-CNN:利用专家先验知识进行表情运动单元检测的R-CNN模型
?PaperWeekly 原創(chuàng) ·?作者|Chen?Ma
學(xué)校|清華大學(xué)
研究方向|人臉識(shí)別和物體檢測(cè)
這篇論文率先利用先驗(yàn)知識(shí)和物體檢測(cè)技術(shù)做 Action Unit 人臉表情識(shí)別,在 BP4D 和 DISFA 兩個(gè)數(shù)據(jù)庫(kù)達(dá)到了 SOTA 的實(shí)驗(yàn)結(jié)果:BP4D 數(shù)據(jù)庫(kù)的 F1 score 63%。
論文標(biāo)題:AU R-CNN: Encoding Expert Prior Knowledge into R-CNN for action unit detection
論文鏈接:https://arxiv.org/abs/1812.05788
代碼鏈接:https://github.com/sharpstill/AU_R-CNN
介紹
FACS (Facial Action Coding System) 是人臉國(guó)際標(biāo)準(zhǔn)組織定義的 44 種人臉運(yùn)動(dòng)單元(AU),這些運(yùn)動(dòng)單元可以組合表示人臉表情所有可能的表情(包含皺眉,抿嘴等),AU 是組成人臉表情的基石。
本論文中所謂的人臉 AU 檢測(cè)的任務(wù)是指:識(shí)別一段視頻中每一幀圖像的人臉上出現(xiàn)哪些 AU。因?yàn)?AU 只是面部肌肉的細(xì)微運(yùn)動(dòng),而且不同的面部肌肉運(yùn)動(dòng)幅度大小不同,所以 AU 檢測(cè)任務(wù)具有挑戰(zhàn)性。AU 檢測(cè)在測(cè)謊儀、汽車駕駛輔助系統(tǒng)(探測(cè)是否駕駛員瞌睡)等有重要應(yīng)用。
▲ 圖1. Action Unit 的例子
?
圖 1 是 Action Unit的例子,關(guān)于 Action Unit 的表情到底定義了怎樣的細(xì)微的面部表情。以下鏈接提供了動(dòng)畫(huà)演示,讀者可以自行觀看。
https://imotions.com/blog/facial-action-coding-system/
總結(jié)一下已有方法的缺點(diǎn):
?
1. 已有的方法雖然提出了 AU center 的概念作為 AU 發(fā)生的重要區(qū)域,并被定義為人臉關(guān)鍵點(diǎn)的附近,這種定義粗糙而位置不精確。AU 發(fā)生在人臉肌肉運(yùn)動(dòng)的特定區(qū)域,但不一定是某個(gè) landmark 附近。
?
2. 已有的研究使用 CNN 去識(shí)別整張臉的圖像,而非局部區(qū)域的 AU。
?
3. 人臉 AU 識(shí)別是一個(gè)多 label 的分類問(wèn)題,這種多 label 的約束可以被限制在更細(xì)的粒度上:人臉的局部區(qū)域上,從而達(dá)到更高的精度。
方法
AU R-CNN 的方法框架如圖 2 所示,AU 檢測(cè)最困難之處在于人臉的五官大小不定,每個(gè)人長(zhǎng)相不同,而且發(fā)出的表情的位置也不相同,這種難題之下如何檢測(cè)呢?
?
本文站在前人的肩膀上,利用人臉關(guān)鍵點(diǎn)!人臉關(guān)鍵點(diǎn)提供了豐富的人臉位置信息,若能充分利用,則消除了五官的差異,更能細(xì)微精確地檢測(cè) AU。所以該框架首先將人臉劃分成不同的區(qū)域,每個(gè)區(qū)域獨(dú)立地進(jìn)行檢測(cè),如圖 2 所示:
▲ 圖2. AU R-CNN方法的整體概覽框架
?
首先用 landmark 將人臉的 68 個(gè)關(guān)鍵點(diǎn)定位,再依照不同區(qū)域 ROI 獨(dú)立檢測(cè),最后將每個(gè) ROI 的檢測(cè)匯總,便得到了全臉的檢測(cè)結(jié)果!
▲?圖3. 關(guān)鍵點(diǎn)和面部分割圖
?
為了利用這些關(guān)鍵點(diǎn)的信息和 AU 的定義,本文引入了專家先驗(yàn)知識(shí)的概念,AU R-CNN 方法將 AU 與其相關(guān)的人臉區(qū)域的劃分定義為專家知識(shí),提出了 AU partition rule 的規(guī)則。該規(guī)則如表 1 所示:
▲?表1. AU partition rule(也即專家先驗(yàn)知識(shí))
AU partition rule 將不同的 AU 分組,同一個(gè)位置區(qū)域發(fā)生的 AU 被分為一組,比如都是眼睛部位的 AU,所以誕生了 AU group 的概念。(表 1 左),由此全臉被劃分成九個(gè)區(qū)域,每個(gè)區(qū)域是一組 ROI 表示,最后本文使用該 ROI 的最小外包矩形來(lái)表示該 AU group 區(qū)域,如圖 4 所示。
圖4. AU group和其外包矩形,之后這些矩形被送入R-CNN的檢測(cè)頭
?
另外一個(gè)難題在于即使同一個(gè)區(qū)域也可能發(fā)生多個(gè) AU 的表情出現(xiàn),因此本文使用了 sigmoid cross entropy 的損失函數(shù)來(lái)計(jì)算損失并反向傳播優(yōu)化網(wǎng)絡(luò)參數(shù):
圖5. AU R-CNN 整體網(wǎng)絡(luò)結(jié)構(gòu)圖,左側(cè)由先驗(yàn)知識(shí)截取出不同區(qū)域的 bounding box,右側(cè)是檢測(cè)頭去分別檢測(cè),與此同時(shí),ground-truth label 也被按照不同區(qū)域分割了,最后計(jì)算 sigmoid cross entropy 損失
AU R-CNN擴(kuò)展
AU R-CNN 可以被作為一個(gè)基礎(chǔ)框架產(chǎn)生出來(lái)很多擴(kuò)展和變種,這是由于視頻的先后幀之間有時(shí)間順序關(guān)系,所以可以使用 ConvLSTM 建模先后幀之間的關(guān)系。如下圖所示,每個(gè)部位的小 box 被單獨(dú)的時(shí)間軸建模,用一個(gè)獨(dú)立的 ConvLSTM 去建模并學(xué)習(xí)。
但是在具體實(shí)驗(yàn)中,作者發(fā)現(xiàn)這種利用上下幀的建模方法效果不是很好,甚至總體的平均 F1 score 不如單幀檢測(cè)。作者在實(shí)驗(yàn)部分也分析了其中的原因。
?
另外除了 ConvLSTM 這種時(shí)空卷積,還可以使用雙流法等其他方法進(jìn)行擴(kuò)展,總體如下表:
實(shí)驗(yàn)
實(shí)驗(yàn)在 BP4D 和 DISFA 兩個(gè)數(shù)據(jù)庫(kù)上進(jìn)行,該文的實(shí)驗(yàn)部分值得稱道的一點(diǎn)是,作者采用了標(biāo)準(zhǔn)的 AU R-CNN,并在 ResNet-101 和 VGG-16、VGG-19 幾個(gè)網(wǎng)絡(luò)上進(jìn)行測(cè)試:
實(shí)驗(yàn)結(jié)果如下,可以看到 AU R-CNN 結(jié)合 ResNet-101 的 backbone 取得最佳的實(shí)驗(yàn)結(jié)果:
剝離實(shí)驗(yàn)中,主要探究這種局部檢測(cè)到底比標(biāo)準(zhǔn)的 CNN 那種全臉檢測(cè)效果好多少,所以在不同分辨率下與標(biāo)準(zhǔn) CNN 也進(jìn)行了比較:
DISFA 數(shù)據(jù)庫(kù)都是連續(xù)的表情視頻,實(shí)驗(yàn)結(jié)果如下:
?
?
最后,作者總結(jié)了不同的 AU R-CNN 擴(kuò)展及其適用范圍:
?
總結(jié)
在本文中,作者研究了如何將先驗(yàn)知識(shí)融合進(jìn) R-CNN 這種物體檢測(cè)框架,并使用 RoI pooling 層在每個(gè)位置分別檢測(cè),豐富的實(shí)驗(yàn)證明了該做法的有效性,也取得了 State-of-the-art 的實(shí)驗(yàn)結(jié)果。
點(diǎn)擊以下標(biāo)題查看更多往期內(nèi)容:?
變分推斷(Variational Inference)最新進(jìn)展簡(jiǎn)述
變分自編碼器VAE:原來(lái)是這么一回事
圖神經(jīng)網(wǎng)絡(luò)三劍客:GCN、GAT與GraphSAGE
如何快速理解馬爾科夫鏈蒙特卡洛法?
深度學(xué)習(xí)預(yù)訓(xùn)練模型可解釋性概覽
ICLR 2020:從去噪自編碼器到生成模型
#投 稿?通 道#
?讓你的論文被更多人看到?
如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達(dá)讀者群體,縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢?答案就是:你不認(rèn)識(shí)的人。
總有一些你不認(rèn)識(shí)的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學(xué)者和學(xué)術(shù)靈感相互碰撞,迸發(fā)出更多的可能性。?
PaperWeekly 鼓勵(lì)高校實(shí)驗(yàn)室或個(gè)人,在我們的平臺(tái)上分享各類優(yōu)質(zhì)內(nèi)容,可以是最新論文解讀,也可以是學(xué)習(xí)心得或技術(shù)干貨。我們的目的只有一個(gè),讓知識(shí)真正流動(dòng)起來(lái)。
?????來(lái)稿標(biāo)準(zhǔn):
? 稿件確系個(gè)人原創(chuàng)作品,來(lái)稿需注明作者個(gè)人信息(姓名+學(xué)校/工作單位+學(xué)歷/職位+研究方向)?
? 如果文章并非首發(fā),請(qǐng)?jiān)谕陡鍟r(shí)提醒并附上所有已發(fā)布鏈接?
? PaperWeekly 默認(rèn)每篇文章都是首發(fā),均會(huì)添加“原創(chuàng)”標(biāo)志
?????投稿郵箱:
? 投稿郵箱:hr@paperweekly.site?
? 所有文章配圖,請(qǐng)單獨(dú)在附件中發(fā)送?
? 請(qǐng)留下即時(shí)聯(lián)系方式(微信或手機(jī)),以便我們?cè)诰庉嫲l(fā)布時(shí)和作者溝通
????
現(xiàn)在,在「知乎」也能找到我們了
進(jìn)入知乎首頁(yè)搜索「PaperWeekly」
點(diǎn)擊「關(guān)注」訂閱我們的專欄吧
關(guān)于PaperWeekly
PaperWeekly 是一個(gè)推薦、解讀、討論、報(bào)道人工智能前沿論文成果的學(xué)術(shù)平臺(tái)。如果你研究或從事 AI 領(lǐng)域,歡迎在公眾號(hào)后臺(tái)點(diǎn)擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
總結(jié)
以上是生活随笔為你收集整理的AU R-CNN:利用专家先验知识进行表情运动单元检测的R-CNN模型的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 苹果 iOS 18.0.1 更新发布:修
- 下一篇: 复旦大学邱锡鹏教授:NLP预训练模型综述