當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

AU R-CNN：利用专家先验知识进行表情运动单元检测的R-CNN模型

發布時間：2024/10/8 编程问答 29 豆豆

生活随笔收集整理的這篇文章主要介紹了 AU R-CNN：利用专家先验知识进行表情运动单元检测的R-CNN模型小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

?PaperWeekly 原創 ·?作者｜Chen?Ma

學校｜清華大學

研究方向｜人臉識別和物體檢測

這篇論文率先利用先驗知識和物體檢測技術做 Action Unit 人臉表情識別，在 BP4D 和 DISFA 兩個數據庫達到了 SOTA 的實驗結果：BP4D 數據庫的 F1 score 63%。

論文標題：AU R-CNN: Encoding Expert Prior Knowledge into R-CNN for action unit detection

論文鏈接：https://arxiv.org/abs/1812.05788

代碼鏈接：https://github.com/sharpstill/AU_R-CNN

介紹

FACS (Facial Action Coding System) 是人臉國際標準組織定義的 44 種人臉運動單元（AU），這些運動單元可以組合表示人臉表情所有可能的表情（包含皺眉，抿嘴等），AU 是組成人臉表情的基石。

本論文中所謂的人臉 AU 檢測的任務是指：識別一段視頻中每一幀圖像的人臉上出現哪些 AU。因為 AU 只是面部肌肉的細微運動，而且不同的面部肌肉運動幅度大小不同，所以 AU 檢測任務具有挑戰性。AU 檢測在測謊儀、汽車駕駛輔助系統（探測是否駕駛員瞌睡）等有重要應用。

▲ 圖1. Action Unit 的例子

圖 1 是 Action Unit的例子，關于 Action Unit 的表情到底定義了怎樣的細微的面部表情。以下鏈接提供了動畫演示，讀者可以自行觀看。

https://imotions.com/blog/facial-action-coding-system/

總結一下已有方法的缺點：

1. 已有的方法雖然提出了 AU center 的概念作為 AU 發生的重要區域，并被定義為人臉關鍵點的附近，這種定義粗糙而位置不精確。AU 發生在人臉肌肉運動的特定區域，但不一定是某個 landmark 附近。

2. 已有的研究使用 CNN 去識別整張臉的圖像，而非局部區域的 AU。

3. 人臉 AU 識別是一個多 label 的分類問題，這種多 label 的約束可以被限制在更細的粒度上：人臉的局部區域上，從而達到更高的精度。

方法

AU R-CNN 的方法框架如圖 2 所示，AU 檢測最困難之處在于人臉的五官大小不定，每個人長相不同，而且發出的表情的位置也不相同，這種難題之下如何檢測呢？

本文站在前人的肩膀上，利用人臉關鍵點！人臉關鍵點提供了豐富的人臉位置信息，若能充分利用，則消除了五官的差異，更能細微精確地檢測 AU。所以該框架首先將人臉劃分成不同的區域，每個區域獨立地進行檢測，如圖 2 所示：

▲ 圖2. AU R-CNN方法的整體概覽框架

首先用 landmark 將人臉的 68 個關鍵點定位，再依照不同區域 ROI 獨立檢測，最后將每個 ROI 的檢測匯總，便得到了全臉的檢測結果！

▲?圖3. 關鍵點和面部分割圖

為了利用這些關鍵點的信息和 AU 的定義，本文引入了專家先驗知識的概念，AU R-CNN 方法將 AU 與其相關的人臉區域的劃分定義為專家知識，提出了 AU partition rule 的規則。該規則如表 1 所示：

▲?表1. AU partition rule（也即專家先驗知識）

AU partition rule 將不同的 AU 分組，同一個位置區域發生的 AU 被分為一組，比如都是眼睛部位的 AU，所以誕生了 AU group 的概念。（表 1 左），由此全臉被劃分成九個區域，每個區域是一組 ROI 表示，最后本文使用該 ROI 的最小外包矩形來表示該 AU group 區域，如圖 4 所示。

圖4. AU group和其外包矩形，之后這些矩形被送入R-CNN的檢測頭

另外一個難題在于即使同一個區域也可能發生多個 AU 的表情出現，因此本文使用了 sigmoid cross entropy 的損失函數來計算損失并反向傳播優化網絡參數：

圖5. AU R-CNN 整體網絡結構圖，左側由先驗知識截取出不同區域的 bounding box，右側是檢測頭去分別檢測，與此同時，ground-truth label 也被按照不同區域分割了，最后計算 sigmoid cross entropy 損失

AU R-CNN擴展

AU R-CNN 可以被作為一個基礎框架產生出來很多擴展和變種，這是由于視頻的先后幀之間有時間順序關系，所以可以使用 ConvLSTM 建模先后幀之間的關系。如下圖所示，每個部位的小 box 被單獨的時間軸建模，用一個獨立的 ConvLSTM 去建模并學習。

但是在具體實驗中，作者發現這種利用上下幀的建模方法效果不是很好，甚至總體的平均 F1 score 不如單幀檢測。作者在實驗部分也分析了其中的原因。

另外除了 ConvLSTM 這種時空卷積，還可以使用雙流法等其他方法進行擴展，總體如下表：

實驗

實驗在 BP4D 和 DISFA 兩個數據庫上進行，該文的實驗部分值得稱道的一點是，作者采用了標準的 AU R-CNN，并在 ResNet-101 和 VGG-16、VGG-19 幾個網絡上進行測試：

實驗結果如下，可以看到 AU R-CNN 結合 ResNet-101 的 backbone 取得最佳的實驗結果：

剝離實驗中，主要探究這種局部檢測到底比標準的 CNN 那種全臉檢測效果好多少，所以在不同分辨率下與標準 CNN 也進行了比較：

DISFA 數據庫都是連續的表情視頻，實驗結果如下：

最后，作者總結了不同的 AU R-CNN 擴展及其適用范圍：

總結

在本文中，作者研究了如何將先驗知識融合進 R-CNN 這種物體檢測框架，并使用 RoI pooling 層在每個位置分別檢測，豐富的實驗證明了該做法的有效性，也取得了 State-of-the-art 的實驗結果。

點擊以下標題查看更多往期內容：?

變分推斷（Variational Inference）最新進展簡述
變分自編碼器VAE：原來是這么一回事
圖神經網絡三劍客：GCN、GAT與GraphSAGE
如何快速理解馬爾科夫鏈蒙特卡洛法？
深度學習預訓練模型可解釋性概覽
ICLR 2020：從去噪自編碼器到生成模型

#投稿?通道#

?讓你的論文被更多人看到?

如何才能讓更多的優質內容以更短路徑到達讀者群體，縮短讀者尋找優質內容的成本呢？答案就是：你不認識的人。

總有一些你不認識的人，知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁，促使不同背景、不同方向的學者和學術靈感相互碰撞，迸發出更多的可能性。?

PaperWeekly 鼓勵高校實驗室或個人，在我們的平臺上分享各類優質內容，可以是最新論文解讀，也可以是學習心得或技術干貨。我們的目的只有一個，讓知識真正流動起來。

?????來稿標準：

? 稿件確系個人原創作品，來稿需注明作者個人信息（姓名+學校/工作單位+學歷/職位+研究方向）?

? 如果文章并非首發，請在投稿時提醒并附上所有已發布鏈接?

? PaperWeekly 默認每篇文章都是首發，均會添加“原創”標志

?????投稿郵箱：

? 投稿郵箱：hr@paperweekly.site?

? 所有文章配圖，請單獨在附件中發送?

? 請留下即時聯系方式（微信或手機），以便我們在編輯發布時和作者溝通

????

現在，在「知乎」也能找到我們了

進入知乎首頁搜索「PaperWeekly」

點擊「關注」訂閱我們的專欄吧

關于PaperWeekly

PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域，歡迎在公眾號后臺點擊「交流群」，小助手將把你帶入 PaperWeekly 的交流群里。

總結

以上是生活随笔為你收集整理的AU R-CNN：利用专家先验知识进行表情运动单元检测的R-CNN模型的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：苹果 iOS 18.0.1 更新发布：修
下一篇：陆军现役战机首次参展