日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

AU R-CNN:利用专家先验知识进行表情运动单元检测的R-CNN模型

發布時間:2024/10/8 编程问答 29 豆豆
生活随笔 收集整理的這篇文章主要介紹了 AU R-CNN:利用专家先验知识进行表情运动单元检测的R-CNN模型 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

?PaperWeekly 原創 ·?作者|Chen?Ma

學校|清華大學

研究方向|人臉識別和物體檢測

這篇論文率先利用先驗知識和物體檢測技術做 Action Unit 人臉表情識別,在 BP4D 和 DISFA 兩個數據庫達到了 SOTA 的實驗結果:BP4D 數據庫的 F1 score 63%。

論文標題:AU R-CNN: Encoding Expert Prior Knowledge into R-CNN for action unit detection

論文鏈接:https://arxiv.org/abs/1812.05788

代碼鏈接:https://github.com/sharpstill/AU_R-CNN

介紹

FACS (Facial Action Coding System) 是人臉國際標準組織定義的 44 種人臉運動單元(AU),這些運動單元可以組合表示人臉表情所有可能的表情(包含皺眉,抿嘴等),AU 是組成人臉表情的基石。

本論文中所謂的人臉 AU 檢測的任務是指:識別一段視頻中每一幀圖像的人臉上出現哪些 AU。因為 AU 只是面部肌肉的細微運動,而且不同的面部肌肉運動幅度大小不同,所以 AU 檢測任務具有挑戰性。AU 檢測在測謊儀、汽車駕駛輔助系統(探測是否駕駛員瞌睡)等有重要應用。

▲ 圖1. Action Unit 的例子

?

圖 1 是 Action Unit的例子,關于 Action Unit 的表情到底定義了怎樣的細微的面部表情。以下鏈接提供了動畫演示,讀者可以自行觀看。

https://imotions.com/blog/facial-action-coding-system/

總結一下已有方法的缺點:

?

1. 已有的方法雖然提出了 AU center 的概念作為 AU 發生的重要區域,并被定義為人臉關鍵點的附近,這種定義粗糙而位置不精確。AU 發生在人臉肌肉運動的特定區域,但不一定是某個 landmark 附近。

?

2. 已有的研究使用 CNN 去識別整張臉的圖像,而非局部區域的 AU。

?

3. 人臉 AU 識別是一個多 label 的分類問題,這種多 label 的約束可以被限制在更細的粒度上:人臉的局部區域上,從而達到更高的精度。


方法

AU R-CNN 的方法框架如圖 2 所示,AU 檢測最困難之處在于人臉的五官大小不定,每個人長相不同,而且發出的表情的位置也不相同,這種難題之下如何檢測呢?

?

本文站在前人的肩膀上,利用人臉關鍵點!人臉關鍵點提供了豐富的人臉位置信息,若能充分利用,則消除了五官的差異,更能細微精確地檢測 AU。所以該框架首先將人臉劃分成不同的區域,每個區域獨立地進行檢測,如圖 2 所示:

▲ 圖2. AU R-CNN方法的整體概覽框架

?

首先用 landmark 將人臉的 68 個關鍵點定位,再依照不同區域 ROI 獨立檢測,最后將每個 ROI 的檢測匯總,便得到了全臉的檢測結果!

▲?圖3. 關鍵點和面部分割圖

?

為了利用這些關鍵點的信息和 AU 的定義,本文引入了專家先驗知識的概念,AU R-CNN 方法將 AU 與其相關的人臉區域的劃分定義為專家知識,提出了 AU partition rule 的規則。該規則如表 1 所示:

▲?表1. AU partition rule(也即專家先驗知識)

AU partition rule 將不同的 AU 分組,同一個位置區域發生的 AU 被分為一組,比如都是眼睛部位的 AU,所以誕生了 AU group 的概念。(表 1 左),由此全臉被劃分成九個區域,每個區域是一組 ROI 表示,最后本文使用該 ROI 的最小外包矩形來表示該 AU group 區域,如圖 4 所示。

圖4. AU group和其外包矩形,之后這些矩形被送入R-CNN的檢測頭

?

另外一個難題在于即使同一個區域也可能發生多個 AU 的表情出現,因此本文使用了 sigmoid cross entropy 的損失函數來計算損失并反向傳播優化網絡參數:

圖5. AU R-CNN 整體網絡結構圖,左側由先驗知識截取出不同區域的 bounding box,右側是檢測頭去分別檢測,與此同時,ground-truth label 也被按照不同區域分割了,最后計算 sigmoid cross entropy 損失


AU R-CNN擴展

AU R-CNN 可以被作為一個基礎框架產生出來很多擴展和變種,這是由于視頻的先后幀之間有時間順序關系,所以可以使用 ConvLSTM 建模先后幀之間的關系。如下圖所示,每個部位的小 box 被單獨的時間軸建模,用一個獨立的 ConvLSTM 去建模并學習。

但是在具體實驗中,作者發現這種利用上下幀的建模方法效果不是很好,甚至總體的平均 F1 score 不如單幀檢測。作者在實驗部分也分析了其中的原因。

?

另外除了 ConvLSTM 這種時空卷積,還可以使用雙流法等其他方法進行擴展,總體如下表:


實驗

實驗在 BP4D 和 DISFA 兩個數據庫上進行,該文的實驗部分值得稱道的一點是,作者采用了標準的 AU R-CNN,并在 ResNet-101 和 VGG-16、VGG-19 幾個網絡上進行測試:

實驗結果如下,可以看到 AU R-CNN 結合 ResNet-101 的 backbone 取得最佳的實驗結果:

剝離實驗中,主要探究這種局部檢測到底比標準的 CNN 那種全臉檢測效果好多少,所以在不同分辨率下與標準 CNN 也進行了比較:

DISFA 數據庫都是連續的表情視頻,實驗結果如下:

?

?

最后,作者總結了不同的 AU R-CNN 擴展及其適用范圍:

?


總結

在本文中,作者研究了如何將先驗知識融合進 R-CNN 這種物體檢測框架,并使用 RoI pooling 層在每個位置分別檢測,豐富的實驗證明了該做法的有效性,也取得了 State-of-the-art 的實驗結果。

點擊以下標題查看更多往期內容:?

  • 變分推斷(Variational Inference)最新進展簡述

  • 變分自編碼器VAE:原來是這么一回事

  • 圖神經網絡三劍客:GCN、GAT與GraphSAGE

  • 如何快速理解馬爾科夫鏈蒙特卡洛法?

  • 深度學習預訓練模型可解釋性概覽

  • ICLR 2020:從去噪自編碼器到生成模型

#投 稿?通 道#

?讓你的論文被更多人看到?

如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。

總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。?

PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學習心得技術干貨。我們的目的只有一個,讓知識真正流動起來。

?????來稿標準:

? 稿件確系個人原創作品,來稿需注明作者個人信息(姓名+學校/工作單位+學歷/職位+研究方向)?

? 如果文章并非首發,請在投稿時提醒并附上所有已發布鏈接?

? PaperWeekly 默認每篇文章都是首發,均會添加“原創”標志

?????投稿郵箱:

? 投稿郵箱:hr@paperweekly.site?

? 所有文章配圖,請單獨在附件中發送?

? 請留下即時聯系方式(微信或手機),以便我們在編輯發布時和作者溝通

????

現在,在「知乎」也能找到我們了

進入知乎首頁搜索「PaperWeekly」

點擊「關注」訂閱我們的專欄吧

關于PaperWeekly

PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。

總結

以上是生活随笔為你收集整理的AU R-CNN:利用专家先验知识进行表情运动单元检测的R-CNN模型的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。