當前位置：首頁 > 人工智能 > pytorch >内容正文

pytorch

【论文解读】PFLD：高精度实时人脸关键点检测算法

發(fā)布時間：2025/3/8 pytorch 27 豆豆

生活随笔收集整理的這篇文章主要介紹了【论文解读】PFLD：高精度实时人脸关键点检测算法小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

這篇文章作者分別來自天津大學、武漢大學、騰訊AI實驗室、美國天普大學。該算法對在高通ARM 845處理器可達140fps；另外模型大小較小，僅2.1MB；此外在許多關鍵點檢測的benchmark中也取得了相當好的結果。

摘要：

高精度，速度快，模型小是人臉關鍵點的實際使用必不可少的要求。為了同時考慮這三個問題，本文研究了一個整潔的模型，該模型在野外環(huán)境(如無約束的姿態(tài)、表情、光照和遮擋條件)和移動設備上的超實時速度下具有良好的檢測精度。更具體地說，我們定制了一個與加速技術相關的端到端single stage 網絡。在訓練階段，對每個樣本進行旋轉信息進行估計，用于幾何規(guī)則的關鍵點定位，然后在測試階段不涉及。在考慮幾何規(guī)則化的基礎上，設計了一種新的損失算法通過調整訓練集中不同狀態(tài)（如大姿態(tài)、極端光照和遮擋）的樣本權重，來解決數據不平衡的問題。我們進行了大量的實驗來證明我們的有效性，在被廣泛采用的具有挑戰(zhàn)性的基準測試中， 300W(包括iBUG, LFPW, AFW, HELEN，以及XM2VTS)和AFLW，設計并顯示其優(yōu)于最先進的替代品的性能。我們的模型只有2.1Mb 大小和達到140幀/張在手機上 (高通ARM 845處理器)高精度，適合大規(guī)模或實時應用。

為了能更清晰了解文章的內容，用下面的思維導圖來展示文章的主要貢獻

Introduction

人臉關鍵點檢測也稱為人臉對齊，目的是自動定位一組預定義的人臉基準點（比如眼角點、嘴角點）。作為一系列人臉應用的基礎，如人臉識別和驗證，以及臉部變形和人臉編輯。這個問題一直以來都受到視覺界的高度關注，在過去的幾年里，我們的產品取得了很大的進步。然而，開發(fā)一種實用的人臉關鍵點檢測器仍然具有挑戰(zhàn)性，因為檢測精度，處理速度和模型大小都應該考慮。

在現實世界條件下，獲得完美的面孔幾乎是不可能的。換句話說，人臉經常是出現在控制不足甚至沒有約束的環(huán)境中。在不同的照明條件下，它的外表有各種各樣的姿勢、表情和形狀，有時還有部分遮擋。圖1提供了這樣的幾個例子。此外，有足夠的訓練數據用于數據驅動方法也是模型性能的關鍵。在綜合考慮不同條件下，捕捉多個人臉可能是可行的，但這種收集方式會變得不切實際，特別是當需要大規(guī)范的數據來訓練深度模型時。在這種情況下,我們經常會遇到不平衡的數據分布。以下總結了有關人臉關鍵點檢測精度的問題，分為三個挑戰(zhàn)（考慮實際使用時，還有一個額外的挑戰(zhàn)！）。

Challenge #1 - Local Variation.

表情變化及極端光照（如高亮和陰影）和遮擋的下，人臉的部分區(qū)域特征就會發(fā)生較大偏差甚至消失的情況。

Challenge #2 - Global Variation.

姿態(tài)和成像質量是影響人臉在圖像中出現的兩個主要因素，當對人臉的整體結構估計錯誤時，會導致很大一部分標志點定位不理想。

Challenge #3 - Data Imbalance.

在淺層學習和深度學習中，一個可用的數據集在它的類/屬性之間顯示出不平等的分布，這是很常見的。這種不平衡很可能使算法/模型不能恰當地代表數據的特征，從而在不同屬性之間提供不理想的準確性。

上述挑戰(zhàn)極大地增加了準確檢測的難度，要求檢測器更加魯棒。

隨著便攜式設備的出現，越來越多的人喜歡隨時隨地處理他們的業(yè)務或娛樂。因此，除了追求檢測的高精度外，還應考慮以下挑戰(zhàn)。

Challenge #4 - Model Efficiency.

對與應用而言，另兩個限制是模型大小和計算需求。機器人、增強現實和視頻聊天等任務有望在一個裝備有限計算和內存資源的平臺(如智能手機或嵌入式產品)上及時執(zhí)行。

這一點特別要求探測器是模型尺寸小，處理速度快。毫無疑問，建立準確、高效、緊湊的實際關鍵點檢測系統是很有必要的。

網絡結構

黃色曲線包圍的是主網絡，用于預測特征點的位置；

綠色曲線包圍的部分為輔助子網絡，在訓練時預測人臉姿態(tài)（主要包括三個姿態(tài)角，，有文獻表明給網絡加這個輔助任務可以提高定位精度，具體參考原論文），這部分在測試時不需要。

backbone 網絡是 bottleneck，用MobileNet塊代替了傳統的卷積運算。通過這樣做，我們的backbone的計算量大大減少，從而加快了速度。此外，可以根據用戶需求通過調整MobileNets的width參數來壓縮我們的網絡，從而使模型更小，更快。

姿態(tài)角的計算方法：

預先定義一個標準人臉(在一堆正面人臉上取平均值)，在人臉主平面上固定11個關鍵點作為所有訓練人臉的參考;

使用對應的11個關鍵點和估計旋轉矩陣的參考矩陣;

由旋轉矩陣計算歐拉角。

網絡結構細節(jié)如下：

Loss函數

在深度學習中，數據不平衡是另一個經常限制準確檢測性能的問題。例如，訓練集可能包含大量正面，而缺少那些姿勢較大的面孔。如果沒有額外的技巧，幾乎可以肯定的是，由這樣的訓練集訓練的模型不能很好地處理大型姿勢情況。在這種情況下，“平均”懲罰每個樣本將使其不平等。為了解決這個問題，我們主張對訓練樣本數量少進行大的懲罰，而不是對樣本數量多的進行懲罰。

M為樣本個數，N為特征點個數，Yn為不同的權重，|| * ||為特征點的距離度量（L1或L2距離）。(以Y代替公式里的希臘字母)

進一步細化Yn:

其中：

即為最終的樣本權重。

K=3，這一項代表著人臉姿態(tài)估計的三個維度，即yaw, pitch, roll 角度，由計算公式可知角度越高，權重越大。

C為不同的人臉類別數，作者將人臉分成多個類別，比如側臉、正臉、抬頭、低頭、表情、遮擋等，w為與類別對應的給定權重，如果某類別樣本少則給定權重大。

3 Experimental Evaluation

作者在主流人臉特征點數據集300W,AFLW上測試了精度，盡管看起來上述模型很簡單，但超過了以往文獻的最高精度！

下圖是在300W上的CED，與其他算法相比有一定的優(yōu)勢

圖的含義：橫坐標是歸一化的平均誤差，縱坐標是人臉關鍵點的比例

下面來看一下算法處理速度和模型大小，圖中C代表i7-6700K CPU,G代表080 Ti GPU，G*代表Titan X GPU，A代表移動平臺Qualcomm ARM 845處理器。

下圖為在300W數據集上不同數據集難度上精度比較結果，依然是領先的。

其中PFLD 1X是標準網絡，PFLD 0.25X是MobileNet blocks width 參數設為0.25的壓縮網絡，PFLD 1X+是在WFLW數據集上預訓練的網絡。

下圖是該算法在AFLW數據集上與其他算法的精度比較：

同樣是達到了新高度！

結論：

人臉關鍵點探測器需要具備三個方面，才能勝任大規(guī)模和/或實時任務，即準確性、效率和模型大小。本文提出了一種實用的人臉關鍵點檢測器，稱為PFLD，它由主干網和輔助子網組成。backbone是由MobileNet塊構建的，它可以很大程度上釋放卷積層的計算壓力，并根據用戶的要求，通過調整寬度參數，使模型在尺寸上靈活。通過引入多尺度全連接層來擴大感受野，提高捕捉人臉結構的能力。為了進一步規(guī)范化關鍵點定位，我們自定義了另一個分支，即輔助網絡，通過輔助網絡可以有效地估計出關鍵點的旋轉信息。考慮幾何正則化和數據不平衡問題，設計了一種新的損失算法。大量的實驗結果表明，我們的設計在精度、模型大小和處理速度方面優(yōu)于最新的方法，因此驗證了我們的PFLD 0.25X在實際使用中是一個很好的折衷。

參考資料

https://arxiv.org/abs/1902.10859

https://zhuanlan.zhihu.com/p/73546427

https://www.sohu.com/a/299993701_633698

https://github.com/guoqiangqi/PFLD

https://github.com/polarisZhao/PFLD-pytorch （親測可用）

APP下載鏈接：https://pan.baidu.com/s/16HjDy9TyotCVwDdd55oWVQ?

提取碼：glwr

往期精彩回顧適合初學者入門人工智能的路線及資料下載機器學習及深度學習筆記等資料打印機器學習在線手冊深度學習筆記專輯《統計學習方法》的代碼復現專輯 AI基礎下載機器學習的數學基礎專輯獲取一折本站知識星球優(yōu)惠券，復制鏈接直接打開：https://t.zsxq.com/yFQV7am本站qq群1003271085。加入微信群請掃碼進群：

總結

以上是生活随笔為你收集整理的【论文解读】PFLD：高精度实时人脸关键点检测算法的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：【数据分析】数据分析（EDA）学习总结！
下一篇：【深度学习】深度学习的发展方向：深度强