當(dāng)前位置：首頁 >

Face Alignment at 3000 FPS via Regressing Local Binary Features（CVPR2014）读后感（first pass）

發(fā)布時(shí)間：2025/7/25 42 豆豆

生活随笔收集整理的這篇文章主要介紹了 Face Alignment at 3000 FPS via Regressing Local Binary Features（CVPR2014）读后感（first pass）小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

Face Alignment at 3000 FPS via Regressing Local Binary Features（CVPR2014）讀后感（first pass）

這篇文章還是通過訓(xùn)練形狀誤差與特征的回歸模型來做人臉配準(zhǔn)(face alignment)。重點(diǎn)在于它用回歸樹學(xué)習(xí)一個(gè)局部二值特征（LBF，注意不是LBP），用線性回歸來訓(xùn)練回歸模型。

摘要翻譯

這篇文章展示了對(duì)人臉配準(zhǔn)問題的一個(gè)高效，非常準(zhǔn)確的回歸方法。我們的方法有兩個(gè)新穎的部分：一組局部二值特征，和學(xué)習(xí)這些特征的局部性準(zhǔn)則。這個(gè)局部性準(zhǔn)則指導(dǎo)我們獨(dú)立的為每個(gè)人臉標(biāo)記學(xué)習(xí)一組高判別性的局部二值特征。這個(gè)得到的局部二值特征會(huì)用于為最終輸出聯(lián)合的學(xué)習(xí)一個(gè)線性回歸模型（就是將這些局部而知特征連起來作為一個(gè)特征向量）。我們的方法在目前很具有挑戰(zhàn)性的測(cè)試目標(biāo)上獲得了超好的效果。進(jìn)一步，
由于提取和回歸局部二值特征計(jì)算量很低，我們這個(gè)系統(tǒng)的方法比之前方法快很多。它在筆記本上定位一組人臉標(biāo)記點(diǎn)獲得了3000幀每秒的處理速度，或者在智能手機(jī)上（主要是ARM低功耗，計(jì)算能力差）300幀每秒。

介紹翻譯

判別性形狀回歸方法以解決準(zhǔn)確和魯邦的人臉配準(zhǔn)的主流方法先后涌現(xiàn)出來。這主要是因?yàn)檫@些方法有一些顯著的特征：1）它們是純判別性的（這有什么理論基礎(chǔ)么？）；2）它們可以迭代的執(zhí)行形狀約束（意思是，迭代的將形狀收斂到最好。）；3）它們有能力有效平衡訓(xùn)練數(shù)據(jù)的具體體型（主要是由于線性回歸有一個(gè)正則化項(xiàng)）。
形狀回歸方法以級(jí)聯(lián)的方式預(yù)測(cè)臉部形狀 S 。從一個(gè)初始的形狀

，S
通過一級(jí)一級(jí)估計(jì)形狀增量

進(jìn)階式改善的。在一個(gè)通用形式下，一個(gè)形狀增量

在
t 級(jí)回歸為

（1）
其中 I 是輸入圖像，

是來自于上一級(jí)的形狀，

是特征映射函數(shù)，

是線性回歸矩陣。應(yīng)當(dāng)注意的是

依賴于
I 和

。在這種方式下學(xué)到的特征是指的是作為一個(gè)“形狀編碼”特征。通過將

加入到

，將回歸帶入到下一級(jí)。
這個(gè)特征映射函數(shù)

在形狀回歸中是必須的（意在說明LBF特征的重要性）。在前人的工作中，它不是由人工設(shè)定，就是通過學(xué)習(xí)得到。文獻(xiàn)32的過程簡(jiǎn)單的使用了SIFT特征作為特征映射并通過線性回歸訓(xùn)練

（本文的方法與這片文章相比是只是特征更好，比如速度更快，局部性的優(yōu)勢(shì)？）。相比于這種簡(jiǎn)單方法的優(yōu)良工作特性，手工設(shè)置的通用目標(biāo)特征并不是特定人臉配準(zhǔn)問題的最優(yōu)特征。相反，文獻(xiàn)[5,3]方法以基于樹的回歸結(jié)合

和

，并且是整個(gè)人臉區(qū)域的數(shù)據(jù)驅(qū)動(dòng)的方法。
從原理上講，后面的基于學(xué)習(xí)的方法應(yīng)該更好，因?yàn)樗鼘W(xué)習(xí)的特征是有針對(duì)性的。但是在已有文獻(xiàn)的報(bào)告中，它的效果只是與使用手工設(shè)的SIFT特征的方法持平（on par 怎么翻譯好？），我們認(rèn)為這主要由于過高自由度的

導(dǎo)致的兩個(gè)問題。第一個(gè)是實(shí)際操作的問題。使用整個(gè)人臉區(qū)域作為訓(xùn)練輸入結(jié)果導(dǎo)致了極大的特征池，如果我們想要學(xué)習(xí)最具判別性的特征組合，這個(gè)問題轉(zhuǎn)換為了無法負(fù)擔(dān)的訓(xùn)練消耗。第二個(gè)是泛化問題，這個(gè)問題更為顯著。這個(gè)巨大的特征池具有太多的噪聲特征。這將很容易導(dǎo)致過擬合并有損測(cè)試集上的表現(xiàn)。
在我們的工作中，我們提出了一個(gè)更好地基于學(xué)習(xí)的方法。它通過一個(gè)“局部”原理使學(xué)習(xí)有規(guī)則的進(jìn)行。這個(gè)原則主要是由于兩方面的見解：在一級(jí)中對(duì)于定位一個(gè)確定的地標(biāo)點(diǎn)，1）最具判別性的紋理信息分布在上一級(jí)估計(jì)出的地標(biāo)店的周圍，2）形狀的信息內(nèi)容和這個(gè)地標(biāo)點(diǎn)的局部紋理提供了充足的信息。這些見解表明我們或許應(yīng)該首先獨(dú)立的為每一個(gè)地標(biāo)點(diǎn)學(xué)習(xí)最具直覺型的特征來編碼局部紋理特征，然后再執(zhí)行聯(lián)合的回歸去融合形狀的信息內(nèi)容。
為學(xué)習(xí)

，我們提出了兩種正則化方法：

被分解為一組獨(dú)立的特征特征映射函數(shù)，例如

（L
是地標(biāo)點(diǎn)的數(shù)量）。每一個(gè)

通過獨(dú)立的在第L個(gè)地標(biāo)點(diǎn)的周圍的區(qū)域回歸學(xué)習(xí)到的。
這個(gè)提出的正則化方法可以有效的篩選出主要的噪聲和判別性較弱的特征，降低學(xué)習(xí)的復(fù)雜度，從而導(dǎo)致更好地泛化性能。（我想這句話最重要）
為學(xué)習(xí)每一個(gè)

，我們使用基于回歸的集成樹去歸納二值特征。為預(yù)測(cè)地標(biāo)點(diǎn)，這個(gè)二值特征編碼了一個(gè)區(qū)域內(nèi)的直覺性的結(jié)構(gòu)信息。在集成了所有的局部二值特征去組成特征映射

之后，我們?yōu)槿珗D的形狀估計(jì)判別性的學(xué)習(xí)了

。我們發(fā)現(xiàn)我們的二步學(xué)習(xí)處理方法（局部二值特征和全局線性特征）比通過基于樹的回歸[5,3]的一步聯(lián)合的學(xué)習(xí)

和

要好很多。
除了具有更好地準(zhǔn)確性，我們的方法還更高效。因?yàn)榫植慷堤卣魇腔跇涞?#xff0c;并且高度稀疏，處理提取和回歸這樣的特征是十分迅速的。我們展出了一個(gè)快速的版本在一個(gè)單核筆記本上跑出了3000+fps，獲得了與最杰出的方法相媲美的結(jié)果。我們的正常情況下的版本跑出了300+fps的結(jié)果，并且在各種benchmark的精準(zhǔn)度的比較上都比之前最杰出的方法更勝一籌。我們方法的高速性能在一些計(jì)算性能有限和計(jì)算負(fù)擔(dān)被主要擔(dān)心的場(chǎng)景和設(shè)備中顯得極為重要。比如說，我們的快速版本仍然可以現(xiàn)代手機(jī)上跑出300fts的成績(jī)。據(jù)我們所知，在移動(dòng)終端上這是速度幾倍于實(shí)時(shí)方法的第一種方法。這將為一些在線人臉應(yīng)用開辟新的機(jī)遇。
1st pass 小結(jié)
這篇文章有很高的應(yīng)用價(jià)值。它與之前的face alignment by explicit shape regression都屬于判別性形狀回歸的方法。這片文章主要用的方法是線性回歸和回歸樹。這片文章的主要貢獻(xiàn)是使用限制使用了局部特征和回歸樹，將特征空間映射到線性空間，再使用線性回歸學(xué)習(xí)。文章對(duì)于如何提取一個(gè)landmark周圍的像素點(diǎn)沒有說明。應(yīng)該是先求得當(dāng)前形狀和平均形狀之間的旋轉(zhuǎn)和尺寸變換后，在用變換后的offset去像素點(diǎn)（在One
Millisecond Face Alignment with an Ensemble of Regression Trees中有詳細(xì)說明）。

整體思路

先說下整體的思路，再說這篇文章的特點(diǎn)，最后再說下問題（主要是我有疑問沒弄懂和弄懂的地方）。

1 整體思路是這樣的

Step 1 對(duì)圖片初始化 1 個(gè)shape（這個(gè)shape 就是一組點(diǎn)，目標(biāo)是將它們移動(dòng)到相應(yīng)的眼睛鼻子嘴巴上）

Step 2 基于這個(gè)Shape 計(jì)算其每個(gè)點(diǎn)的周圍像素，或者兩shape兩個(gè)點(diǎn)中間像素的值（為了對(duì)光照魯棒，一般是兩個(gè)點(diǎn)像素的差值）,這個(gè)特征記做Features。

Step 3 計(jì)算當(dāng)前Shape 和人工標(biāo)記好Shape 的差異Delta_Shape , 然后訓(xùn)練一個(gè)函數(shù)y = f(x) , 使 Delta_Shape = f(Features)。

Step 4 將這個(gè)Delta_Shape 加上初始的Shape 就是最終要求的人臉形狀。

這個(gè)過程就是該方法的Face Alignmeng 核心過程。所謂配準(zhǔn)就是計(jì)算這個(gè)增量。訓(xùn)練就是學(xué)習(xí)特征與這個(gè)增量的關(guān)系。本文的方法是對(duì)這個(gè)過程進(jìn)行了級(jí)聯(lián)，從而降低了每次配準(zhǔn)的難度。將上文Step 4 中的結(jié)果代入Step1 循環(huán)10次。就是整體的過程。

本文特點(diǎn)

首先是特征的學(xué)習(xí)。和之前的方法不同，這篇文章使用 Random Forest 學(xué)習(xí)的結(jié)果作為特征。而不是直接向之前一樣用像素差值作為特征，上個(gè)圖吧

這個(gè)圖比較宏觀，可以看出的是第二列的特征是通過學(xué)習(xí)得到的，第四列的回歸關(guān)系是線性的，也是通過學(xué)習(xí)得到的（這個(gè)過程本人還不是很懂，懂了之后對(duì)這一部分要豐富一下，但我知道可以用liblinear來做，過幾天做出來再講講里面的細(xì)節(jié)和問題，對(duì)于內(nèi)存不夠的問題可以用稀疏矩陣，可以看出第三列里特征矩陣式稀疏的）。

我現(xiàn)在還在研究上一幅圖第三列之前的過程是如何計(jì)算的，主要先說這一部分吧。當(dāng)然如果計(jì)算出了這個(gè)局部二值特征，本文的工作也完成一大半。因?yàn)楹竺娴墓ぷ魇墙唤oliblinear庫去做的。

對(duì)于局部二值特征的學(xué)習(xí)現(xiàn)在是傷透了腦筋，對(duì)于連續(xù)的變量，不知道如何使用回歸樹，更確切的講，離散的值可以算一個(gè)信息增益來選擇特征，那么連續(xù)的變量如何選擇特征呢，使用哪些指標(biāo)？

對(duì)于這個(gè)問題，現(xiàn)在找到了兩種辦法，第一個(gè)辦法是使用特征與屬性的相關(guān)性來選擇特征，然后在隨機(jī)給出閾值。另一個(gè)方法是選擇一個(gè)特征和閾值，這個(gè)特征和閾值可以讓將樣本分為兩部分，每一部分求一個(gè)平均，然后兩部分的樣本各自減去平均值再求平方和。

FAQ

1. 對(duì)連續(xù)的X和Y 如何學(xué)習(xí)回歸樹

這個(gè)可以參考face alignment by explicit shape regression這片文章和CART算法。

有些問題大家一起思考一下，盡可能寫下您的見解。

1 深度為 5 和 7 的樹分別多少個(gè)splite node 和 leaf node。

2 什么是回歸？

3 回歸樹的X 和 Y 分別是什么？

4 對(duì)于樹中的一個(gè)split node ，它分到這個(gè)節(jié)點(diǎn)的樣本繼續(xù)分成兩部分，怎樣的兩部分才是最好的？

5 什么是SSE？

6 信息增益是什么？（學(xué)習(xí)回歸樹之前必看）

7 什么叫做model combination ？

8 隨機(jī)森林和Boosted Tree 有什么區(qū)別，本文的方法是那種？

參考資料

龍星課程2012lesson7 model combination.

X. P. Burgos-Artizzu, P. Perona, and P. Dollar. Robust face

landmark estimation under occlusion. 2013. （有源碼）

X. Cao, Y. Wei, F. Wen, and J. Sun. Face alignment by

explicit shape regression. In Computer Vision and Pattern

Recognition (CVPR), 2012 IEEE Conference on. IEEE,

2012.

總結(jié)

以上是生活随笔為你收集整理的Face Alignment at 3000 FPS via Regressing Local Binary Features（CVPR2014）读后感（first pass）的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：【CCAI大咖秀】AlphaGo/Mob
下一篇：移除 RSA-4096 Ransomwa