日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Face Alignment at 3000 FPS via Regressing Local Binary Features(CVPR2014)读后感(first pass)

發布時間:2025/7/25 编程问答 29 豆豆
生活随笔 收集整理的這篇文章主要介紹了 Face Alignment at 3000 FPS via Regressing Local Binary Features(CVPR2014)读后感(first pass) 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
Face Alignment at 3000 FPS via Regressing Local Binary Features(CVPR2014)讀后感(first pass)


這篇文章還是通過訓練形狀誤差與特征的回歸模型來做人臉配準(face alignment)。重點在于它用回歸樹學習一個局部二值特征(LBF,注意不是LBP),用線性回歸來訓練回歸模型。

摘要翻譯

這篇文章展示了對人臉配準問題的一個高效,非常準確的回歸方法。我們的方法有兩個新穎的部分: 一組 局部二值特征, 和學習這些特征的局部性準則。這個局部性準則指導我們獨立的為每個人臉標記學習一組高判別性的局部二值特征。這個得到的局部二值特征會用于為最終輸出聯合的學習一個線性回歸模型(就是將這些局部而知特征連起來作為一個特征向量)。我們的方法在目前很具有挑戰性的測試目標上獲得了超好的效果。進一步,
由于提取和回歸局部二值特征計算量很低,我們這個系統的方法比之前方法快很多。它在筆記本上定位一組人臉標記點獲得了3000幀每秒的處理速度,或者在智能手機上(主要是ARM低功耗,計算能力差)300幀每秒。

介紹翻譯

判別性形狀回歸方法以解決準確和魯邦的人臉配準的主流方法先后涌現出來。這主要是因為這些方法有一些顯著的特征:1)它們是純判別性的(這有什么理論基礎么?);2) 它們可以迭代的執行形狀約束(意思是,迭代的將形狀收斂到最好。);3)它們有能力有效平衡訓練數據的具體體型(主要是由于線性回歸有一個正則化項)。
形狀回歸方法以級聯的方式預測臉部形狀 S 。從一個初始的形狀

,S
通過一級一級估計形狀增量

進階式改善的。在一個通用形式下,一個形狀增量


t 級回歸為



(1)
其中 I 是輸入圖像,

是來自于上一級的形狀,

是特征映射函數,

是線性回歸矩陣。應當注意的是

依賴于
I 和

。 在這種方式下學到的特征是指的是作為一個“形狀編碼”特征。通過將

加入到

,將回歸帶入到下一級。
這個特征映射函數

在形狀回歸中是必須的(意在說明LBF特征的重要性)。在前人的工作中,它不是由人工設定,就是通過學習得到。文獻32的過程簡單的使用了SIFT特征作為特征映射并通過線性回歸訓練

(本文的方法與這片文章相比是只是特征更好,比如速度更快,局部性的優勢?)。相比于這種簡單方法的優良工作特性,手工設置的通用目標特征并不是特定人臉配準問題的最優特征。相反,文獻[5,3]方法以基于樹的回歸結合



,并且是整個人臉區域的數據驅動的方法。
從原理上講,后面的基于學習的方法應該更好,因為它學習的特征是有針對性的。但是在已有文獻的報告中,它的效果只是與使用手工設的SIFT特征的方法持平(on par 怎么翻譯好?),我們認為這主要由于過高自由度的

導致的兩個問題。第一個是實際操作的問題。使用整個人臉區域作為訓練輸入結果導致了極大的特征池,如果我們想要學習最具判別性的特征組合,這個問題轉換為了無法負擔的訓練消耗。第二個是泛化問題,這個問題更為顯著。這個巨大的特征池具有太多的噪聲特征。這將很容易導致過擬合并有損測試集上的表現。
在我們的工作中,我們提出了一個更好地基于學習的方法。它通過一個“局部”原理使學習有規則的進行。這個原則主要是由于兩方面的見解:在一級中對于定位一個確定的地標點,1)最具判別性的紋理信息分布在上一級估計出的地標店的周圍,2)形狀的信息內容和這個地標點的局部紋理提供了充足的信息。這些見解表明我們或許應該首先獨立的為每一個地標點學習最具直覺型的特征來編碼局部紋理特征,然后再執行聯合的回歸去融合形狀的信息內容。
為學習

,我們提出了兩種正則化方法:

被分解為一組獨立的特征特征映射函數,例如

(L
是地標點的數量)。每一個

通過獨立的在第L個地標點的周圍的區域回歸學習到的。
這個提出的正則化方法可以有效的篩選出主要的噪聲和判別性較弱的特征,降低學習的復雜度,從而導致更好地泛化性能。(我想這句話最重要)
為學習每一個

,我們使用基于回歸的集成樹去歸納二值特征。為預測地標點,這個二值特征編碼了一個區域內的直覺性的結構信息。在集成了所有的局部二值特征去組成特征映射

之后,我們為全圖的形狀估計判別性的學習了

。我們發現我們的二步學習處理方法(局部二值特征和全局線性特征)比通過基于樹的回歸[5,3]的一步聯合的學習



要好很多。
除了具有更好地準確性,我們的方法還更高效。因為局部二值特征是基于樹的,并且高度稀疏,處理提取和回歸這樣的特征是十分迅速的。我們展出了一個快速的版本在一個單核筆記本上跑出了3000+fps,獲得了與最杰出的方法相媲美的結果。我們的正常情況下的版本跑出了300+fps的結果,并且在各種benchmark的精準度的比較上都比之前最杰出的方法更勝一籌。我們方法的高速性能在一些計算性能有限和計算負擔被主要擔心的場景和設備中顯得極為重要。比如說,我們的快速版本仍然可以現代手機上跑出300fts的成績。據我們所知,在移動終端上這是速度幾倍于實時方法的第一種方法。這將為一些在線人臉應用開辟新的機遇。
1st pass 小結
這篇文章有很高的應用價值。它與之前的face alignment by explicit shape regression都屬于判別性形狀回歸的方法。這片文章主要用的方法是線性回歸和回歸樹。這片文章的主要貢獻是使用限制使用了局部特征和回歸樹,將特征空間映射到線性空間,再使用線性回歸學習。文章對于如何提取一個landmark周圍的像素點沒有說明。應該是先求得當前形狀和平均形狀之間的旋轉和尺寸變換后,在用變換后的offset去像素點(在One
Millisecond Face Alignment with an Ensemble of Regression Trees中有詳細說明)。

整體思路

先說下整體的思路,再說這篇文章的特點,最后再說下問題(主要是我有疑問沒弄懂和弄懂的地方)。

1 整體思路是這樣的

Step 1 對圖片初始化 1 個shape(這個shape 就是一組點,目標是將它們移動到相應的眼睛鼻子嘴巴上)

Step 2 基于這個Shape 計算其每個點的周圍像素,或者兩shape兩個點中間像素的值(為了對光照魯棒,一般是兩個點像素的差值),這個特征記做Features。

Step 3 計算當前Shape 和 人工標記好Shape 的差異Delta_Shape , 然后訓練一個函數y = f(x) , 使 Delta_Shape = f(Features)。

Step 4 將這個Delta_Shape 加上初始的Shape 就是最終要求的人臉形狀。

這個過程就是該方法的Face Alignmeng 核心過程。所謂配準就是計算這個增量。訓練就是學習特征與這個增量的關系。本文的方法是對這個過程進行了級聯,從而降低了每次配準的難度。將上文Step 4 中的結果代入Step1 循環10次。就是整體的過程。

本文特點

首先是特征的學習。和之前的方法不同,這篇文章使用 Random Forest 學習的結果作為特征。而不是直接向之前一樣用像素差值作為特征,上個圖吧



這個圖比較宏觀,可以看出的是第二列的特征是通過學習得到的,第四列的回歸關系是線性的,也是通過學習得到的(這個過程本人還不是很懂,懂了之后對這一部分要豐富一下,但我知道可以用liblinear來做,過幾天做出來再講講里面的細節和問題 ,對于內存不夠的問題可以用稀疏矩陣, 可以看出第三列里特征矩陣式稀疏的)。

我現在還在研究上一幅圖第三列之前的過程是如何計算的, 主要先說這一部分吧。當然如果計算出了這個局部二值特征,本文的工作也完成一大半。因為后面的工作是交給liblinear庫去做的。

對于局部二值特征的學習現在是傷透了腦筋,對于連續的變量,不知道如何使用回歸樹,更確切的講,離散的值可以算一個信息增益來選擇特征,那么連續的變量如何選擇特征呢,使用哪些指標?

對于這個問題,現在找到了兩種辦法,第一個辦法是使用特征與屬性的相關性來選擇特征,然后在隨機給出閾值。另一個方法是選擇一個特征和閾值,這個特征和閾值可以讓將樣本分為兩部分,每一部分求一個平均,然后兩部分的樣本各自減去平均值再求平方和。

FAQ

1. 對連續的X和Y 如何學習回歸樹

這個可以參考face alignment by explicit shape regression這片文章和CART算法。

有些問題大家一起思考一下,盡可能寫下您的見解。

1 深度為 5 和 7 的樹分別多少個splite node 和 leaf node。

2 什么是回歸?

3 回歸樹的X 和 Y 分別是什么 ?

4 對于樹中的一個split node ,它分到這個節點的樣本繼續分成兩部分,怎樣的兩部分才是最好的?

5 什么是SSE?

6 信息增益是什么?(學習回歸樹之前必看)

7 什么叫做model combination ?

8 隨機森林和Boosted Tree 有什么區別,本文的方法是那種?

參考資料

龍星課程2012lesson7 model combination.

X. P. Burgos-Artizzu, P. Perona, and P. Dollar. Robust face

landmark estimation under occlusion. 2013. (有源碼)

X. Cao, Y. Wei, F. Wen, and J. Sun. Face alignment by

explicit shape regression. In Computer Vision and Pattern

Recognition (CVPR), 2012 IEEE Conference on. IEEE,

2012.

總結

以上是生活随笔為你收集整理的Face Alignment at 3000 FPS via Regressing Local Binary Features(CVPR2014)读后感(first pass)的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。