性别年龄论文阅读(4)——SSR-Net
性別年齡論文閱讀(4)——SSR-Net
版權聲明:本文為博主原創文章,未經博主允許不得轉載https://blog.csdn.net/heruili/article/details/88313751
SSR-Net: A Compact Soft Stagewise Regression Network for Age Estimation
Conference: Twenty-Seventh International Joint Conference on Artificial Intelligence {IJCAI-18}
本文提出了一種新的CNN模型,稱為Soft Stagewise Regression Network(SSR-Net),用緊湊的模型大小用于單一圖像的年齡估計。在DEX的啟發下,我們通過多類分類處理年齡估計,然后通過計算期望值將分類結果轉化為回歸。SSR-Net采用從粗到細的策略,分多個階段執行多類分類。每個階段只負責細化前一階段的決策,以獲得更準確的年齡估計。因此,每個階段執行的任務只有很少的類和需要的神經元,大大減少了模型的大小。為了彌補由于把年齡分段造成的量化問題,SSR-Net對每個年齡段允許其進行適當的調整,允許它根據輸入的人臉圖像進行移位和縮放。將多階段策略和動態范圍結合到軟階段回歸的公式中。提出了一種實現軟階段回歸的網絡體系結構。結果SSR-Net模型非常緊湊,只需要0.32 MB。盡管它體積小,SSR-Net的表現方法的最先進的模型尺寸的方法常常是超過1500×大。SSR-Net的模型僅有0.32MB,卻能取到比其大1500倍模型相當的精度.
主要內容
1.受DEX啟發: 將年齡預測回歸問題變為多分類問題
2.由粗到細策略,每個階段執行部分年齡分類,任務量少(Stagewise):每個階段預測類別少,產生更小參數和更緊湊的模型
3.解決量化年齡問題,引入動態范圍,讓每個bin可以平移和縮放(Soft ):允許bin根據輸入來進行平移和縮放
4.模型大小可以達到0.32M
Introduction
從單張圖片預測年齡是計算機視覺中的一個經典問題,在視頻監控、零售以及人機交互中有很多的應用.由于相同年齡的人的外觀差別很大導致這個問題很有挑戰性.有些年紀大的人看起來很小而有些正好相反/因此,即使對于人類來說這也是一個有挑戰性的任務.
Soft stagewise regression network
本節首先說明問題。然后,我們描述了兩個關鍵的思想,逐步回歸和動態范圍。最后給出了網絡體系結構,并給出了軟件逐步回歸的公式
Problem formulation
在單張人臉圖像的真實年齡估計問題中,我們給出了一組訓練人臉圖像X ={x n | n = 1…N},每個圖像x N的實際年齡y N∈Y,其中N為圖像個數,Y為年齡區間。我們的目標是找到一個預測?y = F的函數F(x)的年齡對于一個給定的圖像x。訓練,我們尋找函數F通過最小化預測和實際年齡之間的平均絕對誤差(MAE),
Stagewise regression
以往的工作將年齡估計的回歸問題轉化為求解一個多類分類問題,然后計算期望值作為預測年齡。為
例如DEX [Rothe et al., 2015;Rothe等,2016a]將年齡區間Y = [0,V]均勻劃分為s個不重疊的箱。因此每個箱的寬度是V/S,DEX為s類年齡分類問題訓練了一個網絡。對于給定的圖像x,網絡輸出一個分布向量 p = (p 0 ,p 1 ,…,p s?1 )表示x屬于每個年齡組的概率。然后通過計算以下期望值來預測年齡
為了得到更準確的估計,DEX將年齡區間精細劃分,并將bin寬度設置為一歲,即,如果Y =[0…100],則有101個箱子(bins)。它在最后階段為全連接(FC)層生成了大量的參數,消耗了大量的內存。
為了在不降低模型精度的前提下減小模型的尺寸,我們提出了一種多階段預測的由粗到精策略。假設有K個階段,第K個階段有s個箱子。For each stage, we
train a network F k that generates the distribution for that stage. 年齡由階段回歸公式預測,
假設我們想要估計0 ~ 90歲范圍內的年齡(V =90)。
假設我們有兩個階段(K =2),每個階段(s1 = s2 = 3)都有三個箱子。從分類的角度來看,第1階段將圖像分為青年(0~30)、中年(30~60)或老年(60~90)。對于階段2,階段1中的每個箱子進一步劃分為s 2 = 3個箱子。因此,階段2箱體寬度為90 /(3·3)= 10。階段2的分類器將圖像分類為相對較年輕(+0~10)、中間(+10~20)或內部相對較老(+20~30)
第一階段分配的年齡組。注意,第2階段只有一個分類器,第1階段的所有年齡組共享它。階段1以粗粒度預測年齡,而階段2以細粒度細化年齡。階段回歸的優點是,每個階段的類數都很小,導致更少的參數和更緊湊的模型
Network structure
圖1(a)顯示了擬議的SSR-Net的整體網絡結構。受Yang等人[Yang et al., 2017]提出的互補的2-stream結構的啟發,我們采用了包含兩個異構流的2-stream模型。對于這兩種流,基本構建塊由3×3卷積、批處理歸一化、非線性激活和2×2池組成。然而,每個流都采用不同類型的激活函數(ReLU與Tanh)和池(平均與最大值),以使它們異構。通過這種方式,他們可以探索不同的特性,并且他們的融合可以提高性能。不同階段采用不同層次的特征。對于每個階段,在某個級別上,來自兩個流的特性都被輸入到一個融合塊中,如圖1(b)所示。
網絡結構
實驗是在一臺使用Intel i7 CPU和NVIDIA GTX1080Ti的機器上進行的。該程序是用Keras實現的。用于軟階段回歸的自定義層由Keras的自動微分提供支持。在訓練中,隨機激活常用的數據增強技巧,包括縮放、移動、剪切和翻轉。除非另有說明,SSR-Net使用三個階段,其中s1 = s2 = s3 = 3,即,SSR-Net(3,3,3)。采用Adam方法[Kingma and Ba, 2014]對90個epoch的網絡參數進行優化。初始學習率為0.002,每30個時代降低0.1倍。對于IMDB數據集,批處理大小為128,對于其他數據集,批處理大小為50。SSR-Net的培訓時間約為3小時,包括預培訓時間
論文實驗結果
我們將提出的SSR-Net模型與一套最先進的基于深度學習的年齡估計方法進行了比較。競爭的方法可以大致分為兩組,大模型和緊湊模型,根據他們的模型大小
緊湊的模型強調減少內存占用,并可能犧牲內存和速度的準確性。在這個類別中,年齡估計模型較少。ORCNN [Niuet al., 2016]將有序回歸問題轉化為一系列二元分類問題,并使用一個多輸出CNN來共同解決這些子問題。MR-CNN [Niu et al., 2016]使用了類似的網絡,但用于度量回歸。MobileNet [Howard et al., 2017]將標準卷積替換為深度可分離卷積,以減少參數和計算開銷。Dense-Net [Huang et al., 2017]以一種前饋的方式將每一層與每一層連接起來,可以用更少的參數實現良好的性能。MobileNet和DenseNet都是具有可調參數的通用網絡模型。我們選擇了這些參數,使它們的模型大小大約為1mb,以便與SSR-Net進行公平的比較
比較MobileNet、DenseNet、SSR-Net的培訓進度(從左到右),以及它們在IMDB、WIKI和MORPH2上的驗證比較(從上到下)。對于每個數據集,80%的圖像作為訓練集,其余20%作為驗證集。對于前三列,藍色曲線表示MAE中訓練誤差的進展情況,橙色曲線表示驗證誤差的進展情況。如果這兩條曲線很接近,說明從訓練數據得到的模型可以更好地應用于驗證數據。具有此屬性的模型較少受到過度擬合的影響。從這個角度來看,SSR-Net在所有三個數據集上都優于其他兩個方法。最后一列顯示SSR-Net優于MORPH2驗證集中的其他驗證集
Conclusion
本文提出了一種新的年齡估計方法——軟階段回歸網絡(SSR-Net)。它既緊湊又高效。在多個年齡估計數據集上也取得了良好的性能。該階段預測結構避免了大量的神經元,使模型更加緊湊。通過利用動態范圍,可以更好地解決量化誤差,使SSR-Net的性能可以與那些笨重的模型相媲美。SSR-Net具有體積小、計算效率高等優點,適用于移動或嵌入式設備的年齡估計。在未來,我們將探討對其他回歸問題提出的設想。
總結
以上是生活随笔為你收集整理的性别年龄论文阅读(4)——SSR-Net的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: fwrite在任意位置写入文件,并可修改
- 下一篇: group by 的实现原理