论文盘点:性别年龄分类器详解
?PaperWeekly 原創 ·?作者|孫裕道
學校|北京郵電大學博士生
研究方向|GAN圖像生成、情緒對抗樣本生成
引言
年齡和性別在社會交往中起著基礎性的作用。隨著社交平臺和社交媒體的興起,自動年齡和性別分類已經成為越來越多應用程序的相關內容。本文會盤點出近幾年來關于深度年齡和性別識別的優質論文。
CVPR 2015
論文標題:Age and Gender Classification using Convolutional Neural Networks
論文來源:CVPR 2015
論文鏈接:https://www.sci-hub.ren/10.1109/CVPRW.2015.7301352
代碼鏈接:https://github.com/GilLevi/AgeGenderDeepLearning
1.1 模型介紹
在該論文是第一篇將深度學習引入到年齡和性別的分類任務中,作者證明通過使用深卷積神經網絡的學習表示,可以顯著提高年齡和性別的分類任務的性能。因此,該論文提出了一個卷積網絡架構,即使在學習數據量有限的情況下也可以使用。
從社交圖像庫收集一個大的、帶標簽的圖像訓練集,用于年齡和性別估計,需要訪問圖像中出現的對象的個人信息,這些信息通常是私有的,或者手動標記既繁瑣又耗時。因此,用于從真實社會圖像中估計年齡和性別的數據集在大小上相對有限。當深度學習的方法應用于如此小的圖像采集時,過擬合是一個常見的問題。
如下圖所示,為作者提出的一個簡單的 CNN 網絡架構,該網絡包含三個卷積層,每個卷積層后面都有一個校正的線性運算和池化層。前兩層使用對參數進行正則化操作。
第一卷積層包含 96個7×7 像素的卷積核,第二個卷積層包含 256 個 5×5 像素的卷積核,第三層和最后一層包含 384 個 3×3 像素的卷積核。最后,添加兩個全連接層,每個層包含 512 個神經元。
在訓練網絡的過程中,作者還應用了兩種額外的方法來進一步限制過度擬合的風險。第一個是 dropout 學習(即隨機設置網絡神經元的輸出值為零)。該網絡包括兩個 dropout 層,丟失率為 0.5(將神經元的輸出值設為零的幾率為 50%)。
第二個是使用數據增強技術,從 256×256 的輸入圖像中隨機抽取 227×227 個像素,并在每個前后訓練過程中隨機鏡像。這與使用的多種裁剪和鏡像變體類似。
1.2 實驗結果
作者使用 Adience 數據集進行基準測試 CNN 設計的準確性,該數據集是為年齡和性別分類而設計的。Adience 集包括從智能手機設備自動上傳到 Flickr 的圖像。
因為這些圖片是在沒有事先人工過濾的情況下上傳的,就像媒體網頁或社交網站上的典型情況一樣。整個 Adience 收藏包括 2284 個受試者的大約 26K 張圖片。如下表所示列出了收集到的不同性別和年齡組的分類情況。
下表分別給出了性別和年齡分類結果,可以看出論文中提出的方法的準確率要比其它方法更高。
下圖為性別錯誤分類。第一行:女性被誤認為是男性。最下面一行:男性被誤認為是女性。
下圖為年齡錯誤分類。第一行:年長的被試被誤認為是年輕人。最下面一行:年輕人被誤認為是老年人。
由上面兩張圖是系統所犯的許多錯誤都是由于某些 Adience 基準圖像的觀看條件極為困難所致。最值得注意的是由模糊或低分辨率和遮擋(尤其是濃妝)引起的錯誤。性別估計錯誤也經常發生在嬰兒或非常年幼的兒童的圖像中,因為這些圖像還沒有明顯的性別屬性。
IWBF 2018
論文標題:Age and Gender Classification from Ear Images
論文來源:IWBF 2018
論文鏈接:https://arxiv.org/abs/1806.05742
2.1 論文貢獻
該論文是一篇有趣文章,研究是從耳朵圖像進行年齡和性別的分類。作者采用卷積神經網絡模型 AlexNet、VGG-16、GoogLeNet 和 squezenet。在一個大規模的耳朵數據集上進行了訓練,分類器通過人耳對性別和年齡進行分類。該論文的貢獻分為三個部分:
對于幾何特征,作者在耳朵上使用了 8 個標志點,并從中衍生出 16 個特征。
對于基于外觀的方法,作者使用了一個大型 ear 數據集,利用卷積神經網絡模型來對年齡和性別進行分類。
與之前的工作相比,作者在性別分類方面取得了優異的成績。
2.2 模型介紹
論文使用幾何特征和在這些特征上使用的分類器,以及基于外觀的表示進行分類。
2.2.1 幾何特征
下圖為人耳標志位和相關的幾何特征。由于每個幾何特征具有不同的取值范圍,為了使其規范化,作者在訓練集中計算了每個特征的均值和標準差。然后并對它們進行歸一化,使它們具有零均值和單位方差。在 16 個耳朵的幾何特征中選擇出重要的6個。
2.2.2?基于外觀的表示與分類
本研究中使用的第一個深度卷積神經網絡結構是 AlexNet。AlexNet 包含五個卷積層和三個全連接層。在網絡訓練中,為了防止過度擬合,采用了 dropout 方法。第二個深度卷積神經網絡結構是 VGG-16。
VGG-16 包含 16 個卷積層,3 個全連接層和在卷積層之后的 softmax 分類器。第三個深度卷積神經網絡結構是 GoogleNet,它是一個更深層次的網絡,包含 22 層。它基于初始模塊,主要是幾個初始模塊的串聯。
inception 模塊包含幾個不同大小的卷積核。將不同的卷積核輸出組合起來。最后一個 CNN 架構是 squezenet,它提出了一種減少參數數量和模型大小的新方法。使用 1×1 過濾器,而不是 3×3 過濾器。該體系結構還包含剩余連接,以提高反向傳播學習的效率。此外,沒有全連接層。使用平均池化層,而不是全連接層。
2.3 實驗結果
2.3.1 數據集介紹
論文選用的數據集包含 338 個不同對象的面部輪廓圖像。這個數據集中的所有受試者都超過18歲。從下圖可以看到來自數據集的樣本圖像。這些受試者分為五個不同的年齡組。這些年齡組分別為 18-28、29-38、39-48、49-58、59-68+。根據幾何特征的變化對年齡組進行分類。
2.3.2 性別分類結果
如下表所示為性別分類的結果,第一列為分類器的名稱,第二列包含相應的分類精度。為了提醒讀者所使用的特性,第二列的括號中包含了這些特性的類型。從表中可以看出,基于外觀的方法優于基于幾何特征的分類器
2.3.3 年齡組分類結果
如下表所示為年齡組分類的結果,同樣的,第一列包含分類器的名稱,第二列包含相應的分類精度。我們會發現,基于幾何特征的方法和基于外觀的方法之間的性能差距很小,基于外觀的方法能稍微優越一點。
CVPR 2019
論文標題:Multimodal Age and Gender Classification Using Ear and Profile Face Images
論文來源:CVPR 2019
論文鏈接:https://arxiv.org/abs/1907.10081
3.1 核心思想
在該論文中,作者提出一個多模態深度神經網路的年齡和性別分類框架,輸入為一個側面的臉和一個耳朵的圖像。主要目標是通過進一步利用生物特征識別方法:耳朵外觀,來提高從側面人臉圖像中提取軟生物特征的準確性。輪廓人臉圖像包含了豐富的年齡和性別分類信息源。本篇論文的貢獻分為以下三個部分:
作者提出了一個多模式年齡和性別分類系統,該系統以側面人臉和耳朵圖像為輸入。所提出的系統執行端到端多模式、多任務學習。
作者全面探討了利用多模式輸入進行年齡和性別分類的各種方法。并采用了三種不同的數據融合方法。
作者將中心損失和 softmax 損失結合起來訓練深度神經網絡模型。
3.2 模型介紹
3.2.1 CNN網絡和損失函數
在本文中采用了 VGG-16 和 ResNet-50 神經網絡結構。在 VGG16 中,有 13 個卷積層和3個全連接層。為防止過度擬合,采用了 dropout 方法。另一個 CNN 模型是 ResNet-50。與 VGG-16 不同,除了 ResNet-50 的輸出層外,沒有全連接層。在卷積部分和輸出層之間存在一個全局池化層。兩個網絡的輸入大小都是 224×224。
作者利用中心損失函數和 softmax 函數來獲得更多的鑒別特征。中心損失背后的主要動機是提供更接近相應類中心的特性。測量特征到相關類中心的距離,計算出中心損失。中心損失試圖為每個類中心生成更接近的特征,但它不負責提供可分離的特征,因此,softmax 損失對其進行了補充。具體的計算公式如下:
3.2.2 多模態多任務
作者研究了年齡和性別分類的性能,分別使用耳朵和側面人臉圖像,作為單峰系統,并結合作為一個多模式,多任務系統。對于多模式、多任務年齡和性別分類總損失計算,作者結合了年齡和性別預測的所有損失。具體的計算公式如下所示:
3.2.3 數據融合
為了實現數據融合,作者采用了三種不同的方法,即空間融合、強度融合和信道融合。在空間融合中,將側面人臉和耳朵圖像并排連接起來。在信道融合中,將圖像沿著通道串聯起來。在強度融合中,平均化輪廓面部和耳朵圖像的像素強度值。具體詳情如下圖所示:
3.2.4 特征融合
對于基于特征的融合策略,作者訓練了兩個獨立的 CNN 模型,其中一個以側面人臉圖像為輸入,另一個以耳朵圖像為輸入。當這些網絡的表示部分(卷積部分)被分開訓練時,最后一個卷積層的輸出被連接并饋送給分類器部分。具體詳情如下圖所示:
3.2.5?分數融合
對于基于分數的融合,作者用相關模型對每個側面人臉圖像和耳朵圖像進行了測試。然后,對于屬于同一主題的每個側面人臉和耳朵圖像,根據不同的置信度計算方法獲得概率得分并測量每個模型的置信度。之后,選擇了具有最大可信度的模型的預測。具體詳情如下圖所示:
3.4 實驗結果
如下表所示顯示了基于不同融合方法的年齡和性別分類結果。第一列分類模型。第二列為融合方法,其中 A、B 和 C 分別對應于數據、特征和分數融合方法。在方法 A 中,A-1、A-2 和 A-3 分別是信道融合、空間融合和強度融合。
在 C 中,C1、C2、C3、C4 和 C5 代表不同的置信度計算方法。實驗結果表明,VGG-16 模型采用 A-2 融合方法,即空間融合,取得了最佳的年齡分類效果。
如下表所示,將本文提出的方法與以前的工作進行比較。第一部分是性別分類結果,第二部分是年齡分類結果。根據研究結果,該論文所提出的方法在年齡和性別分類方面取得了最高的分類準確率。
更多閱讀
#投 稿?通 道#
?讓你的論文被更多人看到?
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學習心得或技術干貨。我們的目的只有一個,讓知識真正流動起來。
?????來稿標準:
? 稿件確系個人原創作品,來稿需注明作者個人信息(姓名+學校/工作單位+學歷/職位+研究方向)?
? 如果文章并非首發,請在投稿時提醒并附上所有已發布鏈接?
? PaperWeekly 默認每篇文章都是首發,均會添加“原創”標志
?????投稿郵箱:
? 投稿郵箱:hr@paperweekly.site?
? 所有文章配圖,請單獨在附件中發送?
? 請留下即時聯系方式(微信或手機),以便我們在編輯發布時和作者溝通
????
現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
關于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
總結
以上是生活随笔為你收集整理的论文盘点:性别年龄分类器详解的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: win10怎么把次电脑放在桌面 Win1
- 下一篇: label-embedding在文本分类