當(dāng)前位置：首頁(yè) >

论文盘点：性别年龄分类器详解

發(fā)布時(shí)間：2024/10/8 38 豆豆

生活随笔收集整理的這篇文章主要介紹了论文盘点：性别年龄分类器详解小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

?PaperWeekly 原創(chuàng) ·?作者｜孫裕道

學(xué)校｜北京郵電大學(xué)博士生

研究方向｜GAN圖像生成、情緒對(duì)抗樣本生成

引言

年齡和性別在社會(huì)交往中起著基礎(chǔ)性的作用。隨著社交平臺(tái)和社交媒體的興起，自動(dòng)年齡和性別分類已經(jīng)成為越來越多應(yīng)用程序的相關(guān)內(nèi)容。本文會(huì)盤點(diǎn)出近幾年來關(guān)于深度年齡和性別識(shí)別的優(yōu)質(zhì)論文。

CVPR 2015

論文標(biāo)題：Age and Gender Classification using Convolutional Neural Networks

論文來源：CVPR 2015

論文鏈接：https://www.sci-hub.ren/10.1109/CVPRW.2015.7301352

代碼鏈接：https://github.com/GilLevi/AgeGenderDeepLearning

1.1 模型介紹

在該論文是第一篇將深度學(xué)習(xí)引入到年齡和性別的分類任務(wù)中，作者證明通過使用深卷積神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)表示，可以顯著提高年齡和性別的分類任務(wù)的性能。因此，該論文提出了一個(gè)卷積網(wǎng)絡(luò)架構(gòu)，即使在學(xué)習(xí)數(shù)據(jù)量有限的情況下也可以使用。

從社交圖像庫(kù)收集一個(gè)大的、帶標(biāo)簽的圖像訓(xùn)練集，用于年齡和性別估計(jì)，需要訪問圖像中出現(xiàn)的對(duì)象的個(gè)人信息，這些信息通常是私有的，或者手動(dòng)標(biāo)記既繁瑣又耗時(shí)。因此，用于從真實(shí)社會(huì)圖像中估計(jì)年齡和性別的數(shù)據(jù)集在大小上相對(duì)有限。當(dāng)深度學(xué)習(xí)的方法應(yīng)用于如此小的圖像采集時(shí)，過擬合是一個(gè)常見的問題。

如下圖所示，為作者提出的一個(gè)簡(jiǎn)單的 CNN 網(wǎng)絡(luò)架構(gòu)，該網(wǎng)絡(luò)包含三個(gè)卷積層，每個(gè)卷積層后面都有一個(gè)校正的線性運(yùn)算和池化層。前兩層使用對(duì)參數(shù)進(jìn)行正則化操作。

第一卷積層包含 96個(gè)7×7 像素的卷積核，第二個(gè)卷積層包含 256 個(gè) 5×5 像素的卷積核，第三層和最后一層包含 384 個(gè) 3×3 像素的卷積核。最后，添加兩個(gè)全連接層，每個(gè)層包含 512 個(gè)神經(jīng)元。

在訓(xùn)練網(wǎng)絡(luò)的過程中，作者還應(yīng)用了兩種額外的方法來進(jìn)一步限制過度擬合的風(fēng)險(xiǎn)。第一個(gè)是 dropout 學(xué)習(xí)（即隨機(jī)設(shè)置網(wǎng)絡(luò)神經(jīng)元的輸出值為零）。該網(wǎng)絡(luò)包括兩個(gè) dropout 層，丟失率為 0.5（將神經(jīng)元的輸出值設(shè)為零的幾率為 50%）。

第二個(gè)是使用數(shù)據(jù)增強(qiáng)技術(shù)，從 256×256 的輸入圖像中隨機(jī)抽取 227×227 個(gè)像素，并在每個(gè)前后訓(xùn)練過程中隨機(jī)鏡像。這與使用的多種裁剪和鏡像變體類似。

1.2 實(shí)驗(yàn)結(jié)果

作者使用 Adience 數(shù)據(jù)集進(jìn)行基準(zhǔn)測(cè)試 CNN 設(shè)計(jì)的準(zhǔn)確性，該數(shù)據(jù)集是為年齡和性別分類而設(shè)計(jì)的。Adience 集包括從智能手機(jī)設(shè)備自動(dòng)上傳到 Flickr 的圖像。

因?yàn)檫@些圖片是在沒有事先人工過濾的情況下上傳的，就像媒體網(wǎng)頁(yè)或社交網(wǎng)站上的典型情況一樣。整個(gè) Adience 收藏包括 2284 個(gè)受試者的大約 26K 張圖片。如下表所示列出了收集到的不同性別和年齡組的分類情況。

下表分別給出了性別和年齡分類結(jié)果，可以看出論文中提出的方法的準(zhǔn)確率要比其它方法更高。

下圖為性別錯(cuò)誤分類。第一行：女性被誤認(rèn)為是男性。最下面一行：男性被誤認(rèn)為是女性。

下圖為年齡錯(cuò)誤分類。第一行：年長(zhǎng)的被試被誤認(rèn)為是年輕人。最下面一行：年輕人被誤認(rèn)為是老年人。

由上面兩張圖是系統(tǒng)所犯的許多錯(cuò)誤都是由于某些 Adience 基準(zhǔn)圖像的觀看條件極為困難所致。最值得注意的是由模糊或低分辨率和遮擋（尤其是濃妝）引起的錯(cuò)誤。性別估計(jì)錯(cuò)誤也經(jīng)常發(fā)生在嬰兒或非常年幼的兒童的圖像中，因?yàn)檫@些圖像還沒有明顯的性別屬性。

IWBF 2018

論文標(biāo)題：Age and Gender Classification from Ear Images

論文來源：IWBF 2018

論文鏈接：https://arxiv.org/abs/1806.05742

2.1 論文貢獻(xiàn)

該論文是一篇有趣文章，研究是從耳朵圖像進(jìn)行年齡和性別的分類。作者采用卷積神經(jīng)網(wǎng)絡(luò)模型 AlexNet、VGG-16、GoogLeNet 和 squezenet。在一個(gè)大規(guī)模的耳朵數(shù)據(jù)集上進(jìn)行了訓(xùn)練，分類器通過人耳對(duì)性別和年齡進(jìn)行分類。該論文的貢獻(xiàn)分為三個(gè)部分：

對(duì)于幾何特征，作者在耳朵上使用了 8 個(gè)標(biāo)志點(diǎn)，并從中衍生出 16 個(gè)特征。
對(duì)于基于外觀的方法，作者使用了一個(gè)大型 ear 數(shù)據(jù)集，利用卷積神經(jīng)網(wǎng)絡(luò)模型來對(duì)年齡和性別進(jìn)行分類。
與之前的工作相比，作者在性別分類方面取得了優(yōu)異的成績(jī)。

2.2 模型介紹

論文使用幾何特征和在這些特征上使用的分類器，以及基于外觀的表示進(jìn)行分類。

2.2.1 幾何特征

下圖為人耳標(biāo)志位和相關(guān)的幾何特征。由于每個(gè)幾何特征具有不同的取值范圍，為了使其規(guī)范化，作者在訓(xùn)練集中計(jì)算了每個(gè)特征的均值和標(biāo)準(zhǔn)差。然后并對(duì)它們進(jìn)行歸一化，使它們具有零均值和單位方差。在 16 個(gè)耳朵的幾何特征中選擇出重要的6個(gè)。

2.2.2?基于外觀的表示與分類

本研究中使用的第一個(gè)深度卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)是 AlexNet。AlexNet 包含五個(gè)卷積層和三個(gè)全連接層。在網(wǎng)絡(luò)訓(xùn)練中，為了防止過度擬合，采用了 dropout 方法。第二個(gè)深度卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)是 VGG-16。

VGG-16 包含 16 個(gè)卷積層，3 個(gè)全連接層和在卷積層之后的 softmax 分類器。第三個(gè)深度卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)是 GoogleNet，它是一個(gè)更深層次的網(wǎng)絡(luò)，包含 22 層。它基于初始模塊，主要是幾個(gè)初始模塊的串聯(lián)。

inception 模塊包含幾個(gè)不同大小的卷積核。將不同的卷積核輸出組合起來。最后一個(gè) CNN 架構(gòu)是 squezenet，它提出了一種減少參數(shù)數(shù)量和模型大小的新方法。使用 1×1 過濾器，而不是 3×3 過濾器。該體系結(jié)構(gòu)還包含剩余連接，以提高反向傳播學(xué)習(xí)的效率。此外，沒有全連接層。使用平均池化層，而不是全連接層。

2.3 實(shí)驗(yàn)結(jié)果

2.3.1 數(shù)據(jù)集介紹

論文選用的數(shù)據(jù)集包含 338 個(gè)不同對(duì)象的面部輪廓圖像。這個(gè)數(shù)據(jù)集中的所有受試者都超過18歲。從下圖可以看到來自數(shù)據(jù)集的樣本圖像。這些受試者分為五個(gè)不同的年齡組。這些年齡組分別為 18-28、29-38、39-48、49-58、59-68+。根據(jù)幾何特征的變化對(duì)年齡組進(jìn)行分類。

2.3.2 性別分類結(jié)果

如下表所示為性別分類的結(jié)果，第一列為分類器的名稱，第二列包含相應(yīng)的分類精度。為了提醒讀者所使用的特性，第二列的括號(hào)中包含了這些特性的類型。從表中可以看出，基于外觀的方法優(yōu)于基于幾何特征的分類器

2.3.3 年齡組分類結(jié)果

如下表所示為年齡組分類的結(jié)果，同樣的，第一列包含分類器的名稱，第二列包含相應(yīng)的分類精度。我們會(huì)發(fā)現(xiàn)，基于幾何特征的方法和基于外觀的方法之間的性能差距很小，基于外觀的方法能稍微優(yōu)越一點(diǎn)。

CVPR 2019

論文標(biāo)題：Multimodal Age and Gender Classification Using Ear and Profile Face Images

論文來源：CVPR 2019

論文鏈接：https://arxiv.org/abs/1907.10081

3.1 核心思想

在該論文中，作者提出一個(gè)多模態(tài)深度神經(jīng)網(wǎng)路的年齡和性別分類框架，輸入為一個(gè)側(cè)面的臉和一個(gè)耳朵的圖像。主要目標(biāo)是通過進(jìn)一步利用生物特征識(shí)別方法：耳朵外觀，來提高從側(cè)面人臉圖像中提取軟生物特征的準(zhǔn)確性。輪廓人臉圖像包含了豐富的年齡和性別分類信息源。本篇論文的貢獻(xiàn)分為以下三個(gè)部分：

作者提出了一個(gè)多模式年齡和性別分類系統(tǒng)，該系統(tǒng)以側(cè)面人臉和耳朵圖像為輸入。所提出的系統(tǒng)執(zhí)行端到端多模式、多任務(wù)學(xué)習(xí)。
作者全面探討了利用多模式輸入進(jìn)行年齡和性別分類的各種方法。并采用了三種不同的數(shù)據(jù)融合方法。
作者將中心損失和 softmax 損失結(jié)合起來訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)模型。

3.2 模型介紹

3.2.1 CNN網(wǎng)絡(luò)和損失函數(shù)

在本文中采用了 VGG-16 和 ResNet-50 神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。在 VGG16 中，有 13 個(gè)卷積層和3個(gè)全連接層。為防止過度擬合，采用了 dropout 方法。另一個(gè) CNN 模型是 ResNet-50。與 VGG-16 不同，除了 ResNet-50 的輸出層外，沒有全連接層。在卷積部分和輸出層之間存在一個(gè)全局池化層。兩個(gè)網(wǎng)絡(luò)的輸入大小都是 224×224。

作者利用中心損失函數(shù)和 softmax 函數(shù)來獲得更多的鑒別特征。中心損失背后的主要?jiǎng)訖C(jī)是提供更接近相應(yīng)類中心的特性。測(cè)量特征到相關(guān)類中心的距離，計(jì)算出中心損失。中心損失試圖為每個(gè)類中心生成更接近的特征，但它不負(fù)責(zé)提供可分離的特征，因此，softmax 損失對(duì)其進(jìn)行了補(bǔ)充。具體的計(jì)算公式如下：

3.2.2 多模態(tài)多任務(wù)

作者研究了年齡和性別分類的性能，分別使用耳朵和側(cè)面人臉圖像，作為單峰系統(tǒng)，并結(jié)合作為一個(gè)多模式，多任務(wù)系統(tǒng)。對(duì)于多模式、多任務(wù)年齡和性別分類總損失計(jì)算，作者結(jié)合了年齡和性別預(yù)測(cè)的所有損失。具體的計(jì)算公式如下所示：

3.2.3 數(shù)據(jù)融合

為了實(shí)現(xiàn)數(shù)據(jù)融合，作者采用了三種不同的方法，即空間融合、強(qiáng)度融合和信道融合。在空間融合中，將側(cè)面人臉和耳朵圖像并排連接起來。在信道融合中，將圖像沿著通道串聯(lián)起來。在強(qiáng)度融合中，平均化輪廓面部和耳朵圖像的像素強(qiáng)度值。具體詳情如下圖所示：

3.2.4 特征融合

對(duì)于基于特征的融合策略，作者訓(xùn)練了兩個(gè)獨(dú)立的 CNN 模型，其中一個(gè)以側(cè)面人臉圖像為輸入，另一個(gè)以耳朵圖像為輸入。當(dāng)這些網(wǎng)絡(luò)的表示部分（卷積部分）被分開訓(xùn)練時(shí)，最后一個(gè)卷積層的輸出被連接并饋送給分類器部分。具體詳情如下圖所示：

3.2.5?分?jǐn)?shù)融合

對(duì)于基于分?jǐn)?shù)的融合，作者用相關(guān)模型對(duì)每個(gè)側(cè)面人臉圖像和耳朵圖像進(jìn)行了測(cè)試。然后，對(duì)于屬于同一主題的每個(gè)側(cè)面人臉和耳朵圖像，根據(jù)不同的置信度計(jì)算方法獲得概率得分并測(cè)量每個(gè)模型的置信度。之后，選擇了具有最大可信度的模型的預(yù)測(cè)。具體詳情如下圖所示：

3.4 實(shí)驗(yàn)結(jié)果

如下表所示顯示了基于不同融合方法的年齡和性別分類結(jié)果。第一列分類模型。第二列為融合方法，其中 A、B 和 C 分別對(duì)應(yīng)于數(shù)據(jù)、特征和分?jǐn)?shù)融合方法。在方法 A 中，A-1、A-2 和 A-3 分別是信道融合、空間融合和強(qiáng)度融合。

在 C 中，C1、C2、C3、C4 和 C5 代表不同的置信度計(jì)算方法。實(shí)驗(yàn)結(jié)果表明，VGG-16 模型采用 A-2 融合方法，即空間融合，取得了最佳的年齡分類效果。

如下表所示，將本文提出的方法與以前的工作進(jìn)行比較。第一部分是性別分類結(jié)果，第二部分是年齡分類結(jié)果。根據(jù)研究結(jié)果，該論文所提出的方法在年齡和性別分類方面取得了最高的分類準(zhǔn)確率。

更多閱讀

#投稿?通道#

?讓你的論文被更多人看到?

如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達(dá)讀者群體，縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢？答案就是：你不認(rèn)識(shí)的人。

總有一些你不認(rèn)識(shí)的人，知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁，促使不同背景、不同方向的學(xué)者和學(xué)術(shù)靈感相互碰撞，迸發(fā)出更多的可能性。?

PaperWeekly 鼓勵(lì)高校實(shí)驗(yàn)室或個(gè)人，在我們的平臺(tái)上分享各類優(yōu)質(zhì)內(nèi)容，可以是最新論文解讀，也可以是學(xué)習(xí)心得或技術(shù)干貨。我們的目的只有一個(gè)，讓知識(shí)真正流動(dòng)起來。

?????來稿標(biāo)準(zhǔn)：

? 稿件確系個(gè)人原創(chuàng)作品，來稿需注明作者個(gè)人信息（姓名+學(xué)校/工作單位+學(xué)歷/職位+研究方向）?

? 如果文章并非首發(fā)，請(qǐng)?jiān)谕陡鍟r(shí)提醒并附上所有已發(fā)布鏈接?

? PaperWeekly 默認(rèn)每篇文章都是首發(fā)，均會(huì)添加“原創(chuàng)”標(biāo)志

?????投稿郵箱：

? 投稿郵箱：hr@paperweekly.site?

? 所有文章配圖，請(qǐng)單獨(dú)在附件中發(fā)送?

? 請(qǐng)留下即時(shí)聯(lián)系方式（微信或手機(jī)），以便我們?cè)诰庉嫲l(fā)布時(shí)和作者溝通

????

現(xiàn)在，在「知乎」也能找到我們了

進(jìn)入知乎首頁(yè)搜索「PaperWeekly」

點(diǎn)擊「關(guān)注」訂閱我們的專欄吧

關(guān)于PaperWeekly

PaperWeekly 是一個(gè)推薦、解讀、討論、報(bào)道人工智能前沿論文成果的學(xué)術(shù)平臺(tái)。如果你研究或從事 AI 領(lǐng)域，歡迎在公眾號(hào)后臺(tái)點(diǎn)擊「交流群」，小助手將把你帶入 PaperWeekly 的交流群里。

總結(jié)

以上是生活随笔為你收集整理的论文盘点：性别年龄分类器详解的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇： win10怎么把次电脑放在桌面 Win1
下一篇： label-embedding在文本分类