當(dāng)前位置：首頁 >

CVPR 2019 | 旷视研究院提出极轻量级年龄估计模型C3AE

發(fā)布時(shí)間：2024/10/8 52 豆豆

生活随笔收集整理的這篇文章主要介紹了 CVPR 2019 | 旷视研究院提出极轻量级年龄估计模型C3AE 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

全球計(jì)算機(jī)視覺三大頂級會議之一 CVPR 2019 將于當(dāng)?shù)貢r(shí)間 6 月 16-20 日在美國洛杉磯舉辦。屆時(shí)，曠視研究院將帶領(lǐng)團(tuán)隊(duì)遠(yuǎn)赴盛會，助力計(jì)算機(jī)視覺技術(shù)的交流與落地。在此之前，曠視每周會介紹一篇被 CVPR 2019 接收的論文，本文是第 9 篇，曠視成都研究院提出一個(gè)極其簡單但是高效、基于上下文信息的級聯(lián)性年齡估計(jì)模型 ——C3AE。

論文名稱：C3AE: Exploring the Limits of Compact Model for Age Estimation

論文鏈接：https://arxiv.org/abs/1904.05059

導(dǎo)語
簡介
模型
- 用于小尺寸圖像的緊致模型：重新思考標(biāo)準(zhǔn)卷積
- 年齡的兩點(diǎn)表征
- 級聯(lián)訓(xùn)練
- 基于周圍環(huán)境的回歸模型
實(shí)驗(yàn)
- 在 Morph II 上的對比
- 在 FG-NET 上的對比
結(jié)論
參考文獻(xiàn)
往期解讀

導(dǎo)語

在計(jì)算機(jī)視覺領(lǐng)域，年齡估計(jì)（Age Estimation）是一個(gè)經(jīng)典的學(xué)習(xí)問題。隨著 CNN 網(wǎng)絡(luò)（比如 AlexNet、VGGNet、GoogLeNet、ResNet）不斷變大變深，其性能也獲得長足提升；但是上述模型并不適用于嵌入式/移動(dòng)設(shè)備。

最近，MobileNet 和 ShuffleNet 系列算法降低參數(shù)數(shù)量，帶來了輕量級模型。但是由于采用深度可分離卷積，特征表達(dá)能力被弱化。在調(diào)查了緊致模型（Compact Model）在中小尺度圖像方面的局限性之后，曠視研究院提出了一個(gè)極其簡單但高效的基于語境的年齡估計(jì)模型 ——C3AE。

相較于 MobileNets、ShuffleNets 和 VGGNet，該網(wǎng)絡(luò)只有其 1/9 和 1/2000 的參數(shù)量，但取得了極具競爭力的性能。具體而言，曠視研究院把年齡估計(jì)問題重新定義為基于級聯(lián)模型的兩點(diǎn)表示；并且，為充分利用面部的上下文信息，提出了三分支 CNN 網(wǎng)絡(luò)，以集成多個(gè)尺度的上下文信息。三個(gè)年齡估計(jì)數(shù)據(jù)集上的實(shí)驗(yàn)表明，C3AE 很大程度地推進(jìn)了緊致模型的當(dāng)前最佳性能。

簡介

近年來，越大越深的卷積神經(jīng)網(wǎng)絡(luò)在帶來精度提升的同時(shí)，也帶來了計(jì)算成本前所未有的提升，無論是對于訓(xùn)練還是部署而言。具體而言，受限于模型大小和計(jì)算量，在智能手機(jī)、汽車、機(jī)器人等嵌入式/邊緣設(shè)備上運(yùn)行現(xiàn)有的大型模型（比如 AlexNet、VGGNet、ResNet、InceptionV1-V4）幾近不可能。

為解決上述問題，最近，MobileNet 和 ShuffleNet 系列算法通過深度可分離卷積方法極大減少參數(shù)量，在這些模型中，傳統(tǒng)的卷積被一個(gè)兩步的改進(jìn)卷積所替代，即逐通道卷積和逐點(diǎn)卷積。這兩個(gè)系列算法將所有的關(guān)注點(diǎn)都集中在模型改進(jìn)上，忽略了圖像的輸入尺寸也與模型設(shè)計(jì)息息相關(guān)，尤其是緊致性模型設(shè)計(jì)。事實(shí)上，卷積模塊中的卷積層/或者池化層很大程度上類似直接對圖像做下采樣操作，但是其卷積層卻耗費(fèi)了大量的參數(shù)和計(jì)算量。

對于大尺寸圖像而言，這樣的操作（可分離卷積）是可行的，因?yàn)閳D像需要被大量通道所表征；對于低分辨率的中小尺寸圖像來說，這就需要打問號。另外對于識別問題來說，許多高清的大尺度圖像是沒有必要的，幾倍的下采樣往往并不影響模型的性能，但卻極大地影響著模型設(shè)計(jì)。

相較于大尺寸圖像，中小尺寸圖像經(jīng)常只需要網(wǎng)絡(luò)中更少的通道來表征，當(dāng)然計(jì)算量和參數(shù)量也一樣會大幅度減少。因此，和深度可分離卷積相比，中小尺寸圖像的標(biāo)準(zhǔn)卷積層并不需要太多的參數(shù)和內(nèi)存。

從圖像表征的角度看，可分離卷積的輸出通道數(shù)量是標(biāo)準(zhǔn)卷積的很多倍。為補(bǔ)償表征能力，可分離卷積不得不增加參數(shù)。因此，曠視研究院認(rèn)為，使用小卷積核的一般卷積層比深度可分離卷積層更適合處理中小尺寸圖像。

之前的許多緊致性模型都在思考如何改進(jìn)模型或者卷積層以滿足現(xiàn)實(shí)需求，很少考慮圖像的輸入尺寸與模型設(shè)計(jì)的關(guān)系。對于一個(gè)識別系統(tǒng)來說，當(dāng)圖像清晰度合適時(shí)，許多低分辨率的圖像往往也是非常合格的訓(xùn)練樣本，如圖 1 所示。

圖像的存儲和處理要在低分辨率、中小尺寸的情況下，即小圖像運(yùn)行在低功耗的移動(dòng)設(shè)備上，年齡估計(jì)即是與此相關(guān)的困難問題之一。

比如，人們可以輕易地識別出圖 1 中男人的年齡，不管他的臉是低分辨率、局部或是全局的。曠視研究院認(rèn)為，當(dāng)下的普通卷積神經(jīng)網(wǎng)絡(luò)同樣可以擁有這種能力，通過設(shè)計(jì)一個(gè)帶有標(biāo)準(zhǔn)卷積層的簡單網(wǎng)絡(luò)，并把中小尺寸人臉圖像作為年齡估計(jì)的輸入，也能設(shè)計(jì)一個(gè)非常緊致的模型。事實(shí)上，對圖像進(jìn)行下采樣的過程就對應(yīng)到神經(jīng)網(wǎng)絡(luò)中的池化過程，只是之前的許多工作都把研究重心放在了模型改進(jìn)上。

▲?圖1：不管何種分辨率和大小，人們可以輕易識別上圖男子的年齡。曠視研究院新方法 C3AE 把小尺寸圖像（64 × 64 × 3）作為輸入進(jìn)行年齡估計(jì)，同樣取得了不俗的效果

年齡估計(jì)的最新進(jìn)展通常歸納為兩個(gè)方向：1）聯(lián)合分類與年齡值回歸，2）分布匹配。在本文中，曠視研究院嘗試同時(shí)利用分類、回歸和標(biāo)簽分布的信息，它的實(shí)現(xiàn)是通過把年齡值表征為兩個(gè)相鄰年齡等級上的一個(gè)分布（如圖 2 所示），并且訓(xùn)練目標(biāo)是最小化分布之間的匹配（如圖 3 所示）。

在深度回歸模型中，會在特征層和年齡值預(yù)測層之間嵌入一個(gè)帶有語義分布的全連接層，該全連接層即是預(yù)測的分布。

總體而言，曠視研究院設(shè)計(jì)了一個(gè)緊致模型，它把所有中/小尺度圖像作為輸入，使用標(biāo)準(zhǔn)卷積而不是深度卷積，其中能較好地控制特征層的通道數(shù)。據(jù)知，這應(yīng)該是目前為止最小的人臉識別模型，基礎(chǔ)模型僅 0.19 MB，完整模型約 0.25 MB；接著，曠視研究員把分離的年齡值表征為一個(gè)分布，并設(shè)計(jì)一個(gè)級聯(lián)模型；進(jìn)而，曠視研究員引入一個(gè)基于語境的回歸模型，它把多個(gè)尺寸的人臉圖像作為輸入。

借助于這一簡單的基礎(chǔ)模型、級聯(lián)式訓(xùn)練以及多尺寸語境，曠視研究院旨在解決所有的中小尺寸圖像的年齡估計(jì)問題，這一方法稱之為——C3AE。事實(shí)上這一思路可以推廣到許多其他的應(yīng)用中。

模型

曠視研究員首先展示了基礎(chǔ)模型及其架構(gòu)，接著描述了新的年齡兩點(diǎn)表示方法，并通過級聯(lián)的方式將其嵌入到深度回歸模型中。隨后，借助于三個(gè)不同尺度下的人臉信息，加入了基于周圍環(huán)境信息的集成模塊，通過共享的 CNN 嵌入到單一的回歸模型中。

用于中小尺寸圖像的緊致模型：重新思考標(biāo)準(zhǔn)卷積

本文的基礎(chǔ)模型（plain model）由 5 個(gè)標(biāo)準(zhǔn)卷積和 2 個(gè)全連接層構(gòu)成，如表 1 所示；曠視研究員還展示為什么使用標(biāo)準(zhǔn)的卷積模塊而不是 MobileNet 和 ShuffleNet 系列模型所用的可分離的卷積模塊。本文設(shè)計(jì)的基礎(chǔ)模型極其簡單，也不 fashion，但是一點(diǎn)也不影響其良好的性能。

▲?表1：C3AE基礎(chǔ)模型

在 MobileNet 系列模型中，對參數(shù)量與計(jì)算量降低方面的狀況進(jìn)行了分析，尤其是標(biāo)準(zhǔn)卷積和可分離卷積之間的對比。這一分析適用于大尺寸圖像，而對于中、小尺寸圖像，效果則不一定好。

年齡的兩點(diǎn)表征

曠視研究員借助兩點(diǎn)表征對年齡估計(jì)實(shí)現(xiàn)了重新定義，即把一個(gè)全新的年齡表征看作是兩個(gè)離散且相鄰的 bin 的一個(gè)分布。任意點(diǎn)的表征是通過兩個(gè)鄰近的 bin，而不是任意兩個(gè)或多個(gè) bin 來表示。顯然，兩點(diǎn)表征的分布是稀疏的，只有其中兩個(gè)元素是非零的。

▲?圖3：借助兩點(diǎn)表征重新定義年齡估計(jì)任務(wù)

級聯(lián)訓(xùn)練

年齡值可由分布向量表征，但是分布向量的組合方式是多種多樣的。兩點(diǎn)表征很適合解決這種多樣性的不足。那么下一個(gè)問題是，如何把向量信息嵌入到一個(gè)端到端的網(wǎng)絡(luò)中。本文通過級聯(lián)模型做到了這一步，如圖 2 所示。具體而言，一個(gè)帶有語義信息（年齡分布）的全連接層被嵌入到特征層和回歸層之間，并使用 KL loss 進(jìn)行約束。

▲?圖2：C3AE圖示

基于周圍環(huán)境的回歸模型

中小尺寸圖像的分辨率和大小是限定的，利用不同尺寸下的人臉信息很有必要。如圖 1 所示，分辨率更高的圖像有著豐富的局部信息，而分辨率較低的圖像則有著全局信息和場景信息。除了挑選 SSR 中一個(gè)對齊的人臉框外，本文按照三個(gè)尺寸剪裁人臉中心，如圖 2 所示，緊接著將其輸入到共享的 CNN 網(wǎng)絡(luò)，最后三種尺寸的人臉圖像的特征通過級聯(lián)模塊之前的串聯(lián)（concatenation）進(jìn)行聚合。

實(shí)驗(yàn)

實(shí)驗(yàn)包含三個(gè)部分。第一部分是基礎(chǔ)模型的對比實(shí)驗(yàn)（1）：對比使用基礎(chǔ)模型的 SSR、MobileNet V2、ShuffleNet V2 和 C3AE；第二部分是消去實(shí)驗(yàn)（2）：討論級聯(lián)模塊（兩點(diǎn)表示）和基于周圍場景模塊的必要性；第三部分是與當(dāng)前最優(yōu)方法的一些對比實(shí)驗(yàn)。本文主要介紹第三部分。

在 Morph II 上的對比

如表 5 所示，在 Morph II 上，C3AE（full model）在從頭開始訓(xùn)練和在 IMDB-WIKI 上預(yù)訓(xùn)練兩種情況下分別取得了2.78 和 2.75 MAE，這是所有簡單模型中的當(dāng)前最佳結(jié)果；而C3AE（plain model）則直截了當(dāng)?shù)厝〉昧?3.13 MAE。總之，C3AE 以超輕量級模型在 Morph II 上取得了很有競爭力的結(jié)果。

▲?表5：C3AE在Morph II上的對比結(jié)果

在 FG-NET 上的對比

如表 6 所示，在 FG-NET 上，C3AE 與一些當(dāng)前最優(yōu)模型做了對比。通過平均絕對值損失，經(jīng)過預(yù)訓(xùn)練的 MV 取得了最佳結(jié)果 2.68 MAE，而 C3AE 經(jīng)過預(yù)訓(xùn)練實(shí)現(xiàn)的結(jié)果是 2.95 MAE 和 0.17 std，即第二優(yōu)結(jié)果。此外，在沒有預(yù)訓(xùn)練的情況下，C3AE 取得的結(jié)果 4.09 稍優(yōu)于 MV 的 4.10。總之，在 FG-NET 上的對比證明了 C3AE 的有效性和競爭力。

▲?表6：C3AE在FG-NET上的對比結(jié)果

結(jié)論

曠視研究院提出了一個(gè)極簡單模型，稱之為 C3AE，相較于其他簡單模型（緊致性模型），C3AE 取得了當(dāng)前最優(yōu)的結(jié)果，且相比于大模型其表現(xiàn)也很有競爭力。多個(gè)消去實(shí)驗(yàn)也證明了 C3AE 各個(gè)模塊的有效性。對于中小尺寸的圖像和模型，本文也給出了一些分析和思考。未來，曠視研究院將會評估 C3AE 在一般數(shù)據(jù)集和更廣泛應(yīng)用上的有效性。

參考文獻(xiàn)

Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. Deep residuallearning for image recognition. In CVPR, 2016.?

Andrew G Howard, Menglong Zhu, Bo Chen, Dmitry Kalenichenko, WeijunWang, Tobias Weyand, Marco Andreetto, and Hartwig Adam. Mobilenets: Efficientconvolutional neural networks for mobile vision applications. arXiv preprintarXiv:1704.04861, 2017.?

Alex Krizhevsky, Ilya Sutskever, and Geoffrey E Hinton. Imagenetclassification with deep convolutional neural networks. In NIPS, 2012.?

Ningning Ma,Xiangyu Zhang, Hai-Tao Zheng, and Jian Sun. Shufflenetv2: Practical guidelines for efficient cnn architec- ture design. In ECCV,2018.?

Mark Sandler, Andrew Howard, Menglong Zhu, Andrey Zh- moginov, and Liang-Chieh Chen. Mobilenetv2: Inverted residuals and linear bottlenecks. In CVPR, 2018.?

X Zhang, X Zhou, M Lin, and J Sun. Shufflenet: An extremelyefficient convolutional neural network for mobile devices. arxiv 2017. arXivpreprint arXiv:1707.01083.

傳送門

歡迎各位同學(xué)關(guān)注曠視成都研究院（及同名知乎專欄：https://zhuanlan.zhihu.com/c_1119253499380166656，簡歷可以投遞給研究院負(fù)責(zé)人劉帥成（liushuaicheng@megvii.com）

往期解讀：

CVPR 2019 | 曠視提出GIF2Video：首個(gè)深度學(xué)習(xí)GIF質(zhì)量提升方法
CVPR 2019 | 曠視Oral論文提出GeoNet：基于測地距離的點(diǎn)云分析深度網(wǎng)絡(luò)
CVPR 2019 | 曠視提出超分辨率新方法Meta-SR：單一模型實(shí)現(xiàn)任意縮放因子
CVPR 2019 | 曠視實(shí)時(shí)語義分割技術(shù)DFANet：高清虛化無需雙攝
CVPR 2019 | 曠視研究院提出ML-GCN：基于圖卷積網(wǎng)絡(luò)的多標(biāo)簽圖像識別模型
CVPR 2019 | 曠視研究院提出新型損失函數(shù)：改善邊界框模糊問題
CVPR 2019 | 曠視研究院提出Geo-CNN：建模3D點(diǎn)云的局部幾何結(jié)構(gòu)
CVPR 2019 | 曠視研究院提出DeepLiDAR：通過曲面法線實(shí)現(xiàn)稠密深度預(yù)測
CVPR 2019 | 曠視研究院提出極輕量級年齡估計(jì)模型C3AE
CVPR 2019 | 曠視研究院提出用于全景分割的端到端閉環(huán)網(wǎng)絡(luò)OANet
CVPR 2019 | 曠視研究院提出TACNet，刷新時(shí)空動(dòng)作檢測技術(shù)新高度
CVPR 2019 | 曠視研究院提出一種行人重識別監(jiān)督之下的紋理生成網(wǎng)絡(luò)

點(diǎn)擊以下標(biāo)題查看更多往期內(nèi)容：?

CVPR 2019 | 無監(jiān)督領(lǐng)域特定單圖像去模糊
論文盤點(diǎn)：CVPR 2019 - 文本檢測專題
近期值得讀的10篇GAN進(jìn)展論文
小樣本學(xué)習(xí)（Few-shot Learning）綜述
萬字綜述之生成對抗網(wǎng)絡(luò)（GAN）
可逆ResNet：極致的暴力美學(xué)
CVPR 2019 | 基于池化技術(shù)的顯著性目標(biāo)檢測
CVPR 2019 | 天秤座R-CNN：全面平衡目標(biāo)檢測器

#投稿通道#

?讓你的論文被更多人看到?

如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達(dá)讀者群體，縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢？答案就是：你不認(rèn)識的人。

總有一些你不認(rèn)識的人，知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁，促使不同背景、不同方向的學(xué)者和學(xué)術(shù)靈感相互碰撞，迸發(fā)出更多的可能性。

PaperWeekly 鼓勵(lì)高校實(shí)驗(yàn)室或個(gè)人，在我們的平臺上分享各類優(yōu)質(zhì)內(nèi)容，可以是最新論文解讀，也可以是學(xué)習(xí)心得或技術(shù)干貨。我們的目的只有一個(gè)，讓知識真正流動(dòng)起來。

??來稿標(biāo)準(zhǔn)：

? 稿件確系個(gè)人原創(chuàng)作品，來稿需注明作者個(gè)人信息（姓名+學(xué)校/工作單位+學(xué)歷/職位+研究方向）?

? 如果文章并非首發(fā)，請?jiān)谕陡鍟r(shí)提醒并附上所有已發(fā)布鏈接?

? PaperWeekly 默認(rèn)每篇文章都是首發(fā)，均會添加“原創(chuàng)”標(biāo)志

? 投稿郵箱：

? 投稿郵箱：hr@paperweekly.site?

? 所有文章配圖，請單獨(dú)在附件中發(fā)送?

? 請留下即時(shí)聯(lián)系方式（微信或手機(jī)），以便我們在編輯發(fā)布時(shí)和作者溝通

現(xiàn)在，在「知乎」也能找到我們了

進(jìn)入知乎首頁搜索「PaperWeekly」

點(diǎn)擊「關(guān)注」訂閱我們的專欄吧

關(guān)于PaperWeekly

PaperWeekly 是一個(gè)推薦、解讀、討論、報(bào)道人工智能前沿論文成果的學(xué)術(shù)平臺。如果你研究或從事 AI 領(lǐng)域，歡迎在公眾號后臺點(diǎn)擊「交流群」，小助手將把你帶入 PaperWeekly 的交流群里。

▽ 點(diǎn)擊 |?閱讀原文?| 獲取最新論文推薦

總結(jié)

以上是生活随笔為你收集整理的CVPR 2019 | 旷视研究院提出极轻量级年龄估计模型C3AE的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：征文通知 | 第十八届中国计算语言学大会
下一篇：周志华《机器学习》西瓜书出全新视频课啦！