當(dāng)前位置：首頁 >

论文解析：人脸检测中级联卷积神经网络的联合训练

發(fā)布時(shí)間：2025/3/21 81 豆豆

生活随笔收集整理的這篇文章主要介紹了论文解析：人脸检测中级联卷积神经网络的联合训练小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

論文解析：人臉檢測(cè)中級(jí)聯(lián)卷積神經(jīng)網(wǎng)絡(luò)的聯(lián)合訓(xùn)練

商湯科技解析CVPR2016論文：人臉檢測(cè)中級(jí)聯(lián)卷積神經(jīng)網(wǎng)絡(luò)的聯(lián)合訓(xùn)練 width="250" height="250" align="center,center" id="iframeu1554535_0" src="http://pos.baidu.com/jcgm?rdid=1554535&dc=2&di=u1554535&dri=0&dis=0&dai=2&ps=461x690&dcb=BAIDU_SSP_define&dtm=BAIDU_DUP_SETJSONADSLOT&dvi=0.0&dci=-1&dpt=none&tsr=0&tpr=1465998600293&ti=%E8%AE%BA%E6%96%87%E8%A7%A3%E6%9E%90%EF%BC%9A%E4%BA%BA%E8%84%B8%E6%A3%80%E6%B5%8B%E4%B8%AD%E7%BA%A7%E8%81%94%E5%8D%B7%E7%A7%AF%E7%A5%9E%E7%BB%8F%E7%BD%91%E7%BB%9C%E7%9A%84%E8%81%94%E5%90%88%E8%AE%AD%E7%BB%83--%E7%99%BE%E5%BA%A6%E7%99%BE%E5%AE%B6&ari=1&dbv=2&drs=1&pcs=1000x666&pss=1000x536&cfv=21&cpl=1&chi=1&cce=true&cec=utf-8&tlm=1465998600&ltu=http%3A%2F%2Fsynchuman.baijia.baidu.com%2Farticle%2F495393&ltr=http%3A%2F%2Fnews.baidu.com%2F&ecd=1&psr=1000x750&par=1000x721&pis=-1x-1&ccd=24&cja=true&cmi=2&col=zh-CN&cdo=-1&tcn=1465998600&qn=bae2e37d6887f526&tt=1465998600251.161.367.368" frameborder="0" marginwidth="0" marginheight="0" scrolling="no" vspace="0" hspace="0" style="border:0; vertical-align:bottom;margin:0;" allowtransparency="true">

論文：Joint Training of Cascaded CNN for Face Detection

論文作者：Hongwei Qin, Junjie Yan, Xiu Li, Xiaolin Hu

Grad.School at Shenzhen Tsinghua University（清華大學(xué)深圳研究生院），Tsinghua University（清華大學(xué)），SenseTime Group Limited（商湯科技）

本文作者：閆俊杰

作者個(gè)人簡(jiǎn)介：

閆俊杰，商湯科技主任研發(fā)工程師，15 年博士畢業(yè)于中科院自動(dòng)化所，研究領(lǐng)域主要是物體檢測(cè)和人臉識(shí)別，發(fā)表了超過 10 篇 CVPR\ECCV\ICCV 論文。在 SenseTime 負(fù)責(zé)監(jiān)控產(chǎn)品線的技術(shù)研發(fā)以及檢測(cè)技術(shù)的基礎(chǔ)研究。

CVPR：IEEE Conference on Computer Vision and Pattern Recognition，即 IEEE 國(guó)際計(jì)算機(jī)視覺與模式識(shí)別會(huì)議。該會(huì)議是計(jì)算機(jī)視覺和模式識(shí)別領(lǐng)域的頂級(jí)會(huì)議，在中國(guó)計(jì)算機(jī)學(xué)會(huì)推薦國(guó)際學(xué)術(shù)會(huì)議的排名中，CVPR 為人工智能領(lǐng)域的 A 類會(huì)議。

商湯科技會(huì)在 CVPR 2016 上提交多篇論文，接下來，商湯科技的技術(shù)專家將在機(jī)器之心發(fā)布系列文章，對(duì)論文進(jìn)行解讀。

人臉檢測(cè)是一個(gè)各種人臉應(yīng)用中最基礎(chǔ)的一個(gè)模塊。幾乎所有的人臉應(yīng)用都需要首先使用檢測(cè)器來得到人臉的具體位置，然后再進(jìn)行更加精細(xì)的處理，包括關(guān)鍵點(diǎn)定位，美顏，識(shí)別等等。當(dāng)我們用單反拍照，當(dāng)我們用手機(jī)美顏，當(dāng)我們登陸系統(tǒng)前進(jìn)行人臉認(rèn)證，甚至當(dāng)我們經(jīng)過某些監(jiān)控?cái)z像頭，人臉檢測(cè)算法時(shí)刻在運(yùn)行著。

作為幾乎是整個(gè)計(jì)算機(jī)視覺最重要、最成功的應(yīng)用之一，人臉檢測(cè)在 2000 年左右就有了一個(gè)令人信服的解決方案，當(dāng)時(shí) Viola 和 Jones 提出了積分圖特征計(jì)算 +Adaboost+ 級(jí)聯(lián)的方式來做檢測(cè)。其中積分圖特征計(jì)算的效率非常高，每個(gè)像素只要被遍歷一次就可以得到積分圖，然后可以快速的計(jì)算出一些人工設(shè)計(jì)的特征模式；Adaboost 算法可以把很多弱特征組合成一個(gè)更強(qiáng)的分類器；而級(jí)聯(lián)可以快速過濾掉過多的背景。Viola 和 Jones 的方法非常成功，以至于至今依然被持續(xù)改進(jìn)和大規(guī)模的使用。Viola&Jones的改進(jìn)和實(shí)用化的過程中，一個(gè)很重要的事件是黃暢博士的改進(jìn)算法以及 Omron（歐姆龍）的勞世竑和他的團(tuán)隊(duì)把該算法做到了芯片上(很幸運(yùn)的勞老師現(xiàn)在也在 SenseTime 工作)。

從 08 年 12 年之間，很多沒有自己動(dòng)手做過實(shí)驗(yàn)的人往往以為人臉檢測(cè)已經(jīng)解決了，計(jì)算機(jī)視覺的幾個(gè)主流會(huì)議上甚至很少也看到人臉檢測(cè)的工作。這其中的原因，可能是之前大家做人臉識(shí)別等的實(shí)驗(yàn)，往往在一些比較規(guī)范的數(shù)據(jù)集上。但是對(duì)于真實(shí)世界的人臉，不管是學(xué)術(shù)界的 FDDB，MALF 還是工業(yè)界的一些實(shí)際使用場(chǎng)景，親自做過實(shí)驗(yàn)的人都可以很明顯的感受到基于 Viola-Jones 的這套框架的力不從心。不僅僅是性能方面，還有個(gè)嚴(yán)重的問題是，這些方法過多的依賴經(jīng)驗(yàn)的積累。從頭基于這套框架復(fù)現(xiàn)一個(gè)好的結(jié)果，并且維護(hù)一套性能優(yōu)異的測(cè)試代碼的時(shí)間成本和人力成本都非常非常的大，造成了一定的門檻。由于大部分所謂的經(jīng)驗(yàn)都是不公開的，這在某種程度上也阻礙了技術(shù)的進(jìn)步。

好消息是整個(gè)領(lǐng)域進(jìn)入了卷積神經(jīng)網(wǎng)絡(luò)（Convolutional Neural Network，既CNN）的時(shí)代后，之前的很多傳統(tǒng)方法的經(jīng)驗(yàn)積累可以很快的被顛覆。人們很快發(fā)現(xiàn)，直接把通用物體檢測(cè)的思路搬到人臉檢測(cè)里面，并做一些簡(jiǎn)單的改進(jìn)就很容易取得比傳統(tǒng)方法更好的結(jié)果。于是13年到現(xiàn)在學(xué)術(shù)界的人臉檢測(cè)數(shù)據(jù)集 FDDB、AFW 和 MALF 等被一次次的刷新著。這些方法至少在精度上比前一代算法提升了很多，與當(dāng)時(shí)很多商業(yè)軟件里面的人臉檢測(cè)器，比如 Google Picasa 等有接近的性能。筆者也在這個(gè)大潮中和伙伴們一起用幾種不同的方法刷新了結(jié)果，但是和絕大多數(shù)的所謂科研一樣，這些基本上都成了過眼云煙，除了幾篇 paper 外并沒有留下太多的實(shí)際意義。這些方法本質(zhì)上以最好的通用物體檢測(cè)算法作為基礎(chǔ)，加以改進(jìn)。但是相比于通用物體檢測(cè)，人臉檢測(cè)有些不同，比如說人臉對(duì)精度和速度的要求更高；人臉有很多關(guān)鍵點(diǎn)和屬性的標(biāo)注可以利用；人臉比通用物體更容易設(shè)計(jì)有更多的先驗(yàn)等等，這些不同導(dǎo)致了近期非常多的基于卷積神經(jīng)網(wǎng)絡(luò)的人臉檢測(cè)的工作，大部分也都取得了不錯(cuò)的結(jié)果。

我們的文章考慮了一個(gè)如何聯(lián)合訓(xùn)練檢測(cè)器的問題，可以認(rèn)為是卷積神經(jīng)網(wǎng)絡(luò)方案中的一個(gè)，但是不局限于某個(gè)特定的 CNN 檢測(cè)方法。不管是人工設(shè)計(jì)的特征的方法，還是基于卷積神經(jīng)網(wǎng)絡(luò)的檢測(cè)算法，往往都需要做級(jí)聯(lián)。而級(jí)聯(lián)的缺點(diǎn)是不太好直接聯(lián)合訓(xùn)練，這恰恰破壞了卷積神經(jīng)網(wǎng)絡(luò)可以端到端訓(xùn)練的性質(zhì)。由于傳統(tǒng)的級(jí)聯(lián)訓(xùn)練往往是單步求解最優(yōu)，得到的結(jié)果可能沒有多步聯(lián)合最優(yōu)的效果好。

為此，我們提出了一種可以聯(lián)合訓(xùn)練整個(gè)級(jí)聯(lián)分類器的一種方式。得益于神經(jīng)網(wǎng)絡(luò)可以反向傳播的性質(zhì)，我們給出了如何聯(lián)合訓(xùn)練整個(gè)級(jí)聯(lián)分類器。并且，我們說明了如何在簡(jiǎn)單的 cascade CNN 和更復(fù)雜一點(diǎn)的 faster-RCNN 上都可以用這種方式來聯(lián)合訓(xùn)練，并且可以取得非常優(yōu)異的性能。特別是當(dāng)網(wǎng)絡(luò)的規(guī)模比較小的時(shí)候，這種聯(lián)合訓(xùn)練的方法提升非常大。如下是一個(gè)簡(jiǎn)單的級(jí)聯(lián)卷積神經(jīng)網(wǎng)絡(luò)的示例圖。

這個(gè)工作做完之后，我們進(jìn)一步大幅度提升了檢測(cè)的速度和精度，并把完全基于 CNN 的方法做到了包括 ARM，CPU 和 GPU 各個(gè)平臺(tái)上，并且跑到了非常好的速度。如今，商湯科技基于深度學(xué)習(xí)的人臉檢測(cè)技術(shù)適配于多個(gè)品牌不同型號(hào)的手機(jī)上，支持著幾十個(gè)各類 APP 的人臉分析功能；在單核 CPU 上可以跑到上百 FPS，并每天支持著大量的金融人臉認(rèn)證服務(wù)；在單個(gè) GPU 上可以實(shí)時(shí)的處理超過 12 路以上的高清視頻，并運(yùn)用到很多的安防監(jiān)控系統(tǒng)中；甚至不久的將來，還會(huì)集成到相機(jī)前端的人臉抓拍芯片中。

如今眾多的產(chǎn)品需求為技術(shù)的進(jìn)步提供了海量的數(shù)據(jù)，也提出了越來越高的需求。我們知道，技術(shù)遠(yuǎn)遠(yuǎn)沒有極限。很多現(xiàn)在感覺平常的技術(shù)，甚至半年前都難以想象；一些我們現(xiàn)在覺得難以逾越的技術(shù)障礙，有可能半年內(nèi)被很好地解決。為此，我們默默的積累著，也希望更多的小伙伴一起在技術(shù)進(jìn)步的道路上流下自己的汗水。

總結(jié)

以上是生活随笔為你收集整理的论文解析：人脸检测中级联卷积神经网络的联合训练的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：理解GBDT算法（三）——基于梯度的版本
下一篇：卷积神经网络的网络结构——以LeNet-

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

论文解析：人脸检测中级联卷积神经网络的联合训练

論文解析：人臉檢測(cè)中級(jí)聯(lián)卷積神經(jīng)網(wǎng)絡(luò)的聯(lián)合訓(xùn)練

總結(jié)