论文解析:人脸检测中级联卷积神经网络的联合训练
論文解析:人臉檢測(cè)中級(jí)聯(lián)卷積神經(jīng)網(wǎng)絡(luò)的聯(lián)合訓(xùn)練
商湯科技解析CVPR2016論文:人臉檢測(cè)中級(jí)聯(lián)卷積神經(jīng)網(wǎng)絡(luò)的聯(lián)合訓(xùn)練 width="250" height="250" align="center,center" id="iframeu1554535_0" src="http://pos.baidu.com/jcgm?rdid=1554535&dc=2&di=u1554535&dri=0&dis=0&dai=2&ps=461x690&dcb=BAIDU_SSP_define&dtm=BAIDU_DUP_SETJSONADSLOT&dvi=0.0&dci=-1&dpt=none&tsr=0&tpr=1465998600293&ti=%E8%AE%BA%E6%96%87%E8%A7%A3%E6%9E%90%EF%BC%9A%E4%BA%BA%E8%84%B8%E6%A3%80%E6%B5%8B%E4%B8%AD%E7%BA%A7%E8%81%94%E5%8D%B7%E7%A7%AF%E7%A5%9E%E7%BB%8F%E7%BD%91%E7%BB%9C%E7%9A%84%E8%81%94%E5%90%88%E8%AE%AD%E7%BB%83--%E7%99%BE%E5%BA%A6%E7%99%BE%E5%AE%B6&ari=1&dbv=2&drs=1&pcs=1000x666&pss=1000x536&cfv=21&cpl=1&chi=1&cce=true&cec=utf-8&tlm=1465998600<u=http%3A%2F%2Fsynchuman.baijia.baidu.com%2Farticle%2F495393<r=http%3A%2F%2Fnews.baidu.com%2F&ecd=1&psr=1000x750&par=1000x721&pis=-1x-1&ccd=24&cja=true&cmi=2&col=zh-CN&cdo=-1&tcn=1465998600&qn=bae2e37d6887f526&tt=1465998600251.161.367.368" frameborder="0" marginwidth="0" marginheight="0" scrolling="no" vspace="0" hspace="0" style="border:0; vertical-align:bottom;margin:0;" allowtransparency="true">
論文:Joint Training of Cascaded CNN for Face Detection
論文作者:Hongwei Qin, Junjie Yan, Xiu Li, Xiaolin Hu
Grad.School at Shenzhen Tsinghua University(清華大學(xué)深圳研究生院),Tsinghua University(清華大學(xué)),SenseTime Group Limited(商湯科技)
本文作者:閆俊杰
作者個(gè)人簡(jiǎn)介:
閆俊杰,商湯科技主任研發(fā)工程師,15 年博士畢業(yè)于中科院自動(dòng)化所,研究領(lǐng)域主要是物體檢測(cè)和人臉識(shí)別,發(fā)表了超過 10 篇 CVPR\ECCV\ICCV 論文。在 SenseTime 負(fù)責(zé)監(jiān)控產(chǎn)品線的技術(shù)研發(fā)以及檢測(cè)技術(shù)的基礎(chǔ)研究。
CVPR:IEEE Conference on Computer Vision and Pattern Recognition,即 IEEE 國(guó)際計(jì)算機(jī)視覺與模式識(shí)別會(huì)議。該會(huì)議是計(jì)算機(jī)視覺和模式識(shí)別領(lǐng)域的頂級(jí)會(huì)議,在中國(guó)計(jì)算機(jī)學(xué)會(huì)推薦國(guó)際學(xué)術(shù)會(huì)議的排名中,CVPR 為人工智能領(lǐng)域的 A 類會(huì)議。
商湯科技會(huì)在 CVPR 2016 上提交多篇論文,接下來,商湯科技的技術(shù)專家將在機(jī)器之心發(fā)布系列文章,對(duì)論文進(jìn)行解讀。
人臉檢測(cè)是一個(gè)各種人臉應(yīng)用中最基礎(chǔ)的一個(gè)模塊。 幾乎所有的人臉應(yīng)用都需要首先使用檢測(cè)器來得到人臉的具體位置,然后再進(jìn)行更加精細(xì)的處理,包括關(guān)鍵點(diǎn)定位,美顏,識(shí)別等等。當(dāng)我們用單反拍照,當(dāng)我們用手機(jī)美顏,當(dāng)我們登陸系統(tǒng)前進(jìn)行人臉認(rèn)證,甚至當(dāng)我們經(jīng)過某些監(jiān)控?cái)z像頭,人臉檢測(cè)算法時(shí)刻在運(yùn)行著。
作為幾乎是整個(gè)計(jì)算機(jī)視覺最重要、最成功的應(yīng)用之一,人臉檢測(cè)在 2000 年左右就有了一個(gè)令人信服的解決方案,當(dāng)時(shí) Viola 和 Jones 提出了積分圖特征計(jì)算 +Adaboost+ 級(jí)聯(lián)的方式來做檢測(cè)。其中積分圖特征計(jì)算的效率非常高,每個(gè)像素只要被遍歷一次就可以得到積分圖,然后可以快速的計(jì)算出一些人工設(shè)計(jì)的特征模式;Adaboost 算法可以把很多弱特征組合成一個(gè)更強(qiáng)的分類器;而級(jí)聯(lián)可以快速過濾掉過多的背景。Viola 和 Jones 的方法非常成功,以至于至今依然被持續(xù)改進(jìn)和大規(guī)模的使用。Viola&Jones的改進(jìn)和實(shí)用化的過程中,一個(gè)很重要的事件是黃暢博士的改進(jìn)算法以及 Omron(歐姆龍)的勞世竑和他的團(tuán)隊(duì)把該算法做到了芯片上(很幸運(yùn)的勞老師現(xiàn)在也在 SenseTime 工作)。
從 08 年 12 年之間,很多沒有自己動(dòng)手做過實(shí)驗(yàn)的人往往以為人臉檢測(cè)已經(jīng)解決了,計(jì)算機(jī)視覺的幾個(gè)主流會(huì)議上甚至很少也看到人臉檢測(cè)的工作。 這其中的原因,可能是之前大家做人臉識(shí)別等的實(shí)驗(yàn),往往在一些比較規(guī)范的數(shù)據(jù)集上。但是對(duì)于真實(shí)世界的人臉,不管是學(xué)術(shù)界的 FDDB,MALF 還是工業(yè)界的一些實(shí)際使用場(chǎng)景,親自做過實(shí)驗(yàn)的人都可以很明顯的感受到基于 Viola-Jones 的這套框架的力不從心。不僅僅是性能方面,還有個(gè)嚴(yán)重的問題是,這些方法過多的依賴經(jīng)驗(yàn)的積累。從頭基于這套框架復(fù)現(xiàn)一個(gè)好的結(jié)果,并且維護(hù)一套性能優(yōu)異的測(cè)試代碼的時(shí)間成本和人力成本都非常非常的大,造成了一定的門檻。 由于大部分所謂的經(jīng)驗(yàn)都是不公開的,這在某種程度上也阻礙了技術(shù)的進(jìn)步。
好消息是整個(gè)領(lǐng)域進(jìn)入了卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,既CNN)的時(shí)代后,之前的很多傳統(tǒng)方法的經(jīng)驗(yàn)積累可以很快的被顛覆。人們很快發(fā)現(xiàn),直接把通用物體檢測(cè)的思路搬到人臉檢測(cè)里面,并做一些簡(jiǎn)單的改進(jìn)就很容易取得比傳統(tǒng)方法更好的結(jié)果。于是13年到現(xiàn)在學(xué)術(shù)界的人臉檢測(cè)數(shù)據(jù)集 FDDB、AFW 和 MALF 等被一次次的刷新著。這些方法至少在精度上比前一代算法提升了很多, 與當(dāng)時(shí)很多商業(yè)軟件里面的人臉檢測(cè)器,比如 Google Picasa 等有接近的性能。筆者也在這個(gè)大潮中和伙伴們一起用幾種不同的方法刷新了結(jié)果,但是和絕大多數(shù)的所謂科研一樣,這些基本上都成了過眼云煙,除了幾篇 paper 外并沒有留下太多的實(shí)際意義。 這些方法本質(zhì)上以最好的通用物體檢測(cè)算法作為基礎(chǔ),加以改進(jìn)。但是相比于通用物體檢測(cè),人臉檢測(cè)有些不同,比如說人臉對(duì)精度和速度的要求更高;人臉有很多關(guān)鍵點(diǎn)和屬性的標(biāo)注可以利用;人臉比通用物體更容易設(shè)計(jì)有更多的先驗(yàn)等等,這些不同導(dǎo)致了近期非常多的基于卷積神經(jīng)網(wǎng)絡(luò)的人臉檢測(cè)的工作,大部分也都取得了不錯(cuò)的結(jié)果。
我們的文章考慮了一個(gè)如何聯(lián)合訓(xùn)練檢測(cè)器的問題,可以認(rèn)為是卷積神經(jīng)網(wǎng)絡(luò)方案中的一個(gè),但是不局限于某個(gè)特定的 CNN 檢測(cè)方法。不管是人工設(shè)計(jì)的特征的方法,還是基于卷積神經(jīng)網(wǎng)絡(luò)的檢測(cè)算法,往往都需要做級(jí)聯(lián)。而級(jí)聯(lián)的缺點(diǎn)是不太好直接聯(lián)合訓(xùn)練,這恰恰破壞了卷積神經(jīng)網(wǎng)絡(luò)可以端到端訓(xùn)練的性質(zhì)。由于傳統(tǒng)的級(jí)聯(lián)訓(xùn)練往往是單步求解最優(yōu),得到的結(jié)果可能沒有多步聯(lián)合最優(yōu)的效果好。
為此,我們提出了一種可以聯(lián)合訓(xùn)練整個(gè)級(jí)聯(lián)分類器的一種方式。得益于神經(jīng)網(wǎng)絡(luò)可以反向傳播的性質(zhì),我們給出了如何聯(lián)合訓(xùn)練整個(gè)級(jí)聯(lián)分類器。并且,我們說明了如何在簡(jiǎn)單的 cascade CNN 和更復(fù)雜一點(diǎn)的 faster-RCNN 上都可以用這種方式來聯(lián)合訓(xùn)練,并且可以取得非常優(yōu)異的性能。 特別是當(dāng)網(wǎng)絡(luò)的規(guī)模比較小的時(shí)候,這種聯(lián)合訓(xùn)練的方法提升非常大。如下是一個(gè)簡(jiǎn)單的級(jí)聯(lián)卷積神經(jīng)網(wǎng)絡(luò)的示例圖。
這個(gè)工作做完之后,我們進(jìn)一步大幅度提升了檢測(cè)的速度和精度,并把完全基于 CNN 的方法做到了包括 ARM,CPU 和 GPU 各個(gè)平臺(tái)上,并且跑到了非常好的速度。如今,商湯科技基于深度學(xué)習(xí)的人臉檢測(cè)技術(shù)適配于多個(gè)品牌不同型號(hào)的手機(jī)上,支持著幾十個(gè)各類 APP 的人臉分析功能;在單核 CPU 上可以跑到上百 FPS,并每天支持著大量的金融人臉認(rèn)證服務(wù);在單個(gè) GPU 上可以實(shí)時(shí)的處理超過 12 路以上的高清視頻,并運(yùn)用到很多的安防監(jiān)控系統(tǒng)中;甚至不久的將來,還會(huì)集成到相機(jī)前端的人臉抓拍芯片中。
如今眾多的產(chǎn)品需求為技術(shù)的進(jìn)步提供了海量的數(shù)據(jù),也提出了越來越高的需求。我們知道,技術(shù)遠(yuǎn)遠(yuǎn)沒有極限。很多現(xiàn)在感覺平常的技術(shù),甚至半年前都難以想象;一些我們現(xiàn)在覺得難以逾越的技術(shù)障礙,有可能半年內(nèi)被很好地解決。為此,我們默默的積累著,也希望更多的小伙伴一起在技術(shù)進(jìn)步的道路上流下自己的汗水。
總結(jié)
以上是生活随笔為你收集整理的论文解析:人脸检测中级联卷积神经网络的联合训练的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 理解GBDT算法(三)——基于梯度的版本
- 下一篇: 卷积神经网络的网络结构——以LeNet-