CVPR 2020 | CMU HKUST提出binary网络自动化搜索,同时实现超高压缩与高精度
這項(xiàng)工作由卡內(nèi)基梅隆大學(xué),香港科技大學(xué)合作完成,目的是通過(guò)網(wǎng)絡(luò)自動(dòng)化搜索,找到在已知網(wǎng)絡(luò)的權(quán)重(weight)和激活值(activation)都為二值化{-1,+1}的情況下,搜索最能充分利用二值化卷機(jī)層的表達(dá)能力的網(wǎng)絡(luò)結(jié)構(gòu)。
該工作是第一篇在 depth-wise 的卷積中通過(guò)搜索 group conv 來(lái)實(shí)現(xiàn)網(wǎng)絡(luò)二值化的算法。實(shí)驗(yàn)結(jié)果表明,本方法能取得和接近 XNOR-Net 的精度,而所需的 FLOPs 僅約為 XNOR-Net 的 1/5。借助于 Matrix 層面的參數(shù)共享機(jī)制,整個(gè)搜索過(guò)程只需要~30 GPU hours。
論文標(biāo)題:Binarizing MobileNet via Evolution-based Searching
論文來(lái)源:CVPR 2020
論文鏈接:https://arxiv.org/abs/2005.06305
介紹
深度卷積神經(jīng)網(wǎng)絡(luò)(CNN)量化是一種常用的網(wǎng)絡(luò)壓縮方法,而網(wǎng)絡(luò)二值化是極端情況下的量化,即每個(gè) weight 和 activation 僅用 -1 或 +1 表示。 一方面,在這種極端壓縮的情況下,網(wǎng)絡(luò)的表達(dá)能力會(huì)受到非常大的限制。另一方面,近來(lái)越來(lái)越多的學(xué)者以及工程師更加關(guān)心如何壓縮哪些原本就經(jīng)過(guò)了緊湊型網(wǎng)絡(luò)設(shè)計(jì)的小網(wǎng)絡(luò),如 MobileNet。這就給網(wǎng)絡(luò)量化提出了新的挑戰(zhàn)。
為了應(yīng)對(duì)這一挑戰(zhàn),本文從 MobileNet 網(wǎng)絡(luò)框架出發(fā),根據(jù)二值化網(wǎng)絡(luò)特性,搜索最佳網(wǎng)絡(luò)結(jié)構(gòu)。在分析二值化網(wǎng)絡(luò)的表達(dá)能力的時(shí)候我們發(fā)現(xiàn),當(dāng)二值化卷機(jī)層是 depth-wise 卷積時(shí),輸出的 feature map 中的激活值的取值范圍將局限于(-3x3,3x3)之間,由此也導(dǎo)致了 binarize MobileNet 難以收斂。而如果把 MobileNet 中的 depth-wise 卷積替換成全卷積,則會(huì)導(dǎo)致參數(shù)量增加,從而降低二值化網(wǎng)絡(luò)的高壓縮率。?
為了取得壓縮率與網(wǎng)絡(luò)精度之間的權(quán)衡,我們認(rèn)為,每一層卷積對(duì)應(yīng)的feature的抽象化程度不同,因此,對(duì)于表達(dá)能力的要求也不一樣。基于這個(gè)假設(shè),我們提出用網(wǎng)絡(luò)自動(dòng)搜索(NAS)的方法搜索每一層的組卷積的最優(yōu)group數(shù),作為depth-wise 卷積和全卷積之間的trade-off。
我們的框架基于 one-shot architecture search,包含三步:?
第一步:訓(xùn)練一個(gè)參數(shù)共享網(wǎng)絡(luò)。?
第二步:用遺傳算法在參數(shù)共享網(wǎng)絡(luò)中搜索出最優(yōu)的 每一層組卷積的 group 數(shù)目。
第三步:訓(xùn)練搜索得到的最優(yōu)網(wǎng)絡(luò)。?
特別的,在訓(xùn)練參數(shù)共享網(wǎng)絡(luò)時(shí),我們?yōu)榻M卷積搜索設(shè)計(jì)了 matrix-level 的參數(shù)共享。
如圖所示,在一個(gè)輸入 6 通道輸出 6 通道的卷機(jī)層中,可以選取的 group 數(shù)目為 1,2,3,6。group=1 時(shí)為全卷積,訓(xùn)練參數(shù)為存儲(chǔ)的所有 weights。當(dāng) group=6 時(shí)為 depth-wise 卷積,訓(xùn)練參數(shù)為對(duì)角線上的所選 weights。為了方便直觀化表示,下圖的每一個(gè) cell 代表了一個(gè) 3x3 的卷積核。
實(shí)驗(yàn)結(jié)果
從表中的比較可以看到, 由本文搜索算法得到的網(wǎng)絡(luò)結(jié)構(gòu)可以取得超過(guò)其他 State-of-the-art 二值化方法的精度,并且所需要的計(jì)算資源少于之前眾多BNN方法。?
最后,HKUST Vision and System Design Lab 正在招有硬件經(jīng)驗(yàn)的同學(xué)來(lái)當(dāng)博士后,由 Tim CHENG 老師直接指導(dǎo)。如果你曾在 DAC,ICCAD 或同等硬件會(huì)議/期刊上發(fā)表過(guò)一作論文,歡迎發(fā)送簡(jiǎn)歷到 zliubq@connect.ust.hk。
更多閱讀
#投 稿?通 道#
?讓你的論文被更多人看到?
如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達(dá)讀者群體,縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢?答案就是:你不認(rèn)識(shí)的人。
總有一些你不認(rèn)識(shí)的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學(xué)者和學(xué)術(shù)靈感相互碰撞,迸發(fā)出更多的可能性。?
PaperWeekly 鼓勵(lì)高校實(shí)驗(yàn)室或個(gè)人,在我們的平臺(tái)上分享各類優(yōu)質(zhì)內(nèi)容,可以是最新論文解讀,也可以是學(xué)習(xí)心得或技術(shù)干貨。我們的目的只有一個(gè),讓知識(shí)真正流動(dòng)起來(lái)。
?????來(lái)稿標(biāo)準(zhǔn):
? 稿件確系個(gè)人原創(chuàng)作品,來(lái)稿需注明作者個(gè)人信息(姓名+學(xué)校/工作單位+學(xué)歷/職位+研究方向)?
? 如果文章并非首發(fā),請(qǐng)?jiān)谕陡鍟r(shí)提醒并附上所有已發(fā)布鏈接?
? PaperWeekly 默認(rèn)每篇文章都是首發(fā),均會(huì)添加“原創(chuàng)”標(biāo)志
?????投稿郵箱:
? 投稿郵箱:hr@paperweekly.site?
? 所有文章配圖,請(qǐng)單獨(dú)在附件中發(fā)送?
? 請(qǐng)留下即時(shí)聯(lián)系方式(微信或手機(jī)),以便我們?cè)诰庉嫲l(fā)布時(shí)和作者溝通
????
現(xiàn)在,在「知乎」也能找到我們了
進(jìn)入知乎首頁(yè)搜索「PaperWeekly」
點(diǎn)擊「關(guān)注」訂閱我們的專欄吧
關(guān)于PaperWeekly
PaperWeekly 是一個(gè)推薦、解讀、討論、報(bào)道人工智能前沿論文成果的學(xué)術(shù)平臺(tái)。如果你研究或從事 AI 領(lǐng)域,歡迎在公眾號(hào)后臺(tái)點(diǎn)擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
總結(jié)
以上是生活随笔為你收集整理的CVPR 2020 | CMU HKUST提出binary网络自动化搜索,同时实现超高压缩与高精度的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 哪些饮料对女性健康最有益?
- 下一篇: NLP中各框架对变长序列的处理全解