日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

Tiny-DSOD: Lightweight Object Detection for Resource-Restricted Usages

發(fā)布時(shí)間:2023/12/14 编程问答 33 豆豆
生活随笔 收集整理的這篇文章主要介紹了 Tiny-DSOD: Lightweight Object Detection for Resource-Restricted Usages 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

Y uxi Li1
lyxok1@sjtu.edu.cn
Jiuwei Li2
jiuwei.li@intel.com
Weiyao Lin1
wylin@sjtu.edu.cn
Jianguo Li2
jianguo.li@intel.com

1Shanghai Jiao Tong University , China
2Intel Lab China

Abstract

近年來(lái),隨著深度學(xué)習(xí)的發(fā)展,目標(biāo)檢測(cè)技術(shù)取得了長(zhǎng)足的進(jìn)步。然而,目前大多數(shù)的目標(biāo)檢測(cè)方法都是資源密集型的,這阻礙了它們?cè)诤芏噘Y源受限的應(yīng)用中的廣泛應(yīng)用,如在常開(kāi)設(shè)備、電池供電的低端設(shè)備上的應(yīng)用,在設(shè)計(jì)整個(gè)目標(biāo)檢測(cè)框架的過(guò)程中,考慮了資源和精度對(duì)資源受限使用的權(quán)衡。基于深度監(jiān)督目標(biāo)檢測(cè)(DSOD)框架,提出了一種用于資源受限應(yīng)用的微型DSOD。Tiny DSOD引入了兩種創(chuàng)新的、超高效的體系結(jié)構(gòu)塊:基于depthwise密集塊(DDB)的主干網(wǎng)和基于depthwise特征金字塔網(wǎng)絡(luò)(D-FPN)的前端。我們?cè)谌齻€(gè)著名的基準(zhǔn)(PASCAL VOC 2007、KITTI和COCO)上進(jìn)行了廣泛的實(shí)驗(yàn),并將微型DSOD與最先進(jìn)的超高效目標(biāo)檢測(cè)解決方案(如Tiny YOLO、MobileNet-SSD(v1和v2)、SqueezeDet、Pelee,結(jié)果表明,在所有三個(gè)指標(biāo)(參數(shù)大小、觸發(fā)器、精度)的比較中,微型DSOD都優(yōu)于這些解決方案。例如,微型DSOD僅用0.95M的參數(shù)和1.06B的觸發(fā)器就可以達(dá)到72.1%的mAP,這是目前為止資源需求如此低的最新成果。

1 Introduction

目標(biāo)檢測(cè)被認(rèn)為是計(jì)算機(jī)視覺(jué)領(lǐng)域中一項(xiàng)關(guān)鍵而富有挑戰(zhàn)性的任務(wù),因?yàn)樗且粋€(gè)新的目標(biāo)分類和定位的組合。隨著現(xiàn)代深度學(xué)習(xí)技術(shù)的發(fā)展,許多基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)的檢測(cè)框架被提出,包括fasterr-CNN[25]、YOLO[24]、SSD[22]及其變體[4、6、12、20、23、33],大大提高了目標(biāo)檢測(cè)的精度。

盡管這些模型已經(jīng)達(dá)到了最先進(jìn)的精度,但它們大多是資源匱乏的,因?yàn)樗鼈兙哂懈叩挠?jì)算復(fù)雜度和較大的參數(shù)尺寸(或大型號(hào)尺寸))。高的計(jì)算復(fù)雜度要求計(jì)算單元具有更高的峰值觸發(fā)器,這通常會(huì)增加功耗的預(yù)算。在[16]中,對(duì)速度和精度的權(quán)衡進(jìn)行了廣泛的研究。然而,資源不僅是計(jì)算資源,也是內(nèi)存資源。大的模型大小會(huì)產(chǎn)生大的持久性內(nèi)存需求,這不僅代價(jià)高昂,而且由于頻繁的持久性內(nèi)存訪問(wèn),對(duì)于低端嵌入應(yīng)用程序來(lái)說(shuō),功耗也很低。由于這兩個(gè)限制,目前大多數(shù)的目標(biāo)檢測(cè)解決方案都不適合低功耗的使用場(chǎng)景,例如總是在設(shè)備或電池供電的低端設(shè)備上的應(yīng)用。

為了緩解這種局限性,近年來(lái)許多研究致力于超高效目標(biāo)檢測(cè)網(wǎng)絡(luò)的設(shè)計(jì)。例如,YOLO[24]提供了一個(gè)名為Tiny YOLO的lite版本,它將YOLO的參數(shù)大小壓縮到15米,并在PASCAL VOC 2007數(shù)據(jù)集[5]上實(shí)現(xiàn)了超過(guò)200 fps的檢測(cè)速度。squezedet[32]將基于squezenet[17]的主干網(wǎng)引入到Y(jié)OLO框架中,以實(shí)現(xiàn)高效的toutonomousdriving用途。MobileNet SSD在SSD框架中采用MobileNet[13]作為骨干,在PASCAL VOC 2007數(shù)據(jù)集上生成的模型只有5.5M的參數(shù)和1.14B的計(jì)算觸發(fā)器。雖然這些小網(wǎng)絡(luò)在很大程度上減少了計(jì)算資源的需求,但是小網(wǎng)絡(luò)與全尺寸網(wǎng)絡(luò)之間仍然存在著很大的精度差距。例如,在PASCAL VOC 2007上,從SSD(77.2%)到MobileNet-SSD(68.0%)的準(zhǔn)確率下降了9.2%。簡(jiǎn)而言之,這些小型的檢測(cè)網(wǎng)絡(luò)遠(yuǎn)沒(méi)有在資源(FLOPs和內(nèi)存)和準(zhǔn)確性之間取得良好的平衡。

我們提出了微型DSOD,致力于在資源(FLOPs和內(nèi)存)和精度之間取得良好的平衡。該框架的骨干部分受到了目標(biāo)檢測(cè)工作DSOD[28]和來(lái)自[3,13,27]的最新超高效可分離卷積網(wǎng)絡(luò)結(jié)構(gòu)的啟發(fā)。DSOD[28]介紹了從零開(kāi)始訓(xùn)練目標(biāo)檢測(cè)網(wǎng)絡(luò)的幾個(gè)重要原則,其中深度監(jiān)控對(duì)于幫助將監(jiān)控信息從丟失層反向傳播到較淺層而不存在梯度消失問(wèn)題是最關(guān)鍵的。DSOD采用DenseNet結(jié)構(gòu)[14]等隱式深度監(jiān)督。微型DSOD將[3,13,27]的超高效可分離反褶積合并到DenseNet中,并引入一種新的反褶積密集塊(DDB)來(lái)代替DenseNet中的密集塊。該設(shè)計(jì)不僅減少了對(duì)計(jì)算資源的需求,而且保留了對(duì)高效訓(xùn)練的隱性深層監(jiān)控。在前端部分,我們嘗試將成功的特征金字塔網(wǎng)絡(luò)(FPN)[20]引入到我們的框架中,以實(shí)現(xiàn)從低分辨率尺度到鄰域高分辨率尺度的語(yǔ)義信息的無(wú)縫融合。通過(guò)將有效的深度卷積方法引入到FPN中,我們發(fā)明了深度FPN(D-FPN)。實(shí)驗(yàn)證明,輕量級(jí)D-FPN前端能夠顯著提高檢測(cè)精度。

我們提出了微型DSOD,致力于在資源(FLOPs和內(nèi)存)和精度之間取得良好的平衡。該框架的骨干部分受到了目標(biāo)檢測(cè)工作DSOD[28]和來(lái)自[3,13,27]的最新超高效可分離卷積網(wǎng)絡(luò)結(jié)構(gòu)的啟發(fā)。DSOD[28]介紹了從零開(kāi)始訓(xùn)練目標(biāo)檢測(cè)網(wǎng)絡(luò)的幾個(gè)重要原則,其中深度監(jiān)控對(duì)于幫助將監(jiān)控信息從丟失層反向傳播到較淺層而不存在梯度消失問(wèn)題是最關(guān)鍵的。DSOD采用DenseNet結(jié)構(gòu)[14]等隱式深度監(jiān)督微型DSOD將[3,13,27]的超高效可分離反褶積合并到DenseNet中并引入一種新的反褶積密集塊(DDB)來(lái)代替DenseNet中的密集塊。該設(shè)計(jì)不僅減少了對(duì)計(jì)算資源的需求,而且保留了對(duì)高效訓(xùn)練的隱性深層監(jiān)控。在前端部分,我們嘗試將成功的特征金字塔網(wǎng)絡(luò)(FPN)[20]引入到我們的框架中,以實(shí)現(xiàn)從低分辨率尺度到鄰域高分辨率尺度的語(yǔ)義信息的無(wú)縫融合。通過(guò)將有效的深度卷積方法引入到FPN中,我們發(fā)明了深度FPN(D-FPN)。實(shí)驗(yàn)證明,輕量級(jí)D-FPN前端能夠顯著提高檢測(cè)精度。

我們進(jìn)行了大量的實(shí)驗(yàn),以驗(yàn)證在不同數(shù)據(jù)集(如PASCAL VOC[5]、KITTI[7]和COCO[19])上微DSOD的有效性。結(jié)果表明,我們的TinyDSOD在資源(FLOPs和memory)和準(zhǔn)確性之間取得了更好的平衡。例如,在PASCAL VOC2007上,微型DSOD的平均精度(mAP)為72.1%,只有0.95M的參數(shù)和1.06B的運(yùn)算速度。據(jù)我們所知,這是第一個(gè)能夠在參數(shù)小于1.0米的情況下實(shí)現(xiàn)大于70%mAP的檢測(cè)模型。事實(shí)上,在三個(gè)比較基準(zhǔn)數(shù)據(jù)集(VOC 2007,KITTI,COCO)對(duì)所有三個(gè)評(píng)估指標(biāo)(準(zhǔn)確性、參數(shù)大小、失敗次數(shù))的評(píng)估。與最小的DSOD模型[28]相比,微小的DSOD將參數(shù)大小減少到1/6左右,計(jì)算觸發(fā)器減少到1/5,精度僅下降1.5%。本文的貢獻(xiàn)總結(jié)如下:

? We propose depthwise dense block (DDB), a novel and efficient network structure to
combinedepthwiseseparableconvolutionwithdenselyconnectednetworks(DenseNet)
for ultra-efficient computer vision usages.

? We propose D-FPN, a novel and lightweight version of FPN [20], to fuse semantic
information from neighborhood scales for boosting object detection accuracy.

? We design the ultra-efficient object detector Tiny-DSOD for resource-restricted usages
based on the proposed DDB and D-FPN blocks. Tiny-DSOD outperforms state-of-the-
art ultra-efficient object detectors such as Tiny-YOLO, SqueezeDet, MobileNet-SSD,
etc in each of the three compared benchmark datasets (VOC 2007, KITTI, COCO) on
all the three evaluation metrics (accuracy, parameter-size, FLOPs).

2 Related Works

最先進(jìn)的目標(biāo)檢測(cè)網(wǎng)絡(luò)

隨著深度學(xué)習(xí)的快速發(fā)展,近年來(lái)提出了多種基于CNN的目標(biāo)檢測(cè)框架。它們一般可分為兩類:基于單階段的方法和基于兩階段的方法。

典型的兩階段方法包括R-CNN[9]、快速R-CNN[8]、快速RCNN[25]和R-FCN[4]。早期的方法如R-CNN[9]和Fast R-CNN[8]利用外部區(qū)域建議生成算法如[31]來(lái)生成區(qū)域建議候選并對(duì)每個(gè)候選區(qū)域執(zhí)行分類。后一種方法引入?yún)^(qū)域建議網(wǎng)絡(luò)(RPN)來(lái)生成區(qū)域建議,并將分類、包圍盒回歸等RPN和前端模塊集成到一個(gè)端到端訓(xùn)練框架中。這種方法精度高,但計(jì)算量大,處理速度慢。

相反,SSD[22]和YOLO[24]等典型的單階段方法在一個(gè)或多個(gè)特征映射上應(yīng)用不同比例/大小的預(yù)定義滑動(dòng)默認(rèn)框,以實(shí)現(xiàn)速度和精度之間的權(quán)衡。這種方法通常比兩階段的方法快,但比基于兩階段的方法精度低。

此外,所有這些檢測(cè)框架都以更好的骨干網(wǎng)(如ResNet[11]或VGG-16[29])作為特征抽取器,實(shí)現(xiàn)了更好的檢測(cè)精度,該特征抽取器參數(shù)化程度高,占用了大量的計(jì)算資源。

輕量級(jí)目標(biāo)檢測(cè)網(wǎng)絡(luò)

在[16]中,對(duì)速度和精度的權(quán)衡進(jìn)行了廣泛的研究。然而,資源不僅是計(jì)算速度的代價(jià),也是內(nèi)存資源的代價(jià)。近年來(lái),人們致力于為資源受限的目標(biāo)檢測(cè)設(shè)計(jì)高效的小型網(wǎng)絡(luò)。SqueezeNet[17](一個(gè)簡(jiǎn)單版本的inception[30]結(jié)構(gòu)稱為Fire module)為基礎(chǔ)的主干最近被引入到現(xiàn)代的單級(jí)高效檢測(cè)框架中[32],在PASCAL VOC 2007和KITTI[7]上取得了可比的結(jié)果。例如,在PASCAL VOC 2007上,基于擠壓網(wǎng)的SSD僅用5.5M的參數(shù)和1.18B的計(jì)算觸發(fā)器就實(shí)現(xiàn)了64.3%的mAP。

同時(shí),深度可分卷積[3,13,27]在一般的圖像分類任務(wù)中表現(xiàn)出很好的參數(shù)和計(jì)算效率。它還被引入到SSD框架中,作為一個(gè)主干用于目標(biāo)檢測(cè),并被命名為MobileNet-SSD[13]。在PASCAL VOC 2007上,MobileNet-SSD僅用5.5M的參數(shù)和1.14B的浮點(diǎn)運(yùn)算就實(shí)現(xiàn)了68.0%的映射。

Pelee[26]利用雙向密集連接結(jié)構(gòu)來(lái)減少計(jì)算消耗,同時(shí)保持移動(dòng)應(yīng)用的檢測(cè)精度。

盡管如此,在高效而微小的網(wǎng)絡(luò)和全尺寸網(wǎng)絡(luò)之間仍然存在著很大的精度差距。例如,tiny YOLO在PASCAL VOC 2007上可以達(dá)到57.1%的mAP,而YOLOv2[23]在相同的設(shè)置下可以達(dá)到78.6%的mAP。SqueezeNet-SSD?和MobileNet-SSD在PASCAL VOC 2007上分別達(dá)到64.3%和68.0%的mAP,而在相同的設(shè)置下,full?SSD達(dá)到77.2%的mAP。這一發(fā)現(xiàn)啟發(fā)我們,在設(shè)計(jì)目標(biāo)檢測(cè)網(wǎng)絡(luò)時(shí),仍有很大的空間在資源(FLOPs和內(nèi)存)和精度之間實(shí)現(xiàn)更好的權(quán)衡。

3方法

我們的目標(biāo)是設(shè)計(jì)一個(gè)面向資源受限用途的超高效目標(biāo)檢測(cè)網(wǎng)絡(luò)。我們的檢測(cè)器是基于單鏡頭檢測(cè)器(SSD)[22]框架和深度監(jiān)督目標(biāo)檢測(cè)(DSOD)框架[28],它由主干部分和前端部分組成。我們將在下面分別闡述這兩個(gè)部分。

3.1基于密集塊的主干網(wǎng)

受DSOD[28]的啟發(fā),我們還構(gòu)建了一個(gè)類似DenseNet[14]的主干,因?yàn)樗菀?span style="color:#f33b45;">從零開(kāi)始訓(xùn)練,而訓(xùn)練集相對(duì)較少。考慮到資源的限制,我們將超有效的深度可分卷積引入到典型的稠密塊體中,并將這種新的結(jié)構(gòu)單元稱為深度稠密塊體(DDB)

我們提出了兩種類型的DDB單元,DDB-a和DDB-b,如圖1所示。圖1(a)中的DDB-a單元受到MobileNet-v2[27]中提出的新的反向剩余塊的啟發(fā)它首先將輸入信道擴(kuò)展到w×n,其中n是塊輸入信道數(shù),w是控制模型容量的整數(shù)超參數(shù)。然后應(yīng)用深度卷積,進(jìn)一步用點(diǎn)卷積(即1×1卷積)將特征映射投影到g信道(g是DDB-a的增長(zhǎng)率)。最后,我們使用連接將輸入和輸出特征映射合并在一起,而不是MobileNet-v2中的剩余加法操作[27]。DDB-a有兩個(gè)超參數(shù)w和g,因此我們將其表示為DDB-a(w,g)。

DDB-A有兩個(gè)主要缺陷:第一,假設(shè)L DDB-A塊堆疊,堆疊結(jié)構(gòu)的復(fù)雜性為O(L3G2)。這意味著資源消耗相對(duì)于L的增長(zhǎng)很快,因此即使將幾個(gè)DDB-a疊加在一起,我們也必須將增長(zhǎng)率g控制在一個(gè)較小的值。然而,小增長(zhǎng)率g會(huì)損害整個(gè)模型的判別能力。其次,DDB-a將壓縮的(aka 1×1卷積投影)特征映射串聯(lián)起來(lái),使得在兩個(gè)相鄰的DDB-a單元內(nèi)存在連續(xù)的1×1卷積。這種處理會(huì)在模型參數(shù)之間引入潛在的冗余。

考慮到這一點(diǎn),我們?cè)O(shè)計(jì)了另一種類型的深度密集塊DDBb,如圖1(b)所示。DDB-b首先將輸入信道壓縮到生長(zhǎng)速率g的大小,然后進(jìn)行深度卷積。在不增加1×1投影的情況下,深度卷積的輸出直接連接到輸入端。L堆疊DDB-B塊的總體復(fù)雜度為O(L2G2),小于DDB-A。我們將在第4.2節(jié)中進(jìn)一步驗(yàn)證DDB-B不僅效率更高,而且在相似資源約束下比DDB-a更精確。因此,我們選擇DDB-b作為基本單元來(lái)構(gòu)建我們最終的骨干子網(wǎng)結(jié)構(gòu)。

表1顯示了我們骨干網(wǎng)的詳細(xì)結(jié)構(gòu)。每個(gè)卷積層之后是一個(gè)批處理規(guī)范化和一個(gè)ReLU層。提取器部分有四個(gè)DDB級(jí),每個(gè)DDB級(jí)包含幾個(gè)DDB塊,然后是一個(gè)過(guò)渡層,用于融合最后一級(jí)的信道信息,并壓縮信道數(shù)以進(jìn)行計(jì)算和參數(shù)效率。我們?cè)赱15]中也采用了變分增長(zhǎng)率策略,通過(guò)將較小的g分配給具有較大空間大小的較淺階段,并且當(dāng)階段變深時(shí)線性增加g。這將有助于節(jié)省計(jì)算成本,因?yàn)檩^淺階段的大空間大小通常會(huì)消耗更多的計(jì)算量。

表1:微型DSOD骨干結(jié)構(gòu)(輸入尺寸3×300×300)。在“組件”列中,塊名后面的符號(hào)“*”表示塊重復(fù)在符號(hào)后面給定的次數(shù)。?

圖1:深度密集塊(DDB)圖解。圖中顯示了兩種類型的DDB。在矩形中,“S”表示卷積的步長(zhǎng),“C”表示輸出信道的數(shù)目。連接節(jié)點(diǎn)下的數(shù)字(綠色C帶圓圈)表示連接后的輸出通道數(shù)。(a)用生長(zhǎng)速率g參數(shù)化的DDB-a疊加,用生長(zhǎng)速率g參數(shù)化的DDB-b疊加。

3.2基于FPN的深度前端

SSD和DSOD的簡(jiǎn)單結(jié)構(gòu)前端存在淺層預(yù)測(cè)層缺少對(duì)象語(yǔ)義信息的局限性。為了克服這個(gè)問(wèn)題,我們借鑒了文獻(xiàn)[6]和[20]中的特征金字塔思想,在預(yù)測(cè)器中設(shè)計(jì)了一個(gè)稱為depthwise-FPN(DFPN)的輕量級(jí)FPN,將信息流從較深、較小的特征映射重新定向到較淺的特征映射。圖2說(shuō)明了我們的前端預(yù)測(cè)器的結(jié)構(gòu),它由一個(gè)下采樣路徑和一個(gè)反向上采樣路徑組成。在許多研究中,反向路徑被證明對(duì)小目標(biāo)檢測(cè)非常有用[6,20,33]。然而,這些工作大多是通過(guò)反褶積來(lái)實(shí)現(xiàn)逆路徑的,這在很大程度上增加模型的復(fù)雜度。

增加模型的復(fù)雜度。為了避免這個(gè)問(wèn)題,我們提出了一個(gè)成本效益的解決方案的反向路徑。如圖2右上角所示,我們使用簡(jiǎn)單的雙線性插值層和深度卷積向上采樣頂部特征映射,此操作可表示為方程式1。

?

其中是輸出特征映射的第c個(gè)通道,是相應(yīng)的輸入通道。是深度卷積的第c個(gè)核,*表示空間卷積。Ω是輸入特征的坐標(biāo)集,s是該層中的重采樣系數(shù)。是可微雙線性算子。?

通過(guò)元素添加,將生成的特征映射與底層相同大小的特征映射合并。我們?cè)?.2節(jié)的實(shí)驗(yàn)將表明,D-FPN可以在計(jì)算量略有增加的情況下,實(shí)現(xiàn)相當(dāng)大的檢測(cè)精度提升。

4 實(shí)驗(yàn)

4.1實(shí)施細(xì)則

我們執(zhí)行我們關(guān)于Caffe框架的工作[18]。我們的模型是從零開(kāi)始訓(xùn)練與SGD解算器在服務(wù)器上與PASCAL TitanX GPU。我們的大多數(shù)訓(xùn)練策略都遵循DSOD[28],包括數(shù)據(jù)增強(qiáng)、規(guī)模、預(yù)測(cè)層的L2規(guī)范化[21]、默認(rèn)框的縱橫比、損失函數(shù)(本地化的平滑L1損失和分類的交叉熵?fù)p失)和在線硬示例挖掘策略。

4.2 PASCAL VOC2007的消融研究

設(shè)計(jì)空間探索

我們首先調(diào)查基于DDB的主干網(wǎng)中的設(shè)計(jì)設(shè)置。我們進(jìn)行了兩種類型的DDB單元的實(shí)驗(yàn)研究,以及不同密度階段的生長(zhǎng)速率設(shè)置。為了公平比較,我們遵循常見(jiàn)的訓(xùn)練集設(shè)置,我們?cè)赑ASCAL VOC 07+12 trainval集上訓(xùn)練我們的模型,并在VOC2007測(cè)試集上進(jìn)行測(cè)試。表2總結(jié)了研究結(jié)果。它表明在資源使用方面,基于DDB-b的骨干網(wǎng)比DDB-a的骨干網(wǎng)性能好得多,例如,當(dāng)參數(shù)大小固定在0.90M時(shí),基于DDB-b的骨干網(wǎng)的mAP比DDB-a的高7.1%(70.2%vs 63.1%),并進(jìn)一步節(jié)省了0.65B的計(jì)算開(kāi)銷(1.03B vs 1.68B)。因此,DDB-b是我們推薦的選擇,并在以下基準(zhǔn)研究中用作標(biāo)準(zhǔn)制定。

表2:PASCAL VOC2007試驗(yàn)裝置的消融研究。數(shù)字序列G/g0-g1-g2-g3用于描述網(wǎng)絡(luò)設(shè)置,其中G i是第i階段DDB的增長(zhǎng)率,w是DDB-a的擴(kuò)展率。勾選“X”表示被評(píng)估網(wǎng)絡(luò)(按行)采用了某種配置,否則為否。?

隨著骨干網(wǎng)整體增長(zhǎng)率的提高,檢測(cè)精度也明顯提高。同時(shí),我們觀察到資源(參數(shù)大小和浮點(diǎn)數(shù))和精度(mAP)之間的權(quán)衡。從表2中的第(4)行到第(6)行,我們發(fā)現(xiàn)當(dāng)參數(shù)大小相似時(shí),具有相對(duì)均勻增長(zhǎng)率的模型將具有稍好的精度。然而,如第3.1節(jié)所述,淺階段的大增長(zhǎng)率會(huì)產(chǎn)生較高的計(jì)算成本。因此,我們以配置G/32-48-64-80(第7行)為基線,因?yàn)樵谙嗤哪P痛笮〖s束下,它可以達(dá)到與最小觸發(fā)器相當(dāng)?shù)木取?/p>

D-FPN的有效性

我們進(jìn)一步研究了我們的輕型D-FPN前端的有效性。通過(guò)比較表2中的最后兩行,我們發(fā)現(xiàn)D-FPN只需增加0.03B觸發(fā)器和增加0.05M參數(shù)就可以帶來(lái)1.9%的性能增益。由于顯著的精度提高,這種計(jì)算資源的增加是可以容忍和值得的。

運(yùn)行時(shí)分析

在PASCAL VOC 2007數(shù)據(jù)集上,我們比較了微型DSOD和最先進(jìn)的輕量級(jí)目標(biāo)檢測(cè)器的檢測(cè)速度。速度是通過(guò)Nvidia TitanX GPU上的每秒幀數(shù)(fps)來(lái)測(cè)量的。為了加速推理,我們將批量規(guī)范化層的參數(shù)合并到前面的卷積操作中。結(jié)果報(bào)告在表3的“FPS”欄中。在300×300的輸入下,微型DSOD可以以9.5ms(105fps)的速度處理圖像,批量大小為8,比實(shí)時(shí)要求(25fps)快4.2倍,比除微型YOLO外的其他超高效探測(cè)器快。我們的微型DSOD比全尺寸DSOD快6.0倍[28],比全尺寸SSD快2.3倍[22],比YOLOv2快1.5倍。微小的DSOD仍然比微小的YOLO慢,然而,與其他檢測(cè)器相比,我們的模型顯示出更少的理論錯(cuò)誤(見(jiàn)“錯(cuò)誤”一欄)。原因有兩方面。首先,Tiny YOLO是基于普通卷積結(jié)構(gòu)(不含殘差和級(jí)聯(lián)),并對(duì)GPU的實(shí)現(xiàn)進(jìn)行了定制優(yōu)化。其次,我們的微型DSOD直接使用Caffe,而沒(méi)有任何額外的優(yōu)化,其中Caffe對(duì)于depthwise卷積的實(shí)現(xiàn)效率較低。我們認(rèn)為,當(dāng)深度卷積得到很好的實(shí)現(xiàn)時(shí),我們的微型DSOD應(yīng)該以更快的速度運(yùn)行。此外,我們應(yīng)該強(qiáng)調(diào)的是,我們的微型DSOD比所有相比的全尺寸和輕量化探測(cè)器具有更少的參數(shù)。請(qǐng)參閱表3的“#Params”列更多細(xì)節(jié)。

?

4.3 PASCAL VOC2007基準(zhǔn)結(jié)果

我們的模型是在VOC2007 trainval和VOC2012 trainval數(shù)據(jù)集的結(jié)合上從頭開(kāi)始訓(xùn)練的。我們使用128的小批量(經(jīng)過(guò)多次迭代累積)。初始學(xué)習(xí)率設(shè)置為0.1,并除以每20k次迭代的10倍。訓(xùn)練迭代次數(shù)為100k,利用動(dòng)量為0.1的SGD求解器對(duì)目標(biāo)函數(shù)進(jìn)行優(yōu)化。與[28]類似,我們使用0.0005的重量衰減來(lái)避免過(guò)度擬合。我們所有的conv層和dwconv層都是用“xavier”方法初始化的[10]。

我們?cè)诒?中報(bào)告了VOC2007測(cè)試集的檢測(cè)結(jié)果,其中上部的結(jié)果來(lái)自于最新的全尺寸檢測(cè)模型,而下部的結(jié)果來(lái)自于輕量級(jí)檢測(cè)模型。我們的微型DSOD達(dá)到了72.1%的mAP,這明顯優(yōu)于大多數(shù)輕量級(jí)探測(cè)器,除了DSOD最小的[28]。然而,我們的微型DSOD只有1/6的參數(shù)和1/5的觸發(fā)器到最小的DSOD。當(dāng)將我們的模型與最先進(jìn)的全尺寸模型進(jìn)行比較時(shí),仍然存在邊際精度下降。然而,微小的DSOD需要更小的持久內(nèi)存來(lái)存儲(chǔ)模型,而且計(jì)算成本也要低得多。例如,更快的RCNN[25]的精度僅比微小的DSOD高1.1%,而模型尺寸大于140倍,理論計(jì)算成本高180倍(實(shí)際上,fps速度慢10倍)。這些比較表明,微型DSOD在資源(模型大小和FLOPs)和檢測(cè)精度之間取得了更好的折衷,這對(duì)于資源受限的應(yīng)用非常有用。

4.4 Benchmark Results on KITTI

接下來(lái),我們將評(píng)估我們的探測(cè)器在KITTI 2D目標(biāo)檢測(cè)任務(wù)中的自主駕駛使用情況[7]。與PASCAL VOC不同,KITTI數(shù)據(jù)集由1242×375的超寬圖像組成。為了避免小物體的消失,我們將輸入圖像的大小調(diào)整為1200×300而不是300×300。此分辨率將增加探測(cè)器的觸發(fā)器,但將保持良好的檢測(cè)精度。按照[32]中的配置,我們將7381個(gè)圖像隨機(jī)分成訓(xùn)練集和驗(yàn)證集。在驗(yàn)證集上測(cè)試平均精度。訓(xùn)練的批大小設(shè)置為64。

?

表4:KITTI 2D檢測(cè)結(jié)果。每個(gè)類別下的數(shù)字(汽車、騎自行車的人、人)是相應(yīng)的平均精度(AP in%)。“mAP”列是三個(gè)類別上的平均AP。請(qǐng)注意,由于對(duì)象類別的數(shù)量不同,此處微小DSOD的參數(shù)大小(0.85M)與VOC情況(0.95M)略有不同。

?

?圖3:從微型DSOD輸出的道路檢測(cè)的kitti val集示例。每個(gè)輸出邊界框都被著色編碼成相應(yīng)的類別,并通過(guò)0.3的置信閾值進(jìn)行過(guò)濾,以便可視化

我們以0.01的學(xué)習(xí)率開(kāi)始我們的訓(xùn)練過(guò)程,因?yàn)樵趶念^開(kāi)始的訓(xùn)練過(guò)程中觀察到損失振蕩和較大的學(xué)習(xí)率。我們將學(xué)習(xí)率除以每10萬(wàn)次迭代2。我們的訓(xùn)練在60k次迭代時(shí)停止,因?yàn)橛?xùn)練圖像的數(shù)量很小。其他設(shè)置與第4.3節(jié)中關(guān)于PASCAL VOC2007的實(shí)驗(yàn)相同。

驗(yàn)證集的結(jié)果如表4所示。我們的微型DSOD實(shí)現(xiàn)了77.0%mAP的競(jìng)爭(zhēng)結(jié)果,這比squezedet[32]稍微好一點(diǎn)(77.0%對(duì)76.7%),而我們的模型減少了50%以上的模型參數(shù)和計(jì)算失敗,并且以每圖像15毫秒(64.9 fps)的更快運(yùn)行速度運(yùn)行,這表明在這種情況下,微型DSOD的效率更高。此外,應(yīng)該注意的是,在KITTI數(shù)據(jù)集中的主要對(duì)象“cars”類別上,微型DSOD的精度最高。圖3進(jìn)一步說(shuō)明了KITTI數(shù)據(jù)集上的一些檢測(cè)示例。

4.5 COCO的基準(zhǔn)結(jié)果

最后,我們?cè)贑OCO數(shù)據(jù)集上評(píng)估了我們的方法的性能。按照常見(jiàn)的設(shè)置[25],我們?cè)趖rainval 35k數(shù)據(jù)集上訓(xùn)練我們的模型,該數(shù)據(jù)集是通過(guò)從val集中排除5k圖像并將剩余數(shù)據(jù)合并到80k火車集獲得的,并且進(jìn)一步在test dev 2015集上評(píng)估我們的檢測(cè)器。批大小設(shè)置為128。對(duì)于前80k次迭代,初始學(xué)習(xí)率設(shè)置為0.1,然后在每60k次迭代后除以10。訓(xùn)練迭代總數(shù)為320k,其他訓(xùn)練配置與SSD中COCO的實(shí)驗(yàn)相同[22]。

試驗(yàn)結(jié)果匯總在表5中。微型DSOD在AP@IOU[0.5:0.95]度量的測(cè)試開(kāi)發(fā)集上達(dá)到23.2%的mAP,優(yōu)于輕量級(jí)的MobileNet SSD(v1&v2)[27]和pelenet[26],甚至優(yōu)于全尺寸的YOLOv2[23]。此外,微小的DSOD具有顯著的小模型比較-表中列出的所有方法。例如,最先進(jìn)的全尺寸YOLOv2比微型DSOD有58倍大的型號(hào)和15.6倍多的觸發(fā)器。這些比較證明,對(duì)于資源受限的目標(biāo)檢測(cè)應(yīng)用,微小的DSOD是有效而準(zhǔn)確的。

5 Conclusion

針對(duì)資源受限的應(yīng)用,本文提出了一種輕量級(jí)的目標(biāo)檢測(cè)方法,即微型DSOD。我們通過(guò)兩個(gè)創(chuàng)新的塊:深度密集塊(DDB)和深度特征金字塔網(wǎng)絡(luò)(D-FPN),在資源(FLOPs和memory)和精度之間實(shí)現(xiàn)了更好的權(quán)衡。我們通過(guò)廣泛的消融研究來(lái)驗(yàn)證所發(fā)明的塊和探測(cè)器的有效性。我們?cè)谌齻€(gè)目標(biāo)檢測(cè)基準(zhǔn)(PASCAL VOC 2007,KITTI,COCO)上將微型DSOD與最先進(jìn)的輕量級(jí)探測(cè)器(如MobileNet SSD(v1&v2),squezedet,Pelee)進(jìn)行了比較。結(jié)果表明,在每一個(gè)基準(zhǔn)測(cè)試中,微型DSOD在所有三個(gè)指標(biāo)(精度、觸發(fā)器速度和參數(shù)大小)上都優(yōu)于這些方法。特別是在PASCAL VOC 2007上,微型DSOD僅用0.95M的參數(shù)和1.14B的運(yùn)算速度就達(dá)到了72.1%的mAP。到目前為止,這是資源需求如此低的最新結(jié)果。

Acknowledgement

Y uxi Li and Weiyao Lin are supported by NSFC (61471235) and Shanghai "The Belt and
Road" Y oung Scholar Exchange Grant(17510740100).

References
[1] Khalid Ashraf, Bichen Wu, et al. Shallow networks for high-accuracy road object-
detection. arXiv preprint arXiv:1606.01561, 2016.
[2] Zhaowei Cai, Quanfu Fan, Rogerio S. Feris, and Nuno V asconcelos. A unified multi-
scale deep convolutional neural network for fast object detection. In ECCV, 2016.
[3] Francois Chollet. Xception: Deep learning with depthwise separable convolutions. In
CVPR, 2016.
[4] Jifeng Dai, Yi Li, Kaiming He, and Jian Sun. R-fcn: Object detection via region-based
fully convolutional networks. In NIPS, 2016.

[5] Mark Everingham, Luc V an Gool, Christopher Williams, John Winn, and Andrew Zis-
serman. The pascal visual object classes (voc) challenge. IJCV, 88(2):303–338, 2010.
[6] Cheng Y ang Fu, Wei Liu, Ananth Ranga, Ambrish Tyagi, and Alex Berg. Dssd :
Deconvolutional single shot detector. arXiv preprint arXiv:1701.06659, 2017.
[7] Andreas Geiger, Philip Lenz, and Raquel Urtasun. Are we ready for autonomous driv-
ing? the kitti vision benchmark suite. In CVPR, 2012.
[8] Ross Girshick. Fast r-cnn. In ICCV, 2015.
[9] Ross Girshick, Jeff Donahue, Trevor Darrell, and Jitendra Malik. Rich feature hierar-
chies for accurate object detection and semantic segmentation. In CVPR, 2014.
[10] Xavier Glorot and Y oshua Bengio. Understanding the difficulty of training deep feed-
forward neural networks. JMLR, 9:249–256, 2010.
[11] Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. Deep residual learning for
image recognition. CVPR, 2016.
[12] Kaiming He, Georgia Gkioxari, Piotr Dollár, et al. Mask r-cnn. In ICCV, 2017.
[13] Andrew Howard, Menglong Zhu, et al. Mobilenets: Efficient convolutional neural
networks for mobile vision applications. arXiv preprint arXiv:1704.04861, 2017.
[14] Gao Huang, Zhuang Liu, Laurens V an De Maaten, and Kilian Q. Weinberger. Densely
connected convolutional networks. In CVPR, 2017.
[15] Gao Huang, Shichen Liu, V an Der Maaten Laurens, and Kilian Q Weinberger. Con-
densenet: An efficient densenet using learned group convolutions. In CVPR, 2018.
[16] Jonathan Huang, Vivek Rathod, Chen Sun, et al. Speed/accuracy trade-offs for modern
convolutional object detectors. In CVPR, 2017.
[17] Forrest N Iandola, Song Han, et al. Squeezenet: Alexnet-level accuracy with 50x fewer
parameters and <0.5 mb model size. In ICLR, 2016.
[18] Y angqing Jia, Evan Shelhamer, Jeff Donahue, et al. Caffe: Convolutional architecture
for fast feature embedding. arXiv preprint arXiv:1408.5093, 2014.
[19] Tsung Yi Lin, Michael Maire, Serge Belongie, James Hays, Pietro Perona, Deva Ra-
manan, et al. Microsoft coco: Common objects in context. In ECCV, 2014.
[20] Tsung Yi Lin, Piotr Dollar, Ross Girshick, Kaiming He, et al. Feature pyramid net-
works for object detection. In CVPR, pages 936–944, 2017.
[21] Wei Liu, Andrew Rabinovich, and Alexander C Berg. Parsenet: Looking wider to see
better. arXiv preprint arXiv:1506.04579, 2015.
[22] Wei Liu, Dragomir Anguelov, Dumitru Erhan, et al. Ssd: Single shot multibox detector.
In ECCV, pages 21–37, 2016.
[23] Joseph Redmon and Ali Farhadi. Y olo9000: Better, faster, stronger. In CVPR, 2016.

[24] Joseph Redmon, Santosh Divvala, Ross Girshick, and Ali Farhadi. Y ou only look once:
Unified, real-time object detection. In CVPR, pages 779–788, 2016.
[25] Shaoqing Ren, Kaiming He, Ross Girshick, and Jian Sun. Faster r-cnn: towards real-
time object detection with region proposal networks. In NIPS, pages 91–99, 2015.
[26] Xiang Li Robert Wang, Shuang Ao and Charles X. Ling. Pelee: A real-time object
detection system on mobile devices. In ICLR Workshop, 2018.
[27] Mark Sandler, Andrew Howard, Menglong Zhu, et al. Inverted residuals and linear
bottlenecks: Mobile networks for classification, detection and segmentation. arXiv
preprint arXiv:1801.04381, 2018.
[28] Zhiqiang Shen, Zhuang Liu, Jianguo Li, et al. Dsod: Learning deeply supervised object
detectors from scratch. In ICCV, pages 1937–1945, 2017.
[29] Karen Simonyan and Andrew Zisserman. V ery deep convolutional networks for large-
scale image recognition. In ICLR, 2014.
[30] Christian Szegedy, Wei Liu, Y angqing Jia, Pierre Sermanet, et al. Going deeper with
convolutions. In CVPR, 2015.
[31] Jasper RR Uijlings, Koen EA V an De Sande, Theo Gevers, and Arnold WM Smeulders.
Selective search for object recognition. IJCV, 2013.
[32] Bichen Wu, Forrest Iandola, et al. Squeezedet: Unified, small, low power fully con-
volutional neural networks for real-time object detection for autonomous driving. In
CVPR Workshops, 2017.
[33] Wei Xiang, Dong Qing Zhang, V assilis Athitsos, and Heather Y u. Context-aware
single-shot detector. In WACV, 2018.
[34] Xiang, Y u and Choi, Wongun and Lin, Y uanqing and Savarese, Silvio. Subcategory-
Aware Convolutional Neural Networks for Object Proposals and Detection arXiv
preprint arXiv:1604.04693, 2016.

?

總結(jié)

以上是生活随笔為你收集整理的Tiny-DSOD: Lightweight Object Detection for Resource-Restricted Usages的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。