當(dāng)前位置：首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

Tiny-DSOD: Lightweight Object Detection for Resource-Restricted Usages

發(fā)布時(shí)間：2023/12/14 编程问答 33 豆豆

生活随笔收集整理的這篇文章主要介紹了 Tiny-DSOD: Lightweight Object Detection for Resource-Restricted Usages 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

Y uxi Li1
lyxok1@sjtu.edu.cn
Jiuwei Li2
jiuwei.li@intel.com
Weiyao Lin1
wylin@sjtu.edu.cn
Jianguo Li2
jianguo.li@intel.com

1Shanghai Jiao Tong University , China
2Intel Lab China

Abstract

近年來(lái)，隨著深度學(xué)習(xí)的發(fā)展，目標(biāo)檢測(cè)技術(shù)取得了長(zhǎng)足的進(jìn)步。然而，目前大多數(shù)的目標(biāo)檢測(cè)方法都是資源密集型的，這阻礙了它們?cè)诤芏噘Y源受限的應(yīng)用中的廣泛應(yīng)用，如在常開(kāi)設(shè)備、電池供電的低端設(shè)備上的應(yīng)用，在設(shè)計(jì)整個(gè)目標(biāo)檢測(cè)框架的過(guò)程中，考慮了資源和精度對(duì)資源受限使用的權(quán)衡。基于深度監(jiān)督目標(biāo)檢測(cè)（DSOD）框架，提出了一種用于資源受限應(yīng)用的微型DSOD。Tiny DSOD引入了兩種創(chuàng)新的、超高效的體系結(jié)構(gòu)塊：基于depthwise密集塊（DDB）的主干網(wǎng)和基于depthwise特征金字塔網(wǎng)絡(luò)（D-FPN）的前端。我們?cè)谌齻€(gè)著名的基準(zhǔn)（PASCAL VOC 2007、KITTI和COCO）上進(jìn)行了廣泛的實(shí)驗(yàn)，并將微型DSOD與最先進(jìn)的超高效目標(biāo)檢測(cè)解決方案（如Tiny YOLO、MobileNet-SSD（v1和v2）、SqueezeDet、Pelee，結(jié)果表明，在所有三個(gè)指標(biāo)（參數(shù)大小、觸發(fā)器、精度）的比較中，微型DSOD都優(yōu)于這些解決方案。例如，微型DSOD僅用0.95M的參數(shù)和1.06B的觸發(fā)器就可以達(dá)到72.1%的mAP，這是目前為止資源需求如此低的最新成果。

1 Introduction

目標(biāo)檢測(cè)被認(rèn)為是計(jì)算機(jī)視覺(jué)領(lǐng)域中一項(xiàng)關(guān)鍵而富有挑戰(zhàn)性的任務(wù)，因?yàn)樗且粋€(gè)新的目標(biāo)分類和定位的組合。隨著現(xiàn)代深度學(xué)習(xí)技術(shù)的發(fā)展，許多基于卷積神經(jīng)網(wǎng)絡(luò)（CNN）的檢測(cè)框架被提出，包括fasterr-CNN[25]、YOLO[24]、SSD[22]及其變體[4、6、12、20、23、33]，大大提高了目標(biāo)檢測(cè)的精度。

盡管這些模型已經(jīng)達(dá)到了最先進(jìn)的精度，但它們大多是資源匱乏的，因?yàn)樗鼈兙哂懈叩挠?jì)算復(fù)雜度和較大的參數(shù)尺寸（或大型號(hào)尺寸））。高的計(jì)算復(fù)雜度要求計(jì)算單元具有更高的峰值觸發(fā)器，這通常會(huì)增加功耗的預(yù)算。在[16]中，對(duì)速度和精度的權(quán)衡進(jìn)行了廣泛的研究。然而，資源不僅是計(jì)算資源，也是內(nèi)存資源。大的模型大小會(huì)產(chǎn)生大的持久性內(nèi)存需求，這不僅代價(jià)高昂，而且由于頻繁的持久性內(nèi)存訪問(wèn)，對(duì)于低端嵌入應(yīng)用程序來(lái)說(shuō)，功耗也很低。由于這兩個(gè)限制，目前大多數(shù)的目標(biāo)檢測(cè)解決方案都不適合低功耗的使用場(chǎng)景，例如總是在設(shè)備或電池供電的低端設(shè)備上的應(yīng)用。

為了緩解這種局限性，近年來(lái)許多研究致力于超高效目標(biāo)檢測(cè)網(wǎng)絡(luò)的設(shè)計(jì)。例如，YOLO[24]提供了一個(gè)名為Tiny YOLO的lite版本，它將YOLO的參數(shù)大小壓縮到15米，并在PASCAL VOC 2007數(shù)據(jù)集[5]上實(shí)現(xiàn)了超過(guò)200 fps的檢測(cè)速度。squezedet[32]將基于squezenet[17]的主干網(wǎng)引入到Y(jié)OLO框架中，以實(shí)現(xiàn)高效的toutonomousdriving用途。MobileNet SSD在SSD框架中采用MobileNet[13]作為骨干，在PASCAL VOC 2007數(shù)據(jù)集上生成的模型只有5.5M的參數(shù)和1.14B的計(jì)算觸發(fā)器。雖然這些小網(wǎng)絡(luò)在很大程度上減少了計(jì)算資源的需求，但是小網(wǎng)絡(luò)與全尺寸網(wǎng)絡(luò)之間仍然存在著很大的精度差距。例如，在PASCAL VOC 2007上，從SSD（77.2%）到MobileNet-SSD（68.0%）的準(zhǔn)確率下降了9.2%。簡(jiǎn)而言之，這些小型的檢測(cè)網(wǎng)絡(luò)遠(yuǎn)沒(méi)有在資源（FLOPs和內(nèi)存）和準(zhǔn)確性之間取得良好的平衡。

我們提出了微型DSOD，致力于在資源（FLOPs和內(nèi)存）和精度之間取得良好的平衡。該框架的骨干部分受到了目標(biāo)檢測(cè)工作DSOD[28]和來(lái)自[3，13，27]的最新超高效可分離卷積網(wǎng)絡(luò)結(jié)構(gòu)的啟發(fā)。DSOD[28]介紹了從零開(kāi)始訓(xùn)練目標(biāo)檢測(cè)網(wǎng)絡(luò)的幾個(gè)重要原則，其中深度監(jiān)控對(duì)于幫助將監(jiān)控信息從丟失層反向傳播到較淺層而不存在梯度消失問(wèn)題是最關(guān)鍵的。DSOD采用DenseNet結(jié)構(gòu)[14]等隱式深度監(jiān)督。微型DSOD將[3,13,27]的超高效可分離反褶積合并到DenseNet中，并引入一種新的反褶積密集塊（DDB）來(lái)代替DenseNet中的密集塊。該設(shè)計(jì)不僅減少了對(duì)計(jì)算資源的需求，而且保留了對(duì)高效訓(xùn)練的隱性深層監(jiān)控。在前端部分，我們嘗試將成功的特征金字塔網(wǎng)絡(luò)（FPN）[20]引入到我們的框架中，以實(shí)現(xiàn)從低分辨率尺度到鄰域高分辨率尺度的語(yǔ)義信息的無(wú)縫融合。通過(guò)將有效的深度卷積方法引入到FPN中，我們發(fā)明了深度FPN（D-FPN）。實(shí)驗(yàn)證明，輕量級(jí)D-FPN前端能夠顯著提高檢測(cè)精度。

我們進(jìn)行了大量的實(shí)驗(yàn)，以驗(yàn)證在不同數(shù)據(jù)集（如PASCAL VOC[5]、KITTI[7]和COCO[19]）上微DSOD的有效性。結(jié)果表明，我們的TinyDSOD在資源（FLOPs和memory）和準(zhǔn)確性之間取得了更好的平衡。例如，在PASCAL VOC2007上，微型DSOD的平均精度（mAP）為72.1%，只有0.95M的參數(shù)和1.06B的運(yùn)算速度。據(jù)我們所知，這是第一個(gè)能夠在參數(shù)小于1.0米的情況下實(shí)現(xiàn)大于70%mAP的檢測(cè)模型。事實(shí)上，在三個(gè)比較基準(zhǔn)數(shù)據(jù)集（VOC 2007，KITTI，COCO）對(duì)所有三個(gè)評(píng)估指標(biāo)（準(zhǔn)確性、參數(shù)大小、失敗次數(shù)）的評(píng)估。與最小的DSOD模型[28]相比，微小的DSOD將參數(shù)大小減少到1/6左右，計(jì)算觸發(fā)器減少到1/5，精度僅下降1.5%。本文的貢獻(xiàn)總結(jié)如下：

? We propose depthwise dense block (DDB), a novel and efficient network structure to
combinedepthwiseseparableconvolutionwithdenselyconnectednetworks(DenseNet)
for ultra-efficient computer vision usages.
? We propose D-FPN, a novel and lightweight version of FPN [20], to fuse semantic
information from neighborhood scales for boosting object detection accuracy.
? We design the ultra-efficient object detector Tiny-DSOD for resource-restricted usages
based on the proposed DDB and D-FPN blocks. Tiny-DSOD outperforms state-of-the-
art ultra-efficient object detectors such as Tiny-YOLO, SqueezeDet, MobileNet-SSD,
etc in each of the three compared benchmark datasets (VOC 2007, KITTI, COCO) on
all the three evaluation metrics (accuracy, parameter-size, FLOPs).

2 Related Works

最先進(jìn)的目標(biāo)檢測(cè)網(wǎng)絡(luò)

隨著深度學(xué)習(xí)的快速發(fā)展，近年來(lái)提出了多種基于CNN的目標(biāo)檢測(cè)框架。它們一般可分為兩類：基于單階段的方法和基于兩階段的方法。

典型的兩階段方法包括R-CNN[9]、快速R-CNN[8]、快速RCNN[25]和R-FCN[4]。早期的方法如R-CNN[9]和Fast R-CNN[8]利用外部區(qū)域建議生成算法如[31]來(lái)生成區(qū)域建議候選并對(duì)每個(gè)候選區(qū)域執(zhí)行分類。后一種方法引入?yún)^(qū)域建議網(wǎng)絡(luò)（RPN）來(lái)生成區(qū)域建議，并將分類、包圍盒回歸等RPN和前端模塊集成到一個(gè)端到端訓(xùn)練框架中。這種方法精度高，但計(jì)算量大，處理速度慢。

相反，SSD[22]和YOLO[24]等典型的單階段方法在一個(gè)或多個(gè)特征映射上應(yīng)用不同比例/大小的預(yù)定義滑動(dòng)默認(rèn)框，以實(shí)現(xiàn)速度和精度之間的權(quán)衡。這種方法通常比兩階段的方法快，但比基于兩階段的方法精度低。

此外，所有這些檢測(cè)框架都以更好的骨干網(wǎng)（如ResNet[11]或VGG-16[29]）作為特征抽取器，實(shí)現(xiàn)了更好的檢測(cè)精度，該特征抽取器參數(shù)化程度高，占用了大量的計(jì)算資源。

輕量級(jí)目標(biāo)檢測(cè)網(wǎng)絡(luò)

在[16]中，對(duì)速度和精度的權(quán)衡進(jìn)行了廣泛的研究。然而，資源不僅是計(jì)算速度的代價(jià)，也是內(nèi)存資源的代價(jià)。近年來(lái)，人們致力于為資源受限的目標(biāo)檢測(cè)設(shè)計(jì)高效的小型網(wǎng)絡(luò)。SqueezeNet[17]（一個(gè)簡(jiǎn)單版本的inception[30]結(jié)構(gòu)稱為Fire module）為基礎(chǔ)的主干最近被引入到現(xiàn)代的單級(jí)高效檢測(cè)框架中[32]，在PASCAL VOC 2007和KITTI[7]上取得了可比的結(jié)果。例如，在PASCAL VOC 2007上，基于擠壓網(wǎng)的SSD僅用5.5M的參數(shù)和1.18B的計(jì)算觸發(fā)器就實(shí)現(xiàn)了64.3%的mAP。

同時(shí)，深度可分卷積[3，13，27]在一般的圖像分類任務(wù)中表現(xiàn)出很好的參數(shù)和計(jì)算效率。它還被引入到SSD框架中，作為一個(gè)主干用于目標(biāo)檢測(cè)，并被命名為MobileNet-SSD[13]。在PASCAL VOC 2007上，MobileNet-SSD僅用5.5M的參數(shù)和1.14B的浮點(diǎn)運(yùn)算就實(shí)現(xiàn)了68.0%的映射。

Pelee[26]利用雙向密集連接結(jié)構(gòu)來(lái)減少計(jì)算消耗，同時(shí)保持移動(dòng)應(yīng)用的檢測(cè)精度。

盡管如此，在高效而微小的網(wǎng)絡(luò)和全尺寸網(wǎng)絡(luò)之間仍然存在著很大的精度差距。例如，tiny YOLO在PASCAL VOC 2007上可以達(dá)到57.1%的mAP，而YOLOv2[23]在相同的設(shè)置下可以達(dá)到78.6%的mAP。SqueezeNet-SSD?和MobileNet-SSD在PASCAL VOC 2007上分別達(dá)到64.3%和68.0%的mAP，而在相同的設(shè)置下，full?SSD達(dá)到77.2%的mAP。這一發(fā)現(xiàn)啟發(fā)我們，在設(shè)計(jì)目標(biāo)檢測(cè)網(wǎng)絡(luò)時(shí)，仍有很大的空間在資源（FLOPs和內(nèi)存）和精度之間實(shí)現(xiàn)更好的權(quán)衡。

3方法

我們的目標(biāo)是設(shè)計(jì)一個(gè)面向資源受限用途的超高效目標(biāo)檢測(cè)網(wǎng)絡(luò)。我們的檢測(cè)器是基于單鏡頭檢測(cè)器（SSD）[22]框架和深度監(jiān)督目標(biāo)檢測(cè)（DSOD）框架[28]，它由主干部分和前端部分組成。我們將在下面分別闡述這兩個(gè)部分。

3.1基于密集塊的主干網(wǎng)

受DSOD[28]的啟發(fā)，我們還構(gòu)建了一個(gè)類似DenseNet[14]的主干，因?yàn)樗菀?span style="color:#f33b45;">從零開(kāi)始訓(xùn)練，而訓(xùn)練集相對(duì)較少。考慮到資源的限制，我們將超有效的深度可分卷積引入到典型的稠密塊體中，并將這種新的結(jié)構(gòu)單元稱為深度稠密塊體（DDB）。

我們提出了兩種類型的DDB單元，DDB-a和DDB-b，如圖1所示。圖1（a）中的DDB-a單元受到MobileNet-v2[27]中提出的新的反向剩余塊的啟發(fā)。它首先將輸入信道擴(kuò)展到w×n，其中n是塊輸入信道數(shù)，w是控制模型容量的整數(shù)超參數(shù)。然后應(yīng)用深度卷積，進(jìn)一步用點(diǎn)卷積（即1×1卷積）將特征映射投影到g信道（g是DDB-a的增長(zhǎng)率）。最后，我們使用連接將輸入和輸出特征映射合并在一起，而不是MobileNet-v2中的剩余加法操作[27]。DDB-a有兩個(gè)超參數(shù)w和g，因此我們將其表示為DDB-a（w，g）。

DDB-A有兩個(gè)主要缺陷：第一，假設(shè)L DDB-A塊堆疊，堆疊結(jié)構(gòu)的復(fù)雜性為O（L3G2）。這意味著資源消耗相對(duì)于L的增長(zhǎng)很快，因此即使將幾個(gè)DDB-a疊加在一起，我們也必須將增長(zhǎng)率g控制在一個(gè)較小的值。然而，小增長(zhǎng)率g會(huì)損害整個(gè)模型的判別能力。其次，DDB-a將壓縮的（aka 1×1卷積投影）特征映射串聯(lián)起來(lái)，使得在兩個(gè)相鄰的DDB-a單元內(nèi)存在連續(xù)的1×1卷積。這種處理會(huì)在模型參數(shù)之間引入潛在的冗余。

考慮到這一點(diǎn)，我們?cè)O(shè)計(jì)了另一種類型的深度密集塊DDBb，如圖1（b）所示。DDB-b首先將輸入信道壓縮到生長(zhǎng)速率g的大小，然后進(jìn)行深度卷積。在不增加1×1投影的情況下，深度卷積的輸出直接連接到輸入端。L堆疊DDB-B塊的總體復(fù)雜度為O（L2G2），小于DDB-A。我們將在第4.2節(jié)中進(jìn)一步驗(yàn)證DDB-B不僅效率更高，而且在相似資源約束下比DDB-a更精確。因此，我們選擇DDB-b作為基本單元來(lái)構(gòu)建我們最終的骨干子網(wǎng)結(jié)構(gòu)。

表1顯示了我們骨干網(wǎng)的詳細(xì)結(jié)構(gòu)。每個(gè)卷積層之后是一個(gè)批處理規(guī)范化和一個(gè)ReLU層。提取器部分有四個(gè)DDB級(jí)，每個(gè)DDB級(jí)包含幾個(gè)DDB塊，然后是一個(gè)過(guò)渡層，用于融合最后一級(jí)的信道信息，并壓縮信道數(shù)以進(jìn)行計(jì)算和參數(shù)效率。我們?cè)赱15]中也采用了變分增長(zhǎng)率策略，通過(guò)將較小的g分配給具有較大空間大小的較淺階段，并且當(dāng)階段變深時(shí)線性增加g。這將有助于節(jié)省計(jì)算成本，因?yàn)檩^淺階段的大空間大小通常會(huì)消耗更多的計(jì)算量。

表1：微型DSOD骨干結(jié)構(gòu)（輸入尺寸3×300×300）。在“組件”列中，塊名后面的符號(hào)“*”表示塊重復(fù)在符號(hào)后面給定的次數(shù)。?

圖1：深度密集塊（DDB）圖解。圖中顯示了兩種類型的DDB。在矩形中，“S”表示卷積的步長(zhǎng)，“C”表示輸出信道的數(shù)目。連接節(jié)點(diǎn)下的數(shù)字（綠色C帶圓圈）表示連接后的輸出通道數(shù)。（a）用生長(zhǎng)速率g參數(shù)化的DDB-a疊加，用生長(zhǎng)速率g參數(shù)化的DDB-b疊加。

3.2基于FPN的深度前端

SSD和DSOD的簡(jiǎn)單結(jié)構(gòu)前端存在淺層預(yù)測(cè)層缺少對(duì)象語(yǔ)義信息的局限性。為了克服這個(gè)問(wèn)題，我們借鑒了文獻(xiàn)[6]和[20]中的特征金字塔思想，在預(yù)測(cè)器中設(shè)計(jì)了一個(gè)稱為depthwise-FPN（DFPN）的輕量級(jí)FPN，將信息流從較深、較小的特征映射重新定向到較淺的特征映射。圖2說(shuō)明了我們的前端預(yù)測(cè)器的結(jié)構(gòu)，它由一個(gè)下采樣路徑和一個(gè)反向上采樣路徑組成。在許多研究中，反向路徑被證明對(duì)小目標(biāo)檢測(cè)非常有用[6，20，33]。然而，這些工作大多是通過(guò)反褶積來(lái)實(shí)現(xiàn)逆路徑的，這在很大程度上增加模型的復(fù)雜度。

增加模型的復(fù)雜度。為了避免這個(gè)問(wèn)題，我們提出了一個(gè)成本效益的解決方案的反向路徑。如圖2右上角所示，我們使用簡(jiǎn)單的雙線性插值層和深度卷積向上采樣頂部特征映射，此操作可表示為方程式1。

其中是輸出特征映射的第c個(gè)通道，是相應(yīng)的輸入通道。是深度卷積的第c個(gè)核，*表示空間卷積。Ω是輸入特征的坐標(biāo)集，s是該層中的重采樣系數(shù)。是可微雙線性算子。?

通過(guò)元素添加，將生成的特征映射與底層相同大小的特征映射合并。我們?cè)?.2節(jié)的實(shí)驗(yàn)將表明，D-FPN可以在計(jì)算量略有增加的情況下，實(shí)現(xiàn)相當(dāng)大的檢測(cè)精度提升。

4 實(shí)驗(yàn)

4.1實(shí)施細(xì)則

我們執(zhí)行我們關(guān)于Caffe框架的工作[18]。我們的模型是從零開(kāi)始訓(xùn)練與SGD解算器在服務(wù)器上與PASCAL TitanX GPU。我們的大多數(shù)訓(xùn)練策略都遵循DSOD[28]，包括數(shù)據(jù)增強(qiáng)、規(guī)模、預(yù)測(cè)層的L2規(guī)范化[21]、默認(rèn)框的縱橫比、損失函數(shù)（本地化的平滑L1損失和分類的交叉熵?fù)p失）和在線硬示例挖掘策略。

4.2 PASCAL VOC2007的消融研究

設(shè)計(jì)空間探索

我們首先調(diào)查基于DDB的主干網(wǎng)中的設(shè)計(jì)設(shè)置。我們進(jìn)行了兩種類型的DDB單元的實(shí)驗(yàn)研究，以及不同密度階段的生長(zhǎng)速率設(shè)置。為了公平比較，我們遵循常見(jiàn)的訓(xùn)練集設(shè)置，我們?cè)赑ASCAL VOC 07+12 trainval集上訓(xùn)練我們的模型，并在VOC2007測(cè)試集上進(jìn)行測(cè)試。表2總結(jié)了研究結(jié)果。它表明在資源使用方面，基于DDB-b的骨干網(wǎng)比DDB-a的骨干網(wǎng)性能好得多，例如，當(dāng)參數(shù)大小固定在0.90M時(shí)，基于DDB-b的骨干網(wǎng)的mAP比DDB-a的高7.1%（70.2%vs 63.1%），并進(jìn)一步節(jié)省了0.65B的計(jì)算開(kāi)銷（1.03B vs 1.68B）。因此，DDB-b是我們推薦的選擇，并在以下基準(zhǔn)研究中用作標(biāo)準(zhǔn)制定。

表2:PASCAL VOC2007試驗(yàn)裝置的消融研究。數(shù)字序列G/g0-g1-g2-g3用于描述網(wǎng)絡(luò)設(shè)置，其中G i是第i階段DDB的增長(zhǎng)率，w是DDB-a的擴(kuò)展率。勾選“X”表示被評(píng)估網(wǎng)絡(luò)（按行）采用了某種配置，否則為否。?

隨著骨干網(wǎng)整體增長(zhǎng)率的提高，檢測(cè)精度也明顯提高。同時(shí)，我們觀察到資源（參數(shù)大小和浮點(diǎn)數(shù)）和精度（mAP）之間的權(quán)衡。從表2中的第（4）行到第（6）行，我們發(fā)現(xiàn)當(dāng)參數(shù)大小相似時(shí)，具有相對(duì)均勻增長(zhǎng)率的模型將具有稍好的精度。然而，如第3.1節(jié)所述，淺階段的大增長(zhǎng)率會(huì)產(chǎn)生較高的計(jì)算成本。因此，我們以配置G/32-48-64-80（第7行）為基線，因?yàn)樵谙嗤哪Ｐ痛笮〖s束下，它可以達(dá)到與最小觸發(fā)器相當(dāng)?shù)木取?/p>

D-FPN的有效性

我們進(jìn)一步研究了我們的輕型D-FPN前端的有效性。通過(guò)比較表2中的最后兩行，我們發(fā)現(xiàn)D-FPN只需增加0.03B觸發(fā)器和增加0.05M參數(shù)就可以帶來(lái)1.9%的性能增益。由于顯著的精度提高，這種計(jì)算資源的增加是可以容忍和值得的。

運(yùn)行時(shí)分析

在PASCAL VOC 2007數(shù)據(jù)集上，我們比較了微型DSOD和最先進(jìn)的輕量級(jí)目標(biāo)檢測(cè)器的檢測(cè)速度。速度是通過(guò)Nvidia TitanX GPU上的每秒幀數(shù)（fps）來(lái)測(cè)量的。為了加速推理，我們將批量規(guī)范化層的參數(shù)合并到前面的卷積操作中。結(jié)果報(bào)告在表3的“FPS”欄中。在300×300的輸入下，微型DSOD可以以9.5ms（105fps）的速度處理圖像，批量大小為8，比實(shí)時(shí)要求（25fps）快4.2倍，比除微型YOLO外的其他超高效探測(cè)器快。我們的微型DSOD比全尺寸DSOD快6.0倍[28]，比全尺寸SSD快2.3倍[22]，比YOLOv2快1.5倍。微小的DSOD仍然比微小的YOLO慢，然而，與其他檢測(cè)器相比，我們的模型顯示出更少的理論錯(cuò)誤（見(jiàn)“錯(cuò)誤”一欄）。原因有兩方面。首先，Tiny YOLO是基于普通卷積結(jié)構(gòu)（不含殘差和級(jí)聯(lián)），并對(duì)GPU的實(shí)現(xiàn)進(jìn)行了定制優(yōu)化。其次，我們的微型DSOD直接使用Caffe，而沒(méi)有任何額外的優(yōu)化，其中Caffe對(duì)于depthwise卷積的實(shí)現(xiàn)效率較低。我們認(rèn)為，當(dāng)深度卷積得到很好的實(shí)現(xiàn)時(shí)，我們的微型DSOD應(yīng)該以更快的速度運(yùn)行。此外，我們應(yīng)該強(qiáng)調(diào)的是，我們的微型DSOD比所有相比的全尺寸和輕量化探測(cè)器具有更少的參數(shù)。請(qǐng)參閱表3的“#Params”列更多細(xì)節(jié)。

4.3 PASCAL VOC2007基準(zhǔn)結(jié)果

我們的模型是在VOC2007 trainval和VOC2012 trainval數(shù)據(jù)集的結(jié)合上從頭開(kāi)始訓(xùn)練的。我們使用128的小批量（經(jīng)過(guò)多次迭代累積）。初始學(xué)習(xí)率設(shè)置為0.1，并除以每20k次迭代的10倍。訓(xùn)練迭代次數(shù)為100k，利用動(dòng)量為0.1的SGD求解器對(duì)目標(biāo)函數(shù)進(jìn)行優(yōu)化。與[28]類似，我們使用0.0005的重量衰減來(lái)避免過(guò)度擬合。我們所有的conv層和dwconv層都是用“xavier”方法初始化的[10]。

我們?cè)诒?中報(bào)告了VOC2007測(cè)試集的檢測(cè)結(jié)果，其中上部的結(jié)果來(lái)自于最新的全尺寸檢測(cè)模型，而下部的結(jié)果來(lái)自于輕量級(jí)檢測(cè)模型。我們的微型DSOD達(dá)到了72.1%的mAP，這明顯優(yōu)于大多數(shù)輕量級(jí)探測(cè)器，除了DSOD最小的[28]。然而，我們的微型DSOD只有1/6的參數(shù)和1/5的觸發(fā)器到最小的DSOD。當(dāng)將我們的模型與最先進(jìn)的全尺寸模型進(jìn)行比較時(shí)，仍然存在邊際精度下降。然而，微小的DSOD需要更小的持久內(nèi)存來(lái)存儲(chǔ)模型，而且計(jì)算成本也要低得多。例如，更快的RCNN[25]的精度僅比微小的DSOD高1.1%，而模型尺寸大于140倍，理論計(jì)算成本高180倍（實(shí)際上，fps速度慢10倍）。這些比較表明，微型DSOD在資源（模型大小和FLOPs）和檢測(cè)精度之間取得了更好的折衷，這對(duì)于資源受限的應(yīng)用非常有用。

4.4 Benchmark Results on KITTI

接下來(lái)，我們將評(píng)估我們的探測(cè)器在KITTI 2D目標(biāo)檢測(cè)任務(wù)中的自主駕駛使用情況[7]。與PASCAL VOC不同，KITTI數(shù)據(jù)集由1242×375的超寬圖像組成。為了避免小物體的消失，我們將輸入圖像的大小調(diào)整為1200×300而不是300×300。此分辨率將增加探測(cè)器的觸發(fā)器，但將保持良好的檢測(cè)精度。按照[32]中的配置，我們將7381個(gè)圖像隨機(jī)分成訓(xùn)練集和驗(yàn)證集。在驗(yàn)證集上測(cè)試平均精度。訓(xùn)練的批大小設(shè)置為64。

表4:KITTI 2D檢測(cè)結(jié)果。每個(gè)類別下的數(shù)字（汽車、騎自行車的人、人）是相應(yīng)的平均精度（AP in%）。“mAP”列是三個(gè)類別上的平均AP。請(qǐng)注意，由于對(duì)象類別的數(shù)量不同，此處微小DSOD的參數(shù)大小（0.85M）與VOC情況（0.95M）略有不同。

?圖3：從微型DSOD輸出的道路檢測(cè)的kitti val集示例。每個(gè)輸出邊界框都被著色編碼成相應(yīng)的類別，并通過(guò)0.3的置信閾值進(jìn)行過(guò)濾，以便可視化

我們以0.01的學(xué)習(xí)率開(kāi)始我們的訓(xùn)練過(guò)程，因?yàn)樵趶念^開(kāi)始的訓(xùn)練過(guò)程中觀察到損失振蕩和較大的學(xué)習(xí)率。我們將學(xué)習(xí)率除以每10萬(wàn)次迭代2。我們的訓(xùn)練在60k次迭代時(shí)停止，因?yàn)橛?xùn)練圖像的數(shù)量很小。其他設(shè)置與第4.3節(jié)中關(guān)于PASCAL VOC2007的實(shí)驗(yàn)相同。

驗(yàn)證集的結(jié)果如表4所示。我們的微型DSOD實(shí)現(xiàn)了77.0%mAP的競(jìng)爭(zhēng)結(jié)果，這比squezedet[32]稍微好一點(diǎn)（77.0%對(duì)76.7%），而我們的模型減少了50%以上的模型參數(shù)和計(jì)算失敗，并且以每圖像15毫秒（64.9 fps）的更快運(yùn)行速度運(yùn)行，這表明在這種情況下，微型DSOD的效率更高。此外，應(yīng)該注意的是，在KITTI數(shù)據(jù)集中的主要對(duì)象“cars”類別上，微型DSOD的精度最高。圖3進(jìn)一步說(shuō)明了KITTI數(shù)據(jù)集上的一些檢測(cè)示例。

4.5 COCO的基準(zhǔn)結(jié)果

最后，我們?cè)贑OCO數(shù)據(jù)集上評(píng)估了我們的方法的性能。按照常見(jiàn)的設(shè)置[25]，我們?cè)趖rainval 35k數(shù)據(jù)集上訓(xùn)練我們的模型，該數(shù)據(jù)集是通過(guò)從val集中排除5k圖像并將剩余數(shù)據(jù)合并到80k火車集獲得的，并且進(jìn)一步在test dev 2015集上評(píng)估我們的檢測(cè)器。批大小設(shè)置為128。對(duì)于前80k次迭代，初始學(xué)習(xí)率設(shè)置為0.1，然后在每60k次迭代后除以10。訓(xùn)練迭代總數(shù)為320k，其他訓(xùn)練配置與SSD中COCO的實(shí)驗(yàn)相同[22]。

試驗(yàn)結(jié)果匯總在表5中。微型DSOD在AP@IOU[0.5:0.95]度量的測(cè)試開(kāi)發(fā)集上達(dá)到23.2%的mAP，優(yōu)于輕量級(jí)的MobileNet SSD（v1&v2）[27]和pelenet[26]，甚至優(yōu)于全尺寸的YOLOv2[23]。此外，微小的DSOD具有顯著的小模型比較-表中列出的所有方法。例如，最先進(jìn)的全尺寸YOLOv2比微型DSOD有58倍大的型號(hào)和15.6倍多的觸發(fā)器。這些比較證明，對(duì)于資源受限的目標(biāo)檢測(cè)應(yīng)用，微小的DSOD是有效而準(zhǔn)確的。

5 Conclusion

針對(duì)資源受限的應(yīng)用，本文提出了一種輕量級(jí)的目標(biāo)檢測(cè)方法，即微型DSOD。我們通過(guò)兩個(gè)創(chuàng)新的塊：深度密集塊（DDB）和深度特征金字塔網(wǎng)絡(luò)（D-FPN），在資源（FLOPs和memory）和精度之間實(shí)現(xiàn)了更好的權(quán)衡。我們通過(guò)廣泛的消融研究來(lái)驗(yàn)證所發(fā)明的塊和探測(cè)器的有效性。我們?cè)谌齻€(gè)目標(biāo)檢測(cè)基準(zhǔn)（PASCAL VOC 2007，KITTI，COCO）上將微型DSOD與最先進(jìn)的輕量級(jí)探測(cè)器（如MobileNet SSD（v1&v2），squezedet，Pelee）進(jìn)行了比較。結(jié)果表明，在每一個(gè)基準(zhǔn)測(cè)試中，微型DSOD在所有三個(gè)指標(biāo)（精度、觸發(fā)器速度和參數(shù)大小）上都優(yōu)于這些方法。特別是在PASCAL VOC 2007上，微型DSOD僅用0.95M的參數(shù)和1.14B的運(yùn)算速度就達(dá)到了72.1%的mAP。到目前為止，這是資源需求如此低的最新結(jié)果。

Acknowledgement

Y uxi Li and Weiyao Lin are supported by NSFC (61471235) and Shanghai "The Belt and
Road" Y oung Scholar Exchange Grant(17510740100).

References
[1] Khalid Ashraf, Bichen Wu, et al. Shallow networks for high-accuracy road object-
detection. arXiv preprint arXiv:1606.01561, 2016.
[2] Zhaowei Cai, Quanfu Fan, Rogerio S. Feris, and Nuno V asconcelos. A unified multi-
scale deep convolutional neural network for fast object detection. In ECCV, 2016.
[3] Francois Chollet. Xception: Deep learning with depthwise separable convolutions. In
CVPR, 2016.
[4] Jifeng Dai, Yi Li, Kaiming He, and Jian Sun. R-fcn: Object detection via region-based
fully convolutional networks. In NIPS, 2016.

[5] Mark Everingham, Luc V an Gool, Christopher Williams, John Winn, and Andrew Zis-
serman. The pascal visual object classes (voc) challenge. IJCV, 88(2):303–338, 2010.
[6] Cheng Y ang Fu, Wei Liu, Ananth Ranga, Ambrish Tyagi, and Alex Berg. Dssd :
Deconvolutional single shot detector. arXiv preprint arXiv:1701.06659, 2017.
[7] Andreas Geiger, Philip Lenz, and Raquel Urtasun. Are we ready for autonomous driv-
ing? the kitti vision benchmark suite. In CVPR, 2012.
[8] Ross Girshick. Fast r-cnn. In ICCV, 2015.
[9] Ross Girshick, Jeff Donahue, Trevor Darrell, and Jitendra Malik. Rich feature hierar-
chies for accurate object detection and semantic segmentation. In CVPR, 2014.
[10] Xavier Glorot and Y oshua Bengio. Understanding the difficulty of training deep feed-
forward neural networks. JMLR, 9:249–256, 2010.
[11] Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. Deep residual learning for
image recognition. CVPR, 2016.
[12] Kaiming He, Georgia Gkioxari, Piotr Dollár, et al. Mask r-cnn. In ICCV, 2017.
[13] Andrew Howard, Menglong Zhu, et al. Mobilenets: Efficient convolutional neural
networks for mobile vision applications. arXiv preprint arXiv:1704.04861, 2017.
[14] Gao Huang, Zhuang Liu, Laurens V an De Maaten, and Kilian Q. Weinberger. Densely
connected convolutional networks. In CVPR, 2017.
[15] Gao Huang, Shichen Liu, V an Der Maaten Laurens, and Kilian Q Weinberger. Con-
densenet: An efficient densenet using learned group convolutions. In CVPR, 2018.
[16] Jonathan Huang, Vivek Rathod, Chen Sun, et al. Speed/accuracy trade-offs for modern
convolutional object detectors. In CVPR, 2017.
[17] Forrest N Iandola, Song Han, et al. Squeezenet: Alexnet-level accuracy with 50x fewer
parameters and <0.5 mb model size. In ICLR, 2016.
[18] Y angqing Jia, Evan Shelhamer, Jeff Donahue, et al. Caffe: Convolutional architecture
for fast feature embedding. arXiv preprint arXiv:1408.5093, 2014.
[19] Tsung Yi Lin, Michael Maire, Serge Belongie, James Hays, Pietro Perona, Deva Ra-
manan, et al. Microsoft coco: Common objects in context. In ECCV, 2014.
[20] Tsung Yi Lin, Piotr Dollar, Ross Girshick, Kaiming He, et al. Feature pyramid net-
works for object detection. In CVPR, pages 936–944, 2017.
[21] Wei Liu, Andrew Rabinovich, and Alexander C Berg. Parsenet: Looking wider to see
better. arXiv preprint arXiv:1506.04579, 2015.
[22] Wei Liu, Dragomir Anguelov, Dumitru Erhan, et al. Ssd: Single shot multibox detector.
In ECCV, pages 21–37, 2016.
[23] Joseph Redmon and Ali Farhadi. Y olo9000: Better, faster, stronger. In CVPR, 2016.

[24] Joseph Redmon, Santosh Divvala, Ross Girshick, and Ali Farhadi. Y ou only look once:
Unified, real-time object detection. In CVPR, pages 779–788, 2016.
[25] Shaoqing Ren, Kaiming He, Ross Girshick, and Jian Sun. Faster r-cnn: towards real-
time object detection with region proposal networks. In NIPS, pages 91–99, 2015.
[26] Xiang Li Robert Wang, Shuang Ao and Charles X. Ling. Pelee: A real-time object
detection system on mobile devices. In ICLR Workshop, 2018.
[27] Mark Sandler, Andrew Howard, Menglong Zhu, et al. Inverted residuals and linear
bottlenecks: Mobile networks for classification, detection and segmentation. arXiv
preprint arXiv:1801.04381, 2018.
[28] Zhiqiang Shen, Zhuang Liu, Jianguo Li, et al. Dsod: Learning deeply supervised object
detectors from scratch. In ICCV, pages 1937–1945, 2017.
[29] Karen Simonyan and Andrew Zisserman. V ery deep convolutional networks for large-
scale image recognition. In ICLR, 2014.
[30] Christian Szegedy, Wei Liu, Y angqing Jia, Pierre Sermanet, et al. Going deeper with
convolutions. In CVPR, 2015.
[31] Jasper RR Uijlings, Koen EA V an De Sande, Theo Gevers, and Arnold WM Smeulders.
Selective search for object recognition. IJCV, 2013.
[32] Bichen Wu, Forrest Iandola, et al. Squeezedet: Unified, small, low power fully con-
volutional neural networks for real-time object detection for autonomous driving. In
CVPR Workshops, 2017.
[33] Wei Xiang, Dong Qing Zhang, V assilis Athitsos, and Heather Y u. Context-aware
single-shot detector. In WACV, 2018.
[34] Xiang, Y u and Choi, Wongun and Lin, Y uanqing and Savarese, Silvio. Subcategory-
Aware Convolutional Neural Networks for Object Proposals and Detection arXiv
preprint arXiv:1604.04693, 2016.

總結(jié)

以上是生活随笔為你收集整理的Tiny-DSOD: Lightweight Object Detection for Resource-Restricted Usages的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：硬盘为什么最多只有四个主分区
下一篇：悼念图灵奖得主、ML语言之父Robin