Tiny-DSOD: Lightweight Object Detection for Resource-Restricted Usages
Y uxi Li1
lyxok1@sjtu.edu.cn
Jiuwei Li2
jiuwei.li@intel.com
Weiyao Lin1
wylin@sjtu.edu.cn
Jianguo Li2
jianguo.li@intel.com
1Shanghai Jiao Tong University , China
2Intel Lab China
Abstract
近年來,隨著深度學習的發展,目標檢測技術取得了長足的進步。然而,目前大多數的目標檢測方法都是資源密集型的,這阻礙了它們在很多資源受限的應用中的廣泛應用,如在常開設備、電池供電的低端設備上的應用,在設計整個目標檢測框架的過程中,考慮了資源和精度對資源受限使用的權衡。基于深度監督目標檢測(DSOD)框架,提出了一種用于資源受限應用的微型DSOD。Tiny DSOD引入了兩種創新的、超高效的體系結構塊:基于depthwise密集塊(DDB)的主干網和基于depthwise特征金字塔網絡(D-FPN)的前端。我們在三個著名的基準(PASCAL VOC 2007、KITTI和COCO)上進行了廣泛的實驗,并將微型DSOD與最先進的超高效目標檢測解決方案(如Tiny YOLO、MobileNet-SSD(v1和v2)、SqueezeDet、Pelee,結果表明,在所有三個指標(參數大小、觸發器、精度)的比較中,微型DSOD都優于這些解決方案。例如,微型DSOD僅用0.95M的參數和1.06B的觸發器就可以達到72.1%的mAP,這是目前為止資源需求如此低的最新成果。
1 Introduction
目標檢測被認為是計算機視覺領域中一項關鍵而富有挑戰性的任務,因為它是一個新的目標分類和定位的組合。隨著現代深度學習技術的發展,許多基于卷積神經網絡(CNN)的檢測框架被提出,包括fasterr-CNN[25]、YOLO[24]、SSD[22]及其變體[4、6、12、20、23、33],大大提高了目標檢測的精度。
盡管這些模型已經達到了最先進的精度,但它們大多是資源匱乏的,因為它們具有高的計算復雜度和較大的參數尺寸(或大型號尺寸))。高的計算復雜度要求計算單元具有更高的峰值觸發器,這通常會增加功耗的預算。在[16]中,對速度和精度的權衡進行了廣泛的研究。然而,資源不僅是計算資源,也是內存資源。大的模型大小會產生大的持久性內存需求,這不僅代價高昂,而且由于頻繁的持久性內存訪問,對于低端嵌入應用程序來說,功耗也很低。由于這兩個限制,目前大多數的目標檢測解決方案都不適合低功耗的使用場景,例如總是在設備或電池供電的低端設備上的應用。
為了緩解這種局限性,近年來許多研究致力于超高效目標檢測網絡的設計。例如,YOLO[24]提供了一個名為Tiny YOLO的lite版本,它將YOLO的參數大小壓縮到15米,并在PASCAL VOC 2007數據集[5]上實現了超過200 fps的檢測速度。squezedet[32]將基于squezenet[17]的主干網引入到YOLO框架中,以實現高效的toutonomousdriving用途。MobileNet SSD在SSD框架中采用MobileNet[13]作為骨干,在PASCAL VOC 2007數據集上生成的模型只有5.5M的參數和1.14B的計算觸發器。雖然這些小網絡在很大程度上減少了計算資源的需求,但是小網絡與全尺寸網絡之間仍然存在著很大的精度差距。例如,在PASCAL VOC 2007上,從SSD(77.2%)到MobileNet-SSD(68.0%)的準確率下降了9.2%。簡而言之,這些小型的檢測網絡遠沒有在資源(FLOPs和內存)和準確性之間取得良好的平衡。
我們提出了微型DSOD,致力于在資源(FLOPs和內存)和精度之間取得良好的平衡。該框架的骨干部分受到了目標檢測工作DSOD[28]和來自[3,13,27]的最新超高效可分離卷積網絡結構的啟發。DSOD[28]介紹了從零開始訓練目標檢測網絡的幾個重要原則,其中深度監控對于幫助將監控信息從丟失層反向傳播到較淺層而不存在梯度消失問題是最關鍵的。DSOD采用DenseNet結構[14]等隱式深度監督。微型DSOD將[3,13,27]的超高效可分離反褶積合并到DenseNet中,并引入一種新的反褶積密集塊(DDB)來代替DenseNet中的密集塊。該設計不僅減少了對計算資源的需求,而且保留了對高效訓練的隱性深層監控。在前端部分,我們嘗試將成功的特征金字塔網絡(FPN)[20]引入到我們的框架中,以實現從低分辨率尺度到鄰域高分辨率尺度的語義信息的無縫融合。通過將有效的深度卷積方法引入到FPN中,我們發明了深度FPN(D-FPN)。實驗證明,輕量級D-FPN前端能夠顯著提高檢測精度。
我們提出了微型DSOD,致力于在資源(FLOPs和內存)和精度之間取得良好的平衡。該框架的骨干部分受到了目標檢測工作DSOD[28]和來自[3,13,27]的最新超高效可分離卷積網絡結構的啟發。DSOD[28]介紹了從零開始訓練目標檢測網絡的幾個重要原則,其中深度監控對于幫助將監控信息從丟失層反向傳播到較淺層而不存在梯度消失問題是最關鍵的。DSOD采用DenseNet結構[14]等隱式深度監督。微型DSOD將[3,13,27]的超高效可分離反褶積合并到DenseNet中,并引入一種新的反褶積密集塊(DDB)來代替DenseNet中的密集塊。該設計不僅減少了對計算資源的需求,而且保留了對高效訓練的隱性深層監控。在前端部分,我們嘗試將成功的特征金字塔網絡(FPN)[20]引入到我們的框架中,以實現從低分辨率尺度到鄰域高分辨率尺度的語義信息的無縫融合。通過將有效的深度卷積方法引入到FPN中,我們發明了深度FPN(D-FPN)。實驗證明,輕量級D-FPN前端能夠顯著提高檢測精度。
我們進行了大量的實驗,以驗證在不同數據集(如PASCAL VOC[5]、KITTI[7]和COCO[19])上微DSOD的有效性。結果表明,我們的TinyDSOD在資源(FLOPs和memory)和準確性之間取得了更好的平衡。例如,在PASCAL VOC2007上,微型DSOD的平均精度(mAP)為72.1%,只有0.95M的參數和1.06B的運算速度。據我們所知,這是第一個能夠在參數小于1.0米的情況下實現大于70%mAP的檢測模型。事實上,在三個比較基準數據集(VOC 2007,KITTI,COCO)對所有三個評估指標(準確性、參數大小、失敗次數)的評估。與最小的DSOD模型[28]相比,微小的DSOD將參數大小減少到1/6左右,計算觸發器減少到1/5,精度僅下降1.5%。本文的貢獻總結如下:
? We propose depthwise dense block (DDB), a novel and efficient network structure to
combinedepthwiseseparableconvolutionwithdenselyconnectednetworks(DenseNet)
for ultra-efficient computer vision usages.
? We propose D-FPN, a novel and lightweight version of FPN [20], to fuse semantic
information from neighborhood scales for boosting object detection accuracy.
? We design the ultra-efficient object detector Tiny-DSOD for resource-restricted usages
based on the proposed DDB and D-FPN blocks. Tiny-DSOD outperforms state-of-the-
art ultra-efficient object detectors such as Tiny-YOLO, SqueezeDet, MobileNet-SSD,
etc in each of the three compared benchmark datasets (VOC 2007, KITTI, COCO) on
all the three evaluation metrics (accuracy, parameter-size, FLOPs).
2 Related Works
最先進的目標檢測網絡
隨著深度學習的快速發展,近年來提出了多種基于CNN的目標檢測框架。它們一般可分為兩類:基于單階段的方法和基于兩階段的方法。
典型的兩階段方法包括R-CNN[9]、快速R-CNN[8]、快速RCNN[25]和R-FCN[4]。早期的方法如R-CNN[9]和Fast R-CNN[8]利用外部區域建議生成算法如[31]來生成區域建議候選并對每個候選區域執行分類。后一種方法引入區域建議網絡(RPN)來生成區域建議,并將分類、包圍盒回歸等RPN和前端模塊集成到一個端到端訓練框架中。這種方法精度高,但計算量大,處理速度慢。
相反,SSD[22]和YOLO[24]等典型的單階段方法在一個或多個特征映射上應用不同比例/大小的預定義滑動默認框,以實現速度和精度之間的權衡。這種方法通常比兩階段的方法快,但比基于兩階段的方法精度低。
此外,所有這些檢測框架都以更好的骨干網(如ResNet[11]或VGG-16[29])作為特征抽取器,實現了更好的檢測精度,該特征抽取器參數化程度高,占用了大量的計算資源。
輕量級目標檢測網絡
在[16]中,對速度和精度的權衡進行了廣泛的研究。然而,資源不僅是計算速度的代價,也是內存資源的代價。近年來,人們致力于為資源受限的目標檢測設計高效的小型網絡。SqueezeNet[17](一個簡單版本的inception[30]結構稱為Fire module)為基礎的主干最近被引入到現代的單級高效檢測框架中[32],在PASCAL VOC 2007和KITTI[7]上取得了可比的結果。例如,在PASCAL VOC 2007上,基于擠壓網的SSD僅用5.5M的參數和1.18B的計算觸發器就實現了64.3%的mAP。
同時,深度可分卷積[3,13,27]在一般的圖像分類任務中表現出很好的參數和計算效率。它還被引入到SSD框架中,作為一個主干用于目標檢測,并被命名為MobileNet-SSD[13]。在PASCAL VOC 2007上,MobileNet-SSD僅用5.5M的參數和1.14B的浮點運算就實現了68.0%的映射。
Pelee[26]利用雙向密集連接結構來減少計算消耗,同時保持移動應用的檢測精度。
盡管如此,在高效而微小的網絡和全尺寸網絡之間仍然存在著很大的精度差距。例如,tiny YOLO在PASCAL VOC 2007上可以達到57.1%的mAP,而YOLOv2[23]在相同的設置下可以達到78.6%的mAP。SqueezeNet-SSD?和MobileNet-SSD在PASCAL VOC 2007上分別達到64.3%和68.0%的mAP,而在相同的設置下,full?SSD達到77.2%的mAP。這一發現啟發我們,在設計目標檢測網絡時,仍有很大的空間在資源(FLOPs和內存)和精度之間實現更好的權衡。
3方法
我們的目標是設計一個面向資源受限用途的超高效目標檢測網絡。我們的檢測器是基于單鏡頭檢測器(SSD)[22]框架和深度監督目標檢測(DSOD)框架[28],它由主干部分和前端部分組成。我們將在下面分別闡述這兩個部分。
3.1基于密集塊的主干網
受DSOD[28]的啟發,我們還構建了一個類似DenseNet[14]的主干,因為它更容易從零開始訓練,而訓練集相對較少。考慮到資源的限制,我們將超有效的深度可分卷積引入到典型的稠密塊體中,并將這種新的結構單元稱為深度稠密塊體(DDB)。
我們提出了兩種類型的DDB單元,DDB-a和DDB-b,如圖1所示。圖1(a)中的DDB-a單元受到MobileNet-v2[27]中提出的新的反向剩余塊的啟發。它首先將輸入信道擴展到w×n,其中n是塊輸入信道數,w是控制模型容量的整數超參數。然后應用深度卷積,進一步用點卷積(即1×1卷積)將特征映射投影到g信道(g是DDB-a的增長率)。最后,我們使用連接將輸入和輸出特征映射合并在一起,而不是MobileNet-v2中的剩余加法操作[27]。DDB-a有兩個超參數w和g,因此我們將其表示為DDB-a(w,g)。
DDB-A有兩個主要缺陷:第一,假設L DDB-A塊堆疊,堆疊結構的復雜性為O(L3G2)。這意味著資源消耗相對于L的增長很快,因此即使將幾個DDB-a疊加在一起,我們也必須將增長率g控制在一個較小的值。然而,小增長率g會損害整個模型的判別能力。其次,DDB-a將壓縮的(aka 1×1卷積投影)特征映射串聯起來,使得在兩個相鄰的DDB-a單元內存在連續的1×1卷積。這種處理會在模型參數之間引入潛在的冗余。
考慮到這一點,我們設計了另一種類型的深度密集塊DDBb,如圖1(b)所示。DDB-b首先將輸入信道壓縮到生長速率g的大小,然后進行深度卷積。在不增加1×1投影的情況下,深度卷積的輸出直接連接到輸入端。L堆疊DDB-B塊的總體復雜度為O(L2G2),小于DDB-A。我們將在第4.2節中進一步驗證DDB-B不僅效率更高,而且在相似資源約束下比DDB-a更精確。因此,我們選擇DDB-b作為基本單元來構建我們最終的骨干子網結構。
表1顯示了我們骨干網的詳細結構。每個卷積層之后是一個批處理規范化和一個ReLU層。提取器部分有四個DDB級,每個DDB級包含幾個DDB塊,然后是一個過渡層,用于融合最后一級的信道信息,并壓縮信道數以進行計算和參數效率。我們在[15]中也采用了變分增長率策略,通過將較小的g分配給具有較大空間大小的較淺階段,并且當階段變深時線性增加g。這將有助于節省計算成本,因為較淺階段的大空間大小通常會消耗更多的計算量。
表1:微型DSOD骨干結構(輸入尺寸3×300×300)。在“組件”列中,塊名后面的符號“*”表示塊重復在符號后面給定的次數。?
圖1:深度密集塊(DDB)圖解。圖中顯示了兩種類型的DDB。在矩形中,“S”表示卷積的步長,“C”表示輸出信道的數目。連接節點下的數字(綠色C帶圓圈)表示連接后的輸出通道數。(a)用生長速率g參數化的DDB-a疊加,用生長速率g參數化的DDB-b疊加。
3.2基于FPN的深度前端
SSD和DSOD的簡單結構前端存在淺層預測層缺少對象語義信息的局限性。為了克服這個問題,我們借鑒了文獻[6]和[20]中的特征金字塔思想,在預測器中設計了一個稱為depthwise-FPN(DFPN)的輕量級FPN,將信息流從較深、較小的特征映射重新定向到較淺的特征映射。圖2說明了我們的前端預測器的結構,它由一個下采樣路徑和一個反向上采樣路徑組成。在許多研究中,反向路徑被證明對小目標檢測非常有用[6,20,33]。然而,這些工作大多是通過反褶積來實現逆路徑的,這在很大程度上增加模型的復雜度。
增加模型的復雜度。為了避免這個問題,我們提出了一個成本效益的解決方案的反向路徑。如圖2右上角所示,我們使用簡單的雙線性插值層和深度卷積向上采樣頂部特征映射,此操作可表示為方程式1。
?
其中是輸出特征映射的第c個通道,是相應的輸入通道。是深度卷積的第c個核,*表示空間卷積。Ω是輸入特征的坐標集,s是該層中的重采樣系數。是可微雙線性算子。?
通過元素添加,將生成的特征映射與底層相同大小的特征映射合并。我們在4.2節的實驗將表明,D-FPN可以在計算量略有增加的情況下,實現相當大的檢測精度提升。
4 實驗
4.1實施細則
我們執行我們關于Caffe框架的工作[18]。我們的模型是從零開始訓練與SGD解算器在服務器上與PASCAL TitanX GPU。我們的大多數訓練策略都遵循DSOD[28],包括數據增強、規模、預測層的L2規范化[21]、默認框的縱橫比、損失函數(本地化的平滑L1損失和分類的交叉熵損失)和在線硬示例挖掘策略。
4.2 PASCAL VOC2007的消融研究
設計空間探索
我們首先調查基于DDB的主干網中的設計設置。我們進行了兩種類型的DDB單元的實驗研究,以及不同密度階段的生長速率設置。為了公平比較,我們遵循常見的訓練集設置,我們在PASCAL VOC 07+12 trainval集上訓練我們的模型,并在VOC2007測試集上進行測試。表2總結了研究結果。它表明在資源使用方面,基于DDB-b的骨干網比DDB-a的骨干網性能好得多,例如,當參數大小固定在0.90M時,基于DDB-b的骨干網的mAP比DDB-a的高7.1%(70.2%vs 63.1%),并進一步節省了0.65B的計算開銷(1.03B vs 1.68B)。因此,DDB-b是我們推薦的選擇,并在以下基準研究中用作標準制定。
表2:PASCAL VOC2007試驗裝置的消融研究。數字序列G/g0-g1-g2-g3用于描述網絡設置,其中G i是第i階段DDB的增長率,w是DDB-a的擴展率。勾選“X”表示被評估網絡(按行)采用了某種配置,否則為否。?
隨著骨干網整體增長率的提高,檢測精度也明顯提高。同時,我們觀察到資源(參數大小和浮點數)和精度(mAP)之間的權衡。從表2中的第(4)行到第(6)行,我們發現當參數大小相似時,具有相對均勻增長率的模型將具有稍好的精度。然而,如第3.1節所述,淺階段的大增長率會產生較高的計算成本。因此,我們以配置G/32-48-64-80(第7行)為基線,因為在相同的模型大小約束下,它可以達到與最小觸發器相當的精度。
D-FPN的有效性
我們進一步研究了我們的輕型D-FPN前端的有效性。通過比較表2中的最后兩行,我們發現D-FPN只需增加0.03B觸發器和增加0.05M參數就可以帶來1.9%的性能增益。由于顯著的精度提高,這種計算資源的增加是可以容忍和值得的。
運行時分析
在PASCAL VOC 2007數據集上,我們比較了微型DSOD和最先進的輕量級目標檢測器的檢測速度。速度是通過Nvidia TitanX GPU上的每秒幀數(fps)來測量的。為了加速推理,我們將批量規范化層的參數合并到前面的卷積操作中。結果報告在表3的“FPS”欄中。在300×300的輸入下,微型DSOD可以以9.5ms(105fps)的速度處理圖像,批量大小為8,比實時要求(25fps)快4.2倍,比除微型YOLO外的其他超高效探測器快。我們的微型DSOD比全尺寸DSOD快6.0倍[28],比全尺寸SSD快2.3倍[22],比YOLOv2快1.5倍。微小的DSOD仍然比微小的YOLO慢,然而,與其他檢測器相比,我們的模型顯示出更少的理論錯誤(見“錯誤”一欄)。原因有兩方面。首先,Tiny YOLO是基于普通卷積結構(不含殘差和級聯),并對GPU的實現進行了定制優化。其次,我們的微型DSOD直接使用Caffe,而沒有任何額外的優化,其中Caffe對于depthwise卷積的實現效率較低。我們認為,當深度卷積得到很好的實現時,我們的微型DSOD應該以更快的速度運行。此外,我們應該強調的是,我們的微型DSOD比所有相比的全尺寸和輕量化探測器具有更少的參數。請參閱表3的“#Params”列更多細節。
?
4.3 PASCAL VOC2007基準結果
我們的模型是在VOC2007 trainval和VOC2012 trainval數據集的結合上從頭開始訓練的。我們使用128的小批量(經過多次迭代累積)。初始學習率設置為0.1,并除以每20k次迭代的10倍。訓練迭代次數為100k,利用動量為0.1的SGD求解器對目標函數進行優化。與[28]類似,我們使用0.0005的重量衰減來避免過度擬合。我們所有的conv層和dwconv層都是用“xavier”方法初始化的[10]。
我們在表3中報告了VOC2007測試集的檢測結果,其中上部的結果來自于最新的全尺寸檢測模型,而下部的結果來自于輕量級檢測模型。我們的微型DSOD達到了72.1%的mAP,這明顯優于大多數輕量級探測器,除了DSOD最小的[28]。然而,我們的微型DSOD只有1/6的參數和1/5的觸發器到最小的DSOD。當將我們的模型與最先進的全尺寸模型進行比較時,仍然存在邊際精度下降。然而,微小的DSOD需要更小的持久內存來存儲模型,而且計算成本也要低得多。例如,更快的RCNN[25]的精度僅比微小的DSOD高1.1%,而模型尺寸大于140倍,理論計算成本高180倍(實際上,fps速度慢10倍)。這些比較表明,微型DSOD在資源(模型大小和FLOPs)和檢測精度之間取得了更好的折衷,這對于資源受限的應用非常有用。
4.4 Benchmark Results on KITTI
接下來,我們將評估我們的探測器在KITTI 2D目標檢測任務中的自主駕駛使用情況[7]。與PASCAL VOC不同,KITTI數據集由1242×375的超寬圖像組成。為了避免小物體的消失,我們將輸入圖像的大小調整為1200×300而不是300×300。此分辨率將增加探測器的觸發器,但將保持良好的檢測精度。按照[32]中的配置,我們將7381個圖像隨機分成訓練集和驗證集。在驗證集上測試平均精度。訓練的批大小設置為64。
?
表4:KITTI 2D檢測結果。每個類別下的數字(汽車、騎自行車的人、人)是相應的平均精度(AP in%)。“mAP”列是三個類別上的平均AP。請注意,由于對象類別的數量不同,此處微小DSOD的參數大小(0.85M)與VOC情況(0.95M)略有不同。
?
?圖3:從微型DSOD輸出的道路檢測的kitti val集示例。每個輸出邊界框都被著色編碼成相應的類別,并通過0.3的置信閾值進行過濾,以便可視化
我們以0.01的學習率開始我們的訓練過程,因為在從頭開始的訓練過程中觀察到損失振蕩和較大的學習率。我們將學習率除以每10萬次迭代2。我們的訓練在60k次迭代時停止,因為訓練圖像的數量很小。其他設置與第4.3節中關于PASCAL VOC2007的實驗相同。
驗證集的結果如表4所示。我們的微型DSOD實現了77.0%mAP的競爭結果,這比squezedet[32]稍微好一點(77.0%對76.7%),而我們的模型減少了50%以上的模型參數和計算失敗,并且以每圖像15毫秒(64.9 fps)的更快運行速度運行,這表明在這種情況下,微型DSOD的效率更高。此外,應該注意的是,在KITTI數據集中的主要對象“cars”類別上,微型DSOD的精度最高。圖3進一步說明了KITTI數據集上的一些檢測示例。
4.5 COCO的基準結果
最后,我們在COCO數據集上評估了我們的方法的性能。按照常見的設置[25],我們在trainval 35k數據集上訓練我們的模型,該數據集是通過從val集中排除5k圖像并將剩余數據合并到80k火車集獲得的,并且進一步在test dev 2015集上評估我們的檢測器。批大小設置為128。對于前80k次迭代,初始學習率設置為0.1,然后在每60k次迭代后除以10。訓練迭代總數為320k,其他訓練配置與SSD中COCO的實驗相同[22]。
試驗結果匯總在表5中。微型DSOD在AP@IOU[0.5:0.95]度量的測試開發集上達到23.2%的mAP,優于輕量級的MobileNet SSD(v1&v2)[27]和pelenet[26],甚至優于全尺寸的YOLOv2[23]。此外,微小的DSOD具有顯著的小模型比較-表中列出的所有方法。例如,最先進的全尺寸YOLOv2比微型DSOD有58倍大的型號和15.6倍多的觸發器。這些比較證明,對于資源受限的目標檢測應用,微小的DSOD是有效而準確的。
5 Conclusion
針對資源受限的應用,本文提出了一種輕量級的目標檢測方法,即微型DSOD。我們通過兩個創新的塊:深度密集塊(DDB)和深度特征金字塔網絡(D-FPN),在資源(FLOPs和memory)和精度之間實現了更好的權衡。我們通過廣泛的消融研究來驗證所發明的塊和探測器的有效性。我們在三個目標檢測基準(PASCAL VOC 2007,KITTI,COCO)上將微型DSOD與最先進的輕量級探測器(如MobileNet SSD(v1&v2),squezedet,Pelee)進行了比較。結果表明,在每一個基準測試中,微型DSOD在所有三個指標(精度、觸發器速度和參數大小)上都優于這些方法。特別是在PASCAL VOC 2007上,微型DSOD僅用0.95M的參數和1.14B的運算速度就達到了72.1%的mAP。到目前為止,這是資源需求如此低的最新結果。
Acknowledgement
Y uxi Li and Weiyao Lin are supported by NSFC (61471235) and Shanghai "The Belt and
Road" Y oung Scholar Exchange Grant(17510740100).
References
[1] Khalid Ashraf, Bichen Wu, et al. Shallow networks for high-accuracy road object-
detection. arXiv preprint arXiv:1606.01561, 2016.
[2] Zhaowei Cai, Quanfu Fan, Rogerio S. Feris, and Nuno V asconcelos. A unified multi-
scale deep convolutional neural network for fast object detection. In ECCV, 2016.
[3] Francois Chollet. Xception: Deep learning with depthwise separable convolutions. In
CVPR, 2016.
[4] Jifeng Dai, Yi Li, Kaiming He, and Jian Sun. R-fcn: Object detection via region-based
fully convolutional networks. In NIPS, 2016.
[5] Mark Everingham, Luc V an Gool, Christopher Williams, John Winn, and Andrew Zis-
serman. The pascal visual object classes (voc) challenge. IJCV, 88(2):303–338, 2010.
[6] Cheng Y ang Fu, Wei Liu, Ananth Ranga, Ambrish Tyagi, and Alex Berg. Dssd :
Deconvolutional single shot detector. arXiv preprint arXiv:1701.06659, 2017.
[7] Andreas Geiger, Philip Lenz, and Raquel Urtasun. Are we ready for autonomous driv-
ing? the kitti vision benchmark suite. In CVPR, 2012.
[8] Ross Girshick. Fast r-cnn. In ICCV, 2015.
[9] Ross Girshick, Jeff Donahue, Trevor Darrell, and Jitendra Malik. Rich feature hierar-
chies for accurate object detection and semantic segmentation. In CVPR, 2014.
[10] Xavier Glorot and Y oshua Bengio. Understanding the difficulty of training deep feed-
forward neural networks. JMLR, 9:249–256, 2010.
[11] Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. Deep residual learning for
image recognition. CVPR, 2016.
[12] Kaiming He, Georgia Gkioxari, Piotr Dollár, et al. Mask r-cnn. In ICCV, 2017.
[13] Andrew Howard, Menglong Zhu, et al. Mobilenets: Efficient convolutional neural
networks for mobile vision applications. arXiv preprint arXiv:1704.04861, 2017.
[14] Gao Huang, Zhuang Liu, Laurens V an De Maaten, and Kilian Q. Weinberger. Densely
connected convolutional networks. In CVPR, 2017.
[15] Gao Huang, Shichen Liu, V an Der Maaten Laurens, and Kilian Q Weinberger. Con-
densenet: An efficient densenet using learned group convolutions. In CVPR, 2018.
[16] Jonathan Huang, Vivek Rathod, Chen Sun, et al. Speed/accuracy trade-offs for modern
convolutional object detectors. In CVPR, 2017.
[17] Forrest N Iandola, Song Han, et al. Squeezenet: Alexnet-level accuracy with 50x fewer
parameters and <0.5 mb model size. In ICLR, 2016.
[18] Y angqing Jia, Evan Shelhamer, Jeff Donahue, et al. Caffe: Convolutional architecture
for fast feature embedding. arXiv preprint arXiv:1408.5093, 2014.
[19] Tsung Yi Lin, Michael Maire, Serge Belongie, James Hays, Pietro Perona, Deva Ra-
manan, et al. Microsoft coco: Common objects in context. In ECCV, 2014.
[20] Tsung Yi Lin, Piotr Dollar, Ross Girshick, Kaiming He, et al. Feature pyramid net-
works for object detection. In CVPR, pages 936–944, 2017.
[21] Wei Liu, Andrew Rabinovich, and Alexander C Berg. Parsenet: Looking wider to see
better. arXiv preprint arXiv:1506.04579, 2015.
[22] Wei Liu, Dragomir Anguelov, Dumitru Erhan, et al. Ssd: Single shot multibox detector.
In ECCV, pages 21–37, 2016.
[23] Joseph Redmon and Ali Farhadi. Y olo9000: Better, faster, stronger. In CVPR, 2016.
[24] Joseph Redmon, Santosh Divvala, Ross Girshick, and Ali Farhadi. Y ou only look once:
Unified, real-time object detection. In CVPR, pages 779–788, 2016.
[25] Shaoqing Ren, Kaiming He, Ross Girshick, and Jian Sun. Faster r-cnn: towards real-
time object detection with region proposal networks. In NIPS, pages 91–99, 2015.
[26] Xiang Li Robert Wang, Shuang Ao and Charles X. Ling. Pelee: A real-time object
detection system on mobile devices. In ICLR Workshop, 2018.
[27] Mark Sandler, Andrew Howard, Menglong Zhu, et al. Inverted residuals and linear
bottlenecks: Mobile networks for classification, detection and segmentation. arXiv
preprint arXiv:1801.04381, 2018.
[28] Zhiqiang Shen, Zhuang Liu, Jianguo Li, et al. Dsod: Learning deeply supervised object
detectors from scratch. In ICCV, pages 1937–1945, 2017.
[29] Karen Simonyan and Andrew Zisserman. V ery deep convolutional networks for large-
scale image recognition. In ICLR, 2014.
[30] Christian Szegedy, Wei Liu, Y angqing Jia, Pierre Sermanet, et al. Going deeper with
convolutions. In CVPR, 2015.
[31] Jasper RR Uijlings, Koen EA V an De Sande, Theo Gevers, and Arnold WM Smeulders.
Selective search for object recognition. IJCV, 2013.
[32] Bichen Wu, Forrest Iandola, et al. Squeezedet: Unified, small, low power fully con-
volutional neural networks for real-time object detection for autonomous driving. In
CVPR Workshops, 2017.
[33] Wei Xiang, Dong Qing Zhang, V assilis Athitsos, and Heather Y u. Context-aware
single-shot detector. In WACV, 2018.
[34] Xiang, Y u and Choi, Wongun and Lin, Y uanqing and Savarese, Silvio. Subcategory-
Aware Convolutional Neural Networks for Object Proposals and Detection arXiv
preprint arXiv:1604.04693, 2016.
?
總結
以上是生活随笔為你收集整理的Tiny-DSOD: Lightweight Object Detection for Resource-Restricted Usages的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 硬盘为什么最多只有四个主分区
- 下一篇: 悼念图灵奖得主、ML语言之父Robin