2021年小目标检测最新研究综述 很全面值得收藏
摘要
小目標檢測長期以來是計算機視覺中的一個難點和研究熱點。在深度學習的驅動下,小目標檢測已取得了重大突破,并成功應用于國防安全、智能交通和工業自動化等領域。為了進一步促進小目標檢測的發展,本文對小目標檢測算法進行了全面的總結,并對已有算法進行了歸類、分析和比較。首先,對小目標進行了定義,并概述小目標檢測所面臨的挑戰。然后,重點闡述從數據增強、多尺度學習、上下文學習、生成對抗學習以及無錨機制等方面來提升小目標檢測性能的方法,并分析了這些方法的優缺點和關聯性。之后,全面介紹小目標數據集,并在一些常用的公共數據集上對已有算法進行了性能評估。最后本文對小目標檢測技術的未來發展方向進行了展望。
關鍵詞
小目標檢測; 數據增強; 多尺度學習; 上下文學習; 生成對抗學習; 無錨機制
引 言
目標檢測是計算機視覺領域中的一個重要研究方向,也是其他復雜視覺任務的基礎。作為圖像理解和計算機視覺的基石,目標檢測是解決分割、場景理解、目標跟蹤、圖像描述和事件檢測等更高層次視覺任務的基礎。小目標檢測長期以來是目標檢測中的一個難點,其旨在精準檢測出圖像中可視化特征極少的小目標(32像素×32像素以下的目標)。在現實場景中,由于小目標是的大量存在,因此小目標檢測具有廣泛的應用前景,在自動駕駛、智慧醫療、缺陷檢測和航拍圖像分析等諸多領域發揮著重要作用。近年來,深度學習技術的快速發展為小目標檢測注入了新鮮血液,使其成為研究熱點。然而,相對于常規尺寸的目標,小目標通常缺乏充足的外觀信息,因此難以將它們與背景或相似的目標區分開來。在深度學習的驅動下,盡管目標檢測算法已取得了重大突破,但是對于小目標的檢測仍然是不盡人意的。在目標檢測公共數據集MS COCO[1]上,小目標和大目標在檢測性能上存在顯著差距,小目標的檢測性能通常只有大目標的一半。由此可見,小目標檢測仍然是充滿挑戰的。此外,真實場景是錯綜復雜的,通常會存在光照劇烈變化、目標遮擋、目標稠密相連和目標尺度變化等問題,而這些因素對小目標特征的影響是更加劇烈的,進一步加大了小目標檢測的難度。事實上,小目標檢測具有重要的研究意義和應用價值。對于機場跑道,路面上會存在微小物體,如螺帽、螺釘、墊圈、釘子和保險絲等,精準地檢測出跑道的這些小異物將避免重大的航空事故和經濟損失。對于自動駕駛,從汽車的高分辨率場景照片中準確地檢測出可能引起交通事故的小物體是非常有必要的。對于工業自動化,同樣需要小目標檢測來定位材料表面可見的小缺陷。對于衛星遙感圖像,圖像中的目標,例如車、船,可能只有幾十甚至幾個像素。精確地檢測出衛星遙感圖像中的微小目標將有助于政府機構遏制毒品和人口販運,尋找非法漁船并執行禁止非法轉運貨物的規定。綜上所述,小目標檢測具有廣泛的應用價值和重要的研究意義。對小目標檢測展開研究將有助于推動目標檢測領域的發展,擴寬目標檢測在現實世界的應用場景,提高中國的科技創新水平和加快中國全面步入智能化時代的步伐。
目標檢測作為計算機視覺的基礎研究,已有許多優秀的綜述發表。Zou等[2]梳理了400多篇關于目標檢測技術發展的論文,包括歷史上的里程碑檢測器、檢測框架、評價指標、數據集、加速技術和檢測應用等諸多內容,系統而全面地展現了目標檢測這個領域的現狀。Oksuz等[3]則從目標檢測中存在的類別不平衡、尺度不平衡、空間不平衡以及多任務損失優化之間的不平衡等四大不平衡問題出發,對現有的目標檢測算法進行了深入的總結。Zhao等[4]在對比總結目標檢測中提及了小目標檢測所面臨的挑戰。Agawal等[5]則在目標檢測任務的主要挑戰中簡要介紹了幾種常用的小目標檢測方法。Chen等[6]立意于小目標檢測的4大支柱性方法,詳細描述了多尺度表示、上下文信息、超分辨率、區域建議以及其他方法等5類具代表性的網絡,并介紹了部分小目標數據集。Tong等[7]從多尺度學習、數據增強、訓練策略、基于上下文的檢測和基于生成對抗網絡的檢測等5個維度全面回顧了基于深度學習的小目標檢測方法,并在一些流行的小目標檢測數據集上,對當前經典的小目標檢測算法進行了比較分析。Liu等[8]在總結對比最近用于小目標檢測的深度學習方法的基礎上,還簡單闡述了常規目標檢測、人臉檢測、航空圖像目標檢測以及圖像分割等4個研究領域的相關技術。此外,還有文獻[9?10]等中文綜述中對小目標檢測這一領域做了一定的總結工作。然而,文獻[2]主要對一般目標檢測算法進行了回顧,而對小目標檢測方法的介紹甚少。文獻[3]則主要關注于目標檢測領域中存在的不平衡問題。文獻[4?5]對目標檢測領域進行了全面的綜述總結,雖然有所涉及小目標檢測問題,但是并沒有進行全面的總結和深入的分析。文獻[6?8]是針對小目標這一問題的綜述,對小目標檢測方法與性能評估進行了較為全面的總結,但是在對小目標的定義、難點分析和性能評估等方面仍有所欠缺。文獻[9?10]作為中文的小目標檢測綜述,分別對小目標檢測這一領域進行了總結綜述,但是對于小目標檢測方法的歸類與分析仍不夠深入。
與以往將小目標與常規目標等同對待或只關注特定應用場景下的目標檢測綜述不同,本文對小目標檢測這一不可或缺且極具挑戰性的研究領域進行了系統且深入的分析與總結。本文不僅對小目標的定義進行了解釋,也對小目標檢測領域存在的挑戰進行了詳細地分析和總結,同時重點闡述了小目標檢測優化思路,包括數據增強、多尺度學習、上下文學習、生成對抗學習以及無錨機制以及其他優化策略等。此外,本文還在常用的小目標數據集上分析對比了現有算法的檢測性能。最后,對本文內容進行了簡要的總結,并討論了小目標檢測未來可能的研究方向和發展趨勢。
1 小目標定義及難點分析
1.1 小目標定義
不同場景對于小目標的定義各不相同,目前尚未形成統一的標準。現有的小目標定義方式主要分為以下兩類,即基于相對尺度的定義與基于絕對尺度的定義。
(1)基于相對尺度定義。即從目標與圖像的相對比例這一角度考慮來對小目標進行定義。Chen等[11]提出一個針對小目標的數據集,并對小目標做了如下定義:同一類別中所有目標實例的相對面積,即邊界框面積與圖像面積之比的中位數在0.08%~0.58%之間。文中對小目標的定義也給出了更具體的說法,如在640像素×480像素分辨率圖像中,16像素×16像素到42像素×42像素的目標應考慮為小目標。除了Chen等對小目標的定義方式以外,較為常見的還有以下幾種:(1)目標邊界框的寬高與圖像的寬高比例小于一定值,較為通用的比例值為0.1;(2)目標邊界框面積與圖像面積的比值開方小于一定值,較為通用的值為0.03;(3)根據目標實際覆蓋像素與圖像總像素之間比例來對小目標進行定義。
但是,這些基于相對尺度的定義存在諸多問題,如這種定義方式難以有效評估模型對不同尺度目標的檢測性能。此外,這種定義方式易受到數據預處理與模型結構的影響。
(2)基于絕對尺度定義。則從目標絕對像素大小這一角度考慮來對小目標進行定義。目前最為通用的定義來自于目標檢測領域的通用數據集——MS COCO數據集[1],將小目標定義為分辨率小于32像素×32像素的目標。對于為什么是32像素×32像素,本文從兩個方向進行了思考。一種思路來自于Torralba等[12]的研究,人類在圖像上對于場景能有效識別需要的彩色圖像像素大小為32像素×32像素,即小于32像素×32像素的目標人類都難以識別。另一種思路來源于深度學習中卷積神經網絡本身的結構,以與MS COCO數據集第一部分同年發布的經典網絡結構VGG?Net[13]為例,從輸入圖像到全連接層的特征向量經過了5個最大池化層,這導致最終特征向量上的“一點”對應到輸入圖像上的像素大小為32像素×32像素。于是,從特征提取的難度不同這一角度考慮,可以將32像素×32像素作為區分小目標與常規目標的一個界定標準。除了MS COCO之外,還有其他基于絕對尺度的定義,如在航空圖像數據集DOTA[14]與人臉檢測數據集WIDER FACE[15]中都將像素值范圍在[10, 50]之間的目標定義為小目標。在行人識別數據集CityPersons[16]中,針對行人這一具有特殊比例的目標,將小目標定義為了高度小于75像素的目標。基于航空圖像的小行人數據集TinyPerson[17]則將小目標定義為像素值范圍在[20, 32]之間的目標,而且近一步將像素值范圍在[2, 20]之間的目標定義為微小目標。
1.2 小目標檢測面臨的挑戰
前文中已簡要闡述小目標的主流定義,通過這些定義可以發現小目標像素占比少,存在覆蓋面積小、包含信息少等基本特點。這些特點在以往綜述或論文中也多有提及,但是少有對小目標檢測難點進行分析與總結。接下來本文將試圖對造成小目標檢測難度高的原因以及其面臨的挑戰進行分析與總結。
(1) 可利用特征少
無論是從基于絕對尺度還是基于相對尺度的定義,小目標相對于大/中尺度尺寸目標都存在分辨率低的問題。低分辨率的小目標可視化信息少,難以提取到具有鑒別力的特征,并且極易受到環境因素的干擾,進而導致了檢測模型難以精準定位和識別小目標。
(2) 定位精度要求高
小目標由于在圖像中覆蓋面積小,因此其邊界框的定位相對于大/中尺度尺寸目標具有更大的挑戰性。在預測過程中,預測邊界框框偏移一個像素點,對小目標的誤差影響遠高于大/中尺度目標。此外,現在基于錨框的檢測器依舊占據絕大多數,在訓練過程中,匹配小目標的錨框數量遠低于大/中尺度目標,如圖1所示,這進一步地導致了檢測模型更側重于大/中尺度目標的檢測,難以檢測小目標。圖中IoU(Intersection over union)為交并比。
圖1 小目標匹配的錨框數量相對大/中尺度的目標更少
Fig.1 Small?size objects match with fewer anchors than large/medium objects
(3) 現有數據集中小目標占比少
在目標檢測領域中,現有數據集大多針對大/中尺度尺寸目標,較少關注小目標這一特別的類型。MS COCO中雖然小目標占比較高,達31.62%,但是每幅圖像包含的實例過多,小目標分布并不均勻。同時,小目標不易標注,一方面來源于小目標在圖像中不易被人類關注,很難標全;另一方面是小目標對于標注誤差更為敏感。另外,現有的小目標數據集往往針對特定場景,例如文獻[14]針對空中視野下的圖像、文獻[15]針對人臉、文獻[16?17]針對行人、文獻[18]針對交通燈、文獻[19]針對樂譜音符,使用這些數據集訓練的網絡不適用于通用的小目標檢測。總的來說,大規模的通用小目標數據集尚處于缺乏狀態,現有的算法沒有足夠的先驗信息進行學習,導致了小目標檢測性能不足。
(4) 樣本不均衡問題
為了定位目標在圖像中的位置,現有的方法大多是預先在圖像的每個位置生成一系列的錨框。在訓練的過程中,通過設定固定的閾值來判斷錨框屬于正樣本還是負樣本。這種方式導致了模型訓練過程中不同尺寸目標的正樣本不均衡問題。當人工設定的錨框與小目標的真實邊界框差異較大時,小目標的訓練正樣本將遠遠小于大/中尺度目標的正樣本,這將導致訓練的模型更加關注大/中尺度目標的檢測,而忽略小目標的檢測。如何解決錨框機制導致的小目標和大/中尺度目標樣本不均衡問題也是當前面臨的一大挑戰。
(5) 小目標聚集問題
相對于大/中尺度目標,小目標具有更大概率產生聚集現象。當小目標聚集出現時,聚集區域相鄰的小目標通過多次降采樣后,反應到深層特征圖上將聚合成一個點,導致檢測模型無法區分。當同類小目標密集出現時,預測的邊界框還可能會因后處理的非極大值抑制操作將大量正確預測的邊界框過濾,從而導致漏檢情況。另外,聚集區域的小目標之間邊界框距離過近,還將導致邊界框難以回歸,模型難以收斂。
(6) 網絡結構原因
在目標檢測領域,現有算法的設計往往更為關注大/中尺度目標的檢測性能。針對小目標特性的優化設計并不多,加之小目標自身特性所帶來的難度,導致現有算法在小目標檢測上普遍表現不佳。雖然無錨框的檢測器設計是一個新的發展趨勢,但是現有網絡依舊是基于錨框的檢測器占據主流,而錨框這一設計恰恰對小目標極不友好。此外,在現有網絡的訓練過程中,小目標由于訓練樣本占比少,對于損失函數的貢獻少,從而進一步減弱了網絡對于小目標的學習能力。
2 小目標檢測研究思路
2.1 數據增強
數據增強是一種提升小目標檢測性能的最簡單和有效的方法,通過不同的數據增強策略可以擴充訓練數據集的規模,豐富數據集的多樣性,從而增強檢測模型的魯棒性和泛化能力。在相對早期的研究中,Yaeger等[20]通過使用扭曲變形、旋轉和縮放等數據增強方法顯著提升了手寫體識別的精度。之后,數據增強中又衍生出了彈性變形[21]、隨機裁剪[22]和平移[23]等策略。目前,這些數據增強策略已被廣泛應用于目標檢測中。
近些年來,基于深度學習的卷積神經網絡在處理計算機視覺任務中獲得了巨大的成功。深度學習的成功很大程度上歸功于數據集的規模和質量,大規模和高質量的數據能夠大幅度提升模型的泛化能力。數據增強策略在目標檢測領域有著廣泛應用,例如Fast R?CNN[24]、Cascade R?CNN[25]中使用的水平翻轉,YOLO[26]、YOLO9000[27]中使用的調整圖像曝光和飽和度,還有常被使用的CutOut[28]、MixUp[29]、CutMix[30]等方法。最近,更是有諸如馬賽克增強(YOLOv4[31])、保持增強[32]等創新策略提出,但是這些數據增強策略主要是針對常規目標檢測。
聚焦到小目標檢測領域,小目標面臨著分辨率低、可提取特征少、樣本數量匱乏及分布不均勻等諸多挑戰,數據增強的重要性愈發顯著。近些年來,出現了一些適用于小目標的數據增強方法(表 1)。Yu等[17]在對數據的處理中,提出了尺度匹配策略,根據不同目標尺寸進行裁剪,縮小不同大小目標之間的差距,從而避免常規縮放操作中小目標信息易丟失的情形。Kisantal等[33]針對小目標覆蓋的面積小、出現位置缺乏多樣性、檢測框與真值框之間的交并比遠小于期望的閾值等問題,提出了一種復制增強的方法,通過在圖像中多次復制粘貼小目標的方式來增加小目標的訓練樣本數,從而提升了小目標的檢測性能。在Kisantal等的基礎上,Chen等[34]在RRNet中提出了一種自適應重采樣策略進行數據增強,這種策略基于預訓練的語義分割網絡對目標圖像進行考慮上下文信息的復制,以解決簡單復制過程中可能出現的背景不匹配和尺度不匹配問題,從而達到較好的數據增強效果。Chen等[35]則從小目標數量占比小、自身包含信息少等問題出發,在訓練過程中對圖像進行縮放與拼接,將數據集中的大尺寸目標轉換為中等尺寸目標,中等尺寸目標轉換為小尺寸目標,并在提高中/小尺寸目標的數量與質量的同時也兼顧考慮了計算成本。在針對小目標的特性設計對應的數據增強策略之外,Zoph等[36]超越了目標特性限制,提出了一種通過自適應學習方法例如強化學習選擇最佳的數據增強策略,在小目標檢測上獲得了一定的性能提升。
表1 適用于小目標的5種數據增強方法
Table 1 Five data augmentation methods for small objects
| 1 | 復制增強[33] Artificial augmentation by copy pasting the small objects | 通過對圖像中的小目標的復制與粘貼操作進行數據增強 | 2019 | arXiv | 68 | |
| 2 | 自適應采樣[34] AdaResampling | 在文獻[33]的基礎上,考慮上下文信息進行復制,避免出現尺度不匹配和背景不匹配的問題 | 2019 | ICCV | 10 | |
| 3 | 尺度匹配[17] Scale match | 通過尺度匹配策略對圖像進行尺度變換,用作額外的數據補充 | 2020 | WACV | 14 | |
| 4 | 縮放與拼接[35] Component stitching | 通過縮放拼接操作增加中/小尺寸目標的數量與質量 | 2020 | arXiv | 6 | |
| 5 | 自學習數據增強[36] Learning data augmentation strategies | 通過強化學習選擇最佳數據增強策略 | 2020 | ECCV | 105 | |
數據增強這一策略雖然在一定程度上解決了小目標信息量少、缺乏外貌特征和紋理等問題,有效提高了網絡的泛化能力,在最終檢測性能上獲得了較好的效果,但同時帶來了計算成本的增加。而且在實際應用中,往往需要針對目標特性做出優化,設計不當的數據增強策略可能會引入新的噪聲,損害特征提取的性能,這也給算法的設計帶來了挑戰。
2.2 多尺度學習
小目標與常規目標相比可利用的像素較少,難以提取到較好的特征,而且隨著網絡層數的增加,小目標的特征信息與位置信息也逐漸丟失,難以被網絡檢測。這些特性導致小目標同時需要深層語義信息與淺層表征信息,而多尺度學習將這兩種相結合,是一種提升小目標檢測性能的有效策略。
早期的多尺度檢測有兩個思路。一種是使用不同大小的卷積核通過不同的感受野大小來獲取不同尺度的信息,但這種方法計算成本很高,而且感受野的尺度范圍有限,Simonyan和Zisserman[13]提出使用多個小卷積核代替大卷積核具備巨大優勢后,使用不同大小卷積核的方法逐漸被棄用。之后,Yu等[37]提出的空洞卷積和Dai等[38]提出的可變卷積又為這種通過不同感受野大小獲取不同尺度信息的方法開拓了新的思路。另一種來自于圖像處理領域的思路——圖像金字塔[39],通過輸入不同尺度的圖像,對不同尺度大小的目標進行檢測,這種方法在早期的目標檢測中有所應用[40?41](見圖2(a))。但是,基于圖像金字塔訓練卷積神經網絡模型對計算機算力和內存都有極高的要求。近些年來,圖像金字塔在實際研究應用中較少被使用,僅有文獻[42?43]等方法針對數據集目標尺度差異過大等問題而使用。
圖2 多尺度學習的4種方式
Fig.2 Four ways of multi?scale learning
目標檢測中的經典網絡如Fast R?CNN[24]、Faster R?CNN[44]、SPPNet[45]和R?FCN[46]等大多只是利用了深度神經網絡的最后層來進行預測。然而,由于空間和細節特征信息的丟失,難以在深層特征圖中檢測小目標。在深度神經網絡中,淺層的感受野更小,語義信息弱,上下文信息缺乏,但是可以獲得更多空間和細節特征信息。從這一思路出發,Liu等[47]提出一種多尺度目標檢測算法SSD(Single shot multibox detector),利用較淺層的特征圖來檢測較小的目標,而利用較深層的特征圖來檢測較大的目標,如圖2(b)所示。Cai等[48]針對小目標信息少,難以匹配常規網絡的問題,提出統一多尺度深度卷積神經網絡,通過使用反卷積層來提高特征圖的分辨率,在減少內存和計算成本的同時顯著提升了小目標的檢測性能。
針對小目標易受環境干擾問題,Bell等[49]為提出了ION(Inside?outside network)目標檢測方法,通過從不同尺度特征圖中裁剪出同一感興趣區域的特征,然后綜合這些多尺特征來預測,以達到提升檢測性能的目的。與ION的思想相似,Kong等[50]提出了一種有效的多尺度融合網絡,即HyperNet,通過綜合淺層的高分辨率特征和深層的語義特征以及中間層特征的信息顯著提高了召回率,進而提高了小目標檢測的性能(見圖2(c))。這些方法能有效利用不同尺度的信息,是提升小目標特征表達的一種有效手段。但是,不同尺度之間存在大量重復計算,對于內存和計算成本的開銷較大。
為節省計算資源并獲得更好的特征融合效果,Lin等[51]結合單一特征映射、金字塔特征層次和綜合特征的優點,提出了特征金字塔FPN(Feature Pyramid network)。FPN是目前最流行的多尺度網絡,它引入了一種自底向上、自頂向下的網絡結構,通過將相鄰層的特征融合以達到特征增強的目的(見圖2(d))。在FPN的基礎上,Liang等[52]提出了一種深度特征金字塔網絡,使用具有橫向連接的特征金字塔結構加強小目標的語義特征,并輔以特別設計的錨框和損失函數訓練網絡。為了提高小目標的檢測速度,Cao等[53]提出一種多層次特征融合算法,即特征融合SSD,在SSD的基礎上引入上下文信息,較好地平衡了小目標檢測的速度與精度。但是基于SSD的特征金字塔方法需要從網絡的不同層中抽取不同尺度的特征圖進行預測,難以充分融合不同尺度的特征。針對這一問題,Li和Zhou[54]提出一種特征融合單次多箱探測器,使用一個輕量級的特征融合模塊,聯系并融合各層特征到一個較大的尺度,然后在得到的特征圖上構造特征金字塔用于檢測,在犧牲較少速度的情形下提高了對小目標的檢測性能。針對機場視頻監控中的小目標識別準確率較低的問題,韓松臣等[55]提出了一種結合多尺度特征融合與在線難例挖掘的機場路面小目標檢測方法,該方法采用ResNet?101作為特征提取網絡,并在該網絡基礎上建立了一個帶有上采樣的“自頂向下”的特征融合模塊,以生成語義信息更加豐富的高分辨率特征圖。
最近,多尺度特征融合這一方法又有了新的拓展,如Nayan等[56]針對小目標經過多層網絡特征信息易丟失這一問題,提出了一種新的實時檢測算法,該算法使用上采樣和跳躍連接在訓練過程中提取不同網絡深度的多尺度特征,顯著提高了小目標檢測的檢測精度與速度。Liu等[57]為了降低高分辨率圖像的計算成本,提出了一種高分辨率檢測網絡,通過使用淺層網絡處理高分辨率圖像和深層網絡處理低分辨率圖像,在保留小目標盡可能多的位置信息同時提取了更多的語義信息,在降低計算成本的情形下提升了小目標的檢測性能。Deng等[58]發現雖然多尺度融合可以有效提升小目標檢測性能,但是不同尺度的特征耦合仍然會影響性能,于是提出了一種擴展特征金字塔網絡,使用額外的高分辨率金字塔級專門用于小目標檢測。
總體來說,多尺度特征融合同時考慮了淺層的表征信息和深層的語義信息,有利于小目標的特征提取,能夠有效地提升小目標檢測性能。然而,現有多尺度學習方法在提高檢測性能的同時也增加了額外的計算量,并且在特征融合過程中難以避免干擾噪聲的影響,這些問題導致了基于多尺度學習的小目標檢測性能難以得到進一步提升。
2.3 上下文學習
在真實世界中,“目標與場景”和“目標與目標”之間通常存在一種共存關系,通過利用這種關系將有助于提升小目標的檢測性能。在深度學習之前,已有研究[59]證明通過對上下文進行適當的建模可以提升目標檢測性能,尤其是對于小目標這種外觀特征不明顯的目標。隨著深度神經網絡的廣泛應用,一些研究也試圖將目標周圍的上下文集成到深度神經網絡中,并取得了一定的成效。以下將從基于隱式上下文特征學習和基于顯式上下文推理的目標檢測兩個方面對國內外研究現狀及發展動態進行簡要綜述。
(1)基于隱式上下文特征學習的目標檢測。隱式上下文特征是指目標區域周圍的背景特征或者全局的場景特征。事實上,卷積神經網絡中的卷積操作在一定程度上已經考慮了目標區域周圍的隱式上下文特征。為了利用目標周圍的上下文特征,Li等[60]提出一種基于多尺度上下文特征增強的目標檢測方法,該方法首先在圖像中生成一系列的目標候選區域,然后在目標周圍生成不同尺度的上下文窗口,最后利用這些窗口中的特征來增強目標的特征表示(見圖3(a))。隨后,Zeng等[61]提出一種門控雙向卷積神經網絡,該網絡同樣在目標候選區域的基礎上生成包含不同尺度上下文的支撐區域,不同之處在于該網絡讓不同尺度和分辨率的信息在生成的支撐區域之間相互傳遞,從而綜合學習到最優的特征。為了更好地檢測復雜環境下的微小人臉,Tang等[62]提出一種基于上下文的單階段人臉檢測方法,該方法設計了一種新的上下文錨框,在提取人臉特征的同時考慮了其周圍的上下文信息,例如頭部信息和身體信息。鄭晨斌等[63]提出一種強化上下文模型網絡,該網絡利用雙空洞卷積結構來節省參數量的同時,通過擴大有效感受野來強化淺層上下文信息,并在較少破壞原始目標檢測網絡的基礎上靈活作用于網絡中淺預測層。然而,這些方法大多依賴于上下文窗口的設計或受限于感受野的大小,可能會導致重要上下文信息的丟失。
圖3 上下文在目標檢測中的探索歷程
Fig.3 Exploration of context in object detection
為了更加充分地利用上下文信息,一些方法嘗試將全局的上下文信息融入到目標檢測模型中(見 圖3(b))。對于早期的目標檢測算法,一種常用的集成全局上下文方法是通過構成場景元素的統計匯總,例如Gist[64]。Torralba等[65]提出通過計算全局場景的低級特征和目標的特征描述符的統計相關性來對視覺上下文建模。隨后,Felzenszwalb等[66]提出一種基于混合多尺度可變形部件模型的目標檢測方法。該方法通過引入上下文來對檢測結果進行二次評分,從而進一步提升檢測結果的可靠性。對于目前的基于深度學習的目標檢測算法,主要通過較大的感受野、卷積特征的全局池化或把全局上下文看作一種序列信息3種方式來感知全局上下文。Bell等[49]提出基于循環神經網絡的上下文傳遞方法,該方法利用循環神經網絡從4個方向對整個圖像中的上下文信息進行編碼,并將得到的4個特征圖進行串聯,從而實現對全局上下文的感知。然而,該方法使模型變得復雜,并且模型的訓練嚴重依賴于初始化參數的設置。Ouyang等[67]通過學習圖像的分類得分,并將該得分作為補充的上下文特征來提升目標檢測性能。為了提升候選區域的特征表示,Chen等[68]提出一種上下文微調網絡,該網絡首先通過計算相似度找到與目標區域相關的上下文區域,然后利用這些上下文區域的特征來增強目標區域特征。隨后,Barnea等[69]將上下文的利用視為一個優化問題,討論了上下文或其他類型的附加信息可以將檢測分數提高到什么程度,并表明簡單的共現性關系是最有效的上下文信息。此外,Chen等[70]提出一種層次上下文嵌入框架,該框架可以作為一個即插即用的組件,通過挖掘上下文線索來增強候選區域的特征表達,從而提升最終的檢測性能。最近,張瑞琰等[71]提出了面向光學遙感目標的全局上下文檢測模型,該模型通過全局上下文特征與目標中心點局部特征相結合的方式生成高分辨率熱點圖,并利用全局特征實現目標的預分類。此外,一些方法通過語義分割來利用全局上下文信息。He等[72]提出一種統一的實例分割框架,利用像素級的監督來優化檢測器,并通過多任務的方式聯合優化目標檢測和實例分割模型。盡管通過語義分割可以顯著提高檢測性能,但是像素級的標注是非常昂貴的。鑒于此,Zhao等[73]提出一種生成偽分割標簽的方法,通過利用偽分割標簽來于優化檢測器,并取得了不錯的效果。進一步地,Zhang等[74]提出一種無監督的分割方法,在無像素級的標注下通過聯合優化目標檢測和分割來增強用于目標檢測的特征圖。目前,基于全局上下文的方法在目標檢測上已經取得了較大的進展,但如何從全局場景中找到有利于提升小目標檢測性能的上下文信息仍然是當前的研究難點。
(2)基于顯式上下文推理的目標檢測。顯示上下文推理是指利用場景中明確的上下文信息來輔助推斷目標的位置或類別,例如利用場景中天空區域與目標的上下文關系來推斷目標的類別。上下文關系通常指場景中目標與場景或者目標與目標之間的約束和依賴關系(見圖3(c))。為了利用上下文關系,Chen等[75]提出一種自適應上下文建模和迭代提升的方法,通過將一個任務的輸出作為另一個任務的上下文來提升目標分類和檢測性能。此后,Gupta等[76]提出一種基于空間上下文的目標檢測方法。該方法能夠準確地捕捉到上下文和感興趣目標之間的空間關系,并且有效地利用了上下文區域的外觀特征。進一步地,Liu等[77]提出一種結構推理網絡,通過充分考慮場景上下文和目標之間的關系來提升目標的檢測性能。為了利用先驗知識,Xu等[78]在Faster R?CNN[44]的基礎上提出了一種Reasoning?RCNN,通過構建知識圖譜來編碼上下文關系,并利用先驗的上下文關系來影響目標檢測。Chen等[79]提出了一種空間記憶網絡,空間記憶實質上是將目標實例重新組合成一個偽圖像表示,并將偽圖像表示輸入到卷積神經網絡中進行目標關系推理,從而形成一種順序推理體系結構。在注意力機制的基礎上,Hu等[80]提出一種輕量級目標關系網絡,通過引入不同物體之間的外觀和幾何結構關系來做約束,實現物體之間的關系建模。該網絡無需額外的監督,并且易于嵌入到現有的網絡中,可以有效地過濾冗余框,從而提升目標的檢測性能。
近年來,基于上下文學習的方法得到了進一步發展。Lim等[81]提出一種利用上下文連接多尺度特征的方法,該方法中使用網絡不同深度層級中的附加特征作為上下文,輔以注意力機制聚焦于圖像中的目標,充分利用了目標的上下文信息,進而提升了實際場景中的小目標檢測精度。針對室內小尺度人群檢測面臨的目標特征與背景特征重疊且邊界難以區分的問題,Shen等[82]提出了一種室內人群檢測網絡框架,使用一種特征聚合模塊(Feature aggregation module, FAM)通過融合和分解的操作來聚合上下文特征信息,為小尺度人群檢測提供更多細節信息,進而顯著提升了對于室內小尺度人群的檢測性能。Fu等[83]提出了一種新穎的上下文推理方法,該方法對目標之間的固有語義和空間布局關系進行建模和推斷,在提取小目標語義特征的同時盡可能保留其空間信息,有效解決了小目標的誤檢與漏檢問題。為了提升目標的分類結果,Pato等[84]提出一種基于上下文的檢測結果重打分方法,該方法通過循環神經網絡和自注意力機制來傳遞候選區域之間的信息并生成上下文表示,然后利用得到的上下文來對檢測結果進行二次評估。
基于上下文學習的方法充分利用了圖像中與目標相關的信息,能夠有效提升小目標檢測的性能。但是,已有方法沒有考慮到場景中的上下文信息可能匱乏的問題,同時沒有針對性地利用場景中易于檢測的結果來輔助小目標的檢測。鑒于此,未來的研究方向可以從以下兩個角度出發考慮:(1)構建基于類別語義池的上下文記憶模型,通過利用歷史記憶的上下文來緩解當前圖像中上下文信息匱乏的問題;(2)基于圖推理的小目標檢測,通過圖模型和目標檢測模型的結合來針對性地提升小目標的檢測性能。
2.4 生成對抗學習
生成對抗學習的方法旨在通過將低分辨率小目標的特征映射成與高分辨率目標等價的特征,從而達到與尺寸較大目標同等的檢測性能。前文所提到的數據增強、特征融合和上下文學習等方法雖然可以有效地提升小目標檢測性能,但是這些方法帶來的性能增益往往受限于計算成本。針對小目標分辨率低問題,Haris等[85]提出一種端到端的聯合訓練超分辨率和檢測模型的方法,該方法一定程度上提升了低分辨率目標的檢測性能。但是,這種方法對于訓練數據集要求較高,并且對小目標檢測性能的提升不足。
目前,一種有效的方法是通過結合生成對抗網絡(Generative adversarial network, GAN)[86]來提高小目標的分辨率,縮小小目標與大/中尺度目標之間的特征差異,增強小目標的特征表達,進而提高小目標檢測的性能。在Radford等[87]提出了DCGAN(Deep convolutional GAN)后,計算視覺的諸多任務開始利用生成對抗模型來解決具體任務中面臨的問題。針對訓練樣本不足的問題,Sixt等[88]提出了RenderGAN,該網絡通過對抗學習來生成更多的圖像,從而達到數據增強的目的。為了增強檢測模型的魯棒性,Wang等[89]通過自動生成包含遮擋和變形特征的樣本,以此提高對困難目標的檢測性能。隨后,Li等[90]提出了一種專門針對小目標檢測的感知GAN方法,該方法通過生成器和鑒別器相互對抗的方式來學習小目標的高分辨率特征表示。在感知GAN中,生成器將小目標表征轉換為與真實大目標足夠相似的超分辨表征。同時,判別器與生成器對抗以識別生成的表征,并對生成器施加條件要求。該方法通過生成器和鑒別器相互對抗的方式來學習小目標的高分辨率特征表示。這項工作將小目標的表征提升為“超分辨”表征,實現了與大目標相似的特性,獲得了更好的小目標檢測性能。
近年來,基于GAN對小目標進行超分辨率重建的研究有所發展,Bai等[91]提出了一種針對小目標的多任務生成對抗網絡(Multi?task generative adversarial network, MTGAN)。在MTGAN中,生成器是一個超分辨率網絡,可以將小模糊圖像上采樣到精細圖像中,并恢復詳細信息以便更準確地檢測。判別器是多任務網絡,區分真實圖像與超分辨率圖像并輸出類別得分和邊界框回歸偏移量。此外,為了使生成器恢復更多細節以便于檢測,判別器中的分類和回歸損失在訓練期間反向傳播到生成器中。MTGAN由于能夠從模糊的小目標中恢復清晰的超分辨目標,因此大幅度提升了小目標的檢測性能。進一步地,針對現有的用于小目標檢測的超分辨率模型存在缺乏直接的監督問題,Noh等[92]提出一種新的特征級別的超分辨率方法,該方法通過空洞卷積的方式使生成的高分辨率目標特征與特征提取器生成的低分辨率特征保持相同的感受野大小,從而避免了因感受野不匹配而生成錯誤超分特征的問題。此外,Deng等[58]設計了一種擴展特征金字塔網絡,該網絡通過設計的特征紋理模塊生成超高分辨率的金字塔層,從而豐富了小目標的特征信息。
基于生成對抗模型的目標檢測算法通過增強小目標的特征信息,可以顯著提升檢測性能。同時,利用生成對抗模型來超分小目標這一步驟無需任何特別的結構設計,能夠輕易地將已有的生成對抗模型和檢測模型相結合。但是,目前依舊面臨兩個無法避免的問題:(1)生成對抗網絡難以訓練,不易在生成器和鑒別器之間取得好的平衡;(2)生成器在訓練過程中產生樣本的多樣性有限,訓練到一定程度后對于性能的提升有限。
2.5 無錨機制
錨框機制在目標檢測中扮演著重要的角色。許多先進的目標檢測方法都是基于錨框機制而設計的,但是錨框這一設計對于小目標的檢測極不友好。現有的錨框設計難以獲得平衡小目標召回率與計算成本之間的矛盾,而且這種方式導致了小目標的正樣本與大目標的正樣本極度不均衡,使得模型更加關注于大目標的檢測性能,從而忽視了小目標的檢測。極端情況下,設計的錨框如果遠遠大于小目標,那么小目標將會出現無正樣本的情況。小目標正樣本的缺失,將使得算法只能學習到適用于較大目標的檢測模型。此外,錨框的使用引入了大量的超參,比如錨框的數量、寬高比和大小等,使得網絡難以訓練,不易提升小目標的檢測性能。近些年無錨機制的方法成為了研究熱點,并在小目標檢測上取得了較好效果。
一種擺脫錨框機制的思路是將目標檢測任務轉換為關鍵點的估計,即基于關鍵點的目標檢測方法。基于關鍵點的目標檢測方法主要包含兩個大類:基于角點的檢測和基于中心的檢測。基于角點的檢測器通過對從卷積特征圖中學習到的角點分組來預測目標邊界框。DeNet[93]將目標檢測定義為估計目標4個角點的概率分布,包括左上角、右上角、左下角和右下角(見圖4(a))。首先利用標注數據來訓練卷積神經網絡,然后利用該網絡來預測角點分布。之后,利用角點分布和樸素貝葉斯分類器來確定每個角點對應的候選區域是否包含目標。在DeNet之后,Wang等[94]提出了一種新的使用角點和中心點之間的連接來表示目標的方法,命名為PLN(Point linking network)。PLN首先回歸與DeNet相似的4個角點和目標的中心點,同時通過全卷積網絡預測關鍵點兩兩之間是否相連,然后將角點及其相連的中心點組合起來生成目標邊界框。PLN對于稠密目標和具有極端寬高比率目標表現良好。但是,當角點周圍沒有目標像素時,PLN由于感受野的限制將很難檢測到角點。繼PLN之后,Law等[95]提出了一種新的基于角點的檢測算法,命名為CornerNet。CornerNet將目標檢測問題轉換為角點檢測問題,首先預測所有目標的左上和右下的角點,然后將這些角點進行兩兩匹配,最后利用配對的角點生成目標的邊界框。CornetNet的改進版本——CornerNet?Lite[96],從減少處理的像素數量和減少在每個像素上進行的計算數量兩個角度出發進行改進,有效解決了目標檢測中的兩個關鍵用例:在不犧牲精度的情況下提高效率以及實時效率的準確性。與基于錨框的檢測器相比,CornerNet系列具有更簡潔的檢測框架,在提高檢測效率的同時獲得了更高的檢測精度。但是,該系列仍然會因為錯誤的角點匹配預測出大量不正確的目標邊界框。
圖4 無錨機制的4種形式
Fig.4 Four ways of anchor?free methods
為了進一步提高目標檢測性能,Duan等[97]提出了一種基于中心預測的目標檢測框架,稱為CenterNet(見圖4(b))。CenterNet首先預左上角和右下角的角點以及中心關鍵點,然后通過角點匹配確定邊界框,最后利用預測的中心點消除角點不匹配引起的不正確的邊界框。與CenterNet類似,Zhou等[98]通過對極值點和中心點進行匹配,提出了一種自下而上的目標檢測網絡,稱為ExtremeNet。ExtremeNet首先使用一個標準的關鍵點估計網絡來預測最上面、最下面、最左邊、最右邊的4個極值點和中心點,然后在5個點幾何對齊的情況下對它們進行分組以生成邊界框。但是ExtremeNet和CornerNet等基于關鍵點的檢測網絡都需要經過一個關鍵點分組階段,這降低了算法整體的速度。針對這一問題,Zhou等[99]將目標建模為其一個單點,即邊界框中心點,無需對構建點進行分組或其他后處理操作。然后在探測器使用關鍵點估計來查找中心點,并回歸到所有其他對象屬性,如大小、位置等。這一方法很好地平衡了檢測的精度與速度。
近年來,基于關鍵點的目標檢測方法又有了新的擴展。Yang等[100]提出了一種名為代表點(RepPoints)的檢測方法,提供了更細粒度的表示方式,使得目標可以被更精細地界定。同時,這種方法能夠自動學習目標的空間信息和局部語義特征,一定程度上提升了小目標檢測的精度(見圖4(c))。更進一步地,Kong等[101]受到人眼的中央凹(視網膜中央區域,集中了絕大多數的視錐細胞,負責視力的高清成像)啟發,提出了一種直接預測目標存在的可能性和邊界框坐標的方法,該方法首先預測目標存在的可能性,并生成類別敏感語義圖,然后為每一個可能包含目標的位置生成未知類別的邊界框。由于擺脫了錨框的限制,FoveaBox對于小目標等具有任意橫縱比的目標具備良好的魯棒性和泛化能力,并在檢測精度上也得到了較大提升。與FoveaBox相似,Tian等[102]使用語義分割的思想來解決目標檢測問題,提出了一種基于全卷積的單級目標檢測器FCOS(Fully convolutional one?stage),避免了基于錨框機制的方法中超參過多、難以訓練的問題(見圖4(d))。此外,實驗表明將兩階段檢測器的第一階段任務換成FCOS來實現,也能有效提升檢測性能。而后,Zhu等[103]將無錨機制用于改進特征金字塔中的特征分配問題,根據目標語義信息而不是錨框來為目標選擇相應特征,同時提高了小目標檢測的精度與速度。Zhang等[104]則從基于錨框機制與無錨機制的本質區別出發,即訓練過程中對于正負樣本的定義不同,提出了一種自適應訓練樣本選擇策略,根據對象的統計特征自動選擇正反樣本。針對復雜的場景下小型船舶難以檢測的問題,Fu等[105]提出了一種新的檢測方法——特征平衡與細化網絡,采用直接學習編碼邊界框的一般無錨策略,消除錨框對于檢測性能的負面影響,并使用基于語義信息的注意力機制平衡不同層次的多個特征,達到了最先進的性能。為了更有效地處理無錨框架下的多尺度檢測,Yang等[106]提出了一種基于特殊注意力機制的特征金字塔網絡,該網絡能夠根據不同大小目標的特征生成特征金字塔,進而更好地處理多尺度目標檢測問題,顯著提升了小目標的檢測性能。
2.6 其他優化策略
在小目標檢測這一領域,除了前文所總結的幾個大類外,還有諸多優秀的方法。針對小目標訓練樣本少的問題,Kisantal等[33]提出了一種過采樣策略,通過增加小目標對于損失函數的貢獻,以此提升小目標檢測的性能。除了增加小目標樣本權重這一思路之外,另一種思路則是通過增加專用于小目標的錨框數量來提高檢測性能。Zhang等[107]提出了一種密集錨框策略,通過在一個感受野中心設計多個錨框來提升小目標的召回率。與密集錨框策略相近,Zhang等[108]設計了一種基于有效感受野和等比例區間界定錨框尺度的方法,并提出一種尺度補償錨框匹配策略來提高小人臉目標的召回率。增加錨框數量對于提升小目標檢測精度十分有效,同時也額外增加了巨大的計算成本。Eggert等[109]從錨框尺度的優化這一角度入手,通過推導小目標尺寸之間的聯系,為小目標選擇合適的錨框尺度,在商標檢測上獲得了較好的檢測效果。之后,Wang等[110]提出了一種基于語義特征的引導錨定策略,通過同時預測目標中心可能存在的位置及目標的的尺度和縱橫比,提高了小目標檢測的性能。此外,這種策略可以集成到任何基于錨框的方法中。但是,這些改進沒有實質性地平衡檢測精度與計算成本之間的矛盾。
近些年來,隨著計算資源的增加,越來越多的網絡使用級聯思想來平衡目標漏檢率與誤檢率。級聯這一思想來源已久[111],并在目標檢測領域得到了廣泛的應用。它采用了從粗到細的檢測理念:用簡單的計算過濾掉大多數簡單的背景窗口,然后用復雜的窗口來處理那些更困難的窗口。隨著深度學習時代的到來,Cai等[25]提出了經典網絡Cascade R?CNN,通過級聯幾個基于不同IoU閾值的檢測網絡達到不斷優化預測結果的目的。之后,Li等[112]在Cascade R?CNN的基礎上進行了擴展,進一步提升了小目標檢測性能。受到級聯這一思想的啟發,Liu等[113]提出了一種漸近定位策略,通過不斷增加IoU閾值來提升行人檢測的檢測精度。另外,文獻[114?116]展現了級聯網絡在困難目標檢測上的應用,也一定程度上提升了小目標的檢測性能。
另外一種思路則是分階段檢測,通過不同層級之間的配合平衡漏檢與誤檢之間的矛盾。Chen等[117]提出一種雙重探測器,其中第一尺度探測器最大限度地檢測小目標,第二尺度探測器則檢測第一尺度探測器無法識別的物體。進一步地,Drenkow等[118]設計了一種更加高效的目標檢測方法,該方法首先在低分辨率下檢查整個場景,然后使用前一階段生成的顯著性地圖指導后續高分辨率下的目標檢測。這種方式很好地權衡了檢測精度和檢測速度。此外,文獻[119?121]針對空中視野圖像中的困難目標識別進行了前后景的分割,區分出重要區域與非重要區域,在提高檢測性能的同時也減少了計算成本。
優化損失函數也是一種提升小目標檢測性能的有效方法。Redmon等[26]發現,在網絡的訓練過程中,小目標更容易受到隨機誤差的影響。隨后,他們針對這一問題進行了改進[27],提出一種依據目標尺寸設定不同權重的損失函數,實現了小目標檢測性能的提升。Lin等[122]則針對類別不均衡問題,在RetinaNet中提出了焦距損失,有效解決了訓練過程中存在的前景?背景類不平衡問題。進一步地,Zhang等[123]將級聯思想與焦距損失相結合,提出了Cascade RetinaNet,進一步提高了小目標檢測的精度。針對小目標容易出現的前景與背景不均衡問題,Deng等[58]則提出了一種考慮前景?背景之間平衡的損失函數,通過全局重建損失和正樣本塊損失提高前景與背景的特征質量,進而提升了小目標檢測的性能。
為了權衡考慮小目標的檢測精度和速度,Sun等[124]提出了一種多接受域和小目標聚焦弱監督分割網絡,通過使用多個接收域塊來關注目標及其相鄰背景,并依據不同空間位置設置權重,以達到增強特征可辨識性的目的。此外,Yoo等[125]將多目標檢測任務重新表述為邊界框的密度估計問題,提出了一種混合密度目標檢測器,通過問題的轉換避免了真值框與預測框匹配以及啟發式錨框設計等繁瑣過程,也一定程度上解決了前景與背景不平衡的問題。
3 數據集介紹及性能評估
在常規目標檢測數據集上,現有研究對大/中尺寸的目標已取得了不錯的成效。但是,小目標的檢測仍然是不盡人意的,一方面是由小目標自身特性所導致的的,另一方面是因為常規目標檢測數據集中小目標存在占比少、分布不均勻等問題。接下來本文將按照時間順序簡要介紹現有的小目標數據集(見表2),并在一些公用數據集上對現有算法進行性能評估(見表3~6)。這些數據可供研究人員參考,希望可以為小目標檢測的研究發展貢獻微薄之力。
表2 小目標檢測數據集
Table 2 Small object detection datasets
| BIRDSAI[126] | 行人、動物檢測 | 2020 | WACV | 640×480 | 8 | 164 | ||||
| TinyPerson[17] | 小行人檢測 | 2020 | WACV | 5 | 1 610 | 72.6 | 50 | 50 | ||
| EuroCity Persons[127] | 城市行人檢測 | 2019 | TPAMI | 47 300 | 238 | 60 | 10 | 30 | ||
| WiderPerson[128] | 高密度行人檢測 | 2019 | TMM | 13 382 | 400 | 60 | 7 | 33 | ||
| DOTA[14] | 空中圖像檢測 | 2018 | CVPR | 4 000×4 000 | 1 806 | 188 | 50 | 33 | 17 | |
| NightOwls[129] | 夜間行人檢測 | 2018 | ACCV | 1 024×640 | 4 | 40 | 279 | |||
| DeepScores[19] | 樂譜音符檢測 | 2018 | ICPR | 220×120 | 123 | 30 000 | 80 000 | |||
| Bosch Small Traffic Lights[18] | 小交通燈檢測 | 2017 | ICRA | 1 280×720 | 13 427 | 24 | 38 | 62 | ||
| CityPersons[16] | 行人檢測 | 2017 | CVPR | 5 000 | 25 | 59.50 | 10 | 31.50 | ||
| Tsinghua?Tencent100K[131] | 交通信號燈檢測 | 2016 | CVPR | 2 000×2 000 | 45 | 100 000 | 66.67 | 33.33 | ||
| WIDER FACE[15] | 人臉檢測 | 2016 | CVPR | 32 203 | 393.7 | 40 | 10 | 50 | ||
| MS COCO[1] | 復雜場景下的大型數據集 | 2014 | ECCV | 91 | 328 000 | 50 | 25 | 25 | ||
| Caltech Pedestrian[132] | 行人檢測 | 2012 | TPAMI | 640×480 | 350 | |||||
| Penn?Fudan Database[133] | 行人檢測 | 2007 | ACCV | 170 | 0.3 |
表3 MS COCO 數據集上的簡要性能評估
Table 3 Performance evaluation on MS COCO dataset
| SSD[47] | Res101 | 31.2 | 50.4 | 33.3 | 10.2 | 34.5 | 49.8 | 2016 |
| RetinaNet[122] | Res101?FPN | 39.1 | 59.1 | 42.3 | 21.8 | 42.7 | 50.2 | 2017 |
| FPN[51] | Res101?FPN | 36.2 | 59.1 | 39.0 | 18.2 | 39.0 | 48.2 | 2017 |
| Mask R?CNN[72] | Res101?FPN | 38.2 | 60.3 | 41.7 | 20.1 | 41.1 | 50.2 | 2017 |
| Deformable R?FCN[38] | Aligned?Inception?ResNet | 37.5 | 58.0 | 40.8 | 19.4 | 40.1 | 52.5 | 2017 |
| Cascade R?CNN[25] | Res101?FPN | 42.8 | 62.1 | 46.3 | 23.7 | 45.5 | 55.2 | 2018 |
| YOLOv3[137] | Darknet?53 | 33.0 | 57.9 | 34.4 | 18.3 | 35.4 | 41.9 | 2018 |
| FCOS[102] | ResNeXt?101 | 44.7 | 64.1 | 48.4 | 27.6 | 47.5 | 55.6 | 2019 |
| DCNv2[138] | Res101?DeformableV2 | 46.0 | 67.9 | 50.8 | 27.8 | 49.1 | 59.5 | 2019 |
| TridentNet[139] | Res101 | 42.7 | 63.6 | 46.5 | 23.9 | 46.6 | 56.6 | 2019 |
| Cascade+Rank?NMS[140] | Res101?FPN | 43.2 | 61.8 | 47.0 | 24.6 | 46.2 | 55.4 | 2019 |
| ATSS[104] | ResNeXt?101 + DCN | 50.7 | 68.9 | 56.3 | 33.2 | 52.9 | 62.4 | 2020 |
| TSD[141] | SENet154 + DCN | 51.2 | 71.9 | 56.0 | 33.8 | 54.8 | 64.2 | 2020 |
| Deformable DETR[142] | ResNeXt?101 + DCN | 52.3 | 71.9 | 58.1 | 34.4 | 54.4 | 65.6 | 2020 |
| HCE Cascade R?CNN[70] | Res101?FPN | 46.5 | 65.6 | 50.6 | 27.4 | 49.9 | 59.4 | 2020 |
| EfficientDet[143] | EfficientNet | 55.1 | 74.3 | 59.9 | 2020 | |||
| Scaled?YOLOv4[134] | CSP?P7 | 55.4 | 73.3 | 60.7 | 38.1 | 59.5 | 67.4 | 2020 |
表4 WiderFace數據集上的簡要性能評估
Table 4 Performance evaluation on WIDER FACE dataset
| Faceness?WIDER[144] | 71.3 | 63.4 | 34.5 | 2015 | Face R?FCN[149] | 94.7 | 93.5 | 84.7 | 2017 |
| Faster R?CNN[44] | 84.0 | 72.4 | 34.7 | 2015 | FAN[150] | 95.3 | 94.2 | 88.8 | 2017 |
| MSCNN[15] | 69.1 | 64.0 | 42.4 | 2016 | PSDNN[151] | 60.5 | 60.5 | 39.6 | 2019 |
| MTTCNN[145] | 84.8 | 82.5 | 59.8 | 2016 | FDNet[152] | 95.3 | 94.2 | 88.8 | 2018 |
| CMS?RCNN[146] | 89.9 | 87.4 | 62.4 | 2017 | SRFACE[136] | 94.4 | 93.3 | 87.3 | 2018 |
| HR[147] | 92.5 | 91.0 | 80.6 | 2017 | LSC?CNN[153] | 57.3 | 70.1 | 68.9 | 2020 |
| SSH[148] | 93.1 | 92.1 | 84.5 | 2017 | IENet[135] | 96.1 | 94.7 | 89.6 | 2021 |
| S3FD[108] | 93.7 | 92.4 | 85.2 | 2017 | Crowd?SDNet[154] | 75.8 | 71.0 | 64.4 | 2021 |
表5 TinyPerson數據集上的簡要性能評估
Table 5 Performance evaluation on TinyPerson dataset
| RetinaNet?SM[15] | 88.87 | 71.82 | 77.88 | 98.57 | 48.48 | 63.01 | 69.41 | 5.83 | 2016 |
| RetinaNet[122] | 92.66 | 82.84 | 81.95 | 99.13 | 33.53 | 48.26 | 61.51 | 2.28 | 2017 |
| FPN[51] | 87.57 | 72.56 | 76.59 | 98.39 | 47.35 | 63.18 | 68.43 | 5.83 | 2017 |
| FCOS[102] | 96.28 | 84.16 | 90.34 | 99.56 | 17.90 | 40.54 | 41.95 | 1. 50 | 2019 |
| Libra R?CNN[157] | 89.22 | 74.86 | 82.44 | 98.78 | 44.68 | 62.65 | 64.77 | 6.26 | 2019 |
| Grid R?CNN[158] | 87.96 | 73.16 | 78.27 | 98.21 | 47.14 | 62.48 | 68.89 | 6.38 | 2019 |
| FreeAnchor[159] | 89.66 | 73.88 | 79.61 | 98.78 | 44.26 | 60.28 | 67.06 | 4.35 | 2021 |
| RetinaNet with S?α [155] | 87.73 | 72.82 | 74.85 | 98.57 | 48.34 | 61.73 | 71.18 | 5.34 | 2021 |
表6 Tsinghua?Tencent 100K數據集上的性能評估
Table 6 Performance evaluation on Tsinghua?Tencent 100K dataset
| Fast R?CNN[24] | 56 | 24 | 73 | 86 | 50 | 45 | 50 | 55 | 2015 |
| Faster R?CNN[44] | 50 | 84 | 91 | 24 | 66 | 81 | 2015 | ||
| Zhu et al.[130] | 91 | 87 | 94 | 88 | 88 | 82 | 91 | 91 | 2016 |
| Perceptual GAN[90] | 89 | 96 | 89 | 84 | 91 | 91 | 2017 | ||
| Song et al.[160] | 88 | 93 | 89 | 85 | 91 | 92 | 2019 | ||
| YOLOv3?Final[156] | 92 | 91 | 94 | 89 | 94 | 91 | 96 | 92 | 2020 |
3.1 數據集介紹
(1)BIRDSAI數據集[126]。BIRDSAI寓意鳥的眼睛(bird’s?eye),由Bondi等在WACV 2020(Winter Conference on Applications of Computer Vision 2020)上提出。該數據集使用帶有紅外攝像機的固定翼無人機收集,是第1個覆蓋多個非洲保護區的大型數據集。主要由人類和動物的紅外圖像視頻組成,總共包含10個類別:-1:未知,0:人類,1:大象,2:獅子,3:長頸鹿,4:狗,5:鱷魚,6:河馬,7:斑馬,8:犀牛。其中涉及幾個具有挑戰性的場景,如尺度變化、熱反射導致的背景雜波、大尺度旋轉和運動模糊等。此外,該數據集還包含使用微軟開源的AirSim模擬平臺,即使用非洲熱帶草原的3D模型和TIR相機模型合成的虛擬視頻。隨著航空圖像用于監測/監視場景的普及,該數據集將有助于推動基于航空紅外視頻圖像的目標檢測、目標跟蹤以及領自適應等領域的研究。除了促進相關領域研究外,這個數據集也將有助于野生動物保護,成功的算法可以用來有效計數或跟蹤保護區內的野生動物,進而避免野生動物偷獵。
(2)TinyPerson數據集[17]。隨著深度卷積神經網絡的興起,視覺目標檢測取得了前所未有的進展。然而,在大尺度圖像中檢測小于20像素的極小目標仍然沒有得到很好的研究。對于極小目標的檢測,一方面的挑戰來自于其特征表示微弱,另一方面是復雜背景中存在大量相似特征增加了誤報的風險。為了促進對于極小目標檢測的研究,Yu等提出該數據集——TinyPerson,這是第1個遠距離和大背景下進行人員檢測的基準,為極小目標檢測開辟了一個新的前景方向。該數據集由1 610幅圖像構成,每幅圖像包含超過200個人員,其中目標分為5個類別,共有72 651個手工標注的極小目標。
(3)EuroCity Persons數據集[127]。EuroCity Persons數據集由Braun等提出,該數據集主要為城市交通場景,包含大量種類繁多、準確且詳細的目標,如行人、騎自行車者和其他乘客等。其中圖像由一輛移動車輛在12個歐洲國家的31個城市收集。EuroCity Persons這一數據集包含47 300多張圖像,含有手工標記的超過238 200個人員實例,比以前用于基準測試的人員數據集幾乎大了一個數量級。特別地,該數據集還包含超過211 200條標明人員朝向的注釋。總的來說,該數據集數量大、種類多、細節詳盡,將城市交通場景中的人員注釋提升到了一個新的水平。
(4)WiderPerson數據集[128]。WiderPerson是一個戶外密集行人檢測基準數據集,其中的圖像不局限于交通場景而包含了更廣泛的較擁擠場景。該數據集由13 382張圖像組成,涉及5種類型的注釋,共包含約400K條帶有多種遮擋信息的標注,平均每幅圖像標注29.87個目標,這意味著該數據集包含了各種遮擋下的密集行人。在該數據集中,訓練集、驗證集和測試集由隨機選擇的8 000/1 000/4 382張圖像分別構成。與后文將提到的CityPersons和WIDER FACE數據集相似,WiderPerson數據集不發布測試圖像的標注文件。
(5)DOTA數據集[14]。為了促進“Earth Vision”中的目標檢測研究,Xia等提出了用于航空圖像中目標檢測的大型數據集DOTA。該數據集包含從不同傳感器和平臺上收集的2 806幅航拍圖像。每幅圖像的大小約為4 000像素×4 000像素,包含了各種尺度、方向和形狀的對象。這些DOTA圖像由航拍圖像解譯方面的專家使用15種常見的目標類別進行注釋。完整注釋的DOTA圖像包含188 282個實例,每個實例都由一個任意四邊形標記。
(6)Nighttowls數據集[129]。Nighttowls是一個用于夜間行人檢測的公共數據集。不同于常規的白天場景,夜間的行人檢測,由于存在更復雜的低光照、反射、模糊和變化的圖像對比度等問題,更具挑戰性。該數據集由行業標準相機跨越3個國家,在不同的季節和天氣條件下拍攝,包含40個序列,共279 000幀的夜間影像。所有的圖像都有詳盡的注釋,其中目標類別分為行人、騎自行車者、騎摩托車者和忽略區域4類。此外,注釋匯總還包含了目標的額外屬性,如遮擋、姿勢和難度等,以及用于在多個幀中識別相同對象的跟蹤信息。
(7)DeepScores數據集[19]。DeepScores是由Lukas等提出一個十分特別的小目標數據集,包含高質量的樂譜圖像,由30萬張包含不同形狀和大小音樂符號的圖像組成,共接近一億個小目標,是最大的公共數據集。該數據集中提供了用于目標分類、目標檢測和語義分割的真值標注,而且前10%的類含有整個數據集中85%的標志,可以用來模擬異常檢測中的真實世界數據流。DeepScores通過將對象識別問題置于場景理解的背景下,意圖促進小目標識別領域的研究,同時也對計算機視覺,尤其是光學音樂識別研究提出了相關挑戰。
(8)Bosch小交通燈數據集[18]。Bosch小交通燈數據集是一個基于視覺圖像的交通燈檢測的精準數據集。該數據集由13 427幅分辨率為1 280像素×720像素的攝像機圖像組成,其中包含約24 000個帶標注的交通信號燈。標注信息包括交通燈的邊框以及每個交通燈的當前狀態。該數據集圖像包含攝像機拍攝的原始12位HDR圖像和重構的8位RGB彩色圖像。RGB圖像可用于訓練和測試,但由于原始圖像的壓縮轉換問題,RGB圖像可能顏色異常或包含偽像。
(9)CityPersons數據集[16]。為了更好地訓練數據,CityPersons這一數據集由Zhang等基于Cityscape數據集[130]提出。Cityscape數據集是一個大型數據集,包含來自50個不同城市街道場景中記錄的多種立體視頻序列,除了20 000個弱注釋幀以外,還包含5 000幀高質量像素級注釋。Citypersons數據集基于Cityscapes數據集為27個城市的5 000幅圖像提供了30個視覺類的精細像素級注釋,精細的標注包括人員和車輛的實例標簽。另外來自其他23個城市的20 000張圖片用粗糙的語義標簽標注,沒有實例標簽。
(10)Tsinghua?Tencent 100K數據集[131]。Tsinghua?Tencent 100K是由Zhu等從中國5個城市的騰訊街景全景圖中創建的一個大型交通標志基準。該數據集由100 000幅分辨率為2 048像素×2 048像素的圖像組成,涵蓋了不同光線和天氣狀況。在該數據集中,包含3萬個交通標志實例,45個類別,其中每個交通標志都帶有一個類別標簽、邊界框以及像素蒙版。此外,Tsinghua?Tencent 100K這一基準使用與MS COCO基準相同的檢測指標進行性能評估。
(11)WIDER FACE數據集[15]。WIDER FACE是由香港中文大學發布的大型人臉數據集,包含32 203圖像,393 703標注人臉,涉及問題全面,難度較大。該數據集中以60個事件類別為基礎進行劃分,每個事件類別中隨機選擇40%/10%/50%的數據分別作為訓練集/驗證集/測試集。WIDER FACE考慮到通用目標的檢測率和人眼的辨別能力,以圖像的高將人臉分成3個尺度:小(10~50像素)、中(50~300像素)、大(大于300像素)。除尺度之外,該數據集中還標注了遮擋和姿態等信息用于對事件進行描述,并將事件分為了簡單、中等、困難3類。
(12)MS COCO數據集[1]。MS COCO的全稱是Microsoft Common Objects in Context,起源于微軟于2014年出資標注的Microsoft COCO數據集,與ImageNet競賽一樣,被視為是計算機視覺領域最受關注和最權威的比賽之一。其中包括91類目標,328 000幅圖像和2 500 000個標簽。該數據集通過大量使用Amazon Mechanical Turk來收集數據,以場景理解為目標,主要從復雜的日常場景中截取。圖像中的目標通過精確的分割標注進行位置的標定。現在有3種標注類型:目標實例、目標上的關鍵點和看圖說話。
(13)Caltech行人檢測數據集[132]。Dollar等提出的Caltech行人檢測基準提供25萬幀分辨率為640像素×480像素的圖像序列,這些序列主要在城市環境中拍攝。Caltech數據集中注釋了350 000個邊界框和2 300個獨立行人,包括邊界框和詳細的遮擋標簽之間的時間對應關系,比同年的其他任何數據集都大兩個數量級。此外,該數據集包含彩色視頻序列,并包含了比典型行人數據集尺度范圍更大、姿態變化更多的行人,也是第一個將邊界框與詳細遮擋時間對應的數據集。
(14)Penn?Fudan行人檢測與分割數據庫[133]。Penn?Fudan Database是由Wang等提出的1個圖像數據庫,由用于行人檢測的圖像組成。該圖像數據庫中包含170張取自校園周圍和城市街道場景的圖片,其中96張來自賓夕法尼亞大學周圍,74張來自復旦大學周圍。這些圖片中共有345個帶有標記的行人,而且每張圖片中至少有一個行人。在Penn?Fudan Database中,所有帶標記的行人都是直立行走姿態,行人的高度范圍為180~390像素。
3.2 性能評估
為了便于研究人員更好地了解小目標的發展現狀,本文在幾個常用的小目標數據集上對現有算法的性能進行了評估。
(1)MS COCO數據集。表3給出了較為先進的檢測算法在COCO數據數據集上的檢測結果。其中,AP
表示平均精準率(Average precision),AP50、AP75分別表示IoU設為0.5、0.75時的平均精準率,APS、APM、APL
分別表示小目標、中等尺寸目標、大尺寸目標的平均精準率。可以發現,大目標的檢測性能是遠遠高于小目標的,小目標的檢測性能只有大目標的一半。在所有比較算法中,Scaled?YOLOv4[134]取了最好的檢測性能,將小目標的檢測性能提升到了38.1%。Scaled?YOLOv4的成功主要歸功于大量先進思想的集合,包括數據增強、特征融合、上下文學習和多尺度學習等。
(2)WIDER FACE數據集。表4給出了較為先進的檢測算法在WIDER FACE數據集上的檢測結果。在這些比較的算法中,IENet[135]取得了最好的檢測性能,在Easy、Medium和Hard測試集上的AP分別為96.1%、94.7%和89.6%。在IENet中,特征融合和上下文被得到了充分利用。SRFACE(Super resolving face)[136]通過利用超分的思想也取得了不錯的檢測效果,在Hard測試集上的AP能達到87.3%。
(3)TinyPerson數據集。表5給出了較為先進的檢測算法在TinyPerson數據數據集上的檢測結果。其中,MRsamll50
表示小目標在IoU設置為0.5時的漏檢率(Miss rate),MRtiny50、MRtiny25、MRtiny75分別表示極小目標在IoU設置為0.5、0.25、0.75時的漏檢率;APsamll50表示小目標在IoU設置為0.5時的平均精確率,APtiny50、APtiny25、APtiny75分別表示極小目標在IoU設置為0.5、0.25、0.75時的平均精確率。在這些比較的算法中,FCOS[102]在MRtiny50上以96.28%取得了最好的檢測結果。盡管如此,在表4中可以發現它在APtiny50上的性能不盡人意,僅有17.90%,完全不能達到實際應用的需求。對于極小目標,RetinaNet with S?α[155]設計一種專門針對極小目標的特征融合的方法,對FPN進行了改進,在APtiny50
上以48.48%取得了最高的檢測精度。
(4)Tsinghua?Tencent 100K數據集。表6給出了較為先進的檢測算法在Tsinghua?Tencent 100K數據數據集上的檢測結果。在這些比較的算法中,YOLOv3?Final[156]取得了最好的檢測性能,在小目標的召回率和精確率上均取得了91%。Perceptual GAN[90]通過生成對抗網絡將小目標的特征映射成與大目標等價的特征,顯著提升了小目標的檢測性能,取得了89%和84%的召回率和精確率。
4 結束語
本文對小目標檢測算法進行了詳盡的回顧,并對已有的算法進行了歸類分析和比較。首先,本文對小目標檢測定義進行了解釋,并對小目標檢測面臨的挑戰進行了分析和總結。然后,本文重點闡述了小目標檢測優化思路,包括數據增強、多尺度學習、上下文學習、生成對抗學習、無錨機制以及其他優化策略等,同時對采用統一思路來提升小目標檢測性能的算法進行了性能比較和分析。最后,本文全面介紹了已有的小目標檢測數據集,并在這些數據集上對現有的算法進行了性能比較和分析。盡管在大數據和深度學習的驅動下,小目標檢測算法得到了快速的發展。但是,小目標的檢測性能仍不能滿足實際應用的需求,還有很多方面值得進一步研究:
(1)特征融合方面。現有的方法通常通過融合深度神經網絡中同層的多尺度特征來提升小目標的特征表達能力。盡管這種方式一定程度提升了小目標的檢測性能,但是在特征融合的過程中沒有考慮到語義間隔和噪聲干擾的問題。因此,如何消除特征融合中的語義間隔和噪聲干擾問題是未來的一個研究方向。
(2)上下文學習方面。盡管上下文在目標檢測中已經得到了充分的重視,并在眾多目標檢測算法中得到了充分利用。但是,場景中并不是所有上下文信息都是有價值的,無效的上下文信息將可能破壞目標區域的原始特征,如何從圖像中挖掘有利于提升小目標區域特征表示的上下文信息是未來的一個研究方向。此外,現有的上下文建模方法對于不同尺度目標是同等對待,并沒有針對小目標而做相應的設計。因此,如何在檢測模型中利用易于檢測目標來輔助小目標的檢測是未來的一個重要研究方向。
(3)超分辨率重構方面。盡管已有一些方法通過生成對抗的方式來提升小目標的特征,以此獲得與大目標等價的特征表示,并取得了一定的成效。但是,這一類方法研究還尚少,仍有較大的研究空間。超分辨率重構是一種最直接的、可解釋的提升小目標檢測性能的方法。如何將超分辨率重構中先進技術與目標檢測技術深度結合是未來的一個可行研究思路。
參考文獻
1
LIN T Y, MAIRE M, BELONGIE S, et al. Microsoft COCO: Common objects in context[C]//Proceedings of European Conference on Computer Vision. Cham: Springer, 2014: 740?755. [百度學術]?
2
ZOU Z,SHI Z,GUO Y,et al.Object detection in 20 years: A survey[EB/OL].(2019?05?13)[2019?05?16].https://arxiv.org/abs/1905.05055. [百度學術]?
3
OKSUZ K,CAM B C,KALKAN S,et al.Imbalance problems in object detection: A review[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2020.DOI:10.1109/TPAMI.2020.2981890. [百度學術]?
4
ZHAO Z Q,ZHENG P,XU S,et al.Object detection with deep learning: A review[J].IEEE Transactions on Neural Networks and Learning Systems,2019,30(11): 3212?3232. [百度學術]?
5
AGARWAL S,TERRAIL J O D,JURIE F.Recent advances in object detection in the age of deep convolutional neural networks[EB/OL].(2018?09?10)[2019?08?20].https://arxiv.org/abs/1809.03193. [百度學術]?
6
CHEN G,WANG H,CHEN K,et al.A survey of the four pillars for small object detection: Multiscale representation, contextual information, super?resolution, and region proposal[J].IEEE Transactions on Systems, Man, and Cybernetics: Systems,2020,99: 1?18. [百度學術]?
7
TONG K,WU Y,ZHOU F.Recent advances in small object detection based on deep learning: A review[J].Image and Vision Computing,2020,97: 103910. [百度學術]?
8
LIU Y,SUN P,WERGELES N,et al.A survey and performance evaluation of deep learning methods for small object detection[J].Expert Systems with Applications,2021,172(4): 114602. [百度學術]?
9
梁鴻,王慶瑋,張千,等.小目標檢測技術研究綜述[J].計算機工程與應用,2021,57(1): 17?28. [百度學術]?
LIANG Hong,WANG Qingwei,ZHANG Qian,et al.Small object detection technology: A review[J].Computer Engineering and Applications,2021,57(1): 17?28. [百度學術]?
10
劉穎,劉紅燕,范九倫,等.基于深度學習的小目標檢測研究與應用綜述[J].電子學報,2019,48(3): 590?601. [百度學術]?
LIU Ying,LIU Hongyan,FAN Jiulun,et al.A survey of research and application of small object detection based on deep learning[J].Acta Electronica Sinica,2019,48(3): 590?601. [百度學術]?
11
CHEN C, LIU M Y, TUZEL O, et al. R?CNN for small object detection[C]//Proceeding of Asian Conference on Computer Vision. Cham: Springer, 2016: 214?230. [百度學術]?
12
TORRALBA A,FERGUS R,FREEMAN W T. 80 million tiny images: A large data set for nonparametric object and scene recognition[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2008,30(11): 1958?1970. [百度學術]?
13
SIMONYAN K,ZISSERMAN A.Very deep convolutional networks for large?scale image recognition[EB/OL].(2014?09?04)[2015?04?10]. https://arxiv.org/abs/1409.1556. [百度學術]?
14
XIA G S, BAI X, DING J, et al. DOTA: A large?scale dataset for object detection in aerial images[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE,2018: 3974?3983. [百度學術]?
15
YANG S, LUO P, LOY C C, et al. Wider face: A face detection benchmark[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE,2016: 5525?5533. [百度學術]?
16
ZHANG S, BENENSON R, SCHIELE B. Citypersons: A diverse dataset for pedestrian detection[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2017: 3213?3221. [百度學術]?
17
YU X, GONG Y, JIANG N, et al. Scale match for tiny person detection[C]// Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision. Los Alamitos: IEEE,2020: 1257?1265. [百度學術]?
18
BEHRENDT K, NOVAK L, BOTROS R. A deep learning approach to traffic lights: Detection, tracking, and classification[C]// 2017 IEEE International Conference on Robotics and Automation (ICRA). Singapore: IEEE, 2017: 1370?1377. [百度學術]?
19
LUKAS T, ELEZI I, SCHMIDHUBER J, et al. Deepscores-a dataset for segmentation, detection and classification of tiny objects[C]//Proceedings of 2018 24th International Conference on Pattern Recognition (ICPR). New York: IEEE, 2018: 3704?3709. [百度學術]?
20
YAEGER L,LYON R,WEBB B.Effective training of a neural network character classifier for word recognition[J].Advances in Neural Information Processing Systems,1996,9: 807?816. [百度學術]?
21
SIMARD P Y, STEINKRAUS D, PLATT J C. Best practices for convolutional neural networks applied to visual document analysis[C]//Proceedings of ICDAR. [S.l.]: IEEE, 2003, 3(2003). [百度學術]?
22
KRIZHEVSKY A, SUTSKEVER I, HINTON G E.Imagenet classification with deep convolutional neural networks[J].Advances in Neural Information Processing Systems,2012,25: 1097?1105. [百度學術]?
23
WAN L, ZEILER M, ZHANG S, et al. Regularization of neural networks using dropconnect[C]//Proceedings of International Conference on Machine Learning. [S.l.]: PMLR, 2013: 1058?1066. [百度學術]?
24
GIRSHICK R. Fast R?CNN[C]// Proceedings of the IEEE International Conference on Computer Vision. New York: IEEE, 2015: 1440?1448. [百度學術]?
25
CAI Z, VASCONCELOS N. Cascade R?CNN: Delving into high quality object detection[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2018: 6154?6162. [百度學術]?
26
REDMON J, DIVVALA S, GIRSHICK R, et al. You only look once: Unified, real?time object detection[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2016: 779?788. [百度學術]?
27
REDMON J, FARHADI A. YOLO9000: Better, faster, stronger[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2017: 7263?7271. [百度學術]?
28
DEVRIES T,TAYLOR G W.Improved regularization of convolutional neural networks with cutout[EB/OL].(2017?08?15)[2017?11?29].https://arxiv.org/abs/1708.04552. [百度學術]?
29
ZHANG H,CISSE M,DAUPHIN Y N,et al.Mixup: Beyond empirical risk minimization[EB/OL].(2017?10?25)[2018?04?27].https://arxiv.org/abs/1710.09412. [百度學術]?
30
YUN S, HAN D, OH S J, et al. Cutmix: Regularization strategy to train strong classifiers with localizable features[C]// Proceedings of the IEEE/CVF International Conference on Computer Vision. New York: IEEE, 2019: 6023?6032. [百度學術]?
31
BOCHKOVSKIY A,WANG C Y,LIAO H Y M.Yolov4: Optimal speed and accuracy of object detection[EB/OL].(2020?04?23)[2020?04?23].https://arxiv.org/abs/2004.10934. [百度學術]?
32
GONG C,WANG D,LI M,et al.KeepAugment: A simple information?preserving data augmentation approach[EB/OL].(2020?11?23)[2020?11?23].https://arxiv.org/abs/2011.11778. [百度學術]?
33
KISANTAL M,WOJNA Z,MURAWSKI J,et al. Augmentation for small object detection[EB/OL].(2019?02?19)[2019?02?19]. https://arxiv.org/abs/1902.07296. [百度學術]?
34
CHEN C, ZHANG Y, LV Q, et al. RRNet: A hybrid detector for object detection in drone?captured images[C]// Proceedings of the IEEE/CVF International Conference on Computer Vision Workshops. Los Alamitos: IEEE, 2019: 100?108. [百度學術]?
35
CHEN Y,ZHANG P,LI Z,et al.Stitcher: Feedback?driven data provider for object detection[EB/OL].(2020?04?26)[2021?03?14]. https://arxiv.org/abs/2004.12432. [百度學術]?
36
ZOPH B, CUBUK E D, GHIASI G, et al. Learning data augmentation strategies for object detection[C]//Proceedings of European Conference on Computer Vision. Cham: Springer, 2020: 566?583. [百度學術]?
37
YU F,KOLTUN V.Multi?scale context aggregation by dilated convolutions[EB/OL].(2015?11?23)[2016?04?30].https://arxiv.org/abs/1511.07122. [百度學術]?
38
DAI J, QI H, XIONG Y, et al.Deformable convolutional networks[C]// Proceedings of the IEEE International Conference on Computer Vision. New York: IEEE, 2017: 764?773. [百度學術]?
39
ADELSON E H,ANDERSON C H,BERGEN J R,et al.Pyramid methods in image processing[J].RCA Engineer,1984,29(6): 33?41. [百度學術]?
40
LOWE D G.Distinctive image features from scale?invariant keypoints[J].International Journal of Computer Vision,2004,60(2): 91?110. [百度學術]?
41
DALAL N, TRIGGS B. Histograms of oriented gradients for human detection[C]//Proceedings of IEEE Computer Society Conference on Computer Vision & Pattern Recognition. [S.l.]: IEEE, 2005. [百度學術]?
42
SINGH B, DAVIS L S. An analysis of scale invariance in object detection snip[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2018: 3578?3587. [百度學術]?
43
SINGH B,NAJIBI M,DAVIS L S.Sniper: Efficient multi?scale training[EB/OL].(2018?05?23)[2018?12?13].https://arxiv.org/abs/1805.09300. [百度學術]?
44
REN S,HE K,GIRSHICK R,et al.Faster R?CNN: Towards real?time object detection with region proposal networks[EB/OL].(2015?06?04)[2016?01-06].https://arxiv.org/abs/1506.01497. [百度學術]?
45
HE K,ZHANG X,REN S,et al.Spatial pyramid pooling in deep convolutional networks for visual recognition[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2015,37(9): 1904-1916. [百度學術]?
46
DAI J, LI Y, HE K, et al.R-FCN: Object detection via region-based fully convolutional networks[EB/OL].(2016-05-20)[2016-06-21].https://arxiv.org/abs/1605.06409. [百度學術]?
47
LIU W, ANGUELOV D, ERHAN D, et al. SSD: Single shot multibox detector[C]//Proceedings of European Conference on Computer Vision. Cham: Springer, 2016: 21-37. [百度學術]?
48
CAI Z, FAN Q, FERIS R S, et al. A unified multi-scale deep convolutional neural network for fast object detection[C]//Proceedings of European Conference on Computer Vision. Cham: Springer, 2016: 354-370. [百度學術]?
49
BELL S, ZITNICK C L, BALA K, et al. Inside-outside net: Detecting objects in context with skip pooling and recurrent neural networks[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2016: 2874-2883. [百度學術]?
50
KONG T, YAO A, CHEN Y, et al. Hypernet: Towards accurate region proposal generation and joint object detection[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2016: 845-853. [百度學術]?
51
LIN T Y, DOLLáR P, GIRSHICK R, et al. Feature pyramid networks for object detection[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2017: 2117-2125. [百度學術]?
52
LIANG Z, SHAO J, ZHANG D, et al. Small object detection using deep feature pyramid networks[C]//Proceedings of Pacific Rim Conference on Multimedia. Cham: Springer, 2018: 554-564. [百度學術]?
53
CAO G, XIE X, YANG W, et al. Feature-fused SSD: Fast detection for small objects[C]//Proceedings of Ninth International Conference on Graphic and Image Processing (ICGIP 2017). Bellingham: SPIE-int SOC Optical Engineering, 2018: 106151E. [百度學術]?
54
LI Z,ZHOU F.FSSD: Feature fusion single shot multibox detector[EB/OL].(2017-12-04)[2018-05-17].https://arxiv.org/abs/1712.00960. [百度學術]?
55
韓松臣,張比浩,李煒,等.基于改進Faster-RCNN的機場場面小目標物體檢測算法[J].南京航空航天大學學報,2019,51(6):735-741. [百度學術]?
HAN Songchen,ZHANG Bihao,LI Wei,et al.Small target detection in airport scene via modified faster?RCNN[J].Journal of Nanjing University of Aeronautics & Astronautics,2019,51(6): 735-741. [百度學術]?
56
NAYAN A A,SAHA J,MOZUMDER A N,et al.Real time detection of small objects[EB/OL].(2020-03-17)[2020-04-14].https://arxiv.org/abs/2003.07442. [百度學術]?
57
LIU Z,GAO G,SUN L,et al.HRDNet: High-resolution detection network for small objects[EB/OL].(2020-06-13)[2020-06-13].https://arxiv.org/abs/2006.07607. [百度學術]?
58
DENG C,WANG M,LIU L,et al.Extended feature pyramid network for small object detection[EB/OL].(2020-05-16)[2020-04-09].https://arxiv.org/abs/2003.07021. [百度學術]?
59
OLIVA A,TORRALBA A.The role of context in object recognition[J].Trends in Cognitive Sciences,2007,11(12): 520-527. [百度學術]?
60
LI J,WEI Y,LIANG X,et al.Attentive contexts for object detection[J].IEEE Transactions on Multimedia,2016,19(5): 944-954. [百度學術]?
61
ZENG X,OUYANG W,YAN J,et al.Crafting gbd-net for object detection[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2017,40(9): 2109-2123. [百度學術]?
62
TANG X, DU D K, HE Z, et al. Pyramidbox: A context-assisted single shot face detector[C]// Proceedings of the European Conference on Computer Vision (ECCV). Cham: Springer, 2018: 797-813. [百度學術]?
63
鄭晨斌,張勇,胡杭,等.目標檢測強化上下文模型[J].浙江大學學報(工學版),2020,54(3):529-539. [百度學術]?
ZHENG Chenbin,ZHANG Yong,HU Hang,et al.Object detection enhanced context model[J].Journal of Zhejiang University (Engineering Science),2020,54(3): 529-539. [百度學術]?
64
DIVVALA S K, HOIEM D, HAYS J H, et al. An empirical study of context in object detection[C]//Proceedings of 2009 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2009: 1271-1278. [百度學術]?
65
TORRALBA A, SINHA P. Statistical context priming for object detection[C]// Proceedings of the Eighth IEEE International Conference on Computer Vision. New York: IEEE, 2001: 763-770. [百度學術]?
66
FELZENSZWALB P F,GIRSHICK R B,MCALLESTER D,et al.Object detection with discriminatively trained part-based models[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2009,32(9): 1627-1645. [百度學術]?
67
OUYANG W, WANG X, ZENG X, et al. Deepid-net: Deformable deep convolutional neural networks for object detection[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2015: 2403-2412. [百度學術]?
68
CHEN Z, HUANG S, TAO D. Context refinement for object detection[C]// Proceedings of the European Conference on Computer Vision (ECCV). Cham: Springer, 2018: 71-86. [百度學術]?
69
BARNEA E, BEN-SHAHAR O. Exploring the bounds of the utility of context for object detection[C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2019: 7412-7420. [百度學術]?
70
CHEN Z M, JIN X, ZHAO B, et al. Hierarchical context embedding for region-based object detection[C]//Proceedings of European Conference on Computer Vision. Cham: Springer, 2020: 633-648. [百度學術]?
71
張瑞琰,姜秀杰,安軍社,等.面向光學遙感目標的全局上下文檢測模型設計[J].中國光學,2020,13(73): 138-149. [百度學術]?
ZHANG Ruiyan,JIANG Xiujie,AN Junshe, et al.Design of global-contextual detection model for optical remote sensing targets[J].Chinese Optics,2020,13(73): 138-149. [百度學術]?
72
HE K, GKIOXARI G, DOLLáR P, et al. Mask R-CNN[C]// Proceedings of the IEEE International Conference on Computer Vision. New York: IEEE, 2017: 2961-2969. [百度學術]?
73
ZHAO X, LIANG S, WEI Y. Pseudo mask augmented object detection[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2018: 4061-4070. [百度學術]?
74
ZHANG Z, QIAO S, XIE C, et al. Single-shot object detection with enriched semantics[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2018: 5813-5821. [百度學術]?
75
CHEN Q,SONG Z,DONG J,et al.Contextualizing object detection and classification[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2014,37(1): 13-27. [百度學術]?
76
GUPTA S,HARIHARAN B,MALIK J.Exploring person context and local scene context for object detection[EB/OL].(2015-11-25)[2015-11-25].https://arxiv.org/abs/1511.08177. [百度學術]?
77
LIU Y, WANG R, SHAN S, et al. Structure inference net: Object detection using scene-level context and instance-level relationships[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2018: 6985-6994. [百度學術]?
78
XU H, JIANG C H, LIANG X, et al. Reasoning-RCNN: Unifying adaptive global reasoning into large-scale object detection[C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2019: 6419-6428. [百度學術]?
79
CHEN X, GUPTA A. Spatial memory for context reasoning in object detection[C]// Proceedings of the IEEE International Conference on Computer Vision. New York: IEEE, 2017: 4086-4096. [百度學術]?
80
HU H, GU J, ZHANG Z, et al. Relation networks for object detection[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2018: 3588-3597. [百度學術]?
81
LIM J S,ASTRID M,Yoon H J,et al.Small object detection using context and attention[EB/OL].(2019-12-13)[2019-12-16].https://arxiv.org/abs/1912.06319. [百度學術]?
82
SHEN W, QIN P, ZENG J. An indoor crowd detection network framework based on feature aggregation module and hybrid attention selection module[C]// Proceedings of the IEEE/CVF International Conference on Computer Vision Workshops. Los Alamitos:IEEE, 2019: 82-90. [百度學術]?
83
FU K,LI J,MA L,et al.Intrinsic relationship reasoning for small object detection[EB/OL].(2020-09-02)[2020-09-02].https://arxiv.org/abs/2009.00833. [百度學術]?
84
PATO L V, NEGRINHO R, AGUIAR P M Q. Seeing without looking: Contextual rescoring of object detections for ap maximization[C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2020: 14610-14618. [百度學術]?
85
HARIS M,SHAKHNAROVICH G,UKITA N.Task-driven super resolution: Object detection in low-resolution images[EB/OL].(2018-03-30)[2018-03-30].https://arxiv.org/abs/1803.11316. [百度學術]?
86
GOODFELLOW I J,POUGET-ABADIE J,MIRZA M,et al.Generative adversarial networks[EB/OL].(2014-06-10)[2014-06-10].https://arxiv.org/abs/1406.2661. [百度學術]?
87
RADFORD A,METZ L,CHINTALA S.Unsupervised representation learning with deep convolutional generative adversarial networks[EB/OL].(2015-11-19)[2016-01-07].https://arxiv.org/abs/1511.06434. [百度學術]?
88
SIXT L,WILD B,LANDGRAF T.Rendergan: Generating realistic labeled data[J].Frontiers in Robotics and AI,2018,5: 66. [百度學術]?
89
WANG X, SHRIVASTAVA A, GUPTA A. A-fast-RCNN: Hard positive generation via adversary for object detection[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2017: 2606-2615. [百度學術]?
90
LI J, LIANG X, WEI Y, et al. Perceptual generative adversarial networks for small object detection[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2017: 1222-1230. [百度學術]?
91
BAI Y, ZHANG Y, DING M, et al. SOD-MTGAN: Small object detection via multi-task generative adversarial network[C]// Proceedings of the European Conference on Computer Vision (ECCV). Cham: Springer, 2018: 206-221. [百度學術]?
92
NOH J, BAE W, LEE W, et al. Better to follow, follow to be better: Towards precise supervision of feature super-resolution for small object detection[C]// Proceedings of the IEEE/CVF International Conference on Computer Vision. New York: IEEE, 2019: 9725-9734. [百度學術]?
93
TYCHSEN-SMITH L, PETERSSON L. Denet: Scalable real-time object detection with directed sparse sampling[C]// Proceedings of the IEEE International Conference on Computer Vision. New York: IEEE, 2017: 428-436. [百度學術]?
94
WANG X,CHEN K,HUANG Z, et al.Point linking network for object detection[EB/OL].(2017-06-12)[2017-06-13].https://arxiv.org/abs/1706.03646. [百度學術]?
95
LAW H, DENG J. Cornernet: Detecting objects as paired keypoints[C]// Proceedings of the European Conference on Computer Vision (ECCV). Cham: Springer, 2018: 734-750. [百度學術]?
96
LAW H,TENG Y,RUSSAKOVSKY O, et al.Cornernet-lite: Efficient keypoint based object detection[EB/OL].(2017-06-12)[2017-06-13].https://arxiv.org/abs/1706.03646. [百度學術]?
97
DUAN K, BAI S, XIE L, et al. Centernet: Keypoint triplets for object detection[C]// Proceedings of the IEEE/CVF International Conference on Computer Vision. New York: IEEE, 2019: 6569-6578. [百度學術]?
98
ZHOU X, ZHUO J, KRAHENBUHL P. Bottom-up object detection by grouping extreme and center points[C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2019: 850-859. [百度學術]?
99
ZHOU X,WANG D,KR?HENBüHL P.Objects as points[EB/OL].(2019-04-16)[2019-04-25].https://arxiv.org/abs/1904.07850. [百度學術]?
100
YANG Z, LIU S, HU H, et al. Reppoints: Point set representation for object detection[C]// Proceedings of the IEEE/CVF International Conference on Computer Vision. New York: IEEE, 2019: 9657-9666. [百度學術]?
101
KONG T,SUN F,LIU H,et al.Foveabox: Beyound anchor-based object detection[J].IEEE Transactions on Image Processing,2020,29: 7389-7398. [百度學術]?
102
TIAN Z, SHEN C, CHEN H, et al. Fcos: Fully convolutional one-stage object detection[C]// Proceedings of the IEEE/CVF International Conference on Computer Vision. New York: IEEE, 2019: 9627-9636. [百度學術]?
103
ZHU C, HE Y, SAVVIDES M. Feature selective anchor-free module for single-shot object detection[C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2019: 840-849. [百度學術]?
104
ZHANG S, CHI C, YAO Y, et al. Bridging the gap between anchor-based and anchor-free detection via adaptive training sample selection[C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2020: 9759-9768. [百度學術]?
105
FU J,SUN X,WANG Z,et al.An anchor-free method based on feature balancing and refinement network for multiscale ship detection in SAR images[J].IEEE Transactions on Geoscience and Remote Sensing,2020, 59(2): 1331-1344. [百度學術]?
106
YAN J, ZHAO L, DIAO W, et al.AF-EMS detector: Improve the multi-scale detection performance of the anchor-free detector[J].Remote Sensing,2021,13(2): 160. [百度學術]?
107
ZHANG S, ZHU X, LEI Z, et al. Faceboxes: A CPU real-time face detector with high accuracy[C]//Proceedings of 2017 IEEE International Joint Conference on Biometrics (IJCB). New York: IEEE, 2017: 1-9. [百度學術]?
108
ZHANG S, ZHU X, LEI Z, et al. S3FD: Single shot scale-invariant face detector[C]// Proceedings of the IEEE International Conference on Computer Vision. New York: IEEE, 2017: 192-201. [百度學術]?
109
EGGERT C, ZECHA D, BREHM S, et al. Improving small object proposals for company logo detection[C]// Proceedings of the 2017 ACM on International Conference on Multimedia Retrieval. New York: Assoc Computing Machinery, 2017: 167-174. [百度學術]?
110
WANG J, CHEN K, YANG S, et al. Region proposal by guided anchoring[C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2019: 2965-2974. [百度學術]?
111
VIOLA P, JONES M. Rapid object detection using a boosted cascade of simple features[C]// Proceedings of the 2001 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. CVPR 2001. New York: IEEE, 2001: 1-9. [百度學術]?
112
LI A,YANG X,ZHANG C.Rethinking classification and localization for cascade R-CNN[EB/OL].(2019-07-27)[2019-07-27].https://arxiv.org/abs/1907.11914. [百度學術]?
113
LIU W, LIAO S, HU W, et al. Learning efficient single-stage pedestrian detectors by asymptotic localization fitting[C]// Proceedings of the European Conference on Computer Vision (ECCV). Cham: Springer, 2018: 618-634. [百度學術]?
114
YANG B, YAN J, LEI Z, et al. Craft objects from images[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2016: 6043-6051. [百度學術]?
115
YANG F, CHOI W, LIN Y. Exploit all the layers: Fast and accurate CNN object detector with scale dependent pooling and cascaded rejection classifiers[C]// Proceedings of the IEEE conference on computer vision and pattern recognition. New York: IEEE, 2016: 2129-2137. [百度學術]?
116
GAO M, YU R, LI A, et al. Dynamic zoom-in network for fast object detection in large images[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2018: 6926-6935. [百度學術]?
117
CHEN S,LI J,YAO C,et al.DuBox: No-prior box objection detection via residual dual scale detectors[EB/OL].(2019-04-15)[2019-04-16].https://arxiv.org/abs/1904.06883. [百度學術]?
118
DRENKOW N,BURLINA P,FENDLEY N,et al.Objectness-guided open set visual search and closed set detection[EB/OL].(2020-12-11)[2021-04-14].https://arxiv.org/abs/2012.06509. [百度學術]?
119
YANG F, FAN H, CHU P, et al. Clustered object detection in aerial images[C]// Proceedings of the IEEE/CVF International Conference on Computer Vision. New York: IEEE, 2019: 8311-8320. [百度學術]?
120
ZHANG J, HUANG J, CHEN X, et al. How to fully exploit the abilities of aerial image detectors[C]// Proceedings of the IEEE/CVF International Conference on Computer Vision Workshops. Los Alamitos:IEEE, 2019: 1-8. [百度學術]?
121
LI C, YANG T, ZHU S, et al. Density map guided object detection in aerial images[C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops. Los Alamitos:IEEE, 2020: 190-191. [百度學術]?
122
LIN T Y, GOYAL P, GIRSHICK R, et al. Focal loss for dense object detection[C]// Proceedings of the IEEE International Conference on Computer Vision. New York: IEEE, 2017: 2980-2988. [百度學術]?
123
ZHANG H,CHANG H,MA B,et al.Cascade retinanet: Maintaining consistency for single-stage object detection[EB/OL].(2019-07-16)[2019-07-16].https://arxiv.org/abs/1907.06881. [百度學術]?
124
SUN S,YIN Y,WANG X,et al.Multiple receptive fields and small-object-focusing weakly-supervised segmentation network for fast object detection[EB/OL].(2019-04-19)[2019-05-22].https://arxiv.org/abs/1904.12619. [百度學術]?
125
YOO J,LEE H,CHUNG I,et al.Density-based object detection: Learning bounding boxes without ground truth assignment[EB/OL].(2019-11-28)[2020-10-04].https://arxiv.org/abs/1911.12721. [百度學術]?
126
BONDI E, JAIN R, AGGRAWAL P, et al. Birdsai: A dataset for detection and tracking in aerial thermal infrared videos[C]// Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision. Los Alamitos:IEEE, 2020: 1747-1756. [百度學術]?
127
BRAUN M,KREBS S,FLOHR F,et al.The eurocity persons dataset: A novel benchmark for object detection[EB/OL].(2018-05-18)[2018-06-05].https://arxiv.org/abs/1805.07193. [百度學術]?
128
ZHANG S,XIE Y,WAN J,et al.Widerperson: A diverse dataset for dense pedestrian detection in the wild[J].IEEE Transactions on Multimedia,2019,22(2): 380-393. [百度學術]?
129
NEUMANN L, KARG M, ZHANG S, et al. Nightowls: A pedestrians at night dataset[C]//Proceedings of Asian Conference on Computer Vision. Cham: Springer, 2018: 691-705. [百度學術]?
130
CORDTS M, OMRAN M, RAMOS S, et al. The cityscapes dataset for semantic urban scene understanding[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2016: 3213-3223. [百度學術]?
131
ZHU Z, LIANG D, ZHANG S, et al. Traffic-sign detection and classification in the wild[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2016: 2110-2118. [百度學術]?
132
DOLLáR P, WOJEK C, SCHIELE B, et al. Pedestrian detection: A benchmark[C]//Proceedings of 2009 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2009: 304-311. [百度學術]?
133
WANG L, SHI J, SONG G, et al. Object detection combining recognition and segmentation[C]//Proceedings of Asian Conference on Computer Vision. Berlin, Heidelberg: Springer, 2007: 189-199. [百度學術]?
134
WANG C Y,BOCHKOVSKIY A,LIAO H Y M.Scaled-YOLOv4: Scaling cross stage partial network[EB/OL].(2020-11-16)[2021-02-22].https://arxiv.org/abs/2011.08036. [百度學術]?
135
LENG J,REN Y,JIANG W,et al.Realize your surroundings: Exploiting context information for small object detection[J].Neurocomputing,2021,433: 287-299. [百度學術]?
136
BAI Y, ZHANG Y, DING M, et al. Finding tiny faces in the wild with generative adversarial network[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2018: 21-30. [百度學術]?
137
REDMON J,FARHADI A.Yolov3: An incremental improvement[EB/OL].(2018-04-08)[2018-04-08].https://arxiv.org/abs/1804.02767. [百度學術]?
138
ZHU X, HU H, LIN S, et al. Deformable convnets v2: More deformable, better results[C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2019: 9308-9316. [百度學術]?
139
LI Y, CHEN Y, WANG N, et al. Scale-aware trident networks for object detection[C]// Proceedings of the IEEE/CVF International Conference on Computer Vision. New York: IEEE, 2019: 6054-6063. [百度學術]?
140
TAN Z, NIE X, QIAN Q, et al. Learning to rank proposals for object detection[C]// Proceedings of the IEEE/CVF International Conference on Computer Vision. New York: IEEE, 2019: 8273-8281. [百度學術]?
141
SONG G, LIU Y, WANG X. Revisiting the sibling head in object detector[C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. new york: IEEE, 2020: 11563-11572. [百度學術]?
142
ZHU X,SU W,LU L,et al.Deformable DETR: Deformable transformers for end-to-end object detection[EB/OL].(2020-10-08)[2021-03-18].https://arxiv.org/abs/2010.04159. [百度學術]?
143
TAN M, PANG R, LE Q V. Efficientdet: Scalable and efficient object detection[C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2020: 10781-10790. [百度學術]?
144
YANG S, LUO P, LOY C C, et al. From facial parts responses to face detection: A deep learning approach[C]// Proceedings of the IEEE International Conference on Computer Vision. New York: IEEE, 2015: 3676-3684. [百度學術]?
145
ZHANG K,ZHANG Z,LI Z,et al.Joint face detection and alignment using multitask cascaded convolutional networks[J].IEEE Signal Processing Letters,2016,23(10): 1499-1503. [百度學術]?
146
ZHU C, ZHENG Y, LUU K, et al. CMS-RCNN: Contextual multi-scale region-based cnn for unconstrained face detection[C]//Deep learning for biometrics. Cham: Springer, 2017: 57-79. [百度學術]?
147
HU P, RAMANAN D. Finding tiny faces[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2017: 951-959. [百度學術]?
148
NAJIBI M, SAMANGOUEI P, CHELLAPPA R, et al. SSH: Single stage headless face detector[C]// Proceedings of the IEEE International Conference on Computer Vision. New York: IEEE, 2017: 4875-4884. [百度學術]?
149
WANG Y,JI X,ZHOU Z,et al.Detecting faces using region-based fully convolutional networks[EB/OL].(2017-09-14)[2017-09-18].https://arxiv.org/abs/1709.05256. [百度學術]?
150
WANG J,YUAN Y,YU G.Face attention network: An effective face detector for the occluded faces[EB/OL].(2017-11-20)[2017-11-22].https://arxiv.org/abs/1711.07246. [百度學術]?
151
LIU Y, SHI M, ZHAO Q, et al. Point in, box out: Beyond counting persons in crowds[C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2019: 6469-6478. [百度學術]?
152
ZHANG C,XU X,TU D.Face detection using improved faster RCNN[EB/OL].(2018-02-06)[2018-02-06].https://arxiv.org/abs/1802.02142. [百度學術]?
153
SAM D B,PERI S V,SUNDARARAMAN M N,et al.Locate, size and count: Accurately resolving people in dense crowds via detection[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2020. DOI: 10.1109/TPAMI.2020.2974830. [百度學術]?
154
WANG Y,HOU J,HOU X,et al.A Self-training approach for point-supervised object detection and counting in crowds[J].IEEE Transactions on Image Processing,2021,30: 2876-2887. [百度學術]?
155
GONG Y, YU X, DING Y, et al. Effective fusion factor in FPN for tiny object detection[C]// Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision. New York: IEEE, 2021: 1160-1168. [百度學術]?
156
WAN J,DING W,ZHU H,et al.An efficient small traffic sign detection method based on YOLOv3[J].Journal of Signal Processing Systems,2020: DOI: 10.1007/S11265-020-01614-2. [百度學術]?
157
PANG J, CHEN K, SHI J, et al. Libra R-CNN: Towards balanced learning for object detection[C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2019: 821-830. [百度學術]?
158
LU X, LI B, YUE Y, et al. Grid R-CNN[C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2019: 7363-7372. [百度學術]?
159
ZHANG X,WAN F,LIU C,et al.Learning to match anchors for visual object detection[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2021. DOI: 10.1109/TPAMI.2021.3050494. [百度學術]?
160
SONG S,QUE Z,HOU J,et al.An efficient convolutional neural network for small traffic sign detection[J].Journal of Systems Architecture,2019,97: 269-277. [百度學術]?
總結
以上是生活随笔為你收集整理的2021年小目标检测最新研究综述 很全面值得收藏的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 锂电池和锂离子电池命名规则
- 下一篇: maskrcnn用于目标检测_用于目标检