为什么vs会输出一个框作为结果_检测与分类专辑 | 对精准目标检测的含不确定性的边界框回归...
摘要
大型目標(biāo)檢測(cè)數(shù)據(jù)集(如MS-COCO) 試著盡可能地將邊界框框的非常清晰,但是在標(biāo)記邊框時(shí)會(huì)存在歧義。在本文中,提出了一種新的邊界框回歸損失學(xué)習(xí)邊界框的移動(dòng)及位置方差,此方法在不增加計(jì)算量的基礎(chǔ)上提高了不同架構(gòu)定位的準(zhǔn)確性,學(xué)習(xí)到的位置變化用于在進(jìn)行NMS處理時(shí)合并兩個(gè)相鄰的邊界框,進(jìn)一步提升了定位的準(zhǔn)確性在MS-COCO數(shù)據(jù)集上,將VGG-16 Faster R-CNN的平均精度(AP)從23.6%提升到了29.1%。更重要的是,對(duì)于ResNet-50-FPN Mask R-CNN,此方法將AP和AP90分別提高了1.8%和6.2%,大大超過(guò)了之前比較先進(jìn)的邊界框改進(jìn)方法。1.引言
像ImageNet、MS-COCO和CrowdHuman這樣的大型目標(biāo)檢測(cè)數(shù)據(jù)集都盡量清晰地標(biāo)注ground truth邊界框。然而邊界框在有些情況下會(huì)不可避免的存在不確定性,不確定性會(huì)使標(biāo)注和邊界框回歸函數(shù)的學(xué)習(xí)變得困難。MS-COCO中一些不精確的標(biāo)注框展示在圖1(a)(c)中。當(dāng)物體被部分遮擋了,邊界框的邊界將更加難以區(qū)分,比如圖1(d)。
圖1.在目標(biāo)檢測(cè)數(shù)據(jù)集中,ground-truth邊界框在一些情況下存在固有的不確定性。(a)(c)標(biāo)注的不確定性。(b) 遮擋帶來(lái)的不確定性。(d) 目標(biāo)自身邊界是不確定的。由于樹的遮擋,火車的左邊界是不清晰的
目標(biāo)檢測(cè)是一項(xiàng)多任務(wù)的學(xué)習(xí)問(wèn)題,由目標(biāo)定位和目標(biāo)分類組成。當(dāng)前最好的目標(biāo)檢測(cè)器(如:Faster R-CNN, Cascade R-CNN, Mask R-CNN)都依賴于邊界框回歸來(lái)定位目標(biāo)。然而,傳統(tǒng)的邊界框回歸損失并沒(méi)有將邊界框的不確定性考慮進(jìn)去,而且邊界框回歸當(dāng)分類分?jǐn)?shù)很高的情況下被假定是準(zhǔn)確的,但事實(shí)并不總是這樣,如圖2。
圖2.VGG-16 Faster R-CNN在MS-COCO數(shù)據(jù)集上錯(cuò)誤的案例。(a) 兩個(gè)框都是不準(zhǔn)的。(b) 分類分?jǐn)?shù)高的邊界框反而是錯(cuò)誤的
為了解決這個(gè)問(wèn)題,提出了新的邊界框回歸損失,叫做KL Loss,旨在同時(shí)學(xué)習(xí)邊界框回歸和定位不確定性。具體來(lái)說(shuō),為了獲得預(yù)測(cè)框的不確定性,首先為邊界框預(yù)測(cè)和ground-truth框建模為高斯分布和狄拉克函數(shù)。接著定義了預(yù)測(cè)分布和真實(shí)分布的KL散度。采用KL Loss學(xué)習(xí)有三個(gè)好處:(1) 數(shù)據(jù)集中的不確定性可以被很好的捕獲到,邊界框回歸器會(huì)從不確定邊界框中計(jì)算出更小的損失;(2) 學(xué)習(xí)到的方差在后處理階段非常有用。同時(shí)還提出了方差投票,在NMS階段使用預(yù)測(cè)方差來(lái)加權(quán)候選框相鄰的位置,最后投票得到候選框的最終定位。(3) 學(xué)到的概率分布是可解釋的,因?yàn)樗从沉诉吔缈蝾A(yù)測(cè)的不確定度,可以對(duì)自動(dòng)駕駛和機(jī)器人上的應(yīng)用有潛在的幫助。
為了證明KL Loss和方差投票的泛化能力,在PASCAL VOC2007、MS-COCO上驗(yàn)證了多種CNN目標(biāo)檢測(cè)器,包括VGG-CNN-M-1024、VGG-16、ResNet-50-FPN和Mask R-CNN。實(shí)驗(yàn)表明了此方法在目標(biāo)定位上有更好的準(zhǔn)確性。對(duì)于MS-COCO數(shù)據(jù)集上的VGG-16 Faster R-CNN模型將AP從23.6%提高到了29.1%,GPU(GTX 1080Ti)上前向預(yù)測(cè)時(shí)間僅增加了2ms。而且,對(duì)于ResNet-50-FPN Mask R-CNN,AP和AP90 分別提高了1.8%和6.2%,超越了目前最先進(jìn)的邊界框精調(diào)算法。
2.?方法
2.1 邊界框參數(shù)化
??? 基于圖3所示的雙階段目標(biāo)檢測(cè)器Faster R-CNN或Mask R-CNN,可以分別回歸邊界框的各個(gè)邊界。實(shí)驗(yàn)?zāi)繕?biāo)是估計(jì)定位置信度。嚴(yán)格上說(shuō),是利用網(wǎng)絡(luò)預(yù)測(cè)一個(gè)概率分布而不僅僅是邊界框位置。盡管分布可能非常復(fù)雜,像多元高斯或混合高斯那樣,但是本文中假設(shè)坐標(biāo)是獨(dú)立分布的,并且用一元高斯來(lái)簡(jiǎn)化問(wèn)題。圖3說(shuō)明了目標(biāo)檢測(cè)器的網(wǎng)絡(luò)結(jié)構(gòu)。
圖3.用于估計(jì)位置置信度的網(wǎng)絡(luò)結(jié)構(gòu)。不同于傳統(tǒng)的標(biāo)準(zhǔn)fast R-CNN的雙階段網(wǎng)絡(luò)模型頭部,此網(wǎng)絡(luò)的KL Loss回歸損失將估計(jì)到的邊界框位置的標(biāo)準(zhǔn)差考慮在內(nèi)
2.2 使用KLLoss進(jìn)行邊界框回歸
對(duì)于N個(gè)樣本的KL散度最小化,使用KL散度作為邊界框回歸的損失函數(shù),分類損失保持不變。如圖4所示,當(dāng)位置未被估計(jì)準(zhǔn)確時(shí),期望網(wǎng)絡(luò)能夠預(yù)測(cè)一個(gè)更大的方差,使回歸損失減小,用隨機(jī)高斯初始化來(lái)預(yù)測(cè)全連接層的權(quán)重。標(biāo)準(zhǔn)差和平均值分別設(shè)置為0.0001和0,使KL Loss和標(biāo)準(zhǔn)的smooth L1損失在訓(xùn)練初期相似。
圖4.估計(jì)值的高斯分布,對(duì)應(yīng)藍(lán)色和灰色的曲線。橙色的曲線是ground-truth對(duì)應(yīng)的狄拉克函數(shù)。當(dāng)位置沒(méi)被估計(jì)準(zhǔn)確,期望預(yù)測(cè)結(jié)果有更大的方差,這樣回歸損失會(huì)比較低(藍(lán)色)
2.3 方差投票
在獲得預(yù)測(cè)位置的方差后,接下來(lái)要根據(jù)學(xué)習(xí)到的相鄰邊界框的方差來(lái)選舉出候選邊界框來(lái)。在NMS和soft-NMS循環(huán)中投票選出被選中框的位置。在選中有最大得分的檢測(cè)結(jié)果后,新的位置通過(guò)它本身和對(duì)應(yīng)相鄰邊界框計(jì)算得到。受到soft-NMS啟發(fā),分配更高的權(quán)重給那些接近的且有更少不確定性的框。兩種類型的相鄰邊界框會(huì)得到更低的權(quán)重:(1) 有大方差的框,(2) 和候選框的IoU小的框。類別得分在投票中不被考慮,因?yàn)楦偷梅值目蚩赡苡懈叩亩ㄎ粶?zhǔn)確度。圖5中提供了一種方差投票的可視化解釋。借助方差投票,兩種在圖2中提到的現(xiàn)象會(huì)被避免。
圖5.在MS-COCO上VGG-16Faster R-CNN模型的投票結(jié)果。兩種錯(cuò)誤的情形都被方差投票解決:(a) 當(dāng)每個(gè)候選框在某些坐標(biāo)上是不準(zhǔn)確的情況下(右邊的女性),方差投票可以整合位置置信度,給出更好的框。(b) 高分類得分的邊界框(火車 0.99)實(shí)際上相比低分類得分的邊界框(火車 0.35)有更低的定位準(zhǔn)確度,在方差投票后,0.99的得分框移動(dòng)到了正確的位置上
3.?實(shí)驗(yàn)
為了證明本文實(shí)驗(yàn)在目標(biāo)檢測(cè)中的準(zhǔn)確性,使用了兩種數(shù)據(jù)集:MS-COCO和PASCAL VOC 2007。實(shí)驗(yàn)中使用4塊GPU。訓(xùn)練策略和batchsize根據(jù)線性尺度變換規(guī)則調(diào)整。對(duì)于VGG-CNN-M-1024,基于Caffe實(shí)現(xiàn)。對(duì)于ResNet-50 FPN和Mask R-CNN,基于Detectron實(shí)現(xiàn)。對(duì)于VGG-16 Faster R-CNN,參考py-faster-rcnn,在train2014上訓(xùn)練,在val2014上測(cè)試。對(duì)于其他目標(biāo)檢測(cè)框架,訓(xùn)練和測(cè)試都在train2017和val2017上。除非特別指定,所有超參數(shù)設(shè)置為默認(rèn)。
3.1 消融研究
在VGG-16 Faster R-CNN驗(yàn)證了檢測(cè)模型中每個(gè)模塊的貢獻(xiàn):KL Loss、soft-NMS和varvoting。詳細(xì)結(jié)果表1中呈現(xiàn)。
表1.MS-COCO上模型中每個(gè)模塊的貢獻(xiàn),baseline是VGG-16 Faster R-CNN
KL Loss
令人驚訝的是,用KL Loss簡(jiǎn)單的訓(xùn)練就能獲得2.8%的AP提升,這樣的結(jié)果也同樣表現(xiàn)在ResNet-50 Faster R-CNN和Mask R-CNN上(1.5%和0.9%)。首先,通過(guò)在訓(xùn)練中學(xué)習(xí)高不確定性的樣本來(lái)預(yù)測(cè)高的方差,網(wǎng)絡(luò)可以學(xué)到更多有用的樣本。其次,定位用的梯度可以自適應(yīng)通過(guò)訓(xùn)練來(lái)控制,這樣鼓勵(lì)網(wǎng)絡(luò)學(xué)到更準(zhǔn)確的目標(biāo)位置。第三,KL Loss學(xué)習(xí)位置置信度,可以潛在幫助網(wǎng)絡(luò)學(xué)習(xí)到更有判別力的特征。通過(guò)KL Loss學(xué)到的方差是可解釋的。網(wǎng)絡(luò)對(duì)于有挑戰(zhàn)性的目標(biāo)邊界會(huì)輸出更高的方差,這樣在一些諸如自動(dòng)駕駛和機(jī)器人的視覺(jué)應(yīng)用上會(huì)很實(shí)用。圖5的第一行就展示了一些KL Loss學(xué)到的標(biāo)準(zhǔn)差定量的例子。
表2.GPU1080TI,CUDA 8, CUDNN 6,MS-COCO,VGG-16 Faster R-CNN上的前向時(shí)間對(duì)比
方差投票
最后,方差投票進(jìn)一步提高了AP 29.1%,提升主要來(lái)自于更準(zhǔn)確的定位。注意到AP50只提升了0.1%,但是AP75,APM,APL分別提升了1.8%,1,8%,1,6%,見(jiàn)表1。這說(shuō)明了分類置信度和位置置信度不總是相關(guān)的。因此,將定位置信度和分類置信度分開學(xué)習(xí)對(duì)提升目標(biāo)定位準(zhǔn)確性至關(guān)重要,且方差投票和soft-NMS可以共同作用。用標(biāo)準(zhǔn)的NMS的方差投票,AP提升1.4%,用soft-NMS的方差投票,AP可以提升1.3%,則可以認(rèn)為soft-NMS擅長(zhǎng)利用候選框得分來(lái)提升性能,而方差投票擅長(zhǎng)精調(diào)這些候選框以獲得更精確的目標(biāo)位置。圖5第二行就展示了方差投票的定量的例子。圖6中,測(cè)試了方差投票中可調(diào)參數(shù)的靈敏度。
圖6.ResNet-50Faster R-CNN中,AP提升隨著方差投票的參數(shù)的變化關(guān)系
3.2?PASCAL VOC 2007上的實(shí)驗(yàn)
盡管本文中的方法針對(duì)大尺度目標(biāo)檢測(cè)任務(wù)設(shè)計(jì),但它同樣也能在小的數(shù)據(jù)集上有較好的泛化能力。用Faster R-CNN在PASCAL VOC 2007上進(jìn)行了實(shí)驗(yàn),包含了超過(guò)20個(gè)類別的5k張voc_2007_trainval圖像和5k張voc_2007_test圖像。骨架網(wǎng)絡(luò)是:VGG-CNN-M-1024和VGG-16。如表3所示,和soft-NMS做了對(duì)比。對(duì)于QUBO,測(cè)試了貪心和經(jīng)典tabu求解器。觀察到它比標(biāo)準(zhǔn)的NMS效果還差,盡管論文中在行人檢測(cè)任務(wù)中給出了很好的結(jié)果。假設(shè)QUBO在行人檢測(cè)任務(wù)中效果好是因?yàn)橛姓趽踹吔缈虻脑?。?duì)于VGG-CNN-M-1024,用方差投票訓(xùn)練提高了mAP 1.6%,進(jìn)一步提高了0.8%。對(duì)于VGG-16而言,將本文所提出的方法和soft-NMS結(jié)合提高了mAP 2.9%。注意到方差投票仍然能提升性能即使已經(jīng)對(duì)初始檢測(cè)框進(jìn)行了soft-NMS操作。
表3.用Faster R-CNN在PASCALVOC 2007上對(duì)比不同的方法
4.結(jié)論
總結(jié)來(lái)說(shuō),在大型數(shù)據(jù)集中的不確定性會(huì)影響先進(jìn)的目標(biāo)檢測(cè)器的性能。分類置信度不總是和位置置信度有強(qiáng)的關(guān)聯(lián)。本文提出了一種新的邊界框回歸損失,借助不確定性來(lái)學(xué)習(xí)更準(zhǔn)確的目標(biāo)位置。通過(guò)使用KL Loss訓(xùn)練,網(wǎng)絡(luò)學(xué)到了每個(gè)坐標(biāo)點(diǎn)的位置方差,并用其來(lái)進(jìn)行方差投票精調(diào)邊界框的位置,并在各種網(wǎng)絡(luò)和數(shù)據(jù)集上證明了效果。
總結(jié)
以上是生活随笔為你收集整理的为什么vs会输出一个框作为结果_检测与分类专辑 | 对精准目标检测的含不确定性的边界框回归...的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: python压测接口_python的一个
- 下一篇: coco关键点标注json_COCO 数