當(dāng)前位置：首頁(yè) > 人工智能 > 目标检测 >内容正文

目标检测

为什么vs会输出一个框作为结果_检测与分类专辑 | 对精准目标检测的含不确定性的边界框回归...

發(fā)布時(shí)間：2025/3/21 目标检测 101 豆豆

生活随笔收集整理的這篇文章主要介紹了为什么vs会输出一个框作为结果_检测与分类专辑 | 对精准目标检测的含不确定性的边界框回归... 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

摘要

大型目標(biāo)檢測(cè)數(shù)據(jù)集(如MS-COCO) 試著盡可能地將邊界框框的非常清晰，但是在標(biāo)記邊框時(shí)會(huì)存在歧義。在本文中，提出了一種新的邊界框回歸損失學(xué)習(xí)邊界框的移動(dòng)及位置方差，此方法在不增加計(jì)算量的基礎(chǔ)上提高了不同架構(gòu)定位的準(zhǔn)確性，學(xué)習(xí)到的位置變化用于在進(jìn)行NMS處理時(shí)合并兩個(gè)相鄰的邊界框，進(jìn)一步提升了定位的準(zhǔn)確性在MS-COCO數(shù)據(jù)集上，將VGG-16 Faster R-CNN的平均精度(AP)從23.6%提升到了29.1%。更重要的是，對(duì)于ResNet-50-FPN Mask R-CNN，此方法將AP和AP⁹⁰分別提高了1.8%和6.2%，大大超過(guò)了之前比較先進(jìn)的邊界框改進(jìn)方法。

1.引言

像ImageNet、MS-COCO和CrowdHuman這樣的大型目標(biāo)檢測(cè)數(shù)據(jù)集都盡量清晰地標(biāo)注ground truth邊界框。然而邊界框在有些情況下會(huì)不可避免的存在不確定性，不確定性會(huì)使標(biāo)注和邊界框回歸函數(shù)的學(xué)習(xí)變得困難。MS-COCO中一些不精確的標(biāo)注框展示在圖1(a)(c)中。當(dāng)物體被部分遮擋了，邊界框的邊界將更加難以區(qū)分，比如圖1(d)。

圖1.在目標(biāo)檢測(cè)數(shù)據(jù)集中，ground-truth邊界框在一些情況下存在固有的不確定性。(a)(c)標(biāo)注的不確定性。(b) 遮擋帶來(lái)的不確定性。(d) 目標(biāo)自身邊界是不確定的。由于樹的遮擋，火車的左邊界是不清晰的

目標(biāo)檢測(cè)是一項(xiàng)多任務(wù)的學(xué)習(xí)問(wèn)題，由目標(biāo)定位和目標(biāo)分類組成。當(dāng)前最好的目標(biāo)檢測(cè)器(如：Faster R-CNN, Cascade R-CNN, Mask R-CNN)都依賴于邊界框回歸來(lái)定位目標(biāo)。然而，傳統(tǒng)的邊界框回歸損失并沒(méi)有將邊界框的不確定性考慮進(jìn)去，而且邊界框回歸當(dāng)分類分?jǐn)?shù)很高的情況下被假定是準(zhǔn)確的，但事實(shí)并不總是這樣，如圖2。

圖2.VGG-16 Faster R-CNN在MS-COCO數(shù)據(jù)集上錯(cuò)誤的案例。(a) 兩個(gè)框都是不準(zhǔn)的。(b) 分類分?jǐn)?shù)高的邊界框反而是錯(cuò)誤的

為了解決這個(gè)問(wèn)題，提出了新的邊界框回歸損失，叫做KL Loss，旨在同時(shí)學(xué)習(xí)邊界框回歸和定位不確定性。具體來(lái)說(shuō)，為了獲得預(yù)測(cè)框的不確定性，首先為邊界框預(yù)測(cè)和ground-truth框建模為高斯分布和狄拉克函數(shù)。接著定義了預(yù)測(cè)分布和真實(shí)分布的KL散度。采用KL Loss學(xué)習(xí)有三個(gè)好處：(1) 數(shù)據(jù)集中的不確定性可以被很好的捕獲到，邊界框回歸器會(huì)從不確定邊界框中計(jì)算出更小的損失；(2) 學(xué)習(xí)到的方差在后處理階段非常有用。同時(shí)還提出了方差投票，在NMS階段使用預(yù)測(cè)方差來(lái)加權(quán)候選框相鄰的位置，最后投票得到候選框的最終定位。(3) 學(xué)到的概率分布是可解釋的，因?yàn)樗从沉诉吔缈蝾A(yù)測(cè)的不確定度，可以對(duì)自動(dòng)駕駛和機(jī)器人上的應(yīng)用有潛在的幫助。

為了證明KL Loss和方差投票的泛化能力，在PASCAL VOC2007、MS-COCO上驗(yàn)證了多種CNN目標(biāo)檢測(cè)器，包括VGG-CNN-M-1024、VGG-16、ResNet-50-FPN和Mask R-CNN。實(shí)驗(yàn)表明了此方法在目標(biāo)定位上有更好的準(zhǔn)確性。對(duì)于MS-COCO數(shù)據(jù)集上的VGG-16 Faster R-CNN模型將AP從23.6%提高到了29.1%，GPU(GTX 1080Ti)上前向預(yù)測(cè)時(shí)間僅增加了2ms。而且，對(duì)于ResNet-50-FPN Mask R-CNN，AP和AP⁹⁰ 分別提高了1.8%和6.2%，超越了目前最先進(jìn)的邊界框精調(diào)算法。

2.?方法

2.1 邊界框參數(shù)化

??? 基于圖3所示的雙階段目標(biāo)檢測(cè)器Faster R-CNN或Mask R-CNN，可以分別回歸邊界框的各個(gè)邊界。實(shí)驗(yàn)?zāi)繕?biāo)是估計(jì)定位置信度。嚴(yán)格上說(shuō)，是利用網(wǎng)絡(luò)預(yù)測(cè)一個(gè)概率分布而不僅僅是邊界框位置。盡管分布可能非常復(fù)雜，像多元高斯或混合高斯那樣，但是本文中假設(shè)坐標(biāo)是獨(dú)立分布的，并且用一元高斯來(lái)簡(jiǎn)化問(wèn)題。圖3說(shuō)明了目標(biāo)檢測(cè)器的網(wǎng)絡(luò)結(jié)構(gòu)。

圖3.用于估計(jì)位置置信度的網(wǎng)絡(luò)結(jié)構(gòu)。不同于傳統(tǒng)的標(biāo)準(zhǔn)fast R-CNN的雙階段網(wǎng)絡(luò)模型頭部，此網(wǎng)絡(luò)的KL Loss回歸損失將估計(jì)到的邊界框位置的標(biāo)準(zhǔn)差考慮在內(nèi)

2.2 使用KLLoss進(jìn)行邊界框回歸

對(duì)于N個(gè)樣本的KL散度最小化，使用KL散度作為邊界框回歸的損失函數(shù)，分類損失保持不變。如圖4所示，當(dāng)位置未被估計(jì)準(zhǔn)確時(shí)，期望網(wǎng)絡(luò)能夠預(yù)測(cè)一個(gè)更大的方差，使回歸損失減小，用隨機(jī)高斯初始化來(lái)預(yù)測(cè)全連接層的權(quán)重。標(biāo)準(zhǔn)差和平均值分別設(shè)置為0.0001和0，使KL Loss和標(biāo)準(zhǔn)的smooth L1損失在訓(xùn)練初期相似。

圖4.估計(jì)值的高斯分布，對(duì)應(yīng)藍(lán)色和灰色的曲線。橙色的曲線是ground-truth對(duì)應(yīng)的狄拉克函數(shù)。當(dāng)位置沒(méi)被估計(jì)準(zhǔn)確，期望預(yù)測(cè)結(jié)果有更大的方差，這樣回歸損失會(huì)比較低(藍(lán)色)

2.3 方差投票

在獲得預(yù)測(cè)位置的方差后，接下來(lái)要根據(jù)學(xué)習(xí)到的相鄰邊界框的方差來(lái)選舉出候選邊界框來(lái)。在NMS和soft-NMS循環(huán)中投票選出被選中框的位置。在選中有最大得分的檢測(cè)結(jié)果后，新的位置通過(guò)它本身和對(duì)應(yīng)相鄰邊界框計(jì)算得到。受到soft-NMS啟發(fā)，分配更高的權(quán)重給那些接近的且有更少不確定性的框。兩種類型的相鄰邊界框會(huì)得到更低的權(quán)重：(1) 有大方差的框，(2) 和候選框的IoU小的框。類別得分在投票中不被考慮，因?yàn)楦偷梅值目蚩赡苡懈叩亩ㄎ粶?zhǔn)確度。圖5中提供了一種方差投票的可視化解釋。借助方差投票，兩種在圖2中提到的現(xiàn)象會(huì)被避免。

圖5.在MS-COCO上VGG-16Faster R-CNN模型的投票結(jié)果。兩種錯(cuò)誤的情形都被方差投票解決：(a) 當(dāng)每個(gè)候選框在某些坐標(biāo)上是不準(zhǔn)確的情況下(右邊的女性)，方差投票可以整合位置置信度，給出更好的框。(b) 高分類得分的邊界框(火車 0.99)實(shí)際上相比低分類得分的邊界框(火車 0.35)有更低的定位準(zhǔn)確度，在方差投票后，0.99的得分框移動(dòng)到了正確的位置上

3.?實(shí)驗(yàn)

為了證明本文實(shí)驗(yàn)在目標(biāo)檢測(cè)中的準(zhǔn)確性，使用了兩種數(shù)據(jù)集：MS-COCO和PASCAL VOC 2007。實(shí)驗(yàn)中使用4塊GPU。訓(xùn)練策略和batchsize根據(jù)線性尺度變換規(guī)則調(diào)整。對(duì)于VGG-CNN-M-1024，基于Caffe實(shí)現(xiàn)。對(duì)于ResNet-50 FPN和Mask R-CNN，基于Detectron實(shí)現(xiàn)。對(duì)于VGG-16 Faster R-CNN，參考py-faster-rcnn，在train2014上訓(xùn)練，在val2014上測(cè)試。對(duì)于其他目標(biāo)檢測(cè)框架，訓(xùn)練和測(cè)試都在train2017和val2017上。除非特別指定，所有超參數(shù)設(shè)置為默認(rèn)。

3.1 消融研究

在VGG-16 Faster R-CNN驗(yàn)證了檢測(cè)模型中每個(gè)模塊的貢獻(xiàn)：KL Loss、soft-NMS和varvoting。詳細(xì)結(jié)果表1中呈現(xiàn)。

表1.MS-COCO上模型中每個(gè)模塊的貢獻(xiàn)，baseline是VGG-16 Faster R-CNN

KL Loss

令人驚訝的是，用KL Loss簡(jiǎn)單的訓(xùn)練就能獲得2.8%的AP提升，這樣的結(jié)果也同樣表現(xiàn)在ResNet-50 Faster R-CNN和Mask R-CNN上(1.5%和0.9%)。首先，通過(guò)在訓(xùn)練中學(xué)習(xí)高不確定性的樣本來(lái)預(yù)測(cè)高的方差，網(wǎng)絡(luò)可以學(xué)到更多有用的樣本。其次，定位用的梯度可以自適應(yīng)通過(guò)訓(xùn)練來(lái)控制，這樣鼓勵(lì)網(wǎng)絡(luò)學(xué)到更準(zhǔn)確的目標(biāo)位置。第三，KL Loss學(xué)習(xí)位置置信度，可以潛在幫助網(wǎng)絡(luò)學(xué)習(xí)到更有判別力的特征。通過(guò)KL Loss學(xué)到的方差是可解釋的。網(wǎng)絡(luò)對(duì)于有挑戰(zhàn)性的目標(biāo)邊界會(huì)輸出更高的方差，這樣在一些諸如自動(dòng)駕駛和機(jī)器人的視覺(jué)應(yīng)用上會(huì)很實(shí)用。圖5的第一行就展示了一些KL Loss學(xué)到的標(biāo)準(zhǔn)差定量的例子。

表2.GPU1080TI，CUDA 8, CUDNN 6，MS-COCO,VGG-16 Faster R-CNN上的前向時(shí)間對(duì)比

方差投票

最后，方差投票進(jìn)一步提高了AP 29.1%，提升主要來(lái)自于更準(zhǔn)確的定位。注意到AP⁵⁰只提升了0.1%，但是AP⁷⁵,AP^M,AP^L分別提升了1.8%，1,8%，1,6%，見(jiàn)表1。這說(shuō)明了分類置信度和位置置信度不總是相關(guān)的。因此，將定位置信度和分類置信度分開學(xué)習(xí)對(duì)提升目標(biāo)定位準(zhǔn)確性至關(guān)重要，且方差投票和soft-NMS可以共同作用。用標(biāo)準(zhǔn)的NMS的方差投票，AP提升1.4%，用soft-NMS的方差投票，AP可以提升1.3%，則可以認(rèn)為soft-NMS擅長(zhǎng)利用候選框得分來(lái)提升性能，而方差投票擅長(zhǎng)精調(diào)這些候選框以獲得更精確的目標(biāo)位置。圖5第二行就展示了方差投票的定量的例子。圖6中，測(cè)試了方差投票中可調(diào)參數(shù)的靈敏度。

圖6.ResNet-50Faster R-CNN中，AP提升隨著方差投票的參數(shù)的變化關(guān)系

3.2?PASCAL VOC 2007上的實(shí)驗(yàn)

盡管本文中的方法針對(duì)大尺度目標(biāo)檢測(cè)任務(wù)設(shè)計(jì)，但它同樣也能在小的數(shù)據(jù)集上有較好的泛化能力。用Faster R-CNN在PASCAL VOC 2007上進(jìn)行了實(shí)驗(yàn)，包含了超過(guò)20個(gè)類別的5k張voc_2007_trainval圖像和5k張voc_2007_test圖像。骨架網(wǎng)絡(luò)是：VGG-CNN-M-1024和VGG-16。如表3所示，和soft-NMS做了對(duì)比。對(duì)于QUBO，測(cè)試了貪心和經(jīng)典tabu求解器。觀察到它比標(biāo)準(zhǔn)的NMS效果還差，盡管論文中在行人檢測(cè)任務(wù)中給出了很好的結(jié)果。假設(shè)QUBO在行人檢測(cè)任務(wù)中效果好是因?yàn)橛姓趽踹吔缈虻脑?。?duì)于VGG-CNN-M-1024，用方差投票訓(xùn)練提高了mAP 1.6%，進(jìn)一步提高了0.8%。對(duì)于VGG-16而言，將本文所提出的方法和soft-NMS結(jié)合提高了mAP 2.9%。注意到方差投票仍然能提升性能即使已經(jīng)對(duì)初始檢測(cè)框進(jìn)行了soft-NMS操作。

表3.用Faster R-CNN在PASCALVOC 2007上對(duì)比不同的方法

4.結(jié)論

總結(jié)來(lái)說(shuō)，在大型數(shù)據(jù)集中的不確定性會(huì)影響先進(jìn)的目標(biāo)檢測(cè)器的性能。分類置信度不總是和位置置信度有強(qiáng)的關(guān)聯(lián)。本文提出了一種新的邊界框回歸損失，借助不確定性來(lái)學(xué)習(xí)更準(zhǔn)確的目標(biāo)位置。通過(guò)使用KL Loss訓(xùn)練，網(wǎng)絡(luò)學(xué)到了每個(gè)坐標(biāo)點(diǎn)的位置方差，并用其來(lái)進(jìn)行方差投票精調(diào)邊界框的位置，并在各種網(wǎng)絡(luò)和數(shù)據(jù)集上證明了效果。

總結(jié)

以上是生活随笔為你收集整理的为什么vs会输出一个框作为结果_检测与分类专辑 | 对精准目标检测的含不确定性的边界框回归...的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇： python压测接口_python的一个
下一篇： coco关键点标注json_COCO 数

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

目标检测

为什么vs会输出一个框作为结果_检测与分类专辑 | 对精准目标检测的含不确定性的边界框回归...

總結(jié)