日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

CVPR 2019 | 旷视研究院提出新型损失函数:改善边界框模糊问题

發布時間:2024/10/8 编程问答 31 豆豆
生活随笔 收集整理的這篇文章主要介紹了 CVPR 2019 | 旷视研究院提出新型损失函数:改善边界框模糊问题 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.


全球計算機視覺三大頂會之一 CVPR 2019 (IEEE Conference on Computer Visionand Pattern Recognition)將于 6 月 16-20 在美國洛杉磯如期而至。屆時,曠視首席科學家、研究院院長孫劍博士將帶領團隊遠赴盛會,助力計算機視覺技術的交流與落地。在此之前,曠視每周會推出一篇 CVPR'19 接收論文解讀文章。本文是第 6篇,提出了一種新的帶有不確定性的邊界框回歸損失,可用于學習更準確的目標定位。



論文名稱:Bounding Box Regression with Uncertainty for Accurate Object Detection

論文鏈接:https://arxiv.org/abs/1809.08545


  • 導語

  • 簡介

  • 方法

    • 邊界框參數化

    • 使用 KL 損失的邊界框回歸

    • 方差投票

  • 實驗

    • 消融實驗

    • 準確的目標檢測

    • 在 PASCAL VOC 2007 上的實驗

  • 結論

  • 參考文獻

  • 往期解讀

?

導語

?

大規模目標檢測數據集會盡可能清晰地定義基本 ground truth 邊界框。但是,可以觀察到在標記邊界框時仍會存在模糊不清的現象。


曠視研究院在本文中提出了一種全新的邊界框回歸損失,可用于同時學習邊界框變換和定位方差。據介紹,這種新損失能極大地提升多種架構的定位準確度,而且幾乎不會有額外的計算成本。所學習到的定位方差也能幫助在非極大值抑制(NMS)期間融合相鄰的邊界框,進一步提升定位的效果。


實驗結果表明這種新方法比之前最佳的邊界框優化方法更優。研究員已公開相關代碼和模型:github.com/yihui-he/KL-Loss


簡介


ImageNet、MS-COCO 和 CrowdHuman 等大規模目標檢測數據集都會盡可能清晰地定義基本 ground truth 邊界框。


但是,可以觀察到一些案例中的基本 ground truth 邊界框原本就是模糊的,這會讓邊界框回歸函數的學習更加困難。圖 1 (a)(c) 是 MS-COCO 中兩個邊界框標記不準確的示例。當存在遮擋時,邊界框的范圍會更不清晰,比如來自 YouTube-BoundingBoxes 的圖 1(d)。


?圖1:邊界框標注模糊的示例。(a,c) 是標注不準確,(b) 是存在遮擋,(d) 則是因為遮擋導致目標邊界框本身并不清晰


目標檢測是一種多任務學習問題,包含目標定位和目標分類。當前最佳的目標檢測器(比如 Faster RCNN、Cascade R-CNN 和 Mask R-CNN)都依靠邊界框回歸來定位目標。


但是,傳統的邊界框回歸損失(即平滑 L1 損失)沒有考慮到基本 ground truth 邊界框的模糊性。此外,人們通常假設當分類分數較高時,邊界框回歸是準確的,但事實并非總是如此,如圖 2 所示。


?圖2:VGG-16 Faster RCNN 在 MS-COCO 上的失敗案例。(a) 兩個邊界框都不準確;(b)有較高分類分數的邊界框的左邊界是不準確的。


針對這些問題,本文提出了一種全新的邊界框回歸損失——KL 損失,用于同時學習邊界框回歸和定位的不確定性。


具體來說,為了獲取邊界框預測的不確定性,研究員首先將邊界框預測和基本 ground truth 邊界框分別建模為高斯分布(Gaussian distribution)和狄拉克 δ 函數(Dirac delta function)。而新提出的邊界框回歸損失則被定義為預測分布和基本 ground truth 分布之間的 KL 距離。


使用 KL 損失進行學習有三大優勢:?


1. 可以成功獲取數據集中的模糊性。讓邊界框回歸器在模糊邊界框上得到的損失更小。


2. 所學習到的方差可用于后處理階段。研究者提出了方差投票(variance voting)方法,可在非極大值抑制(NMS)期間使用由預測的方差加權的臨近位置來投票得到邊界框的位置。


3. 所學習到的概率分布是可解釋的。因為其反映了邊界框預測的不確定性,所以可能有助于自動駕駛和機器人等下游應用。

?

方法

?

下面將具體介紹這種新的損失函數和方差投票方法。


邊界框參數化?


在介紹新方法之前,先看看邊界框參數化。本文提出基于 Faster R-CNN 或 Mask R-CNN 等兩級式目標檢測器(如圖 3)分別回歸邊界框的邊界。研究者將邊界框表示成了一個四維向量,其中每一維都是框邊界的位置。本文采用的參數化方案是 (x1, y1, x2, y2) 坐標(對角線),而非 R-CNN 使用的那種 (x, y, w, h) 坐標。


?圖3:本文提出的用于估計定位置信度的網絡架構。不同于兩級式檢測網絡的標準 Fast R-CNN head,這個架構是估計邊界框位置以及標準差,這會在新提出的 KL 損失得到考慮。


該網絡的目標是在估計位置的同時估計定位置信度。形式上講,該網絡預測的是一個概率分布,而不只是邊界框位置。盡管該分布可能更復雜,可能是多變量高斯分布或高斯混合分布,但該論文為了簡單起見假設坐標是相互獨立的且使用了單變量高斯分布。


另外,基本 ground truth 邊界框也被形式化了一個高斯分布——狄拉克 δ 函數。


使用KL損失的邊界框回歸?


在這里,目標定位的目標是在樣本上最小化預測分布和基本 ground truth 分布之間的 KL 距離。這個 KL 距離即為邊界框回歸的損失函數 L_reg。而分類損失則保持不變。



其中,x_g 為基本 ground truth 邊界框位置,x_e 為估計的邊界框位置,D_KL 是 KL 距離,σ 是標準差,P_D 是基本 ground truth 狄拉克 δ 函數,P_Θ 是預測的高斯分布,Θ 是一組可學習的參數。


如圖 4 所示,當 x_e 不準確時,網絡會預測得到更大的方差 σ2,使 L_reg 更低。


?圖4:藍色和灰色的高斯分布是估計結果。橙色表示狄拉克 δ 函數,是基本 ground truth 邊界框的分布。


方差投票?


在獲得預測位置的方差后,可根據所學習到的鄰近邊界框的方差直觀地投票選擇候選邊界框位置。


如算法 1 所示,其代碼基于 NMS,但有三行不一樣。


?

本文是在標準 NMS 或 soft-NMS 的過程中投票所選框的位置。在選擇了有最大分數的檢測結果后,再根據它及其鄰近邊界框計算它本身的新位置。本文受 soft-NMS 的啟發為更近的以及有更低不確定性的邊界框分配了更高的權重。


在投票期間權重更低的鄰近邊界框包含兩類:(1)高方差的邊界框;(2)與所選邊界框的 IoU 較小的邊界框。投票不涉及分類分數,因為更低分數的框可能有更高的定位置信度。圖 5 給出了方差投票的圖示。使用方差投票可以避免圖 2 中提到的那兩類檢測問題。


?圖5:VGG-16 Faster R-CNN 在 MS-COCO 上的方差投票結果。每個邊界框中的綠色文本框對應于預測的標準差 σ。

?

實驗


曠視研究員基于 MS-COCO 和 PASCAL VOC 2007 數據集進行了實驗。實驗配置細節如下:


  • 使用了 4 個 GPU?

  • 訓練流程和批大小根據線性縮放規則進行調整?

  • VGG-CNN-M-1024 和 VGG-16 的實現基于 Caffe;ResNet-50 FPN 和 Mask R-CNN 的實現基于 Detectron

  • VGG-16 Faster R-CNN 遵照 py-faster-rcnn(github.com/rbgirshick/py-faster-rcnn),在 train2014 上訓練,在 val2014 上測試;其它目標檢測網絡的訓練和測試分別在 train2017 和 val2017 上完成

  • σ_t 設為 0.02?

  • 除非另有說明,否則所有超參數都是默認設置(github.com/facebookresearch/Detectron


消融實驗?


研究者基于 VGG-16 Faster R-CNN 評估了每個模塊對整體結果的貢獻,包括 KL 損失、soft-NMS 和方差投票。表 1 給出了詳細結果??梢钥吹?#xff0c;每新增一項改進,都能實現結果的進一步提升。

?

?表1:使用 VGG-16 Faster R-CNN 在 MS-COCO 數據集上檢驗每個模塊的貢獻

?

準確的目標檢測?


表 4 總結了在 ResNet-50-FPN Mask R-CNN 上不同方法對準確目標檢測的效果。使用 KL 損失,網絡可以在訓練階段學習調節模糊邊界框的梯度。


?表4:在 MS-COCO 上,不同方法對準確目標檢測的效果?


曠視研究員還在特征金字塔網絡(ResNet-50 FPN)上進行了評估,如表 6 所示。


?表6:FPN ResNet-50 在 MS-COCO 上的表現對比


在PASCAL VOC 2007上的實驗?


盡管本文是針對大規模目標檢測提出了這一方法,但也可將該方法用于更小型的數據集。研究者使用 Faster R-CNN 在 PASCAL VOC 2007 上進行了實驗,該數據集包含約 5000 張 voc_2007_trainval 圖像和 5000 張 voc_2007_test 測試圖像,涉及 20 個目標類別。所測試的骨干網絡為 VGG-CNN-M-1024 和 VGG-16。


結果見表 5,研究員也額外比較了 soft-NMS 和二次無約束二元優化(QUBO)。QUBO 的結果包含 greedy 求解器和經典的 tabu 求解器(二者的懲罰項都經過了人工調整,以得到更好的性能)??梢钥吹?#xff0c;QUBO 比標準 NMS 要差得多,盡管有研究認為其在行人檢測上效果更好。研究者猜測 QUBO 更擅長檢測行人的原因是此時邊界框遮擋的情況更多。


?表5:不同方法在 PASCAL VOC 2007 上的結果

?

結論

?

大規模目標檢測數據集中的不確定性可能有礙當前最佳目標檢測器的表現。分類置信度并不總是與定位置信度強烈相關。這篇論文提出了一種全新的帶有不確定性的邊界框回歸損失,可用于學習更準確的目標定位。使用 KL 損失進行訓練,網絡可學習預測每個坐標的定位方差。所得到的方差可實現方差投票,從而優化所選擇的邊界框。實驗結果也表明了這些新方法的有效性。

?

傳送門

?

歡迎各位同學加入曠視研究院基礎模型(Model)組,簡歷可以投遞給 Model 組負責人張祥雨。


郵箱:zhangxiangyu@megvii.com

?

參考文獻?


[42] Shaoqing Ren, Kaiming He, Ross Girshick, and Jian Sun. Faster r-cnn: Towards real-time object detection with region proposal networks. In Advances in neural information processing systems, pages 91–99, 2015. 1, 2, 3, 7?

[17]Kaiming He, Georgia Gkioxari, Piotr Dollar, and Ross Gir- ′ shick. Mask r-cnn. In Computer Vision (ICCV), 2017 IEEE International Conference on, pages 2980–2988. IEEE, 2017. 1, 2, 3, 5?

[27]Borui Jiang, Ruixuan Luo, Jiayuan Mao, Tete Xiao, and Yuning Jiang. Acquisition of localization confidence for accurate object detection. In Proceedings of the European Conference on Computer Vision (ECCV), pages 784–799, 2018. 2, 7, 8?

[28]Alex Kendall and Yarin Gal. What uncertainties do we need in bayesian deep learning for computer vision? In Advances in neural information processing systems, pages 5574–5584, 2017. 2?

[29]Alex Kendall, Yarin Gal, and Roberto Cipolla. Multi-task learning using uncertainty to weigh losses for scene geometry and semantics. arXiv preprint arXiv:1705.07115, 3, 2017. 2


往期解讀:


  • CVPR 2019 | 曠視提出GIF2Video:首個深度學習GIF質量提升方法

  • CVPR 2019 | 曠視Oral論文提出GeoNet:基于測地距離的點云分析深度網絡

  • CVPR 2019 | 曠視提出超分辨率新方法Meta-SR:單一模型實現任意縮放因子

  • CVPR 2019 | 曠視實時語義分割技術DFANet:高清虛化無需雙攝

  • CVPR 2019 | 曠視研究院提出ML-GCN:基于圖卷積網絡的多標簽圖像識別模型




點擊以下標題查看更多往期內容:?


  • CVPR 2019 | 無監督領域特定單圖像去模糊

  • 圖神經網絡綜述:模型與應用

  • 近期值得讀的10篇GAN進展論文

  • 小樣本學習(Few-shot Learning)綜述

  • 萬字綜述之生成對抗網絡(GAN)

  • 可逆ResNet:極致的暴力美學

  • 小米拍照黑科技:基于NAS的圖像超分辨率算法

  • AAAI 2019 | 基于區域分解集成的目標檢測




#投 稿 通 道#

?讓你的論文被更多人看到?



如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。


總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。


PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學習心得技術干貨。我們的目的只有一個,讓知識真正流動起來。


??來稿標準:

? 稿件確系個人原創作品,來稿需注明作者個人信息(姓名+學校/工作單位+學歷/職位+研究方向)?

? 如果文章并非首發,請在投稿時提醒并附上所有已發布鏈接?

? PaperWeekly 默認每篇文章都是首發,均會添加“原創”標志


? 投稿郵箱:

? 投稿郵箱:hr@paperweekly.site?

? 所有文章配圖,請單獨在附件中發送?

? 請留下即時聯系方式(微信或手機),以便我們在編輯發布時和作者溝通




?


現在,在「知乎」也能找到我們了

進入知乎首頁搜索「PaperWeekly」

點擊「關注」訂閱我們的專欄吧



關于PaperWeekly


PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。


▽ 點擊 |?閱讀原文?| 獲取最新論文推薦

總結

以上是生活随笔為你收集整理的CVPR 2019 | 旷视研究院提出新型损失函数:改善边界框模糊问题的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。