當前位置：首頁 >

李沐等将目标检测绝对精度提升 5%，不牺牲推理速度

發布時間：2024/9/15 108 豆豆

生活随笔收集整理的這篇文章主要介紹了李沐等将目标检测绝对精度提升 5%，不牺牲推理速度小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

本文授權轉載自機器之心

未經許可禁止二次轉載

天下沒有免費的午餐？李沐等研究者在一份名為《Bag of Freebies for Training Object Detection Neural Networks》的論文中推翻了這一定理。他們在不犧牲推理速度的前提下將目標檢測絕對精度提升了 5%。

目標檢測無疑是計算機視覺領域最前沿的應用之一，吸引了各個領域諸多研究者的目光。最前沿的檢測器，包括類似 RCNN 的單（SSD 或 YOLO）或多階神經網絡都是基于圖像分類骨干網絡，如、、Inception 或 MobileNet 系列。

然而，由于模型容量和訓練復雜度相對較高，目標檢測受到的關注相對較少，從最近的訓練微調研究中獲益也較少。更糟糕的是，不同的檢測網絡在沒有明確的初始化、數據預處理及優化分析的情況下就開始挑選自己的訓練流程，導致在采用最新的技術改進圖像分類任務時出現了大量的混亂。

本文的研究者致力于探索能夠在不造成額外計算成本的情況下有效提升流行的目標檢測網絡性能的方法。他們首先在目標檢測上探索了一種混合技術。與《mixup: Beyond Empirical Risk Minimization》不同，本文的研究者認識到了多目標檢測任務的特殊性質有利于實現空間不變的變換，因此提出了一種用于目標檢測任務的視覺相干（visually coherent）圖像混合方法。接下來，他們探討了詳細的訓練流程，包括學習率調度、權重衰減和同步 BatchNorm。最后，他們探索了其訓練微調的有效性，方法是逐漸將這些微調疊加，以訓練單或多階段目標檢測網絡。

本文的主要貢獻如下：

首次系統地評估了不同目標檢測流程中應用的多種訓練啟發式方法，為未來的研究提供了有價值的實踐指導。
提出了一種為訓練目標檢測網絡而設計的視覺相干圖像混合方法，而且證明該方法可以有效提升模型的泛化能力。
在不修改網絡架構和損失函數的情況下，在現有模型的基礎上實現了 5% 的絕對精度性能提升。而且這些提升都是「免費的午餐」，無需額外的推理成本。
擴展了目標檢測數據增強領域的研究深度，顯著增強了模型的泛化能力，減少了過擬合問題。這些實驗還揭示了可以在不同網絡架構中一致提高目標檢測性能的良好技術。

所有相關代碼都是開源的，模型的預訓練權重可以在 GluonCV Toolkit 中獲取。

Gluon CV Toolkit 鏈接：https://github.com/dmlc/gluon-cv

圖 1：Bag of Freebies 在不犧牲推理速度的前提下，顯著提高了目標檢測器的性能。

論文：Bag of Freebies for Training Object Detection Neural Networks

論文鏈接：https://arxiv.org/pdf/1902.04103.pdf

摘要：與針對更好的圖像分類模型所取得的巨大研究成就相比，訓練目標檢測器的努力在普及性和普遍性方面都存在不足。由于網絡結構和優化目標要復雜得多，針對特定檢測算法專門設計了不同的訓練策略和流程。在本文中，我們探索了通用的微調，這些微調有助于在不犧牲推理速度的前提下將當前最佳的目標檢測模型提高到一個新水平。我們的實驗表明，這些「freebies」可以提高 5% 的絕對精度。

3. 技術細節

我們提出了一個用于目標檢測的視覺相干圖像混合方法，還介紹了為系統提升模型性能而設計的數據處理和訓練調度器。

3.1 用于目標檢測的視覺相干圖像混合

Zhang 等人在《mixup: Beyond Empirical Risk Minimization》中引入的混合概念被證明在分類網絡中減少對抗干擾方面非常成功。他們提出的混合算法中混合比例的分布來自β分布（a = 0.2, b = 0.2）。大多數的混合幾乎都是這種β分布的噪聲。受到 Rosenfeld 等人啟發式實驗的激勵，我們關注自然共現的目標呈現，這種呈現在目標檢測中扮演重要角色。半對抗目標補丁移植方法不是傳統的攻擊方法。通過應用更復雜的空間變換，我們引入了遮擋，即在自然圖像呈現中常見的空間信號干擾。

我們的實驗中繼續增加了 mixup 中使用的混合比例，由此產生的幀中的目標更有活力，也更符合自然表現，類似于低 FPS 電影中常見的過渡幀。圖像分類和此類高比例 mixup 的視覺對比如圖 2 和圖 3 中所示。我們還使用了保留幾何形狀的對齊方式來進行圖像混合，以避免在初始步驟中扭曲圖像。我們還選擇了視覺相干性更強的β分布，a >= 1 和 b >= 1，而不是按照圖 4 所示的圖像分類中相同的做法。

我們還通過實驗利用 ?網絡在 Pascal VOC 數據集上測試了經驗混合比分布。表 1 顯示了采用檢測混合方法的實際改進情況。α和β都等于 1.5 的β分布略優于 1.0（相當于均勻分布），也優于固定均勻混合。

表 1：在 Pascal VOC 2007 測試集上用 YOLOv3 驗證多種混合方法的有效性。加權損失表示總體損失是多個比例為 0 比 1 的目標的損失之和，該比例是基于它們在原始訓練圖像中所屬的圖像混合比例算出的。

4. 實驗

為了對比所有微調方法對目標檢測結果的改進，我們分別使用 YOLOv3 和 Faster-RCNN 作為單或多階段 pipeline 的代表。為了適應大規模訓練任務，我們使用 Pascal VOC 對精調技巧做評估，使用 COCO 數據集對總體性能提升和泛化能力做驗證。

圖 7：在 COCO 2017 驗證集上利用 BoF 得到的檢測結果示例。

圖 8：YOLOv3 在 COCO 數據集 80 個類別上的 AP 分析。紅線表示使用 BoF 的性能提升，藍線表示性能下降。

圖 9：Faster-RCNN resnet 50 在 C0C0 數據集 80 個類別上的 AP 分析。紅線表示使用 BoF 的性能提升，藍線表示性能下降。

表 2：對 YOLOv3 的訓練精調，在 Pascal VOC 2007 測試集 416×416 圖像上評估。

表 3:對 Faster-RCNN 的訓練精調，在 Pascal VOC 2007 測試集 600 × 1000 圖像上評估。

表 4:利用 bag of freebies（BoF) 方法取得的進步，在 MS COCO 2017 驗證集上評估。

表 5：預訓練圖像分類和檢測網絡混合方法影響的組合分析。

表 6：預訓練圖像分類和檢測網絡混合方法影響的組合分析。?

?掃描上方二維碼關注哦

總結

以上是生活随笔為你收集整理的李沐等将目标检测绝对精度提升 5%，不牺牲推理速度的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： “达观杯”文本智能处理挑战赛，季军带你飞
下一篇：一文看尽目标检测：从 YOLO v1 到

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

李沐等将目标检测绝对精度提升 5%，不牺牲推理速度

總結