當前位置：首頁 >

Waymo 2020 | 2D/3D目标检测、跟踪和域自适应性冠军解决方案解析

發布時間：2024/10/8 141 豆豆

生活随笔收集整理的這篇文章主要介紹了 Waymo 2020 | 2D/3D目标检测、跟踪和域自适应性冠军解决方案解析小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

?PaperWeekly 原創 ·?作者｜黃飄

學校｜華中科技大學碩士

研究方向｜多目標跟蹤

隨著最近 Waymo Open Dataset Challenges 2020 的落幕，其中關于 2D/3D 目標檢測和跟蹤賽道的部分冠亞軍解決方案也都公布了，由于我只看到了地平線發布的論文，所以就只分析他們公司在這次比賽中的解決方案。?

PS：地平線在 Waymo 2020 中獲得了 3D 檢測、2D/3D 跟蹤和域自適應性賽道冠軍，2D 檢測賽道亞軍。

HorizonDet

論文標題：2nd Place Solution for Waymo Open Dataset Challenge - 2D Object Detection

論文鏈接：https://arxiv.org/abs/2006.15507

一般檢測競賽的算法技術報告中，榜前的方法都是各種算法 ensemble 的，比如多種檢測算法結合，又比如多種 nms 方式的結合等。

1.1 模型選擇

地平線這次在 Waymo 2020 的 2D 檢測賽道獲得了第二名，也同樣用到了模型 ensemble 的方式。對于檢測算法，他們團隊考慮到兩階段算法和單階段 anchor-free 算法在檢測結果多樣性方面的互補，以及 anchor-free 算法在擁擠、小目標場景下更好的效果，選用了 Cascade R-CNN 和 CenterNet 的結合。

其中 CenterNet 部分，采用了兩組 Hourglass104 網絡作為 backbone，其中第一組的輸出只在訓練的時候為提供 auxilliary loss，具體見下圖。

1.2 訓練策略

另外，還引入了 AAAI 2020 中針對 CenterNet 這類算法框架提出的訓練策略改進 TTF?[2]，為了提供更多高質量的正樣本。由于 CenterNet 所采用的高斯核只考慮了中心點和與之距離的因素，在 x,y 方向共用一組標準差，生成了圓形的高斯 mask：

而 TTF 中則是考慮到了目標的 aspect ratio，提出了多樣的標準差：

上述的這種只是對中心點回歸訓練的改進，接下來是對目標框寬高的回歸的改進。原始的 CenterNet 假設預測得到的中心點絕對準確，所以可以通過寬高得到最終的目標框。但是 TTF 默認預測得到中心點不一定準確，所以預測的是中心點距離兩個角點的 offset：

對于 anchor 的設定則是在原始的 0.5,1,2 基礎上，考慮到車輛，加入了 0.25 和 0.75 兩種 aspect ratio。與此同時，考慮到部分標注錯誤，還加入了 label smoothing。

1.3 模型ensemble

接下來就是模型 ensemble了，除了 Cascade RCNN 和 CenterTrack 的結合，還考慮到了不同尺度輸入策略（對于前者選取了 0.8,1.0,1.2 三種尺度，對于后者選取了 0.5,0.75,1,1.25,1.5 五種尺度），當然還有不同訓練代數、策略下不同的模型，還有不同后處理的結果。

作者團隊將不同檢測框架和不同推理策略進行組合，通過二叉樹來構建貪婪式的自動 ensemble 框架：

每組模型的評價由驗證集上的 mAP 指標為準，模型結果的融合則是基于不同的 nms 處理方式，這里作者用了五種后處理方式：

其中第二種 adj-nms 指的是商湯在 OpenImage 2019 上的提出的方案：

即先用傳統的 NMS，再用 Soft-NMS。第三種 NMS 指的是 ICCV 2017 workshop 上的一篇論文提出的方法：

即對于當前選擇的置信度較高的候選框，基于其周圍候選框與其的 iou 和各自的類別置信度信息對候選框進行加權融合，有點像 softer-nms。對于后兩種后處理即直接取第一種模型或者第二種模型。

結果如下：

這里面的 GAE 就是模型 ensemble，Expert Models 指的是只用白天、夜晚等場景下的數據進行訓練。

AFDet

論文標題：AFDet: Anchor Free One Stage 3D Object Detection

論文鏈接：https://arxiv.org/abs/2006.12671

AFDet 是地平線這次 3D 檢測競賽的 baseline 算法，在 CVPR2020 Workshop 上報告過，從算法流程圖可以知道的 AFDet 由點云編碼器、骨干網絡和檢測器三部分構成。其中點云編碼器部分采用的是 CVPR2019 的一篇論文中提出的 PointPillars 算法：

其首先基于鳥瞰圖將原始空間劃分為 HxW 的網格區域，那么每個點都存在有：

9 個維度的特征。其中前三個為每個點的真實位置坐標，r 為反射率，帶 c 下標的是該網格內所有點的均值，帶 p 下標的是對點相對于網格中心的偏差。

然后取 P 個非空網格區域，每個區域取 N 個點，多的話就采樣，少的話就補 0，D 代表特征維度 9，因此就得到 DxPxN 的 tensor。然后利用線性層進行特征轉換得到 CxPxN 的 tensor，緊接著利用取最值的操作得到 CxP 的 tensor，即每個非空網格區域對應一組特征。

最后根據網格位置映射到 HxW 空間，得到 CxHxW 的 tensor，從而可以使用二維卷積的策略進行進一步特征學習。

其 backbone 部分網絡結構如下：

在檢測器部分，作者團隊采用的是 anchor-free 的檢測框架，其回歸預測部分包含有 5 個分支：

目標定位（heatmap、offset 和 z 方向定位）：

這部分類似于 centernet，中心點的標簽是依據點到預設網格點的歸一化后的 offset 確定的，而 heatmap 則是采用的：

而 offset 的損失計算則引入了一個圍繞中心點的正方形區域，用來緩和微小的定位誤差：

其中 b 是網格區域的 size，r 是正方形的 size，通過一個方形區域的設定，當中心點位置剛好正確，那么誤差最小，如果中心點位置稍微發生偏移則會增大誤差。z 方向的回歸采用的是 L1 Loss。

框的尺寸回歸：

這部分就是長寬高的回歸，同樣采用 L1 Loss。

方向回歸：

這里的方向是繞 z 軸的角度，設定了兩個 bin，分別是 [-7π/6,π/6] 和 [-π/6,7π/6]，每個 bin 有四個變量，兩個用作 softmax 分類，兩個用作角度回歸。其中分類是判定屬于哪種 bin，角度回歸是相對于 bin 中心的 sin 和 cos 偏差。

在推理階段，通過 max pooling 等操作取峰值，從而避免使用 NMS。

結果如下：

HorizonLiDAR3D

論文標題：1st Place Solution for Waymo Open Dataset Challenge - 3D Detection and Domain Adaptation

論文鏈接：https://arxiv.org/abs/2006.15505

可以看到，HorizonLiDAR3D 檢測框架跟 AFDet 基本一樣，區別就在于，這個是用來參賽的，所以會增加很多 tricks 和 ensemble。其中的點云編碼部分跟之前一樣，還是編碼成了 pseudo image 形式：

而中間的 backbone 和 necks 部分則是換成了更加復雜的形式，包含有兩種 3D 特征提取器和三種 RPN 網絡，組合成了三種網絡框架：

其中 3D 特征提取部分的 SPConv3D 卷積是由幾個 submanifold 卷積和一個稀疏卷積層構成?[6]，其目的是防止網絡稀疏性下降：

可以看到原本稀疏的點在經過卷積之后，逐漸變得模糊，從而使得稀疏性下降，所以采用了稀疏卷積。這里我沒有具體到相應的論文去研究這種卷積的模式，不過我猜測應該類似于在卷積之后，通過判斷每個點的感受野中心是否為上一層的 active 區域，如果是就保留，否則置 0。

在推理階段，作者團隊將前 4 幀的點云信息也一并利用起來，用來增加稠密性，所以輸入維度多了一個時間維度。另外團隊也充分利用了 Waymo 數據集提供的 5 種 LiDAR sweeps。

在數據增強環節，除了一些基本的平移旋轉操作，作者在每幀中加入了 6 個車輛、8 個行人和 10 個自行車，并沿著 z 軸做隨機反轉。特別地，作者團隊借鑒 CVPR 2020 中 Pointpainting 的方式，引入了顏色信息，用來增加類別區分度和更豐富的偽點云信息：

引入 painting 之后的效果好了很多：

當然，還有一些模型 ensemble，這里我就不再細說了，放最后的結果：

HorizonMOT (2D/3D)

論文標題：1st Place Solutions for Waymo Open Dataset Challenges - 2D and 3D Tracking

論文鏈接：https://arxiv.org/abs/2006.15506

近期聯合檢測和跟蹤的算法框架很熱門，性能也比較好，比如 CenterTrack、FairMOT 等。作者團隊也借鑒了這一點，檢測框架部分自然就是采用了上面所介紹的 HorizonDet 和 HorizonLiDAR3D，而跟蹤分支則是借鑒了 FairMOT 的模式，增加了 reid 分支：

其中虛線部分是尚未來得及在競賽中使用的部分。跟蹤部分假設不使用未來信息，不考慮相機運動，具體如下：

運動模型

這一部分借鑒了 DeepSort 算法，使用了 Kalman Filter 算法，在 2D 跟蹤中設定的狀態變量是中心坐標、長寬比和高度以及各自的速度變化量。在 3D 跟蹤中設定的狀態變量為 3D 坐標、長寬高和位置的速度變化量。

表觀模型

表觀模型的引入主要是為了防止擁擠和軌跡暫時丟失的問題，行人輸入為 128x64，車輛輸入為 128x128，經過 11 個 3x3 卷積和 3 個 1x1 卷積以及一些 pooling 層得到 512 維向量。

數據關聯

數據關聯的基礎算法是匈牙利算法，這里作者將關聯過程分成了三個階段，與此同時將檢測結果按照置信度分成了兩份，一份置信度大于 t(s)，一份介于 t(s)/2 和 t(s) 之間。

第一階段的數據關聯跟 DeepSort 一樣，采用級聯匹配的方式，對跟蹤框和第一份檢測結果進行匹配，也就是先匹配持續跟蹤的目標，對于暫時丟失的目標降低優先級；

第二階段的數據關聯會對第一階段中尚未匹配的跟蹤軌跡（丟失時間小于 3）和剩余的第一份檢測結果進行匹配，當然也會降低一些匹配閾值

第三階段的數據關聯會對第二階段尚未匹配的跟蹤軌跡和第二份檢測結果進行匹配，同樣降低閾值標準。

對于不同目標的閾值也是有區別的：

而對于 2D 和 3D 目標的 IOU 距離計算則是：

其中 ReID 特征的余弦距離用于第一階段，而 IOU 距離用于后兩個階段。

最終的結果如下：

參考文獻

[1] 2nd Place Solution for Waymo Open Dataset Challenge - 2D Object Detection

[2] Training-Time-Friendly Network for Real-Time Object Detection

[3] AFDet: Anchor Free One Stage 3D Object Detection

[4] PointPillars: Fast Encoders for Object Detection from Point Clouds

[5] 1st Place Solution for Waymo Open Dataset Challenge - 3D Detection and Domain Adaptation

[6] Second: Sparsely embedded convolutional detection

[7] 1st Place Solutions for Waymo Open Dataset Challenges - 2D and 3D Tracking

更多閱讀

#投稿?通道#

?讓你的論文被更多人看到?

如何才能讓更多的優質內容以更短路徑到達讀者群體，縮短讀者尋找優質內容的成本呢？答案就是：你不認識的人。

總有一些你不認識的人，知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁，促使不同背景、不同方向的學者和學術靈感相互碰撞，迸發出更多的可能性。?

PaperWeekly 鼓勵高校實驗室或個人，在我們的平臺上分享各類優質內容，可以是最新論文解讀，也可以是學習心得或技術干貨。我們的目的只有一個，讓知識真正流動起來。

?????來稿標準：

? 稿件確系個人原創作品，來稿需注明作者個人信息（姓名+學校/工作單位+學歷/職位+研究方向）?

? 如果文章并非首發，請在投稿時提醒并附上所有已發布鏈接?

? PaperWeekly 默認每篇文章都是首發，均會添加“原創”標志

?????投稿郵箱：

? 投稿郵箱：hr@paperweekly.site?

? 所有文章配圖，請單獨在附件中發送?

? 請留下即時聯系方式（微信或手機），以便我們在編輯發布時和作者溝通

????

現在，在「知乎」也能找到我們了

進入知乎首頁搜索「PaperWeekly」

點擊「關注」訂閱我們的專欄吧

關于PaperWeekly

PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域，歡迎在公眾號后臺點擊「交流群」，小助手將把你帶入 PaperWeekly 的交流群里。

總結

以上是生活随笔為你收集整理的Waymo 2020 | 2D/3D目标检测、跟踪和域自适应性冠军解决方案解析的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：《索尼克》游戏团队确认，系列新作将延续对
下一篇： Self-training在目标检测任务

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

Waymo 2020 | 2D/3D目标检测、跟踪和域自适应性冠军解决方案解析

1.2 訓練策略

總結