當前位置：首頁 > 人工智能 > 目标检测 >内容正文

目标检测

CVPR 2020 | 港中文提出3D目标检测新框架DSGN

發布時間：2024/10/8 目标检测 104 豆豆

生活随笔收集整理的這篇文章主要介紹了 CVPR 2020 | 港中文提出3D目标检测新框架DSGN 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

?PaperWeekly 原創 ·?作者｜張承灝

學校｜中科院自動化所碩士生

研究方向｜雙目深度估計

本文介紹的是香港中文大學賈佳亞團隊在 CVPR 2020 上提出的?3D 目標檢測新框架——深度立體幾何網絡（Deep Stereo Geometry Network，DSGN）。

通過構造一種可導的 3D 幾何體來實現 3D 目標檢測，從而減小了基于圖像的方法和基于 LiDAR 的方法之間的鴻溝。這是第一個一階段的，基于雙目的 3D 目標檢測器，在 KITTI 3D 目標檢測榜單上超越以往基于雙目的 3D 目標檢測方法。

論文標題：DSGN: Deep Stereo Geometry Network for 3D Object Detection

論文地址：https://arxiv.org/abs/2001.03398

開源代碼：https://github.com/chenyilun95/DSGN

背景

根據特征的表示方法不同，3D 目標檢測器主要分為基于圖像的 3D 檢測器和基于 LiDAR 的 3D 檢測器。

基于 LiRAD 的 3D 檢測器：主要分為基于體素的方法和基于點云的方法；
基于圖像的 3D 檢測器：主要分為基于深度估計的方法和基于 3D 特征的方法；

由于 LiDAR 傳感器能夠捕捉準確的 3D 信息，因此基于 LiDAR 的 3D 檢測器準確率較高。其不足之處在于 LiDAR 設備笨重且價格昂貴，得到是帶有激光束的稀疏分辨率的數據。

相比之下，視頻攝像機要便宜很多，并且能夠產生更加稠密的分辨率。這種基于圖像的方法通常依靠單目或者雙目深度估計，但是準確率仍然無法與基于 LiDAR 的方法相媲美。

基于深度估計的方法將 3D 目標檢測分為兩步：深度估計和目標檢測，這其中最大的挑戰在于 2D 網絡并不能提取到穩定的 3D 信息。

另一種方案是先利用深度估計產生中間偽點云，再利用基于 LiDAR 的 3D 目標檢測方法。但是這種方法中的變換是不可導的，并且需要多個獨立的網絡，還容易出現失真現象。

DSGN 是一種基于雙目深度估計的，端到端的 3D 目標檢測框架，其核心在于通過空間變換將 2D 特征轉換成有效的 3D 結構。論文的主要貢獻如下：

為了彌補 2D 圖像和 3D 空間的鴻溝，作者利用立體匹配構建平面掃描體（plane-sweep volume，PSV），并將其轉換成 3D 幾何體（3D geometric volume，3DGV），以便能夠編碼 3D 幾何形狀和語義信息。
作者設計了一個端到端的框架，以提取用于立體匹配的像素級特征和用于目標識別的高級特征。所提出的 DSGN 能同時估計場景深度并檢測 3D 目標，從而實現多種實際應用。
作者提出的簡單且完全可導的網絡在 KITTI 排行榜上超越所有其他基于雙目深度估計的 3D 目標檢測器（AP 高出 10 個點）。

方法

上圖展示了 DSGN 的整體框架圖。將雙目圖像對作為輸入，利用權重共享的孿生網絡提取特征，并構建一個平面掃描體（PSV），它可以學習逐像素的對應關系。

接著通過可導的 warping 操作，將 PSV 轉換為 3D 幾何體（3DGV），從而構建 3D 世界坐標系的 3D 幾何特征。最后利用 3D 卷積網絡作用于 3DGV 進行 3D 目標檢測。

2.1 特征提取

作者借鑒 PSMNet [1] 的特征提取器作為深度估計和 3D 目標檢測的共享特征提取網絡。為了提取更多的高層次特征，并且減少計算量，主要進行了以下改動：

將更多的計算從 conv_3 轉到 conv_4 和 conv_5，比如從 conv_2 到 conv_5 的基本模塊的通道數從 {3,16,3,3} 變成 {3,6,12,4}。

PSMNet 中的 SPP 模塊增加了 conv_4 和 conv_5。

conv_1 的輸出通道數和殘差模塊的輸出通道數有所改變。

詳細的網絡結構可參考論文中的附錄部分。

2.2 構建3DGV

論文的核心是如何構建帶有 3D 幾何特征的 3DGV，它是由 PSV 經過 warping 操作轉換得到。3DGV 可以看做是 3D 世界坐標系的 3D 體素網格，它的大小是，分別沿攝像機視角的右方，下方和前方。每個體素的大小是。

2.3 Plane-Sweep Volume

在雙目立體匹配中，一對左右圖像用來構造基于視差的匹配代價體（cost volume），它計算了左右圖像的像素點在水平方向上的位移是視差的匹配代價。

根據基于 cost volume 的立體匹配方法，連接左右圖特征構造 PSV，它的坐標表示為，其中表示圖像上在該位置的像素點，表示垂直于圖像平面的深度信息。那么空間可以被稱為相機坐標系。

之后利用 3D Hourglass 網絡進行代價聚合。對于視差/深度估計，利用可導的 soft argmin 操作來計算所有概率為 ? 的深度候選值的期望：

其中深度的候選值在間隔為的預定義網格（即，）內均勻采樣。再利用 softmax 函數使得模型為每個像素點只選擇一個深度值，從而完成深度估計。

2.4 3D Geometric Volume

有了照相機坐標，在已知攝像機內參的情況下，可以利用相機投影矩陣實現從世界坐標系到相機坐標系的轉換。假設世界坐標系表示為，而前面的相機坐標表示為，經典的轉換方法是從世界坐標系到相機坐標系：

而現在PSV的最后一層特征作為已知的相機坐標系，要想得到世界坐標系，因此需要使用相機投影矩陣的逆矩陣。

其中和分別是水平方向和豎直方向的焦距，和是相機位姿參數。該操作是完全可導的，可以利用三線性差值的 warp 操作實現。

2.5 3D目標檢測器

對于 3D 目標檢測網絡部分，作者借鑒 anchor-free 的方法 FCOS [2] 中的centerness思想，設計了一種基于距離的策略來分配目標，同時也繼續保持anchor。

具體來說，令 3DGV 中的特征圖大小為，經過逐步下采樣操作，得到用于鳥瞰視角的特征圖，其大小為。

對于中的每一個位置，放置幾個不同方向和大小的anchor。假設anchors用表示，而GT目標框用表示，那么它們的位置，預設大小和方向定義如下：

Anchors：
GT：
預測值：

其中是 anchor 方向的數量，是每個參數學習的偏置。

沿用 FCOS 中的 centerness 思想，作者利用 anchor 和 GT 在 8 個角上的坐標距離作為目標分配的策略：

將與 GT 最近的 N 個樣本作為正樣本，其中，是 GT 中體素的個數，而用來調整正樣本的個數。最終的 centerness 定義如下：

其中的范數表示最小-最大歸一化。

2.6 多任務訓練

DSGN 的整個網絡同時進行雙目深度估計和 3D 目標檢測，因此是一個多任務訓練過程，整體 loss 如下：

對于深度估計，采用 smooth L1 loss，是 GT 中的有效像素點，

對于 3D 目標檢測的分類任務，采用 focal loss 避免樣本不平衡的缺陷，是正樣本的個數，對于 centerness 采用 BCE loss。

對于 3D 目標檢測的回歸任務，采用 smooth L1 loss 進行回歸，

實驗

作者在 KITTI 3D 目標檢測數據集上進行實驗評測，該數據集包含 7481 張訓練圖像對和 7518 張測試圖像對，分為 Car, Pedestrian 和 Cyclist 三種類型。下面是在測試集上的主要結果：

從表中可以看出，對于 3D 和 BEV（Bird's Eye View）目標檢測，DSGN 超越了所有基于圖像的 3D 目標檢測器；在 2D 檢測上，也僅僅比 3DOP 要差一點。

值得一提的是，DSGN 首次得到了與基于 LiDAR 的目標檢測器 MV3D 相當的準確率，該結果證明至少在低速自動駕駛條件下是有應用前景的。這些都驗證了 3DGV 的有效性，表明 3DGV 構建了 2D 圖像和 3D 空間的橋梁。

作者將訓練集分成一半訓練集，一半驗證集進行消融分析，下面是消融實驗的結果：

從上表中可以得到以下幾個結論：

點云的監督是很重要的。有點云監督的結果要大大優于沒有監督的情況。
在有點云監督的情況下，基于雙目的方法要遠遠優于基于單目的方法。再次證明僅僅有 3D 檢測框的監督信息是不充分的，基于雙目的深度信息對于 3D 檢測相當重要。
PSV 對于 3D 結構是一種更合適的特征表示。PSCV 相比于 CV 的不同在于從相機坐標系到世界坐標系的轉換，對于 3D 檢測 AP 從 45.89 提升到 54.27。
PSV 作為一種中間編碼方式能更有效地包含深度信息，因為它是深度估計網絡的中間特征。

討論和總結

Stereo RCNN [3] 是 CVPR 2019 的 3D 目標檢測器，它是通過擴展 Faster RCNN，以雙目圖像作為輸入的端到端 3D 檢測器。我們可以通過比較 DSGN 和 Stereo RCNN 的不同之處來更好的理解 DSGN。

DSGN 是 one-stage 的目標檢測器，而 Stereo RCNN 是 two-stage 的。
DSGN 利用了深度點云信息作為深度估計網絡的監督，從而實現深度估計和3D目標檢測的多任務學習，而 Stereo RCNN 僅有 3D 檢測框的監督信息。這種點云監督信息使得DSGN中的 PSV 成為更好的特征表示，這可能是 DSGN 性能大大提升的根本所在。
從目標檢測的角度看，二者都采用了 anchor，不過 DSGN 借鑒了 anchor-free 的 centerness 思想，使得檢測性能更優。

參考文獻

[1] Jia-Ren Chang and Yong-Sheng Chen. Pyramid stereo matching network. In CVPR, pages 5410–5418, 2018.?

[2] Zhi Tian, Chunhua Shen, Hao Chen, and Tong He. Fcos: Fully convolutional one-stage object detection. 2019.?

[3] Peiliang Li, Xiaozhi Chen, and Shaojie Shen. Stereo r-cnn based 3d object detection for autonomous driving. In CVPR, pages 7644–7652, 2019.

點擊以下標題查看更多往期內容：?

變分推斷（Variational Inference）最新進展簡述
變分自編碼器VAE：原來是這么一回事
圖神經網絡三劍客：GCN、GAT與GraphSAGE
如何快速理解馬爾科夫鏈蒙特卡洛法？
深度學習預訓練模型可解釋性概覽
ICLR 2020：從去噪自編碼器到生成模型

#投稿?通道#

?讓你的論文被更多人看到?

如何才能讓更多的優質內容以更短路徑到達讀者群體，縮短讀者尋找優質內容的成本呢？答案就是：你不認識的人。

總有一些你不認識的人，知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁，促使不同背景、不同方向的學者和學術靈感相互碰撞，迸發出更多的可能性。?

PaperWeekly 鼓勵高校實驗室或個人，在我們的平臺上分享各類優質內容，可以是最新論文解讀，也可以是學習心得或技術干貨。我們的目的只有一個，讓知識真正流動起來。

?????來稿標準：

? 稿件確系個人原創作品，來稿需注明作者個人信息（姓名+學校/工作單位+學歷/職位+研究方向）?

? 如果文章并非首發，請在投稿時提醒并附上所有已發布鏈接?

? PaperWeekly 默認每篇文章都是首發，均會添加“原創”標志

?????投稿郵箱：

? 投稿郵箱：hr@paperweekly.site?

? 所有文章配圖，請單獨在附件中發送?

? 請留下即時聯系方式（微信或手機），以便我們在編輯發布時和作者溝通

????

現在，在「知乎」也能找到我們了

進入知乎首頁搜索「PaperWeekly」

點擊「關注」訂閱我們的專欄吧

關于PaperWeekly

PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域，歡迎在公眾號后臺點擊「交流群」，小助手將把你帶入 PaperWeekly 的交流群里。

總結

以上是生活随笔為你收集整理的CVPR 2020 | 港中文提出3D目标检测新框架DSGN的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：一只小猪多少钱猪肉价格走势及市场行情分
下一篇：为什么喝完酸奶拉肚子？