當前位置：首頁 > 人工智能 > 目标检测 >内容正文

目标检测

两阶段3D目标检测网络 SIENet: Spatial Information Enhancement Network for 3D Object Detection from Point Cloud

發布時間：2023/12/10 目标检测 45 豆豆

生活随笔收集整理的這篇文章主要介紹了两阶段3D目标检测网络 SIENet: Spatial Information Enhancement Network for 3D Object Detection from Point Cloud 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

本文介紹一篇兩階段的3D目標檢測網絡：SIENet。這里重點是理解本文提出的 Hybrid-Paradigm Region Proposal Network 和 Spatial Information Enhancement module。

論文鏈接為：https://arxiv.org/abs/2103.15396

項目鏈接為：https://github.com/Liz66666/SIENet

0. Abstract

這里先給出本文摘要：

基于LiDAR的3D目標檢測對自動駕駛汽車產生了巨大影響。由于LiDAR固有特性限制，距離LiDAR較遠的物體收集到的點數相對較少。點云的這種密度不平衡往往會降低檢測準確率，但是在之前的研究中都忽略了這一點。

為了解決這一挑戰，本文提出了一種新的兩階段3D目標檢測網絡：SIENet。具體來說，本文設計了 Spatial Information Enhancement（SIE） 模塊，用來預測proposals中前景點的空間形狀，并提取結構信息進行特征學習進一步優化。預測的空間形狀是完整且密集的點集，因此提取的結構信息包含更多的語義表示。此外，本文還設計了 Hybrid-Paradigm Region Proposal Network（HP-RPN），該網絡包括多個網絡分支，進行特征學習并為SIE模塊生成準確的proposals。在KITTI數據集上的實驗表明，本文精心設計的SIENet網絡取得了目前最好的檢測準確率。

1. Introduction & Related Work

( 本文的引言部分和第二部分研究現狀這里就不詳細介紹了，大家可以查看原文，我在這里大致總結下。)

從下面左邊這張圖可以看到，現有的3D目標檢測算法在近距離（20米以內）的檢測準確率都很高（90%左右），但是在遠距離（超過40米）它們的準確率下降到了30%~40%左右。

右邊這張圖說明了點云密度的不平衡性，這里以汽車為例，在近距離內點云數量超過了1000，而在中等距離內點云數量仍然在200個以上，遠距離處點云數量只有20個左右。因此需要找到一個辦法來解決點云密度不平衡性。

下面介紹研究現狀：

3D Object Detection Based on Multi-modality Fusion
多模態融合的3D目標檢測方法有MV3D，AVOD，Frustum PointNet，EPNet，3D-CVF。以上方法需要同時使用圖像和點云數據，且需要進行數據對齊和投影。
3D Object Detection Based on LiDAR Only
基于LiDAR的檢測方法有VoxelNet，SECOND，Part-A2，PointRCNN，3DSSD，STD。但是這些研究都忽視了點云密度不平衡性的問題。
3D Shape Completion
在本文中選擇Pcn (Point completion network)算法進行物體空間形狀的預測，生成完整且密集的點集。

Detection performance at different distance rangesIllustration of the point cloud with imbalanced density on the KITTI dataset

2. Our Framework （重點）

下圖是SIENet網絡整體框架，由HP-RPN和SIE module組成。下面首先介紹HP-RPN，然后介紹SIE module。

2.1 Hybrid-Paradigm RPN

如下圖所示，HP-RPN包含三個分支：SPConv Branch，Auxiliary Branch，Keypoint Branch。首先對點云進行體素化處理，使用SPConv Branch學習voxel特征，然后Keypoint Branch使用注意力機制動態編碼voxel 特征，Auxiliary Branch用于學習結構信息。

下面詳解介紹這三個網絡分支：

SPConv branch
和SECOND一樣，這里將點云劃分為一個個相等大小的voxel，堆疊4個稀疏卷積塊對輸入的體素特征進行8倍下采樣，最后使用和SECOND一樣的RPN Head生成候選方案。
Auxiliary branch
這里使用了SA-SSD網絡中的Auxiliary Network將voxel坐標轉換為真實場景坐標，同時使用PointNet++中的特征傳播層進行插值，將每一塊得到的特征進行結合用以學習結構信息。
Keypoint branch
和PVRCNN中的VSA模塊進行voxel特征融合相似，但是由于點云密度不平衡，每個keypoint權重并不一樣，使用了Deformable pv-rcnn中的context fusion方法分配關鍵點權重。

2.2 Spatial Information Enhancement Module

這里有三個問題需要考慮：如何預測空間形狀？如何提取結構信息？如何進行特征融合和box優化？

Spatial shape prediction
空間形狀預測如下圖所示，這里選擇PCN作為主干網來進行預測。假設輸入點集為： ${Pi∣i=1,…,N}\left\{\boldsymbol{P}_{i} \mid i=1, \ldots, N\right\}$ ，其中 $Pi\boldsymbol{P}_{i}$ 是坐標向量， $N$ 為點的個數。為了減少干擾，這里先使用了Part-A2中的RoI-aware pooling進行點集變換；然后使用一個PointNet得到一個256維的全局特征向量 $v$ ，特征結合得到512維的特征，然后再使用一個PointNet得到1024維的全局特征向量，最后再使用全連接層網絡得到新的點集 $P^\hat{\boldsymbol{P}}$ 。
Structure information extraction
現在我們已經有了預測的形狀點集 ${P^i∣i=1,…,1024}\left\{\hat{\boldsymbol{P}}_{i} \mid i=1, \ldots, 1024\right\}$ ，我們使用FPS采樣 $m$ 個點得到點集 ${Si∣i=1,…,m}\left\{\boldsymbol{S}_{i} \mid i=1, \ldots, m\right\}$ 。對每一個采樣點，有 $T$ 個近鄰點。使用MSG方法進行多尺度的特征提取得到 $\times\left(C_{1}+C_{1}\right)$ ，最后使用全連接層網絡得到全局信息 $Fs∈RC1\boldsymbol{F}^{s} \in \mathbb{R}^{C_{1}}$ 。
Feature fusion and box refinement
特征融合如下圖所示。首先使用了PV-RCNN中的RoI-grid pooling捕獲網格點近鄰 keypoint 的 context 信息，表示為： $Fg={f1g,f2g,…,f216g}∈R216×C2\boldsymbol{F}^{g}=\left\{\boldsymbol{f}_{1}^{g}, \boldsymbol{f}_{2}^{g}, \ldots, \boldsymbol{f}_{216}^{g}\right\} \in \mathbb{R}^{216 \times C_{2}}$ 。然后網格點特征和結構特征進行結合得到新的特征： $Fc=[Fg,Fs]∈R216×(C2+C1)\boldsymbol{F}^{c}=\left[\boldsymbol{F}^{g}, \boldsymbol{F}^{s}\right] \in \mathbb{R}^{216 \times\left(C_{2}+C_{1}\right)}$ ，這里在結合時使用了Perspective-Channel Attention分配特征權重，最后得到增強權重 $Fe∈R216×(C2+C1)\boldsymbol{F}^{e} \in \mathbb{R}^{216 \times\left(C_{2}+C_{1}\right)}$ 。

3. Experiments

實驗部分，作者在KITTI數據集上進行了驗證，實驗細節這里不介紹了，可以查看代碼和論文，下面幾張表是實驗結果。

Comparison with the state-of-the-art methods on KITTI test setComparison with the state-of-the-art methods on KITTI val split - Moderate Car (R11)

下面兩張表是本文提出的HP-RPN和SIE對檢測準確率的影響。

Effects of auxiliary branch and context fusion for HP-RPNEffects of SIE module

下面這張表是在驗證集上對Moderate difficulty在不同距離上的檢測準確率。

最后是本文提出的物體形狀預測的可視化效果。

總結

以上是生活随笔為你收集整理的两阶段3D目标检测网络 SIENet: Spatial Information Enhancement Network for 3D Object Detection from Point Cloud的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： postmaster.exe是什么进程
下一篇：从零开始学视觉Transformer （