两阶段3D目标检测网络 SIENet: Spatial Information Enhancement Network for 3D Object Detection from Point Cloud
本文介紹一篇兩階段的3D目標檢測網絡:SIENet。 這里重點是理解本文提出的 Hybrid-Paradigm Region Proposal Network 和 Spatial Information Enhancement module。
論文鏈接為:https://arxiv.org/abs/2103.15396
項目鏈接為:https://github.com/Liz66666/SIENet
0. Abstract
這里先給出本文摘要:
基于LiDAR的3D目標檢測對自動駕駛汽車產生了巨大影響。由于LiDAR固有特性限制,距離LiDAR較遠的物體收集到的點數相對較少。點云的這種密度不平衡往往會降低檢測準確率,但是在之前的研究中都忽略了這一點。
為了解決這一挑戰,本文提出了一種新的兩階段3D目標檢測網絡:SIENet。具體來說,本文設計了 Spatial Information Enhancement(SIE) 模塊,用來預測proposals中前景點的空間形狀,并提取結構信息進行特征學習進一步優化。預測的空間形狀是完整且密集的點集,因此提取的結構信息包含更多的語義表示。此外,本文還設計了 Hybrid-Paradigm Region Proposal Network(HP-RPN),該網絡包括多個網絡分支,進行特征學習并為SIE模塊生成準確的proposals。在KITTI數據集上的實驗表明,本文精心設計的SIENet網絡取得了目前最好的檢測準確率。
1. Introduction & Related Work
( 本文的引言部分和第二部分研究現狀這里就不詳細介紹了,大家可以查看原文,我在這里大致總結下。)
從下面左邊這張圖可以看到,現有的3D目標檢測算法在近距離(20米以內)的檢測準確率都很高(90%左右),但是在遠距離(超過40米)它們的準確率下降到了30%~40%左右。
右邊這張圖說明了點云密度的不平衡性,這里以汽車為例,在近距離內點云數量超過了1000,而在中等距離內點云數量仍然在200個以上,遠距離處點云數量只有20個左右。因此需要找到一個辦法來解決點云密度不平衡性。
下面介紹研究現狀:
- 3D Object Detection Based on Multi-modality Fusion
多模態融合的3D目標檢測方法有MV3D,AVOD,Frustum PointNet,EPNet,3D-CVF。以上方法需要同時使用圖像和點云數據,且需要進行數據對齊和投影。 - 3D Object Detection Based on LiDAR Only
基于LiDAR的檢測方法有VoxelNet,SECOND,Part-A2,PointRCNN,3DSSD,STD。但是這些研究都忽視了點云密度不平衡性的問題。 - 3D Shape Completion
在本文中選擇Pcn (Point completion network)算法進行物體空間形狀的預測,生成完整且密集的點集。
2. Our Framework (重點)
下圖是SIENet網絡整體框架,由HP-RPN和SIE module組成。下面首先介紹HP-RPN,然后介紹SIE module。
2.1 Hybrid-Paradigm RPN
如下圖所示,HP-RPN包含三個分支:SPConv Branch,Auxiliary Branch,Keypoint Branch。首先對點云進行體素化處理,使用SPConv Branch學習voxel特征,然后Keypoint Branch使用注意力機制動態編碼voxel 特征,Auxiliary Branch用于學習結構信息。
下面詳解介紹這三個網絡分支:
- SPConv branch
和SECOND一樣,這里將點云劃分為一個個相等大小的voxel,堆疊4個稀疏卷積塊對輸入的體素特征進行8倍下采樣,最后使用和SECOND一樣的RPN Head生成候選方案。 - Auxiliary branch
這里使用了SA-SSD網絡中的Auxiliary Network將voxel坐標轉換為真實場景坐標,同時使用PointNet++中的特征傳播層進行插值,將每一塊得到的特征進行結合用以學習結構信息。 - Keypoint branch
和PVRCNN中的VSA模塊進行voxel特征融合相似,但是由于點云密度不平衡,每個keypoint權重并不一樣,使用了Deformable pv-rcnn中的context fusion方法分配關鍵點權重。
2.2 Spatial Information Enhancement Module
這里有三個問題需要考慮:如何預測空間形狀?如何提取結構信息?如何進行特征融合和box優化?
-
Spatial shape prediction
空間形狀預測如下圖所示,這里選擇PCN作為主干網來進行預測。假設輸入點集為:{Pi∣i=1,…,N}\left\{\boldsymbol{P}_{i} \mid i=1, \ldots, N\right\}{Pi?∣i=1,…,N},其中Pi\boldsymbol{P}_{i}Pi?是坐標向量,NNN為點的個數。為了減少干擾,這里先使用了Part-A2中的RoI-aware pooling進行點集變換;然后使用一個PointNet得到一個256維的全局特征向量vvv,特征結合得到512維的特征,然后再使用一個PointNet得到1024維的全局特征向量,最后再使用全連接層網絡得到新的點集P^\hat{\boldsymbol{P}}P^。
-
Structure information extraction
現在我們已經有了預測的形狀點集{P^i∣i=1,…,1024}\left\{\hat{\boldsymbol{P}}_{i} \mid i=1, \ldots, 1024\right\}{P^i?∣i=1,…,1024},我們使用FPS采樣mmm個點得到點集{Si∣i=1,…,m}\left\{\boldsymbol{S}_{i} \mid i=1, \ldots, m\right\}{Si?∣i=1,…,m}。對每一個采樣點,有TTT個近鄰點。使用MSG方法進行多尺度的特征提取得到m×(C1+C1)m \times\left(C_{1}+C_{1}\right)m×(C1?+C1?),最后使用全連接層網絡得到全局信息Fs∈RC1\boldsymbol{F}^{s} \in \mathbb{R}^{C_{1}}Fs∈RC1?。 -
Feature fusion and box refinement
特征融合如下圖所示。首先使用了PV-RCNN中的RoI-grid pooling捕獲網格點近鄰 keypoint 的 context 信息,表示為:Fg={f1g,f2g,…,f216g}∈R216×C2\boldsymbol{F}^{g}=\left\{\boldsymbol{f}_{1}^{g}, \boldsymbol{f}_{2}^{g}, \ldots, \boldsymbol{f}_{216}^{g}\right\} \in \mathbb{R}^{216 \times C_{2}}Fg={f1g?,f2g?,…,f216g?}∈R216×C2?。然后網格點特征和結構特征進行結合得到新的特征:Fc=[Fg,Fs]∈R216×(C2+C1)\boldsymbol{F}^{c}=\left[\boldsymbol{F}^{g}, \boldsymbol{F}^{s}\right] \in \mathbb{R}^{216 \times\left(C_{2}+C_{1}\right)}Fc=[Fg,Fs]∈R216×(C2?+C1?),這里在結合時使用了Perspective-Channel Attention分配特征權重,最后得到增強權重Fe∈R216×(C2+C1)\boldsymbol{F}^{e} \in \mathbb{R}^{216 \times\left(C_{2}+C_{1}\right)}Fe∈R216×(C2?+C1?)。
3. Experiments
實驗部分,作者在KITTI數據集上進行了驗證,實驗細節這里不介紹了,可以查看代碼和論文,下面幾張表是實驗結果。
下面兩張表是本文提出的HP-RPN和SIE對檢測準確率的影響。
下面這張表是在驗證集上對Moderate difficulty在不同距離上的檢測準確率。
最后是本文提出的物體形狀預測的可視化效果。
總結
以上是生活随笔為你收集整理的两阶段3D目标检测网络 SIENet: Spatial Information Enhancement Network for 3D Object Detection from Point Cloud的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: postmaster.exe是什么进程
- 下一篇: 从零开始学视觉Transformer (