两阶段3D目标检测网络 SIENet: Spatial Information Enhancement Network for 3D Object Detection from Point Cloud
本文介紹一篇兩階段的3D目標(biāo)檢測(cè)網(wǎng)絡(luò):SIENet。 這里重點(diǎn)是理解本文提出的 Hybrid-Paradigm Region Proposal Network 和 Spatial Information Enhancement module。
論文鏈接為:https://arxiv.org/abs/2103.15396
項(xiàng)目鏈接為:https://github.com/Liz66666/SIENet
0. Abstract
這里先給出本文摘要:
基于LiDAR的3D目標(biāo)檢測(cè)對(duì)自動(dòng)駕駛汽車產(chǎn)生了巨大影響。由于LiDAR固有特性限制,距離LiDAR較遠(yuǎn)的物體收集到的點(diǎn)數(shù)相對(duì)較少。點(diǎn)云的這種密度不平衡往往會(huì)降低檢測(cè)準(zhǔn)確率,但是在之前的研究中都忽略了這一點(diǎn)。
為了解決這一挑戰(zhàn),本文提出了一種新的兩階段3D目標(biāo)檢測(cè)網(wǎng)絡(luò):SIENet。具體來說,本文設(shè)計(jì)了 Spatial Information Enhancement(SIE) 模塊,用來預(yù)測(cè)proposals中前景點(diǎn)的空間形狀,并提取結(jié)構(gòu)信息進(jìn)行特征學(xué)習(xí)進(jìn)一步優(yōu)化。預(yù)測(cè)的空間形狀是完整且密集的點(diǎn)集,因此提取的結(jié)構(gòu)信息包含更多的語義表示。此外,本文還設(shè)計(jì)了 Hybrid-Paradigm Region Proposal Network(HP-RPN),該網(wǎng)絡(luò)包括多個(gè)網(wǎng)絡(luò)分支,進(jìn)行特征學(xué)習(xí)并為SIE模塊生成準(zhǔn)確的proposals。在KITTI數(shù)據(jù)集上的實(shí)驗(yàn)表明,本文精心設(shè)計(jì)的SIENet網(wǎng)絡(luò)取得了目前最好的檢測(cè)準(zhǔn)確率。
1. Introduction & Related Work
( 本文的引言部分和第二部分研究現(xiàn)狀這里就不詳細(xì)介紹了,大家可以查看原文,我在這里大致總結(jié)下。)
從下面左邊這張圖可以看到,現(xiàn)有的3D目標(biāo)檢測(cè)算法在近距離(20米以內(nèi))的檢測(cè)準(zhǔn)確率都很高(90%左右),但是在遠(yuǎn)距離(超過40米)它們的準(zhǔn)確率下降到了30%~40%左右。
右邊這張圖說明了點(diǎn)云密度的不平衡性,這里以汽車為例,在近距離內(nèi)點(diǎn)云數(shù)量超過了1000,而在中等距離內(nèi)點(diǎn)云數(shù)量仍然在200個(gè)以上,遠(yuǎn)距離處點(diǎn)云數(shù)量只有20個(gè)左右。因此需要找到一個(gè)辦法來解決點(diǎn)云密度不平衡性。
下面介紹研究現(xiàn)狀:
- 3D Object Detection Based on Multi-modality Fusion
多模態(tài)融合的3D目標(biāo)檢測(cè)方法有MV3D,AVOD,Frustum PointNet,EPNet,3D-CVF。以上方法需要同時(shí)使用圖像和點(diǎn)云數(shù)據(jù),且需要進(jìn)行數(shù)據(jù)對(duì)齊和投影。 - 3D Object Detection Based on LiDAR Only
基于LiDAR的檢測(cè)方法有VoxelNet,SECOND,Part-A2,PointRCNN,3DSSD,STD。但是這些研究都忽視了點(diǎn)云密度不平衡性的問題。 - 3D Shape Completion
在本文中選擇Pcn (Point completion network)算法進(jìn)行物體空間形狀的預(yù)測(cè),生成完整且密集的點(diǎn)集。
2. Our Framework (重點(diǎn))
下圖是SIENet網(wǎng)絡(luò)整體框架,由HP-RPN和SIE module組成。下面首先介紹HP-RPN,然后介紹SIE module。
2.1 Hybrid-Paradigm RPN
如下圖所示,HP-RPN包含三個(gè)分支:SPConv Branch,Auxiliary Branch,Keypoint Branch。首先對(duì)點(diǎn)云進(jìn)行體素化處理,使用SPConv Branch學(xué)習(xí)voxel特征,然后Keypoint Branch使用注意力機(jī)制動(dòng)態(tài)編碼voxel 特征,Auxiliary Branch用于學(xué)習(xí)結(jié)構(gòu)信息。
下面詳解介紹這三個(gè)網(wǎng)絡(luò)分支:
- SPConv branch
和SECOND一樣,這里將點(diǎn)云劃分為一個(gè)個(gè)相等大小的voxel,堆疊4個(gè)稀疏卷積塊對(duì)輸入的體素特征進(jìn)行8倍下采樣,最后使用和SECOND一樣的RPN Head生成候選方案。 - Auxiliary branch
這里使用了SA-SSD網(wǎng)絡(luò)中的Auxiliary Network將voxel坐標(biāo)轉(zhuǎn)換為真實(shí)場(chǎng)景坐標(biāo),同時(shí)使用PointNet++中的特征傳播層進(jìn)行插值,將每一塊得到的特征進(jìn)行結(jié)合用以學(xué)習(xí)結(jié)構(gòu)信息。 - Keypoint branch
和PVRCNN中的VSA模塊進(jìn)行voxel特征融合相似,但是由于點(diǎn)云密度不平衡,每個(gè)keypoint權(quán)重并不一樣,使用了Deformable pv-rcnn中的context fusion方法分配關(guān)鍵點(diǎn)權(quán)重。
2.2 Spatial Information Enhancement Module
這里有三個(gè)問題需要考慮:如何預(yù)測(cè)空間形狀?如何提取結(jié)構(gòu)信息?如何進(jìn)行特征融合和box優(yōu)化?
-
Spatial shape prediction
空間形狀預(yù)測(cè)如下圖所示,這里選擇PCN作為主干網(wǎng)來進(jìn)行預(yù)測(cè)。假設(shè)輸入點(diǎn)集為:{Pi∣i=1,…,N}\left\{\boldsymbol{P}_{i} \mid i=1, \ldots, N\right\}{Pi?∣i=1,…,N},其中Pi\boldsymbol{P}_{i}Pi?是坐標(biāo)向量,NNN為點(diǎn)的個(gè)數(shù)。為了減少干擾,這里先使用了Part-A2中的RoI-aware pooling進(jìn)行點(diǎn)集變換;然后使用一個(gè)PointNet得到一個(gè)256維的全局特征向量vvv,特征結(jié)合得到512維的特征,然后再使用一個(gè)PointNet得到1024維的全局特征向量,最后再使用全連接層網(wǎng)絡(luò)得到新的點(diǎn)集P^\hat{\boldsymbol{P}}P^。
-
Structure information extraction
現(xiàn)在我們已經(jīng)有了預(yù)測(cè)的形狀點(diǎn)集{P^i∣i=1,…,1024}\left\{\hat{\boldsymbol{P}}_{i} \mid i=1, \ldots, 1024\right\}{P^i?∣i=1,…,1024},我們使用FPS采樣mmm個(gè)點(diǎn)得到點(diǎn)集{Si∣i=1,…,m}\left\{\boldsymbol{S}_{i} \mid i=1, \ldots, m\right\}{Si?∣i=1,…,m}。對(duì)每一個(gè)采樣點(diǎn),有TTT個(gè)近鄰點(diǎn)。使用MSG方法進(jìn)行多尺度的特征提取得到m×(C1+C1)m \times\left(C_{1}+C_{1}\right)m×(C1?+C1?),最后使用全連接層網(wǎng)絡(luò)得到全局信息Fs∈RC1\boldsymbol{F}^{s} \in \mathbb{R}^{C_{1}}Fs∈RC1?。 -
Feature fusion and box refinement
特征融合如下圖所示。首先使用了PV-RCNN中的RoI-grid pooling捕獲網(wǎng)格點(diǎn)近鄰 keypoint 的 context 信息,表示為:Fg={f1g,f2g,…,f216g}∈R216×C2\boldsymbol{F}^{g}=\left\{\boldsymbol{f}_{1}^{g}, \boldsymbol{f}_{2}^{g}, \ldots, \boldsymbol{f}_{216}^{g}\right\} \in \mathbb{R}^{216 \times C_{2}}Fg={f1g?,f2g?,…,f216g?}∈R216×C2?。然后網(wǎng)格點(diǎn)特征和結(jié)構(gòu)特征進(jìn)行結(jié)合得到新的特征:Fc=[Fg,Fs]∈R216×(C2+C1)\boldsymbol{F}^{c}=\left[\boldsymbol{F}^{g}, \boldsymbol{F}^{s}\right] \in \mathbb{R}^{216 \times\left(C_{2}+C_{1}\right)}Fc=[Fg,Fs]∈R216×(C2?+C1?),這里在結(jié)合時(shí)使用了Perspective-Channel Attention分配特征權(quán)重,最后得到增強(qiáng)權(quán)重Fe∈R216×(C2+C1)\boldsymbol{F}^{e} \in \mathbb{R}^{216 \times\left(C_{2}+C_{1}\right)}Fe∈R216×(C2?+C1?)。
3. Experiments
實(shí)驗(yàn)部分,作者在KITTI數(shù)據(jù)集上進(jìn)行了驗(yàn)證,實(shí)驗(yàn)細(xì)節(jié)這里不介紹了,可以查看代碼和論文,下面幾張表是實(shí)驗(yàn)結(jié)果。
下面兩張表是本文提出的HP-RPN和SIE對(duì)檢測(cè)準(zhǔn)確率的影響。
下面這張表是在驗(yàn)證集上對(duì)Moderate difficulty在不同距離上的檢測(cè)準(zhǔn)確率。
最后是本文提出的物體形狀預(yù)測(cè)的可視化效果。
總結(jié)
以上是生活随笔為你收集整理的两阶段3D目标检测网络 SIENet: Spatial Information Enhancement Network for 3D Object Detection from Point Cloud的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: postmaster.exe是什么进程
- 下一篇: 从零开始学视觉Transformer (