VoxelNet: 基于点云的三维空间信息逐层次学习网络
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 量化結果。使用LiDAR檢測的3D BoundingBox被投影到RGB圖像
1. 論文綜述
? ? ? ?3D點云中目標的精準檢測是很多應用場景的核心問題,如自動駕駛,家居機器人,虛擬/增強現實。為了將高度稀疏的LiDAR點云與區域候選網絡連接在一起,很多研究學者將關注帶你放在手工設計的特征表達,例如鳥瞰投影a bird's eye view projection. 這份工作中作者放棄了人工設計特征,直接提出了端到端的VoxelNet進行3D目標檢測。具體來說,VoxelNet將點云劃分為等間距的三維體素,并通過新引入的體素特征編碼(VFE)層將每個體素內的一組點轉換為統一的特征表示。這樣,點云可以被編碼成可以描述的體積表征,進而他被量接到區域候選網絡進行目標檢測。在KITTI數據集上,作者的方法取得了最好的結果。
- VoxelNet是一種基于點云的-可訓練的-端到端的-3D目標識別框架,可以直接作用于系數的3D點云,避免了特征工程;
- 該框架融合了稀疏點云結構,并且充分利用了voxel grid的并行處理
- 該文也提出了一種有效的數據增強策略
在基于LiDAR的3D目標檢測任務中,大多數方法均采用了特征工程的方法進行算法設計,最多的就是鳥瞰視覺投影。作者創新性的移除了人為的特征工程,并提出了有效的端到端的VoxelNet-3D detection框架。該方法最大的亮點在于可以直接操作3D點云數據并且捕捉到3D點云中的形狀信息。
2. 主干和細節
? ? ? 將三維點云劃分為一定數量的Voxel,經過點的隨機采樣以及歸一化后,對每一個非空Voxel使用若干個VFE(Voxel Feature Encoding)層進行局部特征提取,得到Voxel-wise Feature,然后經過3D Convolutional Middle Layers進一步抽象特征(增大感受野并學習幾何空間表示,也就是我們經常說的淺層網絡學習到的是基礎視覺特征,深層網絡學習到的是高級視覺語義特征),最后使用RPN(Region Proposal Network)對物體進行分類檢測與位置回歸。VoxelNet整個pipeline如下圖所示:
VoxelNet網絡結構. 特征學習網絡直接輸入原始的3D點云數據,然后將整個3D空間劃分成獨立的小voxel,每個voxel都采用特征提取網絡進行特征提取,最后將各個特征按照原來的幾何結構拼接在一起[這就是我們之前經常說的Global=Multi-Parts]。這樣做的目的應該是為了抵抗形變。Middle Layer的目標在于增大感受野,提取更加高級的語義特征。最后交給3D-RPN網絡進行BoundingBox回歸。
2.1?點云的多層次學習
? ? ??VoxelNet是對PointNet以及PointNet++這兩項工作的拓展與改進,粗淺地說,是對點云劃分后的Voxel使用"PointNet"。我們可以仔細看一下某一層VFE,如下圖所示,一塊Voxel中的三個點經過FCN抽象Point-wise feature,并使用MaxPool得到Locally Aggregated Feature(局部聚合特征),然后將這個局部特征concatenate到每一個Point-wise feature上。
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?針對每一個Voxel提取特征?[逐點特征+局部聚合特征]
2.2?點云的高效查詢
? ? ? 此外,由于點云具有高度的稀疏性以及密度不均勻性,作者利用哈希表查詢的方式,可以做到快速找到每一個Voxel中的點在三維點云中的具體位置,如下圖所示。
3. 論文總結
3.1 思考
? ? ? VoxelNet只使用激光雷達數據,在KITTI上取得了state-of-the-art的效果。目前,3D Object Detection(Car)榜單第一名VoxelNet++也僅僅是只使用了點云,相對于榜單中同時使用點云以及RGB圖像并采用fusion操作的其他幾種方法,VoxelNet能夠領先有些耐人尋味。廖子對于這種異常信息融合的結果解釋如下:
- 在3D場景中,RGB信息對3D Detection不是特別重要。因為汽車、自行車、人這三類物體僅僅通過外形輪廓就能夠區分出來,如果網絡能夠很好地學習到這些幾何空間特征,那么只需要點云就能得到很好的效果。但是如果是針對3D Instance Segmentation這類任務,比如區分黃車與黑車,LiDAR data與RGB data之間進行fusion就很有必要了。
- 直接將兩種data(或者兩者對應的feature map)進行fusion操作,這種數據處理方式可能會使得神經網絡不容易去學習更好的特征。比如人具備顏色信息感知與空間位置感知,但是這兩種感知并不是混為一談的,兩者應該是并行且存在交互的關系,這種交互關系可能比目前先concatenate再通過若干層全連接層的fusion機制要更加高級抽象。
3.2 論文金句總結
- Compared to imagebased detection, LiDAR provides reliable depth information that can be used to accurately localize objects and characterize their shapes
- We present VoxelNet, a generic 3D detection framework that simultaneously learns a discriminative feature representation from point clouds and predicts accurate 3D bounding boxes, in an end-to-end fashion. We design a novel voxel feature encoding (VFE) layer, which enables inter-point interaction within a voxel, by combining point-wise features with a locally aggregated feature
- The convolutional middle layers aggregate voxel-wise features within a progressively expanding receptive field, adding more context to the shape description.介紹了卷積中間層的作用,是一種空間感受野增量式的學習過程,有利于學習高級語義特征,比如說數據分布結構等...
4. 參考文獻
1. Zhou Y, Tuzel O. VoxelNet: End-to-End Learning for Point Cloud Based 3D Object Detection[J]. computer vision and pattern recognition, 2018.
2.?https://zhuanlan.zhihu.com/p/40051716
總結
以上是生活随笔為你收集整理的VoxelNet: 基于点云的三维空间信息逐层次学习网络的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Linux之父:开源不为金钱名利只为娱乐
- 下一篇: 专家:番茄花园洪磊最高可判刑7年