當前位置：首頁 >

VoxelNet: 基于点云的三维空间信息逐层次学习网络

發布時間：2025/3/15 76 豆豆

生活随笔收集整理的這篇文章主要介紹了 VoxelNet: 基于点云的三维空间信息逐层次学习网络小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 量化結果。使用LiDAR檢測的3D BoundingBox被投影到RGB圖像

1. 論文綜述

? ? ? ?3D點云中目標的精準檢測是很多應用場景的核心問題，如自動駕駛，家居機器人，虛擬/增強現實。為了將高度稀疏的LiDAR點云與區域候選網絡連接在一起，很多研究學者將關注帶你放在手工設計的特征表達，例如鳥瞰投影a bird's eye view projection. 這份工作中作者放棄了人工設計特征，直接提出了端到端的VoxelNet進行3D目標檢測。具體來說，VoxelNet將點云劃分為等間距的三維體素，并通過新引入的體素特征編碼(VFE)層將每個體素內的一組點轉換為統一的特征表示。這樣，點云可以被編碼成可以描述的體積表征，進而他被量接到區域候選網絡進行目標檢測。在KITTI數據集上，作者的方法取得了最好的結果。

VoxelNet是一種基于點云的-可訓練的-端到端的-3D目標識別框架，可以直接作用于系數的3D點云，避免了特征工程；
該框架融合了稀疏點云結構，并且充分利用了voxel grid的并行處理
該文也提出了一種有效的數據增強策略

在基于LiDAR的3D目標檢測任務中，大多數方法均采用了特征工程的方法進行算法設計，最多的就是鳥瞰視覺投影。作者創新性的移除了人為的特征工程，并提出了有效的端到端的VoxelNet-3D detection框架。該方法最大的亮點在于可以直接操作3D點云數據并且捕捉到3D點云中的形狀信息。

2. 主干和細節

? ? ? 將三維點云劃分為一定數量的Voxel，經過點的隨機采樣以及歸一化后，對每一個非空Voxel使用若干個VFE(Voxel Feature Encoding)層進行局部特征提取，得到Voxel-wise Feature，然后經過3D Convolutional Middle Layers進一步抽象特征（增大感受野并學習幾何空間表示，也就是我們經常說的淺層網絡學習到的是基礎視覺特征，深層網絡學習到的是高級視覺語義特征），最后使用RPN(Region Proposal Network)對物體進行分類檢測與位置回歸。VoxelNet整個pipeline如下圖所示：

VoxelNet網絡結構. 特征學習網絡直接輸入原始的3D點云數據，然后將整個3D空間劃分成獨立的小voxel，每個voxel都采用特征提取網絡進行特征提取，最后將各個特征按照原來的幾何結構拼接在一起[這就是我們之前經常說的Global=Multi-Parts]。這樣做的目的應該是為了抵抗形變。Middle Layer的目標在于增大感受野，提取更加高級的語義特征。最后交給3D-RPN網絡進行BoundingBox回歸。

2.1?點云的多層次學習

? ? ??VoxelNet是對PointNet以及PointNet++這兩項工作的拓展與改進，粗淺地說，是對點云劃分后的Voxel使用"PointNet"。我們可以仔細看一下某一層VFE，如下圖所示，一塊Voxel中的三個點經過FCN抽象Point-wise feature，并使用MaxPool得到Locally Aggregated Feature(局部聚合特征)，然后將這個局部特征concatenate到每一個Point-wise feature上。

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?針對每一個Voxel提取特征?[逐點特征+局部聚合特征]

2.2?點云的高效查詢

? ? ? 此外，由于點云具有高度的稀疏性以及密度不均勻性，作者利用哈希表查詢的方式，可以做到快速找到每一個Voxel中的點在三維點云中的具體位置，如下圖所示。

3. 論文總結

3.1 思考

? ? ? VoxelNet只使用激光雷達數據，在KITTI上取得了state-of-the-art的效果。目前，3D Object Detection(Car)榜單第一名VoxelNet++也僅僅是只使用了點云，相對于榜單中同時使用點云以及RGB圖像并采用fusion操作的其他幾種方法，VoxelNet能夠領先有些耐人尋味。廖子對于這種異常信息融合的結果解釋如下：

在3D場景中，RGB信息對3D Detection不是特別重要。因為汽車、自行車、人這三類物體僅僅通過外形輪廓就能夠區分出來，如果網絡能夠很好地學習到這些幾何空間特征，那么只需要點云就能得到很好的效果。但是如果是針對3D Instance Segmentation這類任務，比如區分黃車與黑車，LiDAR data與RGB data之間進行fusion就很有必要了。
直接將兩種data（或者兩者對應的feature map）進行fusion操作，這種數據處理方式可能會使得神經網絡不容易去學習更好的特征。比如人具備顏色信息感知與空間位置感知，但是這兩種感知并不是混為一談的，兩者應該是并行且存在交互的關系，這種交互關系可能比目前先concatenate再通過若干層全連接層的fusion機制要更加高級抽象。

3.2 論文金句總結

Compared to imagebased detection, LiDAR provides reliable depth information that can be used to accurately localize objects and characterize their shapes
We present VoxelNet, a generic 3D detection framework that simultaneously learns a discriminative feature representation from point clouds and predicts accurate 3D bounding boxes, in an end-to-end fashion. We design a novel voxel feature encoding (VFE) layer, which enables inter-point interaction within a voxel, by combining point-wise features with a locally aggregated feature
The convolutional middle layers aggregate voxel-wise features within a progressively expanding receptive field, adding more context to the shape description.介紹了卷積中間層的作用，是一種空間感受野增量式的學習過程，有利于學習高級語義特征，比如說數據分布結構等...

4. 參考文獻

1. Zhou Y, Tuzel O. VoxelNet: End-to-End Learning for Point Cloud Based 3D Object Detection[J]. computer vision and pattern recognition, 2018.

2.?https://zhuanlan.zhihu.com/p/40051716

總結

以上是生活随笔為你收集整理的VoxelNet: 基于点云的三维空间信息逐层次学习网络的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： Linux之父:开源不为金钱名利只为娱乐
下一篇：专家：番茄花园洪磊最高可判刑7年