當前位置：首頁 > 人工智能 > 目标检测 >内容正文

目标检测

详解两阶段3D目标检测网络PVRCNN：Point-Voxel Feature Set Abstraction for 3D Object Detection

發布時間：2023/12/10 目标检测 69 豆豆

生活随笔收集整理的這篇文章主要介紹了详解两阶段3D目标检测网络PVRCNN：Point-Voxel Feature Set Abstraction for 3D Object Detection 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

在《動手學無人駕駛（4）：基于激光雷達點云數據3D目標檢測》一文中介紹了3D目標檢測網絡PointRCNN。今天介紹該作者新提出的3D檢測模型：PVRCNN，論文已收錄于CVPR2020。
作者個人主頁為：https://sshaoshuai.github.io/。
知乎ID為：https://www.zhihu.com/people/yilu-kuang-shuai。
PVRCNN論文鏈接為：https://arxiv.org/pdf/1912.13192.pdf。
代碼鏈接為：https://github.com/open-mmlab/OpenPCDet。

在介紹論文前，大家可以先看看作者此前分享的3D目標檢測報告：https://www.bilibili.com/video/av89811975?zw

基于點云場景的三維物體檢測算法及應用

文章目錄

- - 1. PVRCNN算法
  - - 1.1 3D Voxel CNN for Efficient Feature Encoding and Proposal Generation
    - 1.2 Voxel-to-keypoint Scene Encoding via Voxel Set Abstraction
    - 1.3 Keypoint-to-grid RoI Feature Abstraction for Proposal Refinement
  - 2. Experiments

1. PVRCNN算法

在目前的點云目標檢測中，3D voxel CNNs可以生成高質量的proposals；而基于PointNet的方法由于其感受野靈活，可以捕獲更準確的目標位置信息。

在本文中，作者對這兩種檢測方法進行集成，首先使用3D voxel CNNs作為主干網來生成高質量的proposalas，然后在每一個proposal中，為了充分有效池化點云特征，作者提出了兩種新的池化方式：Voxel-to-keypoint scene encoding與keypoint-to-grid ROI feature abstraction。通過這兩種池化方法，能夠有效提高預測可信度以及對目標位置進行優化。

1.1 3D Voxel CNN for Efficient Feature Encoding and Proposal Generation

這部分相對比較好理解，使用3D CNNs作為主干網，將輸入的點云劃分為一個個voxel。作者總共進行了4次下采樣，最后投影到鳥瞰圖上，生成proposal。從結果可以看出，這種生成proposal的方式有著更高的召回率。

1.2 Voxel-to-keypoint Scene Encoding via Voxel Set Abstraction

PointNet中提出的set abstraction operation顯示出了強大的特征提取能力，能夠對任意空間尺寸的點云集進行特征抽取。受此啟發，作者提出了將多個voxels的特征聚合到keypoints上。

首先是Keypoints Sampling，和PointRCNN一樣，作者使用最遠點采樣法（FPS）在所有點云中選取出

n

個關鍵點，在KITTI數據中

n = 2048

。

然后是Voxel Set Abstraction Module（VSA），如下圖所示，作者在每一次進行下采樣時都進行了一次VSA操作，將不同尺度范圍的voxel特征匯聚到keypoints。

具體地操作如下，其中

l_k

表示第

k

層網絡，

p_i

表示為keypoint，

v_{j}^{(l_k)}

表示為第

k

層網絡中voxel坐標，

f_{j}^{(l_k)}

表示為voxel隊以應地特征向量。這樣就組成每個keypoint鄰域集

S_{i}^{l_k}

：包括voxel特征向量及voxel與keypoint之間地相對位置。

然后是對 $S_{i}^{l_k}$ 進行一次 $m a x$ 操作。具體操作如下，其中 $M$ 表示在集合 $S_{i}^{l_k}$ 中最多選取出 $T_k$ 個voxels， $G$ 表示進行多層感知機操作，最外層是 $m a x$ 操作。最終生成地每個keypoint特征為 $f_{i}^{{pv}_k}$ 。

對每一層3D CNNs網絡都進行上述VSA操作，這樣就得到了keypoint結合后地特征 $f_{i}^{{(pv)}}$ 。

現在將VSA模塊進行擴展，我們對原始點云進行公示（2）的操作，得到特征

f_{i}^{raw}

。對鳥瞰圖上的keypoint進行二項插值得到特征

f_{i}^{(bev)}

，最終，關鍵點

k e y p o i n t

特征為

f_{i}^{(p)}

：

這里作者還設計了一個predicted keypoint weighting模塊，如下圖所示。在訓練時，可以根據annotation來判斷選取地關鍵點是不是屬于前景點，這里訓練使用地損失函數為focal loss。

1.3 Keypoint-to-grid RoI Feature Abstraction for Proposal Refinement

經過上面的處理，得到了一組含有多尺度語義特征的關鍵點集（keypoints with multi-scale semantic features）
。
為了進一步優化，作者在這里提出了keypoint-to-grid RoI feature abstraction，如下圖4所示。

首先在每一個候選方案（proposal）中，統一采樣 $6×6×66\times6\times6$ 個gird points。這里的采樣公式如下，其中 $g_i$ 表示為grid points， $p_j$ 表示為keypoint， $f~j(p)\widetilde f^{(p)}_{j}$ 表示為關鍵點特征。

然后使用一個PointNet-block得到grid point特征，具體方法如下：

最后通過兩層MLP網絡，得到256維的特征向量。

2. Experiments

下圖是論文作者在KITTI數據集提交的結果（截至2020年11月22日），目前排在第15位，是榜上唯一開源的方案。

總的來說，作者提出的voxel-based和PointNet-based方法還是很創新的，值得借鑒。

總結

以上是生活随笔為你收集整理的详解两阶段3D目标检测网络PVRCNN：Point-Voxel Feature Set Abstraction for 3D Object Detection的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： 2017交行信用卡进度查询方法随时随地
下一篇：两阶段3D目标检测网络 SIENet: