详解两阶段3D目标检测网络PVRCNN:Point-Voxel Feature Set Abstraction for 3D Object Detection
在《動手學無人駕駛(4):基于激光雷達點云數據3D目標檢測》一文中介紹了3D目標檢測網絡PointRCNN。今天介紹該作者新提出的3D檢測模型:PVRCNN,論文已收錄于CVPR2020。
作者個人主頁為:https://sshaoshuai.github.io/。
知乎ID為:https://www.zhihu.com/people/yilu-kuang-shuai。
PVRCNN論文鏈接為:https://arxiv.org/pdf/1912.13192.pdf。
代碼鏈接為:https://github.com/open-mmlab/OpenPCDet。
在介紹論文前,大家可以先看看作者此前分享的3D目標檢測報告:https://www.bilibili.com/video/av89811975?zw
基于點云場景的三維物體檢測算法及應用
文章目錄
- 1. PVRCNN算法
- 1.1 3D Voxel CNN for Efficient Feature Encoding and Proposal Generation
- 1.2 Voxel-to-keypoint Scene Encoding via Voxel Set Abstraction
- 1.3 Keypoint-to-grid RoI Feature Abstraction for Proposal Refinement
- 2. Experiments
1. PVRCNN算法
在目前的點云目標檢測中,3D voxel CNNs可以生成高質量的proposals;而基于PointNet的方法由于其感受野靈活,可以捕獲更準確的目標位置信息。
在本文中,作者對這兩種檢測方法進行集成,首先使用3D voxel CNNs作為主干網來生成高質量的proposalas,然后在每一個proposal中,為了充分有效池化點云特征,作者提出了兩種新的池化方式:Voxel-to-keypoint scene encoding與keypoint-to-grid ROI feature abstraction。通過這兩種池化方法,能夠有效提高預測可信度以及對目標位置進行優化。
1.1 3D Voxel CNN for Efficient Feature Encoding and Proposal Generation
這部分相對比較好理解,使用3D CNNs作為主干網,將輸入的點云劃分為一個個voxel。作者總共進行了4次下采樣,最后投影到鳥瞰圖上,生成proposal。從結果可以看出,這種生成proposal的方式有著更高的召回率。
1.2 Voxel-to-keypoint Scene Encoding via Voxel Set Abstraction
PointNet中提出的set abstraction operation顯示出了強大的特征提取能力,能夠對任意空間尺寸的點云集進行特征抽取。受此啟發,作者提出了將多個voxels的特征聚合到keypoints上。
具體地操作如下,其中lkl_klk?表示第kkk層網絡,pip_ipi?表示為keypoint,vj(lk)v_{j}^{(l_k)}vj(lk?)?表示為第kkk層網絡中voxel坐標,fj(lk)f_{j}^{(l_k)}fj(lk?)?表示為voxel隊以應地特征向量。這樣就組成每個keypoint鄰域集SilkS_{i}^{l_k}Silk??:包括voxel特征向量及voxel與keypoint之間地相對位置。
然后是對SilkS_{i}^{l_k}Silk??進行一次maxmaxmax操作。具體操作如下,其中MMM表示在集合SilkS_{i}^{l_k}Silk??中最多選取出TkT_kTk?個voxels,GGG表示進行多層感知機操作,最外層是maxmaxmax操作。最終生成地每個keypoint特征為fipvkf_{i}^{{pv}_k}fipvk??。
對每一層3D CNNs網絡都進行上述VSA操作,這樣就得到了keypoint結合后地特征fi(pv)f_{i}^{{(pv)}}fi(pv)?。
1.3 Keypoint-to-grid RoI Feature Abstraction for Proposal Refinement
經過上面的處理,得到了一組含有多尺度語義特征的關鍵點集(keypoints with multi-scale semantic features)
。
為了進一步優化,作者在這里提出了keypoint-to-grid RoI feature abstraction,如下圖4所示。
首先在每一個候選方案(proposal)中,統一采樣6×6×66\times6\times66×6×6個gird points。這里的采樣公式如下,其中gig_igi?表示為grid points,pjp_jpj?表示為keypoint,f~j(p)\widetilde f^{(p)}_{j}f?j(p)?表示為關鍵點特征。
然后使用一個PointNet-block得到grid point特征,具體方法如下:
最后通過兩層MLP網絡,得到256維的特征向量。
2. Experiments
下圖是論文作者在KITTI數據集提交的結果(截至2020年11月22日),目前排在第15位,是榜上唯一開源的方案。
總的來說,作者提出的voxel-based和PointNet-based方法還是很創新的,值得借鑒。
總結
以上是生活随笔為你收集整理的详解两阶段3D目标检测网络PVRCNN:Point-Voxel Feature Set Abstraction for 3D Object Detection的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 2017交行信用卡进度查询方法 随时随地
- 下一篇: 两阶段3D目标检测网络 SIENet: