當(dāng)前位置：首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

详解3D物体检测模型: Voxel Transformer for 3D Object Detection

發(fā)布時(shí)間：2023/12/10 编程问答 35 豆豆

生活随笔收集整理的這篇文章主要介紹了详解3D物体检测模型: Voxel Transformer for 3D Object Detection 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

本文介紹一個(gè)新的的3D物體檢測(cè)模型：VoTr，論文已收錄于ICCV 2021。這是第一篇使用 voxel-based Transformer 做3D 主干網(wǎng)絡(luò)，用于點(diǎn)云數(shù)據(jù)3D物體檢測(cè)。由于有限的感受野，傳統(tǒng)的 3D 卷積網(wǎng)絡(luò)檢測(cè)器（voxel-based）不能有效地捕獲大量的環(huán)境信息， 于是在本文中作者引入基于 Transformer 的結(jié)構(gòu)，通過(guò)自注意力的方式尋找長(zhǎng)距離范圍內(nèi) voxel 之間的關(guān)系。

本文主要貢獻(xiàn)有：

考慮到非空 voxel 的稀疏性及數(shù)量眾多的事實(shí)，直接對(duì) voxel 使用標(biāo)準(zhǔn)的 Transformer 并不是一件容易的事情。為此，作者提出了 sparse voxel module 和 submanifold voxel module，它們可以有效地對(duì)空的和非空的 voxel 進(jìn)行操作。
為了進(jìn)一步增大注意力范圍，同時(shí)維持與卷積檢測(cè)器相對(duì)應(yīng)的計(jì)算開(kāi)銷，作者進(jìn)一步提出了兩種多頭注意力機(jī)制：Local Attention 和 Dilated Attention，同時(shí)作者還進(jìn)一步提出了 Fast Voxel Query，用于加速 voxel 的查詢。
本文提出的 VoTr 方法可以用在大多數(shù) voxel-based 的3D檢測(cè)器，最后作者在 Waymo 和 KITTI 數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)，證明本文提出的方法在提高檢測(cè)性能時(shí)并且保持了相當(dāng)?shù)挠?jì)算效率。

論文鏈接為：https://arxiv.org/pdf/2109.02497.pdf

項(xiàng)目鏈接為：https://github.com/PointsCoder/VOTR

文章目錄

- - 1. Introduction & Related Work
  - 2. Voxel Transformer
  - - 2.1 Overall Architecture
    - 2.2 Voxel Transformer Module
    - 2.3 Efficient Attention Mechanism
    - 2.4 Fast Voxel Query
  - 3. Experiments

1. Introduction & Related Work

首先是論文引言部分。之前的 3D 檢測(cè)方法主要分別兩種：point-based 和 voxel-based，voxel-based 的方法首先對(duì)點(diǎn)云做柵格化處理，將點(diǎn)云轉(zhuǎn)化為一個(gè)個(gè) voxel 然后使用 3D 卷積網(wǎng)絡(luò)提取特征。之后將 voxel 轉(zhuǎn)換為鳥(niǎo)瞰圖最終在鳥(niǎo)瞰圖上生成 3D boxes。

但是由于感受野受限，影響著檢測(cè)器性能。例如，SECOND 模型 voxel 大小是 $(0.05 m, 0.05 m, 0.1 m)$ ，最后一層最大的感受野是 $(3.65 m, 3.65 m, 7.3 m)$ ，覆蓋不了一輛長(zhǎng)度為 $4 m$ 的汽車。感受野的大小與 voxel size $V$ ，kernel size $K$ ，downsample stride $S$ ，layer number $L$ 四者乘積成正比。增大 $V$ 會(huì)導(dǎo)致點(diǎn)云量化誤差變大；增大 $K$ 會(huì)導(dǎo)致卷積特征成三次方增大；增大 $S$ 會(huì)導(dǎo)致低精度的鳥(niǎo)瞰圖，會(huì)降低最終預(yù)測(cè)結(jié)果；增大 $L$ 會(huì)需要更多的計(jì)算資源。但是在3D物體檢測(cè)時(shí)，由于點(diǎn)云的稀疏性和不完整性，而我們又需要增大感受野，因此就需要設(shè)計(jì)一種新的架構(gòu)來(lái)編碼更多的上下文信息。

最近 Transformer 在2D物體分類、檢測(cè)、分割任務(wù)上取得了不錯(cuò)的效果，主要是因?yàn)?strong>自注意力機(jī)制可以建立像素間的長(zhǎng)距離關(guān)系。但是直接將 Transformer 用到 voxel 中會(huì)遇到兩個(gè)問(wèn)題：

非空的 voxel 分布很稀疏，而圖像中像素是很密集的，例如在 Waymo 數(shù)據(jù)集中非空的 voxel 只占所有的 voxel $0.1%0.1\%$ ，因此需要設(shè)計(jì)一個(gè)特殊操作只作用于那些非空的 voxel 上；
非空 voxel 的數(shù)量是龐大的，例如在 Waymo 數(shù)據(jù)集中達(dá)到了 $90 k$ ，如果像標(biāo)準(zhǔn)的 Transformer 那樣使用全連接自注意力在計(jì)算上是吃不消的，因此，非常需要新的方法來(lái)擴(kuò)大注意力范圍，同時(shí)將每個(gè) query 的注意力 voxel 數(shù)保持在較小的范圍內(nèi)。

為了解決這兩個(gè)問(wèn)題，作者于是提出了 VoTr，具體方法在下一節(jié)介紹。下圖是3D卷積網(wǎng)絡(luò)和 VoTr 的感受野圖示。在圖（a）中，橘色立方體表示的是3D卷積核，黃色的 voxel 被以紅色 voxel 為中心的最大感受野所包含。在圖（b）中，紅色的 voxel 是待查詢的 voxel，藍(lán)色 voxel 是它的注意力 voxel，作者發(fā)現(xiàn)只使用一個(gè)自注意力層就可以覆蓋比整個(gè)卷積骨干網(wǎng)還要大的區(qū)域，而且還可以保持足夠細(xì)微的3D結(jié)構(gòu)。

下面是相關(guān)研究工作：

點(diǎn)云3D物體檢測(cè)方法：Frustum-PointNet、PointRCNN、3DSSD、VoxelNet、SECOND、HVNet、PV-RCNN；
Transformer 在計(jì)算機(jī)視覺(jué)的應(yīng)用：ViT、DETR、SETR、MaX-DeepLab、Point Transformer、Pointformer；

2. Voxel Transformer

2.1 Overall Architecture

現(xiàn)在我們來(lái)開(kāi)始詳細(xì)介紹 VoTr。整體結(jié)構(gòu)設(shè)計(jì)和 SECOND 很相似，VoTr 包含三個(gè) sparse voxel module，降采樣3次，每一個(gè) sparse voxel module 跟著2個(gè) submanifold voxel module，在所有的模塊中都使用到了多頭注意力機(jī)制。在多頭注意力機(jī)制中，每一個(gè) query voxel 使用了兩種特別的注意力方法：Local Attention 、 Dilated Attention。

值得注意的是：submanifold voxel module 只在非空的 voxel 進(jìn)行注意力操作，而 sparse voxel module 可以在空的 voxel 上提取特征。

2.2 Voxel Transformer Module

- self-attention on sparse voxels

這里首先介紹 sparse voxel 上的自注意力方法。

假設(shè)總共有 $N_{dense}$ 個(gè) voxels，非空 voxel 索引數(shù)組 $V：Nsparse×3\mathcal{V}：N_{sparse} \times 3$ 以及對(duì)應(yīng)特征數(shù)組 $F：Nsparse×d\mathcal{F}：N_{sparse} \times d$ ，且 $Nsparse??Ndense?N_{\text {sparse }} \ll N_{\text {dense }}$ 。
特定地，一個(gè)要查詢的 voxel $i$ ，其注意力范圍 $Ω(i)?V\Omega(i) \subseteq \mathcal{V}$ 是由注意力機(jī)制確定，對(duì)注意力 voxel $\subseteq \Omega(i)$ 進(jìn)行多頭注意力操作，得到注意力特征 $fiattendf^{attend}_{i}$ 。
令 $fi,fj∈Ff_i,f_j\in\mathcal{F}$ 分別為查詢和注意力 voxel 特征， $vi,vj∈Vv_i,v_j\in\mathcal{V}$ 分別為查詢和注意力 voxel 整數(shù)索引。根據(jù)索引得到 voxel 中心坐標(biāo) $p_i,p_j$ ，其中 $p=t×(v+0.5)p=t\times(v+0.5)$ 。然后可以計(jì)算 $Q_i，K_i,V_i$ ：
$Qi=fiWq,Kj=fjWk+Epos?,Vj=fjWv+Epos(1)Q_{i}=f_{i} W_{q}, K_{j}=f_{j} W_{k}+E_{\text {pos }}, V_{j}=f_{j} W_{v}+E_{p o s} \tag{1}$ 位置編碼 $E_{pos}$ 為：
$Epos=(pi?pj)Wpos(2)E_{p o s}=\left(p_{i}-p_{j}\right) W_{p o s} \tag{2}$ 自注意力特征為：
$fiattend=∑j∈Ω(i)σ(QiKjd)?Vj(3)f_{i}^{a t t e n d}=\sum_{j \in \Omega(i)} \sigma\left(\frac{Q_{i} K_{j}}{\sqrtozvdkddzhkzd}\right) \cdot V_{j} \tag{3}$
其中， $σ(?)\sigma(\cdot)$ 是softmax歸一化函數(shù)，這里可以將 3D voxel 的自注意力機(jī)制看作是 2D 的自注意力機(jī)制的擴(kuò)展，使用的相對(duì)坐標(biāo)作為位置編碼。

- submanifold voxel module
此模塊，包含兩層網(wǎng)絡(luò)，第一層是自注意層，連接所有的注意力機(jī)制，第二層是簡(jiǎn)單的前向傳播層，這里也使用了殘差連接。與標(biāo)準(zhǔn)的 Transformer 不同的是：

在前向傳播層之后添加了線性投影層用于調(diào)整特征通道數(shù)量；
使用了 BN 替代 LN；
刪除了 dropout ，這是因?yàn)檫@里的注意力 voxel 數(shù)量太少了，再使用 dropout 可能會(huì)阻礙學(xué)習(xí)過(guò)程；

- sparse voxel module
由于在非空 voxel 沒(méi)有特征，于是得不到 $Q_i$ ，使用如下方法得到近似 $Q_i$ ：
$Qi=Aj∈Ω(i)(fj)(4)Q_{i}=\underset{j \in \Omega(i)}{\mathcal{A}}\left(f_{j}\right) \tag{4}$ 其中 $A\mathcal{A}$ 是對(duì)所有注意力 voxel 特征做最大池化操作，同樣地使用公式（3）進(jìn)行多頭注意力操作，這里沒(méi)有使用殘差連接。

2.3 Efficient Attention Mechanism

現(xiàn)在，著重介紹注意力范圍 $Ω(i)\Omega(i)$ ，注意力機(jī)制中非常重要的一個(gè)因素。 $Ω(i)\Omega(i)$ 應(yīng)當(dāng)滿足以下三點(diǎn)：

$Ω(i)\Omega(i)$ 應(yīng)該能覆蓋相鄰的 voxel 以保持細(xì)微的3D結(jié)構(gòu)；
$Ω(i)\Omega(i)$ 覆蓋的范圍應(yīng)盡可能的遠(yuǎn)以便獲得更大的上下文信息；
$Ω(i)\Omega(i)$ 所包含的 voxel 數(shù)應(yīng)該盡可能的少，例如小于50，避免計(jì)算負(fù)載過(guò)大；

- local attention
定義 $?(start,end,stride)\varnothing(start,end,stride)$ 為一個(gè)返回非空索引的函數(shù)，例如 $?((0,0,0,),(1,1,1),(1,1,1))\varnothing((0,0,0,),(1,1,1),(1,1,1))$ 返回為 $?{(0,0,0,),(0,0,1),(0,1,0),...,(1,1,1)}\varnothing\{(0,0,0,),(0,0,1),(0,1,0),...,(1,1,1)\}$ 八個(gè)非空索引。在 Local Attention 中，注意力范圍為：
$Ωlocal?(i)=?(vi?Rlocal?,vi+Rlocal?,(1,1,1))(5)\Omega_{\text {local }}(i)=\varnothing\left(v_{i}-R_{\text {local }}, v_{i}+R_{\text {local }},(1,1,1)\right) \tag{5}$ 其中 $Rlocal=(1,1,1)R_{\text{local}}=(1,1,1)$ ，注意的是這里只返回非空 voxel 的索引。

- dilated attention
注意力范圍為：
$Ωdilated?(i)=?m=1M?(vi?Rend?(m),vi+Rend?(m),Rstride?(m))\?(vi?Rstart?(m),vi+Rstart?(m),Rstride?(m)),(6)\begin{array}{r} \Omega_{\text {dilated }}(i)=\bigcup_{m=1}^{M} \varnothing\left(v_{i}-R_{\text {end }}^{(m)}, v_{i}+R_{\text {end }}^{(m)}, R_{\text {stride }}^{(m)}\right) \backslash \\ \varnothing\left(v_{i}-R_{\text {start }}^{(m)}, v_{i}+R_{\text {start }}^{(m)}, R_{\text {stride }}^{(m)}\right), \end{array} \tag{6}$

其中 $\\backslash$ 是集合相減運(yùn)算符， $Rstart?(i)<Rend?(i)≤Rstart?(i+1),Rstride?(i)<Rstride?(i+1)R_{\text {start }}^{(i)}<R_{\text {end }}^{(i)} \leq R_{\text {start }}^{(i+1)} , R_{\text {stride }}^{(i)}<R_{\text {stride }}^{(i+1)}$ ，因此可以逐漸增大查詢步伐 $Rstride?(i)R_{\text {stride }}^{(i)}$
。經(jīng)過(guò)認(rèn)真設(shè)計(jì)，注意力機(jī)制所能搜尋的范圍可以達(dá)到15m，而查詢的 voxel 數(shù)量可以小于50。

下圖是一個(gè)2D的注意力機(jī)制說(shuō)明（可以輕松擴(kuò)展到3D場(chǎng)景）。對(duì)于要查詢的 voxel （紅色所示），Local Attention 關(guān)注的是局部區(qū)域，淺藍(lán)色 voxel 在查詢范圍內(nèi)，最終被選擇為注意力 voxel；Dilated Attention 查詢的范圍比較大（綠色所示），最終非空的 voxel 被選擇為注意力 voxel。

2.4 Fast Voxel Query

在上面設(shè)計(jì)的注意力機(jī)制中，查詢每個(gè)非空的注意力 voxel 是至關(guān)重要的。為了查詢每個(gè)注意力 voxel 可能要花費(fèi) $O(Nsparse?)O\left(N_{\text {sparse }}\right)$ 時(shí)間復(fù)雜度，這是十分耗時(shí)的（Waymo 數(shù)據(jù)集中 $Nsparse=90kN_{\text{sparse}} = 90k$ ），因此作者在這里提出了一個(gè)基于哈希表的快速查詢。

快速查詢流程如下圖所示，這里與之前的查詢方法不同的是，在哈希表中只需要查詢 $NΩN_{\Omega}$ 次， $Ω\Omega$ 是注意力范圍， $NΩ?Nsparse?N_{\Omega} \ll N_{\text {sparse }}$ 。

3. Experiments

下面是實(shí)驗(yàn)部分，作者分別在 Waymo 和 KITTI 數(shù)據(jù)上進(jìn)行了測(cè)試。VoTr-SSD 選擇 SECOND 作為檢測(cè)框架，VoTr-TSD 選擇 PV-RCNN 作為檢測(cè)框架，將傳統(tǒng)的3D卷積替換為本文設(shè)計(jì)的 Transformer 結(jié)構(gòu)。下面是 Waymo 驗(yàn)證集上的結(jié)果。

下面是在 KITTI 數(shù)據(jù)集上的結(jié)果。這里在 SECOND 框架上提升比較多。

最后是消融實(shí)驗(yàn)，可以看到不同注意力機(jī)制、dropout 參數(shù)、注意力 voxel 數(shù)量、模型參數(shù)、推理速度以及注意力權(quán)重的比較。

總結(jié)

以上是生活随笔為你收集整理的详解3D物体检测模型: Voxel Transformer for 3D Object Detection的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇： P2PNetworking3.exe -
下一篇： c语言一个数组后添加元素append,j