當(dāng)前位置：首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

【VoxelNet —— 体素网络】

發(fā)布時(shí)間：2024/1/18 编程问答 62 豆豆

生活随笔收集整理的這篇文章主要介紹了【VoxelNet —— 体素网络】小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

VoxelNet: 基于體素的端到端目標(biāo)檢測(cè)

體素
VoxelNet的框架：
一.特征學(xué)習(xí)網(wǎng)絡(luò)（ Feature learning network）
- 1.1體素分塊（Voxel Partition）
- 1.2點(diǎn)云分組（Grouping）
- 1.3隨機(jī)采樣（Random Sampling）
- 1.4多層的體素特征編碼（Stacked Voxel Feature Encoding）
- 1.5稀疏張量表示（Sparse Tensor Representation）
二.卷積中間層（Convolutional middle layers）
三.區(qū)域提案網(wǎng)絡(luò)（Region proposal network）
附： loss
附：高效運(yùn)行( Efficient Implementation)

體素

體素——————像素

lidar 可以提供可靠的深度信息，用于準(zhǔn)確定位對(duì)象并表征其形狀，由于 3D 空間的非均勻采樣、傳感器的有效范圍、遮擋和相對(duì)姿態(tài)等因素，LiDAR 點(diǎn)云稀疏且點(diǎn)密度變化很大。

將采集到的點(diǎn)云數(shù)據(jù)進(jìn)行網(wǎng)格劃分，類似于將圖片進(jìn)行平面劃分，可以更加高效的處理點(diǎn)云。

將劃分好的點(diǎn)云輸送到端到端的網(wǎng)絡(luò)結(jié)構(gòu)中，以端到端的方式從點(diǎn)云中學(xué)習(xí)判別性特征表示并預(yù)測(cè)準(zhǔn)確的 3D 邊界框，避免了手動(dòng)特征工程引入的信息瓶頸。

VoxelNet的框架：

特征學(xué)習(xí)網(wǎng)絡(luò)（ Feature learning network）卷積中間層（Convolutional middle layers）區(qū)域提案網(wǎng)絡(luò)（Region proposal network）

一.特征學(xué)習(xí)網(wǎng)絡(luò)（ Feature learning network）

這一模塊的操作主要就是進(jìn)行點(diǎn)云的處理，分為5個(gè)步驟：

1.1體素分塊（Voxel Partition）

先用大的3D空間容納所有的點(diǎn)云數(shù)據(jù)，其深度、高度和寬度分別為 ( D , H , W )。再在其內(nèi)部自定義體素尺寸（v D ? ,v H ,v W )，則整個(gè)數(shù)據(jù)的三維體素化的結(jié)果在各個(gè)坐標(biāo)上生成的體素格（voxel grid）的個(gè)數(shù)為：(D /v D , H/ v H , W /v W）

1.2點(diǎn)云分組（Grouping）

分組就是將所有的點(diǎn)云數(shù)據(jù)劃分到所定義的體素中，但是因?yàn)辄c(diǎn)云是稀疏的，并且在在整個(gè)空間中具有高度可變的點(diǎn)密度，所以分組之后體素中的點(diǎn)云個(gè)數(shù)各不相同，甚至有些體素中就沒(méi)有點(diǎn)云。

1.3隨機(jī)采樣（Random Sampling）

隨機(jī)采樣就是抽取上面所定義的體素。因?yàn)榉殖龅捏w素比較多，而且很多就沒(méi)有點(diǎn)云數(shù)據(jù)，所以隨機(jī)采樣可以減少計(jì)算量，有效降低因?yàn)辄c(diǎn)云數(shù)據(jù)不平衡帶來(lái)的信息偏差。另外論文中定義了一個(gè)體素中所包含最大點(diǎn)云數(shù)量T。

1.4多層的體素特征編碼（Stacked Voxel Feature Encoding）

這一部分就是對(duì)點(diǎn)云進(jìn)行特征編碼，Voxel Feature Encoding簡(jiǎn)稱VFE，是本文的核心思想。

1.5稀疏張量表示（Sparse Tensor Representation）

雖然一次lidar掃描包含接近10萬(wàn)個(gè)點(diǎn)，但是超過(guò)90%的體素格都是空的，使用稀疏張量來(lái)描述非空體素格在于能夠降低反向傳播時(shí)的內(nèi)存和計(jì)算消耗。

上述得到的特征可以用4維的稀疏張量表示：C × D’ × H’ × W’。

二.卷積中間層（Convolutional middle layers）

我們使用ConvMD ( c_in，c_out， k ， s ， p ) 來(lái)表示一個(gè)M維卷積算子，其中c_in和c_out 是輸入和輸出通道的數(shù)量，k，s和p是m維向量分別根據(jù)內(nèi)核大小、步幅大小和填充大小來(lái)確定。當(dāng)m維的大小相同時(shí)，我們使用一個(gè)標(biāo)量來(lái)表示例如k=(k，k，k)的大小。

三.區(qū)域提案網(wǎng)絡(luò)（Region proposal network）

RPN 這個(gè)概念來(lái)源于 Faster R-CNN 系列，VoxelNet 中也運(yùn)用到了 RPN，但經(jīng)過(guò)了改良。

輸入是卷積中間層提供的特征，整個(gè)網(wǎng)絡(luò)包含三個(gè)全卷積塊，每個(gè)塊的第一層通過(guò)步長(zhǎng)為2的卷積將特征圖采樣為一半，之后是三個(gè)步長(zhǎng)為1的卷積層，每個(gè)卷積層都包含BN層和ReLU操作。

將每一個(gè)塊的輸出都上采樣到一個(gè)固定的尺寸并串聯(lián)構(gòu)造高分辨率的特征圖。最后，該特征圖通過(guò)兩種二維卷積被輸出到期望的學(xué)習(xí)目標(biāo)：

概率評(píng)分圖（Probability Score Map ）回歸圖（Regression Map）

附： loss

其中 (d ^a )^2= ( l ^a ) ^2 + ( w ^a ) ^2 是錨盒底部的對(duì)角線。

則最終的損失函數(shù)為：

附：高效運(yùn)行( Efficient Implementation)

gpu被優(yōu)化用于處理致密張量結(jié)構(gòu)。但是點(diǎn)云分布稀疏。

論文設(shè)計(jì)了一種將點(diǎn)云轉(zhuǎn)換為密集張量結(jié)構(gòu)的方法，其中堆疊的VFE操作可以在點(diǎn)和體素之間并行處理。

初始化一個(gè)K×T×7維張量結(jié)構(gòu)來(lái)存儲(chǔ)體素輸入特征緩沖區(qū)，其中K是是非空體素的最大數(shù)量，T是最大值每個(gè)體素的點(diǎn)數(shù)，7是每個(gè)點(diǎn)的輸入編碼維度。

這些點(diǎn)在處理前是隨機(jī)化的。對(duì)于點(diǎn)云中的每個(gè)點(diǎn)，我們檢查是否有相應(yīng)的體素已經(jīng)存在。這個(gè)查找操作是在O（1）中使用一個(gè)哈希表有效地執(zhí)行的，其中體素坐標(biāo)被用作哈希鍵。

如果體素已經(jīng)初始化，那么我們將點(diǎn)插入到體素位置，如果有小于T個(gè)點(diǎn)，否則該點(diǎn)將被忽略。如果體素沒(méi)有被初始化，我們將初始化一個(gè)新的體素，將它的坐標(biāo)存儲(chǔ)在體素坐標(biāo)緩沖區(qū)中，然后in插入該點(diǎn)到這個(gè)體素位置。

體素輸入特征和坐標(biāo)緩沖區(qū)可以通過(guò)通過(guò)點(diǎn)列表來(lái)構(gòu)造，因此其復(fù)雜度為O(n)。為了進(jìn)一步提高內(nèi)存/計(jì)算效率，可以只存儲(chǔ)有限數(shù)量的體素(K)，并忽略來(lái)自具有很少點(diǎn)的體素的點(diǎn)。
————————————————

參考連接：https://blog.csdn.net/qingliange/article/details/122783278

總結(jié)

以上是生活随笔為你收集整理的【VoxelNet —— 体素网络】的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：中文字体下载
下一篇：如何编译typescript文件，在控制