日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 人文社科 > 生活经验 >内容正文

生活经验

激光雷达目标检测

發(fā)布時間:2023/11/28 生活经验 30 豆豆
生活随笔 收集整理的這篇文章主要介紹了 激光雷达目标检测 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

激光雷達目標檢測

激光雷達,是以發(fā)射激光束探測目標的位置、速度等特征量的雷達系統(tǒng)。其工作原理是向目標發(fā)射探測信號(激光束),然后將接收到的從目標反射回來的信號(目標回波)與發(fā)射信號進行比較,作適當處理后,就可獲得目標的有關(guān)信息,如目標距離、方位、高度、速度、姿態(tài)、甚至形狀等參數(shù),從而對飛機、導彈等目標進行探測、跟蹤和識別。它由激光發(fā)射機、光學接收機、轉(zhuǎn)臺和信息處理系統(tǒng)等組成,激光器將電脈沖變成光脈沖發(fā)射出去,光接收機再把從目標反射回來的光脈沖還原成電脈沖,送到顯示器。

定義

編輯

LiDAR(Light Detection and Ranging),是激光探測及測距系統(tǒng)的簡稱,另外也稱Laser Radar [1] 或LADAR(Laser Detection and Ranging) [2] 。

用激光器作為發(fā)射光源,采用光電探測技術(shù)手段的主動遙感設(shè)備。激光雷達是激光技術(shù)與現(xiàn)代光電探測技術(shù)結(jié)合的先進探測方式。由發(fā)射系統(tǒng)、接收系統(tǒng) 、信息處理等部分組成。發(fā)射系統(tǒng)是各種形式的激光器,如二氧化碳激光器、摻釹釔鋁石榴石激光器、半導體激光器及波長可調(diào)諧的固體激光器以及光學擴束單元等組成;接收系統(tǒng)采用望遠鏡和各種形式的光電探測器,如光電倍增管、半導體光電二極管、雪崩光電二極管、紅外和可見光多元探測器件等組合。激光雷達采用脈沖或連續(xù)波2種工作方式,探測方法按照探測的原理不同可以分為米散射、瑞利散射、拉曼散射、布里淵散射、熒光、多普勒等激光雷達。

構(gòu)成與原理

LIDAR是一種集激光,全球定位系統(tǒng)(GPS)和慣性導航系統(tǒng)(INS)三種技術(shù)與一身的系統(tǒng),用于獲得數(shù)據(jù)并生成精確的DEM。這三種技術(shù)的結(jié)合,可以高度準確地定位激光束打在物體上的光斑。它又分為日臻成熟的用于獲得地面數(shù)字高程模型(DEM)的地形LIDAR系統(tǒng)和已經(jīng)成熟應(yīng)用的用于獲得水下DEM的水文LIDAR系統(tǒng),這兩種系統(tǒng)的共同特點都是利用激光進行探測和測量,這也正是LIDAR一詞的英文原譯,即:LIght Detection And Ranging - LIDAR。

激光本身具有非常精確的測距能力,其測距精度可達幾個厘米,而LIDAR系統(tǒng)的精確度除了激光本身因素,還取決于激光、GPS及慣性測量單元(IMU)三者同步等內(nèi)在因素。隨著商用GPS及IMU的發(fā)展,通過LIDAR從移動平臺上(如在飛機上)獲得高精度的數(shù)據(jù)已經(jīng)成為可能并被廣泛應(yīng)用。

LIDAR系統(tǒng)包括一個單束窄帶激光器和一個接收系統(tǒng)。激光器產(chǎn)生并發(fā)射一束光脈沖,打在物體上并反射回來,最終被接收器所接收。接收器準確地測量光脈沖從發(fā)射到被反射回的傳播時間。因為光脈沖以光速傳播,所以接收器總會在下一個脈沖發(fā)出之前收到前一個被反射回的脈沖。鑒于光速是已知的,傳播時間即可被轉(zhuǎn)換為對距離的測量。結(jié)合激光器的高度,激光掃描角度,從GPS得到的激光器的位置和從INS得到的激光發(fā)射方向,就可以準確地計算出每一個地面光斑的坐標X,Y,Z。激光束發(fā)射的頻率可以從每秒幾個脈沖到每秒幾萬個脈沖。舉例而言,一個頻率為每秒一萬次脈沖的系統(tǒng),接收器將會在一分鐘內(nèi)記錄六十萬個點。一般而言,LIDAR系統(tǒng)的地面光斑間距在2-4m不等。 [3]

激光雷達的工作原理與雷達非常相近,以激光作為信號源,由激光器發(fā)射出的脈沖激光,打到地面的樹木、道路、橋梁和建筑物上,引起散射,一部分光波會反射到激光雷達的接收器上,根據(jù)激光測距原理計算,就得到從激光雷達到目標點的距離,脈沖激光不斷地掃描目標物,就可以得到目標物上全部目標點的數(shù)據(jù),用此數(shù)據(jù)進行成像處理后,就可得到精確的三維立體圖像。

激光雷達最基本的工作原理與無線電雷達沒有區(qū)別,即由雷達發(fā)射系統(tǒng)發(fā)送一個信號,經(jīng)目標反射后被接收系統(tǒng)收集,通過測量反射光的運行時間而確定目標的距離。至于目標的徑向速度,可以由反射光的多普勒頻移來確定,也可以測量兩個或多個距離,并計算其變化率而求得速度,這是、也是直接探測型雷達的基本工作原理。

基于lidar的目標檢測方法可以分成3個部分:lidar representation,network backbone,detection head,如下圖所示。

根據(jù)lidar不同的特征表達方式[1],可以將目標檢測方法分成以下4種:基于BEV(bird’s
eye view)的目標檢測方法,基于camera view的目標檢測方法,基于point-wise
feature的目標檢測方法,基于融合特征的目標檢測方法。如下圖所示。

基于bev的目標檢測方法顧名思義是使用bev作為點云特征的表達,其檢測流程如下圖所示,包括3個部分:bev generator,network backbone, detection head。下面詳細介紹一下這3個部分如何在基于bev的目標檢測方法中發(fā)揮作用。

1.BEV generator

BEV圖由激光雷達點云在XY坐標平面離散化后投影得到,其中需要人為規(guī)定離散化時的分辨率,即點云空間多大的長方體范圍(ΔlΔwΔh)對應(yīng)離散化后的圖像的一個像素點(或一組特征向量),如點云20cm20cmΔh的長方體空間,對應(yīng)離散化后的圖像的一個像素點。具體關(guān)于bev投影生成策略可以關(guān)注文章:自動駕駛中,激光雷達點云如何做特征表達[1]。 在bev generator中,需要根據(jù)ΔlΔwΔh來生成最后LWH大小的bev特征圖,該特征圖是network backbone特征提取網(wǎng)絡(luò)的輸入,因此該特征圖的大小對整個網(wǎng)絡(luò)的效率影響很大,如pointpillar[2]通過對voxelnet[3]中bev generator的優(yōu)化,整個網(wǎng)絡(luò)效率提高了7ms。

Network backbone

網(wǎng)絡(luò)結(jié)構(gòu)的設(shè)計需要兼顧性能和效果,一般都是在現(xiàn)有比較大且性能比較好的網(wǎng)絡(luò)結(jié)構(gòu)基礎(chǔ)上進行修改,可以參照文章:輕量(高效)目標檢測網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計[4]。以voxelnet[3]和pointpillar[2]為例,pointpillar[2]以voxelnet[3]為原型,不改變原流程的基礎(chǔ)上,對voxelnet[3]設(shè)計做了以下一些修改,使網(wǎng)絡(luò)效率提高了10多倍,具體如下:

簡化bev中的網(wǎng)絡(luò)結(jié)構(gòu)

voxelnet[3]使用stacked vfe layer,在代碼中使用了2個vfe layer,如下圖所示。

pointpillar[2]簡化了voxel表達形式,變成pillar,提高了數(shù)據(jù)生成效率,并且只使用了一個vfe layer,減少了2ms,如下圖所示。

主網(wǎng)絡(luò)結(jié)構(gòu)

· 不使用3D卷積

· 輸入特征圖的channel數(shù)從128減少為64,網(wǎng)絡(luò)耗時減少2.5ms

· 網(wǎng)絡(luò)主結(jié)構(gòu)所有層channel數(shù)減半,網(wǎng)絡(luò)耗時減少4.5ms

· Upsampling的channel數(shù)從256減少到128,減輕detection head,網(wǎng)絡(luò)耗時減少3.9ms

· Tensorrt加速,提速45.5%

Pointpillar[2]在保證網(wǎng)絡(luò)性能提升的前提下,逐步提高網(wǎng)絡(luò)效率,從不同角度優(yōu)化網(wǎng)絡(luò)流程,最后使網(wǎng)絡(luò)效率提高10倍有余。

Detection head

detection head包括兩個任務(wù),即:目標分類與目標定位,由于bev將點云用圖像的形式呈現(xiàn),同時保留了障礙物在三維世界的空間關(guān)系,因此基于bev的目標檢測方法可以和圖像目標檢測方法類比:目標分類任務(wù)與圖像目標檢測方法中目標分類任務(wù)沒有差別;而目標定位任務(wù)可以直接回歸目標的真實信息,但與圖像目標檢測方法中目標定位任務(wù)不同,該任務(wù)需要給出旋轉(zhuǎn)框。與圖像目標檢測方法相同,基于bev的目標檢測方法的detection head也分成anchor base的方法和anchor free的方法。

anchor
base方法

以voxelnet[3]為例,需要人為設(shè)定anchor的大小,由于bev可以直接回歸真實的目標大小,因此anchor也可以根據(jù)真實目標大小設(shè)定,如:以下單位為米,l、w、h分別表示anchor的長、寬、高,對于車來說anchor大小可以設(shè)定為la = 3.9,wa = 1.6,ha = 1.56,對于人la = 0.8,wa = 0.6,ha = 1.73,對于騎行者la =1.76,wa
= 0.6,ha = 1.73,且對于每種anchor,設(shè)置了θa=0°和90°兩種角度。由于目標有各種角度,因此為了得到更準確的角度回歸,anchor的角度設(shè)置可以在[0°,180°)進行等間隔采樣,獲得更多不同角度的anchor,提高回歸精度。回歸誤差的計算如下圖所示。

anchor free方法

典型代表是pixor[5],對于bbox的回歸,如下圖所示,對于正樣本的紅點p(x,y),需要回歸如下信息:{cos(θ), sin(θ), dx, dy, w, l},其中θ為障礙物偏角,dx、dy分別為p點相對障礙物中心點的偏移,w、l是障礙物大小的表達。沒有anchor,對目標的回歸是不是簡單了很多。

以上為基于bev的目標檢測方法的簡單介紹,該方法在目前的自動駕駛的3D目標檢測方案中應(yīng)用較廣。

2.Camera view generator

camera view圖是將每圈激光線拉成直線再按行累積而成,因此也稱為range view,其中投影圖的高為激光線數(shù),寬為lidar掃描一圈的點數(shù),如: 64線激光雷達,水平角分辨率為0.2°,生成的camera view的圖大小為64*1800。camera view相對bev圖小很多,因此基于camera view的方法效率都較高。具體投影圖的生成策略可以關(guān)注文章:自動駕駛中,激光雷達點云如何做特征表達[2]。camera view效果如下圖。

Network backbone

網(wǎng)絡(luò)結(jié)構(gòu)的設(shè)計要依據(jù)任務(wù)需求,基于camera view的目標檢測方法,多是以分割任務(wù)為主,因此網(wǎng)絡(luò)結(jié)構(gòu)大都是encode+decode結(jié)構(gòu),如下圖1所示。因此有關(guān)提高分割效果的網(wǎng)絡(luò) 設(shè)計思想都可以在此使用,如圖2中使用不同大小的dilation rate的卷積獲得不同感受野的特征表達,如圖3使用global attention增加上下文信息。更多分割增強模塊,在后面會專門寫一篇文章介紹。

圖1 ecode+decode

圖2 不同dilate rate卷積


圖3 global attention

Detection head

基于camera view的目標檢測方法有兩種輸出方式表達,一種是純分割區(qū)域,另一種是分割與檢測框。

純分割區(qū)域表達

純分割的輸出是基于camera view的模型最直接、最好的一種輸出。在原始3D點云中,尤其是遠處的點,點與點之間的距離都較遠,如bev投影圖,造成點特征提取時很難融入上下文信息。而camera view投影圖將點云中的點聚攏,每個點都可以很方便的獲得更大范圍的上下文信息,這種投影方式更適合分割任務(wù)。如在SqueezeSeg[3]和PointSeg[4]兩篇文章中,都直接將分割作為最終任務(wù)目標,但是為了得到更好的聯(lián)通區(qū)域,需要增加較多的后處理。如在SqueezeSeg[3],在模型輸出后又增加了crf提高分割效果。在PointSeg[4]中,使用RANSAC將異常點剔除,如下圖,第一行為模型輸入,第二行為模型直接的預(yù)測輸出,第三行為將模型輸出的camera view圖反投影得到的點云圖,第四行為經(jīng)過ransac后再反投影得到的點云圖,對比第三行和第四行對應(yīng)的圖可以看出,ransac有效的抑制很多離目標較遠的點。

分割與檢測表達

分割任務(wù)對于基于camera view的模型相對簡單,但是檢測框的回歸并不容易。camera view投影圖增加了點云中點的上下文信息,但也將原本在3D空間分離的目標拉近,引入了遮擋與目標尺度變化,然而點云投影圖又不像真實的圖像那樣有很豐富的紋理信息,造成了camera view圖像很難做實例分割與目標框回歸,因此,檢測框的回歸需要增加一些額外操作來實現(xiàn)。

在lasernet[5]中,對于目標框中的點(x,y)需要回歸6個信息,如上圖所示,Box
Parameters為6,包括:該點相對中心點的偏移(dx,dy),
相對旋轉(zhuǎn)角度 (ωx,ωy) = (cosω,sinω),以及框大小 (l,w),從而可以通過下述公式計算得到真正的目標框中心點bc以及旋轉(zhuǎn)角φ,其中θ為該點在點云中的方位角,Rθ為以θ為旋轉(zhuǎn)角的旋轉(zhuǎn)矩陣。

另外,由于對每個點的預(yù)測存在噪聲,而后又在bev投影圖中使用mean shift聚類方法得到更準確的目標框。

總結(jié):

由于3D點云在做camera
view投影的時候丟失了原來的3D結(jié)構(gòu)信息,引入了圖像中的尺度變化和遮擋兩個問題,因此少有方法直接在這種模式下作3D目標檢測,一般需要在網(wǎng)絡(luò)輸出基礎(chǔ)上做比較多的后處理。但是camera view的表達模式,極大的增加了遠處點云的上下文信息,也是一種極好的提高點云特征表達能力的方式,后續(xù)在融合感知方法中會再介紹。

3.Point-wise

基于lidar的目標檢測方法迎來了第3大類方法的介紹,前面已經(jīng)介紹過基于BEV(bird’s eye view)的目標檢測方法[1],基于camera/rang view的目標檢測方法[2],這兩種方法在自動駕駛的實際運用中都很常見,算是比較主流的方法。這兩種方法研究的也比較早,相對成熟一些。而point-wise目標檢測方法自pointnet[3]之后,才有較多的研究文章用其解決自動駕駛中有關(guān)3D目標檢測問題,在此之前,大都用來解決基于室內(nèi)場景或者單個全掃描目標密集點云的分割、檢測、場景理解的問題,其中研究有關(guān)RGB-D的問題最多。

這里我們將關(guān)注點放在如何用point-wise feature來解決自動駕駛的目標檢測問題上。自2017年pointnet[3]之后出現(xiàn)的3D目標檢測相關(guān)文章中,50%都出自香港中文大學,其中一部分來自商湯科技自動駕駛相關(guān)部門,如PointRcnn[4]、Part aware and aggregation[5]、PV Rcnn[6],另一部分來自騰訊優(yōu)圖實驗室賈佳亞老師團隊,同樣也是自動駕駛相關(guān)業(yè)務(wù)方向,如IPoD[7]、Fast PointRcnn[8]、STD[9]、3DSSD[10]。這里面除了3DSSD[10]方法為one-stage detector,其他都是two-stage detector,而3DSSD[10]主打高效,從而也可以看出刷榜還得靠two-stage detector。

我們從如下圖所示的3個部分(lidar
representation,network backbone,detection head),來介紹一下point-wise方法。其中l(wèi)idar represention部分是直接使用點云做輸入,即n*4的點集,不做單獨介紹,下面重點介紹一下其他兩個部分。

Network backbone

提取點特征一般有兩種方式:基于pointnet[3]/pointnet++[11]的點特征、voxel特征。如圖1:在STD[9]中,組合了兩種方式。如圖2,在PointRcnn[4]中,僅使用了pointnet++[11]提取點特征

圖1
STD[9]特征提取方式

圖2 PointRcnn中特征提取方式

在使用pointnet++[11]提取特征時,包含兩個重要模塊,即set abstraction(即,SA)和feature propagation(即,FP),如下圖3所示其中SA是特征encoder過程,通過點云篩選與特征提取逐步減少點云點數(shù),提高特征表達能力與感受野,FP是特征decoder過程,通過點云上采樣,獲得稠密的點云表達,并級聯(lián)SA過程的特征,提高最終的點云特征表達能力。

圖3 pointnet++特征表達

在3DSSD[10]中,為了提高模型效率,去掉了耗時比較嚴重的FP模塊,由于SA過程只篩選了一部分點做特征表達,對目標檢測的召回影響很大,尤其對點云比較稀疏的遠處的目標,影響更大,因此3DSSD[10]在D-FPS的基礎(chǔ)上,提出了F-FPS,即通過點的語義信息來做點的篩選,保留更多的正樣本的點,保證最終的目標召回率。

Detection head

detection head除了完成目標分類與目標定位的任務(wù),在two-stage detector中,還需要實現(xiàn)roi pooling,為第二階段提供實例級別的特征,之前寫過一篇圖像中的rpn與roi align實現(xiàn)[12],但是點云的特征表達還是有些差別的。

對于目標定位的任務(wù),同樣有anchor-base方法和anchor-free方法。在STD[9]中,為應(yīng)對有旋轉(zhuǎn)角的box回歸,提出了球形anchor,由于anchor沒有角度的變化,直接將anchor數(shù)量減少50%,提高了計算效率。其他方法大都是anchor-free的方法,關(guān)于anchor-free的方法,推薦讀一下kaiming大神的voteNet[13],比較好理解。

關(guān)于roi pooling,一般是針對單個目標,再次提取更豐富、更具表達能力的特征,因此在不同論文中,根據(jù)實例提取特征方式的不同,提出了不同的roi pooling方法,如在STD[9]中,提出了PointsPool,在Part aware and aggregation[5]中,提出了Roi aware Point Cloud Pooling,在pv-rcnn[6]中提出了Roi grid Pooling。下面分別介紹一下。

PointsPool[9]

如下圖4所示,分成三個步驟

圖4 PointsPool[9]

特征提取:在proposal中隨機篩選N個點,1)獲得第一階段的點特征;2)獲得N個點的坐標,并用如下圖5所示的canonical transformation得到與原坐標系無關(guān)的坐標特征。兩種特征聯(lián)合在一起,作為proposal中點的特征表達

Voxel表達:將不同大小的proposal,通過voxel統(tǒng)一化到相同大小:dl = 6,dw = 6,dh = 6

使用VFE layer提取最終特征

圖5 canonical transformation

Roi aware Point
Cloud Pooling[5]

整體流程如下圖6所示,與STD[9]中的pooling方法類似,首先將proposal分割成固定大小的voxel,如14×14×14,然后再提取voxel特征表達:

· RoIAwareMaxPool:使用的是第一階段輸出的point-wise semantic part feature,在voxel中計算max pooling

· RoIAwareAvgPool:使用的是proposal中經(jīng)過canonical
transformation點坐標特征和segmentation score,在voxel中計算avg pooling

最后將兩組特征聯(lián)合作為proposal的pooling特征。

圖6 Roi aware Point Cloud Pooling Roi grid pooling[6]

與上面兩種pooling方法不同的是,并沒有將proposal通過voxel得到固定大小的特征圖,而是根據(jù)pv-rcnn[6]中提出的key point信息,將proposal用666=216個grid points表達,grid points是從proposal中的key points均勻采樣獲得,且RoI-grid point features提取過程和key point feature提取過程是相似的。簡單來說就是以grid point為中心,r為半徑的區(qū)域內(nèi)提取不同尺度、不同感受野的特征,最后在使用2層的MLP網(wǎng)絡(luò)獲得最終的特征表達,如圖7所示。

圖7 Roi grid point feature extraction

總結(jié):

目前基于point-wise feature的目標檢測方法還處于研究階段,效率無法保證,精度還未在真實自動駕駛車上測試,但由于該方法直接從點云提取特征,極大的保留了點云的原始信息,比較有潛力得到更好的效果。

參考文獻:
1、PointPillars: Fast
Encoders for Object Detection from PointClouds
2、VoxelNet:End-to-End Learning for Point Cloud Based 3D Object Detection
3、PIXOR: Real-time 3D Object Detection from Point Clouds
4、Multi-View 3D Object Detection Network for Autonomous Driving
5、YOLO3D: End-to-end real-time 3D Oriented Object
Bounding Box Detection from LiDAR Point Cloud6、SqueezeSeg: Convolutional Neural Nets
with Recurrent CRF for Real-Time Road-Object Segmentation from 3D LiDAR Point
Cloud7、PointSeg: Real-Time Semantic Segmentation Based
on 3D LiDAR Point Cloud8、LaserNet: An Ef?cient
Probabilistic 3D Object Detector for Autonomous Driving

總結(jié)

以上是生活随笔為你收集整理的激光雷达目标检测的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。