论文解读--Multi-class Road User Detection with 3+1D Radar in the View-of-Delft Dataset
摘要
? ? ? ? ?下一代汽車?yán)走_(dá)除了提供距離、方位角和多普勒速度外,還提供仰角數(shù)據(jù)。在這項(xiàng)實(shí)驗(yàn)研究中,我們將以前用于LiDAR 3D數(shù)據(jù)的最先進(jìn)的物體探測(cè)器(pointpillars)應(yīng)用于這樣的3+1D雷達(dá)數(shù)據(jù)(其中1D指的是多普勒)。在消融研究中,我們首先探討了在多類道路使用者檢測(cè)的背景下,額外的高程信息,以及多普勒、雷達(dá)橫截面和時(shí)間積累的好處。隨后,我們比較了雷達(dá)和LiDAR點(diǎn)云上的目標(biāo)檢測(cè)性能,對(duì)象類別和距離的函數(shù)。為了便于我們的實(shí)驗(yàn)研究,我們提出了新的View-of-Delft (VoD)汽車數(shù)據(jù)集。它包含8693幀同步和校準(zhǔn)的64線激光雷達(dá),(立體)攝像頭,以及在復(fù)雜的城市交通中獲取的3+1D雷達(dá)數(shù)據(jù)。它由123106個(gè)移動(dòng)和靜態(tài)對(duì)象的3D包圍框注釋組成,其中包括26587個(gè)行人標(biāo)簽,10800個(gè)自行車標(biāo)簽和26949個(gè)汽車標(biāo)簽。我們的研究結(jié)果表明,64線激光雷達(dá)數(shù)據(jù)上的目標(biāo)檢測(cè)仍然優(yōu)于3+1D雷達(dá)數(shù)據(jù),但加入高程信息和連續(xù)雷達(dá)掃描的集成有助于縮小差距。VoD數(shù)據(jù)集可免費(fèi)用于科學(xué)基準(zhǔn)測(cè)試。
? ? ? ? 索引術(shù)語-目標(biāo)檢測(cè)、分割與分類;機(jī)器人視覺數(shù)據(jù)集;汽車?yán)走_(dá)
1介紹
? ? ? ? 雷達(dá)通常用于智能車輛,因?yàn)樗鼈儗?duì)天氣和光照條件相對(duì)穩(wěn)健,具有出色的距離靈敏度,并且可以以合理的成本直接測(cè)量物體的徑向速度。傳統(tǒng)的汽車?yán)走_(dá)(2+1D雷達(dá))輸出一個(gè)稀疏的反射點(diǎn)云,稱為雷達(dá)目標(biāo)。每個(gè)點(diǎn)都有兩個(gè)空間維度,距離r和方位角α,第三個(gè)維度稱為多普勒,這是目標(biāo)相對(duì)于自車[1]的徑向速度vrel。近年來,雷達(dá)技術(shù)和算法的發(fā)展使這些雷達(dá)能夠用于道路使用者檢測(cè)[2][3][4][5][6]。盡管有了這些改進(jìn),傳統(tǒng)汽車?yán)走_(dá)提供的點(diǎn)云稀疏性仍然是目標(biāo)檢測(cè)研究的瓶頸。由于二維鳥瞰(BEV)邊界框的點(diǎn)數(shù)量較少,很難回歸準(zhǔn)確的邊界框,特別是對(duì)于行人等較小的物體。此外,缺乏仰角信息(即點(diǎn)的高度)使得幾乎不可能推斷物體的高度和垂直偏移。
? ? ? ? 與基于激光雷達(dá)的探測(cè)器不同,大多數(shù)基于2+1D雷達(dá)的目標(biāo)檢測(cè)方法不會(huì)在2D(BEV)或3D中回歸邊界框,而是對(duì)2+1D雷達(dá)點(diǎn)云[3][5][7][8][9][10]進(jìn)行語義或?qū)嵗指睢?span style="background-color:#ffff00;">稀疏雷達(dá)點(diǎn)云上的邊界盒回歸仍然具有挑戰(zhàn)性,因?yàn)槲矬w上通常只有幾個(gè)點(diǎn),無法提供關(guān)于真正邊界盒的確切位置和范圍的空間信息。汽車?yán)走_(dá)技術(shù)的最新改進(jìn),3+1D雷達(dá)可能有助于克服這些限制。與傳統(tǒng)的汽車?yán)走_(dá)不同,3+1D雷達(dá)具有三個(gè)空間維度:距離、方位角和仰角,同時(shí)仍然提供多普勒作為第四個(gè)維度。它們也傾向于提供一個(gè)密度更大的點(diǎn)云[11]。有了額外的高程信息和增加的密度,3+1D雷達(dá)點(diǎn)云有點(diǎn)像激光雷達(dá)點(diǎn)云。因此,這些雷達(dá)可能更適合于多類三維包圍盒回歸,并且將為L(zhǎng)iDAR數(shù)據(jù)開發(fā)的目標(biāo)檢測(cè)網(wǎng)絡(luò)應(yīng)用于這些雷達(dá)中是很直觀的。盡管如此,3+1D雷達(dá)只用于單一類別的汽車檢測(cè)任務(wù)[12][13],而不是用于行人、騎車人或多類別的檢測(cè)任務(wù)。我們看到了兩個(gè)可能的原因。首先,經(jīng)常用于激光雷達(dá)輸入的目標(biāo)檢測(cè)網(wǎng)絡(luò)在設(shè)計(jì)時(shí)沒有考慮多普勒維度,目前尚不清楚如何最好地納入這些額外的信息。此外,測(cè)得的多普勒值取決于目標(biāo)所在的方向,因此許多用于激光雷達(dá)點(diǎn)云的數(shù)據(jù)增強(qiáng)技術(shù)并不適用于雷達(dá)點(diǎn)云。其次,許多數(shù)據(jù)集包含數(shù)千個(gè)激光雷達(dá)數(shù)據(jù)[14][15][16]上的多個(gè)類別的3D包圍框注釋,而唯一公開的3+1D雷達(dá)數(shù)據(jù)檢測(cè)數(shù)據(jù)[11]只有~ 500幀,對(duì)行人或騎自行車的注釋不到40個(gè),因此,它不適合多類別的目標(biāo)檢測(cè)。
? ? ? ? 在這項(xiàng)實(shí)驗(yàn)研究中,我們將最先進(jìn)的目標(biāo)探測(cè)器(PointPillars[17])應(yīng)用于這種3+1D雷達(dá)數(shù)據(jù),通常用于LiDAR 3D數(shù)據(jù)。我們結(jié)合了多普勒信息,并探討了它是如何影響檢測(cè)性能的。此外,我們還研究了高程信息和過去雷達(dá)掃描的使用(即時(shí)間信息)如何提高道路用戶檢測(cè)性能。討論了適用于3+1D雷達(dá)數(shù)據(jù)的數(shù)據(jù)增強(qiáng)方法。最后,我們將基于雷達(dá)的最佳目標(biāo)檢測(cè)方法與使用激光雷達(dá)數(shù)據(jù)的PointPillars網(wǎng)絡(luò)進(jìn)行了比較,并檢查了兩種傳感器的性能和能力作為類和距離的函數(shù)。
? ? ? ? 為了便于我們的實(shí)驗(yàn)研究,我們引入了View-of-Delft (VoD)數(shù)據(jù)集,這是一個(gè)用于多類3D對(duì)象檢測(cè)的多傳感器汽車數(shù)據(jù)集,見圖1。
? ? ? ? 圖1:來自View-of-Delft (VoD)數(shù)據(jù)集的示例場(chǎng)景。我們的記錄包含相機(jī)圖像、LiDAR點(diǎn)云(這里顯示為小點(diǎn)線)和3+1D雷達(dá)數(shù)據(jù)(顯示為大點(diǎn)),以及準(zhǔn)確的定位信息和3D包圍框注釋(騎車人/行人類別標(biāo)簽為紅色/綠色)。
2相關(guān)工作
A.基于2+1D雷達(dá)的多類目標(biāo)探測(cè)
? ? ? ? 傳統(tǒng)的汽車?yán)走_(dá)已經(jīng)以各種方式用于多類別道路用戶檢測(cè),例如使用聚類算法[2][7]、卷積神經(jīng)網(wǎng)絡(luò)[3][4][22]或點(diǎn)云處理神經(jīng)網(wǎng)絡(luò)[5][6]。2+1D雷達(dá)提供的點(diǎn)云稀疏性是雷達(dá)感知領(lǐng)域的最大瓶頸之一。此外,高度信息的缺乏使得物體高度的推斷幾乎不可能。研究人員試圖克服這些挑戰(zhàn),并通過各種方式獲得更多信息,例如:通過合并多個(gè)幀[5][22][23],使用多個(gè)雷達(dá)[24],使用低水平雷達(dá)數(shù)據(jù)[3][4][23],或融合雷達(dá)與其他傳感器模式[25][26][27][28]。然而,目前還沒有基于2+1D雷達(dá)的多類三維包圍盒回歸方法。相反,大多數(shù)現(xiàn)有方法執(zhí)行雷達(dá)點(diǎn)云的語義或?qū)嵗指?#xff0c;即它們?yōu)槊總€(gè)雷達(dá)目標(biāo)分別分配一個(gè)類標(biāo)簽(可能是一個(gè)對(duì)象id)[3][5][7][8][9][10]。
B.基于3+1D的多類目標(biāo)檢測(cè)
? ? ? ? 只有少數(shù)工作使用3+1D雷達(dá)進(jìn)行目標(biāo)探測(cè)。在[29]中,作者將該傳感器應(yīng)用于高速公路和停車場(chǎng)場(chǎng)景的靜態(tài)三維占用圖,過濾掉動(dòng)態(tài)目標(biāo)。然后,地圖被圖像分割網(wǎng)絡(luò)從語義上分割成街道、路邊石、柵欄、障礙物或停放的汽車類別。目前,唯一公開的包含3+1D雷達(dá)數(shù)據(jù)的汽車檢測(cè)數(shù)據(jù)集是Astyx數(shù)據(jù)集[11]。盡管數(shù)據(jù)集的大小很小(約500幀),作者已經(jīng)成功地使用它通過融合雷達(dá)和攝像機(jī)與AVOD融合網(wǎng)絡(luò)[12]來執(zhí)行3D汽車檢測(cè)。此外,他們還將這種雷達(dá)-攝像機(jī)融合與激光雷達(dá)-攝像機(jī)融合進(jìn)行了比較,盡管激光雷達(dá)傳感器只有16線。最后,[13]使用兩個(gè)空間分離的低分辨率3+1D雷達(dá)的組合,通過一個(gè)名為RP-net的新型神經(jīng)網(wǎng)絡(luò)來檢測(cè)車輛,該神經(jīng)網(wǎng)絡(luò)包含幾個(gè)Pointnet層。據(jù)我們所知,3+1D雷達(dá)以前既沒有用于多類別道路用戶檢測(cè),也沒有與高端激光雷達(dá)傳感器進(jìn)行比較。
C.多普勒的使用
? ? ? ? 多普勒曾被很多地方使用。它最簡(jiǎn)單的用途是在自車運(yùn)動(dòng)補(bǔ)償后區(qū)分靜態(tài)和動(dòng)態(tài)物體。例如,一些研究只保留靜態(tài)雷達(dá)目標(biāo)[29][30][31],另一些研究使用多普勒信息只保留移動(dòng)反射來檢測(cè)動(dòng)態(tài)目標(biāo)[3][23][32]。首先對(duì)雷達(dá)點(diǎn)云進(jìn)行聚類生成目標(biāo),然后利用速度譜的基本統(tǒng)計(jì)特性(均值、偏差等)進(jìn)行分類[2][7]。[5]在一項(xiàng)消融研究中提出,在pointnet++網(wǎng)絡(luò)中添加多普勒作為輸入通道可以顯著改善語義分割。[3]表明(相對(duì))速度分布包含有價(jià)值的類別信息,可以用于多類別道路用戶檢測(cè)。對(duì)于來自同一物體的多個(gè)雷達(dá)目標(biāo),也可以使用目標(biāo)測(cè)量的徑向速度作為不同方位角的樣本,回歸物體的2D速度矢量(以及方向),如[33]為汽車,[34]為自行車。因此,多普勒維度可以在兩種方式中有利于三維物體檢測(cè):1)分類,因?yàn)轭惪赡苡胁煌乃俣饶J絒3][5];2)方向估計(jì),因?yàn)槲矬w的一般速度(移動(dòng)方向)與它的方向[33][34]高度相關(guān)。盡管多普勒具有優(yōu)勢(shì),但在少數(shù)使用3+1D雷達(dá)傳感器的工作中,多普勒要么被忽略[12],要么被用于過濾靜態(tài)雷達(dá)目標(biāo)[29],要么被用作沒有自車運(yùn)動(dòng)補(bǔ)償?shù)狞c(diǎn)云處理網(wǎng)絡(luò)[13]的額外輸入通道。雖然多普勒已被證明有利于使用傳統(tǒng)的2+1D汽車?yán)走_(dá)進(jìn)行多類別道路用戶檢測(cè),但3+1D雷達(dá)僅在文獻(xiàn)[13]中用于單類別車輛檢測(cè)。
D.雷達(dá)數(shù)據(jù)集
? ? ? ? 最近,一些包含雷達(dá)數(shù)據(jù)的汽車數(shù)據(jù)集被發(fā)布用于各種任務(wù),如定位[35][36],物體分類[37],或使用固定雷達(dá)傳感器[38]的場(chǎng)景理解。在本節(jié)中,我們將重點(diǎn)討論包含從運(yùn)動(dòng)車輛真實(shí)記錄的檢測(cè)數(shù)據(jù)集。為了適用于雷達(dá)的多類別道路用戶檢測(cè)任務(wù)(無論是純雷達(dá)還是傳感器融合),我們認(rèn)為汽車數(shù)據(jù)集應(yīng)該滿足以下要求:1)使用下一代3+1D雷達(dá)提供仰角和多普勒信息,2)還配備來自其他模態(tài)的高端傳感器,即高清攝像機(jī)和64線激光雷達(dá),3)為物體提供標(biāo)注,包括其范圍和方向(2D或3D包圍框),4)應(yīng)該為最重要的城市道路用戶:行人、汽車和騎自行車的人提供合理數(shù)量的標(biāo)注。
? ? ? ? 表1根據(jù)這些要求概述了目前可用的雷達(dá)探測(cè)數(shù)據(jù)集。可以看到,RadarScenes[18]和CRUW[19]數(shù)據(jù)集都包含2+1D雷達(dá)和相機(jī)數(shù)據(jù),并且對(duì)這三個(gè)主要類都有大量的注釋。不幸的是,它們不提供LiDAR數(shù)據(jù)或邊界框注釋。此外,在RadarScenes中,只有移動(dòng)的對(duì)象被注釋。RADIATE數(shù)據(jù)集[20]包含雷達(dá)、相機(jī)和激光雷達(dá)數(shù)據(jù)以及所有三個(gè)類別的2D BEV包圍框注釋。它是使用機(jī)械旋轉(zhuǎn)的2D雷達(dá)收集的,該雷達(dá)提供360°環(huán)境的密集圖像,但不輸出多普勒或俯仰信息。Zendar數(shù)據(jù)集[21]使用2+1D雷達(dá)提供合成孔徑雷達(dá)(SAR)數(shù)據(jù)。不幸的是,它只有car類的注釋。nuScenes數(shù)據(jù)集[15]包含來自所有三種傳感器模態(tài)的數(shù)據(jù),它們提供了大量的3D包圍框注釋。然而,在研究團(tuán)體[1][18]中,一些人認(rèn)為裝備的2+1D雷達(dá)傳感器的輸出對(duì)于雷達(dá)探測(cè)方法來說過于稀疏,并且使用的激光雷達(dá)傳感器只有32線。Astyx數(shù)據(jù)集[11]是唯一一個(gè)使用3+1D雷達(dá)的數(shù)據(jù)集,它還包含來自相機(jī)和16線激光雷達(dá)的數(shù)據(jù)。不幸的是,它有限的大小(約500幀)和高度不平衡的類(例如,只有39/11行人/騎自行車的注釋)使得它不適合多類對(duì)象檢測(cè)研究。總之,現(xiàn)有的公開數(shù)據(jù)集無法滿足所有要求。
?? ? ? ? 表1:公開可用的雷達(dá)檢測(cè)數(shù)據(jù)集與所使用的傳感器、注釋類型和車輛數(shù)量(汽車、卡車和公共汽車的總和)、行人和騎自行車的注釋(單個(gè)注釋/唯一實(shí)例,其中唯一的對(duì)象id可用)的比較。頂部/底部部分是雷達(dá)提供2D/3D空間坐標(biāo)的數(shù)據(jù)集。
E.貢獻(xiàn)
? ? ? ? 我們的主要貢獻(xiàn)如下:
? ? ? ? 1)我們使用PointPillars[17]檢測(cè)3+1D雷達(dá)的道路使用者,PointPillars[17]是一種最先進(jìn)的多類別3D物體探測(cè)器,通常用于激光雷達(dá)。我們研究了雷達(dá)點(diǎn)云的不同特征在消融研究中的重要性,包括多普勒、RCS和傳統(tǒng)2+1D汽車?yán)走_(dá)無法提供的高程信息。
? ? ? ? 2)在相同的交通場(chǎng)景下,通過訓(xùn)練和測(cè)試,將基于雷達(dá)的檢測(cè)與基于激光雷達(dá)的檢測(cè)進(jìn)行比較。我們表明,目前基于點(diǎn)云的密集激光雷達(dá)檢測(cè)仍然優(yōu)于雷達(dá)檢測(cè)。然而,我們也發(fā)現(xiàn),當(dāng)雷達(dá)數(shù)據(jù)包含高程信息時(shí),當(dāng)多個(gè)雷達(dá)掃描在時(shí)間上集成時(shí),性能差距可以縮小。此外,探測(cè)得益于雷達(dá)特有的多普勒測(cè)量。
? ? ? ? 3)我們發(fā)布了View-of-Delft (VoD)數(shù)據(jù)集,這是一種新型的多傳感器汽車數(shù)據(jù)集,用于多類別3D物體檢測(cè),由校準(zhǔn)和同步的激光雷達(dá)、攝像機(jī)和雷達(dá)數(shù)據(jù)組成,記錄在真實(shí)世界的交通情況下,并為靜態(tài)和移動(dòng)的道路用戶提供注釋。View-of-Delft數(shù)據(jù)集是包含3+1D雷達(dá)記錄的最大數(shù)據(jù)集,其注釋幀數(shù)是Astyx數(shù)據(jù)集[11]的約20倍,它是唯一同時(shí)包含相機(jī),(任何類型)雷達(dá)和64線激光雷達(dá)數(shù)據(jù)的公共數(shù)據(jù)集。雖然這項(xiàng)工作側(cè)重于只有雷達(dá)的方法,但由于這種傳感器安排,該數(shù)據(jù)集也適用于傳感器融合、只有相機(jī)或只有激光雷達(dá)的方法,并對(duì)對(duì)雜亂的城市交通感興趣的研究人員有用。
? ? ? ? 圖2:記錄平臺(tái)。我們的豐田普銳斯2013平臺(tái)配備了立體相機(jī)設(shè)置,旋轉(zhuǎn)3D激光雷達(dá)傳感器,ZF FRGen 21 3+1D雷達(dá),以及GPS/IMU組合慣性導(dǎo)航系統(tǒng)。
?3數(shù)據(jù)集
? ? ? ? 在本節(jié)中,我們將展示View-of-Delft數(shù)據(jù)集,包括使用的傳感器設(shè)置和提供的標(biāo)注2。數(shù)據(jù)集是在駕駛我們的演示車[39]穿過代爾夫特市(荷蘭)的校園、郊區(qū)和老城區(qū)時(shí)記錄的。記錄的選擇傾向于包含弱勢(shì)道路使用者(VRU-s)的場(chǎng)景,即行人和騎自行車的人。
A.測(cè)量設(shè)置和提供的數(shù)據(jù)
? ? ? ? 我們記錄了以下傳感器的輸出:安裝在前保險(xiǎn)桿后面的ZF FRGen21 3+1D雷達(dá)(規(guī)格見表2,約13 Hz),安裝在擋風(fēng)玻璃上的立體攝像機(jī)(1936 × 1216px,約30 Hz),安裝在車頂?shù)腣elodyne hl -64 S3激光雷達(dá)(約10 Hz)掃描儀,以及自車的里程計(jì)(RTK GPS、IMU和車輪里程計(jì)的過濾組合,約100 Hz)。所有傳感器按照[40]進(jìn)行聯(lián)合校準(zhǔn)。有關(guān)傳感器設(shè)置的總體概述,請(qǐng)參見圖2。
? ? ? ? 我們提供了類似于[14]的同步“幀”數(shù)據(jù)集,包括一個(gè)LiDAR點(diǎn)云、一個(gè)校正的單攝像機(jī)圖像、一個(gè)雷達(dá)點(diǎn)云和一個(gè)描述里程的轉(zhuǎn)換(矩陣)。我們選擇LiDAR傳感器的時(shí)間戳作為先導(dǎo),并選擇可用的最近的相機(jī)、雷達(dá)和里程信息(最大容忍時(shí)間差設(shè)置為0.05秒)。幀在時(shí)間上以10Hz(同步后)連續(xù),它們被組織成平均長(zhǎng)度為40秒的切片。激光雷達(dá)和雷達(dá)點(diǎn)云都是自車運(yùn)動(dòng)補(bǔ)償?shù)?#xff0c;既用于激光雷達(dá)/雷達(dá)和相機(jī)數(shù)據(jù)捕獲之間的自車運(yùn)動(dòng),也用于掃描期間的自車運(yùn)動(dòng)(即激光雷達(dá)傳感器的一次完整旋轉(zhuǎn))。我們的數(shù)據(jù)集在定義的坐標(biāo)系統(tǒng)(參見圖2)和文件結(jié)構(gòu)中都遵循流行的KITTI數(shù)據(jù)集[14]。這種選擇的主要優(yōu)勢(shì)是幾個(gè)開源工具包和檢測(cè)方法直接適用于我們的數(shù)據(jù)集。除了數(shù)據(jù)集的同步版本外,我們還提供了“原始”異步記錄數(shù)據(jù),包括所有13Hz的雷達(dá)掃描數(shù)據(jù),以及來自左右相機(jī)的30Hz的校正圖像。這可以使研究人員為檢測(cè)、跟蹤、預(yù)測(cè)或其他任務(wù)尋找更豐富的時(shí)間數(shù)據(jù)。
? ? ? ? 表2:雷達(dá)傳感器配置的四個(gè)維度的原生精度和分辨率。車載信號(hào)處理提供了進(jìn)一步的分辨率增益。
B.標(biāo)注
? ? ? ? 激光雷達(dá)傳感器50米范圍內(nèi)的任何感興趣的物體(靜態(tài)或移動(dòng)),以及相機(jī)視野范圍內(nèi)的部分或全部(水平視場(chǎng):±32°,垂直視場(chǎng):±22°)都用六自由度(6 DoF) 3D包圍框標(biāo)注3。13個(gè)對(duì)象類被注釋,其對(duì)象計(jì)數(shù)見表3。對(duì)于每個(gè)對(duì)象,我們還為兩種類型的遮擋(“空間”和“照明”)和活動(dòng)屬性(“停止”、“移動(dòng)”、“停放”、“推送”、“坐著”)注釋了遮擋級(jí)別。此外,相同的物理對(duì)象在幀上被分配唯一的對(duì)象id,使數(shù)據(jù)集適合跟蹤和預(yù)測(cè)任務(wù)。帶有類和屬性詳細(xì)描述的標(biāo)注說明將與數(shù)據(jù)集一起共享。
?? ? ? ? 表3:數(shù)據(jù)集統(tǒng)計(jì)數(shù)據(jù):每個(gè)類的帶標(biāo)注對(duì)象的數(shù)量(上),唯一對(duì)象的數(shù)量(中)和移動(dòng)對(duì)象的百分比(下)。與整個(gè)數(shù)據(jù)集相比的比率在括號(hào)中給出。“其他”列結(jié)合了乘坐其他類、車輛其他類、卡車類和乘坐不確定類。
4方法
? ? ? ? 這項(xiàng)工作使用PointPillars[17]作為最先進(jìn)的基線多類對(duì)象檢測(cè)器。PointPillars通常在激光雷達(dá)數(shù)據(jù)上進(jìn)行訓(xùn)練,而我們則在3+1D雷達(dá)點(diǎn)云上進(jìn)行訓(xùn)練。在本節(jié)中,我們將詳細(xì)介紹雷達(dá)輸入的可用特征,并描述如何對(duì)多普勒進(jìn)行編碼。我們還討論了數(shù)據(jù)增強(qiáng)技術(shù),并描述了多個(gè)雷達(dá)掃描的時(shí)間合并。
A. 3+1D雷達(dá)點(diǎn)云和多普勒編碼
? ? ? ? 3+1D雷達(dá)每次掃描輸出一個(gè)具有空間、多普勒和反射率通道的點(diǎn)云,為每個(gè)點(diǎn)提供五個(gè)特征:r距離、α方位角、θ仰角、vrel相對(duì)徑向速度和RCS反射率。由于大多數(shù)基于點(diǎn)云的目標(biāo)探測(cè)器使用笛卡爾坐標(biāo),我們也轉(zhuǎn)換雷達(dá)點(diǎn)云:p = [x, y, z, vrel, RCS],其中p表示一個(gè)點(diǎn),x, y, z是三個(gè)空間坐標(biāo),x和y軸分別指向車輛前方和左側(cè),見圖2。補(bǔ)償徑向速度是一個(gè)有符號(hào)的標(biāo)量值,用vr表示,描述點(diǎn)的自車運(yùn)動(dòng)補(bǔ)償(即絕對(duì))徑向速度。為了得到它,我們通過消除來自自車平移和旋轉(zhuǎn)運(yùn)動(dòng)的傳感器運(yùn)動(dòng)來對(duì)vrel進(jìn)行自車運(yùn)動(dòng)補(bǔ)償。用于多類目標(biāo)檢測(cè)的多普勒編碼的例子包括[3]和[5]。Vr被用作雷達(dá)點(diǎn)的附加裝飾,并對(duì)特征進(jìn)行歸一化,使其具有零均值和單位標(biāo)準(zhǔn)差。
B.雷達(dá)點(diǎn)云的積累
? ? ? ? 我們嘗試在目標(biāo)探測(cè)器中合并多個(gè)雷達(dá)掃描,類似于[15]對(duì)激光雷達(dá)所做的工作,[5]對(duì)2+1D雷達(dá)數(shù)據(jù)所做的工作。除了豐富點(diǎn)云的優(yōu)勢(shì)外,合并還提供了時(shí)間信息,這不僅可以幫助目標(biāo)探測(cè)器定位,還可以幫助分類。累加是通過將以前掃描的點(diǎn)云轉(zhuǎn)換為最后一次掃描的坐標(biāo)系統(tǒng)來實(shí)現(xiàn)的,并將一個(gè)標(biāo)量時(shí)間id(用t表示)附加到每個(gè)點(diǎn),以指示它起源于哪個(gè)掃描。例如,當(dāng)前掃描的一個(gè)點(diǎn)的t = 0,而最近第三次掃描的一個(gè)點(diǎn)的t =?2。編碼器包括這個(gè)時(shí)間id作為雷達(dá)點(diǎn)的額外裝飾。請(qǐng)注意,“掃描”與第3節(jié)中定義的“幀”不同。雖然幀中的雷達(dá)點(diǎn)云與激光雷達(dá)傳感器同步,但在這里我們合并了獨(dú)立于其他傳感器從雷達(dá)接收到的最后一次掃描。
C.數(shù)據(jù)增強(qiáng)
? ? ? ? 激光雷達(dá)研究中使用的所有數(shù)據(jù)增強(qiáng)方法并非都直接適用于雷達(dá)點(diǎn)云,因?yàn)槔走_(dá)測(cè)量的vr應(yīng)與觀測(cè)物體的角度保持相關(guān)。同一物體具有相同的運(yùn)動(dòng)學(xué)(速度和方向),在不同的方位角或仰角,即在增強(qiáng)過程中平移后,將用不同的速度測(cè)量來檢測(cè)。類似地,不可能局部地旋轉(zhuǎn)地面真值邊界框和其中的點(diǎn)(圍繞它們的垂直軸),因?yàn)檫@會(huì)以未知的方式改變物體速度的徑向分量。最后,圍繞傳感器旋轉(zhuǎn)雷達(dá)點(diǎn)云(例如,圍繞其垂直軸)不會(huì)影響測(cè)量的相對(duì)徑向速度。然而,對(duì)于自運(yùn)動(dòng)補(bǔ)償?shù)膹较蛩俣葋碚f,這是不正確的,因?yàn)檠a(bǔ)償使用了雷達(dá)運(yùn)動(dòng)矢量和物體方向之間的角度。因此,常用的增強(qiáng)方法,如點(diǎn)云的平移和旋轉(zhuǎn)或地面真值盒的旋轉(zhuǎn),在雷達(dá)點(diǎn)云的情況下甚至是有害的。但是,由于雷達(dá)點(diǎn)的(絕對(duì))觀測(cè)角度不發(fā)生變化,可以將點(diǎn)云鏡像到縱軸上并進(jìn)行縮放。請(qǐng)注意,只有當(dāng)原點(diǎn)是雷達(dá)傳感器本身時(shí),縮放增強(qiáng)才有效。
5實(shí)驗(yàn)
? ? ? ? 我們考慮對(duì)三種對(duì)象類別的物體檢測(cè)性能:汽車、行人和騎自行車的人。這些類的空間分布如圖3所示。與[3][5][18][23]不同,我們?cè)趯?shí)驗(yàn)中同時(shí)考慮了靜態(tài)和移動(dòng)物體。我們以59%/15%/26%的比例將數(shù)據(jù)集分成訓(xùn)練集、驗(yàn)證集和測(cè)試集,這樣來自同一剪輯的幀只會(huì)出現(xiàn)在一次分割中。剪輯被分配給分割,這樣三個(gè)主要類別(汽車、行人和騎自行車的人)的注釋數(shù)量(靜態(tài)的和移動(dòng)的)按比例分布在分割中。
? ? ? ? 我們使用了KITTI基準(zhǔn)[14]之后的兩個(gè)性能度量:平均精度(AP)和平均方向相似度(AOS)。對(duì)于AP,我們?cè)?D中計(jì)算預(yù)測(cè)值和地面真值邊界框的交并比(IoU),并要求汽車重疊50%,行人和自行車類別重疊25%,如[14]。平均AP (mAP)和平均AOS (mAOS)通過平均類別結(jié)果計(jì)算。我們報(bào)告了兩個(gè)區(qū)域的結(jié)果:1)整個(gè)標(biāo)注區(qū)域(攝像機(jī)視場(chǎng)高達(dá)50米)和2)一個(gè)更安全的區(qū)域,稱為“駕駛走廊”,定義為自車前方地面平面上的一個(gè)矩形,在攝像機(jī)坐標(biāo)中為[?4 m < x < +4 m, z < 25 m]。
? ? ? ? 在我們的實(shí)驗(yàn)中,我們將參考幾個(gè)傳感器數(shù)據(jù)和特征組合:PP-LiDAR是在LiDAR數(shù)據(jù)上訓(xùn)練的PointPillars,具有4個(gè)典型的輸入特征:空間坐標(biāo)和強(qiáng)度。該方法將作為我們雷達(dá)-激光雷達(dá)對(duì)比實(shí)驗(yàn)的基準(zhǔn)。PP-radar也是PointPillars網(wǎng)絡(luò),但使用空間坐標(biāo)、反射率和多普勒對(duì)具有所有5個(gè)特征的3+1D雷達(dá)數(shù)據(jù)進(jìn)行訓(xùn)練。相比之下,PP-radar(沒有X)去掉了特征X,只訓(xùn)練了4個(gè)特征。最后,PP?-radar(N次掃描)是一種使用N次累積雷達(dá)掃描的PP?-radar,如第4-B小節(jié)所述。該實(shí)現(xiàn)構(gòu)建在OpenPCDet[41]上。所有的網(wǎng)絡(luò)都以多類別的方式進(jìn)行訓(xùn)練。
?? ? ? ? 圖3:數(shù)據(jù)集中汽車、行人和騎自行車的人總體空間分布為對(duì)數(shù)圖。自車的位置是(0,0),向上看。每個(gè)像素對(duì)應(yīng)一平方米的面積。最深的藍(lán)色表示零標(biāo)注。
A.消融研究:PP-radar
? ? ? ? 在我們的消融研究中,在整個(gè)覆蓋區(qū)域和“駕駛走廊”區(qū)域內(nèi),各種PointPillars網(wǎng)絡(luò)的性能見表4。結(jié)果表明,去除多普勒信息(PP-radar(無多普勒))顯著降低了兩種VRU類別的性能(行人:34.9 vs. 21.3,騎行者:43.1 vs. 30.4,整個(gè)標(biāo)注區(qū)域)。此外,它阻礙了整體的方向估計(jì)(mAOS: 30.5 vs. 22.1)。結(jié)果還表明,刪除高程信息或RCS(即PP-radar(無高程)或PP-radar(無RCS))都會(huì)影響性能(mAP: 38.0 vs. 31.9 vs. 36.6對(duì)于整個(gè)標(biāo)注區(qū)域)。最后,我們研究了是否包括以前掃描的雷達(dá)目標(biāo)來提供時(shí)間信息會(huì)產(chǎn)生顯著差異。我們分別使用最后3次和5次掃描中的點(diǎn)來訓(xùn)練和評(píng)估另外兩個(gè)網(wǎng)絡(luò),以創(chuàng)建PP-radar(3次掃描)和PP-radar(5次掃描)。添加更多的掃描可以提高整體性能(mAP: 38.0 vs.單次/五次掃描的47.0)并改進(jìn)方向估計(jì)(mAOS: 30.5 vs.單次/五次掃描的39.6)。
? ? ? ? 表4:所有測(cè)試方法在整個(gè)標(biāo)注區(qū)域和“駕駛走廊”內(nèi)的結(jié)果。上圖:雷達(dá)特征的消融研究。中間:時(shí)間信息研究。底部:基于激光雷達(dá)的探測(cè)器。粗體顯示每個(gè)部分的最佳雷達(dá)結(jié)果。所有特定類別的列都涉及用3D借據(jù)計(jì)算的AP(汽車為0.5,行人/騎自行車者為0.25)。
? ? ? ? PP-radar對(duì)所有道路使用者類別的正確和不正確檢測(cè)示例如圖6和7所示。
? ? ? ? 圖6:PP-radar投影到圖像平面上的正確探測(cè)目標(biāo)示例。汽車/行人/自行車檢測(cè)顯示為藍(lán)色/綠色/紅色包圍框。點(diǎn)是雷達(dá)目標(biāo),根據(jù)與傳感器的距離著色。
? ? ? ? 圖7:PP-radar錯(cuò)誤檢測(cè)的例子:(a)合并較小的物體(兩個(gè)行人被檢測(cè)為一個(gè)騎自行車的人,(b)較大的物體分裂成較小的物體(一個(gè)騎自行車的人被檢測(cè)為兩個(gè)行人),(c)附近有強(qiáng)烈的反射和雜波(金屬桿和高路肩),(d)遠(yuǎn)處的物體反射太少(遠(yuǎn)處的行人)。
B.性能比較:PP-radar vs. PP-LiDAR
? ? ? ? 我們隨后比較了PP-radar和PP-LiDAR的目標(biāo)探測(cè)性能,見表4。PP-LiDAR在所有三個(gè)類別中都明顯優(yōu)于PP-radar(mAP: 62.1 vs. 38.0)。當(dāng)我們只考慮“駕駛走廊”區(qū)域時(shí),相對(duì)性能差距減小(mAP: 81.6 vs. 63.0)。圖4提供了性能作為距離的函數(shù)。有關(guān)這些結(jié)果的解釋,請(qǐng)參閱下一節(jié)。圖5顯示了性能作為所需IoU重疊的函數(shù)。一個(gè)有趣的趨勢(shì)是,在更高的IoU閾值下,雷達(dá)的性能比激光雷達(dá)下降得更早。這表明,雷達(dá)可以正確地探測(cè)和分類許多物體,但難以確定它們的準(zhǔn)確3D位置,這阻礙了整體性能。
? ? ? ? 平均而言,PP-radar推理比PP-LiDAR推理花費(fèi)的時(shí)間少40%(僅測(cè)量前饋步平均為7.8 ms vs. 12.9 ms)。
? ? ? ? 圖4:PP-LiDAR(虛線,菱形)和PP-radar(實(shí)線,圓形)在每個(gè)類別的距離上的性能(汽車3D IoU=0.5,行人/自行車IoU=0.25)。
? ? ? ? 圖5:不同3D?IoU閾值下PP-LiDAR(虛線,菱形)和PP-radar(實(shí)線,圓圈)的性能。
6討論
? ? ? ??一般來說,目標(biāo)檢測(cè)性能將由多個(gè)因素決定:位于目標(biāo)類的特定對(duì)象上的3D點(diǎn)的數(shù)量,它們各自的位置精度,它們的空間配置和附加屬性(例如速度),它們與非目標(biāo)類對(duì)象的顯著性,最后,訓(xùn)練集的大小。
? ? ? ? 所有基于雷達(dá)的多普勒方法在自行車類表現(xiàn)最好。與行人,尤其是汽車相比,數(shù)據(jù)集中絕大多數(shù)騎自行車的人都在移動(dòng),見表3。車輪和踏板的圓形運(yùn)動(dòng),加上靠近中心的高反射金屬框架,產(chǎn)生了清晰而獨(dú)特的反射圖案,雷達(dá)可以更可靠地探測(cè)到。在汽車類上,雷達(dá)方法相對(duì)于這些物體的大尺寸表現(xiàn)得更差。這可以解釋為數(shù)據(jù)集中很少有移動(dòng)的汽車,而且許多汽車都停在道路或運(yùn)河的另一邊,距離較遠(yuǎn)(見圖3),因此反射很少。圖4證實(shí)附近的車輛可以被更好地檢測(cè)到。當(dāng)只關(guān)注車輛前方安全關(guān)鍵的“駕駛走廊”區(qū)域時(shí),雷達(dá)對(duì)所有類別的性能都要好得多,見表4。這種性能與駕駛輔助或自動(dòng)駕駛更相關(guān)。
? ? ? ? PP-LiDAR與PP-radar的比較表明,PP-LiDAR的綜合性能明顯更高。這可以歸因于所使用的特定類型的64線LiDAR傳感器的更高的點(diǎn)密度(標(biāo)注區(qū)域的平均點(diǎn)數(shù):LiDAR: 21344,雷達(dá):216)。此外,位于車頂?shù)募す饫走_(dá)傳感器的高視點(diǎn)也有利于物體檢測(cè)性能,因?yàn)檎趽醪荒敲疵黠@。然而,雷達(dá)傳感器在成本和易于包裝方面具有明顯的優(yōu)勢(shì)。
? ? ? ? 累積多個(gè)雷達(dá)掃描被證明可以產(chǎn)生顯著的性能改進(jìn)。這是因?yàn)辄c(diǎn)密度增加,但也可能是因?yàn)檫^去的掃描提供了時(shí)間信息,這有助于分類(多普勒特征隨時(shí)間的變化是特定類別的,例如擺動(dòng)的四肢)。因此,使用多次掃描在一定程度上縮小了與激光雷達(dá)的相對(duì)性能差距。
? ? ? ? 如果由于點(diǎn)云密度低得多,可以嵌入到特殊硬件(具有一定的內(nèi)存和處理限制)上,那么對(duì)目標(biāo)檢測(cè)性能的妥協(xié)可能是可以接受的。雷達(dá)分辨率和目標(biāo)提取(即峰值發(fā)現(xiàn))的進(jìn)一步改進(jìn),和/或低水平數(shù)據(jù)的可用性(例如雷達(dá)立方體[3])可以進(jìn)一步改善目標(biāo)檢測(cè)。
7結(jié)論? ? ? ??
? ? ? ??在64線三維激光雷達(dá)數(shù)據(jù)和3+1D雷達(dá)數(shù)據(jù)上進(jìn)行了多類別道路用戶檢測(cè)(PointPillars)的實(shí)驗(yàn)研究。在消融研究中,我們發(fā)現(xiàn)增加高程數(shù)據(jù)(如在下一代汽車?yán)走_(dá)中)明顯提高了目標(biāo)檢測(cè)性能(從31.9 mAP到38.0 mAP)。多普勒信息對(duì)于基于雷達(dá)的目標(biāo)探測(cè)仍然是至關(guān)重要的,因?yàn)槿コ嗥绽招畔⒋蟠蠼档托阅?mAP 38.0 vs. 29.1)。RCS信息也有幫助(mAP 38.0 vs.如果刪除36.6)。
? ? ? ? 結(jié)果表明,當(dāng)使用相同的PointPillars模型(mAP 62.1 vs. 38.0)時(shí),64線激光雷達(dá)數(shù)據(jù)上的目標(biāo)檢測(cè)仍然大大優(yōu)于3+1D雷達(dá)數(shù)據(jù)。然而,累積連續(xù)的雷達(dá)掃描在一定程度上縮小了與激光雷達(dá)的差距(mAP 62.1 vs. 47.0, 5次雷達(dá)掃描),特別是在“駕駛走廊”(mAP 81.6 vs. 71.4, 5次雷達(dá)掃描)。
? ? ? ? 在我們的實(shí)驗(yàn)研究中,我們引入了View-of-Delft (VoD)數(shù)據(jù)集,這是一個(gè)用于多類別3D目標(biāo)檢測(cè)的多傳感器數(shù)據(jù)集,由校準(zhǔn)、同步和標(biāo)注的激光雷達(dá)、相機(jī)和3+1D雷達(dá)數(shù)據(jù)組成。它是包含3+1D雷達(dá)記錄的最大數(shù)據(jù)集,適用于促進(jìn)未來僅雷達(dá)、僅相機(jī)、僅激光雷達(dá)或用于目標(biāo)檢測(cè)和跟蹤的融合方法的研究。
總結(jié)
以上是生活随笔為你收集整理的论文解读--Multi-class Road User Detection with 3+1D Radar in the View-of-Delft Dataset的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 中国染料产业竞争格局分析与消费需求调研报
- 下一篇: 动漫美少女生成神器、猫的门禁...201