多帧点云数据拼接合并_自动驾驶:Lidar 3D传感器点云数据和2D图像数据的融合标注...
自動駕駛汽車的發(fā)展已經(jīng)見證了硬件傳感器記錄感官數(shù)據(jù)的容量和準(zhǔn)確度的發(fā)展。傳感器的數(shù)量增加了,新一代傳感器正在記錄更高的分辨率和更準(zhǔn)確的測量結(jié)果。 在本文中,我們將探討傳感器融合如何在涉及環(huán)環(huán)相扣的數(shù)據(jù)標(biāo)記過程中實現(xiàn)更高程度的自動化。
所有自動駕駛汽車(AV)都使用一組硬件傳感器來識別周圍的物理環(huán)境。硬件傳感器包括攝像機(jī)或一組攝像機(jī),這些攝像機(jī)戰(zhàn)略性地放置在車輛車身周圍,以捕獲2D視覺數(shù)據(jù),以及一些安裝在車輛頂部的雷達(dá),以捕獲3D位置數(shù)據(jù)。有一些像特斯拉這樣的供應(yīng)商認(rèn)為,視覺數(shù)據(jù)足以讓汽車識別其環(huán)境。其他供應(yīng)商使用激光雷達(dá)傳感器捕捉車輛周圍物體的3D位置數(shù)據(jù)。將二維視覺數(shù)據(jù)和三維位置數(shù)據(jù)融合,使AV系統(tǒng)能夠精確地了解周圍環(huán)境。
發(fā)展對周圍環(huán)境的精確了解是AV系統(tǒng)的第一個組成部分。下圖顯示了AV系統(tǒng)的所有重要組成部分。
傳感器融合
計算機(jī)視覺是計算機(jī)科學(xué)的一個分支,它使用照相機(jī)或照相機(jī)的組合來處理2D視覺數(shù)據(jù)。這使計算機(jī)可以識別汽車,卡車,騎自行車的人,行人,道路,車道標(biāo)記,交通信號,建筑物,地平線。相機(jī)數(shù)據(jù)本質(zhì)上是2D的,它不提供對象的距離。盡管可以使用攝像頭傳感器的焦距和光圈來近似物體的深度,但是由于在將攝像頭傳感器將3D場景捕獲到2D平面上時會固有地丟失信息,因此無法精確定位。
雷達(dá)技術(shù)已在空中交通管理等地方用于定位飛行物體。雷達(dá)可用于估計物體的位置和速度。它不能用于將對象分類為汽車,人,交通信號燈或建筑物,因為它的精度較低。激光雷達(dá)是一種使用激光技術(shù)估算周圍物體的位置和速度的硬件。激光雷達(dá)能夠生成每秒高達(dá)200萬個點的點云。由于精度更高,激光雷達(dá)可用于測量物體的形狀和輪廓。
雖然來自相機(jī)的RGB數(shù)據(jù)缺少深度信息,但由激光雷達(dá)生成的點云數(shù)據(jù)缺少RGB數(shù)據(jù)中存在的紋理和顏色信息。例如,在點云數(shù)據(jù)中,相距20英尺的行人的輪廓可能是一團(tuán)點,可以將其識別為多個不同的對象,如下面的點云的渲染所示。另一方面,陰影籠罩的低質(zhì)量部分視覺信息會提示該對象是人,如下面攝像機(jī)的圖像所示。
在點云中不容易識別卡車旁邊的人
通過視覺信息可以輕松識別人
當(dāng)執(zhí)行視覺數(shù)據(jù)和點云數(shù)據(jù)的融合時,結(jié)果是周圍環(huán)境的感知模型,該模型保留了視覺特征和精確的3D位置。 除了準(zhǔn)確性,它還有助于在傳感器出現(xiàn)故障時提供冗余。
相機(jī)傳感器數(shù)據(jù)和激光雷達(dá)點云數(shù)據(jù)的融合涉及2D到3D和3D到2D投影映射。
3D到2D投影
硬件
我們從Motional提供的最全面的開源數(shù)據(jù)集開始:nuScenes數(shù)據(jù)集。 它包括六個攝像頭,前面三個,后面三個。 捕獲頻率為12 Hz。 像素分辨率為1600x900。 圖像編碼為每個像素一個字節(jié),為jpeg。 相機(jī)數(shù)據(jù)以每個相機(jī)鏡頭1.7MB / s的速度生成。 一個激光雷達(dá)被放置在汽車頂部。 激光雷達(dá)的捕獲頻率為20 Hz。 它具有32個通道(光束)。 它的垂直視場為-30度到+10度。 它的范圍是100米。 其精度為2厘米。 它每秒可以收集多達(dá)140萬個點。 輸出格式為.pcd。 激光雷達(dá)的輸出數(shù)據(jù)速率為26.7MB / s(20byte * 1400000)。
數(shù)據(jù)集頁面:https://http://www.nuscenes.org/overview
論文URL:https://arxiv.org/pdf/1903.11027.pdf
Devkit網(wǎng)址:https://http://github.com/nutonomy/nuscenes-devkit
參考系和坐標(biāo)系
為了使傳感器同步,必須定義一個世界(全局)坐標(biāo)系。 每個傳感器儀器都有自己的參考系和坐標(biāo)系。
激光雷達(dá)擁有自己的參考系和坐標(biāo)系L1,
每個攝像機(jī)都有自己的參考系和坐標(biāo)系C1,C2,C3,C4,C5,C6。
IMU具有自己的參考系和坐標(biāo)系I1。
為了此處的討論目的,自主車輛參照系與激光雷達(dá)參照系相同。
定義世界參考系和坐標(biāo)系
世界參考系(W1)是全局參考系。例如,可以選擇激光雷達(dá)的第一幀作為世界坐標(biāo)系的中心(0,0,0)。隨后,激光雷達(dá)的每一幀圖像將被轉(zhuǎn)換回世界坐標(biāo)系統(tǒng)。攝像機(jī)矩陣M1, M2, M3, M4, M5, M6將從每個攝像機(jī)坐標(biāo)系統(tǒng)C1, C2, C3, C4, C5, C6轉(zhuǎn)換回世界坐標(biāo)系統(tǒng)W1。
將3D點云數(shù)據(jù)轉(zhuǎn)換為世界坐標(biāo)系
通過與自我框架平移和旋轉(zhuǎn)矩陣相乘,激光雷達(dá)參考系(L1)中的每個框架都將轉(zhuǎn)換回世界坐標(biāo)系。
從世界坐標(biāo)系轉(zhuǎn)換為相機(jī)坐標(biāo)系
下一步是通過與攝影機(jī)旋轉(zhuǎn)和平移矩陣相乘,將數(shù)據(jù)從世界參照系轉(zhuǎn)換為攝影機(jī)參照系。
從3D相機(jī)坐標(biāo)系轉(zhuǎn)換為2D相機(jī)框
一旦數(shù)據(jù)進(jìn)入相機(jī)參考框架,就需要將其從3D相機(jī)參考框架投影到2D相機(jī)傳感器平面。 這是通過與相機(jī)固有矩陣相乘來實現(xiàn)的。
結(jié)果:準(zhǔn)確的標(biāo)注
激光雷達(dá)點云數(shù)據(jù)和相機(jī)數(shù)據(jù)的融合使注釋者可以利用視覺信息和深度信息來創(chuàng)建更準(zhǔn)確的標(biāo)注
知乎視頻?www.zhihu.com幀之間注釋的插值使標(biāo)注速度提高10倍
自動駕駛汽車系統(tǒng)開發(fā)中最具挑戰(zhàn)性的任務(wù)之一是管理用于訓(xùn)練神經(jīng)網(wǎng)絡(luò)的龐大數(shù)據(jù)量。 隨著分類和檢測準(zhǔn)確性的提高,進(jìn)一步提高性能所需的新訓(xùn)練數(shù)據(jù)量呈指數(shù)增長。 為了提高速度并減少注釋新訓(xùn)練數(shù)據(jù)的成本,注釋工具可以提供自動化。 自動化的一個示例是在LIDAR點云工具中的幀之間的注釋插值。
所生成的傳感器數(shù)據(jù)具有較高的準(zhǔn)確性。 激光雷達(dá)點云數(shù)據(jù)精確到正負(fù)2 cms。 相機(jī)數(shù)據(jù)以1600 x 900像素分辨率記錄。 高精度級別允許注釋工具提供半自動技術(shù),以減少數(shù)據(jù)標(biāo)記所需的手動工作。 例如,考慮點云數(shù)據(jù)的10個連續(xù)幀的注釋。 每個激光雷達(dá)鏡框都配有六個攝像頭鏡框。 人工注釋者使用注釋工具將卡車安裝在第1幀和第10幀中的長方體中。基于第1幀和第10幀中的長方體的位置,注釋工具可以自動將第2幀中的長方體的位置插值到第2幀和第10幀中。 框架9.這大大減少了貼標(biāo)人員的工作量。 這種半自動技術(shù)可以提高生產(chǎn)率,提高速度并降低構(gòu)建AI的成本。
作者:Gaurav
deephub翻譯組
總結(jié)
以上是生活随笔為你收集整理的多帧点云数据拼接合并_自动驾驶:Lidar 3D传感器点云数据和2D图像数据的融合标注...的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 适合白户办的信用卡 100%下卡不成问题
- 下一篇: 计算机应用基础试卷结果分析,计算机应用基