當(dāng)前位置：首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

KITTI数据集学习笔记

發(fā)布時(shí)間：2024/3/12 编程问答 68 豆豆

生活随笔收集整理的這篇文章主要介紹了 KITTI数据集学习笔记小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

Kitti數(shù)據(jù)集

本文為筆者自我學(xué)習(xí)的筆記，本人剛?cè)腴T(mén)3D視覺(jué)，若有錯(cuò)誤的地方懇請(qǐng)各位指正。另外參考了一篇熱門(mén)博客：https://blog.csdn.net/Solomon1558/article/details/70173223。并使用了其中的一幅圖像，侵刪。

1. 簡(jiǎn)單介紹

? Kitti數(shù)據(jù)集致力于提供一個(gè)更貼合戶(hù)外駕駛場(chǎng)景的計(jì)算機(jī)視覺(jué)數(shù)據(jù)集。Kitti提供了一些自動(dòng)駕駛場(chǎng)景下具有挑戰(zhàn)性的測(cè)試基準(zhǔn)：立體場(chǎng)景（stereo）、光學(xué)流動(dòng)（optical flow）、視覺(jué)測(cè)距（visual odometry）、同時(shí)定位和地圖構(gòu)建（SLAM）、3D物體檢測(cè)等。

? Kitti包含中等城市市區(qū)、城郊和高速公路的環(huán)境采樣。有389對(duì)立體場(chǎng)景和光流圖（分辨率為1240*376，經(jīng)過(guò)50%的基礎(chǔ)事實(shí)校正）、39.2 km視覺(jué)測(cè)距序列以及超過(guò)200k 3D標(biāo)注物體的圖像（人工標(biāo)注，比如汽車(chē)、貨車(chē)、行人等）組成。

2. 具體的挑戰(zhàn)和解決方案

? 具體遇到的挑戰(zhàn)有：

實(shí)時(shí)采集大量的數(shù)據(jù)；
不同速率工作的傳感器的校準(zhǔn)；
最小化產(chǎn)生基礎(chǔ)事實(shí)（ground truth）需要的監(jiān)督數(shù)量；
為每個(gè)基準(zhǔn)選取合適的序列和框架、每個(gè)任務(wù)的開(kāi)發(fā)指標(biāo)。

解決方案如下：
傳感器的裝配：兩個(gè)彩色和兩個(gè)灰度攝像機(jī)，一個(gè)激光掃描器，一個(gè)GPS定位單元。相同種類(lèi)的攝像機(jī)之間距離為54cm，不同種之間距離為6cm。彩色便于物體檢測(cè)和場(chǎng)景分割，灰度提供的對(duì)比度信息便于立體匹配和光流估計(jì)
傳感器的標(biāo)定：攝像機(jī)之間的、激光器和攝像機(jī)之間的、激光器和GPS之間的標(biāo)定。標(biāo)定過(guò)程此處省略。
基礎(chǔ)事實(shí)的獲取：用ICP算法配準(zhǔn)一連串連續(xù)的幀。再把點(diǎn)云投射到圖像上，自動(dòng)消除落在圖像外的點(diǎn)，再手動(dòng)消除如窗等模糊的區(qū)域，便可以得到視差圖，得到較高的立體場(chǎng)景基礎(chǔ)事實(shí)密度。把點(diǎn)云投射到下一幀便可以得到光流場(chǎng)。視覺(jué)測(cè)距的基本事實(shí)可以在左邊的攝像機(jī)校正后把GPS輸出投射到坐標(biāo)系系統(tǒng)中得到。3D物體檢測(cè)的基礎(chǔ)事實(shí)由人工標(biāo)記得出，團(tuán)隊(duì)創(chuàng)建了可以展示3D激光點(diǎn)云和攝像機(jī)圖像的標(biāo)記工具，同時(shí)標(biāo)記人員也會(huì)把包圍框標(biāo)記為可見(jiàn)、半遮擋、全遮擋（occluded）和被截的（truncated）。
基準(zhǔn)（benchmark）選取：立體場(chǎng)景和光流基準(zhǔn)——選取環(huán)境為靜態(tài)的序列子集，用k-means算法取靠近每個(gè)分類(lèi)中心點(diǎn)的元素去除比較暗的一些場(chǎng)景后作為基準(zhǔn)。視覺(jué)測(cè)距基準(zhǔn)——選取有高質(zhì)量定位、速度變換的長(zhǎng)序列。3D物體檢測(cè)和方向估計(jì)基準(zhǔn)——利用貪心算法，根據(jù)非遮擋物體數(shù)量和物體方向分布的熵來(lái)選定。
評(píng)估標(biāo)準(zhǔn)：立體場(chǎng)景和光流——設(shè)置合適的閾值后使用視差圖（disparity）和端點(diǎn)誤差（end-point error）的像素錯(cuò)誤數(shù)量（非遮擋的和有對(duì)應(yīng)基礎(chǔ)事實(shí)的像素）的均值作為評(píng)估標(biāo)準(zhǔn)。視覺(jué)測(cè)距/SLAM——發(fā)展了前人的方法，首先分別處理旋轉(zhuǎn)和平移變換，其次把誤差當(dāng)做軌跡的長(zhǎng)度和速率的函數(shù)來(lái)評(píng)估。3D物體檢測(cè)和方向估計(jì)基準(zhǔn)分為三個(gè)部分——先用計(jì)算平均精準(zhǔn)度（AP）的方法評(píng)估2D物體的探測(cè)情況，再用AOS指標(biāo)評(píng)估物體探測(cè)和方向預(yù)測(cè)的綜合表現(xiàn)，最后評(píng)估在3D物體方向檢測(cè)任務(wù)中的分類(lèi)和回歸表現(xiàn)。

3. 數(shù)據(jù)集內(nèi)容簡(jiǎn)述

3.1 整體結(jié)構(gòu)

? 由此數(shù)據(jù)集的另一篇論文:Vision Meets Robotics ¹和網(wǎng)上的一些筆記可以得到此數(shù)據(jù)集內(nèi)容的一些特征。典型樣本可以分為’Road’, ’City’, ’Residential’, ’Campus’ 和’Person’五類(lèi)。原始數(shù)據(jù)采集于2011年的5天，數(shù)據(jù)大小為180G。首先是這個(gè)數(shù)據(jù)集的文件目錄。

? 其中date和drive不是固定的名稱(chēng)而是占位符，表示采集數(shù)據(jù)的日期和視頻編號(hào)。時(shí)間戳記錄在Timestamps.txt文件中。同時(shí)后期處理的數(shù)據(jù)——校正和同步的視頻流也會(huì)提供在網(wǎng)站上 ² 。3D邊框標(biāo)注的信息存儲(chǔ)在data_drive_tracklets.xml文件中。

? 也可以從官網(wǎng)上下載各個(gè)分任務(wù)的數(shù)據(jù)集，比如物體檢測(cè)（Object detection），其中有訓(xùn)練和檢測(cè)的數(shù)據(jù)集

3.2 標(biāo)注（Annotations）的特征

? 由上文可以知道，kitti數(shù)據(jù)集人工為攝像的物體進(jìn)行了3D邊框標(biāo)注。標(biāo)注一共有8個(gè)類(lèi)別——’Car’, ’Van’, ’Truck’, ’Pedestrian’, ’Person(sitting)’, ’Cyclist’, ’Tram’ 和’Misc’ (e.g., trailers, segways)。每一個(gè)物體的標(biāo)注都由所屬類(lèi)別和3D尺寸（height，weight和length）組成。當(dāng)前數(shù)據(jù)集的標(biāo)注存于每種任務(wù)子數(shù)據(jù)集的label文件夾中，稍有不同。

? 每幀圖像對(duì)應(yīng)一個(gè)txt文件這個(gè)txt文件就是這幀圖像的標(biāo)注文件。標(biāo)注文件中第一列是種類(lèi)，之后全為數(shù)字。標(biāo)注中各個(gè)字段的含義可以在Readme.txt文件中找到。下面是博客中的找到的標(biāo)注文件描述。其中’DontCare’的預(yù)測(cè)結(jié)果會(huì)被評(píng)估腳本自動(dòng)忽略。

Andreas Geiger and Philip Lenz and Christoph Stiller and Raquel Urtasun. Vision meets Robotics: The KITTI Dataset. IJRR, 2013 ??

www.cvlibs.net/datasets/kitti ??

總結(jié)

以上是生活随笔為你收集整理的KITTI数据集学习笔记的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇： jq学习
下一篇：【可视化】rviz下的kitti数据集可