KITTI 数据集(CVPR 2012) - 点云 3D
KITTI 數據集(CVPR 2012) - 點云 3D
- 0. KITTI 數據集 - 點云 3D 簡述
- 0.1 KITTI 數據集采集平臺
- 0.2 KITTI 3D 目標檢測 - 數據集解析
- 0.2.1 ImageSets
- 0.2.2 testing & training
- 0.2.2.1 calib
- 0.2.2.2 image_2
- 0.2.2.3 label_2
- 0.2.2.4 planes
- 0.2.2.5 velodyne
- 摘要
- 1. 引言
- 2.挑戰和方法
- 2.1 傳感器和數據采集
- 2.2 傳感器校準
- 2.3 真值
- 2.4 基準選擇
- 2.5 評估指標
- 3. 實驗評價
- 3.1 立體匹配
- 3.2 光流估計
- 3.3 視覺里程計/SLAM
- 3.4 3D目標檢測/方向估計
- 4. 結論和未來工作
- References
聲明:此翻譯僅為個人學習記錄
文章信息
- 標題:Are we ready for Autonomous Driving? The KITTI Vision Benchmark Suite (CVPR 2012)
- 作者:Andreas Geiger, Philip Lenz and Raquel Urtasun
- 文章鏈接:http://www.cvlibs.net/publications/Geiger2012CVPR.pdf
數據集簡介
- 數據集官網:http://www.cvlibs.net/datasets/kitti/index.php
- 官方下載地址:http://www.cvlibs.net/datasets/kitti/eval_object.php?obj_benchmark=3d
- 第三方下載地址:https://gas.graviti.com/dataset/hellodataset/KITTIObject
0. KITTI 數據集 - 點云 3D 簡述
- KITTI 數據集 - 3D 目標檢測網站
3D目標檢測基準由7481個訓練圖像和7518個測試圖像以及相應的點云組成,共包含80256個帶標簽的目標。( 國內下載方式)
0.1 KITTI 數據集采集平臺
數據采集平臺:2個灰度攝像機,2個彩色攝像機,1個激光雷達,4個光學鏡頭,1個GPS導航系統。
- 2 × PointGray Flea2 grayscale cameras (FL2-14S3M-C), 1.4 Megapixels, 1/2” Sony ICX267 CCD, global shutter
- 2 × PointGray Flea2 color cameras (FL2-14S3C-C), 1.4 Megapixels, 1/2” Sony ICX267 CCD, global shutter
- 4 × Edmund Optics lenses, 4mm, opening angle ~ 90?, vertical opening angle of region of interest (ROI) ~ 35?
- 1 × Velodyne HDL-64E rotating 3D laser scanner, 10 Hz, 64 beams, 0.09 degree angular resolution, 2 cm distance accuracy, collecting ~ 1.3 million points/second, field of view: 360? horizontal, 26.8? vertical, range: 120 m
- 1 × OXTS RT3003 inertial and GPS navigation system, 6 axis, 100 Hz, L1/L2 RTK, resolution: 0.02m / 0.1?
傳感器的配置平面圖如上所示。為了生成雙目立體圖像,相同類型的攝像頭相距54cm安裝。由于彩色攝像機的分辨率和對比度不夠好,所以還使用了兩個立體灰度攝像機,它和彩色攝像機相距6cm安裝。
為了方便傳感器數據標定,規定坐標系方向如下 :
- Camera: x = right, y = down, z = forward
- Velodyne: x = forward, y = left, z = up
- GPS/IMU: x = forward, y = left, z = up
0.2 KITTI 3D 目標檢測 - 數據集解析
數據集結構
data
│── ?kitti
│??│── ImageSets
│??│── testing
│??│??├── calib & image_2 & velodyne
│??│── training
│??│??├── calib & image_2 & label_2 & planes & velodyne
0.2.1 ImageSets
數據集列表信息,一般包括如下3部分:
- train.txt:訓練集 列表信息
- trainval.txt:訓練集+驗證集 列表信息
- val.txt:驗證集 列表信息
0.2.2 testing & training
0.2.2.1 calib
P0: 7.215377000000e+02 0.000000000000e+00 6.095593000000e+02 0.000000000000e+00 0.000000000000e+00 7.215377000000e+02 1.728540000000e+02 0.000000000000e+00 0.000000000000e+00 0.000000000000e+00 1.000000000000e+00 0.000000000000e+00 P1: 7.215377000000e+02 0.000000000000e+00 6.095593000000e+02 -3.875744000000e+02 0.000000000000e+00 7.215377000000e+02 1.728540000000e+02 0.000000000000e+00 0.000000000000e+00 0.000000000000e+00 1.000000000000e+00 0.000000000000e+00 P2: 7.215377000000e+02 0.000000000000e+00 6.095593000000e+02 4.485728000000e+01 0.000000000000e+00 7.215377000000e+02 1.728540000000e+02 2.163791000000e-01 0.000000000000e+00 0.000000000000e+00 1.000000000000e+00 2.745884000000e-03 P3: 7.215377000000e+02 0.000000000000e+00 6.095593000000e+02 -3.395242000000e+02 0.000000000000e+00 7.215377000000e+02 1.728540000000e+02 2.199936000000e+00 0.000000000000e+00 0.000000000000e+00 1.000000000000e+00 2.729905000000e-03 R0_rect: 9.999239000000e-01 9.837760000000e-03 -7.445048000000e-03 -9.869795000000e-03 9.999421000000e-01 -4.278459000000e-03 7.402527000000e-03 4.351614000000e-03 9.999631000000e-01 Tr_velo_to_cam: 7.533745000000e-03 -9.999714000000e-01 -6.166020000000e-04 -4.069766000000e-03 1.480249000000e-02 7.280733000000e-04 -9.998902000000e-01 -7.631618000000e-02 9.998621000000e-01 7.523790000000e-03 1.480755000000e-02 -2.717806000000e-01 Tr_imu_to_velo: 9.999976000000e-01 7.553071000000e-04 -2.035826000000e-03 -8.086759000000e-01 -7.854027000000e-04 9.998898000000e-01 -1.482298000000e-02 3.195559000000e-01 2.024406000000e-03 1.482454000000e-02 9.998881000000e-01 -7.997231000000e-01- P0 ~ P3:矯正后的投影矩陣
- R0_rect:矯正旋轉矩陣
- Tr_velo_to_cam:從雷達到相機 0 的旋轉平移矩陣
- Tr_imu_to_velo:從慣導或GPS裝置到相機的旋轉平移矩陣
- i ∈ {0, 1, 2, 3} 是相機索引,其中 0 代表左灰度,1 代表右灰度,2 代表左彩色,3 代表右邊彩色相機。
注意:
- 所有矩陣都存儲在行中,即第一個值對應于第一行。 R0_rect 包含一個 3x3 矩陣,需要將其擴展為 4x4 矩陣,方法是在右下角添加 1,在其他位置添加 0。 Tr_xxx是一個 3x4 矩陣(R | t),需要以相同的方式擴展到 4x4 矩陣!
- 通過使用校準文件夾中的 3x4 投影矩陣,可以將相機坐標系中的坐標投影到圖像中,對于提供圖像的左側彩色相機,必須使用 P2。rotation_y 和 alpha 之間的區別在于 rotation_y 直接在相機坐標中給出,而 alpha 也會考慮從相機中心到物體中心的矢量,以計算物體相對于相機的相對方向。 例如,沿著攝像機坐標系的 X 軸面向的汽車,無論它位于 X / Z 平面(鳥瞰圖)中的哪個位置,它的 rotation_y 都為 0,而只有當此車位于相機的Z軸上時 α 才為零,當此車從 Z 軸移開時,觀察角度 α 將會改變。
0.2.2.2 image_2
0.2.2.3 label_2
The label files contain the following information, which can be read and written using the matlab tools (readLabels.m, writeLabels.m) provided within this devkit. All values (numerical or strings) are separated via spaces, each row corresponds to one object. The 15 columns represent:#Values Name Description ----------------------------------------------------------------------------1 type Describes the type of object: 'Car', 'Van', 'Truck','Pedestrian', 'Person_sitting', 'Cyclist', 'Tram','Misc' or 'DontCare'1 truncated Float from 0 (non-truncated) to 1 (truncated), wheretruncated refers to the object leaving image boundaries1 occluded Integer (0,1,2,3) indicating occlusion state:0 = fully visible, 1 = partly occluded2 = largely occluded, 3 = unknown1 alpha Observation angle of object, ranging [-pi..pi]4 bbox 2D bounding box of object in the image (0-based index):contains left, top, right, bottom pixel coordinates3 dimensions 3D object dimensions: height, width, length (in meters)3 location 3D object location x,y,z in camera coordinates (in meters)1 rotation_y Rotation ry around Y-axis in camera coordinates [-pi..pi]1 score Only for results: Float, indicating confidence indetection, needed for p/r curves, higher is better.Here, 'DontCare' labels denote regions in which objects have not been labeled, for example because they have been too far away from the laser scanner. To prevent such objects from being counted as false positives our evaluation script will ignore objects detected in don't care regions of the test set. You can use the don't care labels in the training set to avoid that your object detector is harvesting hard negatives from those areas, in case you consider non-object regions from the training images as negative examples. Truck 0.00 0 -1.57 599.41 156.40 629.75 189.25 2.85 2.63 12.34 0.47 1.49 69.44 -1.56 Car 0.00 0 1.85 387.63 181.54 423.81 203.12 1.67 1.87 3.69 -16.53 2.39 58.49 1.57 Cyclist 0.00 3 -1.65 676.60 163.95 688.98 193.93 1.86 0.60 2.02 4.59 1.32 45.84 -1.55 DontCare -1 -1 -10 503.89 169.71 590.61 190.13 -1 -1 -1 -1000 -1000 -1000 -10 DontCare -1 -1 -10 511.35 174.96 527.81 187.45 -1 -1 -1 -1000 -1000 -1000 -10 DontCare -1 -1 -10 532.37 176.35 542.68 185.27 -1 -1 -1 -1000 -1000 -1000 -10 DontCare -1 -1 -10 559.62 175.83 575.40 183.15 -1 -1 -1 -1000 -1000 -1000 -10每行代表1個目標,每行有16列,其定義如下:
- 第1列(字符串):代表物體類別(type),總共有9類,分別是:Car、Van、Truck、Pedestrian、Person_sitting、Cyclist、Tram、Misc、DontCare。其中DontCare標簽表示該區域沒有被標注,比如由于目標物體距離激光雷達太遠。為了防止在評估過程中(主要是計算precision),將本來是目標物體但是因為某些原因而沒有標注的區域統計為假陽性(false positives),評估腳本會自動忽略DontCare區域的預測結果。
- 第2列(浮點數):代表物體是否被截斷(truncated),數值在0(非截斷)到1(截斷)之間浮動,數字表示指離開圖像邊界對象的程度。
- 第3列(整數):代表物體是否被遮擋(occluded),整數0、1、2、3分別表示被遮擋的程度。
- 第4列(弧度數):物體的觀察角度(alpha),取值范圍為:-pi ~ pi(單位:rad),它表示在相機坐標系下,以相機原點為中心,相機原點到物體中心的連線為半徑,將物體繞相機y軸旋轉至相機z軸,此時物體方向與相機x軸的夾角,如圖1所示。
- 第5~8列(浮點數):物體的2D邊界框大小(bbox),四個數分別是xmin、ymin、xmax、ymax(單位:pixel),表示2維邊界框的左上角和右下角的坐標。
- 第9~11列(浮點數):3D物體的尺寸(dimensions),分別是高、寬、長(單位:米)
- 第12-14列(整數):3D物體的位置(location),分別是x、y、z(單位:米),特別注意的是,這里的xyz是在相機坐標系下3D物體的中心點位置。
- 第15列(弧度數):3D物體的空間方向(rotation_y),取值范圍為:-pi ~ pi(單位:rad),它表示,在照相機坐標系下,物體的全局方向角(物體前進方向與相機坐標系x軸的夾角)。
- 第16列(整數):檢測的置信度(score),用來繪制p/r曲線,越高越好。此為模型的輸出,此處省略了。
0.2.2.4 planes
# Plane Width 4 Height 1 -1.851372e-02 -9.998285e-01 -5.362310e-04 1.678761e+000.2.2.5 velodyne
8D 97 92 41 39 B4 48 3D 58 39 54 3F 00 00 00 00 83 C0 92 41 87 16 D9 3D 58 39 54 3F 00 00 00 00 2D 32 4D 42 AE 47 01 3F FE D4 F8 3F 00 00 00 00 37 89 92 41 D3 4D 62 3E 58 39 54 3F 00 00 00 00 E5 D0 92 41 12 83 80 3E E1 7A 54 3F EC 51 B8 3D 7B 14 70 41 2B 87 96 3E 50 8D 37 3F CD CC 4C 3E 96 43 6F 41 7B 14 AE 3E 3D 0A 37 3F E1 7A 14 3F 2F DD 72 41 5E BA C9 3E 87 16 39 3F 00 00 00 00 FA 7E 92 41 5E BA 09 3F 58 39 54 3F 00 00 00 00 66 66 92 41 EC 51 18 3F CF F7 53 3F 00 00 00 00 A4 70 92 41 77 BE 1F 3F CF F7 53 3F 00 00 00 00 A4 70 92 41 8D 97 2E 3F 58 39 54 3F 00 00 00 00 ... ...點云數據以浮點二進制文件格式存儲,每個浮點數占4字節。一個點云數據由4個浮點數構成,分別表示點云的x、y、z、r,其存儲方式如下表所示:
| pointcloud-1 | x-1 | y-1 | z-1 | r-1 |
| pointcloud-2 | x-2 | y-2 | z-2 | r-2 |
| pointcloud-3 | x-3 | y-3 | z-3 | r-3 |
| … | … | … | … | … |
| pointcloud-n | x-n | y-n | z-n | r-n |
摘要
??今天,視覺識別系統仍然很少用于機器人應用。可能這其中的一個主要原因是缺乏模擬此類場景的苛刻基準。在本文中,我們利用我們的自動駕駛平臺為立體、光流、視覺里程計/SLAM和3D目標檢測任務開發了具有挑戰性的新基準。我們的記錄平臺配備了四臺高分辨率攝像機、Velodyne激光掃描儀和最先進的定位系統。我們的基準包括389個立體和光流圖像對、39.2km長的立體視覺里程測量序列,以及在雜亂場景中捕獲的超過200k個3D目標注釋(每張圖像最多可看到15輛汽車和30名行人)。來自最先進算法的結果表明,在Middlebury等已建立的數據集上排名靠前的方法在實驗室外移動到現實世界時表現低于平均水平。我們的目標是通過向計算機視覺社區提供具有挑戰性的基準,并為其帶來新的困難,從而減少這種偏見。我們的基準可在線訪問:www.cvlibs.net/datasets/kitti
1. 引言
??開發能夠幫助人類完成日常任務的自主系統是現代計算機科學的重大挑戰之一。一個例子是自動駕駛系統,它可以幫助減少交通事故造成的死亡人數。雖然在過去幾年中,各種新型傳感器被用于目標的識別、導航和操縱等任務,但視覺傳感器很少被用于機器人應用:自動駕駛系統主要依賴GPS、激光測距儀、雷達以及非常精確的環境地圖。
??在過去幾年中,已經開發了越來越多的基準來推動視覺識別系統的性能,例如Caltech-101[17]、Middlebury立體聲[41]和光流[2]評估。然而,這些數據集大多過于簡單化,例如,在受控環境中采集。一個顯著的例外是PASCAL VOC檢測和分割挑戰[16]。
圖1. 帶傳感器的記錄平臺(左上)、視覺里程基準的軌跡(上中)、視差和光流圖(右上)和3D目標標簽(下)。
??在本文中,我們利用我們的自動駕駛平臺為立體、光流、視覺里程計/SLAM和3D目標檢測開發了具有挑戰性的新基準。我們的基準是通過在中等城市、農村地區和高速公路上行駛來獲得的。我們的記錄平臺配備了兩個高分辨率立體攝像系統(灰度和彩色)、每秒產生超過一百萬個3D點的Velodyne HDL-64E激光掃描儀和結合GPS、GLONASS、IMU和RTK校正信號的最先進的OXTS RT 3003定位系統。攝像機、激光掃描儀和定位系統經過校準和同步,為我們提供了準確的真值。表1總結了我們的基準,并提供了與現有數據集的比較。
??我們的立體匹配和光流估計基準包括194個訓練和195個測試圖像對,分辨率為1240×376像素。與之前的數據集[41,2,30,29]相比,這是第一個具有真實的非合成圖像和準確真值的數據集。困難包括非朗伯曲面(例如,反射率、透明度)大位移(例如,高速)、多種材質(例如,無光與有光澤)以及不同的照明條件(例如,陽光與多云)。
??我們的3D視覺里程計/SLAM數據集由22個立體序列組成,總長39.2km。迄今為止,屬于這一類別的數據集要么是單目短焦[43],要么由低質量圖像組成[42,4,35]。它們通常不提供評估指標,因此,對于應使用哪個基準來評估視覺里程計/SLAM方法沒有共識。因此,除了基于激光的SLAM[28]外,通常只給出定性結果。我們相信,由于基準的大規模性質以及我們提出的新指標,我們可以在基準中進行公平比較,這些指標通過評估給定軌跡長度或行駛速度的所有子序列的誤差統計來捕獲不同的誤差源。
??我們的3D目標基準關注用于目標檢測和3D方向估計的計算機視覺算法。雖然這些任務的現有基準無法提供準確的3D信息[17、39、15、16]或缺乏真實感[33、31、34],但我們的數據集為汽車、貨車、卡車、行人、自行車和電車等目標類別提供了準確的3D邊界框。我們通過在Velodyne系統生成的3D點云中手動標記目標,并將其投影回圖像中,來獲得這些信息。這產生了具有精確3D姿態的軌跡,可用于評估3D方向估計和3D跟蹤算法的性能。
??在我們的實驗中,我們使用我們的基準和新的度量標準來評估一組具有代表性的最先進系統。也許并不奇怪,許多在諸如Middlebury[41,2]等現有數據集上表現良好的算法在我們的基準上舉步維艱。我們推測這可能是由于他們的假設在我們的場景中被違反,以及過度擬合到一小組訓練(測試)圖像。
??除了基準測試之外,我們還提供了MATLAB/C++開發工具包,以方便訪問。我們還維護最新的在線評估服務器(www.cvlibs.net/datasets/kitti)。我們希望,我們的努力將有助于提高視覺識別系統在機器人應用中的影響力。
2.挑戰和方法
??為上述任務制定大規模和現實的評估基準提出了一系列挑戰,包括實時收集大量數據、校準以不同速率工作的各種傳感器、生成真值最大限度地減少所需的監督,為每個基準選擇適當的序列和幀,以及為每個任務制定度量。在本節中,我們將討論如何應對這些挑戰。
2.1 傳感器和數據采集
??我們配備了一輛標準旅行車,配備了兩個彩色和兩個灰度的PointGrey Flea2攝像機(10 Hz,分辨率:1392×512像素,開口:90°×35°)、Velodyne HDL-64E 3D激光掃描儀(10 Hz、64束激光,范圍:100 m)、帶有RTK校正信號的GPS/IMU定位單元(開放天空定位誤差<5 cm)和運行實時數據庫的強大計算機[22]。
??我們將所有攝像頭(即兩個單元,每個單元由一個彩色攝像頭和一個灰度攝像頭組成)安裝在車輛頂部。我們將一個單元放在機架的左側,另一個放在右側。我們的相機設置被選擇為使得我們在相同類型的相機之間獲得大約54cm的基線,并且彩色和灰度相機之間的距離被最小化(6cm)。我們認為這是一個很好的設置,因為彩色圖像對于分割和目標檢測等任務非常有用,但與灰度圖像相比,其對比度和靈敏度較低,這在立體匹配和光流估計中至關重要。
??我們使用Velodyne HDL-64E單元,因為它是可從移動平臺提供準確3D信息的少數傳感器之一。相比之下,像Microsoft Kinect這樣的結構光系統在戶外場景中不起作用,而且感應范圍非常有限。為了補償3D激光測量中的自我運動,我們使用來自GPS/IMU系統的位置信息。
2.2 傳感器校準
??準確的傳感器校準是獲得可靠真值的關鍵。我們的校準流程如下:首先,我們對四臺攝像機進行內部和外部校準,并對輸入圖像進行校正。然后,我們找到與激光掃描儀、定位單元和參考相機的坐標系相關的三維剛性運動參數。雖然我們的相機到相機和GPS/IMU到Velodyne的配準方法是全自動的,但Velodyne到相機的校準需要用戶手動選擇激光和相機圖像之間的少量對應關系。這是必要的,因為這項任務的現有技術不夠精確,無法計算真值估計。
攝像機到攝像機校準。為了自動校準攝像機的內部和外部參數,我們在車庫的墻上安裝了棋盤圖案,并在校準圖像中檢測角落。基于梯度信息和離散能量最小化,我們將角點分配給棋盤,在相機之間進行匹配,并通過最小化平均重投影誤差來優化所有參數[19]。
表1. 當前最先進基準和數據集的比較。
Velodyne至攝像頭校準。將激光掃描儀與攝像頭配準是非常重要的,因為由于反射率值中的大量噪聲,很難建立對應關系。因此,我們依賴于半自動技術:首先,我們使用[19]的全自動方法注冊兩個傳感器。接下來,我們結合激光點云和圖像之間的一些手動選擇的對應關系的重投影誤差,將基準測試中表現最好的方法的視差異常值的數量最小化。作為對應,我們選擇了兩個領域(即圖像和點云)中人類容易定位的邊緣。通過使用Metropolis Hastings抽取樣本并選擇能量最低的解決方案來進行優化。
GPS/IMU至Velodyne校準。我們的GPS/IMU到Velodyne的注冊過程是全自動的。我們不能依賴視覺對應,然而,如果提供了來自兩個傳感器的運動估計,則該問題將與眾所周知的手眼校準問題相同,該問題已在機器人界進行了廣泛探索[14]。利用ICP,我們精確地記錄了停車序列的激光點云,因為這提供了很好地調節最小化問題所需的各種方向和平移。接下來,我們從這個序列中隨機抽樣1000對姿勢,并使用[14]獲得期望的結果。
2.3 真值
??校準并登記所有傳感器后,我們準備為圖1所示的單個基準生成真值。
??為了獲得高的立體和光流真值密度,我們使用ICP注冊一組連續幀(感興趣幀之前5幀和之后5幀)。我們將累積的點云投影到圖像上,并自動刪除落在圖像之外的點。然后,我們手動刪除所有模糊的圖像區域,如窗口和圍欄。給定相機校準,可以容易地計算相應的視差圖。通過將3D點投影到下一幀中獲得光學流場。對于這兩項任務,我們評估了非遮擋像素以及真值可用的所有像素。我們的非遮擋評估排除了落在圖像平面之外的所有表面點。由于激光掃描儀的特性,不能以全自動的方式可靠地估計同一圖像內被目標遮擋的點。為了避免人為誤差,我們不插值真值視差圖和光學流場,導致真值密度平均值為~50%。
??視覺里程計/SLAM的真值由GPS/IMU定位單元的輸出直接給出,該單元在校正后投影到左攝像機的坐標系中。
圖2. 數據集的目標發生和目標幾何統計。該圖顯示(從左到右,從上到下):在我們的序列中出現的不同類型的目標,圖像中實例數量的冪律分布,以及兩個最主要類別“汽車”和“行人”的方向直方圖和目標大小分布。
??為了生成3D目標真值,我們雇傭了一組注釋員,并要求他們以3D邊界框的形式為汽車、貨車、卡車、電車、行人和自行車等目標分配軌跡。與大多數現有基準不同,我們不依賴在線眾包來執行標注。為了實現這一目標,我們創建了一個特殊用途的標簽工具,它顯示3D激光點以及相機圖像,以提高注釋的質量。在[16]之后,我們要求注釋器將每個邊界框額外標記為可見、半遮擋、完全遮擋或截斷。我們的標簽工作統計數據如圖2所示。
2.4 基準選擇
??我們總共收集了約3 TB的數據,從中我們選擇了一個代表性的子集來評估每個任務。在我們的實驗中,我們目前專注于灰度圖像,因為它們比彩色圖像提供更高的質量。
??對于我們的立體和光流基準,我們選擇了環境靜止的序列子集。為了最大化多樣性,我們使用新的表示對數據執行k均值(k=400)聚類,并選擇最接近每個聚類中心的元素作為基準。我們使用144維圖像描述符描述每個圖像,該描述符通過將圖像細分為12×4個矩形塊并計算每個塊的平均視差和光流位移而獲得。在移除具有不良照明條件的場景(例如,隧道)之后,我們獲得了兩個基準的194個訓練和195個測試圖像對。
??對于我們的視覺里程計/SLAM評估,我們選擇了具有高質量定位的不同速度的長序列,以每秒10幀的速度拍攝了一組41.000幀,總行駛距離為39.2公里,并頻繁關閉SLAM感興趣的環路。
??我們的3D目標檢測和方向估計基準是根據場景中未遮擋目標的數量以及目標方向分布的熵來選擇的。為了確保多樣性,需要高熵。為了實現這個目標,我們使用了貪婪算法:我們將數據集X初始化為空集?,并使用以下規則迭代添加圖像
其中X是當前集合,x是來自數據集的圖像,noc(x)表示圖像x中未遮擋目標的數量,C表示目標類的數量。Hc是c類相對于方向的熵(我們對行人/汽車使用8/16個方向箱)。我們進一步確保來自一個序列的圖像不會出現在訓練集和測試集中。
2.5 評估指標
??我們利用一組不同的指標評估最先進的方法。在[41,2]之后,我們使用視差和終點誤差方面的錯誤像素的平均數量來評估立體和光流。與[41,2]相反,我們的圖像沒有向下采樣。因此,我們將視差/終點誤差閾值τ∈{2,…,5}px作為基準,τ=3 px是默認設置,它考慮了幾乎所有的校準和激光測量誤差。我們報告了非遮擋像素以及真值可用的所有像素的錯誤。
??基于軌跡終點的誤差評估視覺里程計/SLAM方法可能會產生誤導,因為該測量強烈依賴于產生誤差的時間點,例如,序列中較早的旋轉誤差導致較大的終點誤差。K¨ummerle等人[28]建議計算固定距離處所有相對關系的平均值。在這里,我們以兩種方式擴展這個度量。我們不是將旋轉和平移誤差合并為一個度量,而是將它們分開處理。此外,我們還評估了作為軌跡長度和速度的函數的誤差。這允許對單個方法的質量和故障模式進行更深入的了解。正式地,我們的誤差度量定義為
其中,F是一組幀(i,j),分別估計p^\hat{p}p^?∈SE(3)和p∈E(3),真實相機姿態,?表示逆合成算子[28],∠[·]是旋轉角。
??我們的3D目標檢測和方向估計基準分為三個部分:首先,我們使用[16]中描述的建立良好的平均精度(AP)度量,通過測量性能來評估經典的2D目標檢測。從最大重疊開始檢測被迭代地分配給真值標簽,通過邊界框的IOU來測量。我們要求真陽性重疊超過50%,并將同一目標的多次檢測計數為假陽性。我們使用我們稱為平均方向相似性(AOS)的新度量來評估聯合檢測目標和估計其3D方向的性能,我們將其定義為:
這里,r=TPTP+FNr=\frac{TP}{TP+FN}r=TP+FNTP?是PASCAL目標檢測召回,其中檢測到的2D邊界框如果與真值邊界框重疊至少50%,則是正確的。召回r處的方向相似性s∈[0,1]是余弦相似性的歸一化([0…1])變量,定義為
其中D(r)表示在召回率r下所有目標檢測的集合,?θ(i)?^{(i)}_θ?θ(i)?是檢測i的估計方位和真值方位之間的角度差。為了懲罰解釋單個目標的多個檢測,如果檢測i已分配給真值邊界框(重疊至少50%),我們設置δi=1,如果未分配,則設置δi=0。
??最后,我們還評估了純分類(汽車的16個箱)和回歸(連續方向)在3D目標方向估計任務中的方向相似性性能。
圖3. PCBP的立體結果[46]。輸入圖像(頂部)、估計視差圖(中部)、視差誤差(底部)。誤差范圍:0像素(黑色)至≥5像素(白色)。
圖4. TGV2CENSUS的光流結果[45]。輸入圖像(頂部)、估計流場(中部)、終點誤差(底部)。誤差范圍:0像素(黑色)至≥5像素(白色)。
3. 實驗評價
??我們為每個任務運行一組具有代表性的最先進算法。有趣的是,我們發現在現有基準測試中排名靠前的算法在遇到更現實的場景時往往會失敗。本節講述了他們的故事。
3.1 立體匹配
??對于立體匹配,我們使用全局[26,37,46],半全局[23],局部[5,20,38]和種子生長[27,10,9]方法。我們使用的參數設置可以在www.cvlibs.net/datasets/kitti上找到。使用背景插值[23]為每個算法填充缺失的差異,以生成密集的差異圖,然后進行比較。如表2所示,我們基準測試的誤差高于Middlebury[41]報告的誤差,表明我們真實世界數據集的難度增加。有趣的是,Middlebury排名靠前的方法在我們的數據集上表現尤其糟糕,例如,引導成本體積過濾[38]、逐像素圖形切割[26]。這主要是由于數據集的差異:由于Middlebury基準在很大程度上具有良好的紋理,并提供了較小的標簽集,因此專注于精確的目標邊界分割的方法表現良好。相比之下,我們的數據需要更多的全局推理,以了解分割性能不太關鍵的紋理很少、模糊或沒有紋理的區域。如果假設前向平行表面,則純局部方法[5,38]失敗,因為在真實場景(例如道路或建筑物)中,這一假設經常被強烈違反。
??圖3顯示了(當前)排名靠前的立體方法PCBP的最佳和最差測試結果[46]。雖然自然環境中的小錯誤是由于大量的紋理,但城市內部的場景被證明是具有挑戰性的。這里,主要的誤差源是圖像飽和度(左側的墻)、視差陰影(RV遮擋道路)和非朗伯曲面(RV主體上的反射)。
3.2 光流估計
??對于光流,我們評估了最先進的變分[24,6,48,44,7,9,45]和局部[5,47]方法。表2總結了我們的實驗結果。我們觀察到經典變分方法[24,44,45]對我們的圖像效果最好。然而,表現最好的方法TGV2CENSUS[45]平均仍產生約11%的誤差。如圖4所示,大多數誤差發生在幀之間發生較大位移的區域,例如街道上的近距離像素。此外,由于缺少紋理,金字塔實現缺乏在金字塔的更高層次上估計流場的能力。雖然在小運動時獲得最佳結果(圖4左側,流量≤55像素),但在高速行駛時(圖4右側,流量≤176像素)會導致大位移,這無法通過任何評估方法可靠地處理。我們認為,要克服這些問題,我們需要更復雜的模型,利用世界的先驗知識。以前由于缺乏足夠的訓練數據而受到阻礙,這種方法將在不久的將來變得可行,因為我們提供了更大的訓練集。
表2. 2012年4月2日的立體(左)和光流(右)排名。數字表示視差誤差或光流終點誤差(歐氏距離)大于τ=3px的像素百分比,在所有測試圖像上取平均值。這里,非遮擋指的是在兩個圖像中投影之后留在圖像內部的像素,并且all表示真值信息可用的所有像素。密度是指估計的像素數。為了可比性,對無效差異和流量矢量進行了插值。
圖5. 視覺里程表評估。平移和旋轉誤差,在給定長度或速度的所有子序列上取平均值。
3.3 視覺里程計/SLAM
??我們在我們的視覺里程計/SLAM數據集上評估了五種不同的方法:VISO2-S/M[21],一種基于增量運動估計的實時立體/單目視覺里程計庫,[1]的方法,有無局部束調整(LBA)[32],以及[25]的流分離方法。所有算法都是可比的,因為它們都不使用循環閉合信息。除了VISO2-M[21]僅使用單眼圖像外,所有方法都使用立體。圖5描述了作為軌跡長度和驅動速度的函數的旋轉和平移誤差。
??在我們的評估中,VISO2-S[21]最接近真值軌跡,平均平移誤差為2.2%,平均旋轉誤差為0.016度/米。根據我們的光流實驗,大運動會影響性能,特別是在平移方面。以每秒10幀的記錄速率,車輛每幀移動2.8米。此外,大型運動主要發生在3D結構不太豐富的高速公路上。低速時的大誤差源于這樣一個事實,即基于增量或滑動窗口的方法會隨著時間緩慢漂移,在低速時相對影響最大。如果在車輛緩慢移動或靜止時優化更大的時間間隔,則可以容易地緩解此問題。在我們的實驗中,沒有使用真值信息來訓練模型參數。我們期望檢測環路閉合,利用更多增強的束調整技術,以及利用訓練數據進行參數擬合,以進一步提高性能。
圖6. 目標檢測和方向估計結果。有關指標的詳細信息,請參見第2.5節。
表3. 汽車的目標方向錯誤。根據方向相似性測量的性能(等式5)。越高越好。
3.4 3D目標檢測/方向估計
??我們使用第2.5節所述的平均精度和平均方向相似度來評估目標檢測以及聯合檢測和方向估計。我們從完整數據集中提取的基準包括12000張圖像和40000個目標。我們首先將訓練集細分為16個定向類,并使用每個類100個非遮擋示例,通過將組件初始化為16個類,但在優化期間讓組件變化(固定初始化)。
??我們評估了所有非遮擋和弱遮擋(<20%)的目標,這些目標的高度既不被截斷,也不小于40像素。我們不將檢測到截斷或遮擋的目標算作誤報。對于我們的目標檢測實驗,我們需要至少50%的邊界框重疊,結果如圖所示。6(a)。對于檢測和方向估計,我們需要相同的重疊,并繪制兩個無監督變體的平均方向相似性(等式5)與召回(圖6(b))。注意,精度是平均方向相似度的上限。
??總之,我們沒有發現我們研究的基于部件的檢測器變體之間有任何實質性差異。所有這些都實現了高精度,而召回似乎受到一些難以檢測的物體的限制。我們計劃將在線評估擴展到更復雜的場景,例如半遮擋或截斷目標以及其他目標類,如面包車、卡車、行人和自行車。
??最后,我們還評估了目標定向估計。我們使用16個方向箱,每個方向箱提取100個汽車實例。我們在所有裁剪和調整大小的邊界框上計算HOG特征[12],邊界框具有19×13個塊、8×8個像素單元和12個方向箱。我們評估了多種分類和回歸算法,并報告了平均方向相似性(方程5)。表3顯示了我們的結果。我們發現,對于分類任務,SVM[11]明顯優于最近鄰分類。對于回歸任務,高斯過程回歸[36]表現最好。
4. 結論和未來工作
??我們希望,為現有方法提供新的視角,建議的基準將補充其他基準,有助于減少對幾乎沒有訓練或測試示例的數據集的過度擬合,并有助于開發在實踐中運行良好的算法。由于我們的記錄數據提供的信息超過了迄今為止編入基準的信息,我們的意圖是逐步增加他們的困難。此外,我們還計劃將具有閉環功能的視覺SLAM、目標跟蹤、分割、運動結構和3D場景理解納入我們的評估框架。
References
[1] P. Alcantarilla, L. Bergasa, and F. Dellaert. Visual odometry priors for robust EKF-SLAM. In ICRA, 2010. 6
[2] S. Baker, D. Scharstein, J. Lewis, S. Roth, M. Black, and R. Szeliski. A database and evaluation methodology for optical flow. IJCV, 92:1–31, 2011. 1, 2, 3, 4, 5
[3] S. M. Bileschi. Streetscenes: Towards scene understanding in still images. Technical report, MIT, 2006. 3
[4] J.-L. Blanco, F.-A. Moreno, and J. Gonzalez. A collection of outdoor robotic datasets with centimeter-accuracy ground truth. Auton. Robots, 27:327–351, 2009. 2, 3
[5] G. Bradski. The opencv library. Dr. Dobb’s Journal of Software Tools, 2000. 5, 6
[6] T. Brox, A. Bruhn, N. Papenberg, and J. Weickert. High accuracy optical flow estimation based on a theory for warping. In ECCV, 2004. 6
[7] T. Brox and J. Malik. Large displacement optical flow: Descriptor matching in variational motion estimation. PAMI, 33:500–513, March 2011. 6
[8] M. E. C. G. Keller and D. M. Gavrila. A new benchmark for stereo-based pedestrian detection. In IV, 2011. 3
[9] J. Cech, J. Sanchez-Riera, and R. P. Horaud. Scene flow estimation by growing correspondence seeds. In CVPR, 2011. 5, 6
[10] J. Cech and R. Sara. Efficient sampling of disparity space for fast and accurate matching. In BenCOS, 2007. 5, 6
[11] C.-C. Chang and C.-J. Lin. LIBSVM: a library for support vector machines. Technical report, 2001. 7
[12] N. Dalal and B. Triggs. Histograms of oriented gradients for human detection. In CVPR, 2005. 7
[13] P. Dollar, C. Wojek, B. Schiele, and P. Perona. Pedestrian detection: An evaluation of the state of the art. In PAMI, volume 99, 2011. 3
[14] F. Dornaika and R. Horaud. Simultaneous robot-world and hand-eye calibration. Rob. and Aut., 1998. 3
[15] A. Ess, B. Leibe, and L. V. Gool. Depth and appearance for mobile scene analysis. In ICCV, 2007. 2, 3
[16] M. Everingham, L. Van Gool, C. K. I. Williams, J. Winn, and A. Zisserman. The PASCAL Visual Object Classes Challenge 2011 (VOC2011) Results. 1, 2, 3, 4, 5
[17] L. Fei-Fei, R. Fergus, and P. Perona. Learning generative visual models from few training examples: an incremental bayesian approach tested on 101 object categories. In Workshop on Generative-Model Based Vision, 2004. 1, 2, 3
[18] P. Felzenszwalb, R.Girshick, D. McAllester, and D. Ramanan. Object detection with discriminatively trained partbased models. PAMI, 32:1627–1645, 2010. 7
[19] A. Geiger, F. Moosmann, O. Car, and B. Schuster. A toolbox for automatic calibration of range and camera sensors using a single shot. In ICRA, 2012. 3
[20] A. Geiger, M. Roser, and R. Urtasun. Efficient large-scale stereo matching. In ACCV, 2010. 5, 6
[21] A. Geiger, J. Ziegler, and C. Stiller. StereoScan: Dense 3d reconstruction in real-time. In IV, 2011. 6
[22] M. Goebl and G. Faerber. A real-time-capable hard- and software architecture for joint image and knowledge processing in cognitive automobiles. In IV, 2007. 2
[23] H. Hirschmueller. Stereo processing by semiglobal matching and mutual information. PAMI, 30:328–41, 2008. 5
[24] B. K. P. Horn and B. G. Schunck. Determining optical flow: A retrospective. AI, 59:81–87, 1993. 6
[25] M. Kaess, K. Ni, and F. Dellaert. Flow separation for fast and robust stereo odometry. In ICRA, 2009. 6
[26] V. Kolmogorov and R. Zabih. Computing visual correspondence with occlusions using graph cuts. In ICCV, pages 508–515, 2001. 5, 6
[27] J. Kostkova. Stratified dense matching for stereopsis in complex scenes. In BMVC, 2003. 5, 6
[28] R. Kuemmerle, B. Steder, C. Dornhege, M. Ruhnke, G. Grisetti, C. Stachniss, and A. Kleiner. On measuring the accuracy of SLAM algorithms. Auton. Robots, 27:387–407, 2009. 2, 5
[29] L. Ladicky, P. Sturgess, C. Russell, S. Sengupta, Y. Bastanlar, W. Clocksin, and P. Torr. Joint optimisation for object class segmentation and dense stereo reconstruction. In BMVC, 2010. 1, 3
[30] S. Morales and R. Klette. Ground truth evaluation of stereo algorithms for real world applications. In ACCV Workshops, volume 2 of LNCS, pages 152–162, 2010. 1, 3
[31] P. Moreels and P. Perona. Evaluation of features, detectors and descriptors based on 3d objects. IJCV, 73:263–284, 2007. 2, 3
[32] E. Mouragnon, M. Lhuillier, M. Dhome, F. Dekeyser, and P. Sayd. Generic and real-time structure from motion using local bundle adjustment. IVC, 27:1178–1193, 2009. 6
[33] Nayar and H. Murase. Columbia Object Image Library: COIL-100. Technical report, Department of Computer Science, Columbia University, 1996. 2, 3
[34] M. Ozuysal, V. Lepetit, and P.Fua. Pose estimation for category specific multiview object localization. In CVPR, 2009. 2, 3
[35] G. Pandey, J. R. McBride, and R. M. Eustice. Ford campus vision and lidar data set. IJRR, 2011. 2, 3
[36] C. E. Rasmussen and C. K. I. Williams. Gaussian Processes for Machine Learning. MIT Press, 2005. 7
[37] T. P. H. B. Rene Ranftl, Stefan Gehrig. Pushing the limits of stereo using variational stereo estimation. In IV, 2012. 5, 6
[38] C. Rhemann, A. Hosni, M. Bleyer, C. Rother, and M. Gelautz. Fast cost-volume filtering for visual correspondence and beyond. In CVPR, 2011. 5, 6
[39] B. Russell, A. Torralba, K. Murphy, and W. Freeman. Labelme: A database and web-based tool for image annotation. IJCV, 77:157–173, 2008. 2, 3
[40] A. Saxena, J. Schulte, and A. Y. Ng. Depth estimation using monocular and stereo cues. In IJCAI, 2007. 3
[41] D. Scharstein and R. Szeliski. A taxonomy and evaluation of dense two-frame stereo correspondence algorithms. IJCV, 47:7–42, 2001. 1, 2, 3, 4, 5
[42] M. Smith, I. Baldwin, W. Churchill, R. Paul, and P. Newman. The new college vision and laser data set. IJRR, 28:595–599, 2009. 2, 3
[43] J. Sturm, S. Magnenat, N. Engelhard, F. Pomerleau, F. Colas, W. Burgard, D. Cremers, and R. Siegwart. Towards a benchmark for RGB-D SLAM evaluation. In RGB-D Workshop, 2011. 2, 3
[44] D. Sun, S. Roth, and M. J. Black. Secrets of optical flow estimation and their principles. In CVPR, 2010. 6
[45] M. Werlberger. Convex Approaches for High Performance Video Processing. phdthesis, Graz University of Technology, 2012. 5, 6
[46] K. Yamaguchi, T. Hazan, D. McAllester, and R. Urtasun. Continuous markov random fields for robust stereo estimation. In arXiv:1204.1393v1, 2012. 5, 6
[47] J. yves Bouguet. Pyramidal implementation of the Lucas Kanade feature tracker. Intel, 2000. 6
[48] C. Zach, T. Pock, and H. Bischof. A duality based approach for realtime TV-L1 optical flow. In DAGM, pages 214–223, 2007. 6
總結
以上是生活随笔為你收集整理的KITTI 数据集(CVPR 2012) - 点云 3D的全部內容,希望文章能夠幫你解決所遇到的問題。