當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

3D视觉数据集

發(fā)布時間：2025/3/13 编程问答 20 豆豆

生活随笔收集整理的這篇文章主要介紹了 3D视觉数据集小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

轉(zhuǎn)自：超全的3D視覺數(shù)據(jù)集匯總 - 知乎

1、KITTI數(shù)據(jù)集

KITTI數(shù)據(jù)集由德國卡爾斯魯厄理工學(xué)院和豐田美國技術(shù)研究院聯(lián)合創(chuàng)辦，是目前國際上最大的自動駕駛場景下的計算機視覺算法評測數(shù)據(jù)集。該數(shù)據(jù)集用于評測立體圖像(stereo)，光流(optical flow)，視覺測距(visual odometry)，3D物體檢測(object detection)和3D跟蹤(tracking)、語義分割等計算機視覺技術(shù)在車載環(huán)境下的性能。KITTI包含市區(qū)、鄉(xiāng)村和高速公路等場景采集的真實圖像數(shù)據(jù)，每張圖像中最多達(dá)15輛車和30個行人，還有各種程度的遮擋與截斷。整個數(shù)據(jù)集由389對立體圖像和光流圖，39.2 km視覺測距序列以及超過200k 3D標(biāo)注物體的圖像組成。數(shù)據(jù)集鏈接：http://www.cvlibs.net/datasets/kitti/raw_data.php

2、Cityscapes

Cityscapes是一個較為新的大規(guī)模數(shù)據(jù)集，它包含50個不同城市的街道場景中記錄的各種立體視頻序列，除了一組較大的20?000弱注釋幀外，還具有5?000幀的高質(zhì)量像素級注釋。因此，數(shù)據(jù)集比以前的類似嘗試要大一個數(shù)量級。Cityscapes數(shù)據(jù)集旨在評價視覺算法在城市場景語義理解中的性能：像素級、實例級和全景語義標(biāo)注；支持旨在開發(fā)大量（弱）注釋數(shù)據(jù)的研究，例如用于訓(xùn)練深層神經(jīng)網(wǎng)絡(luò)包含城市場景下雙目圖像及像素級語義分割標(biāo)注。數(shù)據(jù)集鏈接：https://www.cityscapes-dataset.com/

3、牛津數(shù)據(jù)集

對牛津的一部分連續(xù)的道路進(jìn)行了上百次數(shù)據(jù)采集，收集到了多種天氣、行人和交通情況下的數(shù)據(jù)，也有建筑和道路施工時的數(shù)據(jù)。包含全景圖像、激光雷達(dá)點云、導(dǎo)航信息。數(shù)據(jù)集鏈接：https://robotcar-dataset.robots.ox.ac.uk/datasets/

4、ApolloScape

百度Apollo開源的數(shù)據(jù)集，包含3D目標(biāo)檢測、語義分割、目標(biāo)跟蹤、立體視覺、場景識別等各類信息，數(shù)據(jù)量非常大！數(shù)據(jù)集鏈接：http://apolloscape.auto/

5、BDD100K

主要包括視頻數(shù)據(jù)、道路目標(biāo)檢測、實例分割、可駕駛區(qū)域等相關(guān)數(shù)據(jù)。其中：視頻數(shù)據(jù)：在一天中的許多不同時間、天氣條件和駕駛場景中，探索超過1100小時駕駛體驗的100000高清視頻序列。我們的視頻序列還包括GPS位置、IMU數(shù)據(jù)和時間戳。道路目標(biāo)檢測：為公共汽車、紅綠燈、交通標(biāo)志、人、自行車、卡車、汽車、汽車、火車和騎手在100000張圖像上標(biāo)注的二維邊框。實例分割：使用像素級和豐富的實例級注釋，瀏覽超過10000個不同的圖像。可駕駛區(qū)域：從100000張圖片中學(xué)習(xí)復(fù)雜的駕駛決策。數(shù)據(jù)集鏈接：http://bdd-data.berkeley.edu/

6、Waymo Open Dataset

Waymo 數(shù)據(jù)集包含 3000 段駕駛記錄，時長共 16.7 小時，平均每段長度約為 20 秒。整個數(shù)據(jù)集一共包含 60 萬幀，共有大約 2500 萬 3D 邊界框、2200 萬 2D 邊界框。此外，在數(shù)據(jù)集多樣性上，Waymo Open Dataset 也有很大的提升，該數(shù)據(jù)集涵蓋不同的天氣條件，白天、夜晚不同的時間段，市中心、郊區(qū)不同地點，行人、自行車等不同道路對象，等等。數(shù)據(jù)集鏈接：https://github.com/waymo-research/waymo-open-dataset

7、nuScenes數(shù)據(jù)集

nuScenes數(shù)據(jù)集是自動駕駛公司nuTonomy建立的大規(guī)模自動駕駛數(shù)據(jù)集，該數(shù)據(jù)集不僅包含了Camera和Lidar，還記錄了雷達(dá)數(shù)據(jù)。這個數(shù)據(jù)集由1000個場景組成（即scenes，這就是該數(shù)據(jù)集名字的由來），每個scenes長度為20秒，包含了各種各樣的情景。在每一個scenes中，有40個關(guān)鍵幀（key frames），也就是每秒鐘有2個關(guān)鍵幀，其他的幀為sweeps。關(guān)鍵幀經(jīng)過手工的標(biāo)注，每一幀中都有了若干個annotation，標(biāo)注的形式為bounding box。不僅標(biāo)注了大小、范圍、還有類別、可見程度等等。這個數(shù)據(jù)集不久前發(fā)布了一個teaser版本（包含100個scenes），正式版（1000個scenes）的數(shù)據(jù)要2019年發(fā)布。這個數(shù)據(jù)集在sample的數(shù)量上、標(biāo)注的形式上都非常好，記錄了車的自身運動軌跡（相對于全局坐標(biāo)），包含了非常多的傳感器，可以用來實現(xiàn)更加智慧的識別算法和感知融合算法。數(shù)據(jù)集鏈接：https://www.nuscenes.org/download

8、3D Photography Dataset

華盛頓大學(xué)3D相機標(biāo)定數(shù)據(jù)庫。數(shù)據(jù)集鏈接：http://www-cvr.ai.uiuc.edu/ponce_grp/data/mview/

9、Matterport 3D重建數(shù)據(jù)集

A large-scale RGB-D dataset。該數(shù)據(jù)集包含10800個對齊的三維全景視圖（RGB+每個像素的深度），來自90個建筑規(guī)模場景的194400個RGB+深度圖像。數(shù)據(jù)集鏈接：https://matterport.com/

10、NoW Dataset

3D人臉重建相關(guān)數(shù)據(jù)集。該數(shù)據(jù)集包含用iPhone X拍攝的100名受試者的2054張2D圖像，以及每個受試者的單獨3D頭部掃描。頭部掃描是評估的基本依據(jù)。受試者的年齡、體重指數(shù)和性別（55名女性，45名男性）各不相同。數(shù)據(jù)集鏈接：https://ringnet.is.tue.mpg.de/challenge

11、Pix3D

單目圖像3D模型匹配數(shù)據(jù)。數(shù)據(jù)集鏈接：http://pix3d.csail.mit.edu/

12、Replica Dataset

高質(zhì)量室內(nèi)場景三維重建數(shù)據(jù)。數(shù)據(jù)集中包含了18個高真實感的室內(nèi)場景重建數(shù)據(jù)集Replica。每個場景由一個密集的網(wǎng)格、高分辨率高動態(tài)范圍（HDR）紋理、每個基本語義類和實例信息以及平面鏡和玻璃反射鏡組成。副本的目標(biāo)是使機器學(xué)習(xí)（ML）研究能夠依賴于世界上視覺上、幾何上和語義上真實的生成模型。數(shù)據(jù)集鏈接：https://github.com/facebookresearch/Replica-Dataset

13、Scan2CAD

將CAD模型與掃描數(shù)據(jù)對齊的數(shù)據(jù)集（適用于3D Object Pose Estimation，3D Reconstruction）對于公共數(shù)據(jù)集，我們?yōu)樽⑨屘峁?#xff1a;

97607掃描模型和CAD模型之間的關(guān)鍵點對應(yīng)關(guān)系

掃描和計算機輔助設(shè)計之間的14225個對象

1506次掃描

用于Scan2CAD基準(zhǔn)測試的附加注釋隱藏測試集包括：

7557掃描模型和CAD模型之間的關(guān)鍵點對應(yīng)關(guān)系

掃描和CAD之間的1160個對象

97次掃描

數(shù)據(jù)集鏈接：https://github.com/skanti/Scan2CAD

14、ScanNet

ScanNet是一個RGB-D視頻數(shù)據(jù)集，包含1500多個掃描中的250萬個視圖，使用3D相機姿勢、曲面重建和實例級語義分段進(jìn)行注釋（3D重建相關(guān)）。數(shù)據(jù)集鏈接：http://www.scan-net.org/

15、NYC3Dcars

在現(xiàn)實世界中為視覺任務(wù)設(shè)置的車輛檢測數(shù)據(jù)庫。

3D重建：NYC3DCAR中的每張照片都已被GEO注冊到地球，在地球為中心的地球固定坐標(biāo)系統(tǒng)中提供完整的相機內(nèi)部和外部信息，使得能夠與現(xiàn)有地理空間數(shù)據(jù)無縫集成。

地理數(shù)據(jù)：已集成了諸如OpenStreetMap和NYC OpenData提供的配套數(shù)據(jù)庫，以方便訪問道路、人行道和中間多邊形等地理特征以及道路網(wǎng)絡(luò)連接。

車輛注釋：人工注釋器提供了數(shù)據(jù)庫中包含的車輛的詳細(xì)說明。注釋包括一個完整的6自由度的車輛姿態(tài)，車輛類型，2D車輛包圍盒，和大約一天的照片時間。

數(shù)據(jù)集鏈接：http://nyc3d.cs.cornell.edu/

16、Expressive Hands and Faces

EHF數(shù)據(jù)集（豐富姿態(tài)的手部和臉部）包含一個受試者穿著最少的衣服的100個精確的幀，執(zhí)行各種身體姿勢，包括自然的手指關(guān)節(jié)，以及一些面部關(guān)節(jié)和表情。每個幀包括以下時間同步模式：

全身RGB圖像。

一個JSON文件，包含OpenPose檢測到的二維特征（身體關(guān)節(jié)、手關(guān)節(jié)、面部特征）。

物體的三維掃描。

與上述掃描的3D SMPL-X對齊（3D網(wǎng)格），用作偽地面真值。

偽地面真值網(wǎng)格采用頂點到頂點（v2v）誤差度量。這是一個比常見的三維關(guān)節(jié)誤差范式更嚴(yán)格的度量標(biāo)準(zhǔn)，它不捕獲表面誤差和骨骼的旋轉(zhuǎn)。

可以使用SMPL-X模型和SMPLify-X代碼從單個RGB圖像重建3D人體。

數(shù)據(jù)集鏈接：https://smpl-x.is.tue.mpg.de/

17、TUM數(shù)據(jù)集

主要包含多視圖數(shù)據(jù)集、3D物體的識別分割、場景識別、3D模型匹配、vSALM等各個方向的數(shù)據(jù)。數(shù)據(jù)集鏈接：https://vision.in.tum.de/

18、EUROC數(shù)據(jù)集

數(shù)據(jù)集中主要包含立體圖像、同步IMU測量以及精確的運動和真實地面結(jié)構(gòu)。數(shù)據(jù)集鏈接：https://projects.asl.ethz.ch/datasets/doku.php?id=kmavvisualinertialdatasets

交流群

總結(jié)

以上是生活随笔為你收集整理的3D视觉数据集的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇：常见移动机器人运动学模型
下一篇：清华大学车辆刚才专业大佬教你如何写SCI