當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

多目标跟踪资源整理

發(fā)布時(shí)間：2024/4/11 编程问答 42 豆豆

生活随笔收集整理的這篇文章主要介紹了多目标跟踪资源整理小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

本文是對(duì)到2020年多目標(biāo)跟蹤領(lǐng)域的資源進(jìn)行了整理并開源，包括論文、數(shù)據(jù)集、評(píng)估指標(biāo)、基準(zhǔn)結(jié)果、工具箱及相關(guān)課程。本博文將不再更新，最新的資源如新發(fā)布的論文，可以訪問下面的Github倉庫，我們會(huì)不斷更新，也歡迎star和fork。https://github.com/luanshiyinyang/awesome-multiple-object-tracking

文章目錄

- 綜述論文
- 算法論文
- - 2020
  - 2019
  - 2018
  - 2017
  - 2016
- 數(shù)據(jù)集
- - PETS 2009 Benchmark Data
  - MOT Challenge
  - - MOT20
    - MOTS
  - UA-DETRAC
  - WILDTRACK
  - NVIDIA AI CITY Challenge
  - VisDrone
  - JTA Dataset
  - Path Track
  - TAO
  - KITTI-Tracking
  - APOLLOSCAPE
  - - APOLLO Dection/Tracking
    - APOLLO MOTS
- 評(píng)估指標(biāo)
- 基準(zhǔn)結(jié)果
- - MOT16
  - MOT17
  - MOT20

綜述論文

Multiple Object Tracking: A Literature Review [paper]

Deep Learning in Video Multi-Object Tracking: A Survey [paper]

Tracking the Trackers: An Analysis of the State of the Art in Multiple Object Tracking [paper]

算法論文

2020

DMM-Net: Simultaneous Detection and Tracking with Motion Modelling for Multiple Object Tracking [code][paper]

SoDA: SoDA: Multi-Object Tracking with Soft Data Association [[code]][paper]

CTracker: Chained-Tracker: Chaining Paired Attentive Regression Results for End-to-End Joint Multiple-Object Detection and Tracking [code][paper]

MPNTracker: Learning a Neural Solver for Multiple Object Tracking [code][paper]

UMA: A Unified Object Motion and Affinity Model for Online Multi-Object Tracking [code][paper]

RetinaTrack: Online Single Stage Joint Detection and Tracking [[code]][paper]

FairMOT: A Simple Baseline for Multi-Object Tracking [code][paper]

TubeTK: TubeTK: Adopting Tubes to Track Multi-Object in a One-Step Training Model [code][paper]

CenterTrack: Tracking Objects as Points [code][paper]

PointTrack: Segment as points for efficient online multi-object tracking and segmentation [code][paper]

PointTrack++: PointTrack++ for Effective Online Multi-Object Tracking and Segmentation [code][paper]

FFT: Multiple Object Tracking by Flowing and Fusing [paper]

MIFT: Refinements in Motion and Appearance for Online Multi-Object Tracking [code][paper]

EDA_GNN: Graph Neural Based End-to-end Data Association Framework for Online Multiple-Object Tracking [code][paper]

GNMOT: Graph Networks for Multiple Object Tracking [code][paper]

2019

Tracktor/Tracktor++: Tracking without bells and whistles [code][paper]

DeepMOT: How To Train Your Deep Multi-Object Tracker [code][paper]

JDE: Towards Real-Time Multi-Object Tracking [code][paper]

MOTS: MOTS: Multi-Object Tracking and Segmentation[paper]

FANTrack: FANTrack: 3D Multi-Object Tracking with Feature Association Network [code][paper]

FAMNet: Joint Learning of Feature, Affinity and Multi-dimensional Assignment for Online Multiple Object Tracking[paper]

2018

DeepCC: Features for Multi-Target Multi-Camera Tracking and Re-Identification [paper]

SADF: Online Multi-Object Tracking with Historical Appearance Matching and Scene Adaptive Detection Filtering [paper]

DAN: Deep Affinity Network for Multiple Object Tracking [code][paper]

DMAN: Online Multi-Object Tracking with Dual Matching Attention Networks [code][paper]

MOTBeyondPixels: Beyond Pixels: Leveraging Geometry and Shape Cues for Online Multi-Object Tracking [code][paper]

MOTDT: Real-time Multiple People Tracking with Deeply Learned Candidate Selection and Person Re-Identification [code][paper]

DetTA: Detection-Tracking for Efficient Person Analysis: The DetTA Pipeline [code][paper]

V-IOU: Extending IOU Based Multi-Object Tracking by Visual Information [code][paper]

2017

DeepSORT: Simple Online and Realtime Tracking with a Deep Association Metric [code][paper]

NMGC-MOT: Non-Markovian Globally Consistent Multi-Object Tracking [code][paper]

IOUTracker: High-Speed tracking-by-detection without using image information [code][paper]

RNN_LSTM: Online Multi-Target Tracking Using Recurrent Neural Networks [code][paper]

D2T: Detect to Track and Track to Detect [code][paper]

RCMSS: Online multi-object tracking via robust collaborative model and sample selection [paper]

towards-reid-tracking: Towards a Principled Integration of Multi-Camera Re-Identification and Tracking through Optimal Bayes Filters [code][paper]

CIWT: Combined image-and world-space tracking in traffic scenes [code][paper]

2016

SORT: Simple online and realtime tracking [code][paper]

POI: POI: Multiple Object Tracking with High Performance Detection and Appearance Feature [code]

數(shù)據(jù)集

以下是監(jiān)控視角下的數(shù)據(jù)集

PETS 2009 Benchmark Data

該數(shù)據(jù)集是一個(gè)較老的數(shù)據(jù)集，發(fā)布與 2009 年，是包含不同人群活動(dòng)的多傳感器序列，可以用于估計(jì)人群人數(shù)和密度，跟蹤人群中的個(gè)人以及檢測流量和人群事件。
數(shù)據(jù)集具體結(jié)構(gòu)如下：

- 校正數(shù)據(jù) - S0：訓(xùn)練數(shù)據(jù)- 包含設(shè)置背景，市中心，常規(guī)流量 - S1：人數(shù)和人群密度估計(jì)- 包含：L1,L2,L3 - S2：人物跟蹤- 包含：L1,L2,L3 - S3：流分析和事件識(shí)別- 包含：事件識(shí)別和多重流

可用于多目標(biāo)跟蹤的是 S2 部分，從 L1 到 L3，人群密度逐漸增大，困難程度變大。但在處理多個(gè)視圖的時(shí)候，需要用到相機(jī)校正數(shù)據(jù)，將每個(gè)人的 2D 邊界框投影到其他視圖中。
下載地址為PETS 2009 Benchmark Data

MOT Challenge

MOT Challenge 是多目標(biāo)跟蹤方向一個(gè)很有影響力的比賽，專注于行人跟蹤。其從 2015 年開始提供用于行人跟蹤的數(shù)據(jù)集，至今包含 2D MOT 2015、MOT16、MOT17、MOT20、MOTs。還有用于檢測的 MOT17Det 和 MOT20Det，以及用于石斑魚跟蹤的 3D-ZeF20。

MOT20

用最新的 MOT20 舉例，MOT20 包含 4 組訓(xùn)練用的序列以及 4 組測試用的序列。下載地址為MOT20。

MOT 的標(biāo)簽文件分為用于檢測的標(biāo)簽和 ground truth 兩種，均為 txt 格式存儲(chǔ)。首先是用于檢測的標(biāo)簽，其標(biāo)注格式為：

<frame>, <id>, <bb_left>, <bb_top>, <bb_width>, <bb_height>, <conf>, <x>, <y>, <z>

例如：

1,-1,757,692,96,209,1,-1,-1,-1 1,-1,667,682,100,222,1,-1,-1,-1 1,-1,343,818,127,258,1,-1,-1,-1

第一個(gè)數(shù)字是代表幀數(shù)；第二個(gè)數(shù)字-1，意味著沒有分配 ID；隨后的兩個(gè)數(shù)字分別是 Bbox 的左上角點(diǎn)的坐標(biāo)；再接著的兩個(gè)數(shù)字是 Bbox 的 w 和 h；后一個(gè)數(shù)字表示的是置信度；最后三個(gè)-1 對(duì)檢測文件來說沒有意義。
ground truth 的標(biāo)注格式為：

<frame>, <id>, <bb_left>, <bb_top>, <bb_width>, <bb_height>, <0/1>, <cls>, <vis>

例如：

1,1,199,813,140,268,1,1,0.83643 2,1,201,812,140,268,1,1,0.84015 3,1,203,812,140,268,1,1,0.84015

第一個(gè)數(shù)字依舊代表著幀數(shù)；第二個(gè)數(shù)字是該 Bbox 的 ID；后面四個(gè)數(shù)字是 Bbox 的位置以及大小信息，同上；后一個(gè)數(shù)字表示的也是置信度，0 代表著 ignored，1 代表著 considered；再后一個(gè)數(shù)字代表著類別；最后一個(gè)數(shù)字代表著該目標(biāo)的可視度（遮擋或者處于圖像邊界會(huì)造成目標(biāo)部分不可見），值的范圍是 0~1，

MOTS

MOTS 是德國亞琛工業(yè)大學(xué)計(jì)算機(jī)視覺實(shí)驗(yàn)室在 2019 年發(fā)布的提出多目標(biāo)跟蹤與分割的網(wǎng)絡(luò) TrackR-CNN 的文章時(shí)一同發(fā)布的數(shù)據(jù)集。MOTS 數(shù)據(jù)集是基于 KITTI_Tracking 和 MOT_Challenge 重新標(biāo)注的多目標(biāo)跟蹤與分割數(shù)據(jù)集，是像素級(jí)別的數(shù)據(jù)集。目前只有行人和車輛兩個(gè)分類。其 GitHub 地址為mots_tools。下載地址為MOTS。

MOTs 數(shù)據(jù)集提供了 png 和 txt 兩種編碼格式。兩種格式中 id 值為 10000 都表示著忽略區(qū)域。

png 格式

png 格式具有 16 位的單顏色通道，可通過以下代碼讀取：

import PIL.Image as Image img = np.array(Image.open("000005.png")) obj_ids = np.unique(img) % to correctly interpret the id of a single object obj_id = obj_ids[0] class_id = obj_id // 1000 obj_instance_id = obj_id % 1000

或者采用 TensorFlow 時(shí)，可以采用如下代碼：

ann_data = tf.read_file(ann_filename) ann = tf.image.decode_image(ann_data, dtype=tf.uint16, channels=1)

txt 格式

txt 文件中的格式為 time_frame，id，class_id，img_height，img_width，rle，rle 為 COCO 中的編碼。
例如：

1 2029 2 1080 1920 kWn[19ZQ1;I0C>000000000000O13M5K2N00001O001O00001O1O005Df`b0

這代表著第 1 幀，目標(biāo) id 為 2029（分類 id 為 2，即行人；實(shí)例 id 為 29），圖片大小為 1080*1920。這種格式的文件也可以采用cocotools進(jìn)行解碼。

UA-DETRAC

UA-DETRAC 是一個(gè)車輛多目標(biāo)檢測和跟蹤的數(shù)據(jù)集。數(shù)據(jù)集包含了在中國北京和天津 24 個(gè)不同地點(diǎn)使用 Cannon EOS 550D 攝像機(jī)拍攝的 10 個(gè)小時(shí)的視頻。視頻以每秒 25 幀（fps）的速度錄制，分辨率為 960×540 像素。UA-DETRAC 數(shù)據(jù)集中有超過 14 萬個(gè)幀，并且有 8250 輛車進(jìn)行了手動(dòng)注釋，因此總共有 121 萬個(gè)帶標(biāo)簽的對(duì)象邊界框。下載地址為UA-DETRAC。數(shù)據(jù)集結(jié)構(gòu)如下：

數(shù)據(jù)集
- 訓(xùn)練集圖像（5.22GB，60 個(gè)序列）
- 測試集圖像（3.94GB，40 個(gè)序列）
檢測
- 訓(xùn)練集檢測（DPM, ACF, R-CNN, CompACT）
- 測試集檢測（DPM, ACF, R-CNN, CompACT）
注釋
- DETRAC-Train-Annotations-XML：包含帶有屬性信息（例如，車輛類別，天氣和比例）的完整注釋，該注釋用于檢測訓(xùn)練。
- DETRAC-Train-Annotations-MAT：包含數(shù)據(jù)集中忽略背景區(qū)域之外的目標(biāo)軌跡的位置信息，用于檢測和跟蹤評(píng)估。
- DETRAC-Train-Annotations-XML-v3：包含具有屬性信息（例如，車輛類別和顏色，天氣和比例）的改進(jìn)注釋，該注釋用于檢測，跟蹤和計(jì)數(shù)訓(xùn)練。
- DETRAC-Sequence-Locations：包含每個(gè)序列的特定位置信息（24 個(gè)不同的位置）。
- DETRAC-Test-Annotations-XML：包含具有屬性信息（例如，車輛類別，天氣和比例）的完整注釋，該注釋用于檢測訓(xùn)練。
- DETRAC-Test-Annotations-MAT：包含目標(biāo)軌跡在數(shù)據(jù)集中忽略背景區(qū)域之外的位置信息，用于檢測和跟蹤評(píng)估。

其中，DETRAC-Train-Annotations-XML 文件如下：

DETRAC-Train-Annotations-MAT 文件是.mat 格式存儲(chǔ)，只包含了目標(biāo)的邊界框。測試集的格式與訓(xùn)練集相同。

UA-DETRAC 數(shù)據(jù)集繪制之后的情況如下：

紅色框表示車輛完全可見，藍(lán)色框表示車輛被其他車輛遮擋，粉色礦表示車輛被背景部分遮擋。左下角為該段序列的天氣狀況、攝像機(jī)狀態(tài)和車輛密度的信息。

UA-DETRAC還提供了數(shù)據(jù)集的評(píng)估工具，有用于評(píng)估多目標(biāo)檢測的，也有用于多目標(biāo)跟蹤的。該工具包采用 Matlab 編程，可以用來繪制 PR 曲線。

WILDTRACK

該數(shù)據(jù)集采用七個(gè)具有重疊視場的高科技靜態(tài)定位相機(jī)獲取的，具有高度精確的聯(lián)合攝像機(jī)校準(zhǔn)以及視圖序列之間的同步。視頻的分辨率為 1920×1080 像素，以每秒 60 幀的速度拍攝。

數(shù)據(jù)集中包含：

以 10 幀/秒，1920×1080 分辨率的幀速率提取的同步幀，并經(jīng)過后處理來消除失真。

相機(jī)模型的校準(zhǔn)文件，與 OpenCV 庫中提供的投影功能兼容。

json 文件格式的地面注釋。

json 文件格式的 position 文件，方便注重于分類的算法使用。

下載地址在WILDTRACK。

NVIDIA AI CITY Challenge

NVIDIA AI CITY Challenge 是 NVIDIA 公司舉辦人工智能城市挑戰(zhàn)賽，分為四場比賽：運(yùn)動(dòng)車輛計(jì)數(shù)、車輛重識(shí)別、多目標(biāo)車輛跟蹤和交通異常檢測。每個(gè)比賽都提供了專用的數(shù)據(jù)集，其中可以用于車倆多目標(biāo)跟蹤的是 City-Scale Multi-Camera Vehicle Tracking。

此數(shù)據(jù)集大小為 15.7 個(gè) GB，包含 215.03 分鐘的視頻，這些視頻是從 46 個(gè)攝像機(jī)跨越美國中型城市的 16 個(gè)交叉路口收集到的。兩個(gè)最遠(yuǎn)的同時(shí)攝像頭之間的距離為 4km。該數(shù)據(jù)集涵蓋了多種位置類型，包括交叉路口，道路延伸和公路。數(shù)據(jù)集 1/2 為訓(xùn)練集，1/3 為驗(yàn)證集，1/6 是測試集。總體而言，數(shù)據(jù)集包含了近 38 萬個(gè)邊界框，用于 880 個(gè)不同的帶注釋的車輛標(biāo)識(shí)，并且僅注釋了通過至少 2 個(gè)攝像機(jī)的車輛。每個(gè)視頻的分辨率至少為 960p，大多數(shù)視頻的 FPS 為 10。此外，在每種情況下，每個(gè)視頻都可以使用從開始時(shí)間開始的偏移量來同步。

下載地址為NVIDIA AI CITY Challenge

VisDrone

VisoDrone 是一個(gè)規(guī)模很大的人工智能視覺領(lǐng)域的競賽，一般其提供的數(shù)據(jù)集是由無人機(jī)拍攝得到。以 VisDrone2020 為例，VisDrone2020 數(shù)據(jù)集由中國天津大學(xué)機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘?qū)嶒?yàn)室的 AISKYEYE 團(tuán)隊(duì)收集，由 265228 幀和包含 10209 靜態(tài)圖像的 400 個(gè)視頻片段組成，包含 260 萬個(gè)手動(dòng)注釋的 Bbox。這些視頻片段由各種安裝在無人機(jī)上的攝像機(jī)捕獲，涵蓋范圍廣泛，比如位置（取自中國數(shù)千個(gè)相距數(shù)千公里的 14 個(gè)不同城市）、環(huán)境（城市和鄉(xiāng)村）、物體（行人、車輛、自行車等）和密度（稀疏和擁擠的場景）。

比賽分為物體檢測、單目標(biāo)跟蹤、多目標(biāo)跟蹤和人群計(jì)數(shù)四個(gè)賽道。用于 MOT 的數(shù)據(jù)集為 96 個(gè)視頻序列，其中訓(xùn)練集為 56 個(gè)序列（24201 幀），驗(yàn)證集為 7 個(gè)序列（2819 幀），測試集為 33 個(gè)序列（12968 幀）。數(shù)據(jù)集除了標(biāo)注了 Bbox 以外，還有提供了遮擋率和截?cái)嗦省Ｕ趽趼蕿楸徽趽醯膶?duì)象比例。截?cái)嗦蕜t用于指示對(duì)象部分出現(xiàn)在圖像外部的程度。官方Github也提供了許多 VisDrone 的 API。

數(shù)據(jù)集下載地址為：

trainset(7.53GB): 百度云 | Google Drive
valset(1.48GB): 百度云 | Google Drive
testset-dev(2.14GB): 百度云 | Google Drive
testset-challenge(2.7GB): 百度云 | Google Drive

JTA Dataset

JTA(Joint Track Auto)數(shù)據(jù)集是通過利用高度寫實(shí)視頻游戲創(chuàng)造的城市環(huán)境下的用于行人姿態(tài)估計(jì)和跟蹤的大型數(shù)據(jù)集。數(shù)據(jù)集為 512 個(gè) 30 秒長的高清視頻序列（256 為訓(xùn)練集，256 為測試集），fps 為 30。在 ECCV2018 的論文 Learning to Detect and Track Visible and Occluded Body Joints in a Virtual World 中提出。獲取方法在JTA，需要發(fā)送郵件獲取 JTA-key 才能下載。

數(shù)據(jù)集分為視頻和標(biāo)注兩部分：

- annotations- train: 256 個(gè) json 文件- test： 128 個(gè) json 文件- val： 128 個(gè) json 文件 - videos- train： 256 個(gè)視頻- test： 128 個(gè)視頻- val： 128 個(gè)視頻

注釋的 json 文件中包含目標(biāo)的十個(gè)屬性：frame number（從 1 開始計(jì)數(shù)）、person ID、joint type、x2D、y2D、x3D、y3D、z3D、occluded（1 表示被遮擋）、self-occluded（1 表示被遮擋）。其中 2D 坐標(biāo)是相對(duì)于每一幀的左上角計(jì)算，3D 坐標(biāo)則是在標(biāo)準(zhǔn)的相機(jī)坐標(biāo)系中。

提供一個(gè)用于解析 JTA 數(shù)據(jù)集的項(xiàng)目，倉庫地址為JTA_tools，內(nèi)有將數(shù)據(jù)集轉(zhuǎn)化成圖像的腳本，也提供了注釋可視化的腳本。

Path Track

Path Track 數(shù)據(jù)集在 ICCV2017 的論文 PathTrack: Fast Trajectory Annotation with Path Supervision 中被提出，論文中還提出了一個(gè)新的框架來隊(duì)軌跡進(jìn)行注釋。數(shù)據(jù)集包含 720 個(gè)視頻序列，有著超過 15000 個(gè)人的軌跡。

上圖是 Path Track 數(shù)據(jù)集中的數(shù)據(jù)統(tǒng)計(jì)，圖 a 是相機(jī)的移動(dòng)情況，圖 b 是場景的分類及統(tǒng)計(jì)，圖 c 是多方面的數(shù)據(jù)統(tǒng)計(jì)。Path Track 的下載地址為Path Track。

TAO

CMU 等在今年提出了一個(gè)新的大型 MOT 數(shù)據(jù)集，TAO（Tracking Any Objects）。論文地址為TAO: A Large-Scale Benchmark for Tracking Any Object。目前，在多目標(biāo)跟蹤的領(lǐng)域中，類別大多只是行人和車輛。忽略了真實(shí)世界中的其他物體。眾所周知，COCO 等類別豐富的大規(guī)模數(shù)據(jù)集極大的促進(jìn)了目標(biāo)檢測領(lǐng)域的發(fā)展，故此，來自 CMU 等單位的學(xué)者們推出了一個(gè)類似 COCO 的類別多樣化的 MOT 數(shù)據(jù)集（TAO），用于跟蹤任何物體，以期為多目標(biāo)跟蹤領(lǐng)域的發(fā)展做出一些貢獻(xiàn)。
數(shù)據(jù)集包含 2907 段高分辨率的視頻序列，在各種環(huán)境中進(jìn)行捕獲，平均時(shí)長為半分鐘。

上圖是 TAO 中的類別形成的詞云，其大小按實(shí)例數(shù)量進(jìn)行加權(quán)，并根據(jù)其超類別進(jìn)行著色。

數(shù)據(jù)集的下載以及相關(guān)代碼的地址為TAO。

以下是駕駛場景下的數(shù)據(jù)集

KITTI-Tracking

KITTI 數(shù)據(jù)集由德國卡爾斯魯厄理工學(xué)院和豐田美國技術(shù)研究院聯(lián)合創(chuàng)辦，是目前國際上最大的自動(dòng)駕駛場景下的計(jì)算機(jī)視覺算法評(píng)測數(shù)據(jù)集。該數(shù)據(jù)集用于評(píng)測立體圖像(stereo)，光流(optical flow)，視覺測距(visual odometry)，3D 物體檢測(object detection)和 3D 跟蹤(tracking)等計(jì)算機(jī)視覺技術(shù)在車載環(huán)境下的性能。KITTI 包含市區(qū)、鄉(xiāng)村和高速公路等場景采集的真實(shí)圖像數(shù)據(jù)，每張圖像中最多達(dá) 15 輛車和 30 個(gè)行人，還有各種程度的遮擋與截?cái)唷Ｕ麄€(gè)數(shù)據(jù)集由 389 對(duì)立體圖像和光流圖，39.2km 視覺測距序列以及超過 200000 的 3D 標(biāo)注物體的圖像組成。總體上看，原始數(shù)據(jù)集被分類為’Road’, ’City’, ’Residential’, ’Campus’ 和 ’Person’。

其中，用于目標(biāo)跟蹤的數(shù)據(jù)集一共有 50 個(gè)視頻序列，21 個(gè)為訓(xùn)練集，29 個(gè)為測試集。下載地址為KITTI-Tracking，官網(wǎng)上提供了圖像、點(diǎn)云等多種形式的數(shù)據(jù)，還有地圖信息和相機(jī)信息。

APOLLOSCAPE

APOLLOSCAPE 是百度公司提供的自動(dòng)駕駛數(shù)據(jù)集，包括具有高分辨率圖像和每像素標(biāo)注的 RGB 視頻，具有語義分割的測量級(jí)密集 3D 點(diǎn)，立體視頻和全景圖像。數(shù)據(jù)集分為場景解析、車道分割、軌跡、目標(biāo)檢測/跟蹤等等若干個(gè)子數(shù)據(jù)集。

APOLLO Dection/Tracking

可用于多目標(biāo)跟蹤的是檢測/跟蹤子數(shù)據(jù)集，它是在各種照明條件和交通密度下于中國北京收集的。更具體地說，它包含了非常復(fù)雜的交通流，其中混雜著車輛，騎自行車的人和行人。其中大約 53 分鐘的視頻序列用于訓(xùn)練，50 分鐘的視頻序列用于測試。其下載地址為：APOLLOTracking。數(shù)據(jù)集文件夾結(jié)構(gòu)如下：

1. train.zip：激光雷達(dá)數(shù)據(jù)采用PCD（點(diǎn)云數(shù)據(jù)）格式，bin文件格式為2hz。 2. detection/ tracking_train_label.zip：此為標(biāo)簽數(shù)據(jù)- 每個(gè)文件都是 1 分鐘的序列。- 文件中每一行都有 frame_id, object_id, object_type, position_x, position_y, position_z, object_length, object_width, object_height, heading。其中 objec_type 只在跟蹤時(shí)使用。- 給出的位置信息是相對(duì)坐標(biāo)，單位是米。- head 值是相對(duì)于物體方向的轉(zhuǎn)向弧度。 3. test.zip：測試數(shù)據(jù) 4. pose.zip：lidar pose，數(shù)據(jù)格式為：frame*index, lidar_time, position*(x, y, z), quaternion\_(x, y, z ,w)，其中的 position 為絕對(duì)位置，在進(jìn)行跟蹤任務(wù)時(shí)使用。

官網(wǎng)還提供了評(píng)估所用的腳本metric。另有一個(gè)名為APOLLO Trajectory的用于軌跡預(yù)測的子數(shù)據(jù)集，視頻序列與上述子數(shù)據(jù)集相同，只是在標(biāo)注信息上面略有不同，也可以用于 MOT。

APOLLO MOTS

收錄于 ECCV2020 的論文 Segment as Points for Efficient
Online Multi-Object Tracking 中發(fā)布了一個(gè)新的數(shù)據(jù)集，其基于已公開的 APOLLISCAPE 數(shù)據(jù)集建立的，名為 APOLLO MOTS。下圖為論文中的表格，對(duì)比了 APOLLO MOTS 和 KITTI Tracking 數(shù)據(jù)集。

不過該數(shù)據(jù)集尚未公開。

評(píng)估指標(biāo)

多目標(biāo)跟蹤（MOT）方法的評(píng)價(jià)指標(biāo)是至關(guān)重要的，因?yàn)樗鼈児降囟康乇容^了不同算法的優(yōu)劣。

首先，P 是 Positive，N 是 Negative，P 和 N 表示模型的判斷結(jié)果；T 是 True，F 是 False，T 和 F 表示模型的判斷結(jié)果是否正確。所以可以得到：

FP：假正例
FN：假負(fù)例
TP：真正例
TN：真負(fù)例

所以，Accuracy、Recall 和 Precision 分別表示為：
$\over {TP + TN + FP + FN}}$
$\over {TP + FN}} = TPR$
$\over {TP + FP}}$
$\over {TP + FN}}$
$\over {TP + FP}}$
三個(gè)指標(biāo)中最直接的便是準(zhǔn)確率（Accuracy），即模型判斷正確的數(shù)據(jù)占總數(shù)據(jù)的比例。召回率（Recall）是針對(duì)數(shù)據(jù)集中的所有正例而言,即模型正確判斷出的正例占數(shù)據(jù)集中所有正例的比例，召回率與真正類率（TPR，True Positive Rate）是相同的。精確率（Precision）是針對(duì)模型判斷出的所有正例而言,即真正例占的比率，精確率也叫查準(zhǔn)率,以目標(biāo)檢測為例,精確率高表示模型檢測出的目標(biāo)中大部分確實(shí)是目標(biāo),只有少量不是目標(biāo)的對(duì)象被當(dāng)成目標(biāo)。MA（missing alarm）反映了有多少個(gè)正例被漏判了。FA（false alarm）反映了被判斷為正例的樣本中，有多少其實(shí)是負(fù)例。
在一定程度上來說，Precision 和 Recall 是“對(duì)立”的，當(dāng) IoU（Intersection of Union）的判別閾值增大時(shí)（IoU 更大的才被判別為正例），Precision 會(huì)增大，而 Recall 會(huì)減小；當(dāng) IoU 閾值減小時(shí)，Precision 會(huì)減小，而 Recall 會(huì)增大。也就是說，不同的 Recall 值對(duì)應(yīng)著不同的 Precision 值，以 Recall 值為橫坐標(biāo)，以 Precision 為縱坐標(biāo)，把取不同閾值時(shí)的結(jié)果畫到圖上，就得到了下圖中的 PR 曲線。

計(jì)算不同 Recall 值下的 Precision 值的平均值，便可以得到 AP（Average Precision）。AP 衡量的是模型在某一類別上的好壞，而 mAP 衡量的是模型在所有類別上的好壞，即求出每個(gè)類別的 AP，再求其平均值，變得到了 mAP。

在 MOT 中，IDs（ID switch）和 FM（fragmentation）也是很重要的指標(biāo)：

IDs：每一次跟蹤的 GT（ground truth）目標(biāo) ID 發(fā)生一次錯(cuò)誤的變化記為一次 ID switch，其次數(shù)即為 IDs
FM：每一個(gè)跟蹤的 GT 軌跡發(fā)生一次斷開并恢復(fù)稱為一次 fragmentation，其次數(shù)即為 FM

從上述的幾個(gè)指標(biāo)可以計(jì)算出更為精確的評(píng)價(jià) MOT 模型的指標(biāo) MOTA（Multiple Object Tracking Accuracy）：
${\sum_t(FN + FP + IDs)\over \sum_t gt}$

這里的 t 代表著幀數(shù) t，MOTA 的值域?yàn)?span id="ozvdkddzhkzd" class="katex--inline"> $(?∞,1](-\infty,1]$ 。值得注意的是 MOTA 是可能為負(fù)值的，因?yàn)樗惴òl(fā)生的錯(cuò)誤是可能多于 ground truth 中的 Bbox 數(shù)量。另一個(gè)指標(biāo) MOTP（Multiple Object Tracking Precision）有時(shí)也可以取代 MOTA，它代表著 MOT 的精確度，體現(xiàn)在確定目標(biāo)位置上的精確度，用于衡量目標(biāo)位置確定的精確程度：
${\sum_{t,i}d_t^i \over \sum_tc_t }$

其中， $c_t$ 表示第 $t$ 幀中模型預(yù)測與 ground truth 的匹配的個(gè)數(shù)， $d_t^i$ 表示第 t 幀中目標(biāo) i 與模型預(yù)測出的位置的歐氏距離，即匹配誤差。

MOTA 和 MOTP 共同衡量著算法連續(xù)跟蹤目標(biāo)的能力。而對(duì)于目標(biāo) ID 方面，除了最基本的 IDs，還有其他幾個(gè)指標(biāo)，比如 IDP（Identification precision)、IDR（Identification recall）和 IDF1（Identification F1）也很重要：
$\over {IDTP + IDFP}}$
$\over {IDTP + IDFN}}$
$\over {{1 \over IDP} + {1 \over IDR}}} = {2IDTP \over {2IDTP + IDFP + IDFN}}$

顧名思義，上述三個(gè)指標(biāo)即為目標(biāo) ID 方面的精確率、召回率和 F1 指標(biāo)。下面提到的三個(gè)指標(biāo)，是用來對(duì)模型預(yù)測的目標(biāo)整段軌跡進(jìn)行衡量的。

MT：跟蹤器預(yù)測出來的軌跡占 ground truth 的 80%以上的比例
ML：跟蹤器預(yù)測出來的軌跡占 ground truth 的 20%以下的比例
PT： $P T = 1.0 ? M T ? M L$

下面再列舉一些并不常用的指標(biāo)：

MODA：Multi-Object Detection Accuracy
MODP：Multi-Object Detection Precision
FPPI： $\over N}$ ,其中 N 代表著總幀數(shù)
TDE：跟蹤器預(yù)測結(jié)果與 ground truth 中的注釋的距離（用于計(jì)算 MOTP）
OSPA：預(yù)測結(jié)果與 ground truth 之間的基數(shù)誤差和空間距離
RS：較短遮擋后正確恢復(fù)的軌跡所占的比例
RL：長時(shí)間遮擋后正確恢復(fù)的軌跡所占的比例

另：清華大學(xué)和曠視在CVPR2020發(fā)表了一篇論文SQE: a Self Quality Evaluation Metric for Parameters Optimization in Multi-Object Tracking，提出了一種新的MOT評(píng)判指標(biāo)SQE。
$\over {n + k_1 * L + k_2 * (fp + dif + sim)}}$
其中，n為軌跡的數(shù)量，L為軌跡的平均長度。
算法的主要流程如圖：

主要分為4個(gè)步驟：

把軌跡短、標(biāo)準(zhǔn)差大的軌跡標(biāo)為虛警，記作fp進(jìn)行累加；

對(duì)于其他軌跡，使用一個(gè)兩類高斯混合模型擬合類內(nèi)距離，并根據(jù)均值差判斷是否屬于低質(zhì)量軌跡。如果均值差超過特定閾值，則認(rèn)為該軌跡包含不止一個(gè)目標(biāo)，記作差別錯(cuò)誤dif進(jìn)行累加；

類似地處理任意兩條非虛警軌跡的類間距離。如果均值差較大，則認(rèn)為匹配了相同的目標(biāo)，記作相似錯(cuò)誤sim進(jìn)行累加；

同時(shí)也考慮其他內(nèi)部特征，比如軌跡假設(shè)的數(shù)量n與平均長度L。

$k_1$ 用來適應(yīng)跟蹤對(duì)象的移動(dòng)速度和密度，比如在街景上的行人跟蹤中， $k_1$ 取1比較合適。 $k_2$ 用來調(diào)節(jié)n、L以及error之間的比例。

Evaluation code

基準(zhǔn)結(jié)果

MOT領(lǐng)域大部分Benchmark都可以在MOT Challenge官網(wǎng)找到，下文的表格整理自MOT Challenge官網(wǎng)，只包含發(fā)表論文的成果，大多數(shù)為online方法。

MOT16

排名模型MOTA論文年份

1	FairMOT	68.7	A Simple Baseline for Multi-Object Tracking	2020
2	JDE	64.4	Towards Real-Time Multi-Object Tracking	2019
3	Lif_T	61.3	Lifted Disjoint Paths with Application in Multiple Object Tracking	2020
4	MPNTrack	58.6	Learning a Neural Solver for Multiple Object Tracking	2020
5	DeepMOT-Tracktor	54.8	How To Train Your Deep Multi-Object Tracker	2019
6	TNT	49.2	Exploit the Connectivity: Multi-Object Tracking with TrackletNet	2018
7	GCRA	48.2	Trajectory Factory: Tracklet Cleaving and Re-connection by Deep Siamese Bi-GRU for Multiple Object Tracking	2018
8	FWT	47.8	Fusion of Head and Full-Body Detectors for Multi-Object Tracking	2017
9	MOTDT	47.6	Real-time Multiple People Tracking with Deeply Learned Candidate Selection and Person Re-Identification	2018
10	NOMT	46.4	Near-Online Multi-target Tracking with Aggregated Local Flow Descriptor	2015
11	DMMOT	46.1	Online Multi-Object Tracking with Dual Matching Attention Networks	2019

MOT17

排名模型MOTA論文年份

1	FairMOT	67.5	A Simple Baseline for Multi-Object Tracking	2020
2	Lif_T	60.5	Lifted Disjoint Paths with Application in Multiple Object Tracking	2020
3	MPNTrack	58.8	Learning a Neural Solver for Multiple Object Tracking	2020
4	DeepMOT	53.7	How To Train Your Deep Multi-Object Tracker	2019
5	JBNOT	52.6	Multiple People Tracking using Body and Joint Detections	2019
6	TNT	51.9	Exploit the Connectivity: Multi-Object Tracking with TrackletNet	2018
7	FWT	51.3	Fusion of Head and Full-Body Detectors for Multi-Object Tracking	2017
8	MOTDT17	50.9	Real-time Multiple People Tracking with Deeply Learned Candidate Selection and Person Re-Identification	2018

MOT20

排名模型MOTA論文年份

1	FairMOT	61.8	A Simple Baseline for Multi-Object Tracking	2020
2	UnsupTrack	53.6	Simple Unsupervised Multi-Object Tracking	2020

總結(jié)

以上是生活随笔為你收集整理的多目标跟踪资源整理的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

编程问答

多目标跟踪资源整理

文章目錄

綜述論文

算法論文

2020

2019

2018

2017

2016

數(shù)據(jù)集

PETS 2009 Benchmark Data

MOT Challenge

MOT20

MOTS

UA-DETRAC

WILDTRACK

NVIDIA AI CITY Challenge

VisDrone

JTA Dataset

Path Track

TAO

KITTI-Tracking

APOLLOSCAPE

APOLLO Dection/Tracking

APOLLO MOTS

評(píng)估指標(biāo)

基準(zhǔn)結(jié)果

MOT16

MOT17

MOT20

總結(jié)