多目标跟踪资源整理
本文是對(duì)到2020年多目標(biāo)跟蹤領(lǐng)域的資源進(jìn)行了整理并開源,包括論文、數(shù)據(jù)集、評(píng)估指標(biāo)、基準(zhǔn)結(jié)果、工具箱及相關(guān)課程。本博文將不再更新,最新的資源如新發(fā)布的論文,可以訪問下面的Github倉庫,我們會(huì)不斷更新,也歡迎star和fork。https://github.com/luanshiyinyang/awesome-multiple-object-tracking
文章目錄
- 綜述論文
- 算法論文
- 2020
- 2019
- 2018
- 2017
- 2016
- 數(shù)據(jù)集
- PETS 2009 Benchmark Data
- MOT Challenge
- MOT20
- MOTS
- UA-DETRAC
- WILDTRACK
- NVIDIA AI CITY Challenge
- VisDrone
- JTA Dataset
- Path Track
- TAO
- KITTI-Tracking
- APOLLOSCAPE
- APOLLO Dection/Tracking
- APOLLO MOTS
- 評(píng)估指標(biāo)
- 基準(zhǔn)結(jié)果
- MOT16
- MOT17
- MOT20
綜述論文
Multiple Object Tracking: A Literature Review [paper]
Deep Learning in Video Multi-Object Tracking: A Survey [paper]
Tracking the Trackers: An Analysis of the State of the Art in Multiple Object Tracking [paper]
算法論文
2020
DMM-Net: Simultaneous Detection and Tracking with Motion Modelling for Multiple Object Tracking [code][paper]
SoDA: SoDA: Multi-Object Tracking with Soft Data Association [[code]][paper]
CTracker: Chained-Tracker: Chaining Paired Attentive Regression Results for End-to-End Joint Multiple-Object Detection and Tracking [code][paper]
MPNTracker: Learning a Neural Solver for Multiple Object Tracking [code][paper]
UMA: A Unified Object Motion and Affinity Model for Online Multi-Object Tracking [code][paper]
RetinaTrack: Online Single Stage Joint Detection and Tracking [[code]][paper]
FairMOT: A Simple Baseline for Multi-Object Tracking [code][paper]
TubeTK: TubeTK: Adopting Tubes to Track Multi-Object in a One-Step Training Model [code][paper]
CenterTrack: Tracking Objects as Points [code][paper]
PointTrack: Segment as points for efficient online multi-object tracking and segmentation [code][paper]
PointTrack++: PointTrack++ for Effective Online Multi-Object Tracking and Segmentation [code][paper]
FFT: Multiple Object Tracking by Flowing and Fusing [paper]
MIFT: Refinements in Motion and Appearance for Online Multi-Object Tracking [code][paper]
EDA_GNN: Graph Neural Based End-to-end Data Association Framework for Online Multiple-Object Tracking [code][paper]
GNMOT: Graph Networks for Multiple Object Tracking [code][paper]
2019
Tracktor/Tracktor++: Tracking without bells and whistles [code][paper]
DeepMOT: How To Train Your Deep Multi-Object Tracker [code][paper]
JDE: Towards Real-Time Multi-Object Tracking [code][paper]
MOTS: MOTS: Multi-Object Tracking and Segmentation[paper]
FANTrack: FANTrack: 3D Multi-Object Tracking with Feature Association Network [code][paper]
FAMNet: Joint Learning of Feature, Affinity and Multi-dimensional Assignment for Online Multiple Object Tracking[paper]
2018
DeepCC: Features for Multi-Target Multi-Camera Tracking and Re-Identification [paper]
SADF: Online Multi-Object Tracking with Historical Appearance Matching and Scene Adaptive Detection Filtering [paper]
DAN: Deep Affinity Network for Multiple Object Tracking [code][paper]
DMAN: Online Multi-Object Tracking with Dual Matching Attention Networks [code][paper]
MOTBeyondPixels: Beyond Pixels: Leveraging Geometry and Shape Cues for Online Multi-Object Tracking [code][paper]
MOTDT: Real-time Multiple People Tracking with Deeply Learned Candidate Selection and Person Re-Identification [code][paper]
DetTA: Detection-Tracking for Efficient Person Analysis: The DetTA Pipeline [code][paper]
V-IOU: Extending IOU Based Multi-Object Tracking by Visual Information [code][paper]
2017
DeepSORT: Simple Online and Realtime Tracking with a Deep Association Metric [code][paper]
NMGC-MOT: Non-Markovian Globally Consistent Multi-Object Tracking [code][paper]
IOUTracker: High-Speed tracking-by-detection without using image information [code][paper]
RNN_LSTM: Online Multi-Target Tracking Using Recurrent Neural Networks [code][paper]
D2T: Detect to Track and Track to Detect [code][paper]
RCMSS: Online multi-object tracking via robust collaborative model and sample selection [paper]
towards-reid-tracking: Towards a Principled Integration of Multi-Camera Re-Identification and Tracking through Optimal Bayes Filters [code][paper]
CIWT: Combined image-and world-space tracking in traffic scenes [code][paper]
2016
SORT: Simple online and realtime tracking [code][paper]
POI: POI: Multiple Object Tracking with High Performance Detection and Appearance Feature [code]
數(shù)據(jù)集
以下是監(jiān)控視角下的數(shù)據(jù)集
PETS 2009 Benchmark Data
該數(shù)據(jù)集是一個(gè)較老的數(shù)據(jù)集,發(fā)布與 2009 年,是包含不同人群活動(dòng)的多傳感器序列,可以用于估計(jì)人群人數(shù)和密度,跟蹤人群中的個(gè)人以及檢測流量和人群事件。
數(shù)據(jù)集具體結(jié)構(gòu)如下:
可用于多目標(biāo)跟蹤的是 S2 部分,從 L1 到 L3,人群密度逐漸增大,困難程度變大。但在處理多個(gè)視圖的時(shí)候,需要用到相機(jī)校正數(shù)據(jù),將每個(gè)人的 2D 邊界框投影到其他視圖中。
下載地址為PETS 2009 Benchmark Data
MOT Challenge
MOT Challenge 是多目標(biāo)跟蹤方向一個(gè)很有影響力的比賽,專注于行人跟蹤。其從 2015 年開始提供用于行人跟蹤的數(shù)據(jù)集,至今包含 2D MOT 2015、MOT16、MOT17、MOT20、MOTs。還有用于檢測的 MOT17Det 和 MOT20Det,以及用于石斑魚跟蹤的 3D-ZeF20。
MOT20
用最新的 MOT20 舉例,MOT20 包含 4 組訓(xùn)練用的序列以及 4 組測試用的序列。下載地址為MOT20。
MOT 的標(biāo)簽文件分為用于檢測的標(biāo)簽和 ground truth 兩種,均為 txt 格式存儲(chǔ)。首先是用于檢測的標(biāo)簽,其標(biāo)注格式為:
<frame>, <id>, <bb_left>, <bb_top>, <bb_width>, <bb_height>, <conf>, <x>, <y>, <z>
例如:
第一個(gè)數(shù)字是代表幀數(shù);第二個(gè)數(shù)字-1,意味著沒有分配 ID;隨后的兩個(gè)數(shù)字分別是 Bbox 的左上角點(diǎn)的坐標(biāo);再接著的兩個(gè)數(shù)字是 Bbox 的 w 和 h;后一個(gè)數(shù)字表示的是置信度;最后三個(gè)-1 對(duì)檢測文件來說沒有意義。
ground truth 的標(biāo)注格式為:
<frame>, <id>, <bb_left>, <bb_top>, <bb_width>, <bb_height>, <0/1>, <cls>, <vis>
例如:
第一個(gè)數(shù)字依舊代表著幀數(shù);第二個(gè)數(shù)字是該 Bbox 的 ID;后面四個(gè)數(shù)字是 Bbox 的位置以及大小信息,同上;后一個(gè)數(shù)字表示的也是置信度,0 代表著 ignored,1 代表著 considered;再后一個(gè)數(shù)字代表著類別;最后一個(gè)數(shù)字代表著該目標(biāo)的可視度(遮擋或者處于圖像邊界會(huì)造成目標(biāo)部分不可見),值的范圍是 0~1,
MOTS
MOTS 是德國亞琛工業(yè)大學(xué)計(jì)算機(jī)視覺實(shí)驗(yàn)室在 2019 年發(fā)布的提出多目標(biāo)跟蹤與分割的網(wǎng)絡(luò) TrackR-CNN 的文章時(shí)一同發(fā)布的數(shù)據(jù)集。MOTS 數(shù)據(jù)集是基于 KITTI_Tracking 和 MOT_Challenge 重新標(biāo)注的多目標(biāo)跟蹤與分割數(shù)據(jù)集,是像素級(jí)別的數(shù)據(jù)集。目前只有行人和車輛兩個(gè)分類。其 GitHub 地址為mots_tools。下載地址為MOTS。
MOTs 數(shù)據(jù)集提供了 png 和 txt 兩種編碼格式。兩種格式中 id 值為 10000 都表示著忽略區(qū)域。
png 格式
png 格式具有 16 位的單顏色通道,可通過以下代碼讀取:
或者采用 TensorFlow 時(shí),可以采用如下代碼:
ann_data = tf.read_file(ann_filename) ann = tf.image.decode_image(ann_data, dtype=tf.uint16, channels=1)txt 格式
txt 文件中的格式為 time_frame,id,class_id,img_height,img_width,rle,rle 為 COCO 中的編碼。
例如:
1 2029 2 1080 1920 kWn[19ZQ1;I0C>000000000000O13M5K2N00001O001O00001O1O005Df`b0
這代表著第 1 幀,目標(biāo) id 為 2029(分類 id 為 2,即行人;實(shí)例 id 為 29),圖片大小為 1080*1920。這種格式的文件也可以采用cocotools進(jìn)行解碼。
UA-DETRAC
UA-DETRAC 是一個(gè)車輛多目標(biāo)檢測和跟蹤的數(shù)據(jù)集。數(shù)據(jù)集包含了在中國北京和天津 24 個(gè)不同地點(diǎn)使用 Cannon EOS 550D 攝像機(jī)拍攝的 10 個(gè)小時(shí)的視頻。視頻以每秒 25 幀(fps)的速度錄制,分辨率為 960×540 像素。UA-DETRAC 數(shù)據(jù)集中有超過 14 萬個(gè)幀,并且有 8250 輛車進(jìn)行了手動(dòng)注釋,因此總共有 121 萬個(gè)帶標(biāo)簽的對(duì)象邊界框。下載地址為UA-DETRAC。數(shù)據(jù)集結(jié)構(gòu)如下:
- 數(shù)據(jù)集
- 訓(xùn)練集圖像(5.22GB,60 個(gè)序列)
- 測試集圖像(3.94GB,40 個(gè)序列)
- 檢測
- 訓(xùn)練集檢測(DPM, ACF, R-CNN, CompACT)
- 測試集檢測(DPM, ACF, R-CNN, CompACT)
- 注釋
- DETRAC-Train-Annotations-XML:包含帶有屬性信息(例如,車輛類別,天氣和比例)的完整注釋,該注釋用于檢測訓(xùn)練。
- DETRAC-Train-Annotations-MAT:包含數(shù)據(jù)集中忽略背景區(qū)域之外的目標(biāo)軌跡的位置信息,用于檢測和跟蹤評(píng)估。
- DETRAC-Train-Annotations-XML-v3:包含具有屬性信息(例如,車輛類別和顏色,天氣和比例)的改進(jìn)注釋,該注釋用于檢測,跟蹤和計(jì)數(shù)訓(xùn)練。
- DETRAC-Sequence-Locations:包含每個(gè)序列的特定位置信息(24 個(gè)不同的位置)。
- DETRAC-Test-Annotations-XML:包含具有屬性信息(例如,車輛類別,天氣和比例)的完整注釋,該注釋用于檢測訓(xùn)練。
- DETRAC-Test-Annotations-MAT:包含目標(biāo)軌跡在數(shù)據(jù)集中忽略背景區(qū)域之外的位置信息,用于檢測和跟蹤評(píng)估。
其中,DETRAC-Train-Annotations-XML 文件如下:
DETRAC-Train-Annotations-MAT 文件是.mat 格式存儲(chǔ),只包含了目標(biāo)的邊界框。測試集的格式與訓(xùn)練集相同。
UA-DETRAC 數(shù)據(jù)集繪制之后的情況如下:
紅色框表示車輛完全可見,藍(lán)色框表示車輛被其他車輛遮擋,粉色礦表示車輛被背景部分遮擋。左下角為該段序列的天氣狀況、攝像機(jī)狀態(tài)和車輛密度的信息。
UA-DETRAC還提供了數(shù)據(jù)集的評(píng)估工具,有用于評(píng)估多目標(biāo)檢測的,也有用于多目標(biāo)跟蹤的。該工具包采用 Matlab 編程,可以用來繪制 PR 曲線。
WILDTRACK
該數(shù)據(jù)集采用七個(gè)具有重疊視場的高科技靜態(tài)定位相機(jī)獲取的,具有高度精確的聯(lián)合攝像機(jī)校準(zhǔn)以及視圖序列之間的同步。視頻的分辨率為 1920×1080 像素,以每秒 60 幀的速度拍攝。
數(shù)據(jù)集中包含:
下載地址在WILDTRACK。
NVIDIA AI CITY Challenge
NVIDIA AI CITY Challenge 是 NVIDIA 公司舉辦人工智能城市挑戰(zhàn)賽,分為四場比賽:運(yùn)動(dòng)車輛計(jì)數(shù)、車輛重識(shí)別、多目標(biāo)車輛跟蹤和交通異常檢測。每個(gè)比賽都提供了專用的數(shù)據(jù)集,其中可以用于車倆多目標(biāo)跟蹤的是 City-Scale Multi-Camera Vehicle Tracking。
此數(shù)據(jù)集大小為 15.7 個(gè) GB,包含 215.03 分鐘的視頻,這些視頻是從 46 個(gè)攝像機(jī)跨越美國中型城市的 16 個(gè)交叉路口收集到的。兩個(gè)最遠(yuǎn)的同時(shí)攝像頭之間的距離為 4km。該數(shù)據(jù)集涵蓋了多種位置類型,包括交叉路口,道路延伸和公路。數(shù)據(jù)集 1/2 為訓(xùn)練集,1/3 為驗(yàn)證集,1/6 是測試集。總體而言,數(shù)據(jù)集包含了近 38 萬個(gè)邊界框,用于 880 個(gè)不同的帶注釋的車輛標(biāo)識(shí),并且僅注釋了通過至少 2 個(gè)攝像機(jī)的車輛。每個(gè)視頻的分辨率至少為 960p,大多數(shù)視頻的 FPS 為 10。此外,在每種情況下,每個(gè)視頻都可以使用從開始時(shí)間開始的偏移量來同步。
下載地址為NVIDIA AI CITY Challenge
VisDrone
VisoDrone 是一個(gè)規(guī)模很大的人工智能視覺領(lǐng)域的競賽,一般其提供的數(shù)據(jù)集是由無人機(jī)拍攝得到。以 VisDrone2020 為例,VisDrone2020 數(shù)據(jù)集由中國天津大學(xué)機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘?qū)嶒?yàn)室的 AISKYEYE 團(tuán)隊(duì)收集,由 265228 幀和包含 10209 靜態(tài)圖像的 400 個(gè)視頻片段組成,包含 260 萬個(gè)手動(dòng)注釋的 Bbox。這些視頻片段由各種安裝在無人機(jī)上的攝像機(jī)捕獲,涵蓋范圍廣泛,比如位置(取自中國數(shù)千個(gè)相距數(shù)千公里的 14 個(gè)不同城市)、環(huán)境(城市和鄉(xiāng)村)、物體(行人、車輛、自行車等)和密度(稀疏和擁擠的場景)。
比賽分為物體檢測、單目標(biāo)跟蹤、多目標(biāo)跟蹤和人群計(jì)數(shù)四個(gè)賽道。用于 MOT 的數(shù)據(jù)集為 96 個(gè)視頻序列,其中訓(xùn)練集為 56 個(gè)序列(24201 幀),驗(yàn)證集為 7 個(gè)序列(2819 幀),測試集為 33 個(gè)序列(12968 幀)。數(shù)據(jù)集除了標(biāo)注了 Bbox 以外,還有提供了遮擋率和截?cái)嗦省U趽趼蕿楸徽趽醯膶?duì)象比例。截?cái)嗦蕜t用于指示對(duì)象部分出現(xiàn)在圖像外部的程度。官方Github也提供了許多 VisDrone 的 API。
數(shù)據(jù)集下載地址為:
- trainset(7.53GB): 百度云 | Google Drive
- valset(1.48GB): 百度云 | Google Drive
- testset-dev(2.14GB): 百度云 | Google Drive
- testset-challenge(2.7GB): 百度云 | Google Drive
JTA Dataset
JTA(Joint Track Auto)數(shù)據(jù)集是通過利用高度寫實(shí)視頻游戲創(chuàng)造的城市環(huán)境下的用于行人姿態(tài)估計(jì)和跟蹤的大型數(shù)據(jù)集。數(shù)據(jù)集為 512 個(gè) 30 秒長的高清視頻序列(256 為訓(xùn)練集,256 為測試集),fps 為 30。在 ECCV2018 的論文 Learning to Detect and Track Visible and Occluded Body Joints in a Virtual World 中提出。獲取方法在JTA,需要發(fā)送郵件獲取 JTA-key 才能下載。
數(shù)據(jù)集分為視頻和標(biāo)注兩部分:
- annotations- train: 256 個(gè) json 文件- test: 128 個(gè) json 文件- val: 128 個(gè) json 文件 - videos- train: 256 個(gè)視頻- test: 128 個(gè)視頻- val: 128 個(gè)視頻注釋的 json 文件中包含目標(biāo)的十個(gè)屬性:frame number(從 1 開始計(jì)數(shù))、person ID、joint type、x2D、y2D、x3D、y3D、z3D、occluded(1 表示被遮擋)、self-occluded(1 表示被遮擋)。其中 2D 坐標(biāo)是相對(duì)于每一幀的左上角計(jì)算,3D 坐標(biāo)則是在標(biāo)準(zhǔn)的相機(jī)坐標(biāo)系中。
提供一個(gè)用于解析 JTA 數(shù)據(jù)集的項(xiàng)目,倉庫地址為JTA_tools,內(nèi)有將數(shù)據(jù)集轉(zhuǎn)化成圖像的腳本,也提供了注釋可視化的腳本。
Path Track
Path Track 數(shù)據(jù)集在 ICCV2017 的論文 PathTrack: Fast Trajectory Annotation with Path Supervision 中被提出,論文中還提出了一個(gè)新的框架來隊(duì)軌跡進(jìn)行注釋。數(shù)據(jù)集包含 720 個(gè)視頻序列,有著超過 15000 個(gè)人的軌跡。
上圖是 Path Track 數(shù)據(jù)集中的數(shù)據(jù)統(tǒng)計(jì),圖 a 是相機(jī)的移動(dòng)情況,圖 b 是場景的分類及統(tǒng)計(jì),圖 c 是多方面的數(shù)據(jù)統(tǒng)計(jì)。Path Track 的下載地址為Path Track。
TAO
CMU 等在今年提出了一個(gè)新的大型 MOT 數(shù)據(jù)集,TAO(Tracking Any Objects)。論文地址為TAO: A Large-Scale Benchmark for Tracking Any Object。目前,在多目標(biāo)跟蹤的領(lǐng)域中,類別大多只是行人和車輛。忽略了真實(shí)世界中的其他物體。眾所周知,COCO 等類別豐富的大規(guī)模數(shù)據(jù)集極大的促進(jìn)了目標(biāo)檢測領(lǐng)域的發(fā)展,故此,來自 CMU 等單位的學(xué)者們推出了一個(gè)類似 COCO 的類別多樣化的 MOT 數(shù)據(jù)集(TAO),用于跟蹤任何物體,以期為多目標(biāo)跟蹤領(lǐng)域的發(fā)展做出一些貢獻(xiàn)。
數(shù)據(jù)集包含 2907 段高分辨率的視頻序列,在各種環(huán)境中進(jìn)行捕獲,平均時(shí)長為半分鐘。
上圖是 TAO 中的類別形成的詞云,其大小按實(shí)例數(shù)量進(jìn)行加權(quán),并根據(jù)其超類別進(jìn)行著色。
數(shù)據(jù)集的下載以及相關(guān)代碼的地址為TAO。
以下是駕駛場景下的數(shù)據(jù)集
KITTI-Tracking
KITTI 數(shù)據(jù)集由德國卡爾斯魯厄理工學(xué)院和豐田美國技術(shù)研究院聯(lián)合創(chuàng)辦,是目前國際上最大的自動(dòng)駕駛場景下的計(jì)算機(jī)視覺算法評(píng)測數(shù)據(jù)集。該數(shù)據(jù)集用于評(píng)測立體圖像(stereo),光流(optical flow),視覺測距(visual odometry),3D 物體檢測(object detection)和 3D 跟蹤(tracking)等計(jì)算機(jī)視覺技術(shù)在車載環(huán)境下的性能。KITTI 包含市區(qū)、鄉(xiāng)村和高速公路等場景采集的真實(shí)圖像數(shù)據(jù),每張圖像中最多達(dá) 15 輛車和 30 個(gè)行人,還有各種程度的遮擋與截?cái)唷U麄€(gè)數(shù)據(jù)集由 389 對(duì)立體圖像和光流圖,39.2km 視覺測距序列以及超過 200000 的 3D 標(biāo)注物體的圖像組成。總體上看,原始數(shù)據(jù)集被分類為’Road’, ’City’, ’Residential’, ’Campus’ 和 ’Person’。
其中,用于目標(biāo)跟蹤的數(shù)據(jù)集一共有 50 個(gè)視頻序列,21 個(gè)為訓(xùn)練集,29 個(gè)為測試集。下載地址為KITTI-Tracking,官網(wǎng)上提供了圖像、點(diǎn)云等多種形式的數(shù)據(jù),還有地圖信息和相機(jī)信息。
APOLLOSCAPE
APOLLOSCAPE 是百度公司提供的自動(dòng)駕駛數(shù)據(jù)集,包括具有高分辨率圖像和每像素標(biāo)注的 RGB 視頻,具有語義分割的測量級(jí)密集 3D 點(diǎn),立體視頻和全景圖像。數(shù)據(jù)集分為場景解析、車道分割、軌跡、目標(biāo)檢測/跟蹤等等若干個(gè)子數(shù)據(jù)集。
APOLLO Dection/Tracking
可用于多目標(biāo)跟蹤的是檢測/跟蹤子數(shù)據(jù)集,它是在各種照明條件和交通密度下于中國北京收集的。更具體地說,它包含了非常復(fù)雜的交通流,其中混雜著車輛,騎自行車的人和行人。其中大約 53 分鐘的視頻序列用于訓(xùn)練,50 分鐘的視頻序列用于測試。其下載地址為:APOLLOTracking。數(shù)據(jù)集文件夾結(jié)構(gòu)如下:
1. train.zip:激光雷達(dá)數(shù)據(jù)采用PCD(點(diǎn)云數(shù)據(jù))格式,bin文件格式為2hz。 2. detection/ tracking_train_label.zip:此為標(biāo)簽數(shù)據(jù)- 每個(gè)文件都是 1 分鐘的序列。- 文件中每一行都有 frame_id, object_id, object_type, position_x, position_y, position_z, object_length, object_width, object_height, heading。其中 objec_type 只在跟蹤時(shí)使用。- 給出的位置信息是相對(duì)坐標(biāo),單位是米。- head 值是相對(duì)于物體方向的轉(zhuǎn)向弧度。 3. test.zip:測試數(shù)據(jù) 4. pose.zip:lidar pose,數(shù)據(jù)格式為:frame*index, lidar_time, position*(x, y, z), quaternion\_(x, y, z ,w),其中的 position 為絕對(duì)位置,在進(jìn)行跟蹤任務(wù)時(shí)使用。
官網(wǎng)還提供了評(píng)估所用的腳本metric。另有一個(gè)名為APOLLO Trajectory的用于軌跡預(yù)測的子數(shù)據(jù)集,視頻序列與上述子數(shù)據(jù)集相同,只是在標(biāo)注信息上面略有不同,也可以用于 MOT。
APOLLO MOTS
收錄于 ECCV2020 的論文 Segment as Points for Efficient
Online Multi-Object Tracking 中發(fā)布了一個(gè)新的數(shù)據(jù)集,其基于已公開的 APOLLISCAPE 數(shù)據(jù)集建立的,名為 APOLLO MOTS。下圖為論文中的表格,對(duì)比了 APOLLO MOTS 和 KITTI Tracking 數(shù)據(jù)集。
不過該數(shù)據(jù)集尚未公開。
評(píng)估指標(biāo)
多目標(biāo)跟蹤(MOT)方法的評(píng)價(jià)指標(biāo)是至關(guān)重要的,因?yàn)樗鼈児降囟康乇容^了不同算法的優(yōu)劣。
首先,P 是 Positive,N 是 Negative,P 和 N 表示模型的判斷結(jié)果;T 是 True,F 是 False,T 和 F 表示模型的判斷結(jié)果是否正確。所以可以得到:
- FP:假正例
- FN:假負(fù)例
- TP:真正例
- TN:真負(fù)例
所以,Accuracy、Recall 和 Precision 分別表示為:
Accuracy=TP+TNTP+TN+FP+FNAccuracy = {{TP + TN} \over {TP + TN + FP + FN}} Accuracy=TP+TN+FP+FNTP+TN?
Recall=TPTP+FN=TPRRecall = {TP \over {TP + FN}} = TPRRecall=TP+FNTP?=TPR
Precision=TPTP+FPPrecision = {TP \over {TP + FP}} Precision=TP+FPTP?
MA=FNTP+FNMA = {FN \over {TP + FN}} MA=TP+FNFN?
FA=FPTP+FPFA = {FP \over {TP + FP}} FA=TP+FPFP?
三個(gè)指標(biāo)中最直接的便是準(zhǔn)確率(Accuracy),即模型判斷正確的數(shù)據(jù)占總數(shù)據(jù)的比例。召回率(Recall)是針對(duì)數(shù)據(jù)集中的所有正例而言,即模型正確判斷出的正例占數(shù)據(jù)集中所有正例的比例,召回率與真正類率(TPR,True Positive Rate)是相同的。精確率(Precision)是針對(duì)模型判斷出的所有正例而言,即真正例占的比率,精確率也叫查準(zhǔn)率,以目標(biāo)檢測為例,精確率高表示模型檢測出的目標(biāo)中大部分確實(shí)是目標(biāo),只有少量不是目標(biāo)的對(duì)象被當(dāng)成目標(biāo)。MA(missing alarm)反映了有多少個(gè)正例被漏判了。FA(false alarm)反映了被判斷為正例的樣本中,有多少其實(shí)是負(fù)例。
在一定程度上來說,Precision 和 Recall 是“對(duì)立”的,當(dāng) IoU(Intersection of Union)的判別閾值增大時(shí)(IoU 更大的才被判別為正例),Precision 會(huì)增大,而 Recall 會(huì)減小;當(dāng) IoU 閾值減小時(shí),Precision 會(huì)減小,而 Recall 會(huì)增大。也就是說,不同的 Recall 值對(duì)應(yīng)著不同的 Precision 值,以 Recall 值為橫坐標(biāo),以 Precision 為縱坐標(biāo),把取不同閾值時(shí)的結(jié)果畫到圖上,就得到了下圖中的 PR 曲線。
計(jì)算不同 Recall 值下的 Precision 值的平均值,便可以得到 AP(Average Precision)。AP 衡量的是模型在某一類別上的好壞,而 mAP 衡量的是模型在所有類別上的好壞,即求出每個(gè)類別的 AP,再求其平均值,變得到了 mAP。
在 MOT 中,IDs(ID switch)和 FM(fragmentation)也是很重要的指標(biāo):
- IDs:每一次跟蹤的 GT(ground truth)目標(biāo) ID 發(fā)生一次錯(cuò)誤的變化記為一次 ID switch,其次數(shù)即為 IDs
- FM:每一個(gè)跟蹤的 GT 軌跡發(fā)生一次斷開并恢復(fù)稱為一次 fragmentation,其次數(shù)即為 FM
從上述的幾個(gè)指標(biāo)可以計(jì)算出更為精確的評(píng)價(jià) MOT 模型的指標(biāo) MOTA(Multiple Object Tracking Accuracy):
MOTA=1?∑t(FN+FP+IDs)∑tgtMOTA = 1 - {\sum_t(FN + FP + IDs)\over \sum_t gt}MOTA=1?∑t?gt∑t?(FN+FP+IDs)?
這里的 t 代表著幀數(shù) t,MOTA 的值域?yàn)?span id="ozvdkddzhkzd" class="katex--inline">(?∞,1](-\infty,1](?∞,1]。值得注意的是 MOTA 是可能為負(fù)值的,因?yàn)樗惴òl(fā)生的錯(cuò)誤是可能多于 ground truth 中的 Bbox 數(shù)量。另一個(gè)指標(biāo) MOTP(Multiple Object Tracking Precision)有時(shí)也可以取代 MOTA,它代表著 MOT 的精確度,體現(xiàn)在確定目標(biāo)位置上的精確度,用于衡量目標(biāo)位置確定的精確程度:
MOTP=∑t,idti∑tctMOTP = {\sum_{t,i}d_t^i \over \sum_tc_t }MOTP=∑t?ct?∑t,i?dti??
其中,ctc_tct?表示第ttt幀中模型預(yù)測與 ground truth 的匹配的個(gè)數(shù),dtid_t^idti?表示第 t 幀中目標(biāo) i 與模型預(yù)測出的位置的歐氏距離,即匹配誤差。
MOTA 和 MOTP 共同衡量著算法連續(xù)跟蹤目標(biāo)的能力。而對(duì)于目標(biāo) ID 方面,除了最基本的 IDs,還有其他幾個(gè)指標(biāo),比如 IDP(Identification precision)、IDR(Identification recall)和 IDF1(Identification F1)也很重要:
IDP=IDTPIDTP+IDFPIDP = {IDTP \over {IDTP + IDFP}} IDP=IDTP+IDFPIDTP?
IDR=IDTPIDTP+IDFNIDR = {IDTP \over {IDTP + IDFN}} IDR=IDTP+IDFNIDTP?
IDF1=21IDP+1IDR=2IDTP2IDTP+IDFP+IDFNIDF1 = {2 \over {{1 \over IDP} + {1 \over IDR}}} = {2IDTP \over {2IDTP + IDFP + IDFN}} IDF1=IDP1?+IDR1?2?=2IDTP+IDFP+IDFN2IDTP?
顧名思義,上述三個(gè)指標(biāo)即為目標(biāo) ID 方面的精確率、召回率和 F1 指標(biāo)。下面提到的三個(gè)指標(biāo),是用來對(duì)模型預(yù)測的目標(biāo)整段軌跡進(jìn)行衡量的。
- MT:跟蹤器預(yù)測出來的軌跡占 ground truth 的 80%以上的比例
- ML:跟蹤器預(yù)測出來的軌跡占 ground truth 的 20%以下的比例
- PT:PT=1.0?MT?MLPT = 1.0 - MT - MLPT=1.0?MT?ML
下面再列舉一些并不常用的指標(biāo):
- MODA:Multi-Object Detection Accuracy
- MODP:Multi-Object Detection Precision
- FPPI:FPPI=FPNFPPI = {FP \over N}FPPI=NFP?,其中 N 代表著總幀數(shù)
- TDE:跟蹤器預(yù)測結(jié)果與 ground truth 中的注釋的距離(用于計(jì)算 MOTP)
- OSPA:預(yù)測結(jié)果與 ground truth 之間的基數(shù)誤差和空間距離
- RS:較短遮擋后正確恢復(fù)的軌跡所占的比例
- RL:長時(shí)間遮擋后正確恢復(fù)的軌跡所占的比例
另:清華大學(xué)和曠視在CVPR2020發(fā)表了一篇論文SQE: a Self Quality Evaluation Metric for Parameters Optimization in Multi-Object Tracking,提出了一種新的MOT評(píng)判指標(biāo)SQE。
SQE=n?Ln+k1?L+k2?(fp+dif+sim)SQE = {{n * L} \over {n + k_1 * L + k_2 * (fp + dif + sim)}} SQE=n+k1??L+k2??(fp+dif+sim)n?L?
其中,n為軌跡的數(shù)量,L為軌跡的平均長度。
算法的主要流程如圖:
主要分為4個(gè)步驟:
k1k_1k1?用來適應(yīng)跟蹤對(duì)象的移動(dòng)速度和密度,比如在街景上的行人跟蹤中,k1k_1k1?取1比較合適。k2k_2k2?用來調(diào)節(jié)n、L以及error之間的比例。
Evaluation code
基準(zhǔn)結(jié)果
MOT領(lǐng)域大部分Benchmark都可以在MOT Challenge官網(wǎng)找到,下文的表格整理自MOT Challenge官網(wǎng),只包含發(fā)表論文的成果,大多數(shù)為online方法。
MOT16
| 1 | FairMOT | 68.7 | A Simple Baseline for Multi-Object Tracking | 2020 |
| 2 | JDE | 64.4 | Towards Real-Time Multi-Object Tracking | 2019 |
| 3 | Lif_T | 61.3 | Lifted Disjoint Paths with Application in Multiple Object Tracking | 2020 |
| 4 | MPNTrack | 58.6 | Learning a Neural Solver for Multiple Object Tracking | 2020 |
| 5 | DeepMOT-Tracktor | 54.8 | How To Train Your Deep Multi-Object Tracker | 2019 |
| 6 | TNT | 49.2 | Exploit the Connectivity: Multi-Object Tracking with TrackletNet | 2018 |
| 7 | GCRA | 48.2 | Trajectory Factory: Tracklet Cleaving and Re-connection by Deep Siamese Bi-GRU for Multiple Object Tracking | 2018 |
| 8 | FWT | 47.8 | Fusion of Head and Full-Body Detectors for Multi-Object Tracking | 2017 |
| 9 | MOTDT | 47.6 | Real-time Multiple People Tracking with Deeply Learned Candidate Selection and Person Re-Identification | 2018 |
| 10 | NOMT | 46.4 | Near-Online Multi-target Tracking with Aggregated Local Flow Descriptor | 2015 |
| 11 | DMMOT | 46.1 | Online Multi-Object Tracking with Dual Matching Attention Networks | 2019 |
MOT17
| 1 | FairMOT | 67.5 | A Simple Baseline for Multi-Object Tracking | 2020 |
| 2 | Lif_T | 60.5 | Lifted Disjoint Paths with Application in Multiple Object Tracking | 2020 |
| 3 | MPNTrack | 58.8 | Learning a Neural Solver for Multiple Object Tracking | 2020 |
| 4 | DeepMOT | 53.7 | How To Train Your Deep Multi-Object Tracker | 2019 |
| 5 | JBNOT | 52.6 | Multiple People Tracking using Body and Joint Detections | 2019 |
| 6 | TNT | 51.9 | Exploit the Connectivity: Multi-Object Tracking with TrackletNet | 2018 |
| 7 | FWT | 51.3 | Fusion of Head and Full-Body Detectors for Multi-Object Tracking | 2017 |
| 8 | MOTDT17 | 50.9 | Real-time Multiple People Tracking with Deeply Learned Candidate Selection and Person Re-Identification | 2018 |
MOT20
| 1 | FairMOT | 61.8 | A Simple Baseline for Multi-Object Tracking | 2020 |
| 2 | UnsupTrack | 53.6 | Simple Unsupervised Multi-Object Tracking | 2020 |
總結(jié)
- 上一篇: Git多人协作
- 下一篇: Visio矢量图导出教程