當(dāng)前位置：首頁 >

论文盘点：基于图卷积GNN的多目标跟踪算法解析

發(fā)布時(shí)間：2024/10/8 70 豆豆

生活随笔收集整理的這篇文章主要介紹了论文盘点：基于图卷积GNN的多目标跟踪算法解析小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

?PaperWeekly 原創(chuàng) ·?作者｜黃飄

學(xué)校｜華中科技大學(xué)碩士

研究方向｜多目標(biāo)跟蹤

隨著這兩年 GNN 的發(fā)展，其對(duì)于關(guān)系的建模特性也被引入了多目標(biāo)跟蹤領(lǐng)域，這次我通過對(duì)這兩年基于 GNN 的 MOT 算法的介紹來分析其特點(diǎn)。相關(guān) MOT 和數(shù)據(jù)關(guān)聯(lián)的基礎(chǔ)知識(shí)可以去我的專欄查看。

EDA_GNN

論文標(biāo)題： Graph Neural Based End-to-end Data Association Framework for Online Multiple-Object Tracking

論文來源：CVPR 2020

論文鏈接：https://arxiv.org/abs/1907.05315

代碼鏈接：https://github.com/peizhaoli05/EDA_GNN

從算法的示意圖可以看到，作者通過一個(gè)孿生網(wǎng)絡(luò)求得了觀測(cè)目標(biāo) j 與當(dāng)前目標(biāo)軌跡 i 的表觀相似度，然后取目標(biāo)軌跡的歷史位置為輸入，通過 LSTM 得到預(yù)測(cè)的位置，計(jì)算該位置與觀測(cè)目標(biāo)位置的運(yùn)動(dòng)相似度，兩個(gè)相似度結(jié)合構(gòu)建相似度矩陣。

至此，所有目標(biāo)軌跡與觀測(cè)目標(biāo)的相似度構(gòu)成了一個(gè)二部圖，以目標(biāo)和觀測(cè)信息作為節(jié)點(diǎn)，相似度作為邊權(quán)，表觀特征和位置信息拼接作為節(jié)點(diǎn)屬性特征。

然后基于消息傳遞機(jī)制，作者通過 GNN 的網(wǎng)絡(luò)框架實(shí)現(xiàn)對(duì)節(jié)點(diǎn)特征的更新：

鄰接矩陣的 normalization 采用的是 row-wise softmax，即對(duì)相似度矩陣進(jìn)行逐行 softmax，可以用注意力的方式來理解，W 為待學(xué)習(xí)的權(quán)重。最后通過一個(gè)激活函數(shù) ReLU 實(shí)現(xiàn)特征的更新。對(duì)于邊權(quán)關(guān)系的更新則是簡單地利用 MLP 將兩個(gè)節(jié)點(diǎn)特征的差轉(zhuǎn)換為標(biāo)量。

在訓(xùn)練的時(shí)候，損失函數(shù)由三部分組成：

其中第一部分是預(yù)測(cè)得到的關(guān)聯(lián)矩陣的分類損失，第二部分則是將 groundtruth 中的關(guān)聯(lián)對(duì)取出，計(jì)算分類損失，第三部分是將新出/消失的目標(biāo)單獨(dú)取出，計(jì)算 MSE 損失。

DAN

論文標(biāo)題：Deep association: End-to-end graph-based learning for multiple object tracking with conv-graph neural network

論文來源：ICMR 2019

論文鏈接：https://dl.acm.org/doi/pdf/10.1145/3323873.3325010

這里的 DAN 并非我之前提過的 DAN，其整體流程跟 EDA_GNN 基本一樣：

都是先提取表觀和運(yùn)動(dòng)特征，由此構(gòu)建網(wǎng)絡(luò)圖，通過 GNN 得到最終的關(guān)聯(lián)矩陣。首先相似度矩陣怎這里用的是 IOU 信息：

IOU 后面的部分是幀間差，如果目標(biāo)存在跨幀鏈接，那么間隔越久，相似度越低。不過 DAN 與 EDA_GNN 不同的是，并沒有將圖結(jié)構(gòu)構(gòu)建為二部圖，而是將跟蹤節(jié)點(diǎn)和觀測(cè)節(jié)點(diǎn)統(tǒng)一為節(jié)點(diǎn)集合，因此鄰接矩陣/相似度矩陣就變成了 (m+n)x(m+N)，這就是最基礎(chǔ)的 GNN 網(wǎng)絡(luò)結(jié)構(gòu)了。所以節(jié)點(diǎn)特征的更新就是：

鄰接矩陣的更新為：

損失函數(shù)為 Graph Loss，即對(duì)正負(fù)鏈接邊權(quán)的交叉熵?fù)p失函數(shù)：

結(jié)果如下:

GNMOT

論文標(biāo)題：Graph Networks for Multiple Object Tracking

論文來源：WACV 2020

論文鏈接：http://openaccess.thecvf.com/content_WACV_2020/papers/Li_Graph_Networks_for_Multiple_Object_Tracking_WACV_2020_paper.pdf

代碼鏈接：https://github.com/yinizhizhu/GNMOT

首先我們看看算法流程：

可以看到，GNMOT 的不同在于表觀和運(yùn)動(dòng)部分分別采用了 GNN 網(wǎng)絡(luò)，二者結(jié)合得到的是相似度矩陣，由此輸入數(shù)據(jù)關(guān)聯(lián)部分。關(guān)于 GNN 網(wǎng)絡(luò)的更新流程，作者設(shè)計(jì)了 4 步：

其中第一次邊和節(jié)點(diǎn)的更新都是通過兩層 FC 進(jìn)行更新的。第三次的全局更新這里，作者引入了一個(gè)全局變量 u，先計(jì)算所有節(jié)點(diǎn)的特征均值和邊權(quán)均值，再通過兩層 FC 進(jìn)行更新。這里的 u 會(huì)在出現(xiàn)在所有更新過程中，作為一個(gè)調(diào)節(jié)量。

最后一次的邊權(quán)更新則是在兩層 FC 之后再加了一層 softmax 層。

MPN Tracker

論文標(biāo)題：Learning a Neural Solver for Multiple Object Tracking

論文來源：CVPR 2020

論文鏈接：https://arxiv.org/abs/1912.07515

代碼鏈接：https://github.com/selflein/GraphNN-Multi-Object-Tracking

我之前也介紹過這篇文章，但是之前不懂 GNN，所以只能做搬運(yùn)工，現(xiàn)在學(xué)習(xí)了 GNN，所以就再次分析一下。首先是圖的構(gòu)建，圖節(jié)點(diǎn)由所有幀的所有目標(biāo)構(gòu)成，直接將觀測(cè)信息作為節(jié)點(diǎn)，沒有跟蹤，只有關(guān)聯(lián)。

節(jié)點(diǎn)屬性特征由訓(xùn)練得到的表觀特征和幾何特征構(gòu)成，其中幾何特征為位置和形狀。并且定義表觀特征距離用歐氏距離度量，幾何特征距離用下面的公式度量：

時(shí)間特征自然就是幀數(shù)，這幾個(gè)特征通過一個(gè) MLP 網(wǎng)絡(luò)得到最終的特征表達(dá)。

邊的連接自然就是跨幀節(jié)點(diǎn)存在連接，而同一幀節(jié)點(diǎn)不存在連接，邊權(quán)的設(shè)定就是上面的距離度量。也就是說，這相當(dāng)于一個(gè)端到端的離線跟蹤框架。

消息傳遞機(jī)制中，對(duì)于邊權(quán)的更新和節(jié)點(diǎn)的更新方式如下：

其中對(duì)于邊的更新就是由節(jié)點(diǎn)特征和原始邊權(quán)通過 MLP 過程更新的。對(duì)于節(jié)點(diǎn)的更新，由于一個(gè)節(jié)點(diǎn)連接有多條邊，所以需要進(jìn)行聚合，聚合方式可以求和、取平均，還可以是取最大值。而更新的代數(shù) L 自然也就決定了圖卷積網(wǎng)絡(luò)的感受野，當(dāng) L 越大時(shí)，與之相關(guān)的節(jié)點(diǎn)在時(shí)間跨度上越大。

上面這個(gè)圖從左往右是不同時(shí)間幀的節(jié)點(diǎn)，這里舉的例子是一個(gè)相鄰三幀的節(jié)點(diǎn)連接。原始的更新機(jī)制中，對(duì)于節(jié)點(diǎn)的更新會(huì)將周圍邊的影響通過求和的方式聚合。而這里作者考慮了時(shí)間因素，將時(shí)間分為了過去和未來兩個(gè)部分：

然后通過拼接的方式聚合，最后利用 MLP 結(jié)構(gòu)實(shí)現(xiàn)特征降維。

可以看下消息傳遞代數(shù)的影響：

我們發(fā)現(xiàn)在 3 代的時(shí)候就已經(jīng)達(dá)到了性能上限，不過為了保證魯棒性，作者還是選了 12.

不得不說離線的方法在 IDF1 指標(biāo)上的表現(xiàn)很好：

PS：大家可能對(duì)于第一張圖中的 Edge Classification 有疑惑，即如何實(shí)現(xiàn)的邊的稀疏化。這里由于每條邊權(quán)都經(jīng)過了一個(gè) sigmoid 層，因此作者直接利用固定閾值 0.5 進(jìn)行了裁剪。

GNN3DMOT

論文標(biāo)題：Graph Neural Network for 3D Multi-Object Tracking with Multi-Feature Learning

論文來源：CVPR 2020

論文鏈接：https://arxiv.org/abs/2006.07327

代碼鏈接：https://github.com/xinshuoweng/GNN3DMOT

從這篇開始，接下來的全是這個(gè)組的文章。這篇文章所涉及的算法框架很完整，值得一讀：

算法流程通過這張圖可以很容易得到，運(yùn)動(dòng)特征是通過 LSTM 網(wǎng)絡(luò)回歸得到的，表觀特征是通過 CNN 網(wǎng)絡(luò)得到的，二者相拼接。其中 3D 部分的輸入則是點(diǎn)云信息和 3D 位置信息，o 表示物體，d 表示檢測(cè)。將 2D 和 3D 特征拼接/相加得到每個(gè)節(jié)點(diǎn)的特征。而節(jié)點(diǎn)自然就是上一幀存在的目標(biāo)和當(dāng)前幀的觀測(cè)。

對(duì)于邊權(quán)/相似度矩陣的確定，作者嘗試了三種方式，余弦距離、歐氏距離還有網(wǎng)絡(luò)回歸，即上圖中的 Edge Regression：

當(dāng)然這個(gè)也是邊權(quán)更新的機(jī)制，而對(duì)于節(jié)點(diǎn) 消息傳遞機(jī)制，作者也設(shè)計(jì)了四種：

方法很明了，我就不細(xì)講了，可以看到聚合方式都是求和。另外由算法框架示意圖可知，每次消息傳遞都會(huì)計(jì)算關(guān)聯(lián)矩陣的損失，那么為什么會(huì)采用 batch triplet loss呢？

作者把關(guān)聯(lián)矩陣中的每條邊權(quán)看作了 N 對(duì)匹配，三元組損失中，首先選取相鄰幀中的一對(duì)連接 i,j，然后分別選取不同 id 的兩幀節(jié)點(diǎn) r,s，計(jì)算上述損失。即要保證不同幀間不同 id 身份的邊權(quán)的最小距離越大越好。而對(duì)于相似度損失，則是采用了兩種交叉熵?fù)p失：

效果如下：

可以看到利用網(wǎng)絡(luò)回歸的方式得到的相似度度量方式要比余弦距離和歐氏距離好， 2D 和 3D 特征融合的方式更優(yōu)，結(jié)合了關(guān)聯(lián)矩陣和節(jié)點(diǎn)差異的聚合方式，即 Table7 中的 type4 更優(yōu)。

GNNTrkForecast

論文標(biāo)題：Joint 3D Tracking and Forecasting with Graph Neural Network and Diversity Sampling

論文鏈接：https://arxiv.org/abs/2003.07847

代碼鏈接：https://github.com/xinshuoweng/GNNTrkForecast

這篇論文里面，作者通過 GNN 將 3D MOT 和軌跡預(yù)測(cè)結(jié)合在一起了。其中對(duì)于 GNN 網(wǎng)絡(luò)的構(gòu)建以及關(guān)聯(lián)矩陣的獲取跟之前的論文幾乎一致，具體我們就不介紹了：

那么 3D MOT 分支實(shí)際上就是 GNN 模型中的一部分，是根據(jù) GNN 的邊權(quán)矩陣進(jìn)行數(shù)據(jù)關(guān)聯(lián)：

而對(duì)于軌跡預(yù)測(cè)分支，作者基于條件自編碼器的形式，設(shè)計(jì)的流程圖如下，由于這塊我不熟悉，所以我就不細(xì)講了。

效果如下：

JDMOT_GNN

論文標(biāo)題：Joint Detection and Multi-Object Tracking with Graph Neural Networks

論文鏈接：https://arxiv.org/abs/2006.13164

也許是看到最近聯(lián)合檢測(cè)和跟蹤的框架很熱門，作者團(tuán)隊(duì)又給加入了 GNN 模塊，所以我們簡單提一下：

最開始的表觀和運(yùn)動(dòng)特征部分就不提了，一個(gè)是 LSTM/MLP 回歸，一個(gè)是 Darknet53 回歸得到的。圖的構(gòu)建依舊是以檢測(cè)框和目標(biāo)作為節(jié)點(diǎn)，節(jié)點(diǎn)特征的更新則是：

這里面要注意的是兩個(gè) head，其中檢測(cè) head 的是根據(jù)各節(jié)點(diǎn)特征利用 MLP 降維得到用于分類和回歸的特征。而數(shù)據(jù)關(guān)聯(lián) head 則是邊權(quán)，它的確定是依據(jù)節(jié)點(diǎn)特征的差異，通過三層全連接得到的：

最終效果如下：

可以看到單純用 GNN 做數(shù)據(jù)關(guān)聯(lián)的提升并不大，當(dāng)然，這里并沒有做消融實(shí)驗(yàn)，也不能妄下評(píng)論。

參考文獻(xiàn)

[1] Jiang X, Li P, Li Y, et al. Graph Neural Based End-to-end Data Association Framework for Online Multiple-Object Tracking[J]. arXiv preprint arXiv:1907.05315, 2019.

[2] Ma C, Li Y, Yang F, et al. Deep association: End-to-end graph-based learning for multiple object tracking with conv-graph neural network[C]//Proceedings of the 2019 on International Conference on Multimedia Retrieval. 2019: 253-261.

[3] Jiahe L, Xu G, Tingting J.Graph Networks for Multiple Object Trackin[C]//The IEEE Winter Conference on Applications of Computer Vision (WACV).2020.

[4] Brasó G, Leal-Taixé L. Learning a neural solver for multiple object tracking[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2020: 6247-6257.

[5] Weng X, Wang Y, Man Y, et al. GNN3DMOT: Graph Neural Network for 3D Multi-Object Tracking with Multi-Feature Learning[J]. arXiv preprint arXiv:2006.07327, 2020.

[6] Weng X, Yuan Y, Kitani K. Joint 3d tracking and forecasting with graph neural network and diversity sampling[J]. arXiv preprint arXiv:2003.07847, 2020.

[7] Wang Y, Weng X, Kitani K. Joint Detection and Multi-Object Tracking with Graph Neural Networks[J]. arXiv preprint arXiv:2006.13164, 2020.

更多閱讀

#投稿?通道#

?讓你的論文被更多人看到?

如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達(dá)讀者群體，縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢？答案就是：你不認(rèn)識(shí)的人。

總有一些你不認(rèn)識(shí)的人，知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁，促使不同背景、不同方向的學(xué)者和學(xué)術(shù)靈感相互碰撞，迸發(fā)出更多的可能性。?

PaperWeekly 鼓勵(lì)高校實(shí)驗(yàn)室或個(gè)人，在我們的平臺(tái)上分享各類優(yōu)質(zhì)內(nèi)容，可以是最新論文解讀，也可以是學(xué)習(xí)心得或技術(shù)干貨。我們的目的只有一個(gè)，讓知識(shí)真正流動(dòng)起來。

?????來稿標(biāo)準(zhǔn)：

? 稿件確系個(gè)人原創(chuàng)作品，來稿需注明作者個(gè)人信息（姓名+學(xué)校/工作單位+學(xué)歷/職位+研究方向）?

? 如果文章并非首發(fā)，請(qǐng)?jiān)谕陡鍟r(shí)提醒并附上所有已發(fā)布鏈接?

? PaperWeekly 默認(rèn)每篇文章都是首發(fā)，均會(huì)添加“原創(chuàng)”標(biāo)志

?????投稿郵箱：

? 投稿郵箱：hr@paperweekly.site?

? 所有文章配圖，請(qǐng)單獨(dú)在附件中發(fā)送?

? 請(qǐng)留下即時(shí)聯(lián)系方式（微信或手機(jī)），以便我們?cè)诰庉嫲l(fā)布時(shí)和作者溝通

????

現(xiàn)在，在「知乎」也能找到我們了

進(jìn)入知乎首頁搜索「PaperWeekly」

點(diǎn)擊「關(guān)注」訂閱我們的專欄吧

關(guān)于PaperWeekly

PaperWeekly 是一個(gè)推薦、解讀、討論、報(bào)道人工智能前沿論文成果的學(xué)術(shù)平臺(tái)。如果你研究或從事 AI 領(lǐng)域，歡迎在公眾號(hào)后臺(tái)點(diǎn)擊「交流群」，小助手將把你帶入 PaperWeekly 的交流群里。

總結(jié)

以上是生活随笔為你收集整理的论文盘点：基于图卷积GNN的多目标跟踪算法解析的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：银行非柜面业务指什么
下一篇：结合业务场景案例实践分析，倾囊相授美团B

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

论文盘点：基于图卷积GNN的多目标跟踪算法解析

總結(jié)