论文盘点:基于图卷积GNN的多目标跟踪算法解析
?PaperWeekly 原創(chuàng) ·?作者|黃飄
學(xué)校|華中科技大學(xué)碩士
研究方向|多目標(biāo)跟蹤
隨著這兩年 GNN 的發(fā)展,其對(duì)于關(guān)系的建模特性也被引入了多目標(biāo)跟蹤領(lǐng)域,這次我通過對(duì)這兩年基于 GNN 的 MOT 算法的介紹來分析其特點(diǎn)。相關(guān) MOT 和數(shù)據(jù)關(guān)聯(lián)的基礎(chǔ)知識(shí)可以去我的專欄查看。
EDA_GNN
論文標(biāo)題: Graph Neural Based End-to-end Data Association Framework for Online Multiple-Object Tracking
論文來源:CVPR 2020
論文鏈接:https://arxiv.org/abs/1907.05315
代碼鏈接:https://github.com/peizhaoli05/EDA_GNN
從算法的示意圖可以看到,作者通過一個(gè)孿生網(wǎng)絡(luò)求得了觀測(cè)目標(biāo) j 與當(dāng)前目標(biāo)軌跡 i 的表觀相似度,然后取目標(biāo)軌跡的歷史位置為輸入,通過 LSTM 得到預(yù)測(cè)的位置,計(jì)算該位置與觀測(cè)目標(biāo)位置的運(yùn)動(dòng)相似度,兩個(gè)相似度結(jié)合構(gòu)建相似度矩陣。
至此,所有目標(biāo)軌跡與觀測(cè)目標(biāo)的相似度構(gòu)成了一個(gè)二部圖,以目標(biāo)和觀測(cè)信息作為節(jié)點(diǎn),相似度作為邊權(quán),表觀特征和位置信息拼接作為節(jié)點(diǎn)屬性特征。
然后基于消息傳遞機(jī)制,作者通過 GNN 的網(wǎng)絡(luò)框架實(shí)現(xiàn)對(duì)節(jié)點(diǎn)特征的更新:
鄰接矩陣的 normalization 采用的是 row-wise softmax,即對(duì)相似度矩陣進(jìn)行逐行 softmax,可以用注意力的方式來理解,W 為待學(xué)習(xí)的權(quán)重。最后通過一個(gè)激活函數(shù) ReLU 實(shí)現(xiàn)特征的更新。對(duì)于邊權(quán)關(guān)系的更新則是簡單地利用 MLP 將兩個(gè)節(jié)點(diǎn)特征的差轉(zhuǎn)換為標(biāo)量。
在訓(xùn)練的時(shí)候,損失函數(shù)由三部分組成:
其中第一部分是預(yù)測(cè)得到的關(guān)聯(lián)矩陣的分類損失,第二部分則是將 groundtruth 中的關(guān)聯(lián)對(duì)取出,計(jì)算分類損失,第三部分是將新出/消失的目標(biāo)單獨(dú)取出,計(jì)算 MSE 損失。
DAN
論文標(biāo)題:Deep association: End-to-end graph-based learning for multiple object tracking with conv-graph neural network
論文來源:ICMR 2019
論文鏈接:https://dl.acm.org/doi/pdf/10.1145/3323873.3325010
這里的 DAN 并非我之前提過的 DAN,其整體流程跟 EDA_GNN 基本一樣:
都是先提取表觀和運(yùn)動(dòng)特征,由此構(gòu)建網(wǎng)絡(luò)圖,通過 GNN 得到最終的關(guān)聯(lián)矩陣。首先相似度矩陣怎這里用的是 IOU 信息:
IOU 后面的部分是幀間差,如果目標(biāo)存在跨幀鏈接,那么間隔越久,相似度越低。不過 DAN 與 EDA_GNN 不同的是,并沒有將圖結(jié)構(gòu)構(gòu)建為二部圖,而是將跟蹤節(jié)點(diǎn)和觀測(cè)節(jié)點(diǎn)統(tǒng)一為節(jié)點(diǎn)集合,因此鄰接矩陣/相似度矩陣就變成了 (m+n)x(m+N),這就是最基礎(chǔ)的 GNN 網(wǎng)絡(luò)結(jié)構(gòu)了。所以節(jié)點(diǎn)特征的更新就是:
鄰接矩陣的更新為:
損失函數(shù)為 Graph Loss,即對(duì)正負(fù)鏈接邊權(quán)的交叉熵?fù)p失函數(shù):
結(jié)果如下:
GNMOT
論文標(biāo)題:Graph Networks for Multiple Object Tracking
論文來源:WACV 2020
論文鏈接:http://openaccess.thecvf.com/content_WACV_2020/papers/Li_Graph_Networks_for_Multiple_Object_Tracking_WACV_2020_paper.pdf
代碼鏈接:https://github.com/yinizhizhu/GNMOT
首先我們看看算法流程:
可以看到,GNMOT 的不同在于表觀和運(yùn)動(dòng)部分分別采用了 GNN 網(wǎng)絡(luò),二者結(jié)合得到的是相似度矩陣,由此輸入數(shù)據(jù)關(guān)聯(lián)部分。關(guān)于 GNN 網(wǎng)絡(luò)的更新流程,作者設(shè)計(jì)了 4 步:
其中第一次邊和節(jié)點(diǎn)的更新都是通過兩層 FC 進(jìn)行更新的。第三次的全局更新這里,作者引入了一個(gè)全局變量 u,先計(jì)算所有節(jié)點(diǎn)的特征均值和邊權(quán)均值,再通過兩層 FC 進(jìn)行更新。這里的 u 會(huì)在出現(xiàn)在所有更新過程中,作為一個(gè)調(diào)節(jié)量。
最后一次的邊權(quán)更新則是在兩層 FC 之后再加了一層 softmax 層。
MPN Tracker
論文標(biāo)題:Learning a Neural Solver for Multiple Object Tracking
論文來源:CVPR 2020
論文鏈接:https://arxiv.org/abs/1912.07515
代碼鏈接:https://github.com/selflein/GraphNN-Multi-Object-Tracking
我之前也介紹過這篇文章,但是之前不懂 GNN,所以只能做搬運(yùn)工,現(xiàn)在學(xué)習(xí)了 GNN,所以就再次分析一下。首先是圖的構(gòu)建,圖節(jié)點(diǎn)由所有幀的所有目標(biāo)構(gòu)成,直接將觀測(cè)信息作為節(jié)點(diǎn),沒有跟蹤,只有關(guān)聯(lián)。
節(jié)點(diǎn)屬性特征由訓(xùn)練得到的表觀特征和幾何特征構(gòu)成,其中幾何特征為位置和形狀。并且定義表觀特征距離用歐氏距離度量,幾何特征距離用下面的公式度量:
時(shí)間特征自然就是幀數(shù),這幾個(gè)特征通過一個(gè) MLP 網(wǎng)絡(luò)得到最終的特征表達(dá)。
邊的連接自然就是跨幀節(jié)點(diǎn)存在連接,而同一幀節(jié)點(diǎn)不存在連接,邊權(quán)的設(shè)定就是上面的距離度量。也就是說,這相當(dāng)于一個(gè)端到端的離線跟蹤框架。
消息傳遞機(jī)制中,對(duì)于邊權(quán)的更新和節(jié)點(diǎn)的更新方式如下:
其中對(duì)于邊的更新就是由節(jié)點(diǎn)特征和原始邊權(quán)通過 MLP 過程更新的。對(duì)于節(jié)點(diǎn)的更新,由于一個(gè)節(jié)點(diǎn)連接有多條邊,所以需要進(jìn)行聚合,聚合方式可以求和、取平均,還可以是取最大值。而更新的代數(shù) L 自然也就決定了圖卷積網(wǎng)絡(luò)的感受野,當(dāng) L 越大時(shí),與之相關(guān)的節(jié)點(diǎn)在時(shí)間跨度上越大。
上面這個(gè)圖從左往右是不同時(shí)間幀的節(jié)點(diǎn),這里舉的例子是一個(gè)相鄰三幀的節(jié)點(diǎn)連接。原始的更新機(jī)制中,對(duì)于節(jié)點(diǎn)的更新會(huì)將周圍邊的影響通過求和的方式聚合。而這里作者考慮了時(shí)間因素,將時(shí)間分為了過去和未來兩個(gè)部分:
然后通過拼接的方式聚合,最后利用 MLP 結(jié)構(gòu)實(shí)現(xiàn)特征降維。
可以看下消息傳遞代數(shù)的影響:
我們發(fā)現(xiàn)在 3 代的時(shí)候就已經(jīng)達(dá)到了性能上限,不過為了保證魯棒性,作者還是選了 12.
不得不說離線的方法在 IDF1 指標(biāo)上的表現(xiàn)很好:
PS:大家可能對(duì)于第一張圖中的 Edge Classification 有疑惑,即如何實(shí)現(xiàn)的邊的稀疏化。這里由于每條邊權(quán)都經(jīng)過了一個(gè) sigmoid 層,因此作者直接利用固定閾值 0.5 進(jìn)行了裁剪。
GNN3DMOT
論文標(biāo)題:Graph Neural Network for 3D Multi-Object Tracking with Multi-Feature Learning
論文來源:CVPR 2020
論文鏈接:https://arxiv.org/abs/2006.07327
代碼鏈接:https://github.com/xinshuoweng/GNN3DMOT
從這篇開始,接下來的全是這個(gè)組的文章。這篇文章所涉及的算法框架很完整,值得一讀:
算法流程通過這張圖可以很容易得到,運(yùn)動(dòng)特征是通過 LSTM 網(wǎng)絡(luò)回歸得到的,表觀特征是通過 CNN 網(wǎng)絡(luò)得到的,二者相拼接。其中 3D 部分的輸入則是點(diǎn)云信息和 3D 位置信息,o 表示物體,d 表示檢測(cè)。將 2D 和 3D 特征拼接/相加得到每個(gè)節(jié)點(diǎn)的特征。而節(jié)點(diǎn)自然就是上一幀存在的目標(biāo)和當(dāng)前幀的觀測(cè)。
對(duì)于邊權(quán)/相似度矩陣的確定,作者嘗試了三種方式,余弦距離、歐氏距離還有網(wǎng)絡(luò)回歸,即上圖中的 Edge Regression:
當(dāng)然這個(gè)也是邊權(quán)更新的機(jī)制,而對(duì)于節(jié)點(diǎn) 消息傳遞機(jī)制,作者也設(shè)計(jì)了四種:
方法很明了,我就不細(xì)講了,可以看到聚合方式都是求和。另外由算法框架示意圖可知,每次消息傳遞都會(huì)計(jì)算關(guān)聯(lián)矩陣的損失,那么為什么會(huì)采用 batch triplet loss呢?
作者把關(guān)聯(lián)矩陣中的每條邊權(quán)看作了 N 對(duì)匹配,三元組損失中,首先選取相鄰幀中的一對(duì)連接 i,j,然后分別選取不同 id 的兩幀節(jié)點(diǎn) r,s,計(jì)算上述損失。即要保證不同幀間不同 id 身份的邊權(quán)的最小距離越大越好。而對(duì)于相似度損失,則是采用了兩種交叉熵?fù)p失:
效果如下:
可以看到利用網(wǎng)絡(luò)回歸的方式得到的相似度度量方式要比余弦距離和歐氏距離好, 2D 和 3D 特征融合的方式更優(yōu),結(jié)合了關(guān)聯(lián)矩陣和節(jié)點(diǎn)差異的聚合方式,即 Table7 中的 type4 更優(yōu)。
GNNTrkForecast
論文標(biāo)題:Joint 3D Tracking and Forecasting with Graph Neural Network and Diversity Sampling
論文鏈接:https://arxiv.org/abs/2003.07847
代碼鏈接:https://github.com/xinshuoweng/GNNTrkForecast
這篇論文里面,作者通過 GNN 將 3D MOT 和軌跡預(yù)測(cè)結(jié)合在一起了。其中對(duì)于 GNN 網(wǎng)絡(luò)的構(gòu)建以及關(guān)聯(lián)矩陣的獲取跟之前的論文幾乎一致,具體我們就不介紹了:
那么 3D MOT 分支實(shí)際上就是 GNN 模型中的一部分,是根據(jù) GNN 的邊權(quán)矩陣進(jìn)行數(shù)據(jù)關(guān)聯(lián):
而對(duì)于軌跡預(yù)測(cè)分支,作者基于條件自編碼器的形式,設(shè)計(jì)的流程圖如下,由于這塊我不熟悉,所以我就不細(xì)講了。
效果如下:
JDMOT_GNN
論文標(biāo)題:Joint Detection and Multi-Object Tracking with Graph Neural Networks
論文鏈接:https://arxiv.org/abs/2006.13164
也許是看到最近聯(lián)合檢測(cè)和跟蹤的框架很熱門,作者團(tuán)隊(duì)又給加入了 GNN 模塊,所以我們簡單提一下:
最開始的表觀和運(yùn)動(dòng)特征部分就不提了,一個(gè)是 LSTM/MLP 回歸,一個(gè)是 Darknet53 回歸得到的。圖的構(gòu)建依舊是以檢測(cè)框和目標(biāo)作為節(jié)點(diǎn),節(jié)點(diǎn)特征的更新則是:
這里面要注意的是兩個(gè) head,其中檢測(cè) head 的是根據(jù)各節(jié)點(diǎn)特征利用 MLP 降維得到用于分類和回歸的特征。而數(shù)據(jù)關(guān)聯(lián) head 則是邊權(quán),它的確定是依據(jù)節(jié)點(diǎn)特征的差異,通過三層全連接得到的:
最終效果如下:
可以看到單純用 GNN 做數(shù)據(jù)關(guān)聯(lián)的提升并不大,當(dāng)然,這里并沒有做消融實(shí)驗(yàn),也不能妄下評(píng)論。
參考文獻(xiàn)
[1] Jiang X, Li P, Li Y, et al. Graph Neural Based End-to-end Data Association Framework for Online Multiple-Object Tracking[J]. arXiv preprint arXiv:1907.05315, 2019.
[2] Ma C, Li Y, Yang F, et al. Deep association: End-to-end graph-based learning for multiple object tracking with conv-graph neural network[C]//Proceedings of the 2019 on International Conference on Multimedia Retrieval. 2019: 253-261.
[3] Jiahe L, Xu G, Tingting J.Graph Networks for Multiple Object Trackin[C]//The IEEE Winter Conference on Applications of Computer Vision (WACV).2020.
[4] Brasó G, Leal-Taixé L. Learning a neural solver for multiple object tracking[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2020: 6247-6257.
[5] Weng X, Wang Y, Man Y, et al. GNN3DMOT: Graph Neural Network for 3D Multi-Object Tracking with Multi-Feature Learning[J]. arXiv preprint arXiv:2006.07327, 2020.
[6] Weng X, Yuan Y, Kitani K. Joint 3d tracking and forecasting with graph neural network and diversity sampling[J]. arXiv preprint arXiv:2003.07847, 2020.
[7] Wang Y, Weng X, Kitani K. Joint Detection and Multi-Object Tracking with Graph Neural Networks[J]. arXiv preprint arXiv:2006.13164, 2020.
更多閱讀
#投 稿?通 道#
?讓你的論文被更多人看到?
如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達(dá)讀者群體,縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢?答案就是:你不認(rèn)識(shí)的人。
總有一些你不認(rèn)識(shí)的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學(xué)者和學(xué)術(shù)靈感相互碰撞,迸發(fā)出更多的可能性。?
PaperWeekly 鼓勵(lì)高校實(shí)驗(yàn)室或個(gè)人,在我們的平臺(tái)上分享各類優(yōu)質(zhì)內(nèi)容,可以是最新論文解讀,也可以是學(xué)習(xí)心得或技術(shù)干貨。我們的目的只有一個(gè),讓知識(shí)真正流動(dòng)起來。
?????來稿標(biāo)準(zhǔn):
? 稿件確系個(gè)人原創(chuàng)作品,來稿需注明作者個(gè)人信息(姓名+學(xué)校/工作單位+學(xué)歷/職位+研究方向)?
? 如果文章并非首發(fā),請(qǐng)?jiān)谕陡鍟r(shí)提醒并附上所有已發(fā)布鏈接?
? PaperWeekly 默認(rèn)每篇文章都是首發(fā),均會(huì)添加“原創(chuàng)”標(biāo)志
?????投稿郵箱:
? 投稿郵箱:hr@paperweekly.site?
? 所有文章配圖,請(qǐng)單獨(dú)在附件中發(fā)送?
? 請(qǐng)留下即時(shí)聯(lián)系方式(微信或手機(jī)),以便我們?cè)诰庉嫲l(fā)布時(shí)和作者溝通
????
現(xiàn)在,在「知乎」也能找到我們了
進(jìn)入知乎首頁搜索「PaperWeekly」
點(diǎn)擊「關(guān)注」訂閱我們的專欄吧
關(guān)于PaperWeekly
PaperWeekly 是一個(gè)推薦、解讀、討論、報(bào)道人工智能前沿論文成果的學(xué)術(shù)平臺(tái)。如果你研究或從事 AI 領(lǐng)域,歡迎在公眾號(hào)后臺(tái)點(diǎn)擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
總結(jié)
以上是生活随笔為你收集整理的论文盘点:基于图卷积GNN的多目标跟踪算法解析的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 银行非柜面业务指什么
- 下一篇: 结合业务场景案例实践分析,倾囊相授美团B