基于深度学习的多目标跟踪:从UMA Tracker出发谈谈SOT类MOT算法
?PaperWeekly 原創(chuàng) ·?作者|黃飄
學(xué)校|華中科技大學(xué)碩士生
研究方向|多目標(biāo)跟蹤
之前的文章中我們介紹了聯(lián)合檢測(cè)和跟蹤的多目標(biāo)跟蹤框架,這類框架最大優(yōu)勢(shì)在于可以利用優(yōu)秀的檢測(cè)器平衡不同觀測(cè)輸入的質(zhì)量。隨之又介紹了端到端的數(shù)據(jù)關(guān)聯(lián)類算法,這類算法的優(yōu)勢(shì)在于可以利用 MOT 數(shù)據(jù)信息緩解人工提取特征和計(jì)算特征距離的弊端。這次我們要介紹的是基于單目標(biāo)跟蹤(SOT)算法的 MOT 算法,這類算法的優(yōu)缺點(diǎn)可以看我下面的介紹。
前情回顧(FAMNet、DMAN)
1.1 DMAN
論文標(biāo)題:Online Multi-Object Tracking with Dual Matching Attention Network
論文來源:ECCV 2018
論文鏈接:https://arxiv.org/abs/1902.00749
代碼鏈接:https://github.com/jizhu1023/DMAN_MOT
DMAN 算法我不小心放在了數(shù)據(jù)關(guān)聯(lián)部分,這次我們簡(jiǎn)單回顧一下(具體可見上次的文章):
我覺得 DMAN 算法的主要特點(diǎn)在于:
利用 Bi-LSTM 網(wǎng)絡(luò)實(shí)現(xiàn)了觀測(cè)框與目標(biāo)軌跡歷史特征序列的端到端特征提取與比對(duì);
將基于改進(jìn)版 ECO 的 SOT 模塊嵌入了網(wǎng)絡(luò)中,其主要利用的是響應(yīng)圖信息,而響應(yīng)圖中包含有目標(biāo)的定位和分類信息;
在數(shù)據(jù)關(guān)聯(lián)部分,我們可以注意到存在兩個(gè)識(shí)別部分,作者稱之為時(shí)空注意力,其中時(shí)間注意力就是第一點(diǎn)中的 verfication 任務(wù),而空間注意力就對(duì)應(yīng)圖中的identification任務(wù) ,這里利用 SOT 輸出的響應(yīng)圖作為注意力 mask,分別基于特征預(yù)測(cè)了目標(biāo)身份信息。
對(duì)于第一點(diǎn),其實(shí)通過圖就可以明白,是通過對(duì)于歷史軌跡特征的質(zhì)量進(jìn)行自適應(yīng)評(píng)估,并對(duì)特征自動(dòng)融合。而對(duì)于第二點(diǎn),關(guān)于 SOT 如何融入網(wǎng)絡(luò),可以自行搜索 CFNet 等 SOT 網(wǎng)絡(luò)。而對(duì)于 ECO 算法,作者考慮到相似表觀目標(biāo)中容易出現(xiàn)的多峰問題進(jìn)行了改進(jìn):
即將處于目標(biāo)附近的 hard samples 的懲罰權(quán)重變大:
1.2 FAMNet
論文標(biāo)題:FAMNet: Joint Learning of Feature, Affinity and Multi-dimensional Assignment for Online Multiple Object Tracking
論文來源:ICCV 2019
論文鏈接:https://arxiv.org/abs/1904.04989
FAMNet 的結(jié)構(gòu)我們也介紹了,這里也總結(jié)他的特征:
對(duì)于相鄰幀中的每個(gè)目標(biāo),利用 Siamese 網(wǎng)絡(luò)進(jìn)行單目標(biāo)跟蹤,由此隱式獲取到目標(biāo)的表觀和位置信息,并基于響應(yīng)圖進(jìn)行特征比對(duì);
利用其提出的?R1TA Power Iteration Layer 降低連續(xù)多幀數(shù)據(jù)關(guān)聯(lián)的復(fù)雜度,并實(shí)現(xiàn)連續(xù)多幀的跟蹤訓(xùn)練。
STAM
論文標(biāo)題:Online Multi-Object Tracking Using CNN-based Single Object Tracker with Spatial-Temporal Attention Mechanism
論文來源:ICCV 2017
論文鏈接:https://arxiv.org/abs/1708.02843
STAM 算得上是一篇經(jīng)典的多目標(biāo)跟蹤算法,而且仔細(xì)閱讀之后還會(huì)發(fā)現(xiàn)一個(gè)亮點(diǎn)。其大致流程如下:
可以簡(jiǎn)單看出這里面涵蓋有運(yùn)動(dòng)模型、目標(biāo)特征提取、目標(biāo)空間注意力,以及目標(biāo)軌跡時(shí)間注意力等等模塊。
看完整個(gè)流程我驚了,尤其是 ROI Pooled Features 那一部分,比 Tracktor++ 提出得還早。通過將不同目標(biāo)映射到特征圖上進(jìn)行進(jìn)一步特征提取和位置回歸,只不過作者當(dāng)時(shí)并沒有從檢測(cè)入手,所以效果不突出。
其中運(yùn)動(dòng)模型其實(shí)就是一個(gè)在線更新的帶動(dòng)量的勻速模型:
對(duì)于空間注意力,作者主要考慮了遮擋問題,通過訓(xùn)練可視度響應(yīng)圖,由此作為特征的 mask,突出前景目標(biāo)特征:
對(duì)于時(shí)間注意力,則是軌跡層面的質(zhì)量考慮:
其通過 triplet loss 訓(xùn)練,既包含當(dāng)前幀內(nèi)的 neg 和 pos,還包含歷史幀的:
其中注意力計(jì)算如下:
對(duì)于具體的實(shí)驗(yàn)細(xì)節(jié),推薦大家去看作者的博士論文《基于深度學(xué)習(xí)的視頻多目標(biāo)跟蹤算法研究》。
LSST
論文標(biāo)題:Multi-Object Tracking with Multiple Cues and Switcher-Aware Classification
論文鏈接:https://arxiv.org/abs/1901.06129
LSST 中作者的出發(fā)點(diǎn)也是針對(duì)遮擋問題:
由于遮擋導(dǎo)致軌跡特征出現(xiàn)殘缺,甚至身份漂移。而作者的基礎(chǔ)跟蹤器則是 SiamRPN,因?yàn)榭於鴾?zhǔn)。。。
最左邊就是就 RPN 框架的 SiamRPN 框架,作者稱之為短期線索,這部分的質(zhì)量是通過下面的公式計(jì)算的:
而對(duì)于長(zhǎng)期線索,則自然是 ReID 所提取的表觀信息了。作者通過 ResNet18 設(shè)計(jì)了一個(gè)質(zhì)量評(píng)估網(wǎng)絡(luò),從而在目標(biāo)軌跡中選擇 K 個(gè)最好質(zhì)量的特征進(jìn)行比對(duì),當(dāng)然每個(gè)特征間保留了間距:
這樣就得到了 K 組相似度,基于以上的短期和長(zhǎng)期線索,作者利用?regularized Newton boosting decision tree?訓(xùn)練了一個(gè)分類器,由此進(jìn)行數(shù)據(jù)關(guān)聯(lián)。
KCF
論文標(biāo)題:Online Multi-Object Tracking with Instance-Aware Tracker and Dynamic Model Refreshment
論文來源:WACV 2019
論文鏈接:https://arxiv.org/abs/1902.08231
此 KCF 并非單目標(biāo)跟蹤中的核相關(guān)濾波算法,只是名字巧合罷了(論文里面沒說簡(jiǎn)稱,但是 MOT 官網(wǎng)寫的 KCF)。我們可以看到這篇論文的流程十分復(fù)雜:
整體來看包含了:
綜合前/背景相應(yīng)和SOT設(shè)計(jì)Instance-aware SOT跟蹤器:
這兩個(gè)響應(yīng)圖是直接基于嶺回歸算法疊加的:
然后利用 KCF 的求解方式對(duì)聯(lián)合模型進(jìn)行求解。
基于檢測(cè)的校正,即對(duì) SOT 結(jié)果和 Detection 信息利用 multicut 進(jìn)行數(shù)據(jù)關(guān)聯(lián),對(duì)于這類圖模型的構(gòu)建可以參照我之前寫的博客 [7]。有了目標(biāo)實(shí)際上就有了圖節(jié)點(diǎn),那么 SOT 模型就是為邊權(quán)而服務(wù)的:
其中 X 表示目標(biāo)軌跡,O 表示的是預(yù)測(cè)的目標(biāo)位置和觀測(cè)位置的集合,g 就是上面的聯(lián)合損失函數(shù)。即如果是相鄰幀之間的邊權(quán),則用 SOT 中的聯(lián)合損失函數(shù)值。如果是上一幀中目標(biāo)間的邊,則設(shè)置一個(gè)固定值。如果是當(dāng)前幀節(jié)點(diǎn)間的邊,則直接使用 IOU 代替。
模型更新
作者考慮到場(chǎng)景中可能存在的噪聲信息,導(dǎo)致 SOT 跟蹤結(jié)果不準(zhǔn),所以通過一個(gè) CNN 網(wǎng)絡(luò)判斷當(dāng)前 SOT 結(jié)果是否需要利用觀測(cè)信息進(jìn)行更新,如果需要,則采用觀測(cè)框。
有意思的是作者采用了強(qiáng)化學(xué)習(xí)的策略在線訓(xùn)練分類器。當(dāng)觀測(cè)框比預(yù)測(cè)框更精準(zhǔn),但是沒有更新,那么觀測(cè)框的特征和預(yù)測(cè)框的特征會(huì)被當(dāng)作 positive samples。當(dāng)預(yù)測(cè)框比觀測(cè)框更精準(zhǔn),但是卻更新了,那么就視為 negtive samples,樣本與部分訓(xùn)練集合并組成在線訓(xùn)練集進(jìn)行更新。特征是通過 ROI Pooling 進(jìn)行提取的。
當(dāng)然,如果當(dāng)前更新的權(quán)重并不適用于接下來的跟蹤,權(quán)重還會(huì)恢復(fù)如初。
目標(biāo)的管理
為了保證目標(biāo)從遮擋狀態(tài)恢復(fù),作者做了一個(gè)強(qiáng)假設(shè),即如果目標(biāo)因遮擋而丟失,那么在出現(xiàn)的那一幀的數(shù)據(jù)關(guān)聯(lián)中也沒有與之匹配的目標(biāo)。因此就可以跨幀匹配:
利用時(shí)間距離、位置形狀、IOU、直方圖等信息作為特征,通過 SVM 進(jìn)行分類判別。
效果如下:
UMA
論文標(biāo)題:A Unified Object Motion and Affinity Model for Online Multi-Object Tracking
論文來源:CVPR 2020
論文鏈接:https://arxiv.org/abs/2003.11291
代碼鏈接:https://github.com/yinjunbo/UMA-MOT
這篇文章實(shí)際上跟前面我所介紹的 DMAN 算法很像,都是想利用 SOT 實(shí)現(xiàn)表觀特征和運(yùn)動(dòng)信息的獲取,進(jìn)而實(shí)現(xiàn)在線的匹配關(guān)聯(lián):
整體流程也很相似,那么 UMA Tracker 所基于的單目標(biāo)跟蹤器是 SiamFC:
其中的特征提取都是采用的 AlexNet,從圖中可以看到:
對(duì)于正樣本對(duì)則采用 SOT 進(jìn)行跟蹤比對(duì),從而得到 SOT 部分的損失。
對(duì)于每個(gè)目標(biāo)樣本,還存在一個(gè) embedding 模塊,提取了 256 維的特征信息,進(jìn)而進(jìn)行 iidentification 的分類任務(wù);
利用 SENet 的機(jī)制,實(shí)現(xiàn) verification 任務(wù)。
可以看到,這個(gè)整體就是基于 SENet 的變種,結(jié)合 256 個(gè)通道注意力而設(shè)計(jì)的,可以看到訓(xùn)練得到的特征圖可視化效果還不錯(cuò):
其中第 2 行是跟蹤任務(wù)中的響應(yīng)圖(網(wǎng)絡(luò)第一行分支),第 3 行是相似度度量任務(wù)中的響應(yīng)圖(網(wǎng)絡(luò)第三行分支),所以 SOT 的任務(wù)跟偏向于定位和周圍環(huán)境信息的提取,而 Affinity 部分更偏向于前景目標(biāo)的部位。
對(duì)于跟蹤流程,作者同樣考慮了遮擋情況:
這里作者直接通過 affinity 相似度和 IOU 的變化情況估計(jì)了遮擋情況。另外,為了保證表觀特征部分的信息更準(zhǔn)確,作者利用 ROI Align 模塊,將特征圖上 SOT 預(yù)測(cè)出來的位置區(qū)域的目標(biāo)特征單獨(dú)獲取出來作為表觀特征的輸入。
最后在數(shù)據(jù)關(guān)聯(lián)部分,作者同樣考慮了跟蹤軌跡的歷史特征,不過使用方式比較簡(jiǎn)單:
通過均勻采樣,計(jì)算 K 組特征相似度,然后取平均作為最終的相似度。
總結(jié)
在 MOT 場(chǎng)景中,由于 Siamese 結(jié)構(gòu)的存在,使得 SOT 任務(wù)本身就自帶了定位和識(shí)別等信息,所以利用 SOT 替代運(yùn)動(dòng)模型和表觀模型的算法相繼涌現(xiàn)。另外,SOT 本身對(duì)于觀測(cè)缺乏的問題有一定的魯棒性,可以通過區(qū)域搜索得到暫時(shí)的目標(biāo)定位信息。
如果 SOT 本身的定位能力強(qiáng),比如 SiamRPN 這種,甚至都相當(dāng)于額外做了檢測(cè),所以基于 SOT 的算法理論上是可以跟基于檢測(cè)的框架一較高下的。但問題在于,基于 SOT 的 MOT 目前都是針對(duì)每個(gè)目標(biāo)進(jìn)行一次跟蹤,效率方面問題太大了,希望有后續(xù)研究可以解決這一點(diǎn)。
參考文獻(xiàn)
[1] Zhu J, Yang H, Liu N, et al. Online multi-object tracking with dual matching attention networks[C]. in: Proceedings of the European Conference on Computer Vision (ECCV). 2018. 366-382.
[2] Chu P, Ling H. Famnet: Joint learning of feature, affinity and multi-dimensional assignment for online multiple object tracking[C]. in: Proceedings of the IEEE International Conference on Computer Vision. 2019. 6172-6181.
[3] Chu Q, Ouyang W, Li H, et al. Online multi-object tracking using CNN-based single object tracker with spatial-temporal attention mechanism[C]. in: Proceedings of the IEEE International Conference on Computer Vision. 2017. 4836-4845.
[4] Feng W, Hu Z, Wu W, et al. Multi-object tracking with multiple cues and switcher-aware classification[J]. arXiv preprint arXiv:1901.06129, 2019.
[5] Chu P, Fan H, Tan C C, et al. Online multi-object tracking with instance-aware tracker and dynamic model refreshment[C]. in: 2019 IEEE Winter Conference on Applications of Computer Vision (WACV). IEEE, 2019. 161-170.
[6] Yin J, Wang W, Meng Q, et al. A Unified Object Motion and Affinity Model for Online Multi-Object Tracking[J]. arXiv preprint arXiv:2003.11291, 2020.
[7] https://zhuanlan.zhihu.com/p/111397247
點(diǎn)擊以下標(biāo)題查看更多往期內(nèi)容:?
基于深度學(xué)習(xí)的多目標(biāo)跟蹤算法:端到端的數(shù)據(jù)關(guān)聯(lián)
多目標(biāo)跟蹤領(lǐng)域近期值得讀的幾篇論文
淺談多目標(biāo)跟蹤中的相機(jī)運(yùn)動(dòng)
CVPR 2020 | 商湯TSD目標(biāo)檢測(cè)算法解讀
CVPR 2020 | 港中文提出3D目標(biāo)檢測(cè)新框架DSGN
NAS+目標(biāo)檢測(cè):AI設(shè)計(jì)的目標(biāo)檢測(cè)模型長(zhǎng)啥樣?
#投 稿?通 道#
?讓你的論文被更多人看到?
如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達(dá)讀者群體,縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢?答案就是:你不認(rèn)識(shí)的人。
總有一些你不認(rèn)識(shí)的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學(xué)者和學(xué)術(shù)靈感相互碰撞,迸發(fā)出更多的可能性。?
PaperWeekly 鼓勵(lì)高校實(shí)驗(yàn)室或個(gè)人,在我們的平臺(tái)上分享各類優(yōu)質(zhì)內(nèi)容,可以是最新論文解讀,也可以是學(xué)習(xí)心得或技術(shù)干貨。我們的目的只有一個(gè),讓知識(shí)真正流動(dòng)起來。
?????來稿標(biāo)準(zhǔn):
? 稿件確系個(gè)人原創(chuàng)作品,來稿需注明作者個(gè)人信息(姓名+學(xué)校/工作單位+學(xué)歷/職位+研究方向)?
? 如果文章并非首發(fā),請(qǐng)?jiān)谕陡鍟r(shí)提醒并附上所有已發(fā)布鏈接?
? PaperWeekly 默認(rèn)每篇文章都是首發(fā),均會(huì)添加“原創(chuàng)”標(biāo)志
?????投稿郵箱:
? 投稿郵箱:hr@paperweekly.site?
? 所有文章配圖,請(qǐng)單獨(dú)在附件中發(fā)送?
? 請(qǐng)留下即時(shí)聯(lián)系方式(微信或手機(jī)),以便我們?cè)诰庉嫲l(fā)布時(shí)和作者溝通
????
現(xiàn)在,在「知乎」也能找到我們了
進(jìn)入知乎首頁搜索「PaperWeekly」
點(diǎn)擊「關(guān)注」訂閱我們的專欄吧
關(guān)于PaperWeekly
PaperWeekly 是一個(gè)推薦、解讀、討論、報(bào)道人工智能前沿論文成果的學(xué)術(shù)平臺(tái)。如果你研究或從事 AI 領(lǐng)域,歡迎在公眾號(hào)后臺(tái)點(diǎn)擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
總結(jié)
以上是生活随笔為你收集整理的基于深度学习的多目标跟踪:从UMA Tracker出发谈谈SOT类MOT算法的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Gartner:到 2027 年,生成式
- 下一篇: 农业银行卡税务代扣是什么意思