當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

【达摩院OpenVI】视频目标渐进式Transformer跟踪器ProContEXT

發布時間：2024/3/13 编程问答 42 豆豆

生活随笔收集整理的這篇文章主要介紹了【达摩院OpenVI】视频目标渐进式Transformer跟踪器ProContEXT 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

論文&代碼

論文鏈接：[arxiv]
代碼&應用：
- 開源代碼：[github code]
- 開源應用：[modelscope]

背景介紹

視頻目標跟蹤（Video Object Tracking, VOT）任務以一段視頻和第一幀中待跟蹤目標的位置信息（矩形框）作為輸入，在后續視頻幀中預測該跟蹤目標的精確位置。該任務對跟蹤目標的類別沒有限制，目的在于跟蹤感興趣的目標實例。該算法在學術界和工業界都是非常重要的一個研究課題，在自動駕駛、人機交互、視頻監控領域都有廣泛應用。

由于輸入視頻的多樣性，目標跟蹤算法需要適應諸如尺度變化、形狀變化、光照變化、遮擋等諸多挑戰。特別是在待跟蹤目標外觀變化劇烈、周圍存在相似物體干擾的情況下，跟蹤算法的精度往往急劇下降，甚至出現跟蹤失敗的情況。如圖1所示，對于一個輸入視頻，待跟蹤跟蹤物體（紅色虛線圓）會隨著時間而產生劇烈變化，相比于初始幀中的目標外觀，待跟蹤幀中的目標外觀會與中間幀的目標外觀更相似，因此中間幀的目標外觀形態是一個非常好的時域上下文信息。另外，對于跟蹤過程中目標物體周圍的空域上下文信息對算法鑒別相似物體和干擾背景有很大的幫助。

方法介紹

最近，一些基于Transformer網絡的視頻目標跟蹤算法，比如OSTrack^[¹^], MixFormer^[²^], STARK^[³^]等，展現了較高的算法精度，基于之前的研究工作，本文提出了ProContEXT(Progressive Context Encoding Transformer Tracker)，把時域上下文信息和空域上下文信息共同引入到Transformer網絡中。

ProContEXT的整體結構如圖2所示，該方法具有如下的特點：

ProContEXT是一種漸進式上下文感知的Transformer跟蹤器，在Transfomer跟蹤器中利用了動態的時域信息和多樣的空域信息進行特征提取，從而能獲得更加魯邦的跟蹤特征。

ProContEXT通過改進ViT主干網絡，在輸入中增加了多尺度靜態模板(static templates)和多尺度動態模板(dynamic templates)，并通過上下文感知的自注意力機制模塊充分利用視頻跟蹤過程中目標的時域上下文和空域上下文信息。通過漸進式的模板優化和更新機制，跟蹤器能快速適應目標的外觀變化。

ProContEXT在多個公開數據集中（TrackingNet和GOT-10k）獲得SOTA性能，并且運行效率完全達到實時要求，速度為54.3FPS.

實驗結果

本文基于TrackingNet和GOT-10k數據集進行算法實驗，完全遵守各數據集的使用準則。

SOTA對比

首先，與目前SOTA方法的對比如下表所示，ProContEXT在TrackingNet數據集和在GOT-10K數據集均超過對比的算法，達到SOTA精度。

消融實驗

本文對靜態模板數目進行了消融實驗，結果如下表所示，當使用2個靜態模板時，效果最佳。表中實驗數據說明當使用更多靜態模板數目時，會引入冗余信息，導致跟蹤效果下降。

另外，對動態模板的數目和尺度也進行了消融實驗，結果如下表所示，當加入動態模板時，跟蹤算法精度均有提升，并且使用兩個尺度的動態模板比只使用單個尺度算法精度有進一步提升。

最后，對于算法中使用到的令牌修剪模塊中的超參也進行了探索，實驗結果如下表所示，當參數為0.7時達到算法精度和效率的最加平衡。

模型傳送門

視頻跟蹤模型：

視頻單目標跟蹤ProContEXT：https://modelscope.cn/models/damo/cv_vitb_video-single-object-tracking_procontext/summary
視頻單目標跟蹤OSTrack：https://modelscope.cn/models/damo/cv_vitb_video-single-object-tracking_ostrack/summary
視頻多目標跟蹤FairMOT：https://modelscope.cn/models/damo/cv_yolov5_video-multi-object-tracking_fairmot/summary

檢測相關模型：

實時目標檢測模型YOLOX：https://modelscope.cn/models/damo/cv_cspnet_image-object-detection_yolox/summary
高精度目標檢測模型DINO：https://modelscope.cn/models/damo/cv_swinl_image-object-detection_dino/summary
實時目標檢測模型DAMO-YOLO：https://modelscope.cn/models/damo/cv_tinynas_object-detection_damoyolo/summary
垂直行業目標檢測模型：https://modelscope.cn/models?page=1&tasks=vision-detection-tracking%3Adomain-specific-object-detection&type=cv

關鍵點相關模型：

2D人體關鍵點檢測模型-HRNet: https://modelscope.cn/models/damo/cv_hrnetv2w32_body-2d-keypoints_image/summary
2D人臉關鍵點檢測模型-MobileNet：https://modelscope.cn/models/damo/cv_mobilenet_face-2d-keypoints_alignment/summary
2D手部關鍵點檢測模型-HRNet：https://modelscope.cn/models/damo/cv_hrnetw18_hand-pose-keypoints_coco-wholebody/summary
3D人體關鍵點檢測模型-HDFormer：https://modelscope.cn/models/damo/cv_hdformer_body-3d-keypoints_video/summary
3D人體關鍵點檢測模型-TPNet：https://modelscope.cn/models/damo/cv_canonical_body-3d-keypoints_video/summary

智能通行模型：

https://modelscope.cn/models/damo/cv_ddsar_face-detection_iclr23-damofd/summary
https://modelscope.cn/models/damo/cv_resnet50_face-detection_retinaface/summary
https://modelscope.cn/models/damo/cv_resnet101_face-detection_cvpr22papermogface/summary
https://modelscope.cn/models/damo/cv_manual_face-detection_tinymog/summary
https://modelscope.cn/models/damo/cv_manual_face-detection_ulfd/summary
https://modelscope.cn/models/damo/cv_manual_face-detection_mtcnn/summary
https://modelscope.cn/models/damo/cv_resnet_face-recognition_facemask/summary
https://modelscope.cn/models/damo/cv_ir50_face-recognition_arcface/summary
https://modelscope.cn/models/damo/cv_manual_face-liveness_flir/summary
https://modelscope.cn/models/damo/cv_manual_face-liveness_flrgb/summary
https://modelscope.cn/models/damo/cv_manual_facial-landmark-confidence_flcm/summary
https://modelscope.cn/models/damo/cv_vgg19_facial-expression-recognition_fer/summary
https://modelscope.cn/models/damo/cv_resnet34_face-attribute-recognition_fairface/summary

更多模型詳見 ModelScope 主頁。

檢測套件開發工具

ModelScope社區視覺檢測開發套件AdaDet已發布。

參考文獻

[1] Ye B, Chang H, Ma B, et al., “Joint feature learning and relation modeling for tracking: A one-stream framework”, in ECCV 2022, pp. 341-357.

[2] Cui Y, Jiang C, Wang L, et al., “Mixformer: End-to-end tracking with iterative mixed attention”, in CVPR 2022, pp. 13608-13618.

[3] Yan B, Peng H, Fu J, et al., “Learning spatio-temporal transformer for visual tracking”, in ICCV 2021, pp. 10448-10457.

總結

以上是生活随笔為你收集整理的【达摩院OpenVI】视频目标渐进式Transformer跟踪器ProContEXT的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： python模拟登录注册知网
下一篇： python-matplotlib制作图