當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

CVPR2021目标跟踪汇总(一)

發布時間：2023/12/14 编程问答 23 豆豆

生活随笔收集整理的這篇文章主要介紹了 CVPR2021目标跟踪汇总(一) 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

CVPR2021目標跟蹤匯總(一)

【1】Learning to Filter: Siamese Relation Network for Robust Tracking

論文地址：https://arxiv.org/abs/2104.00829
代碼： https://github.com/hqucv/siamrn

摘要

盡管基于暹羅的跟蹤器取得了巨大的成功，但它們在復雜場景下的性能仍然不令人滿意，尤其是在有干擾物的情況下。為此，我們提出了一種新的暹羅關系網絡，它引入了兩個有效的模塊，即關系檢測器和精化模塊。研發以元學習的方式進行，以獲得從背景中過濾干擾物的學習能力，而RM旨在將所提出的研發有效地集成到暹羅框架中，以生成準確的跟蹤結果。此外，為了進一步提高跟蹤器的可辨別性和魯棒性，我們引入了對比訓練策略，該策略不僅試圖學習匹配相同的目標，還試圖學習如何區分不同的對象。因此，當面對背景雜波、快速運動和遮擋時，我們的跟蹤器可以獲得準確的跟蹤結果。在VOT2018、VOT2019、OTB100、LaSOT和UAV123五個流行基準上的實驗結果表明，該方法是有效的，能夠獲得最先進的結果。

主要工作

【1】介紹了一種新的關系檢測器（RD），該檢測器通過基于少鏡頭學習的對比訓練策略來獲得從背景中過濾干擾物的能力。受益于研發，在跟蹤過程中，一旦給定目標的初始狀態，我們的跟蹤器就可以在雜亂的背景中區分目標，而無需進一步微調。
【2】為了整合研發和分類分支獲得的信息來細化跟蹤結果，我們設計了一個細化模塊（RM），該模塊可以聯合操作分類和回歸來定位目標，減少這兩個分支之間的不匹配。

網絡結構

暹羅關系網絡的跟蹤管道。提出了關系檢測器和聯合精化模塊。在跟蹤過程中，通過精確的投資回報率池[6]從回歸分支生成的提案特征輸入研發，以衡量與目標特定特征的關系。然后，我們將研發的輸出轉換為匹配分數，并在細化模塊中利用它來聯合操作回歸和分類分支，以預測目標位置。
關系檢測器的體系結構。它由三個不同的非線性比較器組成，分別命名為Gloabl檢測器、局部檢測器和Patch檢測器。我們通過這些檢測器測量目標和感興趣區域之間的關系，這些檢測器被元學習以過濾干擾物。每個檢測器最終生成一個分數來測量輸入對的關系。

結果

【2】STMTrack: Template-free Visual Tracking with Space-time Memory Networks

論文地址：https://arxiv.org/abs/2104.00324
代碼：https://github.com/fzh0917/STMTrack

摘要

如今，提高離線訓練的暹羅跟蹤器的性能變得越來越困難，因為從第一幀裁剪的模板的固定信息幾乎已經被徹底挖掘，但是它們抵抗目標外觀變化的能力很差。現有的具有模板更新機制的跟蹤器依賴耗時的數值優化和復雜的手工設計策略來實現競爭性能，這阻礙了它們的實時跟蹤和實際應用。在本文中，我們提出了一種新的基于時空記憶網絡的跟蹤框架，該框架能夠充分利用與目標相關的歷史信息，以更好地適應跟蹤過程中的外觀變化。具體來說，引入了一種新的存儲機制，存儲目標的歷史信息，引導跟蹤器聚焦在當前幀中信息量最大的區域。此外，內存網絡的像素級相似度計算使我們的跟蹤器能夠生成目標的更精確的邊界框。在具有挑戰性的大規模基準上，與許多競爭對手的追蹤器(OTB-2015、TrackingNet、GOT-10k、LaSOT、UAV123和VOT2018)進行了廣泛的實驗和比較，結果表明，沒有花哨的功能，我們的追蹤器在以37 FPS運行時，性能優于所有以前最先進的實時方法。

主要工作

【1】提出端到端記憶跟蹤框架，具有適應性和模板更新策略。
【2】在視覺跟蹤中引入了一種基于像素級相似度計算的新的存儲機制，使得我們的跟蹤器具有更強的魯棒性，并且能夠生成比以前許多使用特征映射級互相關的高性能方法更精確的目標框。

網絡結構

左側部分是特征提取網絡，由內存分支(以淺綠色顯示)和查詢分支(以淺藍色顯示)組成。內存分支將內存幀和相應的前景-背景標簽映射作為輸入。" concat "表示沿時間維度的串聯操作。中間部分是時空存儲網絡，它從多個存儲幀中檢索目標信息，用于查詢幀中的目標定位。右側是查詢幀的前景背景分類和目標邊界框回歸的頭部網絡。

結果

vot2018

【3】Transformer Tracking

論文地址：https://arxiv.org/abs/2103.15436
代碼：https://github.com/chenxin-dlut/TransT

摘要

相關性在跟蹤領域起著至關重要的作用，尤其是在最近流行的基于暹羅的跟蹤器中。相關運算是一種考慮模板和搜索區域相似性的簡單融合方式。然而，相關運算本身是一個局部線性匹配過程，導致語義信息丟失，容易陷入局部最優，這可能是設計高精度跟蹤算法的瓶頸。有沒有比相關性更好的特征融合方法？為了解決這個問題，受Transformer的啟發，本文提出了一種新的基于注意力的特征融合網絡，該網絡僅使用注意力就能有效地將模板和搜索區域特征結合起來。具體而言，所提出的方法包括基于自我注意的自我上下文增強模塊和基于交叉注意的交叉特征增強模塊。最后，提出了一種基于類暹羅特征提取主干、設計的基于注意力的融合機制以及分類回歸頭的Transformer跟蹤方法。實驗表明，我們的TransT在六個具有挑戰性的數據集上取得了非常好的結果，尤其是在大規模的LaSOT、TrackingNet和GOT-10k基準上。我們的跟蹤器在圖形處理器上以大約50華氏度/秒的速度運行。

主要工作

【1】提出新的跟蹤框架，包括特征提取模塊、融合模塊和頭部預測模塊三部分。融合模塊僅使用注意力來組合模板和搜索區域特征，而沒有相關性。
【2】開發了基于自注意力機制上下文增強模塊和交叉關注的交叉特征增強模塊的特征融合網絡。與基于相關性的特征融合相比，基于注意力的方法自適應地聚焦有用信息，如邊緣和相似目標，并在遠處特征之間建立關聯，使跟蹤器獲得更好的分類和回歸結果。

網絡結構

左:ECA模塊。右圖:CFA模塊。ECA模塊基于剩余形式的多頭自我關注。CFA模塊基于多頭交叉注意力和剩余形式的FFN。輸入Xqreceives來自CFA所在分支的特征，Xkvreceives來自另一個分支的特征。空間位置編碼用于編碼位置信息。ECA增強輸入的上下文信息，CFA自適應地融合來自兩個分支的特征。

結果

【4】Transformer Tracking

論文地址：https://arxiv.org/abs/2104.14545
代碼：https://github.com/researchmm/LightTrack

摘要

在過去的幾年中，目標跟蹤取得了顯著的進步。然而，最先進的跟蹤器變得越來越笨重和昂貴，這限制了它們在資源受限的應用程序中的部署。在這項工作中，我們提出了LightTrack，它使用神經架構搜索(NAS)來設計更輕量級和更高效的對象跟蹤器。綜合實驗表明，我們的LightTrack是有效的。它可以找到與手工制作的SOTA追蹤器相比性能更好的追蹤器，如SiamRPN++ [30]和Ocean [56]，同時使用更少的模型Flops和參數。此外，當部署在資源受限的移動芯片組上時，發現的跟蹤器運行得更快。例如，在驍龍845腎上腺素圖形處理器上，光線跟蹤比海洋快12倍，同時使用的參數少13倍，觸發器少38倍。這種改進可能會縮小目標跟蹤任務中學術模型和工業部署之間的差距。

主要工作

【1】提出自動化設計神經架構的目標跟蹤。
【2】設計了輕量型搜索空間和專用搜索方法。

網絡結構

LightTrack包括三個連續的階段:預處理骨干超網，訓練跟蹤超網，以及用進化算法對訓練好的超網進行搜索。

消融實驗

1)大約有50%的主干塊使用內核大小為7x7的MBConv。潛在的原因可能是大的感受野可以提高定位精度。
2)搜索到的架構選擇倒數第二塊作為特征輸出層。這可能表明跟蹤網絡可能不喜歡高級功能。
3)分類分支比回歸分支包含更少的層。這可能是由于粗略的對象定位比精確的包圍盒回歸相對容易。

結果

vot2019

【5】Alpha-Refine: Boosting Tracking Performance by Precise Bounding Box Estimation

論文地址：https://openaccess.thecvf.com/content/CVPR2021/papers/Yan_Alpha-Refine_Boosting_Tracking_Performance_by_Precise_Bounding_Box_Estimation_CVPR_2021_paper.pdf
代碼：https://github.com/MasterBin-IIAU/AlphaRefine

摘要

視覺目標跟蹤旨在精確估計給定目標的包圍盒，由于變形和遮擋等因素，這是一個具有挑戰性的問題。許多最近的跟蹤器采用多階段策略來改進包圍盒估計。這些方法首先粗略地定位目標，然后在隨后的階段中細化初始預測。然而，現有方法的精度仍然有限，不同階段的耦合嚴重限制了方法的可移植性。該工作提出了一種新穎、靈活、精確的細化模塊——阿爾法細化(Alpha-Refine，AR)，可以顯著提高基礎跟蹤器的盒子估計質量。通過探索一系列設計選項，我們得出結論，成功細化的關鍵是盡可能提取和維護詳細的空間信息。遵循這一原則，Alpha-Refine采用像素相關、角點預測頭和輔助蒙版頭作為核心組件。在TrackingNet、LaSOT、GOT-10K和VOT2020基準上使用多個基本跟蹤器的綜合實驗表明，我們的方法在幾乎沒有額外延遲的情況下顯著提高了基本跟蹤器的性能。所提出的Alpha-Refine方法導致了一系列的增強跟蹤程序，其中ARSiamRPN(增強的SiamRPNpp)和ARDiMP50(增強的DiMP50)實現了良好的效率-精度平衡，而ARDiMPsuper(增強的DiMPsuper)在實時速度下實現了非常有競爭力的性能。

主要工作

提出一種精細化模塊，通過提取和保持精確的空間信息提高跟蹤框精度。
【1】特征融合模塊：采用像素級相似度對比方式，保留目標邊界和其他詳細的空間信息。達到保證每個相關圖上的局部信息，同時避免特征模糊的目的。
【2】跟蹤框預測方式：1）引入角點檢測方式，采用conv-bn-relu四層堆疊的方式對左上角和右下角熱力圖進行預測。通過soft-argmax方式使模型依據離散熱力圖預測出連續值，有效避免了RPN中的不一致問題。2）引入輔助掩碼，與搜索區域保證相同尺寸，提取更詳細的空間信息，同時指導模型更好完成前景、背景的辨別工作。

網絡結構

網絡整體結構圖

三種特征相關性比較方法

跟蹤框預測方式對比

結果

【6】Graph Attention Tracking

論文地址：https://openaccess.thecvf.com/content/CVPR2021/papers/Guo_Graph_Attention_Tracking_CVPR_2021_paper.pdf
代碼：https://git.io/SiamGAT

摘要

基于暹羅網絡的跟蹤器將視覺跟蹤任務公式化為相似性匹配問題。幾乎所有流行的暹羅跟蹤器都是通過目標分支和搜索分支之間的卷積特征互相關來實現相似性學習的。然而，由于目標特征區域的大小需要預先確定，這些基于互相關的方法要么保留了大量不利的背景信息，要么丟失了大量的前景信息。此外，目標和搜索區域之間的全局匹配也在很大程度上忽略了目標結構和部分級信息。為了解決上述問題，我們提出了一種簡單的目標感知暹羅圖注意力網絡用于一般目標跟蹤。我們提出用一個完整的二分圖建立目標和搜索區域之間的部分-部分對應關系，并應用圖關注機制將目標信息從模板特征傳播到搜索特征。此外，我們研究了一種目標感知區域選擇機制，以適應不同對象的大小和縱橫比變化，而不是使用預先固定的區域裁剪進行模板-特征區域選擇。在包括GOT-10k、UAV123、OTB-100和LaSOT在內的具有挑戰性的基準測試上的實驗表明，所提出的SiamGAT優于許多一流的跟蹤器并具有領先的性能。

主要工作

【1】提出了一個圖關注模塊(GAM)來實現信息嵌入的部分對部分匹配。與傳統的基于互相關的方法相比，該方法可以大大消除其缺點，有效地將目標信息從模板傳遞到搜索區域。
【2】與傳統固定全局特征進行比對的方式相比，提出可以適應不同目標橫縱比的跟蹤框架。

網絡結構

網絡主要由三部分組成：1）特征提取子網絡2）目標感知圖注意力模塊3）用于目標定位的分類-回歸子網絡。用一個完全二分圖建立了目標模板和搜索區域之間的部分對部分對應關系，針對不同尺寸目標可以更換模板長寬比，實現有效的信息嵌入，使搜索區域的每個部分能夠聚合來自目標的信息。

結果

【7】CapsuleRRT: Relationships-aware Regression Tracking via Capsules

論文地址：https://openaccess.thecvf.com/content/CVPR2021/papers/Ma_CapsuleRRT_Relationships-Aware_Regression_Tracking_via_Capsules_CVPR_2021_paper.pdf
代碼：

摘要

回歸跟蹤由于其易于實現的特點而得到了越來越多的關注，而現有的回歸跟蹤器很少考慮對象部分與完整對象之間的關系。當缺少目標對象的某些部分時，這將最終導致從目標對象漂移。最近，CapsNet由于其部分-對象關系機制，在圖像分類方面顯示了有希望的結果，而CapsNet即使在執行簡單任務時也具有較高的計算要求。因此，CapsNet對回歸跟蹤的原始適應是沒有意義的，因為這將嚴重影響跟蹤器的速度。為了解決這些問題，我們首先探索CapsNet賦予回歸跟蹤的時空關系。整個回歸框架稱為CapsularRT，由三部分組成。一種是S-Caps，它捕獲零件和對象之間的空間關系。同時，設計了一個T-Caps模塊來利用目標內部的時間關系。通過STCaps學習獲得目標的響應。此外，提出了一種預先引導的膠囊路由算法，為后續幀生成更精確的膠囊分配。除此之外，CapsNet中繁重的計算負擔通過一種知識提取姿勢矩陣壓縮策略來解決，該策略利用更少樣本的更緊密和更具區別性的表示。大量的實驗結果表明，CapsularRT在準確性和速度方面優于最先進的方法。

主要工作

【1】提出T-Caps和S-Caps模塊學習時空關系。

網絡結構

S-Caps通過給定的搜索區域提取空間關系。

總結

以上是生活随笔為你收集整理的CVPR2021目标跟踪汇总(一)的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

目标

上一篇：《iOS用户体验》总结与思考-改动版
下一篇： STM32——GPIO的CRL、CRH和