當前位置：首頁 > 人文社科 > 生活经验 >内容正文

生活经验

目标跟踪与分割

發布時間：2023/11/28 生活经验 38 豆豆

生活随笔收集整理的這篇文章主要介紹了目标跟踪与分割小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

目標跟蹤與分割

Fast Online Object Tracking and
Segmentation: A Unifying Approach

論文鏈接：

http://openaccess.thecvf.com/content_CVPR_2019/papers/Wang_Fast_Online_Object_Tracking_and_Segmentation_A_Unifying_Approach_CVPR_2019_paper.pdf

摘要

本文介紹了如何用一種簡單的方法實現視頻目標的實時跟蹤和半監督視頻目標分割。本文的方法被稱為SiamMask，通過增加二元分割任務的損失，改進了目前流行的全卷積siames目標跟蹤方法的模糊訓練過程。經過訓練后，SiamMask僅依賴于一個邊界框初始化并在線操作，以每秒55幀的速度生成與類無關的對象分割遮罩和旋轉邊界框。盡管其簡單、多功能和快速，本文的策略使本文能夠在VOT-2018上的實時跟蹤器中建立一個新的最先進的狀態，同時展示在DAVIS-2016和DAVIS-2017上的半監督視頻對象分割任務的競爭性能和最佳速度。

Introduction

本文提出了一種簡單的多任務學習方法SiamMask，旨在縮小任意目標跟蹤與VOS之間的差距。本文的方法的動機是基于完全卷積SiamMask網絡的快速跟蹤方法的成功[4]訓練了數百萬對視頻幀（例如[31，71，17，67]），以及最近YouTube VOS的可用性[64]，這是一個帶有像素注釋的大型視頻數據集。本文的目標是保持這些方法的靈活性和在線速度，同時顯著地重新定義它們對目標對象的表示，這僅限于簡單的軸對齊邊界框。為了實現這一目標，本文同時在三個任務上訓練SiamMask網絡，每個任務對應不同的策略，以在新的框架中建立目標對象和候選區域之間的對應關系。如Bertineto等人[4]的完全卷積方法，一個任務是以滑動窗口的方式學習目標對象和多個候選對象之間的相似性度量。

輸出是一個密集的響應映射，它只指示對象的位置，而不提供有關其空間范圍的任何信息。為了重新定義這些信息，本文同時學習兩個進一步的任務：使用區域建議網絡的邊界盒回歸[53，31]和類無關的二進制分割[49]。值得注意的是，二進制標簽只需要在飛行訓練期間計算分割損失，而不是在分割/跟蹤期間在線。在本文提出的架構中，每一個任務都由一個不同的分支來表示，這個分支從一個共享的CNN出發，導致最終的損失，這三個輸出相加。經過訓練后，SiamMask僅依賴于一個邊界框初始化，在線操作而無需更新，并以每秒55幀的速度生成對象分割遮罩和旋轉邊界框。

盡管簡單快速，但SiamMask在VOT-2018上為實時目標跟蹤問題建立了一個新的技術狀態。此外，與DAVIS-2016和DAVIS-2017上最近的半監督VOS方法相比，同樣的方法也非常有競爭力，同時以很大的優勢成為速度最快的方法。這個結果是通過一個簡單的邊界框初始化（與掩模相反）來實現的，并且沒有采用VOS方法通常使用的昂貴技術，例如微調[39、45、2、60]、數據增強[25、33]和光流[57、2、45、33、10]。

Methodology

為了實現在線可操作性和快速性，本文采用了Bertineto等人[4]的全卷積Siamese框架。此外，為了說明本文的方法與作為起點（例如[4，31，71，67，18]）的特定完全卷積方法是不可知的，本文將流行的SiamFC[4]和SiamRPN[31]作為兩個典型例子。

2.1. Fully-convolutional Siamese networks

SiamFC

Bertineto等人
[4] 提議使用柔性全卷積SiamFC網絡作為跟蹤系統的基本組成部分，該網絡將示例圖像z與（較大）搜索圖像x進行比較，以獲得密集的響應圖。z和x分別是以目標對象為中心的w×h裁剪和以目標最后估計位置為中心的較大裁剪。

2.2. SiamMask

與現有的基于低分辨率目標表示的跟蹤方法不同，本文論證了產生逐幀二值分割掩模的重要性。為此，本文證明，除了相似性分數和邊界框坐標外，全卷積連體網絡的行還可以對生成像素級二值掩模所需的信息進行編碼。這可以通過擴展現有的SiamMask跟蹤與一個額外的分支和損失。

重要的是，分割任務的網絡hφ由兩個1×1卷積層組成，一個具有256個信道，另一個具有632個信道（圖2）。這使得每一個像素分類能夠利用包含在整行中的信息，從而在x中擁有其對應的候選窗口的完整視圖，這對于消除看起來像目標的實例（如圖4的最后一行）之間的歧義至關重要，也稱為干擾器[52，71]。為了產生更精確的目標掩模，本文遵循了[50]的策略，該策略使用由上采樣層和跳過連接組成的多個增強模塊合并低分辨率和高分辨率特征。

雖然VOS基準需要二進制掩碼，但典型的跟蹤基準（如VOT[30]）需要一個邊界框作為目標對象的最終表示。本文考慮三種不同的策略從二進制掩碼生成一個邊界框（圖3）：

（1）軸對齊的邊框（最小最大值），

（2）旋轉最小邊界矩形（MBR）和

（3） VOT-2016[28]中提出的用于自動邊界框生成的優化策略。

2.3. Implementation details

網絡體系結構

對于本文的兩個變體，本文使用ResNet-50[20]直到第4階段的最終卷積層作為本文的主干fθ。為了獲得更深層的高空間分辨率，本文使用步長1的卷積將輸出步長減少到8。此外，本文通過擴大卷積來增加感受野[8]。在本文的模型中，本文在共享骨干網fθ上增加了一個非共享調整層（1×1 conv，256個輸出）。為了簡單起見，本文在式1中省略它。本文在附錄中更詳細地描述了網絡體系結構。訓練

與SiamFC[4]一樣，本文使用示例和搜索分別為127×127和255×255像素的圖像塊。在訓練過程中，本文隨機抖動樣本并搜索補丁。具體來說，本文考慮了隨機平移（高達±8像素）和重縮放（分別為2±1/8和2±1/4的示例和搜索）。網絡骨干網接受了ImageNet-1k分類任務的預先培訓。本文使用帶第一個預熱階段的SGD，在該階段中，前5個階段的學習率從10-3線性增加到5×10-3，然后在另外15個階段的學習率從對數下降到5×10-4。本文使用COCO[35]、ImageNet VID[54]和YouTube VOS[64]來訓練所有的模特。

推論

在跟蹤過程中，SiamMask只對每幀進行一次評估，沒有任何自適應。在本文的兩個變體中，本文使用在分類分支中獲得最大分數的位置來選擇輸出掩碼。然后，在應用每像素sigmoid后，本文以0.5的閾值對掩模分支的輸出進行二值化。在兩個分支變量中，對于第一個視頻幀之后的每個視頻幀，本文使用最小-最大框來確定輸出掩碼，并將其用作裁剪下一個幀搜索區域的參考。相反，在三分支變體中，本文發現更有效地利用box分支的最高得分輸出作為參考。

Experiments

在本節中，本文將評估本文在兩個相關任務上的方法：視覺對象跟蹤（在VOT-2016和VOT-2018上）和半監督視頻對象分割（在DAVIS2016和DAVIS-2017上）。本文分別用SiamMask-2B和SiamMask來指代本文的兩個分支和三個分支變體。

3.1. Evaluation for visual object tracking

在表1中，本文使用Min max、MBR和Opt方法比較了本文的三個分支變量（在第3.2節末尾和圖3中描述）。對于透視圖，本文還報告了作為固定和可變長寬比方法代表的SiamFC和SiamRPN的結果，以及三個能夠訪問每幀背景真實信息并作為不同表示策略上限的oracle。

（1）固定縱橫比oracle使用每幀地面真實區域和中心位置，但將縱橫比設置為第一幀之一，并生成一個軸對齊的邊界框。

（2）Minmax oracle使用旋轉的地面真值邊界框的最小包圍矩形來生成與軸對齊的邊界框。

（3）最后，MBR oracle使用地面真值的旋轉最小邊界矩形。注意，（1），（2）和（3）可以分別考慮SiamFC、SiamRPN和SiamMask的表示策略的性能上界。表1顯示本文的方法實現了最好的mIOU，不管使用的是框生成策略（圖3）。盡管SiamMask Opt提供了最高的IOU和mAP，但由于優化過程緩慢，它需要大量的計算資源[28]。SiamMask MBR的mAP@0.5iou為85.4，兩個完全卷積基線的w.r.t分別提高了+29和+9.2點。有趣的是，在0.7 IOU:+41.6和+18.4的較高精度范圍內，當考慮mAP時，差距顯著擴大。值得注意的是，本文的準確度結果與固定長寬比oracle相差不遠。此外，比較由oracles表示的上限性能，可以注意到，通過簡單地更改邊界框表示，有很大的改進空間（例如，固定縱橫比和MBR oracles之間+10.6%的mIOU改進）。總的來說，這項研究表明，MBR策略如何從對象的二進制掩碼中獲取旋轉的邊界框，與簡單地報告軸對齊邊界框的流行策略相比，具有顯著的優勢。
VOT-2018和-2016結果

在表2中，本文將SiamMask的兩個變體與MBR策略和SiamMask–Opt與最近在VOT-2018基準上發布的最新狀態跟蹤程序進行了比較。除非另有說明，否則SiamMask是指本文采用MBR策略的三分支變體。SiamMask的兩個變種都實現了出色的性能和實時運行。特別是，本文的三個分支變體的性能明顯優于最近表現最好的DaSiamRPN[71]，EAO達到0.380，運行速度為55 fps。即使沒有盒回歸分支，本文簡單的兩分支變體（SiamMask2B）也能達到0.334的高EAO，這與SA-Siam R[17]相當，并且優于已發表文獻中的任何其他實時方法。此外，SiamMask–Opt在EAO為0.387的情況下可以達到最佳性能，但運行速度只有5fps。這是預期的，因為盒子優化策略需要更多的計算來提供更高的IOU。

本文的模型在精度指標下尤其強大，顯示出相對于基于相關濾波器的跟蹤器CSRDCF[37]和STRCF[32]的顯著優勢。這并不奇怪，因為SiamMask依賴于更豐富的對象表示，如表1所示。有趣的是，與本文相似的是，（SA Siam R）[17]通過考慮多個旋轉和重新縮放的邊界框來實現更精確的目標表示。但是，它們的表示仍被限制在固定長寬比框中。表3給出了在VOT-2018和-2016上采用不同盒子生成策略的SiamMask的進一步結果。SiamMask box是指在對掩碼分支進行訓練的情況下，采用SiamMask的box分支進行推理。本文可以通過使用mask分支來生成框，觀察到所有評估指標的明顯改進。

3.2. Evaluation for semi-supervised VOS

本文的模型，一旦訓練，也可以用于VOS的任務，以實現競爭性能，而不需要在測試時進行任何調整。重要的是，與典型的VOS方法不同，本文的方法可以在線操作，實時運行，只需要簡單的邊界框初始化。

數據集和設置

本文報告了SiamMask在DAVIS-2016[46]、DAVIS-2017[51]和YouTube VOS[64]基準上的表現。對于這兩個DAVIS數據集，本文使用了官方性能度量：Jaccard索引（J）表示區域相似性，F度量（F）表示輪廓精度。對于每個測度C∈{J，F}，考慮了三個統計量：平均CM、回憶CO和衰減CD，這三個統計量告訴本文隨著時間的推移性能的增益/損失[46]。在[64]之后，YouTube VOS上的最終結果O是四個指標的平均值：J表示已見類別，F表示已見類別，J表示未見類別，F表示未見類別。為了初始化SiamMask，本文從第一幀提供的掩碼中提取軸對齊的邊界框（最小最大策略，圖3）。與大多數VOS方法類似，如果同一視頻（DAVIS-2017）中有多個對象，本文只需執行多個推斷。

DAVIS和YouTube VOS的結果

在半監督設置中，VOS方法使用二進制掩碼初始化[44]，其中許多方法在測試時需要計算密集型技術，例如finetuning[39、45、2、60]、數據增強[25、33]、對MRF/CRF的推斷[61、57、40、2]和光流[57、2、45、33、10]。因此，VOS技術需要幾分鐘來處理一個短序列并不少見。顯然，這些策略使得在線應用（這是本文的重點）變得不可能。因此，在本文的比較（表4、表5和表6）中，本文主要關注最新的快速方法。

這三個表顯示了SiamMask如何被視為在線VOS的一個強大基線。

首先，它幾乎比精確方法快兩個數量級，如OnAVOS[60]或SFL[11]。

其次，它與不采用精確調諧的最新VOS方法相比具有競爭力，同時其效率是最快方法（即OSMN[66]和RGMP[63]）的四倍。有趣的是，本文注意到SiamMask在DAVIS-2016和DAVIS-2017上的區域相似性（JD，）和輪廓精度（FD）均達到低衰減[46]。這表明本文的方法在時間上是穩健的，因此它適用于特別長的序列。VOT和DAVIS序列的SiamMask定性結果如圖4和附錄所示。盡管速度很快，SiamMask即使在有干擾的情況下也能產生精確的分割掩模。

3.3. Further analysis

在本節中，本文將介紹消融研究、失敗案例和本文方法的時間安排。網絡體系結構

在表7中，AN和RN表示本文是否使用AlexNet或ResNet-50作為共享主干fθ（圖2），而使用“w/o R”表示該方法不使用Pinheiro等人的增強策略。[50]。根據表7的結果，可以提出若干意見。

（1）表7中的第一組行表明，通過簡單地更新fθ的體系結構，可以實現重要的性能改進。然而，這是以速度為代價的，特別是對于SiamRPN。

（2） SiamMask-2B和SiamMask在其基線（fθ相同）SiamFC和SiamRPN上有顯著改善。

（3）有趣的是，Pinheiro等人[50]的競爭方法對于輪廓精度FM非常重要，但對于其他度量則不那么重要。

多任務訓練

為了理清多任務訓練的效果，本文又進行了兩個實驗。結果見表7和表3。為了實現這一點，本文在推理過程中修改了SiamMask的兩個變體，以便它們分別從score分支（SiamMask-2B-score）或box分支（SiamMask box）報告軸對齊的邊界框。因此，盡管經過訓練，但在引用期間不使用掩碼分支。

本文可以觀察到這兩種變體相對于它們的無掩模分支對應物（SiamFC和SiamRPN）如何獲得改進：在VOT2018上，兩個分支的EAO從0.251到0.265，三個分支的EAO從0.359到0.363。因此，這些差距完全是由于多任務培訓的好處。

時機

SiamMask在沒有對測試序列進行任何調整的情況下在線運行。在單個NVIDIA Titan X GPU上，本文分別測量了兩個分支和三個分支變體的平均每秒55幀和60幀的速度。注意，最大的計算負擔來自于特征提取器fθ。

失敗案例

最后，本文討論了兩個SiamMask失敗的場景：運動模糊和“非對象”模式（圖5）。盡管性質不同，但這兩種情況可以說是由于在諸如YouTube VOS[64]這樣的訓練集中完全缺乏類似的訓練樣本，該訓練集中在可以從前景中明確分割的對象上。

Conclusion

本文介紹了SiamMask，這是一種簡單的方法，使完全卷積的siamesk跟蹤器能夠生成目標對象的類不可知的二進制分割掩碼。本文展示了它如何成功地應用于視覺目標跟蹤和半監督視頻目標分割兩個任務，顯示出比最先進的跟蹤器更好的精度，同時，在VOS方法中速度最快。本文提出的SiamMask的兩個變體是用一個簡單的邊界框初始化的，在線操作，實時運行，不需要對測試序列進行任何調整。本文希望本文的工作能啟發進一步的研究，將視覺目標跟蹤和視頻目標分割這兩個問題結合起來考慮。

總結

以上是生活随笔為你收集整理的目标跟踪与分割的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

目标

上一篇：端到端全景分割
下一篇： Camera Calibration 相

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

生活经验

目标跟踪与分割

總結