目标跟踪与分割
目標跟蹤與分割
Fast Online Object Tracking and
Segmentation: A Unifying Approach
論文鏈接:
http://openaccess.thecvf.com/content_CVPR_2019/papers/Wang_Fast_Online_Object_Tracking_and_Segmentation_A_Unifying_Approach_CVPR_2019_paper.pdf
摘要
本文介紹了如何用一種簡單的方法實現(xiàn)視頻目標的實時跟蹤和半監(jiān)督視頻目標分割。本文的方法被稱為SiamMask,通過增加二元分割任務的損失,改進了目前流行的全卷積siames目標跟蹤方法的模糊訓練過程。經(jīng)過訓練后,SiamMask僅依賴于一個邊界框初始化并在線操作,以每秒55幀的速度生成與類無關的對象分割遮罩和旋轉邊界框。盡管其簡單、多功能和快速,本文的策略使本文能夠在VOT-2018上的實時跟蹤器中建立一個新的最先進的狀態(tài),同時展示在DAVIS-2016和DAVIS-2017上的半監(jiān)督視頻對象分割任務的競爭性能和最佳速度。
Introduction
本文提出了一種簡單的多任務學習方法SiamMask,旨在縮小任意目標跟蹤與VOS之間的差距。本文的方法的動機是基于完全卷積SiamMask網(wǎng)絡的快速跟蹤方法的成功[4]訓練了數(shù)百萬對視頻幀(例如[31,71,17,67]),以及最近YouTube VOS的可用性[64],這是一個帶有像素注釋的大型視頻數(shù)據(jù)集。本文的目標是保持這些方法的靈活性和在線速度,同時顯著地重新定義它們對目標對象的表示,這僅限于簡單的軸對齊邊界框。為了實現(xiàn)這一目標,本文同時在三個任務上訓練SiamMask網(wǎng)絡,每個任務對應不同的策略,以在新的框架中建立目標對象和候選區(qū)域之間的對應關系。如Bertineto等人[4]的完全卷積方法,一個任務是以滑動窗口的方式學習目標對象和多個候選對象之間的相似性度量。
輸出是一個密集的響應映射,它只指示對象的位置,而不提供有關其空間范圍的任何信息。為了重新定義這些信息,本文同時學習兩個進一步的任務:使用區(qū)域建議網(wǎng)絡的邊界盒回歸[53,31]和類無關的二進制分割[49]。值得注意的是,二進制標簽只需要在飛行訓練期間計算分割損失,而不是在分割/跟蹤期間在線。在本文提出的架構中,每一個任務都由一個不同的分支來表示,這個分支從一個共享的CNN出發(fā),導致最終的損失,這三個輸出相加。經(jīng)過訓練后,SiamMask僅依賴于一個邊界框初始化,在線操作而無需更新,并以每秒55幀的速度生成對象分割遮罩和旋轉邊界框。
盡管簡單快速,但SiamMask在VOT-2018上為實時目標跟蹤問題建立了一個新的技術狀態(tài)。此外,與DAVIS-2016和DAVIS-2017上最近的半監(jiān)督VOS方法相比,同樣的方法也非常有競爭力,同時以很大的優(yōu)勢成為速度最快的方法。這個結果是通過一個簡單的邊界框初始化(與掩模相反)來實現(xiàn)的,并且沒有采用VOS方法通常使用的昂貴技術,例如微調[39、45、2、60]、數(shù)據(jù)增強[25、33]和光流[57、2、45、33、10]。
- Methodology
為了實現(xiàn)在線可操作性和快速性,本文采用了Bertineto等人[4]的全卷積Siamese框架。此外,為了說明本文的方法與作為起點(例如[4,31,71,67,18])的特定完全卷積方法是不可知的,本文將流行的SiamFC[4]和SiamRPN[31]作為兩個典型例子。
2.1. Fully-convolutional Siamese networks
SiamFC
Bertineto等人
[4] 提議使用柔性全卷積SiamFC網(wǎng)絡作為跟蹤系統(tǒng)的基本組成部分,該網(wǎng)絡將示例圖像z與(較大)搜索圖像x進行比較,以獲得密集的響應圖。z和x分別是以目標對象為中心的w×h裁剪和以目標最后估計位置為中心的較大裁剪。
2.2. SiamMask
與現(xiàn)有的基于低分辨率目標表示的跟蹤方法不同,本文論證了產(chǎn)生逐幀二值分割掩模的重要性。為此,本文證明,除了相似性分數(shù)和邊界框坐標外,全卷積連體網(wǎng)絡的行還可以對生成像素級二值掩模所需的信息進行編碼。這可以通過擴展現(xiàn)有的SiamMask跟蹤與一個額外的分支和損失。
重要的是,分割任務的網(wǎng)絡hφ由兩個1×1卷積層組成,一個具有256個信道,另一個具有632個信道(圖2)。這使得每一個像素分類能夠利用包含在整行中的信息,從而在x中擁有其對應的候選窗口的完整視圖,這對于消除看起來像目標的實例(如圖4的最后一行)之間的歧義至關重要,也稱為干擾器[52,71]。為了產(chǎn)生更精確的目標掩模,本文遵循了[50]的策略,該策略使用由上采樣層和跳過連接組成的多個增強模塊合并低分辨率和高分辨率特征。
雖然VOS基準需要二進制掩碼,但典型的跟蹤基準(如VOT[30])需要一個邊界框作為目標對象的最終表示。本文考慮三種不同的策略從二進制掩碼生成一個邊界框(圖3):
(1)軸對齊的邊框(最小最大值),
(2)旋轉最小邊界矩形(MBR)和
(3) VOT-2016[28]中提出的用于自動邊界框生成的優(yōu)化策略。
2.3. Implementation details
網(wǎng)絡體系結構
對于本文的兩個變體,本文使用ResNet-50[20]直到第4階段的最終卷積層作為本文的主干fθ。為了獲得更深層的高空間分辨率,本文使用步長1的卷積將輸出步長減少到8。此外,本文通過擴大卷積來增加感受野[8]。在本文的模型中,本文在共享骨干網(wǎng)fθ上增加了一個非共享調整層(1×1 conv,256個輸出)。為了簡單起見,本文在式1中省略它。本文在附錄中更詳細地描述了網(wǎng)絡體系結構。 訓練
與SiamFC[4]一樣,本文使用示例和搜索分別為127×127和255×255像素的圖像塊。在訓練過程中,本文隨機抖動樣本并搜索補丁。具體來說,本文考慮了隨機平移(高達±8像素)和重縮放(分別為2±1/8和2±1/4的示例和搜索)。網(wǎng)絡骨干網(wǎng)接受了ImageNet-1k分類任務的預先培訓。本文使用帶第一個預熱階段的SGD,在該階段中,前5個階段的學習率從10-3線性增加到5×10-3,然后在另外15個階段的學習率從對數(shù)下降到5×10-4。本文使用COCO[35]、ImageNet VID[54]和YouTube VOS[64]來訓練所有的模特。
推論
在跟蹤過程中,SiamMask只對每幀進行一次評估,沒有任何自適應。在本文的兩個變體中,本文使用在分類分支中獲得最大分數(shù)的位置來選擇輸出掩碼。然后,在應用每像素sigmoid后,本文以0.5的閾值對掩模分支的輸出進行二值化。在兩個分支變量中,對于第一個視頻幀之后的每個視頻幀,本文使用最小-最大框來確定輸出掩碼,并將其用作裁剪下一個幀搜索區(qū)域的參考。相反,在三分支變體中,本文發(fā)現(xiàn)更有效地利用box分支的最高得分輸出作為參考。
- Experiments
在本節(jié)中,本文將評估本文在兩個相關任務上的方法:視覺對象跟蹤(在VOT-2016和VOT-2018上)和半監(jiān)督視頻對象分割(在DAVIS2016和DAVIS-2017上)。本文分別用SiamMask-2B和SiamMask來指代本文的兩個分支和三個分支變體。
3.1. Evaluation for visual object tracking
在表1中,本文使用Min max、MBR和Opt方法比較了本文的三個分支變量(在第3.2節(jié)末尾和圖3中描述)。對于透視圖,本文還報告了作為固定和可變長寬比方法代表的SiamFC和SiamRPN的結果,以及三個能夠訪問每幀背景真實信息并作為不同表示策略上限的oracle。
(1)固定縱橫比oracle使用每幀地面真實區(qū)域和中心位置,但將縱橫比設置為第一幀之一,并生成一個軸對齊的邊界框。
(2)Minmax oracle使用旋轉的地面真值邊界框的最小包圍矩形來生成與軸對齊的邊界框。
(3)最后,MBR oracle使用地面真值的旋轉最小邊界矩形。注意,(1),(2)和(3)可以分別考慮SiamFC、SiamRPN和SiamMask的表示策略的性能上界。表1顯示本文的方法實現(xiàn)了最好的mIOU,不管使用的是框生成策略(圖3)。盡管SiamMask Opt提供了最高的IOU和mAP,但由于優(yōu)化過程緩慢,它需要大量的計算資源[28]。SiamMask MBR的mAP@0.5iou為85.4,兩個完全卷積基線的w.r.t分別提高了+29和+9.2點。有趣的是,在0.7 IOU:+41.6和+18.4的較高精度范圍內,當考慮mAP時,差距顯著擴大。值得注意的是,本文的準確度結果與固定長寬比oracle相差不遠。此外,比較由oracles表示的上限性能,可以注意到,通過簡單地更改邊界框表示,有很大的改進空間(例如,固定縱橫比和MBR oracles之間+10.6%的mIOU改進)。總的來說,這項研究表明,MBR策略如何從對象的二進制掩碼中獲取旋轉的邊界框,與簡單地報告軸對齊邊界框的流行策略相比,具有顯著的優(yōu)勢。
VOT-2018和-2016結果
在表2中,本文將SiamMask的兩個變體與MBR策略和SiamMask–Opt與最近在VOT-2018基準上發(fā)布的最新狀態(tài)跟蹤程序進行了比較。除非另有說明,否則SiamMask是指本文采用MBR策略的三分支變體。SiamMask的兩個變種都實現(xiàn)了出色的性能和實時運行。特別是,本文的三個分支變體的性能明顯優(yōu)于最近表現(xiàn)最好的DaSiamRPN[71],EAO達到0.380,運行速度為55 fps。即使沒有盒回歸分支,本文簡單的兩分支變體(SiamMask2B)也能達到0.334的高EAO,這與SA-Siam R[17]相當,并且優(yōu)于已發(fā)表文獻中的任何其他實時方法。此外,SiamMask–Opt在EAO為0.387的情況下可以達到最佳性能,但運行速度只有5fps。這是預期的,因為盒子優(yōu)化策略需要更多的計算來提供更高的IOU。
本文的模型在精度指標下尤其強大,顯示出相對于基于相關濾波器的跟蹤器CSRDCF[37]和STRCF[32]的顯著優(yōu)勢。這并不奇怪,因為SiamMask依賴于更豐富的對象表示,如表1所示。有趣的是,與本文相似的是,(SA Siam R)[17]通過考慮多個旋轉和重新縮放的邊界框來實現(xiàn)更精確的目標表示。但是,它們的表示仍被限制在固定長寬比框中。表3給出了在VOT-2018和-2016上采用不同盒子生成策略的SiamMask的進一步結果。SiamMask box是指在對掩碼分支進行訓練的情況下,采用SiamMask的box分支進行推理。本文可以通過使用mask分支來生成框,觀察到所有評估指標的明顯改進。
3.2. Evaluation for semi-supervised VOS
本文的模型,一旦訓練,也可以用于VOS的任務,以實現(xiàn)競爭性能,而不需要在測試時進行任何調整。重要的是,與典型的VOS方法不同,本文的方法可以在線操作,實時運行,只需要簡單的邊界框初始化。
數(shù)據(jù)集和設置
本文報告了SiamMask在DAVIS-2016[46]、DAVIS-2017[51]和YouTube VOS[64]基準上的表現(xiàn)。對于這兩個DAVIS數(shù)據(jù)集,本文使用了官方性能度量:Jaccard索引(J)表示區(qū)域相似性,F度量(F)表示輪廓精度。對于每個測度C∈{J,F},考慮了三個統(tǒng)計量:平均CM、回憶CO和衰減CD,這三個統(tǒng)計量告訴本文隨著時間的推移性能的增益/損失[46]。在[64]之后,YouTube VOS上的最終結果O是四個指標的平均值:J表示已見類別,F表示已見類別,J表示未見類別,F表示未見類別。為了初始化SiamMask,本文從第一幀提供的掩碼中提取軸對齊的邊界框(最小最大策略,圖3)。與大多數(shù)VOS方法類似,如果同一視頻(DAVIS-2017)中有多個對象,本文只需執(zhí)行多個推斷。
DAVIS和YouTube VOS的結果
在半監(jiān)督設置中,VOS方法使用二進制掩碼初始化[44],其中許多方法在測試時需要計算密集型技術,例如finetuning[39、45、2、60]、數(shù)據(jù)增強[25、33]、對MRF/CRF的推斷[61、57、40、2]和光流[57、2、45、33、10]。因此,VOS技術需要幾分鐘來處理一個短序列并不少見。顯然,這些策略使得在線應用(這是本文的重點)變得不可能。因此,在本文的比較(表4、表5和表6)中,本文主要關注最新的快速方法。
這三個表顯示了SiamMask如何被視為在線VOS的一個強大基線。
首先,它幾乎比精確方法快兩個數(shù)量級,如OnAVOS[60]或SFL[11]。
其次,它與不采用精確調諧的最新VOS方法相比具有競爭力,同時其效率是最快方法(即OSMN[66]和RGMP[63])的四倍。有趣的是,本文注意到SiamMask在DAVIS-2016和DAVIS-2017上的區(qū)域相似性(JD,)和輪廓精度(FD)均達到低衰減[46]。這表明本文的方法在時間上是穩(wěn)健的,因此它適用于特別長的序列。VOT和DAVIS序列的SiamMask定性結果如圖4和附錄所示。盡管速度很快,SiamMask即使在有干擾的情況下也能產(chǎn)生精確的分割掩模。
3.3. Further analysis
在本節(jié)中,本文將介紹消融研究、失敗案例和本文方法的時間安排。 網(wǎng)絡體系結構
在表7中,AN和RN表示本文是否使用AlexNet或ResNet-50作為共享主干fθ(圖2),而使用“w/o R”表示該方法不使用Pinheiro等人的增強策略。[50]。 根據(jù)表7的結果,可以提出若干意見。
(1)表7中的第一組行表明,通過簡單地更新fθ的體系結構,可以實現(xiàn)重要的性能改進。然而,這是以速度為代價的,特別是對于SiamRPN。
(2) SiamMask-2B和SiamMask在其基線(fθ相同)SiamFC和SiamRPN上有顯著改善。
(3)有趣的是,Pinheiro等人[50]的競爭方法對于輪廓精度FM非常重要,但對于其他度量則不那么重要。
多任務訓練
為了理清多任務訓練的效果,本文又進行了兩個實驗。結果見表7和表3。為了實現(xiàn)這一點,本文在推理過程中修改了SiamMask的兩個變體,以便它們分別從score分支(SiamMask-2B-score)或box分支(SiamMask box)報告軸對齊的邊界框。因此,盡管經(jīng)過訓練,但在引用期間不使用掩碼分支。
本文可以觀察到這兩種變體相對于它們的無掩模分支對應物(SiamFC和SiamRPN)如何獲得改進:在VOT2018上,兩個分支的EAO從0.251到0.265,三個分支的EAO從0.359到0.363。因此,這些差距完全是由于多任務培訓的好處。
時機
SiamMask在沒有對測試序列進行任何調整的情況下在線運行。在單個NVIDIA Titan X GPU上,本文分別測量了兩個分支和三個分支變體的平均每秒55幀和60幀的速度。注意,最大的計算負擔來自于特征提取器fθ。
失敗案例
最后,本文討論了兩個SiamMask失敗的場景:運動模糊和“非對象”模式(圖5)。盡管性質不同,但這兩種情況可以說是由于在諸如YouTube VOS[64]這樣的訓練集中完全缺乏類似的訓練樣本,該訓練集中在可以從前景中明確分割的對象上。
- Conclusion
本文介紹了SiamMask,這是一種簡單的方法,使完全卷積的siamesk跟蹤器能夠生成目標對象的類不可知的二進制分割掩碼。本文展示了它如何成功地應用于視覺目標跟蹤和半監(jiān)督視頻目標分割兩個任務,顯示出比最先進的跟蹤器更好的精度,同時,在VOS方法中速度最快。本文提出的SiamMask的兩個變體是用一個簡單的邊界框初始化的,在線操作,實時運行,不需要對測試序列進行任何調整。本文希望本文的工作能啟發(fā)進一步的研究,將視覺目標跟蹤和視頻目標分割這兩個問題結合起來考慮。
總結
- 上一篇: 端到端全景分割
- 下一篇: Camera Calibration 相