日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 人文社科 > 生活经验 >内容正文

生活经验

MAML-Tracker: 目标跟踪分析:CVPR 2020(Oral)

發(fā)布時(shí)間:2023/11/28 生活经验 60 豆豆
生活随笔 收集整理的這篇文章主要介紹了 MAML-Tracker: 目标跟踪分析:CVPR 2020(Oral) 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

MAML-Tracker:
目標(biāo)跟蹤分析:CVPR 2020(Oral)

Tracking by Instance Detection: A Meta-Learning Approach

論文鏈接:https://arxiv.org/abs/2004.00830

摘要

把跟蹤問題看作一類特殊的目標(biāo)檢測(cè)問題,稱之為實(shí)例檢測(cè)。通過適當(dāng)?shù)某跏蓟?#xff0c;通過從單個(gè)圖像中學(xué)習(xí)新實(shí)例,可以將檢測(cè)快速轉(zhuǎn)換為跟蹤。發(fā)現(xiàn)模型不可知元學(xué)習(xí)(MAML)提供了一種策略來初始化滿足需求的檢測(cè)。提出一個(gè)原則性的三步方法來建立一個(gè)高性能的跟蹤。首先,選擇任何經(jīng)過梯度下降訓(xùn)練的現(xiàn)代目標(biāo)檢測(cè)。其次,使用MAML進(jìn)行離線訓(xùn)練(或初始化)。第三,使用初始幀執(zhí)行域自適應(yīng)。按照這個(gè)過程建立了兩個(gè)跟蹤,名為Retina MAML和FCOS-MAML,基于兩個(gè)現(xiàn)代跟蹤RetinaNet和FCOS。對(duì)四個(gè)基準(zhǔn)的評(píng)估表明,這兩個(gè)跟蹤都是最先進(jìn)的跟蹤的競(jìng)爭(zhēng)對(duì)手。在OTB-100上,Retina MAML達(dá)到了有史以來最高的AUC 0.712。在TrackingNet上,FCOS-MAML的AUC為0.757,標(biāo)準(zhǔn)化精度為0.822,在排行榜上排名第一。兩個(gè)跟蹤都以每秒40幀的速度實(shí)時(shí)運(yùn)行。

目標(biāo)跟蹤(Object tracking)與目標(biāo)檢測(cè)(Object detection)是計(jì)算機(jī)視覺中兩個(gè)經(jīng)典的基礎(chǔ)任務(wù)。跟蹤任務(wù)需要由用戶指定跟蹤目標(biāo),然后在視頻的每一幀中給出該目標(biāo)所在的位置,通常由一系列的矩形邊界框表示。而檢測(cè)任務(wù)旨在定位圖片中某幾類物體的坐標(biāo)位置。對(duì)物體的檢測(cè)、識(shí)別和跟蹤能夠有效地幫助機(jī)器理解圖片視頻的內(nèi)容,為后續(xù)的進(jìn)一步分析打下基礎(chǔ)。

圖1:目標(biāo)檢測(cè)與目標(biāo)跟蹤

跟蹤任務(wù)與檢測(cè)任務(wù)有著密切的關(guān)系。從輸入輸出的形式上來看,這兩個(gè)任務(wù)是極為相似的。它們均以圖片(或者視頻幀)作為模型的輸入,經(jīng)過處理后,輸出一堆代表目標(biāo)物體位置的矩形框。它們之間最大的區(qū)別體現(xiàn)在對(duì)“目標(biāo)物體”的定義上。對(duì)于檢測(cè)任務(wù)來說,目標(biāo)物體屬于預(yù)先定義好的某幾個(gè)類別,如圖1左圖所示;而對(duì)于跟蹤任務(wù)來說,目標(biāo)物體指的是在第一幀中所指定的跟蹤個(gè)體,如圖1右圖所示。實(shí)際上,如果將每一個(gè)跟蹤的個(gè)體當(dāng)成是獨(dú)立的一個(gè)類別的話,跟蹤任務(wù)甚至能被當(dāng)成是一種特殊的檢測(cè)任務(wù),稱為個(gè)體檢測(cè)(Instance Detection)。

外層梯度通過內(nèi)層計(jì)算圖反向傳播。因此,這種方法很容易適用于大多數(shù)基于深度學(xué)習(xí)的檢測(cè)器。圖2示出了該訓(xùn)練管道。在訓(xùn)練階段,只從數(shù)據(jù)集中抽取一對(duì)圖像。按照DaSiamRPN[45]的實(shí)踐,這兩幅圖像可能來自同一序列或不同序列。第一幅圖像將放大/縮小一個(gè)常數(shù)因子(在的實(shí)驗(yàn)中為1.08),這樣就可以構(gòu)建一個(gè)包含三幅圖像的支持集來進(jìn)行內(nèi)部?jī)?yōu)化。將第二圖像視為具有單個(gè)圖像的目標(biāo)集,用于計(jì)算外電平損耗。使用4步GD進(jìn)行內(nèi)部級(jí)優(yōu)化,Adam解算器[18]用于外部級(jí)優(yōu)化。為了穩(wěn)定訓(xùn)練,增強(qiáng)檢測(cè)器的檢測(cè)能力,對(duì)原始的MAML算法進(jìn)行了如下修改。

由于這種緊密的關(guān)系,近年來,許多目標(biāo)檢測(cè)的技術(shù)同樣能在目標(biāo)跟蹤領(lǐng)域大放異彩。例如檢測(cè)中的區(qū)域推薦網(wǎng)絡(luò)(RPN)模塊,就被雙路網(wǎng)絡(luò)跟蹤框架 SiamRPN 所借鑒;基于優(yōu)化的 IoUNet 檢測(cè)模塊,也在 ATOM 等跟蹤框架中取得了非常驚艷的效果。這些成功的應(yīng)用啟發(fā):與其在跟蹤器中使用一些檢測(cè)器的模塊,能否直接將檢測(cè)器直接應(yīng)用于目標(biāo)跟蹤任務(wù)?

解決小樣本問題

用檢測(cè)器模型去解決跟蹤問題,遇到的最大問題是訓(xùn)練數(shù)據(jù)不足。普通的檢測(cè)任務(wù)中,因?yàn)闄z測(cè)物體的類別是已知的,可以收集大量數(shù)據(jù)來訓(xùn)練。例如 VOC、COCO 等檢測(cè)數(shù)據(jù)集,都有著上萬張圖片用于訓(xùn)練。而如果將跟蹤視為一個(gè)特殊的檢測(cè)任務(wù),檢測(cè)物體的類別是由用戶在第一幀的時(shí)候所指定的。這意味著能夠用來訓(xùn)練的數(shù)據(jù)僅僅只有少數(shù)幾張圖片。這給檢測(cè)器帶來了很大的障礙。

在深度學(xué)習(xí)中,解決訓(xùn)練數(shù)據(jù)不足常用的一個(gè)技巧是“預(yù)訓(xùn)練-微調(diào)”(Pretraining-finetune),即大數(shù)據(jù)集上面預(yù)訓(xùn)練模型,然后在小數(shù)據(jù)集上去微調(diào)權(quán)重。但是,在訓(xùn)練數(shù)據(jù)極其稀少的時(shí)候(僅有個(gè)位數(shù)的訓(xùn)練圖片),這個(gè)技巧是無法奏效的。圖2展示了一個(gè)檢測(cè)模型預(yù)訓(xùn)練過后,在單張訓(xùn)練圖片上微調(diào)的過程:盡管訓(xùn)練集上逐漸收斂,但是檢測(cè)器仍無法檢測(cè)出測(cè)試圖片中的物體。這反映出了“預(yù)訓(xùn)練-微調(diào)”框架的泛化能力不足。

圖2:“預(yù)訓(xùn)練-微調(diào)”框架的泛化能力不足

為了解決訓(xùn)練數(shù)據(jù)不足的問題,引入了“與模型無關(guān)的元學(xué)習(xí)”(Model-agnostic meta-learning, MAML)。這個(gè)算法是近年來比較主流的小樣本學(xué)習(xí)(few-shot learning)算法。它的核心思想是,學(xué)習(xí)一個(gè)好的模型初始化權(quán)重,使得模型能夠在極少量的數(shù)據(jù)上面做幾步更新就收斂到一個(gè)非常好的結(jié)果。

在大數(shù)據(jù)集上預(yù)訓(xùn)練網(wǎng)絡(luò)權(quán)重的時(shí)候,MAML 算法采用了雙層優(yōu)化(Bilevel optimization)的策略。在每一輪迭代中,將一組訓(xùn)練樣本分為支撐集(Support set)以及目標(biāo)集(Target set)。檢測(cè)器模型先在支撐集上面去進(jìn)行固定次數(shù)的梯度下降迭代(一般為5步),再將更新過后的模型參數(shù)應(yīng)用在目標(biāo)集上,計(jì)算目標(biāo)集上的誤差。整體流程如圖3所示。在支撐集上,固定次數(shù)的梯度下降過程稱為里層優(yōu)化(Inner-level optimization);由目標(biāo)集上的誤差去更新模型參數(shù)的過程,稱為外層優(yōu)化(Outer-level optimization)。與普通的 SGD 方法相比,MAML 算法并不要求找到一組參數(shù),直接使得目標(biāo)集上誤差最小;相反的,它希望找到一組參數(shù),使其經(jīng)過幾步梯度下降迭代之后,在目標(biāo)集上誤差最小。這種雙層優(yōu)化的方式,迫使檢測(cè)器能夠通過在支撐集上的訓(xùn)練,泛化到目標(biāo)集上。

圖3:算法流程

通過 MAML 算法訓(xùn)練出來的初始化參數(shù)具有收斂快、泛化性能好的優(yōu)點(diǎn)。圖4的可視化結(jié)果充分說明了這一點(diǎn):僅僅經(jīng)過1步梯度下降的更新,檢測(cè)器就能收斂到一個(gè)不錯(cuò)的結(jié)果;更重要的是,它在測(cè)試圖片上仍然能夠工作得很好。

圖4:測(cè)試結(jié)果

訓(xùn)練過程與實(shí)驗(yàn)結(jié)果

解決了小樣本學(xué)習(xí)的問題,檢測(cè)器模型就能夠自然地應(yīng)用在跟蹤任務(wù)上。

第一步,挑選一個(gè)目標(biāo)檢測(cè)模型。MAML 算法對(duì)具體模型是沒有要求的,只需要滿足可用梯度下降更新的條件即可。

第二步,使用 MAML 算法,對(duì)該目標(biāo)檢測(cè)模型進(jìn)行預(yù)訓(xùn)練,找到一組較好的初始化的參數(shù)。

第三步,每輸入一段視頻,根據(jù)用戶在第一幀上指定的跟蹤目標(biāo),構(gòu)造訓(xùn)練數(shù)據(jù),并用這個(gè)訓(xùn)練數(shù)據(jù)來訓(xùn)練目標(biāo)檢測(cè)模型。把這一步稱之為域適應(yīng)(Domain adaptation).

第四步,對(duì)于后續(xù)的每一幀圖片,用訓(xùn)練好的檢測(cè)器去預(yù)測(cè)跟蹤目標(biāo)的位置。

在實(shí)驗(yàn)的過程中,選擇了 RetinaNet 和 FCOS 作為目標(biāo)檢測(cè)模型。它們分別是 Anchor-based 以及 Anchor-free 兩種類型檢測(cè)器的代表性工作。在 MAML 預(yù)訓(xùn)練初始化參數(shù)的過程中,還加入了一些額外的技巧來輔助訓(xùn)練。例如可學(xué)的學(xué)習(xí)率(Learnable learning rate)、多步梯度優(yōu)化(Multi-step
loss optimization)、梯度一階近似(First-order approximation)等等。這些技巧能夠有效地穩(wěn)定訓(xùn)練過程,提高模型的表達(dá)能力。感興趣的讀者可以參閱原始論文中的細(xì)節(jié)部分。

在實(shí)驗(yàn)中驚訝地發(fā)現(xiàn),通過這種簡(jiǎn)單的方式將檢測(cè)器應(yīng)用于目標(biāo)跟蹤,已經(jīng)能夠取得不錯(cuò)的效果。在 OTB-100、VOT-18 等多個(gè)數(shù)據(jù)集上,MAML 預(yù)訓(xùn)練的檢測(cè)器與普通 SGD 預(yù)訓(xùn)練的檢測(cè)器(記為 Baseline)進(jìn)行了詳細(xì)的對(duì)比,結(jié)果如表1所示。在做 Domain adaptation 之前, Baseline 和 MAML 的性能都比較低,這是因?yàn)榇藭r(shí)還沒有學(xué)到任何跟目標(biāo)物體相關(guān)的信息。經(jīng)過
Domain adaptation 之后,baseline 的檢測(cè)器性能有了小幅度的改善,而用 MAML 預(yù)訓(xùn)練的檢測(cè)器則遠(yuǎn)遠(yuǎn)優(yōu)于 domain adaptation 之前的結(jié)果。這充分說明了元學(xué)習(xí)的有效性。

表1:MAML 預(yù)訓(xùn)練的檢測(cè)器與 Baseline 的對(duì)比結(jié)果

在實(shí)驗(yàn)中,還進(jìn)一步探索了在線更新(online
updating)策略的有效性。所謂在線更新,即利用之前跟蹤的結(jié)果,收集訓(xùn)練數(shù)據(jù),用來再次訓(xùn)練檢測(cè)器。發(fā)現(xiàn),通過在線更新的方式,能夠進(jìn)一步地提升跟蹤的準(zhǔn)確度。當(dāng)然,正如表2所示,當(dāng)在線更新檢測(cè)器的分類分支(cls)或者回歸分支(reg)的時(shí)候,均會(huì)帶來效率上的降低。

表2:在線更新策略有效性的驗(yàn)證結(jié)果

將檢測(cè)器模型應(yīng)用于跟蹤任務(wù)上,得到的準(zhǔn)確率并不遜色于一些經(jīng)過精心設(shè)計(jì)的跟蹤器。在多個(gè)主流數(shù)據(jù)集上,均取得了超過或者接近當(dāng)時(shí)最好跟蹤器的性能。這些結(jié)果充分展示了“目標(biāo)檢測(cè)+小樣本學(xué)習(xí)”這個(gè)框架的威力。

近年來,目標(biāo)跟蹤技術(shù)的發(fā)展突飛猛進(jìn),在各大數(shù)據(jù)集的性能評(píng)測(cè)中有了長(zhǎng)足的進(jìn)步。一方面,目標(biāo)檢測(cè)技術(shù)的進(jìn)步給跟蹤器帶來了不小的幫助,許多目標(biāo)檢測(cè)的優(yōu)秀設(shè)計(jì)被應(yīng)用到了跟蹤領(lǐng)域,使物體坐標(biāo)的預(yù)測(cè)更加精確,如 SiamRPN、SPM、SiamFC++等等。另一方面,不少工作深入研究了如何利用少量樣本去學(xué)習(xí)一個(gè)可靠的目標(biāo)物體表征,如 MDNet,MetaTracker,ATOM 等等。在這篇文章中,借鑒了這兩個(gè)方向的研究,提出了一個(gè)簡(jiǎn)潔、統(tǒng)一而高效的框架“目標(biāo)檢測(cè)+小樣本學(xué)習(xí)≈目標(biāo)跟蹤”,希望能為目標(biāo)跟蹤的研究提供一個(gè)不一樣的視角。在這個(gè)框架下,還有許多問題仍值得探索,例如采用更好的小樣本學(xué)習(xí)算法、實(shí)例分割結(jié)合小樣本學(xué)習(xí)等等。也將在未來的工作進(jìn)一步發(fā)掘這一框架的潛能,打造一個(gè)更好、更快的目標(biāo)跟蹤算法。

總結(jié)

以上是生活随笔為你收集整理的MAML-Tracker: 目标跟踪分析:CVPR 2020(Oral)的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。