商汤科技 中科院自动化所:视觉跟踪之端到端的光流相关滤波 | CVPR 2018
作者丨朱政
學(xué)校丨中科院自動(dòng)化所博士生
單位丨商湯科技
研究方向丨視覺(jué)目標(biāo)跟蹤及其在機(jī)器人中的應(yīng)用
本文主要介紹我們發(fā)表于 CVPR 2018 上的一篇文章:一種端到端的光流相關(guān)濾波跟蹤算法。據(jù)我們所知,這是第一篇把 Flow 提取和 tracking 任務(wù)統(tǒng)一在一個(gè)網(wǎng)絡(luò)里面的工作。
■?論文 | End-to-end Flow Correlation Tracking with Spatial-temporal Attention
■ 鏈接 | https://www.paperweekly.site/papers/1825
■ 作者 | Zheng Zhu / Wei Wu / Wei Zou / Junjie Yan
論文動(dòng)機(jī)
首先是 motivation,近兩年 DCF+CNN 的 tracker 在 tracking 的社區(qū)里面一直是標(biāo)配,但我們注意到幾乎所有的 tracker 都只用到了 RGB 信息,很少有用到視頻幀和幀之間豐富的運(yùn)動(dòng)信息,這就導(dǎo)致了 tracker 在目標(biāo)遇到運(yùn)動(dòng)模糊或者部分遮擋的時(shí)候,performance 只能依靠離線 train 的 feature 的質(zhì)量,魯棒性很難保證。
于是我們就想利用視頻中的運(yùn)動(dòng)信息(Flow)來(lái)補(bǔ)償這些情況下 RGB 信息的不足,來(lái)提升 tracker 的 performance。
具體來(lái)說(shuō),我們首先利用歷史幀和當(dāng)前幀得到 Flow,利用 Flow 信息把歷史幀 warp 到當(dāng)前幀,然后將 warp 過(guò)來(lái)的幀和本來(lái)的當(dāng)前幀進(jìn)行融合,這樣就得到了當(dāng)前幀不同 view 的特征表示,然后在 Siamese 和 DCF 框架下進(jìn)行 tracking。
▲?FlowTrack整體框架
上面是我們算法的整體框架,采用 Siamese 結(jié)構(gòu),分為 Historical Branch 和Current Branch。
在 Historical Branch 里面,進(jìn)行 Flow 的 提取 和 warp,在融合階段,我們?cè)O(shè)計(jì)了一種 Spatial-temporal Attention 的機(jī)制(在后面敘述)。
在 Current Branch,只提取 feature。Siamese 結(jié)構(gòu)兩支出來(lái)的 feature 送進(jìn) DCF layer,得到 response map。
總結(jié)來(lái)說(shuō),我們把 Flow 提取、warp 操作、特征提取和融合和 CF tracking 都做成了網(wǎng)絡(luò)的 layer,端到端地訓(xùn)練它們。
技術(shù)細(xì)節(jié)
下面是一些技術(shù)細(xì)節(jié),采用問(wèn)答方式書(shū)寫(xiě)。
問(wèn):warp 操作是什么意思,怎么實(shí)現(xiàn)的??
答:warp 具體的推導(dǎo)公式可以參見(jiàn) paper,是一種點(diǎn)到點(diǎn)的映射關(guān)系;實(shí)現(xiàn)可以參見(jiàn) DFF 和 FGFA 的 code,略作修改即可。?
問(wèn):Flow 提取和訓(xùn)練是怎么實(shí)現(xiàn)的?
答:我們采用的是 FlowNet1.0 初始化,然后在 VID 上面訓(xùn)練,訓(xùn)練出來(lái)的 Flow 質(zhì)量更高,對(duì)齊地更好;未來(lái)我們會(huì)換用 FlowNet2.0 或者速度更快的 Flow 網(wǎng)絡(luò),爭(zhēng)取在速度和精度上有所提升。
問(wèn):融合是怎么實(shí)現(xiàn)的??
答:在融合階段,我們我們?cè)O(shè)計(jì)了一種 Spatial-temporal Attention 的機(jī)制。在 Spatial Attention 中,是對(duì)空間位置上每一個(gè)待融合的點(diǎn)分配權(quán)重,具體采用余弦距離衡量(公式可以參見(jiàn) paper),結(jié)果就是和當(dāng)前幀越相似分配的權(quán)重越大,反之越小。
這么做的問(wèn)題是當(dāng)前幀的權(quán)重永遠(yuǎn)最大,所以我們借鑒 SENet 的思想進(jìn)而設(shè)計(jì)了 temporal attention,即把每一幀看做一個(gè) channel,設(shè)計(jì)一個(gè)質(zhì)量判斷網(wǎng)絡(luò):
▲ Temporal Attention的圖示
網(wǎng)絡(luò)輸出的結(jié)果是每一幀的質(zhì)量打分,質(zhì)量高的幀分?jǐn)?shù)高,質(zhì)量低(比如部分遮擋)的幀分?jǐn)?shù)低:
▲?Temporal Attention的結(jié)果
Temporal Attention 和前面的 Spatial Attention 結(jié)合起來(lái),就可以對(duì) warp 之后的 feature map 和當(dāng)前幀本身的 feature map 進(jìn)行融合。
問(wèn):DCF 操作怎么做成 layer??
答:這個(gè)在 CFNet 和 DCFNet 里面具有闡述,paper 里面也做了簡(jiǎn)單的總結(jié)。?
問(wèn):paper 里面 warp 的幀數(shù)是怎么選定的??
答:通過(guò)實(shí)驗(yàn)確定,實(shí)驗(yàn)結(jié)果如下:
▲?warp幀數(shù)的選擇
問(wèn):最后在 OTB 和 VOT 的實(shí)驗(yàn)結(jié)果怎么樣??
答:OTB2015 AUC 分?jǐn)?shù) 0.655;VOT2016 EAO 分?jǐn)?shù) 0.334(超過(guò) CCOT),速度 12FPS(是 CCOT 的 40 倍),當(dāng)然,和 ECO 還是有精度上的差距。結(jié)果圖可以參見(jiàn)下面:
▲?OTB2015的實(shí)驗(yàn)結(jié)果
▲?VOT2016的EAO Ranking
▲?VOT2016上面具體的accuracy和robustness
為了完整起見(jiàn),補(bǔ)充一下 OTB2013 和 VOT2015 的結(jié)果:
▲?VOTB2013實(shí)驗(yàn)結(jié)果
▲?VOT2015上面具體的accuracy和robustness
▲?VOT2015 EAO Ranking
問(wèn):網(wǎng)絡(luò)中元素比較多,究竟哪一塊在 work?
答:我們做了 ablation 分析,結(jié)果如下,值得注意的是加入固定的光流信息之后,某些數(shù)據(jù)集上的 performance 反而下降了;我們估計(jì)是由于光流信息的(不高的)質(zhì)量和(不太)對(duì)齊造成的。
▲?ablation分析,FlowTr是完整的FlowTrack,其余從上到下分別是:不用Flow信息的,用Flow信息但不進(jìn)行端到端訓(xùn)練的,用time-decay方式進(jìn)行融合的,不用temporal attention的
問(wèn):為什么選擇 warp 的幀間隔是 1 而不是 2,4,8 這種,這樣的話不是更能包含更多的 temporal information 嗎?比如更長(zhǎng)時(shí)間的遮擋的時(shí)候似乎更 work??
答:我們?cè)嚵藥g隔為 1,2,4 的方案,當(dāng)幀間隔為 2 和 4 的時(shí)候(即 warp t-2,t-4... 或者 t-4,t-8...),雖然在某些情況(比如遮擋)能取得更好的結(jié)果,但整體性能是下降的。
我們猜測(cè)是由于幀間隔大了之后,Flow 信息的質(zhì)量可能會(huì)變差(畢竟 FlowNet 是針對(duì)小位移的)。?
問(wèn):fixed Flow 和訓(xùn)練之后的 Flow 有什么區(qū)別??
答:訓(xùn)練之后的 Flow 相比較固定的 FlowNet 提取出來(lái)的 Flow,質(zhì)量更高,對(duì)齊地更準(zhǔn),一個(gè)例子如下圖:
▲?左列:待輸入 Flow 網(wǎng)絡(luò)的兩張圖;中列:固定的 FlowNet 和訓(xùn)練之后的 Flow 網(wǎng)絡(luò)提取的 Flow;右列:Flow mask 到原圖(注意:都是 mask 到左下角的圖上)。
問(wèn):和 ICPR 那一篇 Deep Motion Feature for Visual Tracking 那一篇結(jié)果對(duì)比怎么樣??
答:OP 指標(biāo)可以超過(guò),速度比他快很多(他的速度不包含提取 Flow 的時(shí)間),見(jiàn)下表:
▲?和ICPR文章的對(duì)比
問(wèn):在 VOT2017 上面的結(jié)果怎么樣?
答:還不錯(cuò),EAO 目前可以排名第二,見(jiàn)下圖:
▲?VOT2017結(jié)果
點(diǎn)擊查看更多CVPR 2018論文解讀:?
用于部分遷移學(xué)習(xí)的加權(quán)對(duì)抗網(wǎng)絡(luò)
腦洞大開(kāi)的機(jī)器視覺(jué)多領(lǐng)域?qū)W習(xí)模型結(jié)構(gòu)
基于GAN的字體風(fēng)格遷移
新型RNN:將層內(nèi)神經(jīng)元相互獨(dú)立以提高長(zhǎng)程記憶
▲?戳我查看招聘詳情
#崗 位 推 薦#
平安人壽AI研發(fā)團(tuán)隊(duì)2018社會(huì)招聘、校園招聘全面啟動(dòng)!
關(guān)于PaperWeekly
PaperWeekly 是一個(gè)推薦、解讀、討論、報(bào)道人工智能前沿論文成果的學(xué)術(shù)平臺(tái)。如果你研究或從事 AI 領(lǐng)域,歡迎在公眾號(hào)后臺(tái)點(diǎn)擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
▽ 點(diǎn)擊 |?閱讀原文?| 進(jìn)入作者知乎專欄
總結(jié)
以上是生活随笔為你收集整理的商汤科技 中科院自动化所:视觉跟踪之端到端的光流相关滤波 | CVPR 2018的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 快醒醒,一大波最新 AI 论文加开源代码
- 下一篇: 当前深度神经网络模型压缩和加速都有哪些方