當(dāng)前位置：首頁(yè) >

商汤科技中科院自动化所：视觉跟踪之端到端的光流相关滤波 | CVPR 2018

發(fā)布時(shí)間：2024/10/8 47 豆豆

生活随笔收集整理的這篇文章主要介紹了商汤科技中科院自动化所：视觉跟踪之端到端的光流相关滤波 | CVPR 2018 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

作者丨朱政

學(xué)校丨中科院自動(dòng)化所博士生

單位丨商湯科技

研究方向丨視覺(jué)目標(biāo)跟蹤及其在機(jī)器人中的應(yīng)用

本文主要介紹我們發(fā)表于 CVPR 2018 上的一篇文章：一種端到端的光流相關(guān)濾波跟蹤算法。據(jù)我們所知，這是第一篇把 Flow 提取和 tracking 任務(wù)統(tǒng)一在一個(gè)網(wǎng)絡(luò)里面的工作。

■?論文 | End-to-end Flow Correlation Tracking with Spatial-temporal Attention

■ 鏈接 | https://www.paperweekly.site/papers/1825

■ 作者 | Zheng Zhu / Wei Wu / Wei Zou / Junjie Yan

論文動(dòng)機(jī)

首先是 motivation，近兩年 DCF+CNN 的 tracker 在 tracking 的社區(qū)里面一直是標(biāo)配，但我們注意到幾乎所有的 tracker 都只用到了 RGB 信息，很少有用到視頻幀和幀之間豐富的運(yùn)動(dòng)信息，這就導(dǎo)致了 tracker 在目標(biāo)遇到運(yùn)動(dòng)模糊或者部分遮擋的時(shí)候，performance 只能依靠離線 train 的 feature 的質(zhì)量，魯棒性很難保證。

于是我們就想利用視頻中的運(yùn)動(dòng)信息（Flow）來(lái)補(bǔ)償這些情況下 RGB 信息的不足，來(lái)提升 tracker 的 performance。

具體來(lái)說(shuō)，我們首先利用歷史幀和當(dāng)前幀得到 Flow，利用 Flow 信息把歷史幀 warp 到當(dāng)前幀，然后將 warp 過(guò)來(lái)的幀和本來(lái)的當(dāng)前幀進(jìn)行融合，這樣就得到了當(dāng)前幀不同 view 的特征表示，然后在 Siamese 和 DCF 框架下進(jìn)行 tracking。

▲?FlowTrack整體框架

上面是我們算法的整體框架，采用 Siamese 結(jié)構(gòu)，分為 Historical Branch 和Current Branch。

在 Historical Branch 里面，進(jìn)行 Flow 的提取和 warp，在融合階段，我們?cè)O(shè)計(jì)了一種 Spatial-temporal Attention 的機(jī)制（在后面敘述）。

在 Current Branch，只提取 feature。Siamese 結(jié)構(gòu)兩支出來(lái)的 feature 送進(jìn) DCF layer，得到 response map。

總結(jié)來(lái)說(shuō)，我們把 Flow 提取、warp 操作、特征提取和融合和 CF tracking 都做成了網(wǎng)絡(luò)的 layer，端到端地訓(xùn)練它們。

技術(shù)細(xì)節(jié)

下面是一些技術(shù)細(xì)節(jié)，采用問(wèn)答方式書(shū)寫(xiě)。

問(wèn)：warp 操作是什么意思，怎么實(shí)現(xiàn)的？?

答：warp 具體的推導(dǎo)公式可以參見(jiàn) paper，是一種點(diǎn)到點(diǎn)的映射關(guān)系；實(shí)現(xiàn)可以參見(jiàn) DFF 和 FGFA 的 code，略作修改即可。?

問(wèn)：Flow 提取和訓(xùn)練是怎么實(shí)現(xiàn)的？

答：我們采用的是 FlowNet1.0 初始化，然后在 VID 上面訓(xùn)練，訓(xùn)練出來(lái)的 Flow 質(zhì)量更高，對(duì)齊地更好；未來(lái)我們會(huì)換用 FlowNet2.0 或者速度更快的 Flow 網(wǎng)絡(luò)，爭(zhēng)取在速度和精度上有所提升。

問(wèn)：融合是怎么實(shí)現(xiàn)的？?

答：在融合階段，我們我們?cè)O(shè)計(jì)了一種 Spatial-temporal Attention 的機(jī)制。在 Spatial Attention 中，是對(duì)空間位置上每一個(gè)待融合的點(diǎn)分配權(quán)重，具體采用余弦距離衡量（公式可以參見(jiàn) paper），結(jié)果就是和當(dāng)前幀越相似分配的權(quán)重越大，反之越小。

這么做的問(wèn)題是當(dāng)前幀的權(quán)重永遠(yuǎn)最大，所以我們借鑒 SENet 的思想進(jìn)而設(shè)計(jì)了 temporal attention，即把每一幀看做一個(gè) channel，設(shè)計(jì)一個(gè)質(zhì)量判斷網(wǎng)絡(luò)：

▲ Temporal Attention的圖示

網(wǎng)絡(luò)輸出的結(jié)果是每一幀的質(zhì)量打分，質(zhì)量高的幀分?jǐn)?shù)高，質(zhì)量低（比如部分遮擋）的幀分?jǐn)?shù)低：

▲?Temporal Attention的結(jié)果

Temporal Attention 和前面的 Spatial Attention 結(jié)合起來(lái)，就可以對(duì) warp 之后的 feature map 和當(dāng)前幀本身的 feature map 進(jìn)行融合。

問(wèn)：DCF 操作怎么做成 layer？?

答：這個(gè)在 CFNet 和 DCFNet 里面具有闡述，paper 里面也做了簡(jiǎn)單的總結(jié)。?

問(wèn)：paper 里面 warp 的幀數(shù)是怎么選定的？?

答：通過(guò)實(shí)驗(yàn)確定，實(shí)驗(yàn)結(jié)果如下：

▲?warp幀數(shù)的選擇

問(wèn)：最后在 OTB 和 VOT 的實(shí)驗(yàn)結(jié)果怎么樣？?

答：OTB2015 AUC 分?jǐn)?shù) 0.655；VOT2016 EAO 分?jǐn)?shù) 0.334（超過(guò) CCOT），速度 12FPS（是 CCOT 的 40 倍)，當(dāng)然，和 ECO 還是有精度上的差距。結(jié)果圖可以參見(jiàn)下面：

▲?OTB2015的實(shí)驗(yàn)結(jié)果

▲?VOT2016的EAO Ranking

▲?VOT2016上面具體的accuracy和robustness

為了完整起見(jiàn)，補(bǔ)充一下 OTB2013 和 VOT2015 的結(jié)果：

▲?VOTB2013實(shí)驗(yàn)結(jié)果

▲?VOT2015上面具體的accuracy和robustness

▲?VOT2015 EAO Ranking

問(wèn)：網(wǎng)絡(luò)中元素比較多，究竟哪一塊在 work？

答：我們做了 ablation 分析，結(jié)果如下，值得注意的是加入固定的光流信息之后，某些數(shù)據(jù)集上的 performance 反而下降了；我們估計(jì)是由于光流信息的（不高的）質(zhì)量和（不太）對(duì)齊造成的。

▲?ablation分析，FlowTr是完整的FlowTrack，其余從上到下分別是：不用Flow信息的，用Flow信息但不進(jìn)行端到端訓(xùn)練的，用time-decay方式進(jìn)行融合的，不用temporal attention的

問(wèn)：為什么選擇 warp 的幀間隔是 1 而不是 2,4,8 這種，這樣的話不是更能包含更多的 temporal information 嗎？比如更長(zhǎng)時(shí)間的遮擋的時(shí)候似乎更 work？?

答：我們?cè)嚵藥g隔為 1,2,4 的方案，當(dāng)幀間隔為 2 和 4 的時(shí)候（即 warp t-2,t-4... 或者 t-4,t-8...），雖然在某些情況（比如遮擋）能取得更好的結(jié)果，但整體性能是下降的。

我們猜測(cè)是由于幀間隔大了之后，Flow 信息的質(zhì)量可能會(huì)變差（畢竟 FlowNet 是針對(duì)小位移的）。?

問(wèn)：fixed Flow 和訓(xùn)練之后的 Flow 有什么區(qū)別？?

答：訓(xùn)練之后的 Flow 相比較固定的 FlowNet 提取出來(lái)的 Flow，質(zhì)量更高，對(duì)齊地更準(zhǔn)，一個(gè)例子如下圖：

▲?左列：待輸入 Flow 網(wǎng)絡(luò)的兩張圖；中列：固定的 FlowNet 和訓(xùn)練之后的 Flow 網(wǎng)絡(luò)提取的 Flow；右列：Flow mask 到原圖（注意：都是 mask 到左下角的圖上）。

問(wèn)：和 ICPR 那一篇 Deep Motion Feature for Visual Tracking 那一篇結(jié)果對(duì)比怎么樣？?

答：OP 指標(biāo)可以超過(guò)，速度比他快很多（他的速度不包含提取 Flow 的時(shí)間），見(jiàn)下表：

▲?和ICPR文章的對(duì)比

問(wèn)：在 VOT2017 上面的結(jié)果怎么樣？

答：還不錯(cuò)，EAO 目前可以排名第二，見(jiàn)下圖：

▲?VOT2017結(jié)果

點(diǎn)擊查看更多CVPR 2018論文解讀：?

用于部分遷移學(xué)習(xí)的加權(quán)對(duì)抗網(wǎng)絡(luò)
腦洞大開(kāi)的機(jī)器視覺(jué)多領(lǐng)域?qū)W習(xí)模型結(jié)構(gòu)
基于GAN的字體風(fēng)格遷移
新型RNN：將層內(nèi)神經(jīng)元相互獨(dú)立以提高長(zhǎng)程記憶

▲?戳我查看招聘詳情

#崗位推薦#

平安人壽AI研發(fā)團(tuán)隊(duì)2018社會(huì)招聘、校園招聘全面啟動(dòng)！

關(guān)于PaperWeekly

PaperWeekly 是一個(gè)推薦、解讀、討論、報(bào)道人工智能前沿論文成果的學(xué)術(shù)平臺(tái)。如果你研究或從事 AI 領(lǐng)域，歡迎在公眾號(hào)后臺(tái)點(diǎn)擊「交流群」，小助手將把你帶入 PaperWeekly 的交流群里。

▽ 點(diǎn)擊 |?閱讀原文?| 進(jìn)入作者知乎專欄

總結(jié)

以上是生活随笔為你收集整理的商汤科技中科院自动化所：视觉跟踪之端到端的光流相关滤波 | CVPR 2018的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：快醒醒，一大波最新 AI 论文加开源代码
下一篇：当前深度神经网络模型压缩和加速都有哪些方

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

商汤科技 中科院自动化所：视觉跟踪之端到端的光流相关滤波 | CVPR 2018

論文動(dòng)機(jī)

技術(shù)細(xì)節(jié)

總結(jié)

商汤科技中科院自动化所：视觉跟踪之端到端的光流相关滤波 | CVPR 2018