當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

ICCV 2017 CREST：《CREST: Convolutional Residual Learning for Visual Tracking》论文笔记

發布時間：2025/3/15 编程问答 22 豆豆

生活随笔收集整理的這篇文章主要介紹了 ICCV 2017 CREST：《CREST: Convolutional Residual Learning for Visual Tracking》论文笔记小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

動機

? ? ? ?本文基于DCF進行改進，摘要中提到，基于DCF的跟蹤器無法受益于端到端的訓練。

主要貢獻

? ? ? ?理解出錯之處望不吝指正。
? ? ? ?主要包括一下三方面：
? ? ? ?1. 將CF重構為一個卷積層，這樣使其受益于端到端的訓練；
? ? ? ?2. 在時空上（spatiotemporal）使用剩余學習（residual learning）學習目標的外觀變換；
? ? ? ?3. 本文提出的模型CREST在多個數據集上驗證均可達到很好的效果。

整體框架

? ? ? ?模型的整體架構如上圖所示，在跟蹤第T幀時，將第T幀和第1幀送入特征提取層，得到特征圖后，將第T幀特征圖送入Base層（重構的DCF）和Spatial層，第1幀特征圖送入Temporal層，將三個層的輸出融合后得到響應圖。

詳細介紹

重構DCF

? ? ? ?DCF實際是優化以下函數：
? ? ? ?
? ? ? ?傳統的損失函數形式如下：
? ? ? ?
? ? ? ?作者將DCF重構為一個卷積層，損失函數設置如下：
? ? ? ?
? ? ? ?
? ? ? ?這樣就可以用梯度下降去計算權重，而不是通過計算封閉解。

剩余學習

? ? ? ?作者提到，只使用一個卷積層來重構DCF得不到效果很好的響應圖，但是又不想堆疊很多的卷積層（會帶來梯度消失）。作者通過添加兩個剩余層（我的理解：學習差異性）來解決這個問題，即：Spatial和Temporal。這樣，響應圖的計算就可為以下三部分：
? ? ? ?
? ? ? ?這樣，計算響應圖的流程則如下：
? ? ? ?

Spatial層

? ? ? ?首先介紹Spatial層。
? ? ? ?在我的理解下，這一部分實際上就是用于學習Base層的輸出和真實輸出的偏差（相當于微調），也就是用Spatial層的輸出去改進Base層的輸出。

Temporal層

? ? ? ?Temporal層的作用是，防止當前的跟蹤結果和初始幀的跟蹤目標偏差較大。本層旨在學習Base層的輸出和第一幀跟蹤目標的差異性（防止跟丟？）。

跟蹤過程

? ? ? ?跟蹤過程實際上和傳統的DCF沒啥區別。

特征提取部分使用VGG網絡；
Base、Spatial和Temporal層使用高斯函數初始化；
尺度處理和以往的模型都一樣，獲取不同尺度的search patch，再resize到相同尺寸；
每一幀的跟蹤結果作為訓練數據放到樣本庫中，每隔T幀對模型進行更新。

實驗結果

模型效果展示
OTB2013實驗結果
OTB2015實驗結果
VOT2016實驗結果

總結

以上是生活随笔為你收集整理的ICCV 2017 CREST：《CREST: Convolutional Residual Learning for Visual Tracking》论文笔记的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：正则表达式删除文件中某些列
下一篇： ECCV 2018 《Triplet L