當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

SiamNet: 全卷积孪生网络用于视频跟踪

發(fā)布時間：2025/3/15 编程问答 31 豆豆

生活随笔收集整理的這篇文章主要介紹了 SiamNet: 全卷积孪生网络用于视频跟踪小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

參考論文：Fully-Convolutional Siamese Networks for Object Tracking

算法主頁：http://www.robots.ox.ac.uk/~luca/siamese-fc.html?

code：https://github.com/bertinetto/siamese-fc?

1. 網(wǎng)絡結構及摘要

圖一 SiamNet 網(wǎng)絡結構。搜索區(qū)域x, 輸出的是一個得分圖，所謂的得分就是相似度度量，得分圖的維度是由搜索圖像塊決定（樣本模板和搜索區(qū)域進行密集交叉相關）。?代表的是一種特征映射操作，將原始圖像映射到特定的特征空間

? ? ? 傳統(tǒng)意義上，任意目標跟蹤問題采用在線學習目標的形貌特征完成。盡管這些在線的方法已經(jīng)取得了非常好的結果，但是啊僅僅在線的方法本身具限制了模型學習的豐富性。最近，一些學者開始利用深度卷積網(wǎng)絡的強大特征表達能力。然而，當跟蹤的目標事前并不知道情況下，我們有必要采用SGD在線調整網(wǎng)絡的權重，這嚴重的降低了系統(tǒng)的速度。本文中作者將一個全新的全卷積孿生網(wǎng)絡fully-convolutional Siamese network融合到一個最基本的目標跟蹤算法中。Siamese network 采用ILSVRC15數(shù)據(jù)集進行end-to-end的訓練。本文的跟蹤器盡管非常的簡單，但是跟蹤準確率很好，可以做到實時跟蹤。

2. 網(wǎng)絡的訓練原理

圖2 SiamNet模型訓練原理

2.1 模型訓練-數(shù)據(jù)準備

? ? ? ? ?作者采用判別式的方法對網(wǎng)絡進行訓練，更具體是采用正樣本、負樣本分別構成的exemplar-candidate對來進行訓練。如圖2所示，上一幀的目標模板與下一幀的搜索區(qū)域可以構成很多pair的exemplar-candidate pair，但是根據(jù)判別式跟蹤原理，僅僅下一幀的目標與上一陣的目標區(qū)域(即 exemplarof T frame-exemplarof T+1 frame）屬于模型的正樣本，其余大量的exemplar-candidate pair都是負樣本。這樣就完成了網(wǎng)絡結構的端到端的訓練。

? ? ? ? ?這里需要額外說明一點就是如何確定搜索區(qū)域X. 其實這就是跟蹤領域比較常用的方法，根據(jù)前一幀目標的中心初始化下一幀搜索區(qū)域的中心位置，然后設計搜索區(qū)域的尺寸就好了。

????? ??

2.2 模型訓練-損失函數(shù)設計

? ? ? ? ?設計模型損失函數(shù)一直以來都是模型最重要的一環(huán)。本文作者采用了判別式掩膜的形式，即目標和搜索區(qū)域經(jīng)過交叉互相關可以得到相關程度譜圖，圖像在訓練過程中exemplar-candidate的準確關系是已知的。所以設計起來并不困難。但這里尋要有三個問題需要解決：

模板和搜索區(qū)域經(jīng)過卷積特征提取之后，圖像尺寸已經(jīng)發(fā)生改變，如何和已知的判別式掩膜進行運算？
作者采用了絕對形式的判別式掩膜，如果人工標記偶爾出現(xiàn)出現(xiàn)偏差，非黑即白的掩膜方略是否合理？
可否利用frame-frame之間的信息，例如相鄰兩幀之間目標的位置偏移應該很小？采用平均損失作為損失函數(shù)是否合理？

回答1：

在固定特征提取網(wǎng)絡基礎之上，主要影響尺寸的是Sampling過程，也就是卷積過程中的Pooling，所以只需要記住Pooling過程中的stride就好。作者將金標準掩膜通過stride參數(shù)變化到Score Map尺寸大小的。如下所示：

k表示的就是圖像尺寸的降采樣過程。

回答2：

作者采用的是金標準位置一定范圍內(nèi)的區(qū)域都是正樣本，其其余部分為負樣本，這樣是擴大正負樣本之間的距離，是的分類更加的清晰，當然也可以使用高斯權重進行賦值構造高斯掩膜。

回答3：（在線跟蹤過程）

作者在得分圖的基礎上賦予了余弦窗權重，用來懲罰大的不合理的偏移位置。

此外，作者也研究了尺度的影響，作者將搜索空間拓展到了尺度空間，進行更加深層次的搜索。

跟蹤時直接對score map進行線性插值，將17*17的score map擴大為272*272，這樣原來score map中響應值最大的點映射回272*272目標位置。

3. 如何將不同目標尺寸進行規(guī)范化

作者采用了一個非常簡單粗暴的方式將所有目標規(guī)范到了127*127大小，具體為原標注框的尺寸+邊緣填充+尺寸變化。

s(w+2*p) * s(h+2*p) = 127*127 ? s:尺度因子 p:邊緣填充

4. 額外信息

作者采用如下論文進行尺度變換：He, K., Zhang, X., Ren, S., Sun, J.: Delving deep into rectifiers: Surpassing humanlevel performance on ImageNet classification，ICCV，2015.
在線實時更新模板并沒有得到比較好的收益。（如采用KCF的線性插值模式更新模板）

5. 感悟

這個“樸素”的網(wǎng)絡結構，深深的影響了這兩年來tracking的發(fā)展方向。?所謂的Siamese（孿生）網(wǎng)絡，是指網(wǎng)絡的主體結構分上下兩支，這兩支像雙胞胎一樣，共享卷積層的權值。上面一支（z）稱為模板分支（template），用來提取模板幀的特征，下面一支（x）稱為檢測分支（search），是根據(jù)上一幀的結果在當前幀上crop出的search region。經(jīng)過了相同的網(wǎng)絡之后，模版支的feature map在當前幀的檢測區(qū)域的feature map上做匹配（*）操作，找到響應最大的點就是對應這一幀目標的位置。

優(yōu)勢：

把tracking任務做成了一個檢測/匹配任務，整個tracking過程不需要更新網(wǎng)絡，這使得算法的速度可以很快（FPS：80+）。此外，續(xù)作CFNet將特征提取和特征判別這兩個任務做成了一個端到端的任務，第一次將深度網(wǎng)絡和相關濾波結合在一起學習。

弊病：

1. 模板支只在第一幀進行，這使得模版特征對目標的變化不是很適應，當目標發(fā)生較大變化時，來自第一幀的特征可能不足以表征目標的特征。至于為什么只在第一幀提取模版特征，我認為可能因為： 1）第一幀的特征最可靠也最魯棒，在tracking過程中無法確定哪一幀的結果可靠的情況下，只用第一幀特征足以的到不錯的精度。 2）只在第一幀提模板特征的算法更精簡，速度更快。?
2. Siamese的方法只能得到目標的中心位置，但是得不到目標的尺寸，所以只能采取簡單的多尺度加回歸，這即增加了計算量，同時也不夠精確。

相關的改進方法如： Siamese + RPN ：High Performance Visual Tracking with Siamese Region Proposal Network， CVPR 2018.

總結

以上是生活随笔為你收集整理的SiamNet: 全卷积孪生网络用于视频跟踪的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇：如果你20秒钟还看不懂这个短信的话，说明
下一篇：程序员的SOHO：接单到完成的全过程