日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

SiamNet: 全卷积孪生网络用于视频跟踪

發(fā)布時間:2025/3/15 编程问答 31 豆豆
生活随笔 收集整理的這篇文章主要介紹了 SiamNet: 全卷积孪生网络用于视频跟踪 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

參考論文:Fully-Convolutional Siamese Networks for Object Tracking

算法主頁:http://www.robots.ox.ac.uk/~luca/siamese-fc.html?

code:https://github.com/bertinetto/siamese-fc?

1. 網(wǎng)絡結構及摘要

圖一 SiamNet 網(wǎng)絡結構。 搜索區(qū)域x, 輸出的是一個得分圖, 所謂的得分就是相似度度量,得分圖的維度是由搜索圖像塊決定(樣本模板和搜索區(qū)域進行密集交叉相關)。?代表的是一種特征映射操作,將原始圖像映射到特定的特征空間

? ? ? 傳統(tǒng)意義上, 任意目標跟蹤問題采用在線學習目標的形貌特征完成。 盡管這些在線的方法已經(jīng)取得了非常好的結果,但是啊僅僅在線的方法本身具限制了模型學習的豐富性。最近,一些學者開始利用深度卷積網(wǎng)絡的強大特征表達能力。然而,當跟蹤的目標事前并不知道情況下,我們有必要采用SGD在線調整網(wǎng)絡的權重,這嚴重的降低了系統(tǒng)的速度。本文中作者將一個全新的全卷積孿生網(wǎng)絡fully-convolutional Siamese network融合到一個最基本的目標跟蹤算法中。Siamese network 采用ILSVRC15數(shù)據(jù)集進行end-to-end的訓練。本文的跟蹤器盡管非常的簡單,但是跟蹤準確率很好,可以做到實時跟蹤。

2. 網(wǎng)絡的訓練原理

圖2 SiamNet模型訓練原理

2.1 模型訓練-數(shù)據(jù)準備

? ? ? ? ?作者采用判別式的方法對網(wǎng)絡進行訓練,更具體是采用正樣本、負樣本分別構成的exemplar-candidate對來進行訓練。 如圖2所示,上一幀的目標模板與下一幀的搜索區(qū)域可以構成很多pair的exemplar-candidate pair, 但是根據(jù)判別式跟蹤原理,僅僅下一幀的目標與上一陣的目標區(qū)域(即 exemplarof T frame-exemplarof T+1 frame)屬于模型的正樣本,其余大量的exemplar-candidate pair都是負樣本。這樣就完成了網(wǎng)絡結構的端到端的訓練。

? ? ? ? ?這里需要額外說明一點就是如何確定搜索區(qū)域X. 其實這就是跟蹤領域比較常用的方法,根據(jù)前一幀目標的中心初始化下一幀搜索區(qū)域的中心位置,然后設計搜索區(qū)域的尺寸就好了。

????? ??

2.2 模型訓練-損失函數(shù)設計

? ? ? ? ?設計模型損失函數(shù)一直以來都是模型最重要的一環(huán)。本文作者采用了判別式掩膜的形式, 即目標和搜索區(qū)域經(jīng)過交叉互相關可以得到相關程度譜圖,圖像在訓練過程中exemplar-candidate的準確關系是已知的。所以設計起來并不困難。但這里尋要有三個問題需要解決:

?

  • 模板和搜索區(qū)域經(jīng)過卷積特征提取之后,圖像尺寸已經(jīng)發(fā)生改變,如何和已知的判別式掩膜進行運算?
  • 作者采用了絕對形式的判別式掩膜,如果人工標記偶爾出現(xiàn)出現(xiàn)偏差,非黑即白的掩膜方略是否合理?
  • 可否利用frame-frame之間的信息,例如相鄰兩幀之間目標的位置偏移應該很小? 采用平均損失作為損失函數(shù)是否合理?

回答1:

在固定特征提取網(wǎng)絡基礎之上,主要影響尺寸的是Sampling過程,也就是卷積過程中的Pooling,所以只需要記住Pooling過程中的stride就好。作者將金標準掩膜通過stride參數(shù)變化到Score Map尺寸大小的。如下所示:

k表示的就是圖像尺寸的降采樣過程。

回答2:

作者采用的是金標準位置一定范圍內(nèi)的區(qū)域都是正樣本,其其余部分為負樣本,這樣是擴大正負樣本之間的距離,是的分類更加的清晰,當然也可以使用高斯權重進行賦值構造高斯掩膜。

回答3:(在線跟蹤過程)

作者在得分圖的基礎上賦予了余弦窗權重,用來懲罰大的不合理的偏移位置。

此外,作者也研究了尺度的影響,作者將搜索空間拓展到了尺度空間,進行更加深層次的搜索。

跟蹤時直接對score map進行線性插值,將17*17的score map擴大為272*272,這樣原來score map中響應值最大的點映射回272*272目標位置。

3. 如何將不同目標尺寸進行規(guī)范化

作者采用了一個非常簡單粗暴的方式將所有目標規(guī)范到了127*127大小,具體為原標注框的尺寸+邊緣填充+尺寸變化。

s(w+2*p) * s(h+2*p) = 127*127 ? s:尺度因子 p:邊緣填充

4. 額外信息

  • 作者采用如下論文進行尺度變換:He, K., Zhang, X., Ren, S., Sun, J.: Delving deep into rectifiers: Surpassing humanlevel performance on ImageNet classification,ICCV,2015.
  • 在線實時更新模板并沒有得到比較好的收益。(如采用KCF的線性插值模式更新模板)

5. 感悟

這個“樸素”的網(wǎng)絡結構,深深的影響了這兩年來tracking的發(fā)展方向。?所謂的Siamese(孿生)網(wǎng)絡,是指網(wǎng)絡的主體結構分上下兩支,這兩支像雙胞胎一樣,共享卷積層的權值。上面一支(z)稱為模板分支(template),用來提取模板幀的特征,下面一支(x)稱為檢測分支(search),是根據(jù)上一幀的結果在當前幀上crop出的search region。經(jīng)過了相同的網(wǎng)絡之后,模版支的feature map在當前幀的檢測區(qū)域的feature map上做匹配(*)操作,找到響應最大的點就是對應這一幀目標的位置。

優(yōu)勢:

把tracking任務做成了一個檢測/匹配任務,整個tracking過程不需要更新網(wǎng)絡,這使得算法的速度可以很快(FPS:80+)。此外,續(xù)作CFNet將特征提取和特征判別這兩個任務做成了一個端到端的任務,第一次將深度網(wǎng)絡和相關濾波結合在一起學習。

弊病:

1. 模板支只在第一幀進行,這使得模版特征對目標的變化不是很適應,當目標發(fā)生較大變化時,來自第一幀的特征可能不足以表征目標的特征。至于為什么只在第一幀提取模版特征,我認為可能因為: 1)第一幀的特征最可靠也最魯棒,在tracking過程中無法確定哪一幀的結果可靠的情況下,只用第一幀特征足以的到不錯的精度。 2)只在第一幀提模板特征的算法更精簡,速度更快。?
2. Siamese的方法只能得到目標的中心位置,但是得不到目標的尺寸,所以只能采取簡單的多尺度加回歸,這即增加了計算量,同時也不夠精確。

相關的改進方法如: Siamese + RPN :High Performance Visual Tracking with Siamese Region Proposal Network, CVPR 2018.

總結

以上是生活随笔為你收集整理的SiamNet: 全卷积孪生网络用于视频跟踪的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。