日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

孪生网络图像相似度_CVPR-2019 更深更宽的孪生网络实时追踪

發布時間:2023/12/20 编程问答 32 豆豆
生活随笔 收集整理的這篇文章主要介紹了 孪生网络图像相似度_CVPR-2019 更深更宽的孪生网络实时追踪 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

Deeper and Wider Siamese Networks for Real-Time Visual Tracking

最近在讀一些visual tracking方向的論文,準備以翻(耗)譯(時)的方式總結一下。

傳送門?openaccess.thecvf.com

摘要

孿生網絡在視覺跟蹤中的兼有準確度和速度的優勢因此近期被廣泛關注。然而孿生網絡結構中的骨干網絡(例如AlexNet)卻很淺,導致了都沒很好利用深度學習的優勢。在這篇論文中,我們探索如何權衡寬和深的卷積神經網絡,以此提高魯棒性和準確性。然而直接用ResNet或者Inception來替換AlexNet的效果并滅有很好的提升。我們給出的理由如下:

  • 大的網絡增加了神經元的感受野,因而減少了特征的差異性和局部精度
  • 網絡的卷積padding在學習中造成了一個位置的bias

為了改善這些缺陷,我們使用一個新的架構,使用可控的receptive filed size和stride,并且模型是輕量級的,因此應用SiamFC和SiamRPN的時候,可以確保實時的追蹤速度。

介紹

出于前面提到的原因,我們把backbone network從AlexNet換成了VGG, Inception,還有ResNet,但是這些替換并沒有很大的提升,甚至隨著深度和寬度的增加有了一些更差的效果。這個和通常說的越deep越好的理論相悖。

一個直覺上的解釋就是deeper和wider的網絡架構最初是為了圖像分類任務而設計的,所以目標的局部精度不需要那么準確。我們深入分析了孿生網絡架構的感受野、網絡stride和padding(kernel size, stride, padding)這三個影響準確度的因素。

  • 感受野決定了圖像計算特征的區域。 一個更大的感受野能提供一個更好的圖像情景然而小的kernel size可能就沒有辦法捕捉目標的結構特征。
  • 網絡步長影響了局部精度的程度,尤其是那些小的目標。同時控制著輸出特征映射的大小,這個也會影響特征的區別度和檢測的準確性。
  • 特征padding對模型訓練的有一個潛在位置bias,當目標進入padding的范圍的時候,預測的準確度就會下降很多。

另外,輸出特征的大小也會對模型的準確率有一定影響,因此后續的分析中我們也加入了這個因素

我們做的工作:

  • 提出一組基于residual bock的cropping-inside residual (CIR) unit。CIR單元裁剪了被padding填充的區域。
  • 設計兩類網絡:一個deeper,一個wider,通過堆疊CIR單元的方式完成
  • 對于SiamFC和SiamRPN分別提供CIR unit的實現。

本文的貢獻:

  • 對于影響追蹤正確率的backbone network的因素進行了系統分析,并且提供了指導方法
  • 利用設計出來的CIR單元實現了SiamFC和SiamRPN兩種架構。

分析

對于上述的幾個影響因素做了實驗,得出了結論:

  • stride大小特別大的時候,模型的效果下降很多,實驗表明孿生追蹤模型在中等的特征中效果比較好(stride為4或8)
  • 感受野的大小是影響孿生網絡特征嵌入的關鍵因素,因為它決定了計算特征的圖像區域
  • 小的輸出特征大小并沒有提高追蹤準確率,因為小的輸出映射缺乏對于目標物體的空間建構描述,所以對于圖像相似度的計算缺乏一定的魯棒性。
  • padding對于最終的表現有消極的影響。因為對于exemplar圖像是從原始的exemplar圖像作用額外0-padding之后提取出來的。不同的是,對于search圖像而言,一些圖像時僅僅從圖像本身提取的,而有一些是從圖像作用額外0-padding之后提取出來的。因此,在目標物體出現在不同搜索圖片的時候,會出現一些不一致性。

從而我們給出guidelines:

  • 孿生追蹤網絡喜歡小的stride,它影響局部精度。因此深度增加的時候,stride也不應該增加。實驗表明,4或8的stride是不錯的選擇。
  • 輸出特征的感受野應該取決于exemplar圖像的大小。實驗表明60%-80%的比例是一個比較好的選擇。
  • stride,kernel size, output feature size應該作為一個整體來考慮,三個因素不是獨立的。如果一個變化,其他的也應該變化。
  • SiamFC而言,兩個網絡流的不一致性需要很好的解決。可行的兩個策略如下:
    • 放棄padding
    • 增加exemplar和search圖像的大小,裁剪padding影響的特征

更深更寬的孿生網絡

詳細講一下CIR單元

CIR單元

residual單元在網絡架構中的設計是十分重要的,它很容易進行最優化和表示。它由三個堆疊的卷積層和一個跳躍連接組成。如圖所示。三層是11,33,11的卷積.11的卷積負責降維和存儲維度,3*3的層負責骨干的部分,有更小的輸入和輸出維度。這個骨干的卷積包括了大小為1的0-padding,以此保證了求和之前的輸出維度兼容性。

  • CIR Unit
    我們提到過,padding會引入position bias,因此需要在residual units中移除padding,我們在圖a'中對于original的版本進行了改進,我們裁剪掉了被0-padding影響到的信號。
  • Downsampling CIR (CIR-D) Unit
    降采樣殘差單元對于特征圖譜的空間面大小進行了裁剪,從而增加了特征channels,類似的,它也有操作,在b中我們展示了模型。我們改進為b',把stride從2變成1。同時加上了maxpooling。這些操作的核心就是去保證被padding影響的的單元全部都要被裁剪掉,同時保證單元本質的結構沒有變化。
    如果我們只增加cropping的在操作,類似于CIR,那么cropping之后的特征就沒有辦法接收輸入圖片最外pixels中的信號了。
  • CIR-Inception and CIR-NeXt Unit
    我們進一步用多分枝的結構來改變CIR,讓它能夠應用于更寬的網絡。類似于Inception和ResNeXt中做的,我們在c d中設計出來了需要的結構。
    • 在CIR-Inception中,我們在跳躍連接中插入了1*1的卷積,并且通過concatenation的方式融合了兩個分支的feature。
    • 在CIR-Next中,我們把兩個骨干網絡分程了32個分支,并且用加法的方式aggregate。

    在降采樣方面,我們的做法和b'中的一樣,減少了stride,并采用了max polling

    網絡結構

    通過堆疊CIR單元的方式,我們構建出了更深更寬的網絡。網絡結構的設計需要我們遵從之前提出的指導方針。首先,我們決定補償。3-stage的網絡中我們用stirde=8,2-stage的網絡中我們stride=4。然后可以堆疊CIR單元。在每一個stage中我們控制單元的數量和降采樣單元的位置。我們的目標實去保證操作范圍中最后一層神經元的感受野大小,大概控制在60%-80%的樣子。

    Deeper Networks

    用CIR、CIR-D單元來構建更深的網絡。給出了CIResNet-22和CIResNet-43的具體描述。

    Wider Networks

    我們構建CIR-Inception和CIR-NeXt單元。和上述兩個其實差不多,就是寬了一點。網絡的寬度變成了2和32,以及Inception中的感受野更廣了(因為32個進行了concatenation)。但是network stride, building block number和output feature size不變。

    以上就是本文的內容,實驗部分和后續的討論略了。

    總結

    以上是生活随笔為你收集整理的孪生网络图像相似度_CVPR-2019 更深更宽的孪生网络实时追踪的全部內容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。