日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 人文社科 > 生活经验 >内容正文

生活经验

视频动作定位的分层自关注网络:ICCV2019论文解析

發布時間:2023/11/28 生活经验 23 豆豆
生活随笔 收集整理的這篇文章主要介紹了 视频动作定位的分层自关注网络:ICCV2019论文解析 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

視頻動作定位的分層自關注網絡:ICCV2019論文解析

Hierarchical Self-Attention Network for Action
Localization in Videos

論文鏈接:

http://openaccess.thecvf.com/content_ICCV_2019/papers/Pramono_Hierarchical_Self-Attention_Network_for_Action_Localization_in_Videos_ICCV_2019_paper.pdf

摘要

提出了一種新的分層自聚焦網絡(HISAN),用于產生用于視頻動作定位的時空管。HISAN的本質是將雙流卷積神經網絡(CNN)與分層雙向自我注意機制相結合,它包括兩個層次的雙向自我注意,有效地捕捉長期的時間依賴信息和空間上下文信息,使動作定位更加精確。同時,采用序列重排序(SR)算法解決了遮擋或背景雜波引起的檢測分數不一致的難題。此外,提出了一種新的融合方案,該融合方案不僅融合了雙流網絡的外觀和運動信息,而且融合了運動顯著性,以減輕攝像機運動的影響。仿真結果表明,該方法在廣泛使用的UCF101-24和J-HMDB數據集上,在動作定位和識別精度方面均達到了國際先進水平。

  1. Introduction

由于動作定位技術在視頻監控[1]和視頻字幕[2]等視頻內容分析領域具有廣闊的應用前景,近年來受到了廣泛的研究關注,它可以對動作進行分類,生成與角色位置相關的包圍盒序列。然而,在動作識別中,動作定位不僅會遇到背景雜波、遮擋、類內變化、攝像機反向運動等常見的問題,而且會遇到視頻可能未經處理且具有多個動作實例的挑戰性問題。

針對動作識別和定位,人們提出了多種算法[4–7]。例如,Zolfaghari等人[5] 利用馬爾可夫鏈模型對多流特征進行聚合。Alwando等人[6] 考慮了一種有效的動態規劃(DP)方法來搜索多個動作路徑,并使用迭代增強算法來獲得更精確的邊界框。辛格等人[8] 將單點多盒探測器(SSD)與增量DP方案相結合,生成低復雜度的動作管。

然而,上述方法[4-8]在不使用幀間的時間關系信息的情況下,分別考慮每個幀,因此通常無法檢測包含一系列子動作的動作,例如板球保齡球和籃球。為了解決這個問題,Yang等人[9] 提出了一種基于位置預測網絡的級聯方案生成方案,以利用相鄰幀間的序列信息。Hou等人[10] 訓練一個三維卷積網絡來利用相鄰幀的時間信息。Kaloigeton等人[11] 提出了一種管形檢測器,它可以同時從多幀圖像中產生一系列包圍盒及其檢測分數。然而,與二維卷積網絡相比,[10,11]需要更高的訓練復雜度。He等
[12] 采用長短期記憶(LSTM)對動作管內的時間信息進行建模。Li等人[13] 考慮了一種利用多幀多上下文來定位動作的遞歸檢測網絡。

然而,LSTM是按順序處理信息的,因此一般來說,它在遠距離學習時間依賴性方面有困難[14]。Gu等人[15] 利用一個雙流反饋3D ConvNet(I3D)[16]來保存雙流快速R-CNN的時間信息[6,7]。最近,在文獻[17]中提出了一種膠囊網絡的三維泛化方法,它可以在不使用區域建議網絡(RPN)的情況下學習不同的動作特征。然而[15]和[17]都具有很高的計算復雜度,需要大量的訓練數據才能完全收斂。

提出了一種新的分層自聚焦網絡(HISAN),用于產生用于視頻動作定位的時空管。HISAN的本質是將雙流卷積神經網絡(CNN)與新設計的分層雙向自我注意機制相結合,該機制由兩層雙向自我注意組成,不僅有效地捕獲了長期的時間依賴信息,而且有效地捕獲了空間上下文信息,使定位更精確。如圖1所示,HISAN可以學習關鍵參與者的結構關系,以提高在處理群體行動場景時的定位精度,這是一個很難僅用一個罪來識別的問題 單幀。

此外,序列重排序(SR)算法是用于解決遮擋或背景雜波引起的檢測分數不一致的難題。此外,提出了一種新的融合方案,該方案綜合了雙流網絡的外觀信息和運動信息,以及運動顯著性,以減少攝像機運動對運動信息的影響。仿真結果表明,該方法在廣泛使用的UCF101-24和J-HMDB數據集上,在動作定位和識別精度方面均達到了與現有方法相比的競爭性能。

本文的主要工作如下:

(1)提出了一種新穎的層次雙向自我注意的雙流CNN,該CNN利用時空注意和空間上下文信息來提高定位精度。據作者所知,這是第一次利用自我注意進行動作定位;

(ii)采用一種SR算法,可以校正不一致的檢測分數,減少遮擋和背景雜波的不利影響;

(iii)一種新的融合方案,融合了運動顯著性,旨在減輕相機運動的影響。


  1. Related Works

大量的CNN目標探測器被用于動作定位[6-9,11,13]。當前的目標檢測器可以分為提議的[3,18]或提議自由的[19–21]。Ren等人[3] 考慮了一個區域建議網絡(RPN),以降低生成區域建議時的培訓成本。Dai等人[18] 開發了位置敏感感興趣區域(RoI)池,解決了檢測中的平移不變性問題。盡管這種方法比文獻[3]更快,但檢測精度較低。Red mon等人[21]設計了一個全卷積網絡來進行低復雜度的多尺度訓練。SSD[19]使用固定數量的錨[3]和多尺度特征映射來處理不同大小和比率的對象。這兩種方法[19,21]在精度和復雜度之間進行權衡,無法很好地定位小尺度物體[22]。復雜的CNN體系結構一直關注于如何整合來自多種模式的信息,以提高動作識別和定位的準確性。例如,Simonyan等人[23]開發了一個具有后期融合策略的雙流CNN,用于聚合空間和運動信息。Ji等人[24]用3D ConvNet代替傳統的2D-CNN從多個相鄰幀捕獲時間信息。文[5]采用馬爾可夫鏈模型對多流特征進行融合。Choutas等人[25]提出了一種人類聯合信息流,以補充雙流體系結構。注意機制在學習視頻中的黑人行為時有效地提高了CNN的表現[26-29]。Girdhar等人[26]提出自上而下和自下而上的關注,以取代傳統的CNN匯集方法。方等人[27]建立了一個注意力模型,該模型關注關鍵身體部位的相關性,以識別人與物體的相互作用。在文獻[28]中,Actor注意正則化被開發出來,用于監督圍繞Actor的重要動作區域的時空注意。Li等人[29]設計了一種具有多樣性正則化的時空注意來學習人體的各個部位,從幾個不同的角度來識別一個人。時間依賴性已經被廣泛研究,以獲得更具歧視性的CNN描述符。一種常見的解決方案是將遞歸神經網絡(RNN)或其變體LSTM與CNN體系結構相結合。例如,Li等人[30]考慮卷積軟注意LSTM來引導基于運動的注意圍繞動作的位置。Li等人[13] 將兩級檢測網絡與LSTM相結合,產生更精確的檢測結果。Shi等人[31]用徑向基函數代替了傳統的RNN核函數來預測未來的行為。最近,在文獻[32]中提出了一種非局部神經網絡,它將時間依賴信息融合到CNN結構中用于視頻分類。與上述方法相比,我們的工作將學習時間依賴的自我注意強度[14,33]與基于CNN的目標檢測器相結合,以獲得更精確的動作定位。

  1. Methodology

本小節描述了提議的HISAN,該HISAN提供時空注意來糾正檢測網絡中不準確的邊界框。HISAN由多個雙向的自我注意單元組成,用于對長期時間依賴信息進行建模。

我們考慮雙向自我注意網絡,如圖3所示,它整合了過去和未來的上下文信息,以解決不同視頻在最初幾幀中包含相似運動模式時的歧義問題[33,35]。雙向自我注意通過在沒有因果關系限制的情況下將一個位置與所有其他位置相關聯來計算該位置在序列中的響應[33]。

如圖2所示,可以產生兩級信息的HISAN被設計成學習關鍵參與者的位置。第一級聚合多人-對象交互和上下文信息,而第二級則隨著時間的推移集成第一級功能以定位動作。第一層由兩個雙向自我注意單元組成,第一個單元處理來自多個邊界框的時空特征,而另一個單元從視頻幀獲取上下文特征。

在我們的框架中,幀級檢測與DP算法相連接,DP算法對在時間上不重疊的邊界框。然而,在某些情況下,由于遮擋或背景雜波,檢測分數較低。在這種情況下,即使重疊度很高,但由于檢測分數較低,邊界框可能無法鏈接到正確的路徑。為了克服這一缺陷,我們設計了一個繼承HISAN輸出的SR算法。該算法分為三個階段,如圖4所示。

我們考慮了一種新的融合方案,它結合了運動顯著性來突出運動信息。考慮到由于小的攝像機運動而可能從運動CNN中進行錯誤檢測,因此包括運動顯著性。例如,給定圖5(a)中的RGB圖像,如圖5(b)所示,不能基于運動CNN得分來區分運動的演員。相反,如圖5(c)所示,運動顯著性捕捉與運動參與者相關聯的正確區域。

融合后,幀級檢測盒連接在一起生成動作管。注意動作定位和多目標跟蹤是兩個不同的問題,因為前者需要動作分類跨幀鏈接動作。此外,與多目標跟蹤相反,在動作定位問題中,通常只定位關鍵角色[39]。因此,我們選擇使用輕量級DP算法,而不是更復雜的多目標跟蹤算法[42,43],該算法使用數據關聯算法將跟蹤器與檢測鏈接起來。

優化問題可以使用多路徑搜索算法[6]來解決,該算法在一次迭代中同時查找所有可能的路徑。在未經剪輯的視頻中,一個動作通常只占整個視頻持續時間的一小部分。因此,需要確定作用管內作用的時間持續時間。為此,我們使用了與[4]相同的算法,該算法使用DP來求解管能量最大化,同時限制了連續幀上的分數平滑度。


  1. Experimental Results

學習過程包括訓練更快的RCNN和HISAN,這兩個過程是分開進行的。更快的R-CNN訓練沒有特征共享[4]。為了便于參考,表1總結了這些訓練程序的超參數。所有實驗都基于UCF10124[4,44]和J-HMDB[4,45]提供的相同協議。對于UCF101-24和J-HMDB,我們分別使用長度為TL=30和15的視頻單元,這取決于數據集中視頻的最小長度。選擇特征維數C=4096作為檢測網絡fc7的維數。我們根據[14,33]中的建議,將頭數設為P=8,輟學率設為0.1。

首先,我們用HISAN在UCF101-24和J-HMDB上產生的時空注意來檢驗性能的提高,分別如表2和表3所示,由此我們可以注意到,在UCF101-24和J-HMDB上,兩流CNN的視頻圖可以提高約2.5%到5%和5%到12%,分別是。此外,在UCF101-24和J-HMDB上,幀映射可以分別增強約6%和16%。這是因為該機制利用時間依賴性來引導對動作位置的注意。J-HMDB的改進比UCF101-24的改進更為顯著,因為前者有許多具有相似子動作序列的動作類,如圖6所示,這需要更多的時間依賴信息來對動作進行分類。時空注意的效果在圖1中也有說明,從圖中我們可以看出,自我注意可以幫助定位動作,特別是在僅用單個幀的信息難以識別的群體動作場景中。

接下來,我們詳細研究了SR算法的效果,該算法用于處理遮擋導致的不一致檢測分數。如表2和表3所示,與SR一起,UCF101-24和J-HMDB上的視頻地圖可分別進一步增強約0.3%到1.5%和0.2%到0.4%。此外,兩個數據集的幀映射都可以提高約0.5%。對J-HMDB的改進較少,因為在所有視頻中只有一個動作實例,所以該數據集中的遮擋較少。

最后,我們研究了新的融合方案,它包含了運動顯著性以減少相機小動作的影響。從表2和表3可以看出,新方案在UCF101-24和J-HMDB上分別將視頻地圖提高了1.1%到2.3%和0.7%到1.7%。此外,在UCF101-24和J-HMDB上,幀映射可以分別提高約2%和0.2%。UCF101-24的改進更為顯著,因為該數據集中的視頻包含更多的攝像機運動。作為說明,在圖7中描繪了運動顯著性有助于動作定位的一些情況,從圖中我們可以看到顯著性地圖包含有動作的真實區域,因此可以通過(13)用運動顯著性得分來支持來自空間CNN和運動CNN的低檢測得分。在上述仿真的基礎上,為了獲得更高的性能,在后續的仿真中,提出的HISAN加入了SR算法和新的融合算法。

從表5中,我們可以注意到[17]結合了一個膠囊網絡來學習更多的語義信息,在IoU=0.2上可以獲得最佳性能。然而,它在這個較小但具有挑戰性的數據集上不能很好地工作,因為對于更高的IoU,它的性能會大幅下降。

接下來,我們將UCF101-24上的動作識別性能與上面的一些基線進行比較,這些基線報告了它們在這個問題上的性能,如表6所示,從中我們可以看出T-CNN[10]通過利用3D ConvNet提供的判別特征,獲得了比[8,48]更好的性能。使用RBF核化RNN結合對抗性訓練策略,[31]顯著優于[10]。我們的方法利用層次雙向自我注意來利用時間信息,表現出最佳的性能。如表6所示,在J-HMDB上也與上述一些基線進行了動作識別性能的比較,從中我們可以看出[31]優于[10],因為與RBF核化RNN相比,3D ConvNet中的時間依賴性沒有得到很好的訓練。R-STAN[28]是一個單一的雙流LSTM網絡,它提供了對動作周圍區域的關注,達到了更高的準確性。PoTion[25]將位姿運動網絡與雙流I3D相結合,使其性能優于[28],通過學習長期的時間依賴和空間上下文信息,達到了最佳的效果。



  1. Conclusions

本文開發了一個有效的結構HISAN,它將兩流CNN和新設計的分層雙向自關注相結合,用于視頻中的動作定位,以學習長期的時間依賴和空間上下文信息。此外,采用SR算法對不一致檢測分數進行校正,并提出了一種新的運動顯著性輔助融合方案來突出運動信息。仿真結果表明,新方法在UCF101-24和J-HMDB數據集上與最新方法相比,獲得了具有競爭力的性能。

總結

以上是生活随笔為你收集整理的视频动作定位的分层自关注网络:ICCV2019论文解析的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。