Action recognition in video
論文
backbone:
- i3d: https://arxiv.org/abs/1705.07750
- non-local: https://arxiv.org/abs/1711.07971
- slowfast: https://arxiv.org/abs/1812.03982
- csn: https://arxiv.org/abs/1904.02811
- video-swin: https://arxiv.org/abs/2106.13230
dataset:
- kinetics: https://deepmind.com/research/open-source/kinetics
- ava: https://research.google.com/ava/
- activitynet: https://github.com/activitynet/ActivityNet
- hacs: http://hacs.csail.mit.edu/
proposal
- TSP:https://arxiv.org/pdf/2011.11479.pdf
- BSP:https://arxiv.org/pdf/2011.10830.pdf
localization
- BMN:https://arxiv.org/pdf/1907.09702.pdf
- GTAD:https://arxiv.org/pdf/1911.11462.pdf
- TCANET:https://arxiv.org/pdf/2103.13141.pdf
I3D
i3d: https://arxiv.org/abs/1705.07750
摘要
現在在視頻領域內的人體動作分類任務由于數據集數量的不足,使得大多數模型在已存的benchmark上只能得到相似的結果。這篇論文重新評估了SOTA方法在Kinetics數據集上的效果。Kinetics數據集有兩套量級的數據,400中人物動作種類,每個種類超過400張切片,數據均來自于真實的具有挑戰性的Youtube視頻。
同時本文也提出了一個新的雙流膨脹3D卷積網絡(I3D),從2D卷積網絡膨脹而來:深層圖像分類卷積網絡中的過濾器和池化核被膨脹到3D,使從視頻中學習到無間隔的時空特征成為可能,同時還產出了ImageNet架構的設計并平滑了其參數。
任務領域
視頻人體動作分類
創新點
使用3D卷積網絡對視頻中的幀和光流信息進行雙流卷積學習。
數據集
kinetics
模型框架
性能
non-local
創新點
參考了自注意力機制,引入了一個non-local block,使特征圖的每一個特征都從整個視頻在時空3D中的每個像素特征中提取。
模型
Slowfast
摘要
提出了slowfast network,包含:
此外快路還可以通過減少通道容量來實現輕量化。
關鍵詞
視頻動作分類、視頻檢測、時空雙通道
框架
- 慢路:由一個3D殘差網絡組成,從64幀的原始視頻中以16的采樣率得到每秒4幀的圖像輸入。在模型前段,不采用與時間相關的卷積核。只在res4res_4res4? 和res5res_5res5?中采用時間維度長度大于1的3D卷積核。據稱過早地引入時間信息會降低準確率。
- 快路:同樣是3D殘差網絡,但可以采用時間3D卷積,因為它就是要采集時間信息。
- 橫向鏈接:方向從快到慢。三種方法:(都是降低T維度)
- 將時間維度整合到通道上。
- 對時間維度進行采樣。
- 進行3D的5?1?15*1*15?1?1,步長為α\alphaα的卷積。
最后將快慢特征進行求和或拼接。
兩個通道的輸出通過平均池化層處理后拼接到一起輸入到全連接層,最終輸出概率。
創新點
CSN
摘要
分組卷積在2D圖像分類中在減少計算量方面發揮了很大的作用。這篇論文研究了3D分組卷積網絡在視頻分類任務中的集種不同的設計選擇。我們先入為主地認為卷積的通道數量對3D分組卷積的準確率有很大影響。我們的實驗有兩個主要發現。首先是,將3D卷積按照通道維度和時空維度進行分離可以提高準確率并降低計算成本。第二,3D通道分離卷積提供了一個約束,使訓練的準確率降低但提高了測試準確率。這兩種發現引導我們設計了一個結構——Channel-Separated Convolutional Network(CSN)。
關鍵詞
視頻分類、分組卷積
模型
P3D、R(2+1)D、S3D等模型,他們使用了一個2D卷積和一個1D卷積組合來替代3D卷積,這種方法可以提高準確率并減少計算量。
在圖片領域,分離卷積將2D的k?kk*kk?k的卷積核分成了一個pointwise的1?11*11?1卷積加depthwise的k?kk*kk?k卷積。當通道數看作k2k^2k2時,FLOPs也可以減少大約k2k^2k2。而對3D視頻卷積核,FLOP減少量達到k3~k^3?k3。
本文受分離卷積啟發,設計了3D Channel-Separated Networks (CSN),其中所有的卷積操作都由1?1?11*1*11?1?1的pointwise卷積層和或3?3?33*3*33?3?3的depthwise卷積層來實現。
- 普通卷積:卷積層接受的信息來自于每一個通道。
- 分組卷積:卷積層接受的信息來自于組內的幾個通道。
- Depthwise卷積:當每個通道作為一組時,分組卷積變成了Depthwise卷積。
分組卷積的優點:可以降低計算的復雜度,分為GGG個group時,復雜度降低了G倍。
分組卷積的缺點:限制了信息交互,只有組內的通道信息進行了信息交互。
創新點
我們的論文證明了通道交互設計的重要性。
結果
由fig(b)組成的網絡稱為ip-CSN結構。
由fig?組成的網絡稱為ir-CSN結構。
Resnet3D的網絡結構,和使用了其他bottleneck的Resnet3D的網絡結構。
當模型深度比較深時,減少了通道間交互的模型性能反而提升了。作者認為減少交互也減少了模型過擬合的可能性,提高了模型的泛化性能。
Video Swin Transformer
摘要
將swin transformer從圖像應用到視頻。提出了一個純transformer的backbone結構來解決視頻識別問題。通過利用視頻信息中內在的時空位置信息,時空距離越近的兩個像素他們的相關性越高,實現了對因式分解類模型的超越。
swin transformer為了得到空間定位信息和層級、平移不變性,合并了歸納誤差。
本文模型嚴格遵循原始swin transformer,但將局部注意力從空間領域擴展到了時空領域。
當局部注意力在不重疊窗口中計算時,原來Swin Transformer窗口變換機制也改變來適應時空維度的輸入。
模型框架
輸入視頻數據:T?H?W?3T*H*W*3T?H?W?3
patch大小:2?4?4?32*4*4*32?4?4?3
patch數量:T2×H4×W4\frac{T}{2} \times \frac{H}{4} \times \frac{W}{4}2T?×4H?×4W?.其中每個patch包含96維特征。
將patch通過一個線性embedding層得到任意維度CCC的向量。
模型并不沿時間維度進行降采樣,這使得我們能繼續使用swin transformer的層級結構,因此模型保留了4層的結構,并在每層的patch merging層,進行兩倍的空間降采樣。patch merging層合并了每組2?22*22?2的空間上相連的patches特征,并采用一個線性層將合并后的特征映射到他們維度的一半。例如,線性層會將第二層中每個token的4C維度特征映射到2C維度。
整個架構的主要組成部分是Video Swin Transformer block,其將常規transformer層中的多頭自注意力模塊替換成基于多頭自注意力模塊的3D變換窗口模塊,并保持其他結構不變。
一個video transformer block 包括一個基于MSA的3D窗口變換和一個反饋網絡,包括一個兩層的MLP和非線性的GELU激活層。在每個MSA模塊前都采用了Layer Normalization層,并在每個模塊都采用FFN和差分連接。
3D shifted Window based MSA Module
由于視頻數據多出了時間維度,再進行全局的自注意力機制會產生大量的計算需求。因此引入了位置歸納偏置。
MSA on non-overlapping 3D windows:
將圖片識別中的2D MSA擴展到3D.
給定視頻的3D tokens T′×H′×W′T' \times H' \times W'T′×H′×W′和3D窗口P×M×MP \times M \times MP×M×M,窗口可以不重疊的覆蓋視頻。可以說,視頻被窗口分成了?T′P?×?H′M?×?W′M?\lceil{\frac{T'}{P}}\rceil \times \lceil{\frac{H'}{M}}\rceil\times\lceil\frac{W'}{M}\rceil?PT′??×?MH′??×?MW′??個部分。對于第二層的自注意力模塊窗口的劃分方式從前一層那種變換成沿著時間、高度和寬度軸劃分為(P2,M2,M2)(\frac{P}{2},\frac{M}{2},\frac{M}{2})(2P?,2M?,2M?)個tokens。
模型計算過程:
3D 相對位置偏置
3D QKV注意力公式:
Attention(Q,K,V)=Softmax(QKT/d+B)VAttention(Q,K,V)=Softmax(QK^T/\sqrtozvdkddzhkzd+B)VAttention(Q,K,V)=Softmax(QKT/d?+B)V
TSP
摘要
由于未剪輯的視頻所占用的內存容量過大,目前主流的視頻定位方法都基于預計算過的視頻切片特征來處理的。這些特征往往從視頻編碼器(由trimmed video分類任務訓練)提取出來.本文提出了一個針對切片特征的有監督預訓練范式,不僅訓練分類活動,還考慮切片背景和全局視頻信息來提升時間敏感度。
貢獻
框架
傳統預訓練策略
使用trimmed action classification 作為預訓練模型來預測untrimmed video的action localization。現在的SOTA的TAL方法對時間維度上下文信息十分敏感,它并不能很好的區分出動作實例和其相關的背景上下文。
如何合并時間敏感度
TAC預訓練編碼器只從正例中學習。一個好的編碼器在面對未剪輯視頻時,應當既能區分動作和其上下文也能區分不同的動作。因此我們提出預訓練編碼器應當能1、對前景切片的類別進行分類,2、判斷切片是在動作內還是動作外。
TSP
輸入數據。使用未剪輯視頻進行預訓練。輸入數據XXX的形狀為3×L×H×W3 \times L \times H \times W3×L×H×W.XXX的標簽有兩種1.如果切片來自一個前景片段,那么它應當由動作類別標簽ycy^cyc。2.二進制時間領域標簽yry^ryr表示切片來自前景或動作(yr=1y^r=1yr=1)或者背景或無動作(yr=0y^r=0yr=0)。
局部和全局特征編碼。EEE是視頻編碼器,將切片XXX轉換為特征向量fff,fff即為局部特征。我們將最大池化特征fg=max(E(XI))f^g=max(E(X_I))fg=max(E(XI?))作為全局特征。使用這倆特征來幫助學習區分前景后景。
使用兩個分類頭。第一個分類頭用于分類動作類別;第二個分類頭利用局部特征和全局特征,產生一個時序區域邏輯向量y^c\hat{y}^cy^?c.
損失函數:
其中LLL為交叉熵損失函數,α\alphaα為平衡權重。
優化細節。時序標記的視頻在樣本上有天然的不平衡。為了緩解這種不平衡,我們再次下采樣了視頻切片使前后景的樣本數量相同。為了節省顯存,我們在訓練時在初始化階段預計算了每個視頻的GVF,并凍結了它。
BMN
摘要
參考BSN方法,通過BM confidence map的方式來解決BSN效率低、容易保留邊界和多層級但不統一的問題。
框架
總結
以上是生活随笔為你收集整理的Action recognition in video的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Win10问题篇:让AIDA64像鲁大师
- 下一篇: RCAR会议---论文遵从验证