當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Action recognition进展介绍

發布時間：2025/3/15 编程问答 33 豆豆

生活随笔收集整理的這篇文章主要介紹了 Action recognition进展介绍小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

原文地址：http://blog.csdn.net/wzmsltw/article/details/70239000

隨著深度學習技術的發展，以及計算能力的進步（GPU等），現在基于視頻的研究領域越來越受到重視。視頻與圖片最大的不同在于視頻還包含了時序上的信息，此外需要的計算量通常也大很多。目前主要在做視頻中動作定位相關的工作，為了開拓思路，讀了不少視頻分析相關領域的文章，所以打算寫幾篇博客，對視頻分析相關的幾個領域做一個簡要的介紹。

這篇主要介紹Action Recognition（行為識別）這個方向。這個方向的主要目標是判斷一段視頻中人的行為的類別，所以也可以叫做Human Action Recognition。雖然這個問題是針對視頻中人的動作，但基于這個問題發展出來的算法，大都不特定針對人，也可以用于其他類型視頻的分類。

任務特點及分析

目的

給一個視頻片段進行分類，類別通常是各類人的動作

特點

簡化了問題，一般使用的數據庫都先將動作分割好了，一個視頻片斷中包含一段明確的動作，時間較短（幾秒鐘）且有唯一確定的label。所以也可以看作是輸入為視頻，輸出為動作標簽的多分類問題。此外，動作識別數據庫中的動作一般都比較明確，周圍的干擾也相對較少（不那么real-world）。有點像圖像分析中的Image Classification任務。

難點/關鍵點

強有力的特征：即如何在視頻中提取出能更好的描述視頻判斷的特征。特征越強，模型的效果通常較好。
特征的編碼（encode）/融合（fusion）：這一部分包括兩個方面，第一個方面是非時序的，在使用多種特征的時候如何編碼/融合這些特征以獲得更好的效果；另外一個方面是時序上的，由于視頻很重要的一個特性就是其時序信息，一些動作看單幀的圖像是無法判斷的，只能通過時序上的變化判斷，所以需要將時序上的特征進行編碼或者融合，獲得對于視頻整體的描述。
算法速度：雖然在發論文刷數據庫的時候算法的速度并不是第一位的。但高效的算法更有可能應用到實際場景中去。

常用數據庫

行為識別的數據庫比較多，這里主要介紹兩個最常用的數據庫，也是近年這個方向的論文必做的數據庫。

UCF101:來源為YouTube視頻，共計101類動作，13320段視頻。共有5個大類的動作：1)人-物交互；2)肢體運動；3)人-人交互；4)彈奏樂器；5)運動。數據庫主頁
HMDB51:來源為YouTube視頻，共計51類動作，約7000段視頻。數據庫主頁

在Actioin Recognition中，實際上還有一類骨架數據庫，比如MSR Action 3D，HDM05，SBU Kinect Interaction Dataset等。這些數據庫已經提取了每幀視頻中人的骨架信息，基于骨架信息判斷運動類型。不做詳細介紹

研究進展

傳統方法

iDT（improved dense trajectories)特征：”Action recognition with improved trajectories”

iDT方法（13年）是深度學習進入該領域前效果最好，穩定性最好，可靠性最高的方法，不過算法速度很慢。這個方法是該實驗室之前工作（Dense Trajectories and Motion Boundary Descriptors for Action Recognition）的改進。此前寫的筆記見iDT論文筆記，算法代碼分析見iDT代碼分析
基本思路：DT算法的基本思路為利用光流場來獲得視頻序列中的一些軌跡，再沿著軌跡提取HOF，HOG，MBH，trajectory4種特征，其中HOF基于灰度圖計算，另外幾個均基于dense optical flow計算。最后利用FV（Fisher Vector）方法對特征進行編碼，再基于編碼結果訓練SVM分類器。而iDT改進的地方在于它利用前后兩幀視頻之間的光流以及SURF關鍵點進行匹配，從而消除/減弱相機運動帶來的影響，改進后的光流圖像成為warp optical flow

“Action Recognition with Stacked Fisher Vectors”基于iDT方法的改進效果最好的是這篇文章。使用了兩層的fv編碼，筆記見StackedFV筆記

深度學習方法

由于這個方向這幾年的論文實在太多，所以這部分挑選了一些近年比較有代表性的論文進行簡要介紹。更多的論文可以上谷歌學術通過搜索Action Recognition找到。

(1) Two Stream 方法

“Two-Stream Convolutional Networks for Action Recognition in Videos”（2014NIPS）

- Two Stream方法最初在這篇文章中被提出，基本原理為對視頻序列中每兩幀計算密集光流，得到密集光流的序列（即temporal信息）。然后對于視頻圖像（spatial）和密集光流（temporal）分別訓練CNN模型，兩個分支的網絡分別對動作的類別進行判斷，最后直接對兩個網絡的class score進行fusion（包括直接平均和svm兩種方法），得到最終的分類結果。注意，對與兩個分支使用了相同的2D CNN網絡結構，其網絡結構見下圖。
- 實驗效果：UCF101-88.0%，HMDB51-59.4%

“Convolutional Two-Stream Network Fusion for Video Action Recognition”（2016CVPR）

這篇論文的主要工作為在two stream network的基礎上，利用CNN網絡進行了spatial以及temporal的融合，從而進一步提高了效果。此外，該文章還將基礎的spatial和temporal網絡都換成了VGG-16 network。
實驗效果：UCF101-92.5%，HMDB51-65.4%

”Temporal Segment Networks: Towards Good Practices for Deep Action Recognition”（2016 ECCV）

- 論文的講解可以參考：https://blog.csdn.net/zhang_can/article/details/79618781。同時TSN也是2016年ActivityNet比賽，“untrimmed video classification”的冠軍
- 這篇文章是港中文Limin Wang大神的工作。他在這方面做了很多很棒的工作，可以followt他的主頁：http://wanglimin.github.io/ 。
- 這篇文章提出的TSN網絡也算是spaital+temporal fusion，結構圖見下圖。這篇文章對如何進一步提高two stream方法進行了詳盡的討論，主要包括幾個方面（完整內容請看原文）：
1. 輸入數據的類型：除去two stream原本的RGB image和 optical flow field這兩種輸入外，這篇文章中還嘗試了RGB difference及 warped optical flow field兩種輸入。最終結果是 RGB+optical flow+warped optical flow的組合效果最好。
2. 網絡結構：嘗試了GoogLeNet,VGGNet-16及BN-Inception三種網絡結構，其中BN-Inception的效果最好。
3. 訓練策略：包括跨模態預訓練，正則化，數據增強等。
- 實驗效果：UCF101-94.2%，HMDB51-69.4%

“Beyond Short Snippets: Deep Networks for Video Classification”

這篇文章主要是用LSTM來做two-stream network的temporal融合。效果一般
實驗效果：UCF101-88.6%

(2) 3D 卷積

“3D Convolutional Neural Networks for Human Action Recognition”

“Learning spatiotemporal features with 3d convolutional networks”

- C3D是facebook的一個工作，采用3D卷積和3D Pooling構建了網絡。論文筆記見C3D論文筆記。通過3D卷積，C3D可以直接處理視頻（或者說是視頻幀的volume）
- 實驗效果：UCF101-85.2% 可以看出其在UCF101上的效果距離two stream方法還有不小差距。我認為這主要是網絡結構造成的，C3D中的網絡結構為自己設計的簡單結構，如下圖所示。
- 速度：C3D的最大優勢在于其速度，在文章中其速度為314fps。而實際上這是基于兩年前的顯卡了。用Nvidia 1080顯卡可以達到600fps以上。所以C3D的效率是要遠遠高于其他方法的，個人認為這使得C3D有著很好的應用前景。

“ConvNet Architecture Search for Spatiotemporal Feature Learning”(2017 CoRR)

作者在其項目主頁放出了新版本的Res-C3D網絡的caffe模型。新版本的模型大小是之前的一半，速度比C3D快了很多，效果也比之前提高了幾個百分點（UCF上）。

其他方法

“A Key Volume Mining Deep Framework for Action Recognition”

本文主要做的是key volume的自動識別。通常都是將一整段動作視頻進行學習，而事實上這段視頻中有一些幀與動作的關系并不大。因此進行關鍵幀的學習，再在關鍵幀上進行CNN模型的建立有助于提高模型效果。本文達到了93%的正確率嗎，為目前最高。
實驗效果：UCF101-93.1%，HMDB51-63.3%

”Deep Temporal Linear Encoding Networks”

本文主要提出了“Temporal Linear Encoding Layer” 時序線性編碼層，主要對視頻中不同位置的特征進行融合編碼。至于特征提取則可以使用各種方法，文中實驗了two stream以及C3D兩種網絡來提取特征。
實驗效果：UCF101-95.6%，HMDB51-71.1% （特征用two stream提取）。應該是目前為止看到效果最好的方法了（CVPR2017里可能會有更好的效果）

小結

可以看出，這幾年action recognition領域發展的非常快，有各種各樣的方法被提出。但要注意，action recognition一般是對預先分割過的短視頻進行分類，而真實環境中的視頻一般都是沒有預先切分過的，而且會包含大量無關信息。所以我認為這個領域的研究很像對Image Classification的研究，比較基礎，可以為相關領域的研究提供有力的工具。

總結

以上是生活随笔為你收集整理的Action recognition进展介绍的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： php ztree异步加载数据格式,zT
下一篇：论文阅读：Learnable pooli