日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Action recognition进展介绍

發布時間:2025/3/15 编程问答 33 豆豆
生活随笔 收集整理的這篇文章主要介紹了 Action recognition进展介绍 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

原文地址:http://blog.csdn.net/wzmsltw/article/details/70239000

隨著深度學習技術的發展,以及計算能力的進步(GPU等),現在基于視頻的研究領域越來越受到重視。視頻與圖片最大的不同在于視頻還包含了時序上的信息,此外需要的計算量通常也大很多。目前主要在做視頻中動作定位相關的工作,為了開拓思路,讀了不少視頻分析相關領域的文章,所以打算寫幾篇博客,對視頻分析相關的幾個領域做一個簡要的介紹。

這篇主要介紹Action Recognition(行為識別)這個方向。這個方向的主要目標是判斷一段視頻中人的行為的類別,所以也可以叫做Human Action Recognition。雖然這個問題是針對視頻中人的動作,但基于這個問題發展出來的算法,大都不特定針對人,也可以用于其他類型視頻的分類。

任務特點及分析

目的

給一個視頻片段進行分類,類別通常是各類人的動作

特點

簡化了問題,一般使用的數據庫都先將動作分割好了,一個視頻片斷中包含一段明確的動作,時間較短(幾秒鐘)且有唯一確定的label。所以也可以看作是輸入為視頻,輸出為動作標簽的多分類問題。此外,動作識別數據庫中的動作一般都比較明確,周圍的干擾也相對較少(不那么real-world)。有點像圖像分析中的Image Classification任務。

難點/關鍵點

  • 強有力的特征:即如何在視頻中提取出能更好的描述視頻判斷的特征。特征越強,模型的效果通常較好。
  • 特征的編碼(encode)/融合(fusion):這一部分包括兩個方面,第一個方面是非時序的,在使用多種特征的時候如何編碼/融合這些特征以獲得更好的效果;另外一個方面是時序上的,由于視頻很重要的一個特性就是其時序信息,一些動作看單幀的圖像是無法判斷的,只能通過時序上的變化判斷,所以需要將時序上的特征進行編碼或者融合,獲得對于視頻整體的描述。
  • 算法速度:雖然在發論文刷數據庫的時候算法的速度并不是第一位的。但高效的算法更有可能應用到實際場景中去。

常用數據庫

行為識別的數據庫比較多,這里主要介紹兩個最常用的數據庫,也是近年這個方向的論文必做的數據庫。

  • UCF101:來源為YouTube視頻,共計101類動作,13320段視頻。共有5個大類的動作:1)人-物交互;2)肢體運動;3)人-人交互;4)彈奏樂器;5)運動。數據庫主頁
  • HMDB51:來源為YouTube視頻,共計51類動作,約7000段視頻。數據庫主頁

在Actioin Recognition中,實際上還有一類骨架數據庫,比如MSR Action 3D,HDM05,SBU Kinect Interaction Dataset等。這些數據庫已經提取了每幀視頻中人的骨架信息,基于骨架信息判斷運動類型。不做詳細介紹

研究進展

傳統方法

iDT(improved dense trajectories)特征:”Action recognition with improved trajectories”

  • iDT方法(13年)是深度學習進入該領域前效果最好,穩定性最好,可靠性最高的方法,不過算法速度很慢。這個方法是該實驗室之前工作(Dense Trajectories and Motion Boundary Descriptors for Action Recognition)的改進。此前寫的筆記見iDT論文筆記,算法代碼分析見iDT代碼分析
  • 基本思路:DT算法的基本思路為利用光流場來獲得視頻序列中的一些軌跡,再沿著軌跡提取HOF,HOG,MBH,trajectory4種特征,其中HOF基于灰度圖計算,另外幾個均基于dense optical flow計算。最后利用FV(Fisher Vector)方法對特征進行編碼,再基于編碼結果訓練SVM分類器。而iDT改進的地方在于它利用前后兩幀視頻之間的光流以及SURF關鍵點進行匹配,從而消除/減弱相機運動帶來的影響,改進后的光流圖像成為warp optical flow

“Action Recognition with Stacked Fisher Vectors”基于iDT方法的改進效果最好的是這篇文章。使用了兩層的fv編碼,筆記見StackedFV筆記

深度學習方法

由于這個方向這幾年的論文實在太多,所以這部分挑選了一些近年比較有代表性的論文進行簡要介紹。更多的論文可以上谷歌學術通過搜索Action Recognition找到。

(1) Two Stream 方法

“Two-Stream Convolutional Networks for Action Recognition in Videos”(2014NIPS)


- Two Stream方法最初在這篇文章中被提出,基本原理為對視頻序列中每兩幀計算密集光流,得到密集光流的序列(即temporal信息)。然后對于視頻圖像(spatial)和密集光流(temporal)分別訓練CNN模型,兩個分支的網絡分別對動作的類別進行判斷,最后直接對兩個網絡的class score進行fusion(包括直接平均和svm兩種方法),得到最終的分類結果。注意,對與兩個分支使用了相同的2D CNN網絡結構,其網絡結構見下圖。
- 實驗效果:UCF101-88.0%,HMDB51-59.4%

“Convolutional Two-Stream Network Fusion for Video Action Recognition”(2016CVPR)

  • 這篇論文的主要工作為在two stream network的基礎上,利用CNN網絡進行了spatial以及temporal的融合,從而進一步提高了效果。此外,該文章還將基礎的spatial和temporal網絡都換成了VGG-16 network。
  • 實驗效果:UCF101-92.5%,HMDB51-65.4%

”Temporal Segment Networks: Towards Good Practices for Deep Action Recognition”(2016 ECCV)


- 論文的講解可以參考:https://blog.csdn.net/zhang_can/article/details/79618781。同時TSN也是2016年ActivityNet比賽,“untrimmed video classification”的冠軍
- 這篇文章是港中文Limin Wang大神的工作。他在這方面做了很多很棒的工作,可以followt他的主頁:http://wanglimin.github.io/ 。
- 這篇文章提出的TSN網絡也算是spaital+temporal fusion,結構圖見下圖。這篇文章對如何進一步提高two stream方法進行了詳盡的討論,主要包括幾個方面(完整內容請看原文):
1. 輸入數據的類型:除去two stream原本的RGB image和 optical flow field這兩種輸入外,這篇文章中還嘗試了RGB difference及 warped optical flow field兩種輸入。最終結果是 RGB+optical flow+warped optical flow的組合效果最好。
2. 網絡結構:嘗試了GoogLeNet,VGGNet-16及BN-Inception三種網絡結構,其中BN-Inception的效果最好。
3. 訓練策略:包括 跨模態預訓練,正則化,數據增強等。
- 實驗效果:UCF101-94.2%,HMDB51-69.4%

“Beyond Short Snippets: Deep Networks for Video Classification”

這篇文章主要是用LSTM來做two-stream network的temporal融合。效果一般
實驗效果:UCF101-88.6%

(2) 3D 卷積

“3D Convolutional Neural Networks for Human Action Recognition”

“Learning spatiotemporal features with 3d convolutional networks”


- C3D是facebook的一個工作,采用3D卷積和3D Pooling構建了網絡。論文筆記見C3D論文筆記 。通過3D卷積,C3D可以直接處理視頻(或者說是視頻幀的volume)
- 實驗效果:UCF101-85.2% 可以看出其在UCF101上的效果距離two stream方法還有不小差距。我認為這主要是網絡結構造成的,C3D中的網絡結構為自己設計的簡單結構,如下圖所示。
- 速度:C3D的最大優勢在于其速度,在文章中其速度為314fps。而實際上這是基于兩年前的顯卡了。用Nvidia 1080顯卡可以達到600fps以上。所以C3D的效率是要遠遠高于其他方法的,個人認為這使得C3D有著很好的應用前景。

“ConvNet Architecture Search for Spatiotemporal Feature Learning”(2017 CoRR)

作者在其項目主頁 放出了新版本的Res-C3D網絡的caffe模型。新版本的模型大小是之前的一半,速度比C3D快了很多,效果也比之前提高了幾個百分點(UCF上)。

其他方法

“A Key Volume Mining Deep Framework for Action Recognition”

  • 本文主要做的是key volume的自動識別。通常都是將一整段動作視頻進行學習,而事實上這段視頻中有一些幀與動作的關系并不大。因此進行關鍵幀的學習,再在關鍵幀上進行CNN模型的建立有助于提高模型效果。本文達到了93%的正確率嗎,為目前最高。
  • 實驗效果:UCF101-93.1%,HMDB51-63.3%

”Deep Temporal Linear Encoding Networks”

  • 本文主要提出了“Temporal Linear Encoding Layer” 時序線性編碼層,主要對視頻中不同位置的特征進行融合編碼。至于特征提取則可以使用各種方法,文中實驗了two stream以及C3D兩種網絡來提取特征。
  • 實驗效果:UCF101-95.6%,HMDB51-71.1% (特征用two stream提取)。應該是目前為止看到效果最好的方法了(CVPR2017里可能會有更好的效果)

小結

可以看出,這幾年action recognition領域發展的非常快,有各種各樣的方法被提出。但要注意,action recognition一般是對預先分割過的短視頻進行分類,而真實環境中的視頻一般都是沒有預先切分過的,而且會包含大量無關信息。所以我認為這個領域的研究很像對Image Classification的研究,比較基礎,可以為相關領域的研究提供有力的工具。

總結

以上是生活随笔為你收集整理的Action recognition进展介绍的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。