日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

【技术综述】视频分类/行为识别研究综述,从数据集到方法

發布時間:2025/3/20 编程问答 15 豆豆
生活随笔 收集整理的這篇文章主要介紹了 【技术综述】视频分类/行为识别研究综述,从数据集到方法 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

視頻分類/行為識別是計算機視覺領域中非常有挑戰性的課題,因為其不僅僅要分析目標體的空間信息,還要分析時間維度上的信息,如何更好的提取出空間-時間特征是問題的關鍵。本文總結了該領域的技術進展和相關數據集,技術進展從傳統特征法到深度學習中的3DCNN,LSTM,Two-Stream等。

作者 | 言有三

編輯 | 言有三

1 視頻分類/行為識別問題

首先我們要明確這是一個什么問題,基于視頻的行為識別包括兩個主要問題,即行為定位和行為識別。行為定位即找到有行為的視頻片段,與2D圖像的目標定位任務相似。而行為識別即對該視頻片段的行為進行分類識別,與2D圖像的分類任務相似。

本文聚焦的是行為識別,即對整個視頻輸入序列進行視頻分類,一般都是經過裁剪后的視頻切片。接下來從數據集的發展,傳統方法,深度學習方法幾個方向進行總結。

2??視頻分類/行為分析重要數據集

深度學習任務的提升往往伴隨著數據集的發展,視頻分類/行為識別相關的數據集非常多,這里先給大家介紹在論文評測中最常見的3個數據集。

2.1 HMDB-51

HMDB-51共51個類別,6766個短視頻。數據集地址:http://serre-lab.clps.brown.edu/resource/hmdb-a-large-human-motion-database/#dataset,發布于2011年。

數據來源非常廣泛,包括電影,一些現有的公開數據集,YouTube視頻等。從中選擇了51個類別,每一個類別包含101個以上視頻。

分為5大類:

  • 常見的面部動作(smile,laugh,chew,talk)

  • 復雜的面部動作(smoke,eat,drink)

  • 常見的肢體動作(climb,dive,jump)

  • 復雜的肢體動作(brush hair,catch,draw sword)

  • 多人交互肢體動作(hug,kiss,shake hands)

下面是其中一些維度的統計,包括姿態,相機運動等。

51個類別的展示如下:

2.2 UCF-101

UCF-101共101個類別,13320個短視頻。數據集地址:https://www.crcv.ucf.edu/research/data-sets/human-actions/ucf101/,發布于2012年。

UCF-101是目前動作類別數、樣本數最多的數據集之一,包含5大類動作:人與物體互動、人體動作、人與人互動、樂器演奏、體育運動。總共包括在自然環境下101種人類動作,每一類由25個人做動作,每個人做4-7組,視頻大小為320×240。正因為類別眾多加上在動作的采集上具有非常大的多樣性,如相機運行、外觀變化、姿態變化、物體比例變化、背景變化等等,所以也成為了當前難度最高的動作類數據集挑戰之一。

各個類別的分布如上,相對還是比較均勻的,UCF-101是視頻分類/行為識別方法必須評測的標準。

2.3 Kinetics-700 dataset

Kinetics-700 dataset被用于ActivityNet比賽,包含約650000個視頻,700個類別。數據集地址:https://deepmind.com/research/open-source/open-source-datasets/kinetics/,發布于2019年。

ActivityNet比賽始于2016的CVPR,是與ImageNet齊名的在視頻理解方面最重要的比賽。在這個比賽下的Task A–Trimmed Action Recognition比賽是一個視頻分類比賽,2019年的比賽使用kinetics-700數據集,在此之前還有2017年的kinetics-400和2018年的kinetics-600。

數據集是Google的deepmind團隊提供,每個類別至少600個視頻以上,每段視頻持續10秒左右,標注一個唯一的類別。行為主要分為三大類:人與物互動,比如演奏樂器;人人互動,比如握手、擁抱;運動等。即person、person-person、person-object。

除了以上數據集,比較重要的還有Sports-1M,YouTube-8M等,篇幅所限,就不一一描述,大家可以參考文獻[1]。

如果不能下載數據集,可以移步有三AI知識星球獲取。

3??傳統有監督特征提取方法

傳統的方法通過提取關鍵點的特征來對視頻進行描述,以時空關鍵點,密集軌跡方法等為代表。

3.1 時空關鍵點(space-time interest points)

基于時空關鍵點的核心思想是:視頻圖像中的關鍵點通常是在時空維度上發生強烈變化的數據,這些數據反應了目標運動的重要信息[2]。

比如一個人揮舞手掌,手掌一定會在前后幀中發生最大移動,其周圍圖像數據發生變化最大。而這個人的身體其他部位卻變化很小,數據幾乎保持不變。如果能將這個變化數據提取出來,并且進一步分析其位置信息,那么可以用于區分其他動作。

時空關鍵點的提取方法是對空間關鍵點方法的擴展,空間關鍵點的提取則是基于多尺度的圖像表達,這里的時空關鍵點就是將2D Harris角點的檢測方法拓展到了3D,具體求解方法非常復雜讀者需要自行了解,篇幅問題就不講述了。

得到了這些點之后,基于點的一次到四次偏導數,組合成一個34維的特征向量,使用k-means對這些特征向量進行了聚類。

除了harris,經典的2D描述子SIFT被拓展到3D空間[3],示意圖如下:

上圖從左至右分別展示了2D SIFT特征,多個時間片的2D SIFT特征,以及3D SIFT特征,后兩者的區別在于計算區域的不同,3D SIFT的每一個關鍵點包含3個值,幅度和兩個角度

統計關鍵點時空周圍的梯度直方圖就可以形成特征描述子,然后對所有的特征描述子進行k-means聚類,劃分類別,形成詞匯“word”。所有不同word就構成了一個vocabulary,每個視頻就可以通過出現在這個vocabulary中詞匯的數量來進行描述,最后訓練一個SVM或者感知器來進行動作識別。


除了以上的兩種特征,還有HOG3D等,感興趣的讀者可以自行閱讀。

3.2 密集軌跡(dense-trajectories)[4]

時空關鍵點是編碼時空坐標中的視頻信息,而軌跡法iDT(improved Dense Trajectories)是另一種非常經典的方法,它追蹤給定坐標圖像沿時間的變化。

iDT算法包含三個步驟:密集采樣特征點,特征軌跡跟蹤和基于軌跡的特征提取。

密集采樣是對不同尺度下的圖像進行規則采樣,不過真正被用于跟蹤等不是所有點,因為平滑區域的點沒有跟蹤意義,通過計算每個像素點自相關矩陣的特征值,并設置閾值去除低于閾值的特征點來實現這個選擇。


對軌跡的追蹤是通過光流,首先計算圖像光流速率(ut, vt),然后通過這個速率來描述圖像運動軌跡:

wt是密集光流場,M是中值濾波器,得到的一系列點形成了一個軌跡。由于軌跡會隨著時間漂移,可能會從初始位置移動到很遠的地方。所以論文對軌跡追蹤距離做了限制,首先將幀數限制在L內,而且軌跡空間范圍限制在WxW范圍,如果被追蹤點不在這個范圍,就重新采樣進行追蹤,這樣可以保證軌跡的密度不會稀疏。


除了軌跡形狀特征,還提取了HOG,HOF(histogram of flow)以及MBH(motion boundary histogram)等特征。其中HOG特征計算的是灰度圖像梯度的直方圖,HOF計算的是光流的直方圖,MBH計算的是光流梯度的直方圖,也可以理解為在光流圖像上計算的HOG特征,它反應了不同像素之間的相對運動。

以HOG特征為例,在一個長度為L的軌跡的各幀圖像上取特征點周圍大小為N×N的區域,將其在空間和時間上進行劃分。假如空間劃分為2*2,時間劃分為3份,bins為8,則HOG特征維度為2*2*3*8=96,HOF特征和MBH特征計算類似。

提取出HOG等信息后,接下來具體的分類與上面基于時空關鍵點的方法類似,不再贅述。

4??深度學習方法

當前基于CNN的方法不需要手動提取特征,性能已經完全超越傳統方法,以3D卷積,RNN/LSTM時序模型,雙流法等模型為代表。


4.1 3D卷積[5]


視頻相對于圖像多出了一個維度,而3D卷積正好可以用于處理這個維度,因此也非常適合視頻分類任務,缺點是計算量比較大,下圖展示了一個簡單的3D模型。

4.2 RNN/LSTM[6]

視頻和語音信號都是時序信號,而RNN和LSTM正是處理時序信號的模型。如下圖所示,通過CNN對每一個視頻幀提取特征,使用LSTM建模時序關系。

4.3 雙流法(two-stream)[7]


雙流法包含兩個通道,一個是RGB圖像通道,用于建模空間信息。一個是光流通道,用于建模時序信息。兩者聯合訓練,并進行信息融合。

雙流模型是視頻分類中非常重要的一類模型,在特征的融合方式,光流的提取等方向都有非常多的研究,關于更多模型的解讀如果感興趣可以移步有三AI知識星球中的模型結構1000變板塊。

4.4?其他

關于各種視頻分類的網絡結構解讀,有興趣的同學可以到有三AI知識星球中進行閱讀和后續學習。

5 總結

雖然在UCF-101數據集上評測指標已經達到了98.5%,但是視頻的分類目前遠沒有圖像分類成熟,面臨著巨大的類內方差,相機運動和背景干擾,數據不足等難題。

除了要解決以上難題外,有以下幾個重要方向是值得研究的。

  • 多模態信息融合。即不只是采用圖像信息,還可以融合語音等信息。

  • 多標簽視頻分類。與多標簽圖像分類類似,現實生活中的視頻可能有多個標簽。

  • 行為定位。一段視頻中的行為有開始和結束,如何定位到真正有效的片段是之后的視頻分類的重要前提。

參考文獻

[1]?Kong Y, Fu Y. Human action recognition and prediction: A survey[J]. arXiv preprint arXiv:1806.11230, 2018.

[2]?Laptev I. On space-time interest points[J]. International journal of computer vision, 2005, 64(2-3): 107-123.

[3]?Scovanner P, Ali S, Shah M. A 3-dimensional sift descriptor and its application to action recognition[C]//Proceedings of the 15th ACM international conference on Multimedia. ACM, 2007: 357-360.

[4]?Wang H, Kl?ser A, Schmid C, et al. Dense trajectories and motion boundary descriptors for action recognition[J]. International journal of computer vision, 2013, 103(1): 60-79.

[5]?Ji S, Xu W, Yang M, et al. 3D convolutional neural networks for human action recognition[J]. IEEE transactions on pattern analysis and machine intelligence, 2012, 35(1): 221-231.

[6]?Donahue J, Anne Hendricks L, Guadarrama S, et al. Long-term recurrent convolutional networks for visual recognition and description[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2015: 2625-2634.

[7]?Simonyan K, Zisserman A. Two-stream convolutional networks for action recognition in videos[C]//Advances in neural information processing systems. 2014: 568-576.

有三AI夏季劃

有三AI夏季劃進行中,歡迎了解并加入,系統性成長為中級CV算法工程師。

轉載文章請后臺聯系

侵權必究

往期相關

  • 【技術綜述】一文道盡softmax loss及其變種

  • 【技術綜述】閑聊圖像分割這件事兒

  • 【技術綜述】你真的了解圖像分類嗎?

  • 【技術綜述】萬字長文詳解Faster RCNN源代碼

  • 【技術綜述】“看透”神經網絡

  • 【技術綜述】一文道盡“人臉數據集”

  • 【技術綜述】多標簽圖像分類綜述

  • 【技術綜述】基于弱監督深度學習的圖像分割方法綜述

  • 【技術綜述】一文道盡傳統圖像降噪方法

  • 【技術綜述】深度學習在自然語言處理中的應用發展史

與50位技術專家面對面20年技術見證,附贈技術全景圖

總結

以上是生活随笔為你收集整理的【技术综述】视频分类/行为识别研究综述,从数据集到方法的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。