日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 >

视频行为理解

發(fā)布時間:2025/7/25 41 豆豆
生活随笔 收集整理的這篇文章主要介紹了 视频行为理解 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

from:https://x-algo.cn/index.php/2019/08/31/3220/
行為識別是用來識別“人自身”、“人和人”、“人和物”的“行為”。比如“抽煙”,“打架”。這個任務(wù)有好幾個數(shù)據(jù)集,接下來先介紹一下各個數(shù)據(jù)集。
數(shù)據(jù)集

HMDB-51(2011)

  • 其中包含51 action,7k clips;
  • 這個數(shù)據(jù)集合包含不同種類的視頻(camera motion, viewpoint, video quality and?occlusion)
  • 和以往的數(shù)據(jù)集比較,這個視頻數(shù)據(jù)更加真實,并且會有遮擋機位變化等。
  • 當(dāng)前數(shù)據(jù)集通過靜態(tài)的人體關(guān)節(jié)變化不能識別對應(yīng)的行為
  • 51個action中,每一個至少包含101個clip

下圖為和其他數(shù)據(jù)集的對比:

和其他數(shù)據(jù)集合的對比

數(shù)據(jù)樣例:點擊我;

包含的行為種類有:

  • 面部表情:微笑,大笑,咀嚼,交談
  • 面部和物體行為:吸煙,吃,喝
  • 身體動作:車輪翻,鼓掌,爬
  • 身體和物體之間行為:梳頭發(fā),抓東西,擊劍
  • 51個種類的分組

    論文:H. Kuehne, et al. HMDB: A large video database for human motion recognition. In ICCV, pages 2556-2563, 2011.

    UCF-101(2012)

    • 101類別,13k樣本,27小時時長
    • 整個數(shù)據(jù)可以分為五類,每一類數(shù)據(jù)都會有25個元數(shù)據(jù)(不同的 background or actors ):

    • 人物交互:呼啦圈,雜耍球,跳繩
    • 單人行為:開合跳:弓步壓腿,引體向上
    • 多人行為 :軍事游行,雙人舞蹈,樂隊前進
    • 演奏樂器:吉他,鋼琴
    • 運動:棒球投球,籃球投球

    數(shù)據(jù)整體情況

    論文:K. Soomro, et al. UCF101: A dataset of 101 human action classes from videos in the wild. CoRR, abs/1212.0402, 2012.

    Sports-1M(2014)

    • 487 classes,1 millionYouTube videos
    • 數(shù)據(jù)并不是通過人工標(biāo)注的,而是通過視頻的文本信息標(biāo)注,會有一定的錯誤率

    論文:A. Karpathy, G. Toderici, S. Shetty, T. Leung, R. Sukthankar, and F.-F. Li. Large-scale video classification with convolutional neural networks. In CVPR, pages 1725-1732, 2014.

    ActivityNet v1.3(2015)

    • 203類,28k個視頻,平均每個類有137個untrimmed視頻,每個視頻平均1.41個行為
    • 提供三個場景的行為理解:
    • 沒有剪輯的視頻分類
    • 剪輯之后的行為分類
    • 剪輯之后的行為檢測(detection)
    • 層級結(jié)構(gòu)標(biāo)注,例如: /家庭行為/家務(wù)/內(nèi)部清潔/擦窗,別的數(shù)據(jù)集一般是兩層結(jié)構(gòu),后期不好維護和擴展
    • 樣本為覆蓋人們?nèi)粘8哳l行為而設(shè)計

    一個四層的例子

    論文:B. G. F. C. Heilbron, V. Escorcia, B. Ghanem, J. C. Niebles. ActivityNet: A large-scale video benchmark for human activity understanding. In CVPR, pages 961-970, 2015.

    Charades(2016)

    • 157 類action,46類object,15個場景,9848個視頻,平均長度12秒,2.7w描述
    • Charades是非常真實的生活化的視頻,這些視頻往往不會出現(xiàn)在movie、TV、YouTuBe上面,嘗試用關(guān)鍵詞搜索在網(wǎng)上也不會找到這些視頻,因為這些視頻多數(shù)都是生活中非常“無聊”的場景
    • Hollywood in Homes,其實就是在自己家里“演戲”,然后采集樣本。數(shù)據(jù)集主打 daily activities
    • 數(shù)據(jù)集地址:https://allenai.org/plato/charades/

    看書、喝水、開冰箱的動作在生活中,和在youtube上面的差異非常大,youtube上面多數(shù)是娛樂類的非典型的視頻,如下圖:

    和其他的數(shù)據(jù)集的比較:

    Charades和其他數(shù)據(jù)集的比較

    論文:Hollywood in Homes: Crowdsourcing Data Collection?for Activity Understanding Gunnar Sigurdsson, Gül Varol, Xiaolong Wang, Ali Farhadi, Ivan Laptev,?Abhinav Gupta

    YouTube-8M(2016)

    • 4800類(visual entity),8百萬視頻,500k小時,一個視頻可以有多個類別實體
    • 嘗試使用實體標(biāo)簽對視頻主要內(nèi)容描述
    • 機器打的分類,通過元信息和點擊數(shù)據(jù)校驗,類別均為圖譜中的實體且視覺可識別,實體包括:
    • 活動(體育運動,游戲)
    • 物體(汽車,食物,產(chǎn)品)
    • 場景(旅行)
    • 事件
    • 提供1.9 billion frame feature下載,特征提取器是Inception網(wǎng)絡(luò)
    • Sports-1M專注于運動,ActivityNet專注于行為,不夠多樣性和通用;在遷移學(xué)習(xí)場景YouTube-8M比前兩者更加具有優(yōu)勢

    數(shù)據(jù)級別的分布:

    S. Abu-El-Haija, N. Kothari, J. Lee, P. Natsev, G. Toderici, B. Varadarajan, and S. Vijayanarasimhan. YouTube-8M: A large-scale video classification benchmark. CoRR, abs/1609.08675, 2016.

    Kinetics (2017)

    • ?動機:構(gòu)造large scale、high quality、challenging enough的數(shù)據(jù)集
    • 僅僅用于分類,每一個片段大概10秒,包含語音信息,都是剪輯過的視頻。不能用于temporal localization
    • 自稱為HMDB-51和UCF-101的繼任者,前兩者類別少、樣本少、多樣性少
    • 類別是一個兩層結(jié)構(gòu),包括下面幾類行為:
    • 單人:畫圖、喝水、笑、壓腿
    • 人和人之間:接吻、握手、擁抱
    • 人和物:打開盒子、洗盤子、修剪草坪
    • 一個clip只會有一個action分類,但是實際中會有多個行為(一邊刷牙一邊跳舞、一邊發(fā)短信一邊開車)

    Kinetics數(shù)據(jù)對比

    W. Kay, J. Carreira, K. Simonyan, B. Zhang, C. Hillier, S. Vijayanarasimhan, F. Viola, T. Green, T. Back, P. Natsev, M. Suleyman, and A. Zisserman. The Kinetics human action video dataset. CoRR, abs/1705.06950, 2017.

    常用模型

    深度學(xué)習(xí)之前常用模型

    一般是三步走:

  • 局部特征提取,一般是特征點的提取
  • 定長處理,一般是直方圖統(tǒng)計
  • 詞袋模型的分類器,例如SVM
  • DT:https://hal.inria.fr/hal-00725627v2/document

    iDT:https://hal.inria.fr/hal-00873267v2/document

    3D卷積和2D卷積

    如下圖:來自知乎我不壞

    2D卷積

    3D卷積

    ?

    ?

    ?

    ?

    ?

    ?

    ?

    ?最初的探索(2014)

    文章嘗試在時序維度做不同的組合,所有的模型最后都是通過加權(quán)平均進行分類:

    • 探索目標(biāo):
    • 什么樣的時序cnn結(jié)構(gòu)可以更好的對局部動作建模
    • 什么樣的動作信息會影響性能,以及影響的量
    • 加速方法:兩路處理
    • 一路在低分辨率處理;
    • 一路在高分辨率處理,但是只處理中間一部分

    提出時序模型Fusion的集中方式:

    兩路融合:

    輸入是178*178的大小,一路是全局的89*89,一路是中心的89*89,輸入像素個數(shù)是原來的一半。具體如下圖:

    雙路采樣

    并未在視頻行為識別的任務(wù)上打敗手工設(shè)計特征的方法

    Large-scale Video Classification with Convolutional Neural Networks(2014)

    Two-Stream ConvNet(2014)

    • 使用RGB+光流作為模型輸入
    • RGB對場景、物體建模
    • 光流對相機運動、物體運動建模
    • 嘗試對光流的加工:
      • 原始光流
      • 軌跡(累計求和)
      • 雙向光流
      • 平均光流(相機運動)
    • 網(wǎng)絡(luò)并未對時序建模

    模型的整體結(jié)構(gòu)如下圖,兩路模型最后的輸出都是softmax

    在第二路的輸入中是光流的信息,那么輸入的光流其實是可以有不同的形式的,一種就是兩幀之間的位移,一種是多幀之間的位移,也就是從開始幀到t幀之間的軌跡,如下圖:

    左邊為兩幀之間光流,右邊為軌跡

    Two-Stream Convolutional Networks for Action Recognition in Videos

    LRCN(2014)

    使用LSTM進行上層的融合,LRCN( LONG-TERM RECURRENT CONVOLUTIONAL NETWORK)屬于late-fusion,論文中output為分類結(jié)果,后面在加一層求平均就可以得到最終輸出,模型的缺點是采樣不夠的話會導(dǎo)致區(qū)分不出來開門還是關(guān)門:

    基礎(chǔ)結(jié)構(gòu)

    可以用到的更多的場景

    Long-term recurrent convolutional networks for visual?recognition and description

    Pooling位置探索(2015)

    • 更多的上層融合方式的探索
    • 更長的融合長度(120幀)
    • RGB和光流分別預(yù)測,然后融合
    • Feature Pooling都使用Max-pooling,效果較好的原因是對分類影響比較大的是幾個稀疏的關(guān)鍵幀

    對各種Pooling的探索,maxpooling/藍色,全連接/黃色,3d卷積/綠色

    不同的pooling方式效果

    Beyond Short Snippets: Deep Networks for Video Classification

    Rank-Pooling?(2016)

    • 在最后一層融合的時候,采用pooling的方式直接融合
    • 增加后面幀的重要性

    ?

    Learning End-to-end Video Classification with Rank-Pooling

    TSN(2016)

    TSN(Temporal Segments Network)特點:

    • 長序列建模的框架
    • Two-Stream的處理的是單幀輸入+多幀光流,無法對長視頻很好建模
    • 模型流程:
    • 長視頻均勻切為K段
    • 從每一段選擇一個子片段送入模型
    • 模型進行前向傳播,每一個片段得到自己對應(yīng)的分類結(jié)果
    • 對分類結(jié)果融合(本論文是求平均)并輸出結(jié)果

    TRN(2018)

    Temporal Relation Network

    • ?不同粒度抽幀,不同采樣步長模型的ensemble,是對TSN的一種升級版
    • 多幀融合采用兩層的MLP,不同的步長的模型MLP不共享

    Temporal Segment Networks: Towards Good Practices for Deep Action Recognition

    C3D(2015)

    模型簡稱為C3D,提出了一個結(jié)構(gòu)簡單的end2end的處理視頻的模型

    • 對各種超參數(shù)的探索,3D卷積更加適合捕獲時序特征
    • 所有層都是可用3x3x3 kernel和 2x2的pooling可以得到最好性能
    • C3D可以對視頻提取好特征,然后使用線性分類器就可以得到很好的性能
    • 訓(xùn)練速度快,容易收斂,訓(xùn)練Sports-1M的時候抽取5個2秒的視頻片段

    Learning Spatiotemporal Features with 3D Convolutional Networks(2015)

    P3D(2017)

    • C3D太耗費資源,嘗試分解3x3x3卷積進行加速
    • 在時間維度進行分解下圖中S=1x3x3,T=3x1x1
    • 把層數(shù)擴展到199層

    P3D 不同種類的block

    Learning Spatio-Temporal Representation with Pseudo-3D Residual Networks

    I3D(2017)

    Inflated 3D ConvNet?:
    • 本文驚艷之處在于提出一種將2D卷積膨脹為3D的方法,可以更好的利用ImageNet模型積累
    • 通過對膨脹的卷積權(quán)重除以膨脹長度,實現(xiàn)從2D到3D權(quán)重的初始化且等同訓(xùn)練boring視頻,boring視頻的定義是在時間維度重復(fù)一張圖片生成的視頻,這里還是為了更好的繼承InceptionV1
    • 下圖中,前三種是已有的模型,后兩種(主要是最后一種)是提出來的I3D模型
    • 膨脹之后三個維度的感受野計算如下圖
    • e方案是最優(yōu)的方案,分別對RGB和光流進行3D卷積。然后bagging到一起

    下圖為InceptionV1的結(jié)構(gòu):

    InceptionV1

    左圖為膨脹之后的結(jié)構(gòu)

    Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset

    SlowFast Network(2018)

    • Slow 一秒采2幀,側(cè)重單幀理解
    • Fast 一秒采8幀,側(cè)重時序理解
    • Fast部分雖然處理的圖片多,但是計算量只有整體的20%,減少模型的參數(shù)量(卷積個數(shù))
    • 不在時間維度進行pooling,time維度的卷積stride=1
    • HW維度卷積大小和stride都一致,SlowFast融合的時候就是在T和C之間轉(zhuǎn)換
    • Fast的作用類似光流,好處是不用以來外部方法提取特征了

    SlowFast Networks for Video Recognition

    參考

    https://zhuanlan.zhihu.com/p/36330561

    總結(jié)

    以上是生活随笔為你收集整理的视频行为理解的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。