當(dāng)前位置：首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

推荐一些动作识别数据集

發(fā)布時(shí)間：2025/3/8 编程问答 56 豆豆

生活随笔收集整理的這篇文章主要介紹了推荐一些动作识别数据集小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

↑↑↑↑↑點(diǎn)擊上方藍(lán)色字關(guān)注我們！

『運(yùn)籌OR帷幄』原創(chuàng)

作者：周巖

編者按：動(dòng)作識(shí)別的研究主要基于對(duì)視頻數(shù)據(jù)的識(shí)別，其中主要包含動(dòng)作識(shí)別（如手勢(shì)識(shí)別，運(yùn)動(dòng)識(shí)別等），目標(biāo)識(shí)別和姿態(tài)預(yù)測(cè)幾個(gè)子方向。所有這些方向的研究都離不開(kāi)有代表性的視頻數(shù)據(jù)。不同于圖像識(shí)別領(lǐng)域有MNIST和ImageNet等十分成熟常用的數(shù)據(jù)集，動(dòng)作識(shí)別領(lǐng)域的數(shù)據(jù)集比較有限，而且通常所占用的硬盤空間比較大，因此在開(kāi)展相關(guān)研究之前，仔細(xì)選擇一個(gè)合適的數(shù)據(jù)集顯得十分必要。

動(dòng)作識(shí)別（Action Recognition）是最近計(jì)算機(jī)視覺(jué)領(lǐng)域比較火的一個(gè)Topic，近年來(lái)有越來(lái)越多的相關(guān)文章出現(xiàn)在CVPR、ICCV和NIPS等機(jī)器學(xué)習(xí)和計(jì)算機(jī)視覺(jué)頂會(huì)上。這里就有一個(gè)Github的repo（https://github.com/jinwchoi/awesome-action-recognition）總結(jié)和整理了動(dòng)作識(shí)別領(lǐng)域的相關(guān)研究工作和數(shù)據(jù)資源。

動(dòng)作識(shí)別的研究主要基于對(duì)視頻數(shù)據(jù)的識(shí)別，其中主要包含動(dòng)作識(shí)別（如手勢(shì)識(shí)別，運(yùn)動(dòng)識(shí)別等），目標(biāo)識(shí)別和姿態(tài)預(yù)測(cè)幾個(gè)子方向。所有這些方向的研究都離不開(kāi)有代表性的視頻數(shù)據(jù)。不同于圖像識(shí)別領(lǐng)域有MNIST和ImageNet等十分成熟常用的數(shù)據(jù)集，動(dòng)作識(shí)別領(lǐng)域的數(shù)據(jù)集比較有限，而且通常所占用的硬盤空間比較大，因此在開(kāi)展相關(guān)研究之前，仔細(xì)選擇一個(gè)合適的數(shù)據(jù)集顯得十分必要。

獲取對(duì)自己研究合適的視頻數(shù)據(jù)集可能需要花大量的帶寬資源和硬盤資源下載，本文就動(dòng)作識(shí)別領(lǐng)域目前有的公開(kāi)數(shù)據(jù)集進(jìn)行了深入研究，詳細(xì)了介紹了一下各個(gè)數(shù)據(jù)集的特點(diǎn)，讀者可以在本文的幫助下，根據(jù)自身的需要選擇合適的數(shù)據(jù)集下載。

1、經(jīng)典數(shù)據(jù)集

KTH(http://www.nada.kth.se/cvap/actions/):

經(jīng)典的動(dòng)作識(shí)別數(shù)據(jù)集，也是目前文章中使用率較高的數(shù)據(jù)集之一。數(shù)據(jù)集一共包含2391組數(shù)據(jù)，其中包含6個(gè)動(dòng)作，每個(gè)動(dòng)作由25個(gè)人物在4個(gè)不同的場(chǎng)景下完成，因此一共有600個(gè)視頻序列，每個(gè)視頻又可以分割成4個(gè)子序列。KTH數(shù)據(jù)集的動(dòng)作比較規(guī)范，同時(shí)采用固定鏡頭，數(shù)量對(duì)于目前的模型訓(xùn)練來(lái)說(shuō)也比較豐富，所以對(duì)應(yīng)單純進(jìn)行動(dòng)作識(shí)別的任務(wù)可以說(shuō)是非常好用的數(shù)據(jù)集了。同時(shí)，KTH在GitHub的處理的開(kāi)源程序有很多，可以隨時(shí)根據(jù)自己的需要進(jìn)行參考。

? ? ? ? ? ? ?

Weizmann(http://www.wisdom.weizmann.ac.il/~vision/SpaceTimeActions.html):

另一組比較經(jīng)典的數(shù)據(jù)集，數(shù)據(jù)同樣是固定鏡頭下的10個(gè)典型動(dòng)作的視頻，同時(shí)數(shù)據(jù)集提供了一些帶有其他物體的動(dòng)作作為干擾，可以測(cè)試模型的魯棒性。

官方同時(shí)提供了去除背景的程序，但是數(shù)據(jù)集的數(shù)據(jù)量比較少的90組常規(guī)數(shù)據(jù)和21組魯棒測(cè)試數(shù)據(jù)，對(duì)于目前的模型訓(xùn)練來(lái)說(shuō)顯得有些不足，不過(guò)對(duì)于本來(lái)就需要用小數(shù)據(jù)的模型比如遷移學(xué)習(xí)或者One-short Learning來(lái)說(shuō)或許是適合的數(shù)據(jù)集。

? ? ? ? ? ? ?

Inria XMAS(http://4drepository.inrialpes.fr/public/viewgroup/6)：
這組數(shù)據(jù)主要提供了同一個(gè)動(dòng)作在多組鏡頭角度下的視頻數(shù)據(jù)，可以說(shuō)是簡(jiǎn)單的動(dòng)態(tài)背景。數(shù)據(jù)集提供了11名演員每人3次的13個(gè)日常動(dòng)作，演員們自由選擇位置和方向。這個(gè)數(shù)據(jù)集的下載比較特殊，需要通過(guò)wget來(lái)下載。

UCF sports action dataset(?https://www.crcv.ucf.edu/data/UCF_Sports_Action.php):

一個(gè)主要關(guān)于運(yùn)動(dòng)的數(shù)據(jù)集，這個(gè)數(shù)據(jù)集也是質(zhì)量比較高的數(shù)據(jù)集，主要為13個(gè)常規(guī)的運(yùn)動(dòng)動(dòng)作。但是美中不足的同樣是每種數(shù)據(jù)的數(shù)量都比較少，不過(guò)這個(gè)數(shù)據(jù)集出了一些后續(xù)的數(shù)據(jù)集比如UCF-50（http://crcv.ucf.edu/data/UCF50.php）和UCF-101（http://crcv.ucf.edu/data/UCF101.php）等。

? ? ? ?? ? ? ?

Hollywood human action dataset.(https://www.di.ens.fr/~laptev/actions/):

根據(jù)好萊塢電影鏡頭剪輯出來(lái)的數(shù)據(jù)集，這個(gè)數(shù)據(jù)集包含475個(gè)視頻，數(shù)據(jù)量上有一定的保證，但是這個(gè)數(shù)據(jù)集有個(gè)特點(diǎn)就是電影鏡頭往往不是單一的動(dòng)作，而且很多動(dòng)作同時(shí)混合在一起，同時(shí)背景由于鏡頭切換會(huì)有非連續(xù)的情況出現(xiàn)，或許這樣的情況會(huì)對(duì)模型的訓(xùn)練造成影響。另外這組數(shù)據(jù)還在后續(xù)提供了更大數(shù)據(jù)量的數(shù)據(jù)集：https://www.di.ens.fr/~laptev/actions/hollywood2/。

? ? ? ? ? ? ?

總結(jié)：以上就是對(duì)經(jīng)典數(shù)據(jù)集的介紹，經(jīng)典數(shù)據(jù)集的數(shù)據(jù)量普遍比較少，而且場(chǎng)景也相對(duì)簡(jiǎn)單，而且提出的時(shí)間通常在2000前后，視頻的分辨率也普遍偏低，更詳細(xì)的介紹可以參考2014年的一篇綜述文章：A survey on vision-based human action recognition。

2、中等規(guī)模的數(shù)據(jù)集

HMDB（http://serre-lab.clps.brown.edu/resource/hmdb-a-large-human-motion-database/#Downloads）：

這個(gè)數(shù)據(jù)集一共有51個(gè)類別，平均每個(gè)類別有100-200組數(shù)據(jù)。從數(shù)據(jù)量和類別上來(lái)看可以看到是具有比較豐富的數(shù)據(jù)的，但是這個(gè)數(shù)據(jù)集也是由一些電影鏡頭和日常的攝像機(jī)拍攝的視頻為主，所以背景相對(duì)復(fù)雜，同樣有動(dòng)態(tài)鏡頭和切換鏡頭的視頻。因此這個(gè)數(shù)據(jù)集更適合目標(biāo)識(shí)別和目標(biāo)檢測(cè)。

? ? ? ? ? ? ?

SVW（http://cvlab.cse.msu.edu/project-svw.html?）：這個(gè)數(shù)據(jù)集的特點(diǎn)是適合多種形式的任務(wù)，可以作為目標(biāo)檢測(cè)也可以作為動(dòng)作識(shí)別。目前這個(gè)數(shù)據(jù)官方提供了matlab程序來(lái)分割視頻（不過(guò)親身實(shí)踐后發(fā)現(xiàn)程序有一些bug需要調(diào)試），數(shù)據(jù)集一共包含30個(gè)種類的數(shù)據(jù)，經(jīng)過(guò)分割后會(huì)有更多的類別可供動(dòng)作識(shí)別來(lái)用。這個(gè)數(shù)據(jù)的背景也有一些是移動(dòng)狀態(tài)下的，但是總體來(lái)說(shuō)對(duì)于識(shí)別是中等規(guī)模數(shù)據(jù)集中比較合適的。

? ? ? ? ?

總結(jié)：中等規(guī)模的數(shù)據(jù)集普遍具有相對(duì)與經(jīng)典數(shù)據(jù)集更多的數(shù)據(jù)量，而且在類別上也更多，這也體現(xiàn)了隨著計(jì)算規(guī)模的發(fā)展，可以建立的預(yù)測(cè)模型越來(lái)越復(fù)雜，可以處理更復(fù)雜的任務(wù)。

3、適用于深度學(xué)習(xí)的大規(guī)模數(shù)據(jù)集

ActivityNet（https://github.com/activitynet）：Google在2016年出品的數(shù)據(jù)集，數(shù)據(jù)的來(lái)源主要是Youtube，帶有很強(qiáng)的深度學(xué)習(xí)背景，數(shù)據(jù)量很大，需要通過(guò)官方提供的程序自行下載，官網(wǎng)提供的數(shù)據(jù)僅為數(shù)據(jù)的Youtube地址。由于數(shù)據(jù)主要來(lái)源于Youtube，所以這個(gè)數(shù)據(jù)集相對(duì)更復(fù)雜，更適合目標(biāo)檢測(cè)。但是通過(guò)動(dòng)作檢測(cè)提取后的數(shù)據(jù)更適合動(dòng)作識(shí)別數(shù)據(jù)集。

? ? ? ? ? ? ?

20BN-jester（https://20bn.com/datasets/jester/v1#download）：手勢(shì)識(shí)別數(shù)據(jù)集，視頻的背景比較固定，動(dòng)作也更單純，所以更適合直接應(yīng)用與動(dòng)作識(shí)別。同時(shí)，數(shù)據(jù)量和類別也很充足，更值得一提的是，數(shù)據(jù)是以jpeg存儲(chǔ)的，所以在讀取數(shù)據(jù)時(shí)甚至可以不通過(guò)OpenCV這樣的框架就可以處理數(shù)據(jù)。另外，網(wǎng)站還提供了基于物體的動(dòng)作識(shí)別，這兩組數(shù)據(jù)對(duì)于實(shí)際的應(yīng)用場(chǎng)景會(huì)更有意義。
? ? ? ?
NTU RGB+D（http://rose1.ntu.edu.sg/datasets/actionrecognition.asp）：

該數(shù)據(jù)集提供了豐富的數(shù)據(jù)量，并且視頻的背景相對(duì)固定，很適合進(jìn)行動(dòng)作識(shí)別，同時(shí)數(shù)據(jù)的特點(diǎn)是同時(shí)提供了RGB，深度和骨骼視頻。數(shù)據(jù)集的全部數(shù)據(jù)高達(dá)1.3TB，并且后續(xù)有更豐富的數(shù)據(jù)集提供（"NTU RGB+D 120"），但是這個(gè)數(shù)據(jù)的下載需要通過(guò)網(wǎng)站申請(qǐng)賬號(hào)，但是一天之內(nèi)會(huì)有回復(fù)（仔細(xì)填寫一般都可以通過(guò)）。

? ? ?

總結(jié)：大規(guī)模數(shù)據(jù)集的特點(diǎn)主要是數(shù)據(jù)量比較大，類別也更多，并且網(wǎng)站上普遍不能提供直接的下載，而是通過(guò)提供類似爬蟲(chóng)程序的方式下載。這類數(shù)據(jù)主要以近3-5年出現(xiàn)的數(shù)據(jù)集為主數(shù)據(jù)的大小普遍在GB甚至TB級(jí)，需要用深度模型和更強(qiáng)算力的機(jī)器來(lái)建立模型處理。

4、特定場(chǎng)景的數(shù)據(jù)集

以上都是一些比較有名的開(kāi)源數(shù)據(jù)集，常常用來(lái)做算法的benchmark。那么針對(duì)一些實(shí)際的應(yīng)用場(chǎng)景，我們往往還需要一些特殊的數(shù)據(jù)集。這樣的小眾數(shù)據(jù)集有很多，我們不一一來(lái)收集做介紹，這里只是舉例介紹其中的一個(gè)。

Distracted Driver Detection是一個(gè)司機(jī)狀態(tài)檢測(cè)數(shù)據(jù)集，包含10個(gè)狀態(tài)，共22425張圖。大小4G。（數(shù)據(jù)文末回復(fù)關(guān)鍵詞可見(jiàn)）

? ? ? ? ? ? ?

數(shù)據(jù)集地址：

https//www.kaggle.com/c/state-farm-distracted-driver-detection/data

每年很多的交通事故的發(fā)生都是因?yàn)樗緳C(jī)沒(méi)有專注于自動(dòng)駕駛，因此一個(gè)好的輔助駕駛系統(tǒng)不僅要關(guān)注車外的情況，也要時(shí)刻關(guān)注車內(nèi)駕駛員的情況。

這一個(gè)數(shù)據(jù)集來(lái)自kaggle平臺(tái)，包含了10種狀態(tài)，如下：

c0:safe driving

c1:texting-right

c2:talking on the phone-right

c3:texting-left

c4:talking on the phone-left

c5:operating the ratio

c6:drinking

c7:reaching behind

c8:hair and makeup

c9:talking on passenger

一些樣本如下，每一類約2000多張圖像，共22425張圖。

最后總結(jié)：

這篇文章主要對(duì)動(dòng)作識(shí)別領(lǐng)域的一部分?jǐn)?shù)據(jù)集做了一些基本的介紹和探討，很多數(shù)據(jù)也沒(méi)有實(shí)際的處理和應(yīng)用，所以并不夠深入，但是也希望這篇文章能起到一個(gè)拋磚引玉的作用，更詳細(xì)的介紹可以直接去數(shù)據(jù)集的官網(wǎng)閱讀說(shuō)明并下載研究。如何組織好自己的數(shù)據(jù)為算法提供支撐是做研究的關(guān)鍵一步，最后小編希望大家可以通過(guò)這些數(shù)據(jù)做出更精彩的成果。

文章申明

文章作者：周巖

責(zé)任編輯：周巖，貫軍

微信編輯：葡萄

文章由『運(yùn)籌OR帷幄』原創(chuàng)發(fā)布

備注：公眾號(hào)菜單包含了整理了一本AI小抄，非常適合在通勤路上用學(xué)習(xí)。

往期精彩回顧那些年做的學(xué)術(shù)公益-你不是一個(gè)人在戰(zhàn)斗適合初學(xué)者入門人工智能的路線及資料下載機(jī)器學(xué)習(xí)在線手冊(cè)深度學(xué)習(xí)在線手冊(cè)AI基礎(chǔ)下載（第一部分）備注：加入本站微信群或者qq群，請(qǐng)回復(fù)“加群”加入知識(shí)星球（4500+用戶，ID：92416895），請(qǐng)回復(fù)“知識(shí)星球”

喜歡文章，點(diǎn)個(gè)在看

總結(jié)

以上是生活随笔為你收集整理的推荐一些动作识别数据集的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：卷积神经网络之 - Lenet
下一篇： ICLR 2020共计198篇开源代码论

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

编程问答

推荐一些动作识别数据集

4、特定場(chǎng)景的數(shù)據(jù)集

總結(jié)