推荐一些动作识别数据集
↑↑↑↑↑點(diǎn)擊上方藍(lán)色字關(guān)注我們!
『運(yùn)籌OR帷幄』原創(chuàng)
作者:周巖
編者按:動(dòng)作識(shí)別的研究主要基于對(duì)視頻數(shù)據(jù)的識(shí)別,其中主要包含動(dòng)作識(shí)別(如手勢(shì)識(shí)別,運(yùn)動(dòng)識(shí)別等),目標(biāo)識(shí)別和姿態(tài)預(yù)測(cè)幾個(gè)子方向。所有這些方向的研究都離不開(kāi)有代表性的視頻數(shù)據(jù)。不同于圖像識(shí)別領(lǐng)域有MNIST和ImageNet等十分成熟常用的數(shù)據(jù)集,動(dòng)作識(shí)別領(lǐng)域的數(shù)據(jù)集比較有限,而且通常所占用的硬盤空間比較大,因此在開(kāi)展相關(guān)研究之前,仔細(xì)選擇一個(gè)合適的數(shù)據(jù)集顯得十分必要。
動(dòng)作識(shí)別(Action Recognition)是最近計(jì)算機(jī)視覺(jué)領(lǐng)域比較火的一個(gè)Topic,近年來(lái)有越來(lái)越多的相關(guān)文章出現(xiàn)在CVPR、ICCV和NIPS等機(jī)器學(xué)習(xí)和計(jì)算機(jī)視覺(jué)頂會(huì)上。這里就有一個(gè)Github的repo(https://github.com/jinwchoi/awesome-action-recognition)總結(jié)和整理了動(dòng)作識(shí)別領(lǐng)域的相關(guān)研究工作和數(shù)據(jù)資源。
動(dòng)作識(shí)別的研究主要基于對(duì)視頻數(shù)據(jù)的識(shí)別,其中主要包含動(dòng)作識(shí)別(如手勢(shì)識(shí)別,運(yùn)動(dòng)識(shí)別等),目標(biāo)識(shí)別和姿態(tài)預(yù)測(cè)幾個(gè)子方向。所有這些方向的研究都離不開(kāi)有代表性的視頻數(shù)據(jù)。不同于圖像識(shí)別領(lǐng)域有MNIST和ImageNet等十分成熟常用的數(shù)據(jù)集,動(dòng)作識(shí)別領(lǐng)域的數(shù)據(jù)集比較有限,而且通常所占用的硬盤空間比較大,因此在開(kāi)展相關(guān)研究之前,仔細(xì)選擇一個(gè)合適的數(shù)據(jù)集顯得十分必要。
獲取對(duì)自己研究合適的視頻數(shù)據(jù)集可能需要花大量的帶寬資源和硬盤資源下載,本文就動(dòng)作識(shí)別領(lǐng)域目前有的公開(kāi)數(shù)據(jù)集進(jìn)行了深入研究,詳細(xì)了介紹了一下各個(gè)數(shù)據(jù)集的特點(diǎn),讀者可以在本文的幫助下,根據(jù)自身的需要選擇合適的數(shù)據(jù)集下載。
1、經(jīng)典數(shù)據(jù)集
KTH(http://www.nada.kth.se/cvap/actions/):
經(jīng)典的動(dòng)作識(shí)別數(shù)據(jù)集,也是目前文章中使用率較高的數(shù)據(jù)集之一。數(shù)據(jù)集一共包含2391組數(shù)據(jù),其中包含6個(gè)動(dòng)作,每個(gè)動(dòng)作由25個(gè)人物在4個(gè)不同的場(chǎng)景下完成,因此一共有600個(gè)視頻序列,每個(gè)視頻又可以分割成4個(gè)子序列。KTH數(shù)據(jù)集的動(dòng)作比較規(guī)范,同時(shí)采用固定鏡頭,數(shù)量對(duì)于目前的模型訓(xùn)練來(lái)說(shuō)也比較豐富,所以對(duì)應(yīng)單純進(jìn)行動(dòng)作識(shí)別的任務(wù)可以說(shuō)是非常好用的數(shù)據(jù)集了。同時(shí),KTH在GitHub的處理的開(kāi)源程序有很多,可以隨時(shí)根據(jù)自己的需要進(jìn)行參考。
? ? ? ? ? ? ?
Weizmann(http://www.wisdom.weizmann.ac.il/~vision/SpaceTimeActions.html):
另一組比較經(jīng)典的數(shù)據(jù)集,數(shù)據(jù)同樣是固定鏡頭下的10個(gè)典型動(dòng)作的視頻,同時(shí)數(shù)據(jù)集提供了一些帶有其他物體的動(dòng)作作為干擾,可以測(cè)試模型的魯棒性。
官方同時(shí)提供了去除背景的程序,但是數(shù)據(jù)集的數(shù)據(jù)量比較少的90組常規(guī)數(shù)據(jù)和21組魯棒測(cè)試數(shù)據(jù),對(duì)于目前的模型訓(xùn)練來(lái)說(shuō)顯得有些不足,不過(guò)對(duì)于本來(lái)就需要用小數(shù)據(jù)的模型比如遷移學(xué)習(xí)或者One-short Learning來(lái)說(shuō)或許是適合的數(shù)據(jù)集。
? ? ? ? ? ? ?
Inria XMAS(http://4drepository.inrialpes.fr/public/viewgroup/6):
這組數(shù)據(jù)主要提供了同一個(gè)動(dòng)作在多組鏡頭角度下的視頻數(shù)據(jù),可以說(shuō)是簡(jiǎn)單的動(dòng)態(tài)背景。數(shù)據(jù)集提供了11名演員每人3次的13個(gè)日常動(dòng)作,演員們自由選擇位置和方向。這個(gè)數(shù)據(jù)集的下載比較特殊,需要通過(guò)wget來(lái)下載。
UCF sports action dataset(?https://www.crcv.ucf.edu/data/UCF_Sports_Action.php):
一個(gè)主要關(guān)于運(yùn)動(dòng)的數(shù)據(jù)集,這個(gè)數(shù)據(jù)集也是質(zhì)量比較高的數(shù)據(jù)集,主要為13個(gè)常規(guī)的運(yùn)動(dòng)動(dòng)作。但是美中不足的同樣是每種數(shù)據(jù)的數(shù)量都比較少,不過(guò)這個(gè)數(shù)據(jù)集出了一些后續(xù)的數(shù)據(jù)集比如UCF-50(http://crcv.ucf.edu/data/UCF50.php)和UCF-101(http://crcv.ucf.edu/data/UCF101.php)等。
? ? ? ?? ? ? ?
Hollywood human action dataset.(https://www.di.ens.fr/~laptev/actions/):
根據(jù)好萊塢電影鏡頭剪輯出來(lái)的數(shù)據(jù)集,這個(gè)數(shù)據(jù)集包含475個(gè)視頻,數(shù)據(jù)量上有一定的保證,但是這個(gè)數(shù)據(jù)集有個(gè)特點(diǎn)就是電影鏡頭往往不是單一的動(dòng)作,而且很多動(dòng)作同時(shí)混合在一起,同時(shí)背景由于鏡頭切換會(huì)有非連續(xù)的情況出現(xiàn),或許這樣的情況會(huì)對(duì)模型的訓(xùn)練造成影響。另外這組數(shù)據(jù)還在后續(xù)提供了更大數(shù)據(jù)量的數(shù)據(jù)集:https://www.di.ens.fr/~laptev/actions/hollywood2/。
? ? ? ? ? ? ?
總結(jié):以上就是對(duì)經(jīng)典數(shù)據(jù)集的介紹,經(jīng)典數(shù)據(jù)集的數(shù)據(jù)量普遍比較少,而且場(chǎng)景也相對(duì)簡(jiǎn)單,而且提出的時(shí)間通常在2000前后,視頻的分辨率也普遍偏低,更詳細(xì)的介紹可以參考2014年的一篇綜述文章:A survey on vision-based human action recognition。
2、中等規(guī)模的數(shù)據(jù)集
HMDB(http://serre-lab.clps.brown.edu/resource/hmdb-a-large-human-motion-database/#Downloads):
這個(gè)數(shù)據(jù)集一共有51個(gè)類別,平均每個(gè)類別有100-200組數(shù)據(jù)。從數(shù)據(jù)量和類別上來(lái)看可以看到是具有比較豐富的數(shù)據(jù)的,但是這個(gè)數(shù)據(jù)集也是由一些電影鏡頭和日常的攝像機(jī)拍攝的視頻為主,所以背景相對(duì)復(fù)雜,同樣有動(dòng)態(tài)鏡頭和切換鏡頭的視頻。因此這個(gè)數(shù)據(jù)集更適合目標(biāo)識(shí)別和目標(biāo)檢測(cè)。
? ? ? ? ? ? ?
SVW(http://cvlab.cse.msu.edu/project-svw.html?):這個(gè)數(shù)據(jù)集的特點(diǎn)是適合多種形式的任務(wù),可以作為目標(biāo)檢測(cè)也可以作為動(dòng)作識(shí)別。目前這個(gè)數(shù)據(jù)官方提供了matlab程序來(lái)分割視頻(不過(guò)親身實(shí)踐后發(fā)現(xiàn)程序有一些bug需要調(diào)試),數(shù)據(jù)集一共包含30個(gè)種類的數(shù)據(jù),經(jīng)過(guò)分割后會(huì)有更多的類別可供動(dòng)作識(shí)別來(lái)用。這個(gè)數(shù)據(jù)的背景也有一些是移動(dòng)狀態(tài)下的,但是總體來(lái)說(shuō)對(duì)于識(shí)別是中等規(guī)模數(shù)據(jù)集中比較合適的。
? ? ? ? ?
總結(jié):中等規(guī)模的數(shù)據(jù)集普遍具有相對(duì)與經(jīng)典數(shù)據(jù)集更多的數(shù)據(jù)量,而且在類別上也更多,這也體現(xiàn)了隨著計(jì)算規(guī)模的發(fā)展,可以建立的預(yù)測(cè)模型越來(lái)越復(fù)雜,可以處理更復(fù)雜的任務(wù)。
3、適用于深度學(xué)習(xí)的大規(guī)模數(shù)據(jù)集
ActivityNet(https://github.com/activitynet):Google在2016年出品的數(shù)據(jù)集,數(shù)據(jù)的來(lái)源主要是Youtube,帶有很強(qiáng)的深度學(xué)習(xí)背景,數(shù)據(jù)量很大,需要通過(guò)官方提供的程序自行下載,官網(wǎng)提供的數(shù)據(jù)僅為數(shù)據(jù)的Youtube地址。由于數(shù)據(jù)主要來(lái)源于Youtube,所以這個(gè)數(shù)據(jù)集相對(duì)更復(fù)雜,更適合目標(biāo)檢測(cè)。但是通過(guò)動(dòng)作檢測(cè)提取后的數(shù)據(jù)更適合動(dòng)作識(shí)別數(shù)據(jù)集。
? ? ? ? ? ? ?
20BN-jester(https://20bn.com/datasets/jester/v1#download):手勢(shì)識(shí)別數(shù)據(jù)集,視頻的背景比較固定,動(dòng)作也更單純,所以更適合直接應(yīng)用與動(dòng)作識(shí)別。同時(shí),數(shù)據(jù)量和類別也很充足,更值得一提的是,數(shù)據(jù)是以jpeg存儲(chǔ)的,所以在讀取數(shù)據(jù)時(shí)甚至可以不通過(guò)OpenCV這樣的框架就可以處理數(shù)據(jù)。另外,網(wǎng)站還提供了基于物體的動(dòng)作識(shí)別,這兩組數(shù)據(jù)對(duì)于實(shí)際的應(yīng)用場(chǎng)景會(huì)更有意義。
? ? ? ?
NTU RGB+D(http://rose1.ntu.edu.sg/datasets/actionrecognition.asp):
該數(shù)據(jù)集提供了豐富的數(shù)據(jù)量,并且視頻的背景相對(duì)固定,很適合進(jìn)行動(dòng)作識(shí)別,同時(shí)數(shù)據(jù)的特點(diǎn)是同時(shí)提供了RGB,深度和骨骼視頻。數(shù)據(jù)集的全部數(shù)據(jù)高達(dá)1.3TB,并且后續(xù)有更豐富的數(shù)據(jù)集提供("NTU RGB+D 120"),但是這個(gè)數(shù)據(jù)的下載需要通過(guò)網(wǎng)站申請(qǐng)賬號(hào),但是一天之內(nèi)會(huì)有回復(fù)(仔細(xì)填寫一般都可以通過(guò))。
? ? ?
總結(jié):大規(guī)模數(shù)據(jù)集的特點(diǎn)主要是數(shù)據(jù)量比較大,類別也更多,并且網(wǎng)站上普遍不能提供直接的下載,而是通過(guò)提供類似爬蟲(chóng)程序的方式下載。這類數(shù)據(jù)主要以近3-5年出現(xiàn)的數(shù)據(jù)集為主數(shù)據(jù)的大小普遍在GB甚至TB級(jí),需要用深度模型和更強(qiáng)算力的機(jī)器來(lái)建立模型處理。
4、特定場(chǎng)景的數(shù)據(jù)集
以上都是一些比較有名的開(kāi)源數(shù)據(jù)集,常常用來(lái)做算法的benchmark。那么針對(duì)一些實(shí)際的應(yīng)用場(chǎng)景,我們往往還需要一些特殊的數(shù)據(jù)集。這樣的小眾數(shù)據(jù)集有很多,我們不一一來(lái)收集做介紹,這里只是舉例介紹其中的一個(gè)。
Distracted Driver Detection是一個(gè)司機(jī)狀態(tài)檢測(cè)數(shù)據(jù)集,包含10個(gè)狀態(tài),共22425張圖 。大小4G。(數(shù)據(jù)文末回復(fù)關(guān)鍵詞可見(jiàn))
? ? ? ? ? ? ?
數(shù)據(jù)集地址:
https//www.kaggle.com/c/state-farm-distracted-driver-detection/data
每年很多的交通事故的發(fā)生都是因?yàn)樗緳C(jī)沒(méi)有專注于自動(dòng)駕駛,因此一個(gè)好的輔助駕駛系統(tǒng)不僅要關(guān)注車外的情況,也要時(shí)刻關(guān)注車內(nèi)駕駛員的情況。
這一個(gè)數(shù)據(jù)集來(lái)自kaggle平臺(tái),包含了10種狀態(tài),如下:
c0:safe driving
c1:texting-right
c2:talking on the phone-right
c3:texting-left
c4:talking on the phone-left
c5:operating the ratio
c6:drinking
c7:reaching behind
c8:hair and makeup
c9:talking on passenger
一些樣本如下,每一類約2000多張圖像,共22425張圖。
??
最后總結(jié):
這篇文章主要對(duì)動(dòng)作識(shí)別領(lǐng)域的一部分?jǐn)?shù)據(jù)集做了一些基本的介紹和探討,很多數(shù)據(jù)也沒(méi)有實(shí)際的處理和應(yīng)用,所以并不夠深入,但是也希望這篇文章能起到一個(gè)拋磚引玉的作用,更詳細(xì)的介紹可以直接去數(shù)據(jù)集的官網(wǎng)閱讀說(shuō)明并下載研究。如何組織好自己的數(shù)據(jù)為算法提供支撐是做研究的關(guān)鍵一步,最后小編希望大家可以通過(guò)這些數(shù)據(jù)做出更精彩的成果。
文章申明
文章作者:周巖
責(zé)任編輯:周巖,貫軍
微信編輯:葡萄
文章由『運(yùn)籌OR帷幄』原創(chuàng)發(fā)布
備注:公眾號(hào)菜單包含了整理了一本AI小抄,非常適合在通勤路上用學(xué)習(xí)。
往期精彩回顧那些年做的學(xué)術(shù)公益-你不是一個(gè)人在戰(zhàn)斗適合初學(xué)者入門人工智能的路線及資料下載機(jī)器學(xué)習(xí)在線手冊(cè)深度學(xué)習(xí)在線手冊(cè)AI基礎(chǔ)下載(第一部分)備注:加入本站微信群或者qq群,請(qǐng)回復(fù)“加群”加入知識(shí)星球(4500+用戶,ID:92416895),請(qǐng)回復(fù)“知識(shí)星球”喜歡文章,點(diǎn)個(gè)在看
總結(jié)
以上是生活随笔為你收集整理的推荐一些动作识别数据集的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 卷积神经网络之 - Lenet
- 下一篇: ICLR 2020共计198篇开源代码论