日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

【数据】短视频识别,都有那些行业标准?

發(fā)布時(shí)間:2025/3/20 编程问答 45 豆豆
生活随笔 收集整理的這篇文章主要介紹了 【数据】短视频识别,都有那些行业标准? 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

楊皓博


大三在讀,計(jì)算機(jī)視覺愛好者

作者 | 楊皓博(微信號(hào)Midlurker2017)

編輯 | 楊皓博/言有三

當(dāng)前深度學(xué)習(xí)中靜態(tài)圖像識(shí)別已經(jīng)做得相當(dāng)好了,讓AI理解視頻內(nèi)容則更加困難,是當(dāng)前學(xué)術(shù)界和工業(yè)界的研究熱點(diǎn),本文將介紹一些短視頻類數(shù)據(jù)集。

01

AI Challenger 全球AI挑戰(zhàn)賽

官網(wǎng)地址:https://challenger.ai/,從2017年開始。

2018年全球AI挑戰(zhàn)賽是由創(chuàng)新工場(chǎng)、搜狗、美團(tuán)點(diǎn)評(píng)、美圖聯(lián)合創(chuàng)辦的,里面包括多個(gè)NLP、計(jì)算機(jī)視覺項(xiàng)目,其中就有 ’短視頻實(shí)時(shí)分類競(jìng)賽’。

競(jìng)賽提供的專門的短視頻數(shù)據(jù)集共包含20萬條短視頻,涵蓋舞蹈、健身、唱歌等63類流行元素。大部分視頻的長度是在5-15秒。并且視頻是多標(biāo)簽分類體系,標(biāo)簽信息包含視頻主體、場(chǎng)景、動(dòng)作等多個(gè)維度,標(biāo)注信息將盡量包含視頻中展現(xiàn)的所有元素,每條視頻有1-3個(gè)標(biāo)簽。此數(shù)據(jù)集分為訓(xùn)練集(120K)、驗(yàn)證集(30K)、測(cè)試集A(30K)、測(cè)試集B(30K)。

相較于傳統(tǒng)視頻數(shù)據(jù)集來說,該數(shù)據(jù)集更具特色。

1.?從視頻來源上講,此數(shù)據(jù)集視頻采集設(shè)備多為手機(jī)且比例多為豎屏;

2.?從視頻形式上講,數(shù)據(jù)集中的很多視頻使用了短視頻特效,并包含更多視頻快進(jìn)、剪輯等操作;

3.?從視頻內(nèi)容上講,數(shù)據(jù)集包含了更多人物中心化的自拍短視頻內(nèi)容。所有這些特點(diǎn)使本數(shù)據(jù)集在體現(xiàn)以用戶為導(dǎo)向的內(nèi)容生產(chǎn)趨勢(shì)上得以先人一步。

4.?預(yù)覽:左圖是:寶寶+彈鋼琴,右圖:寶寶+跳舞

02

HMDB

數(shù)據(jù)集鏈接:

http://serre-lab.clps.brown.edu/resource/hmdb-a-large-human-motion-database/#Downloads,發(fā)布于2011年

HMDB是布朗大學(xué)研究小組的項(xiàng)目,是一個(gè)人類動(dòng)作視頻數(shù)據(jù)集。里面的數(shù)據(jù)大部分來自于電影,小部分來自于開源數(shù)據(jù)庫,來源地址如Prelinger存檔YouTubegoogle視頻等等,包含6849段視頻剪輯,51個(gè)人類動(dòng)作類別,每類動(dòng)作至少包含 101段視頻剪輯,分辨率為320*240,共2G。動(dòng)作主要分為五類:

1.?面部動(dòng)作:微笑、大笑、咀嚼。

2.?面部操作與對(duì)象操作:吸煙、吃、喝。

3.?一般的身體動(dòng)作:拍手、跳、倒立

4.?與對(duì)象交互動(dòng)作:抽出寶劍、運(yùn)球、高爾夫。

5.?人體動(dòng)作:擊劍、擁抱、親吻。?

03

UCF101

數(shù)據(jù)集鏈接:http://crcv.ucf.edu/data/UCF101.php,發(fā)布于2012年。

UCF101是目前動(dòng)作類別數(shù)樣本數(shù)最多的數(shù)據(jù)集之一,主要包括在自然環(huán)境下101種人類動(dòng)作類別如跳、拍手、打羽毛球等等,也正因?yàn)轭悇e眾多加上UCF101在動(dòng)作的采集上具有非常大的多樣性,如相機(jī)運(yùn)行、外觀變化、姿態(tài)變化、物體比例變化、背景變化等等,所以也成為了當(dāng)前難度最高的動(dòng)作類數(shù)據(jù)集挑戰(zhàn)之一。該數(shù)據(jù)集有13000個(gè)剪輯、總共27個(gè)小時(shí)的視頻。視頻都來自于Youtube上用戶上傳視頻,其中主要包含5大類動(dòng)作:人與物體互動(dòng)、人體動(dòng)作、人與人互動(dòng)、樂器演奏、體育運(yùn)動(dòng)。

04

ActivityNet

數(shù)據(jù)集鏈接:

http://www.merl.com/demos/merl-shopping-dataset,發(fā)布于2016年。

ActivityNet是一個(gè)大規(guī)模行為識(shí)別競(jìng)賽,自CVPR2016開始,今年是該競(jìng)賽的第三屆。在最新1.4版本中,ActivityNet提供了203個(gè)活動(dòng)類別的樣本,每個(gè)類平均有137個(gè)未修剪的視頻,總共有20K多個(gè)Youtube視頻,其中訓(xùn)練包括10K多個(gè)視頻,驗(yàn)證與測(cè)試各包含5K個(gè)視頻。每個(gè)視頻平均有1.41個(gè)行為標(biāo)注,共計(jì)849個(gè)小時(shí)視頻時(shí)長。

以2017年競(jìng)賽為例(使用1.3版本)在ActivityNet將進(jìn)行5項(xiàng)不同的任務(wù),分別是

1.untrimmed video classification (ActivityNet dataset)

2.trimmed video classification (Kinetics dataset)

3.temporal action proposal (ActivityNet dataset)

4.temporal action localization (ActivityNet dataset)

5.Dense-Captioning Events in Videos (ActivityNet Captions)

該競(jìng)賽總共有五個(gè)任務(wù),數(shù)據(jù)來源于三個(gè)不同的公開數(shù)據(jù)集:ActivityNet,ActivityNet?Captions?和Kinetics,其中基于ActivityNet數(shù)據(jù)集的三個(gè)任務(wù)側(cè)重于proposal,而另外兩項(xiàng)更加側(cè)重于localization。感興趣的同學(xué)可以鏈接去了解一下。

05

YouTube-8M

數(shù)據(jù)集鏈接:https://research.google.com/youtube8m/,發(fā)布于2016年。

YouTube-8M是Google公布的一個(gè)大型的視頻數(shù)據(jù)集,這個(gè)數(shù)據(jù)集在最開始包含8M個(gè)YouTube視頻鏈接,此后經(jīng)過不斷清洗篩選在今年5月份已經(jīng)縮短到了6.1M個(gè)視頻,視頻的長度大于兩分鐘小于9分鐘。這些視頻集進(jìn)行了video-level(視頻層級(jí))的標(biāo)注,平均每個(gè)視頻含有3.0個(gè)標(biāo)簽,標(biāo)注為3862種Knowledge Graph?entities(知識(shí)圖譜類別),包括粗粒度細(xì)粒度類別,這些類別已被半自動(dòng)策劃并由3個(gè)評(píng)估者人工驗(yàn)證視頻的識(shí)別度。每個(gè)類別至少有200個(gè)相應(yīng)的視頻示例,平均有3552個(gè)訓(xùn)練視頻。

其中三個(gè)最受歡迎的類別是游戲、視頻游戲和車輛分別用780K,540K和410K個(gè)訓(xùn)練樣例。最少見的是Cylinder和Mortar,分別有123和127個(gè)訓(xùn)練視頻。

這些實(shí)體分為24個(gè)高級(jí)垂直行業(yè),最常見的是藝術(shù)和娛樂(33K訓(xùn)練視頻),最不常見的是財(cái)務(wù)(6K訓(xùn)練視頻)。

06

結(jié)語

市面上還有一些其他的開源短視頻數(shù)據(jù)集,在這里不一一贅述了,大家感興趣可以自己去調(diào)研。

如果想了解更多,歡迎關(guān)注知乎《有三AI學(xué)院》。

我們的計(jì)算機(jī)視覺公開課《AI 圖像識(shí)別項(xiàng)目從入門到上線》上線了,將講述從零基礎(chǔ)到完成一個(gè)實(shí)際的項(xiàng)目到微信小程序上線的整個(gè)流程,歡迎交流捧場(chǎng)。

十月開始,我們有三AI學(xué)院開啟了“稷”劃和“濟(jì)”劃,幫助想入行以及想取得更多實(shí)戰(zhàn)經(jīng)驗(yàn)的同學(xué)。內(nèi)容覆蓋從自動(dòng)駕駛到美顏直播等領(lǐng)域的實(shí)戰(zhàn)項(xiàng)目,從圖像基礎(chǔ)到深度學(xué)習(xí)理論的系統(tǒng)知識(shí),歡迎關(guān)注。

有三AI“【濟(jì)】劃”,從圖像基礎(chǔ)到深度學(xué)習(xí)

有三AI“十一月【稷】劃”,從調(diào)參大法到3D重建

有三AI“十月【稷】劃”,從自動(dòng)駕駛到模型優(yōu)化

《有三說深度學(xué)習(xí)》網(wǎng)易公開課已經(jīng)上線,歡迎關(guān)注

如果想加入我們,后臺(tái)留言吧

轉(zhuǎn)載后臺(tái)留言,侵權(quán)必究

微信

Longlongtogo

公眾號(hào)內(nèi)容

1 圖像基礎(chǔ)|2 深度學(xué)習(xí)|3 行業(yè)信息

有三精選

  • 【總結(jié)】這半年,有三AI都做了什么

  • 【技術(shù)綜述】“看透”神經(jīng)網(wǎng)絡(luò)

  • 【有三說圖像】圖像簡史與基礎(chǔ)

  • 【技術(shù)綜述】閑聊圖像分割這件事兒

  • 【技術(shù)綜述】一文道盡softmax loss及其變種

往期學(xué)員分享

  • 【技術(shù)綜述】人臉表情識(shí)別研究

  • 一課道盡人臉圖像算法,你值得擁有

  • 如何降低遮擋對(duì)人臉識(shí)別的影響

  • 【技術(shù)綜述】人臉顏值研究綜述

往期開源框架

  • 【pytorch速成】Pytorch圖像分類從模型自定義到測(cè)試

  • 【paddlepaddle速成】paddlepaddle圖像分類從模型自定義到測(cè)試

  • 【caffe速成】caffe圖像分類從模型自定義到測(cè)試

  • 【tensorflow速成】Tensorflow圖像分類從模型自定義到測(cè)試

往期行業(yè)解讀

  • 【行業(yè)進(jìn)展】國內(nèi)自動(dòng)駕駛發(fā)展的怎么樣了?

  • 【行業(yè)進(jìn)展】AI:新藥研發(fā)的新紀(jì)元

  • 【行業(yè)進(jìn)展】哪些公司在搞“新零售”

  • 【行業(yè)趨勢(shì)】國內(nèi)這10個(gè)AI研究院,你想好去哪個(gè)了嗎?

往期模型解讀

  • 【模型解讀】“全連接”的卷積網(wǎng)絡(luò),有什么好?

  • 【模型解讀】“不正經(jīng)”的卷積神經(jīng)網(wǎng)絡(luò)

  • 【模型解讀】resnet中的殘差連接,你確定真的看懂了?

  • 【模型解讀】pooling去哪兒了?

總結(jié)

以上是生活随笔為你收集整理的【数据】短视频识别,都有那些行业标准?的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。