打破两项世界纪录,腾讯优图开源视频动作检测算法DBG
近日,騰訊優(yōu)圖實驗室提出一種新的視頻動作檢測算法DBG并開源,這是繼今年4月人臉檢測算法DSFD開源后,優(yōu)圖的又一次開源動作。
目前,DBG算法在全球兩大權(quán)威視頻動作數(shù)據(jù)集ActivityNet-1.3和THUMOS14上均取得了第一。相關(guān)論文《Fast Learning of Temporal Action Proposal via Dense Boundary Generator》已被國際人工智能頂級會議AAAI2020接收,與此同時,算法代碼已在優(yōu)圖研究官方Github上開源。
Github開源地址:
https://github.com/TencentYoutuResearch/ActionDetection-DBG
論文公開地址:
https://arxiv.org/pdf/1911.04127.pdf
三點創(chuàng)新,探索視頻動作檢測最優(yōu)方案視頻動作檢測技術(shù)是精彩視頻集錦、視頻字幕生成、動作識別等任務(wù)的基礎(chǔ),隨著互聯(lián)網(wǎng)的飛速發(fā)展,在產(chǎn)業(yè)界中得到越來越廣泛地應(yīng)用。視頻動作檢測算法需要在給出視頻中找到動作發(fā)生的位置(起點和終點)和置信度。如下圖所示,我們需要在一段體育視頻場景中,找到“跳高”這個動作發(fā)生的起點時刻和終點時刻。與現(xiàn)有的視頻動作檢測算法相比,DBG算法有3點創(chuàng)新:
(1)提出一種快速的、端到端的稠密邊界動作生成器(Dense Boundary Generator,DBG)。該生成器能夠?qū)λ械膭幼魈崦?#xff08;proposal)估計出稠密的邊界置信度圖。
(2)引入額外的時序上的動作分類損失函數(shù)來監(jiān)督動作概率特征,該特征能夠有利于回歸動作的完整度。
(3)設(shè)計一種高效的動作提名特征生成層,該層能夠有效捕獲動作的全局特征,便于后面的分類和回歸模塊。
據(jù)了解,DBG算法在全球兩大權(quán)威視頻動作數(shù)據(jù)集ActivityNet-1.3和THUMOS14上均取得了第一。算法的整體框架主要包括三個部分:視頻特征抽取(Video Representation),稠密邊界動作檢測器(DBG),后處理(Post-processing)。DBG算法框架圖
從評估結(jié)果來看,DBG無論在召回率還是耗時上都優(yōu)于現(xiàn)有其他開源算法。其中,ActivityNet1.3數(shù)據(jù)集分為Validation和Test兩個評估集,DBG單模型(表中Ours)在Validation和Test的兩種評估模式上均取得了Top 1,通過使用多種特征提取網(wǎng)絡(luò)和多尺度特征等策略,DBG算法的融合結(jié)果是73.05%,達到ActivityNet榜單的第一名。目前THUMOS14數(shù)據(jù)集測試集標注已經(jīng)公開,通過將DBG與現(xiàn)有的開源方法進行對比,DBG在不同指標下的召回率均有顯著提升。
此外,DBG算法的耗時要明顯少于BSN和BMN等其他經(jīng)典方法。?
突破痛點 ,DBG算法為產(chǎn)業(yè)發(fā)展助力隨著互聯(lián)網(wǎng)時代發(fā)展,視頻內(nèi)容越來越多,預(yù)計到2021年,80%左右的互聯(lián)網(wǎng)流量將會來自于視頻。視頻內(nèi)容的爆發(fā)也催生了對動作檢測算法的巨大需求。互聯(lián)網(wǎng)場景視頻內(nèi)容的多樣性對技術(shù)提出了很多的挑戰(zhàn),如視頻場景復(fù)雜、動作長度差異較大、邊界模糊、相機運動帶來背景變化等。針對這些挑戰(zhàn),優(yōu)圖DBG動作檢測算法應(yīng)運而生,在實際業(yè)務(wù)中取得了很好的精度與速度的提升。目前,動作檢測技術(shù)已經(jīng)應(yīng)用于公司內(nèi)外的多個業(yè)務(wù)中,覆蓋教育、社交、娛樂、視頻等多個場景。以社交娛樂場景為例,短視頻APP用戶拍攝上傳一段原始視頻后,基于DBG算法的功能接口,可實現(xiàn)對視頻中“跳舞”動作的檢測和識別并智能剪輯,幫助用戶自動生成更加專業(yè)的短視頻。
自2017年,騰訊開始加快對外開源節(jié)奏,主要覆蓋AI、云、游戲、安全、小程序等相關(guān)領(lǐng)域,其中計算機視覺技術(shù)的開源也是其重要一環(huán)。2017年7月,騰訊優(yōu)圖首個AI開源項目NCNN開源,2019年至今已有人臉檢測、屬性等5項技術(shù)開源。騰訊優(yōu)圖將不斷研究和探索,通過開源更多新技術(shù)為產(chǎn)業(yè)發(fā)展提供助力。
總結(jié)
以上是生活随笔為你收集整理的打破两项世界纪录,腾讯优图开源视频动作检测算法DBG的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 腾讯正式开源图计算框架Plato,十亿级
- 下一篇: 「递归」第3集 | 向善的信念,让技术自