中国人工智能学会通讯——基于视频的行为识别技术 1.7 视频的深度分段网络...
1.7 視頻的深度分段網(wǎng)絡(luò)
下面介紹另外一個(gè)工作,是我們和 CUHK、ETH 聯(lián)合開展的,這個(gè)工作考 慮視頻的分段特性,我們知道視頻可以分 成很多段,每一段有不同的內(nèi)容。我們 開發(fā)了一個(gè)深度模型,對不同的段分別 提取深度特征,然后利用一個(gè) Segment Consensus 模塊對這些特征進(jìn)行融合。在 融合的時(shí)候,我們發(fā)現(xiàn)并不是所有這些 段對識別的貢獻(xiàn)都是一樣的,有些區(qū)域 貢獻(xiàn)比較大,有些區(qū)域不重要。因此在 融合的時(shí)候,我們設(shè)計(jì)了一個(gè)加權(quán)機(jī)制, 根據(jù)各段重要性進(jìn)行加強(qiáng),這個(gè)加權(quán)系 數(shù)是學(xué)習(xí)得到的,可以與識別網(wǎng)絡(luò)聯(lián)合 做 End-to-End 的聯(lián)合優(yōu)化。
基于這個(gè)方法,我們參見了 ActivityNet 2016 競賽。ActivityNet 包含 200 多個(gè)類別, 600 多個(gè)小時(shí)的視頻,內(nèi)容比較復(fù)雜,數(shù)據(jù) 量比較大。另外,這個(gè)數(shù)據(jù)庫是 untrimmed 的,就是說視頻里面可能包含和類別不相 關(guān)的時(shí)間段。我們的方法取得了 93% 的識 別率,在所有方法中排名第一。
我們看到伴隨著深度模型在視頻分析 識別中的廣泛應(yīng)用,在行為分類任務(wù)上 取得了重要進(jìn)展,在多個(gè)公開數(shù)據(jù)庫的 識別率都有大幅的提升。但是另一方面, 由于視頻的復(fù)雜性,很多問題離最終解 決還有很大距離。這就要求我們開展研 究工作,在方法上有進(jìn)一步的進(jìn)展。
(本文根據(jù)喬宇研究員在中國人工智能學(xué)會首 期“人工智能前沿講習(xí)班”的現(xiàn)場報(bào)告整理)
中國科學(xué)院深圳先進(jìn)技術(shù)研究院研究員,集成所副所長。擔(dān)任廣東省“機(jī)器視覺與虛擬現(xiàn)實(shí)”重點(diǎn)實(shí)驗(yàn)室常 務(wù)副主任 , 深圳市“機(jī)器視覺與模式識別”重點(diǎn)實(shí)驗(yàn)室副主任。2011 年獲得中國科學(xué)院“百人計(jì)劃”擇優(yōu)支持, 廣東省科技創(chuàng)新領(lǐng)軍人才,深圳鵬程學(xué)者長期特聘教授。從事計(jì)算機(jī)視覺、深度學(xué)習(xí)和模式識別的研究。已 在包括 PAMI、T-IP、T-SP、IJCV、CVPR、ICCV、ECCV、AAAI 等會議和期刊上發(fā)表學(xué)術(shù)論文 150 余篇 , 帶領(lǐng) 團(tuán)隊(duì)多次在 ChaLearn、LSun、THUMOUS、ACTIVITYNet 等國際評測中取得第一,獲 ImageNet 2016 場景分類 任務(wù)第二名。
總結(jié)
以上是生活随笔為你收集整理的中国人工智能学会通讯——基于视频的行为识别技术 1.7 视频的深度分段网络...的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 怪物猎人世界惨爪龙在哪
- 下一篇: 2017第35周日乱记