long 比较大小_Long-Term Feature Banks
原文是:《Long-Term Feature Banks for Detailed Video Understanding》
code是:https://github.com/facebookresearch/video-long-term-feature-banks
本文是一篇視頻理解方向的論文,也是由
指導(dǎo)的一篇論文,整體來說本文的思路比較清晰,重點(diǎn)是其在 取得了很好的結(jié)果,也就是目前第 優(yōu)秀的結(jié)果,排名第 的是《SlowFast Networks for Video Recognition》,排名第 的似乎是《Timeception for Complex Action Recognition》 截至 月。文章的核心在于一個(gè) 的設(shè)計(jì),其模擬的是人大腦對(duì)事物的記憶。Abstract
人類理解世界的方式總是去進(jìn)行上下文的思考,承前啟后,受啟發(fā)于此,本文的核心就是去將人類的思考方式融入到視頻理解中,因此巧妙地設(shè)計(jì)一個(gè)
- 作為全文的識(shí)別的一個(gè)信息支撐。也就是類似于大腦中的記憶。本文的 方式在 上均取得了優(yōu)異的結(jié)果。(現(xiàn)在的數(shù)據(jù)集感覺越來越難了啊。)Introduction
人類理解一部電影的時(shí)候,記憶一定是尤其重要的一部分。因此本文模擬這點(diǎn),設(shè)計(jì)出
去存儲(chǔ)豐富,時(shí)間索引的特征庫(kù)去編碼信息。有了這個(gè)庫(kù),就可以更好的助于判斷當(dāng)下的事。作者首先通過一副圖來闡述,這幅圖的內(nèi)容也很有趣。也算是一個(gè)有趣的開頭。圖1 短期很難判斷圖
闡述的就是當(dāng)我們輸入的是一個(gè)4s的視頻的時(shí)候,我們很難想象出來,當(dāng)前的幀的任務(wù)具體在做什么。必須需要更長(zhǎng)的輸入。(其實(shí)這個(gè)問題也是看不同的情況的,在一次傳統(tǒng)的視頻數(shù)據(jù)集上,即使是提取一幀就可以很好的判斷出來結(jié)果,但有的數(shù)據(jù)集時(shí)間跨度很大,必須要輸入足夠長(zhǎng)的數(shù)據(jù)才可以很好的判斷,對(duì)于人類可能還是更多的趨向于自適應(yīng)的思考吧!)。全部輸入卷積,計(jì)算能力實(shí)力也不允許啊。作者這里提到了一個(gè)很有意思的現(xiàn)象,就是我們經(jīng)常使用一個(gè)預(yù)訓(xùn)練的網(wǎng)絡(luò)提取特征,然后又將這些特征當(dāng)作輸入,這樣的話,就像是這些特征即包含了過去,有包含了現(xiàn)在。而本文的方法,進(jìn)行了解耦。 是一個(gè)輔助的工具。圖2 更長(zhǎng)的片段如果可以更長(zhǎng)一些輸入,就可以判斷出來是在
,該數(shù)據(jù)是來自于數(shù)據(jù)集 。Related Work
已有的方法還是注重于短期的建模,長(zhǎng)期的被探索的不多,本文的建立的方法是三個(gè)很好的方面。分別是端對(duì)端的強(qiáng)大的短期建模,密集采樣以及解耦,靈活的長(zhǎng)期建模。而新的計(jì)算機(jī)視覺任務(wù),時(shí)空動(dòng)作定位現(xiàn)階段的方法基本上就是在幀級(jí)別上的檢測(cè),并不包含上下文的語(yǔ)義。
Long-Term Feature Bank Models
要想在計(jì)算機(jī)視覺上做出更好的預(yù)測(cè),一個(gè)重要的能力就是能在遙遠(yuǎn)的過去與現(xiàn)在之間建立聯(lián)系。本文的設(shè)計(jì)思路是
- 。Method Overview
首先描述本文的方法如何運(yùn)用在動(dòng)作定位任務(wù)上。經(jīng)典吃的一些做法就是首先運(yùn)用目標(biāo)檢測(cè)的方式,再提取特征。而本文的核心在于兩方面:
- 充當(dāng)記憶模塊,其計(jì)算是通過 計(jì)算短期 特征之間的交互。這個(gè)交互的計(jì)算采用的是 機(jī)制,如 - 的方式。模型的整體框架可以表述為下面:圖3 傳統(tǒng)3D與LFB的一個(gè)比較在圖
中一個(gè)普通的卷積操作,其對(duì)應(yīng)的是短期的視頻片段,通常為 - 秒,在卷積之后通過 得到 - 的特征。而在 中是本文所顯示的方法。左邊的部分依舊是普通的 卷積操作,但在右邊引入一個(gè)長(zhǎng)期的特征庫(kù) ,以及一個(gè)特征庫(kù)操作模塊 ,其計(jì)算短期與長(zhǎng)期的一個(gè)交互。最終將交互與短期的特征在一起,作為最終分類器的輸入。Long-Term Feature Bank
所以這個(gè)
是如何建立的呢? 的作用就是當(dāng)前識(shí)別的時(shí)候,去提供相關(guān)的上下文信息。這一以動(dòng)作定位來進(jìn)行描述,因此,首先需要一個(gè)人檢測(cè)器去貫穿整個(gè)視頻,去產(chǎn)生一每一幀的檢測(cè)結(jié)果集合。與此同時(shí),一個(gè)標(biāo)準(zhǔn)的卷積操作是會(huì)出現(xiàn),以同樣的間隔進(jìn)行卷積,如每隔一秒 如果 是30,也就是一秒30幀 ,接著使用 去提取所有 卷積特征后人的 。令 代表著 時(shí)間的一個(gè)結(jié)果。 。每一個(gè)時(shí)間點(diǎn) 個(gè),每個(gè) 維度。從一個(gè)直覺上來說, 提供了所有的關(guān)于" "的信息。至此信息庫(kù) 就建立好了。Feature Bank Operator
模型引用
中的信息通過的是一個(gè) 操作,其中, 是短期的特征, 其實(shí)也就是如同一個(gè)滑動(dòng)窗口一般,窗口大小是 。將其拼接在一起得到 ,這一塊的處理還是覺得很粗暴啊。 。不過這里有一個(gè)點(diǎn)就是其在判斷當(dāng)前的時(shí)候,即應(yīng)用了歷史信息,也應(yīng)用了未來信息,這樣的作法不可以做到實(shí)時(shí)視頻在線處理。不過后面也說了,可以把窗口只采用歷史上的 。最后, 的輸出與 共同輸入到分類器中。Implementation Details
的實(shí)現(xiàn)其實(shí)其實(shí)有很多很好的方式,本文的使用就是去一個(gè) 的方式,其實(shí)驗(yàn)效果最好。圖4 modified non-local block design魔改的
,接上我們知道其 的輸入有兩部分組成, 與 。具體的細(xì)節(jié)可以看上圖4。整體上與 相比多了一些放縮以及 。既然是
,當(dāng)然也就可以疊加多個(gè),圖4的輸出是 ,下一次的疊加計(jì)算就要輸入 ,輸出 。至此整體的框架結(jié)構(gòu)就清晰了很多,該有的每一部分怎么做的大致上是可以的。Experiments
要注意的是
, 數(shù)據(jù)集的視頻長(zhǎng)度都很長(zhǎng)。 的設(shè)計(jì)與之符合。表1 Charades的結(jié)果作者也做了很多的實(shí)驗(yàn)結(jié)果,這里只展示
的結(jié)果,在最后一行中,其效果是最好的。但是作者最后說了一句很有意思的話,在 上的提升不是特別的明顯,作者的解釋是,部分因?yàn)槠涫? - 的粗糙預(yù)測(cè)。Discussion
本篇文章從我的個(gè)人微弱的感覺上來說,所設(shè)計(jì)的之處也不是特別的讓我感覺很亮眼,可能理解的也不是特別深,但結(jié)果卻是特別的優(yōu)秀,比我預(yù)期的要高,主要還是覺得很多地方的處理都是有那么一點(diǎn)粗糙的感覺。不過結(jié)果很好。相比較來說,有一些工作華麗花哨,這篇是踏實(shí)的文章。如何將
很好的結(jié)合起來,是一件挺困難的事。現(xiàn)在的視頻數(shù)據(jù)集對(duì)時(shí)序的要求要來越高,視頻也越來越長(zhǎng)。期待大佬們的新的突破吧。Swan Lake!總結(jié)
以上是生活随笔為你收集整理的long 比较大小_Long-Term Feature Banks的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: class? clazz参数_Java如
- 下一篇: web怎么用代码创造表格_Python新