當(dāng)前位置：首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

long 比较大小_Long-Term Feature Banks

發(fā)布時(shí)間：2025/3/15 编程问答 16 豆豆

生活随笔收集整理的這篇文章主要介紹了 long 比较大小_Long-Term Feature Banks 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

原文是:《Long-Term Feature Banks for Detailed Video Understanding》

code是：https://github.com/facebookresearch/video-long-term-feature-banks

本文是一篇視頻理解方向的論文，也是由

指導(dǎo)的一篇論文，整體來說本文的思路比較清晰，重點(diǎn)是其在取得了很好的結(jié)果，也就是目前第優(yōu)秀的結(jié)果，排名第的是《SlowFast Networks for Video Recognition》，排名第的似乎是《Timeception for Complex Action Recognition》截至月。文章的核心在于一個(gè) 的設(shè)計(jì)，其模擬的是人大腦對(duì)事物的記憶。

Abstract

人類理解世界的方式總是去進(jìn)行上下文的思考，承前啟后，受啟發(fā)于此，本文的核心就是去將人類的思考方式融入到視頻理解中，因此巧妙地設(shè)計(jì)一個(gè)

- 作為全文的識(shí)別的一個(gè)信息支撐。也就是類似于大腦中的記憶。本文的方式在上均取得了優(yōu)異的結(jié)果。(現(xiàn)在的數(shù)據(jù)集感覺越來越難了啊。)

Introduction

人類理解一部電影的時(shí)候，記憶一定是尤其重要的一部分。因此本文模擬這點(diǎn)，設(shè)計(jì)出

去存儲(chǔ)豐富，時(shí)間索引的特征庫(kù)去編碼信息。有了這個(gè)庫(kù)，就可以更好的助于判斷當(dāng)下的事。作者首先通過一副圖來闡述，這幅圖的內(nèi)容也很有趣。也算是一個(gè)有趣的開頭。

圖1 短期很難判斷

圖

闡述的就是當(dāng)我們輸入的是一個(gè)4s的視頻的時(shí)候，我們很難想象出來，當(dāng)前的幀的任務(wù)具體在做什么。必須需要更長(zhǎng)的輸入。(其實(shí)這個(gè)問題也是看不同的情況的,在一次傳統(tǒng)的視頻數(shù)據(jù)集上，即使是提取一幀就可以很好的判斷出來結(jié)果，但有的數(shù)據(jù)集時(shí)間跨度很大，必須要輸入足夠長(zhǎng)的數(shù)據(jù)才可以很好的判斷，對(duì)于人類可能還是更多的趨向于自適應(yīng)的思考吧！)。全部輸入卷積，計(jì)算能力實(shí)力也不允許啊。作者這里提到了一個(gè)很有意思的現(xiàn)象，就是我們經(jīng)常使用一個(gè)預(yù)訓(xùn)練的網(wǎng)絡(luò)提取特征，然后又將這些特征當(dāng)作輸入，這樣的話，就像是這些特征即包含了過去，有包含了現(xiàn)在。而本文的方法，進(jìn)行了解耦。是一個(gè)輔助的工具。

圖2 更長(zhǎng)的片段

如果可以更長(zhǎng)一些輸入，就可以判斷出來是在

，該數(shù)據(jù)是來自于數(shù)據(jù)集。

Related Work

已有的方法還是注重于短期的建模，長(zhǎng)期的被探索的不多，本文的建立的方法是三個(gè)很好的方面。分別是端對(duì)端的強(qiáng)大的短期建模，密集采樣以及解耦，靈活的長(zhǎng)期建模。而新的計(jì)算機(jī)視覺任務(wù)，時(shí)空動(dòng)作定位現(xiàn)階段的方法基本上就是在幀級(jí)別上的檢測(cè)，并不包含上下文的語(yǔ)義。

Long-Term Feature Bank Models

要想在計(jì)算機(jī)視覺上做出更好的預(yù)測(cè)，一個(gè)重要的能力就是能在遙遠(yuǎn)的過去與現(xiàn)在之間建立聯(lián)系。本文的設(shè)計(jì)思路是

- 。

Method Overview

首先描述本文的方法如何運(yùn)用在動(dòng)作定位任務(wù)上。經(jīng)典吃的一些做法就是首先運(yùn)用目標(biāo)檢測(cè)的方式，再提取特征。而本文的核心在于兩方面：

- 充當(dāng)記憶模塊，其計(jì)算是通過計(jì)算短期特征之間的交互。這個(gè)交互的計(jì)算采用的是機(jī)制，如 - 的方式。模型的整體框架可以表述為下面：

圖3 傳統(tǒng)3D與LFB的一個(gè)比較

在圖

中一個(gè)普通的卷積操作，其對(duì)應(yīng)的是短期的視頻片段，通常為 - 秒，在卷積之后通過得到 - 的特征。而在中是本文所顯示的方法。左邊的部分依舊是普通的卷積操作，但在右邊引入一個(gè)長(zhǎng)期的特征庫(kù) ,以及一個(gè)特征庫(kù)操作模塊 ,其計(jì)算短期與長(zhǎng)期的一個(gè)交互。最終將交互與短期的特征在一起，作為最終分類器的輸入。

Long-Term Feature Bank

所以這個(gè)

是如何建立的呢？的作用就是當(dāng)前識(shí)別的時(shí)候，去提供相關(guān)的上下文信息。這一以動(dòng)作定位來進(jìn)行描述，因此，首先需要一個(gè)人檢測(cè)器去貫穿整個(gè)視頻，去產(chǎn)生一每一幀的檢測(cè)結(jié)果集合。與此同時(shí)，一個(gè)標(biāo)準(zhǔn)的卷積操作是會(huì)出現(xiàn)，以同樣的間隔進(jìn)行卷積，如每隔一秒如果是30，也就是一秒30幀，接著使用去提取所有卷積特征后人的。令代表著時(shí)間的一個(gè)結(jié)果。。每一個(gè)時(shí)間點(diǎn) 個(gè)，每個(gè) 維度。從一個(gè)直覺上來說，提供了所有的關(guān)于" "的信息。至此信息庫(kù) 就建立好了。

Feature Bank Operator

模型引用

中的信息通過的是一個(gè) 操作，其中，是短期的特征，其實(shí)也就是如同一個(gè)滑動(dòng)窗口一般，窗口大小是。將其拼接在一起得到，這一塊的處理還是覺得很粗暴啊。。不過這里有一個(gè)點(diǎn)就是其在判斷當(dāng)前的時(shí)候，即應(yīng)用了歷史信息，也應(yīng)用了未來信息，這樣的作法不可以做到實(shí)時(shí)視頻在線處理。不過后面也說了，可以把窗口只采用歷史上的。最后，的輸出與共同輸入到分類器中。

Implementation Details

的實(shí)現(xiàn)其實(shí)其實(shí)有很多很好的方式，本文的使用就是去一個(gè) 的方式，其實(shí)驗(yàn)效果最好。

圖4 modified non-local block design

魔改的

,接上我們知道其的輸入有兩部分組成，與。具體的細(xì)節(jié)可以看上圖4。整體上與相比多了一些放縮以及。

既然是

，當(dāng)然也就可以疊加多個(gè)，圖4的輸出是 ,下一次的疊加計(jì)算就要輸入，輸出。至此整體的框架結(jié)構(gòu)就清晰了很多，該有的每一部分怎么做的大致上是可以的。

Experiments

要注意的是

，數(shù)據(jù)集的視頻長(zhǎng)度都很長(zhǎng)。的設(shè)計(jì)與之符合。

表1 Charades的結(jié)果

作者也做了很多的實(shí)驗(yàn)結(jié)果，這里只展示

的結(jié)果，在最后一行中，其效果是最好的。但是作者最后說了一句很有意思的話，在上的提升不是特別的明顯，作者的解釋是，部分因?yàn)槠涫? - 的粗糙預(yù)測(cè)。

Discussion

本篇文章從我的個(gè)人微弱的感覺上來說，所設(shè)計(jì)的之處也不是特別的讓我感覺很亮眼，可能理解的也不是特別深，但結(jié)果卻是特別的優(yōu)秀，比我預(yù)期的要高，主要還是覺得很多地方的處理都是有那么一點(diǎn)粗糙的感覺。不過結(jié)果很好。相比較來說，有一些工作華麗花哨，這篇是踏實(shí)的文章。如何將

很好的結(jié)合起來，是一件挺困難的事。現(xiàn)在的視頻數(shù)據(jù)集對(duì)時(shí)序的要求要來越高，視頻也越來越長(zhǎng)。期待大佬們的新的突破吧。Swan Lake！

總結(jié)

以上是生活随笔為你收集整理的long 比较大小_Long-Term Feature Banks的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇： class? clazz参数_Java如
下一篇： web怎么用代码创造表格_Python新