long 比较大小_Long-Term Feature Banks
原文是:《Long-Term Feature Banks for Detailed Video Understanding》
code是:https://github.com/facebookresearch/video-long-term-feature-banks
本文是一篇視頻理解方向的論文,也是由
指導的一篇論文,整體來說本文的思路比較清晰,重點是其在 取得了很好的結果,也就是目前第 優秀的結果,排名第 的是《SlowFast Networks for Video Recognition》,排名第 的似乎是《Timeception for Complex Action Recognition》 截至 月。文章的核心在于一個 的設計,其模擬的是人大腦對事物的記憶。Abstract
人類理解世界的方式總是去進行上下文的思考,承前啟后,受啟發于此,本文的核心就是去將人類的思考方式融入到視頻理解中,因此巧妙地設計一個
- 作為全文的識別的一個信息支撐。也就是類似于大腦中的記憶。本文的 方式在 上均取得了優異的結果。(現在的數據集感覺越來越難了啊。)Introduction
人類理解一部電影的時候,記憶一定是尤其重要的一部分。因此本文模擬這點,設計出
去存儲豐富,時間索引的特征庫去編碼信息。有了這個庫,就可以更好的助于判斷當下的事。作者首先通過一副圖來闡述,這幅圖的內容也很有趣。也算是一個有趣的開頭。圖1 短期很難判斷圖
闡述的就是當我們輸入的是一個4s的視頻的時候,我們很難想象出來,當前的幀的任務具體在做什么。必須需要更長的輸入。(其實這個問題也是看不同的情況的,在一次傳統的視頻數據集上,即使是提取一幀就可以很好的判斷出來結果,但有的數據集時間跨度很大,必須要輸入足夠長的數據才可以很好的判斷,對于人類可能還是更多的趨向于自適應的思考吧!)。全部輸入卷積,計算能力實力也不允許啊。作者這里提到了一個很有意思的現象,就是我們經常使用一個預訓練的網絡提取特征,然后又將這些特征當作輸入,這樣的話,就像是這些特征即包含了過去,有包含了現在。而本文的方法,進行了解耦。 是一個輔助的工具。圖2 更長的片段如果可以更長一些輸入,就可以判斷出來是在
,該數據是來自于數據集 。Related Work
已有的方法還是注重于短期的建模,長期的被探索的不多,本文的建立的方法是三個很好的方面。分別是端對端的強大的短期建模,密集采樣以及解耦,靈活的長期建模。而新的計算機視覺任務,時空動作定位現階段的方法基本上就是在幀級別上的檢測,并不包含上下文的語義。
Long-Term Feature Bank Models
要想在計算機視覺上做出更好的預測,一個重要的能力就是能在遙遠的過去與現在之間建立聯系。本文的設計思路是
- 。Method Overview
首先描述本文的方法如何運用在動作定位任務上。經典吃的一些做法就是首先運用目標檢測的方式,再提取特征。而本文的核心在于兩方面:
- 充當記憶模塊,其計算是通過 計算短期 特征之間的交互。這個交互的計算采用的是 機制,如 - 的方式。模型的整體框架可以表述為下面:圖3 傳統3D與LFB的一個比較在圖
中一個普通的卷積操作,其對應的是短期的視頻片段,通常為 - 秒,在卷積之后通過 得到 - 的特征。而在 中是本文所顯示的方法。左邊的部分依舊是普通的 卷積操作,但在右邊引入一個長期的特征庫 ,以及一個特征庫操作模塊 ,其計算短期與長期的一個交互。最終將交互與短期的特征在一起,作為最終分類器的輸入。Long-Term Feature Bank
所以這個
是如何建立的呢? 的作用就是當前識別的時候,去提供相關的上下文信息。這一以動作定位來進行描述,因此,首先需要一個人檢測器去貫穿整個視頻,去產生一每一幀的檢測結果集合。與此同時,一個標準的卷積操作是會出現,以同樣的間隔進行卷積,如每隔一秒 如果 是30,也就是一秒30幀 ,接著使用 去提取所有 卷積特征后人的 。令 代表著 時間的一個結果。 。每一個時間點 個,每個 維度。從一個直覺上來說, 提供了所有的關于" "的信息。至此信息庫 就建立好了。Feature Bank Operator
模型引用
中的信息通過的是一個 操作,其中, 是短期的特征, 其實也就是如同一個滑動窗口一般,窗口大小是 。將其拼接在一起得到 ,這一塊的處理還是覺得很粗暴啊。 。不過這里有一個點就是其在判斷當前的時候,即應用了歷史信息,也應用了未來信息,這樣的作法不可以做到實時視頻在線處理。不過后面也說了,可以把窗口只采用歷史上的 。最后, 的輸出與 共同輸入到分類器中。Implementation Details
的實現其實其實有很多很好的方式,本文的使用就是去一個 的方式,其實驗效果最好。圖4 modified non-local block design魔改的
,接上我們知道其 的輸入有兩部分組成, 與 。具體的細節可以看上圖4。整體上與 相比多了一些放縮以及 。既然是
,當然也就可以疊加多個,圖4的輸出是 ,下一次的疊加計算就要輸入 ,輸出 。至此整體的框架結構就清晰了很多,該有的每一部分怎么做的大致上是可以的。Experiments
要注意的是
, 數據集的視頻長度都很長。 的設計與之符合。表1 Charades的結果作者也做了很多的實驗結果,這里只展示
的結果,在最后一行中,其效果是最好的。但是作者最后說了一句很有意思的話,在 上的提升不是特別的明顯,作者的解釋是,部分因為其是 - 的粗糙預測。Discussion
本篇文章從我的個人微弱的感覺上來說,所設計的之處也不是特別的讓我感覺很亮眼,可能理解的也不是特別深,但結果卻是特別的優秀,比我預期的要高,主要還是覺得很多地方的處理都是有那么一點粗糙的感覺。不過結果很好。相比較來說,有一些工作華麗花哨,這篇是踏實的文章。如何將
很好的結合起來,是一件挺困難的事。現在的視頻數據集對時序的要求要來越高,視頻也越來越長。期待大佬們的新的突破吧。Swan Lake!總結
以上是生活随笔為你收集整理的long 比较大小_Long-Term Feature Banks的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: class? clazz参数_Java如
- 下一篇: sdi线缆标准_松下会议摄像机新品AWU