日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

聚焦视频文本检索:一文概览视频文本检索任务最新研究进展

發(fā)布時間:2024/10/8 编程问答 32 豆豆
生活随笔 收集整理的這篇文章主要介紹了 聚焦视频文本检索:一文概览视频文本检索任务最新研究进展 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

?PaperWeekly 原創(chuàng) · 作者 | 小馬

單位 | FightingCV公眾號運營者

研究方向 | 計算機視覺

寫在前面

近幾年,隨著抖音、快手等短視頻平臺,以及嗶哩嗶哩、優(yōu)酷等視頻平臺的出現(xiàn),網(wǎng)絡中出現(xiàn)了大量的視頻媒體。海量視頻媒體給視頻內(nèi)容的準確檢索帶來了巨大挑戰(zhàn)。在本文中,我們將介紹一些近幾年視頻文本檢索的文章,讓大家了解視頻文本檢索的最近工作進展。

工作介紹

2.1?MMT——ECCV 2020

2.1.1. 論文信息

論文標題:

Multi-modal Transformer for Video Retrieval

論文地址:

https://arxiv.org/abs/2007.10639

代碼地址:

https://github.com/gabeur/mmt

2.1.2. 論文動機

進行視頻文本檢索的關鍵是學習精確的視頻-文本表示,并建立相似度估計。目前的方法主要存在兩個方面的缺陷:1)沒有充分利用好視頻中動作、音頻、語音等各個模態(tài),從上圖中可以看出,從所有組成模態(tài)中聯(lián)合提取的線索比單獨處理每個模態(tài)更具信息性;2)沒有充分考慮視頻的時間性,由于數(shù)據(jù)集中的視頻時長不一樣,目前的方法通常是通過聚合視頻中不同時刻提取的描述,從而丟棄長期時間信息。

在本文中,作者提出了一個多模態(tài) Transformer(MMT)來解決上面的挑戰(zhàn),首先提取不同時刻和不同模態(tài)的特征,將他們聚集在一個緊湊的表示中,并用 Transformer 進行不同時間和模態(tài)信息的交互,最終基于聚合特征來評估視覺和文本之間的相似性。

2.1.3. 論文方

本文的結構如上圖所示,本文的特征提取用的是預訓練的 BERT,視頻的特征用的是不同的預訓練好的“專家”模型來提取不同模態(tài)的特征,每個模態(tài)采用 max-pooling獲得一個聚合特征,然后將提取的特征和專家 embedding、時間 embedding 相加能到最終的視頻特征(如下圖所示)。

作者用一個多模態(tài) Transformer(MMT)來建模這些特征的不同模態(tài)和時間的關系,最終獲得具有代表性的聚合特征,然后用不同聚合特征和文本特征求相似度,并對其進行加權求和,得到最終的視頻本文相似度。

2.2 T2VLAD——CVPR 2021

2.2.1. 論文信息

論文標題:

T2VLAD: Global-Local Sequence Alignment for Text-Video Retrieval

論文地址:

https://arxiv.org/abs/2104.10054

代碼地址:

未開源

2.2.2. 論文動機

目前進行多模態(tài)匹配的方式有兩種,一種是全局的粗粒度匹配,這種方式簡單,但是忽略了細粒度的語義對齊;另一種是細粒度的語義對齊,目前通常是設置三個語義級別(事件、動作和實體),然后進行成對匹配,但是這種方法需要比較高的計算成本。

在本文中,作者提出了一個局部-全局的序列對齊方法。從局部角度,作者并沒有進行一對一的成對匹配,而是設置了共享主題,這些主題在圖像和文本中共享,然后最小化相同主題的圖像和文本特征之間的距離,實現(xiàn)局部的對齊。從全局角度,只需要將全局的視頻和文本特征進行相似度比較,作為局部對齊的一種補充度量和額外監(jiān)督。

2.2.3. 論文方法

與上一篇文章一樣,用預訓練的 BERT 提取文本特征,用不同預訓練的“專家”模型提取視頻中不同模態(tài)的特征,不同模態(tài)的特征進一步用 Self-Attention 進行加強。

對于局部對齊,作者首先設置了 K+1 個共享聚類中心 c(由于視頻和文本共享相同的聚類中心,因此有利于將視頻和文本在相同的語義空間中進行對齊),然后根據(jù)計算每個聚類中心和每個特征之間的相似性,進行并更新特征,視頻更新方式如下所示(文本特征更新方式類似):

然后利用余弦相似度來度量視頻和文本特征之間的局部相似性。

對于全局對齊,在不同專家的時間維度上進行 max-pooling,得到全局視頻聚合特征;用對齊后文本的 concat 結果來生成 N 個全局文本聚合特征,最后計算文本和視頻的全局特征的相似度。

2.3. CLIP4Clip——arXiv 2021

2.3.1. 論文信息

論文標題:

CLIP4Clip: An Empirical Study of CLIP for End to End Video Clip Retrieval

論文地址:

https://arxiv.org/abs/2104.08860

代碼地址:

https://github.com/ArrowLuo/CLIP4Clip

2.3.2. 論文動機

隨著 CLIP 的爆火,作者在本文中希望將 CLIP 中圖片文本預訓練獲得的知識轉移到視頻文本檢索任務中,因此作者提出了 CLIP4Clip 模型,并設計了三種相似度計算方式進行相似度的計算。

2.3.3. 論文方法

上圖展示了本文的模型框架,作者將視頻看做一系列圖片的集合。對于視頻編碼,作者采用了 CLIP 中預訓練的 ViT,Patch Embedding 的時候采用了以下兩種方式(2D:不考慮時間的信息,對每一張圖像分別 embedding;3D:考慮時間信息,相鄰的幀一起 embedding):

對于文本編碼,作者采用了 CLIP 中預訓練的 Transformer 進行文本表示。

這樣,我們就獲得了帶時間序列信息的視頻表示和文本表示,然后作者采用了三種方式進行了視頻和文本的相似度計算,如上圖所示,總的來說前兩種的方法的性能要由于第三種方法,可能是因為第三種方法引入了太多隨機初始化的參數(shù),從而破壞了原來 CLIP 已經(jīng)學好的信息。

2.4. CLIP2Video——arXiv 2021

2.4.1. 論文信息

論文標題:

CLIP2Video: Mastering Video-Text Retrieval via Image CLIP

論文地址:

https://arxiv.org/abs/2106.11097

代碼地址:

https://github.com/CryhanFang/CLIP2Video

2.4.2. 論文動機

目前的視頻文本檢索主要在解決兩個問題,分別為是視頻域中的視覺特征表示視頻和語言之間的多模態(tài)交互。為了解決這兩個問題,作者將視頻看做是一系列順序幀的表示,然后將視頻和語言理解的問題轉換成了兩個獨立的問題:圖像文本訓練的空間表示視頻幀與視頻語言的時間關系

對于多模態(tài)圖像文本表示,作者選用了 CLIP 模型;然后作者提出了兩個模塊來進行視頻幀和視頻語言關系的時間建模,即時間差分塊(Temporal Difference Block,TDB)和時間對齊塊(Temporal Alignment Block,TAB)。TDB 能夠用視頻幀的差分來模擬運動變化,TAB 能夠將視頻序列和文本序列對齊到相同的空間中。

2.4.3. 論文方法

對于視頻和文本的編碼,作者采用了 CLIP 中預訓練的 Transformer 編碼器來進行信息的編碼。然后作者將相鄰的幀進行相減,得到差分的特征,并將其輸入到時間 Transformer 中進行時間交互,獲得最終的差分特征

然后作者將這些視覺幀特征和差分幀特征進行 concat,輸入到 TAB 中和文本特征進行對齊,這部分的操作和《T2VLAD: Global-Local Sequence Alignment for Text-Video Retrieval》中的對齊操作相似,都是將視頻和文本特征對齊到共享的聚類中心。最后基于局部對齊的特征和全局的特征進行相似度計算,得到最終文本和視頻的相似度。

2.5?CAMoE——arXiv 2021

2.5.1. 論文信息

論文標題:

Improving Video-Text Retrieval by Multi-Stream Corpus Alignment and Dual Softmax Loss

論文地址:

https://arxiv.org/abs/2109.04290

代碼地址

https://github.com/starmemda/CAMoE

2.5.2. 論文動機

原始的檢索中用到的單向 softmax 方法,忽略了視頻和文本之間的潛在信息交互,因此作者提出了 Dual Softmax 來進行優(yōu)化,方法簡單,漲點明顯。

2.5.3. 論文方法

上圖展示了本文的 overview,視頻(幀)和文本的特征分別通過 CLIP 中預訓練的 ViT 和 BERT 進行提取,注意,這里作者將視頻和文本的特征分成了三個部分,三個部分分別計算相似度。

個人認為,本文的重點應該是在損失函數(shù)的部分,以往的損失函數(shù)如下所示:

就是按列取 softmax,再按行取 softmax,最后將對角線上的概率求和。

而本文不是這么做的,它的計算方式如下所示(也可以參考上圖中紅線所示):

它在計算“行”方向的概率之前,先進行“列”方向的 Softmax,然后將結果乘到原來的結果上,最后再這個乘積的結果上進行“行”方向的 Softmax,這樣一來在進行 Softmax 的時候,就同時考慮了是圖像對文本的相似度和文本對圖像的相似度。反之亦然。從實驗結果上看,這一操作簡單,但是漲點明顯。

2.6. VALUE——NeurIPS 2021

2.6.1. 論文信息

論文標題:

VALUE: A Multi-Task Benchmark for Video-and-Language Understanding Evaluation

論文地址:

https://arxiv.org/abs/2106.04632

代碼地址:

https://github.com/VALUE-Leaderboard/StarterCode

2.6.2. 論文動機

目前視頻和語言的理解任務大多是在不同的數(shù)據(jù)集上進行評估的,很難衡量一個視頻語言模型的綜合性能。為此,作者提出了一個 VALUE 基準,這個基準包括了 11 個視頻語言數(shù)據(jù)集,涵蓋不同的視頻類型、視頻長度和數(shù)據(jù)量。

2.6.3. 論文方法

本文的主要貢獻就是提出了一個 benchmark,上表展示了本文提出的 VALUE 基準的數(shù)據(jù)來源和任務類型。

2.7. HERO——EMNLP 2020

2.7.1. 論文信息

論文標題:

HERO: Hierarchical Encoder for Video+Language Omni-representation Pre-training

論文地址:

https://arxiv.org/abs/2005.00200

代碼地址:

https://github.com/linjieli222/HERO

2.7.2. 論文動機

目前的視頻預訓練模型大多數(shù)直接借鑒BERT的思想,將文本和視頻幀的 concat 結果作為輸入,失去了時間上的對齊,沒有考慮視頻幀的順序信息,并且與目前的數(shù)據(jù)集達到是烹飪或者教學視頻,不包括動態(tài)場景和復雜社會互動的視頻。

在本文中,作者沒有采用 BERT 形式的編碼器,而是以一種分層的形式對多模態(tài)信息進行編碼:首先用跨模態(tài) Transformer 來融合字幕句子及其相應的局部視頻幀;然后時間 Transformer 使用所有周圍的幀作為全局上下文,來獲取每個視頻幀的順序上下文嵌入。然后作者基于四個預訓練任務,對模型進了預訓練。

2.7.3. 論文方法

本文的框架如上圖所示,首先用跨模態(tài) Transformer 來對每個視頻幀和對應的字幕進行編碼,然后再用時間 Transformer,對視頻幀之間的時間信息進行建模。最后基于Masked Language Modeling、Masked Frame Modeling、Video-Subtitle Matching 和 Frame Order Modeling 四個預訓練任務進行訓練,以獲得視頻和文本表示。

2.8. HiT——ICCV 2021

2.8.1. 論文信息

論文標題:

HiT: Hierarchical Transformer with Momentum Contrast for Video-Text Retrieval

論文地址:

https://arxiv.org/abs/2103.15049

代碼地址:

未開源

2.8.2. 論文動機

目前的跨模態(tài) Transformer 存在兩個方面的局限性:第一,Transformer 中不同層的特征沒有得到充分的挖掘;第二,端到端的訓練機制限制了負樣本的數(shù)量,從而影響了最終的性能。因此,在本文中,作者用了對比學習的思想,將底層和高層的視覺-文本特征進行對比,為了獲得更多的對比樣本,作者也創(chuàng)建了四個內(nèi)存庫,分別存儲用于 key 和 query 的文本,視頻負樣本列表。

2.8.3. 論文方法

本文的模型結構如上圖所示,對于視頻,作者用不同預訓練的“專家”提取特征后將其送入到 Query Video Encoder 中,對于文本,作者用預訓練的 BERT 提取特征后將其送入到 Query Text Encoder。Key Video Encoder 和 Key Text Encoder 都采用動量的方式更新,以保持特征的穩(wěn)定。然后作者對比了 Key 和 Query 中視頻-文本相似度,為了獲得更多的負樣本,作者維護了四個內(nèi)存庫,分別用于維護 key 和 query 的文本,視頻負樣本列表。

2.9. TACo——ICCV 2021

2.9.1. 論文信息

論文標題:

TACo: Token-aware Cascade Contrastive Learning for Video-Text Alignment

論文地址:

https://arxiv.org/abs/2108.09980

代碼地址:

未開源

2.9.2. 論文動機

在這篇文章中,作者提出了 token 感知級聯(lián)對比學習用于視頻文本檢索,顧名思義,這篇文章的意思就是貢獻點主要是兩個:“token 感知”和“級聯(lián)采樣”。以前的對比方法通常是基于句子-視頻級別的對比,這樣的對比太粗粒度了,因此作者就將提出了 token 級別的感知,進行細粒度的對比;第二點是多模態(tài)融合層如果對所有的負樣本進行融合會導致計算效率低下的問題,因此作者提出了一種方法,能夠在不增加額外計算量的情況下,采樣負樣本。

2.9.3. 實現(xiàn)方法

如上圖所示,本文的方法有三個損失函數(shù):L1 是句子級別的對比損失,L2 是 token 級別的對比損失,L3 是融合之后的對比損失。對于 token 級別的損失函數(shù),作者采用了名詞和動態(tài)和所有幀進行對比,因為作者通過實驗發(fā)現(xiàn),這樣的效果最好。另外,如果對所有負樣本在多模態(tài)融合層進行融合的話,就會導致太大的計算量。因此,作者提出了使用 L1 和 L2 中計算的相似度來進行負樣本的級聯(lián)采樣。

總結

目前,關于視頻方面的研究正在非常火熱的進行著,也取得了一定的成功。然而相較于圖片數(shù)據(jù),視頻數(shù)據(jù)的標注更加困難和昂貴,傳統(tǒng)的基于下游數(shù)據(jù)集進行訓練的模型局限性很大。

也正因此,目前有一些研究者將 CLIP 這個圖文預訓練模型遷移到視頻-文本檢索任務中,并且也取得了非常好的實驗結果(秒殺之前的方法)。因此,在將來的研究,如何將預訓練的知識遷移到視頻任務中,或者如何基于未標注的視頻數(shù)據(jù)進行訓練,將會是一個非常有意義同時也非常具有挑戰(zhàn)性的方向!

特別鳴謝

感謝 TCCI 天橋腦科學研究院對于 PaperWeekly 的支持。TCCI 關注大腦探知、大腦功能和大腦健康。

更多閱讀

#投 稿?通 道#

?讓你的文字被更多人看到?

如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達讀者群體,縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢?答案就是:你不認識的人。

總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發(fā)出更多的可能性。?

PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優(yōu)質(zhì)內(nèi)容,可以是最新論文解讀,也可以是學術熱點剖析科研心得競賽經(jīng)驗講解等。我們的目的只有一個,讓知識真正流動起來。

📝?稿件基本要求:

? 文章確系個人原創(chuàng)作品,未曾在公開渠道發(fā)表,如為其他平臺已發(fā)表或待發(fā)表的文章,請明確標注?

? 稿件建議以?markdown?格式撰寫,文中配圖以附件形式發(fā)送,要求圖片清晰,無版權問題

? PaperWeekly 尊重原作者署名權,并將為每篇被采納的原創(chuàng)首發(fā)稿件,提供業(yè)內(nèi)具有競爭力稿酬,具體依據(jù)文章閱讀量和文章質(zhì)量階梯制結算

📬?投稿通道:

? 投稿郵箱:hr@paperweekly.site?

? 來稿請備注即時聯(lián)系方式(微信),以便我們在稿件選用的第一時間聯(lián)系作者

? 您也可以直接添加小編微信(pwbot02)快速投稿,備注:姓名-投稿

△長按添加PaperWeekly小編

🔍

現(xiàn)在,在「知乎」也能找到我們了

進入知乎首頁搜索「PaperWeekly」

點擊「關注」訂閱我們的專欄吧

·

總結

以上是生活随笔為你收集整理的聚焦视频文本检索:一文概览视频文本检索任务最新研究进展的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。