當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

聚焦视频文本检索：一文概览视频文本检索任务最新研究进展

發(fā)布時間：2024/10/8 编程问答 32 豆豆

生活随笔收集整理的這篇文章主要介紹了聚焦视频文本检索：一文概览视频文本检索任务最新研究进展小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

?PaperWeekly 原創(chuàng) · 作者 | 小馬

單位 | FightingCV公眾號運營者

研究方向 | 計算機視覺

寫在前面

近幾年，隨著抖音、快手等短視頻平臺，以及嗶哩嗶哩、優(yōu)酷等視頻平臺的出現(xiàn)，網(wǎng)絡中出現(xiàn)了大量的視頻媒體。海量視頻媒體給視頻內(nèi)容的準確檢索帶來了巨大挑戰(zhàn)。在本文中，我們將介紹一些近幾年視頻文本檢索的文章，讓大家了解視頻文本檢索的最近工作進展。

工作介紹

2.1?MMT——ECCV 2020

2.1.1. 論文信息

論文標題：

Multi-modal Transformer for Video Retrieval

論文地址：

https://arxiv.org/abs/2007.10639

代碼地址：

https://github.com/gabeur/mmt

2.1.2. 論文動機

進行視頻文本檢索的關鍵是學習精確的視頻-文本表示，并建立相似度估計。目前的方法主要存在兩個方面的缺陷：1）沒有充分利用好視頻中動作、音頻、語音等各個模態(tài)，從上圖中可以看出，從所有組成模態(tài)中聯(lián)合提取的線索比單獨處理每個模態(tài)更具信息性；2）沒有充分考慮視頻的時間性，由于數(shù)據(jù)集中的視頻時長不一樣，目前的方法通常是通過聚合視頻中不同時刻提取的描述，從而丟棄長期時間信息。

在本文中，作者提出了一個多模態(tài) Transformer（MMT）來解決上面的挑戰(zhàn)，首先提取不同時刻和不同模態(tài)的特征，將他們聚集在一個緊湊的表示中，并用 Transformer 進行不同時間和模態(tài)信息的交互，最終基于聚合特征來評估視覺和文本之間的相似性。

2.1.3. 論文方法

本文的結構如上圖所示，本文的特征提取用的是預訓練的 BERT，視頻的特征用的是不同的預訓練好的“專家”模型來提取不同模態(tài)的特征，每個模態(tài)采用 max-pooling獲得一個聚合特征，然后將提取的特征和專家 embedding、時間 embedding 相加能到最終的視頻特征（如下圖所示）。

作者用一個多模態(tài) Transformer（MMT）來建模這些特征的不同模態(tài)和時間的關系，最終獲得具有代表性的聚合特征，然后用不同聚合特征和文本特征求相似度，并對其進行加權求和，得到最終的視頻本文相似度。

2.2 T2VLAD——CVPR 2021

2.2.1. 論文信息

論文標題：

T2VLAD: Global-Local Sequence Alignment for Text-Video Retrieval

論文地址：

https://arxiv.org/abs/2104.10054

代碼地址：

未開源

2.2.2. 論文動機

目前進行多模態(tài)匹配的方式有兩種，一種是全局的粗粒度匹配，這種方式簡單，但是忽略了細粒度的語義對齊；另一種是細粒度的語義對齊，目前通常是設置三個語義級別（事件、動作和實體），然后進行成對匹配，但是這種方法需要比較高的計算成本。

在本文中，作者提出了一個局部-全局的序列對齊方法。從局部角度，作者并沒有進行一對一的成對匹配，而是設置了共享主題，這些主題在圖像和文本中共享，然后最小化相同主題的圖像和文本特征之間的距離，實現(xiàn)局部的對齊。從全局角度，只需要將全局的視頻和文本特征進行相似度比較，作為局部對齊的一種補充度量和額外監(jiān)督。

2.2.3. 論文方法

與上一篇文章一樣，用預訓練的 BERT 提取文本特征，用不同預訓練的“專家”模型提取視頻中不同模態(tài)的特征，不同模態(tài)的特征進一步用 Self-Attention 進行加強。

對于局部對齊，作者首先設置了 K+1 個共享聚類中心 c（由于視頻和文本共享相同的聚類中心，因此有利于將視頻和文本在相同的語義空間中進行對齊），然后根據(jù)計算每個聚類中心和每個特征之間的相似性，進行并更新特征，視頻更新方式如下所示（文本特征更新方式類似）：

然后利用余弦相似度來度量視頻和文本特征之間的局部相似性。

對于全局對齊，在不同專家的時間維度上進行 max-pooling，得到全局視頻聚合特征；用對齊后文本的 concat 結果來生成 N 個全局文本聚合特征，最后計算文本和視頻的全局特征的相似度。

2.3. CLIP4Clip——arXiv 2021

2.3.1. 論文信息

論文標題：

CLIP4Clip: An Empirical Study of CLIP for End to End Video Clip Retrieval

論文地址：

https://arxiv.org/abs/2104.08860

代碼地址：

https://github.com/ArrowLuo/CLIP4Clip

2.3.2. 論文動機

隨著 CLIP 的爆火，作者在本文中希望將 CLIP 中圖片文本預訓練獲得的知識轉移到視頻文本檢索任務中，因此作者提出了 CLIP4Clip 模型，并設計了三種相似度計算方式進行相似度的計算。

2.3.3. 論文方法

上圖展示了本文的模型框架，作者將視頻看做一系列圖片的集合。對于視頻編碼，作者采用了 CLIP 中預訓練的 ViT，Patch Embedding 的時候采用了以下兩種方式（2D：不考慮時間的信息，對每一張圖像分別 embedding；3D：考慮時間信息，相鄰的幀一起 embedding）：

對于文本編碼，作者采用了 CLIP 中預訓練的 Transformer 進行文本表示。

這樣，我們就獲得了帶時間序列信息的視頻表示和文本表示，然后作者采用了三種方式進行了視頻和文本的相似度計算，如上圖所示，總的來說前兩種的方法的性能要由于第三種方法，可能是因為第三種方法引入了太多隨機初始化的參數(shù)，從而破壞了原來 CLIP 已經(jīng)學好的信息。

2.4. CLIP2Video——arXiv 2021

2.4.1. 論文信息

論文標題：

CLIP2Video: Mastering Video-Text Retrieval via Image CLIP

論文地址：

https://arxiv.org/abs/2106.11097

代碼地址：

https://github.com/CryhanFang/CLIP2Video

2.4.2. 論文動機

目前的視頻文本檢索主要在解決兩個問題，分別為是視頻域中的視覺特征表示和視頻和語言之間的多模態(tài)交互。為了解決這兩個問題，作者將視頻看做是一系列順序幀的表示，然后將視頻和語言理解的問題轉換成了兩個獨立的問題：圖像文本訓練的空間表示和視頻幀與視頻語言的時間關系。

對于多模態(tài)圖像文本表示，作者選用了 CLIP 模型；然后作者提出了兩個模塊來進行視頻幀和視頻語言關系的時間建模，即時間差分塊（Temporal Difference Block，TDB）和時間對齊塊（Temporal Alignment Block，TAB）。TDB 能夠用視頻幀的差分來模擬運動變化，TAB 能夠將視頻序列和文本序列對齊到相同的空間中。

2.4.3. 論文方法

對于視頻和文本的編碼，作者采用了 CLIP 中預訓練的 Transformer 編碼器來進行信息的編碼。然后作者將相鄰的幀進行相減，得到差分的特征，并將其輸入到時間 Transformer 中進行時間交互，獲得最終的差分特征

然后作者將這些視覺幀特征和差分幀特征進行 concat，輸入到 TAB 中和文本特征進行對齊，這部分的操作和《T2VLAD: Global-Local Sequence Alignment for Text-Video Retrieval》中的對齊操作相似，都是將視頻和文本特征對齊到共享的聚類中心。最后基于局部對齊的特征和全局的特征進行相似度計算，得到最終文本和視頻的相似度。

2.5?CAMoE——arXiv 2021

2.5.1. 論文信息

論文標題：

Improving Video-Text Retrieval by Multi-Stream Corpus Alignment and Dual Softmax Loss

論文地址：

https://arxiv.org/abs/2109.04290

代碼地址：

https://github.com/starmemda/CAMoE

2.5.2. 論文動機

原始的檢索中用到的單向 softmax 方法，忽略了視頻和文本之間的潛在信息交互，因此作者提出了 Dual Softmax 來進行優(yōu)化，方法簡單，漲點明顯。

2.5.3. 論文方法

上圖展示了本文的 overview，視頻（幀）和文本的特征分別通過 CLIP 中預訓練的 ViT 和 BERT 進行提取，注意，這里作者將視頻和文本的特征分成了三個部分，三個部分分別計算相似度。

個人認為，本文的重點應該是在損失函數(shù)的部分，以往的損失函數(shù)如下所示：

就是按列取 softmax，再按行取 softmax，最后將對角線上的概率求和。

而本文不是這么做的，它的計算方式如下所示（也可以參考上圖中紅線所示）：

它在計算“行”方向的概率之前，先進行“列”方向的 Softmax，然后將結果乘到原來的結果上，最后再這個乘積的結果上進行“行”方向的 Softmax，這樣一來在進行 Softmax 的時候，就同時考慮了是圖像對文本的相似度和文本對圖像的相似度。反之亦然。從實驗結果上看，這一操作簡單，但是漲點明顯。

2.6. VALUE——NeurIPS 2021

2.6.1. 論文信息

論文標題：

VALUE: A Multi-Task Benchmark for Video-and-Language Understanding Evaluation

論文地址：

https://arxiv.org/abs/2106.04632

代碼地址：

https://github.com/VALUE-Leaderboard/StarterCode

2.6.2. 論文動機

目前視頻和語言的理解任務大多是在不同的數(shù)據(jù)集上進行評估的，很難衡量一個視頻語言模型的綜合性能。為此，作者提出了一個 VALUE 基準，這個基準包括了 11 個視頻語言數(shù)據(jù)集，涵蓋不同的視頻類型、視頻長度和數(shù)據(jù)量。

2.6.3. 論文方法

本文的主要貢獻就是提出了一個 benchmark，上表展示了本文提出的 VALUE 基準的數(shù)據(jù)來源和任務類型。

2.7. HERO——EMNLP 2020

2.7.1. 論文信息

論文標題：

HERO: Hierarchical Encoder for Video+Language Omni-representation Pre-training

論文地址：

https://arxiv.org/abs/2005.00200

代碼地址：

https://github.com/linjieli222/HERO

2.7.2. 論文動機

目前的視頻預訓練模型大多數(shù)直接借鑒BERT的思想，將文本和視頻幀的 concat 結果作為輸入，失去了時間上的對齊，沒有考慮視頻幀的順序信息，并且與目前的數(shù)據(jù)集達到是烹飪或者教學視頻，不包括動態(tài)場景和復雜社會互動的視頻。

在本文中，作者沒有采用 BERT 形式的編碼器，而是以一種分層的形式對多模態(tài)信息進行編碼：首先用跨模態(tài) Transformer 來融合字幕句子及其相應的局部視頻幀；然后時間 Transformer 使用所有周圍的幀作為全局上下文，來獲取每個視頻幀的順序上下文嵌入。然后作者基于四個預訓練任務，對模型進了預訓練。

2.7.3. 論文方法

本文的框架如上圖所示，首先用跨模態(tài) Transformer 來對每個視頻幀和對應的字幕進行編碼，然后再用時間 Transformer，對視頻幀之間的時間信息進行建模。最后基于Masked Language Modeling、Masked Frame Modeling、Video-Subtitle Matching 和 Frame Order Modeling 四個預訓練任務進行訓練，以獲得視頻和文本表示。

2.8. HiT——ICCV 2021

2.8.1. 論文信息

論文標題：

HiT: Hierarchical Transformer with Momentum Contrast for Video-Text Retrieval

論文地址：

https://arxiv.org/abs/2103.15049

代碼地址：

未開源

2.8.2. 論文動機

目前的跨模態(tài) Transformer 存在兩個方面的局限性：第一，Transformer 中不同層的特征沒有得到充分的挖掘；第二，端到端的訓練機制限制了負樣本的數(shù)量，從而影響了最終的性能。因此，在本文中，作者用了對比學習的思想，將底層和高層的視覺-文本特征進行對比，為了獲得更多的對比樣本，作者也創(chuàng)建了四個內(nèi)存庫，分別存儲用于 key 和 query 的文本，視頻負樣本列表。

2.8.3. 論文方法

本文的模型結構如上圖所示，對于視頻，作者用不同預訓練的“專家”提取特征后將其送入到 Query Video Encoder 中，對于文本，作者用預訓練的 BERT 提取特征后將其送入到 Query Text Encoder。Key Video Encoder 和 Key Text Encoder 都采用動量的方式更新，以保持特征的穩(wěn)定。然后作者對比了 Key 和 Query 中視頻-文本相似度，為了獲得更多的負樣本，作者維護了四個內(nèi)存庫，分別用于維護 key 和 query 的文本，視頻負樣本列表。

2.9. TACo——ICCV 2021

2.9.1. 論文信息

論文標題：

TACo: Token-aware Cascade Contrastive Learning for Video-Text Alignment

論文地址：

https://arxiv.org/abs/2108.09980

代碼地址：

未開源

2.9.2. 論文動機

在這篇文章中，作者提出了 token 感知級聯(lián)對比學習用于視頻文本檢索，顧名思義，這篇文章的意思就是貢獻點主要是兩個：“token 感知”和“級聯(lián)采樣”。以前的對比方法通常是基于句子-視頻級別的對比，這樣的對比太粗粒度了，因此作者就將提出了 token 級別的感知，進行細粒度的對比；第二點是多模態(tài)融合層如果對所有的負樣本進行融合會導致計算效率低下的問題，因此作者提出了一種方法，能夠在不增加額外計算量的情況下，采樣負樣本。

2.9.3. 實現(xiàn)方法

如上圖所示，本文的方法有三個損失函數(shù)：L1 是句子級別的對比損失，L2 是 token 級別的對比損失，L3 是融合之后的對比損失。對于 token 級別的損失函數(shù)，作者采用了名詞和動態(tài)和所有幀進行對比，因為作者通過實驗發(fā)現(xiàn)，這樣的效果最好。另外，如果對所有負樣本在多模態(tài)融合層進行融合的話，就會導致太大的計算量。因此，作者提出了使用 L1 和 L2 中計算的相似度來進行負樣本的級聯(lián)采樣。

總結

目前，關于視頻方面的研究正在非常火熱的進行著，也取得了一定的成功。然而相較于圖片數(shù)據(jù)，視頻數(shù)據(jù)的標注更加困難和昂貴，傳統(tǒng)的基于下游數(shù)據(jù)集進行訓練的模型局限性很大。

也正因此，目前有一些研究者將 CLIP 這個圖文預訓練模型遷移到視頻-文本檢索任務中，并且也取得了非常好的實驗結果（秒殺之前的方法）。因此，在將來的研究，如何將預訓練的知識遷移到視頻任務中，或者如何基于未標注的視頻數(shù)據(jù)進行訓練，將會是一個非常有意義同時也非常具有挑戰(zhàn)性的方向！

特別鳴謝

感謝 TCCI 天橋腦科學研究院對于 PaperWeekly 的支持。TCCI 關注大腦探知、大腦功能和大腦健康。

更多閱讀

#投稿?通道#

?讓你的文字被更多人看到?

如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達讀者群體，縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢？答案就是：你不認識的人。

總有一些你不認識的人，知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁，促使不同背景、不同方向的學者和學術靈感相互碰撞，迸發(fā)出更多的可能性。?

PaperWeekly 鼓勵高校實驗室或個人，在我們的平臺上分享各類優(yōu)質(zhì)內(nèi)容，可以是最新論文解讀，也可以是學術熱點剖析、科研心得或競賽經(jīng)驗講解等。我們的目的只有一個，讓知識真正流動起來。

📝?稿件基本要求：

? 文章確系個人原創(chuàng)作品，未曾在公開渠道發(fā)表，如為其他平臺已發(fā)表或待發(fā)表的文章，請明確標注?

? 稿件建議以?markdown?格式撰寫，文中配圖以附件形式發(fā)送，要求圖片清晰，無版權問題

? PaperWeekly 尊重原作者署名權，并將為每篇被采納的原創(chuàng)首發(fā)稿件，提供業(yè)內(nèi)具有競爭力稿酬，具體依據(jù)文章閱讀量和文章質(zhì)量階梯制結算

📬?投稿通道：

? 投稿郵箱：hr@paperweekly.site?

? 來稿請備注即時聯(lián)系方式（微信），以便我們在稿件選用的第一時間聯(lián)系作者

? 您也可以直接添加小編微信（pwbot02）快速投稿，備注：姓名-投稿

△長按添加PaperWeekly小編

🔍

現(xiàn)在，在「知乎」也能找到我們了

進入知乎首頁搜索「PaperWeekly」

點擊「關注」訂閱我們的專欄吧

總結

以上是生活随笔為你收集整理的聚焦视频文本检索：一文概览视频文本检索任务最新研究进展的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇：东莞阿尔法罗密欧Giulia订车要多久？
下一篇：坦克300汽车被撞怎么断电了？