日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

歡迎訪問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) >

聚焦视频文本检索:一文概览视频文本检索任务最新研究进展

發(fā)布時(shí)間:2024/10/8 47 豆豆
生活随笔 收集整理的這篇文章主要介紹了 聚焦视频文本检索:一文概览视频文本检索任务最新研究进展 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

?PaperWeekly 原創(chuàng) · 作者 | 小馬

單位 | FightingCV公眾號(hào)運(yùn)營(yíng)者

研究方向 | 計(jì)算機(jī)視覺(jué)

寫在前面

近幾年,隨著抖音、快手等短視頻平臺(tái),以及嗶哩嗶哩、優(yōu)酷等視頻平臺(tái)的出現(xiàn),網(wǎng)絡(luò)中出現(xiàn)了大量的視頻媒體。海量視頻媒體給視頻內(nèi)容的準(zhǔn)確檢索帶來(lái)了巨大挑戰(zhàn)。在本文中,我們將介紹一些近幾年視頻文本檢索的文章,讓大家了解視頻文本檢索的最近工作進(jìn)展。

工作介紹

2.1?MMT——ECCV 2020

2.1.1. 論文信息

論文標(biāo)題:

Multi-modal Transformer for Video Retrieval

論文地址:

https://arxiv.org/abs/2007.10639

代碼地址:

https://github.com/gabeur/mmt

2.1.2. 論文動(dòng)機(jī)

進(jìn)行視頻文本檢索的關(guān)鍵是學(xué)習(xí)精確的視頻-文本表示,并建立相似度估計(jì)。目前的方法主要存在兩個(gè)方面的缺陷:1)沒(méi)有充分利用好視頻中動(dòng)作、音頻、語(yǔ)音等各個(gè)模態(tài),從上圖中可以看出,從所有組成模態(tài)中聯(lián)合提取的線索比單獨(dú)處理每個(gè)模態(tài)更具信息性;2)沒(méi)有充分考慮視頻的時(shí)間性,由于數(shù)據(jù)集中的視頻時(shí)長(zhǎng)不一樣,目前的方法通常是通過(guò)聚合視頻中不同時(shí)刻提取的描述,從而丟棄長(zhǎng)期時(shí)間信息。

在本文中,作者提出了一個(gè)多模態(tài) Transformer(MMT)來(lái)解決上面的挑戰(zhàn),首先提取不同時(shí)刻和不同模態(tài)的特征,將他們聚集在一個(gè)緊湊的表示中,并用 Transformer 進(jìn)行不同時(shí)間和模態(tài)信息的交互,最終基于聚合特征來(lái)評(píng)估視覺(jué)和文本之間的相似性。

2.1.3. 論文方

本文的結(jié)構(gòu)如上圖所示,本文的特征提取用的是預(yù)訓(xùn)練的 BERT,視頻的特征用的是不同的預(yù)訓(xùn)練好的“專家”模型來(lái)提取不同模態(tài)的特征,每個(gè)模態(tài)采用 max-pooling獲得一個(gè)聚合特征,然后將提取的特征和專家 embedding、時(shí)間 embedding 相加能到最終的視頻特征(如下圖所示)。

作者用一個(gè)多模態(tài) Transformer(MMT)來(lái)建模這些特征的不同模態(tài)和時(shí)間的關(guān)系,最終獲得具有代表性的聚合特征,然后用不同聚合特征和文本特征求相似度,并對(duì)其進(jìn)行加權(quán)求和,得到最終的視頻本文相似度。

2.2 T2VLAD——CVPR 2021

2.2.1. 論文信息

論文標(biāo)題:

T2VLAD: Global-Local Sequence Alignment for Text-Video Retrieval

論文地址:

https://arxiv.org/abs/2104.10054

代碼地址:

未開(kāi)源

2.2.2. 論文動(dòng)機(jī)

目前進(jìn)行多模態(tài)匹配的方式有兩種,一種是全局的粗粒度匹配,這種方式簡(jiǎn)單,但是忽略了細(xì)粒度的語(yǔ)義對(duì)齊;另一種是細(xì)粒度的語(yǔ)義對(duì)齊,目前通常是設(shè)置三個(gè)語(yǔ)義級(jí)別(事件、動(dòng)作和實(shí)體),然后進(jìn)行成對(duì)匹配,但是這種方法需要比較高的計(jì)算成本。

在本文中,作者提出了一個(gè)局部-全局的序列對(duì)齊方法。從局部角度,作者并沒(méi)有進(jìn)行一對(duì)一的成對(duì)匹配,而是設(shè)置了共享主題,這些主題在圖像和文本中共享,然后最小化相同主題的圖像和文本特征之間的距離,實(shí)現(xiàn)局部的對(duì)齊。從全局角度,只需要將全局的視頻和文本特征進(jìn)行相似度比較,作為局部對(duì)齊的一種補(bǔ)充度量和額外監(jiān)督。

2.2.3. 論文方法

與上一篇文章一樣,用預(yù)訓(xùn)練的 BERT 提取文本特征,用不同預(yù)訓(xùn)練的“專家”模型提取視頻中不同模態(tài)的特征,不同模態(tài)的特征進(jìn)一步用 Self-Attention 進(jìn)行加強(qiáng)。

對(duì)于局部對(duì)齊,作者首先設(shè)置了 K+1 個(gè)共享聚類中心 c(由于視頻和文本共享相同的聚類中心,因此有利于將視頻和文本在相同的語(yǔ)義空間中進(jìn)行對(duì)齊),然后根據(jù)計(jì)算每個(gè)聚類中心和每個(gè)特征之間的相似性,進(jìn)行并更新特征,視頻更新方式如下所示(文本特征更新方式類似):

然后利用余弦相似度來(lái)度量視頻和文本特征之間的局部相似性。

對(duì)于全局對(duì)齊,在不同專家的時(shí)間維度上進(jìn)行 max-pooling,得到全局視頻聚合特征;用對(duì)齊后文本的 concat 結(jié)果來(lái)生成 N 個(gè)全局文本聚合特征,最后計(jì)算文本和視頻的全局特征的相似度。

2.3. CLIP4Clip——arXiv 2021

2.3.1. 論文信息

論文標(biāo)題:

CLIP4Clip: An Empirical Study of CLIP for End to End Video Clip Retrieval

論文地址:

https://arxiv.org/abs/2104.08860

代碼地址:

https://github.com/ArrowLuo/CLIP4Clip

2.3.2. 論文動(dòng)機(jī)

隨著 CLIP 的爆火,作者在本文中希望將 CLIP 中圖片文本預(yù)訓(xùn)練獲得的知識(shí)轉(zhuǎn)移到視頻文本檢索任務(wù)中,因此作者提出了 CLIP4Clip 模型,并設(shè)計(jì)了三種相似度計(jì)算方式進(jìn)行相似度的計(jì)算。

2.3.3. 論文方法

上圖展示了本文的模型框架,作者將視頻看做一系列圖片的集合。對(duì)于視頻編碼,作者采用了 CLIP 中預(yù)訓(xùn)練的 ViT,Patch Embedding 的時(shí)候采用了以下兩種方式(2D:不考慮時(shí)間的信息,對(duì)每一張圖像分別 embedding;3D:考慮時(shí)間信息,相鄰的幀一起 embedding):

對(duì)于文本編碼,作者采用了 CLIP 中預(yù)訓(xùn)練的 Transformer 進(jìn)行文本表示。

這樣,我們就獲得了帶時(shí)間序列信息的視頻表示和文本表示,然后作者采用了三種方式進(jìn)行了視頻和文本的相似度計(jì)算,如上圖所示,總的來(lái)說(shuō)前兩種的方法的性能要由于第三種方法,可能是因?yàn)榈谌N方法引入了太多隨機(jī)初始化的參數(shù),從而破壞了原來(lái) CLIP 已經(jīng)學(xué)好的信息。

2.4. CLIP2Video——arXiv 2021

2.4.1. 論文信息

論文標(biāo)題:

CLIP2Video: Mastering Video-Text Retrieval via Image CLIP

論文地址:

https://arxiv.org/abs/2106.11097

代碼地址:

https://github.com/CryhanFang/CLIP2Video

2.4.2. 論文動(dòng)機(jī)

目前的視頻文本檢索主要在解決兩個(gè)問(wèn)題,分別為是視頻域中的視覺(jué)特征表示視頻和語(yǔ)言之間的多模態(tài)交互。為了解決這兩個(gè)問(wèn)題,作者將視頻看做是一系列順序幀的表示,然后將視頻和語(yǔ)言理解的問(wèn)題轉(zhuǎn)換成了兩個(gè)獨(dú)立的問(wèn)題:圖像文本訓(xùn)練的空間表示視頻幀與視頻語(yǔ)言的時(shí)間關(guān)系

對(duì)于多模態(tài)圖像文本表示,作者選用了 CLIP 模型;然后作者提出了兩個(gè)模塊來(lái)進(jìn)行視頻幀和視頻語(yǔ)言關(guān)系的時(shí)間建模,即時(shí)間差分塊(Temporal Difference Block,TDB)和時(shí)間對(duì)齊塊(Temporal Alignment Block,TAB)。TDB 能夠用視頻幀的差分來(lái)模擬運(yùn)動(dòng)變化,TAB 能夠?qū)⒁曨l序列和文本序列對(duì)齊到相同的空間中。

2.4.3. 論文方法

對(duì)于視頻和文本的編碼,作者采用了 CLIP 中預(yù)訓(xùn)練的 Transformer 編碼器來(lái)進(jìn)行信息的編碼。然后作者將相鄰的幀進(jìn)行相減,得到差分的特征,并將其輸入到時(shí)間 Transformer 中進(jìn)行時(shí)間交互,獲得最終的差分特征

然后作者將這些視覺(jué)幀特征和差分幀特征進(jìn)行 concat,輸入到 TAB 中和文本特征進(jìn)行對(duì)齊,這部分的操作和《T2VLAD: Global-Local Sequence Alignment for Text-Video Retrieval》中的對(duì)齊操作相似,都是將視頻和文本特征對(duì)齊到共享的聚類中心。最后基于局部對(duì)齊的特征和全局的特征進(jìn)行相似度計(jì)算,得到最終文本和視頻的相似度。

2.5?CAMoE——arXiv 2021

2.5.1. 論文信息

論文標(biāo)題:

Improving Video-Text Retrieval by Multi-Stream Corpus Alignment and Dual Softmax Loss

論文地址:

https://arxiv.org/abs/2109.04290

代碼地址

https://github.com/starmemda/CAMoE

2.5.2. 論文動(dòng)機(jī)

原始的檢索中用到的單向 softmax 方法,忽略了視頻和文本之間的潛在信息交互,因此作者提出了 Dual Softmax 來(lái)進(jìn)行優(yōu)化,方法簡(jiǎn)單,漲點(diǎn)明顯。

2.5.3. 論文方法

上圖展示了本文的 overview,視頻(幀)和文本的特征分別通過(guò) CLIP 中預(yù)訓(xùn)練的 ViT 和 BERT 進(jìn)行提取,注意,這里作者將視頻和文本的特征分成了三個(gè)部分,三個(gè)部分分別計(jì)算相似度。

個(gè)人認(rèn)為,本文的重點(diǎn)應(yīng)該是在損失函數(shù)的部分,以往的損失函數(shù)如下所示:

就是按列取 softmax,再按行取 softmax,最后將對(duì)角線上的概率求和。

而本文不是這么做的,它的計(jì)算方式如下所示(也可以參考上圖中紅線所示):

它在計(jì)算“行”方向的概率之前,先進(jìn)行“列”方向的 Softmax,然后將結(jié)果乘到原來(lái)的結(jié)果上,最后再這個(gè)乘積的結(jié)果上進(jìn)行“行”方向的 Softmax,這樣一來(lái)在進(jìn)行 Softmax 的時(shí)候,就同時(shí)考慮了是圖像對(duì)文本的相似度和文本對(duì)圖像的相似度。反之亦然。從實(shí)驗(yàn)結(jié)果上看,這一操作簡(jiǎn)單,但是漲點(diǎn)明顯。

2.6. VALUE——NeurIPS 2021

2.6.1. 論文信息

論文標(biāo)題:

VALUE: A Multi-Task Benchmark for Video-and-Language Understanding Evaluation

論文地址:

https://arxiv.org/abs/2106.04632

代碼地址:

https://github.com/VALUE-Leaderboard/StarterCode

2.6.2. 論文動(dòng)機(jī)

目前視頻和語(yǔ)言的理解任務(wù)大多是在不同的數(shù)據(jù)集上進(jìn)行評(píng)估的,很難衡量一個(gè)視頻語(yǔ)言模型的綜合性能。為此,作者提出了一個(gè) VALUE 基準(zhǔn),這個(gè)基準(zhǔn)包括了 11 個(gè)視頻語(yǔ)言數(shù)據(jù)集,涵蓋不同的視頻類型、視頻長(zhǎng)度和數(shù)據(jù)量。

2.6.3. 論文方法

本文的主要貢獻(xiàn)就是提出了一個(gè) benchmark,上表展示了本文提出的 VALUE 基準(zhǔn)的數(shù)據(jù)來(lái)源和任務(wù)類型。

2.7. HERO——EMNLP 2020

2.7.1. 論文信息

論文標(biāo)題:

HERO: Hierarchical Encoder for Video+Language Omni-representation Pre-training

論文地址:

https://arxiv.org/abs/2005.00200

代碼地址:

https://github.com/linjieli222/HERO

2.7.2. 論文動(dòng)機(jī)

目前的視頻預(yù)訓(xùn)練模型大多數(shù)直接借鑒BERT的思想,將文本和視頻幀的 concat 結(jié)果作為輸入,失去了時(shí)間上的對(duì)齊,沒(méi)有考慮視頻幀的順序信息,并且與目前的數(shù)據(jù)集達(dá)到是烹飪或者教學(xué)視頻,不包括動(dòng)態(tài)場(chǎng)景和復(fù)雜社會(huì)互動(dòng)的視頻。

在本文中,作者沒(méi)有采用 BERT 形式的編碼器,而是以一種分層的形式對(duì)多模態(tài)信息進(jìn)行編碼:首先用跨模態(tài) Transformer 來(lái)融合字幕句子及其相應(yīng)的局部視頻幀;然后時(shí)間 Transformer 使用所有周圍的幀作為全局上下文,來(lái)獲取每個(gè)視頻幀的順序上下文嵌入。然后作者基于四個(gè)預(yù)訓(xùn)練任務(wù),對(duì)模型進(jìn)了預(yù)訓(xùn)練。

2.7.3. 論文方法

本文的框架如上圖所示,首先用跨模態(tài) Transformer 來(lái)對(duì)每個(gè)視頻幀和對(duì)應(yīng)的字幕進(jìn)行編碼,然后再用時(shí)間 Transformer,對(duì)視頻幀之間的時(shí)間信息進(jìn)行建模。最后基于Masked Language Modeling、Masked Frame Modeling、Video-Subtitle Matching 和 Frame Order Modeling 四個(gè)預(yù)訓(xùn)練任務(wù)進(jìn)行訓(xùn)練,以獲得視頻和文本表示。

2.8. HiT——ICCV 2021

2.8.1. 論文信息

論文標(biāo)題:

HiT: Hierarchical Transformer with Momentum Contrast for Video-Text Retrieval

論文地址:

https://arxiv.org/abs/2103.15049

代碼地址:

未開(kāi)源

2.8.2. 論文動(dòng)機(jī)

目前的跨模態(tài) Transformer 存在兩個(gè)方面的局限性:第一,Transformer 中不同層的特征沒(méi)有得到充分的挖掘;第二,端到端的訓(xùn)練機(jī)制限制了負(fù)樣本的數(shù)量,從而影響了最終的性能。因此,在本文中,作者用了對(duì)比學(xué)習(xí)的思想,將底層和高層的視覺(jué)-文本特征進(jìn)行對(duì)比,為了獲得更多的對(duì)比樣本,作者也創(chuàng)建了四個(gè)內(nèi)存庫(kù),分別存儲(chǔ)用于 key 和 query 的文本,視頻負(fù)樣本列表。

2.8.3. 論文方法

本文的模型結(jié)構(gòu)如上圖所示,對(duì)于視頻,作者用不同預(yù)訓(xùn)練的“專家”提取特征后將其送入到 Query Video Encoder 中,對(duì)于文本,作者用預(yù)訓(xùn)練的 BERT 提取特征后將其送入到 Query Text Encoder。Key Video Encoder 和 Key Text Encoder 都采用動(dòng)量的方式更新,以保持特征的穩(wěn)定。然后作者對(duì)比了 Key 和 Query 中視頻-文本相似度,為了獲得更多的負(fù)樣本,作者維護(hù)了四個(gè)內(nèi)存庫(kù),分別用于維護(hù) key 和 query 的文本,視頻負(fù)樣本列表。

2.9. TACo——ICCV 2021

2.9.1. 論文信息

論文標(biāo)題:

TACo: Token-aware Cascade Contrastive Learning for Video-Text Alignment

論文地址:

https://arxiv.org/abs/2108.09980

代碼地址:

未開(kāi)源

2.9.2. 論文動(dòng)機(jī)

在這篇文章中,作者提出了 token 感知級(jí)聯(lián)對(duì)比學(xué)習(xí)用于視頻文本檢索,顧名思義,這篇文章的意思就是貢獻(xiàn)點(diǎn)主要是兩個(gè):“token 感知”和“級(jí)聯(lián)采樣”。以前的對(duì)比方法通常是基于句子-視頻級(jí)別的對(duì)比,這樣的對(duì)比太粗粒度了,因此作者就將提出了 token 級(jí)別的感知,進(jìn)行細(xì)粒度的對(duì)比;第二點(diǎn)是多模態(tài)融合層如果對(duì)所有的負(fù)樣本進(jìn)行融合會(huì)導(dǎo)致計(jì)算效率低下的問(wèn)題,因此作者提出了一種方法,能夠在不增加額外計(jì)算量的情況下,采樣負(fù)樣本。

2.9.3. 實(shí)現(xiàn)方法

如上圖所示,本文的方法有三個(gè)損失函數(shù):L1 是句子級(jí)別的對(duì)比損失,L2 是 token 級(jí)別的對(duì)比損失,L3 是融合之后的對(duì)比損失。對(duì)于 token 級(jí)別的損失函數(shù),作者采用了名詞和動(dòng)態(tài)和所有幀進(jìn)行對(duì)比,因?yàn)樽髡咄ㄟ^(guò)實(shí)驗(yàn)發(fā)現(xiàn),這樣的效果最好。另外,如果對(duì)所有負(fù)樣本在多模態(tài)融合層進(jìn)行融合的話,就會(huì)導(dǎo)致太大的計(jì)算量。因此,作者提出了使用 L1 和 L2 中計(jì)算的相似度來(lái)進(jìn)行負(fù)樣本的級(jí)聯(lián)采樣。

總結(jié)

目前,關(guān)于視頻方面的研究正在非常火熱的進(jìn)行著,也取得了一定的成功。然而相較于圖片數(shù)據(jù),視頻數(shù)據(jù)的標(biāo)注更加困難和昂貴,傳統(tǒng)的基于下游數(shù)據(jù)集進(jìn)行訓(xùn)練的模型局限性很大。

也正因此,目前有一些研究者將 CLIP 這個(gè)圖文預(yù)訓(xùn)練模型遷移到視頻-文本檢索任務(wù)中,并且也取得了非常好的實(shí)驗(yàn)結(jié)果(秒殺之前的方法)。因此,在將來(lái)的研究,如何將預(yù)訓(xùn)練的知識(shí)遷移到視頻任務(wù)中,或者如何基于未標(biāo)注的視頻數(shù)據(jù)進(jìn)行訓(xùn)練,將會(huì)是一個(gè)非常有意義同時(shí)也非常具有挑戰(zhàn)性的方向!

特別鳴謝

感謝 TCCI 天橋腦科學(xué)研究院對(duì)于 PaperWeekly 的支持。TCCI 關(guān)注大腦探知、大腦功能和大腦健康。

更多閱讀

#投 稿?通 道#

?讓你的文字被更多人看到?

如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達(dá)讀者群體,縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢?答案就是:你不認(rèn)識(shí)的人。

總有一些你不認(rèn)識(shí)的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學(xué)者和學(xué)術(shù)靈感相互碰撞,迸發(fā)出更多的可能性。?

PaperWeekly 鼓勵(lì)高校實(shí)驗(yàn)室或個(gè)人,在我們的平臺(tái)上分享各類優(yōu)質(zhì)內(nèi)容,可以是最新論文解讀,也可以是學(xué)術(shù)熱點(diǎn)剖析科研心得競(jìng)賽經(jīng)驗(yàn)講解等。我們的目的只有一個(gè),讓知識(shí)真正流動(dòng)起來(lái)。

📝?稿件基本要求:

? 文章確系個(gè)人原創(chuàng)作品,未曾在公開(kāi)渠道發(fā)表,如為其他平臺(tái)已發(fā)表或待發(fā)表的文章,請(qǐng)明確標(biāo)注?

? 稿件建議以?markdown?格式撰寫,文中配圖以附件形式發(fā)送,要求圖片清晰,無(wú)版權(quán)問(wèn)題

? PaperWeekly 尊重原作者署名權(quán),并將為每篇被采納的原創(chuàng)首發(fā)稿件,提供業(yè)內(nèi)具有競(jìng)爭(zhēng)力稿酬,具體依據(jù)文章閱讀量和文章質(zhì)量階梯制結(jié)算

📬?投稿通道:

? 投稿郵箱:hr@paperweekly.site?

? 來(lái)稿請(qǐng)備注即時(shí)聯(lián)系方式(微信),以便我們?cè)诟寮x用的第一時(shí)間聯(lián)系作者

? 您也可以直接添加小編微信(pwbot02)快速投稿,備注:姓名-投稿

△長(zhǎng)按添加PaperWeekly小編

🔍

現(xiàn)在,在「知乎」也能找到我們了

進(jìn)入知乎首頁(yè)搜索「PaperWeekly」

點(diǎn)擊「關(guān)注」訂閱我們的專欄吧

·

總結(jié)

以上是生活随笔為你收集整理的聚焦视频文本检索:一文概览视频文本检索任务最新研究进展的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。