CVPR2020论文解析:视频语义检索
CVPR2020論文解析:視頻語義檢索
Fine-grained Video-Text Retrieval with Hierarchical
Graph Reasoning
論文鏈接:https://arxiv.org/pdf/2003.00392.pdf
摘要
隨著視頻在網絡上的迅速出現,視頻與文本的跨模式檢索越來越受到人們的關注。目前解決這個問題的主要方法是學習一個聯合嵌入空間來測量跨模態相似性。然而,簡單的聯合嵌入不足以表示復雜的視覺和文本細節,如場景、對象、動作及其構圖。為了改進細粒度視頻文本檢索,提出了一種層次圖推理(HGR)模型,將視頻文本匹配分解為全局到局部的層次。具體來說,該模型將文本分解為層次語義圖,包括事件、動作、實體和跨層次關系的三個層次。利用基于注意的圖形推理生成層次化的文本嵌入,可以指導不同層次視頻表示的學習。HGR模型聚合來自不同視頻文本級別的匹配,以捕獲全局和本地詳細信息。在三個視頻文本數據集上的實驗結果證明了該模型的優越性。這種分層分解還可以更好地跨數據集進行泛化,并提高區分細粒度語義差異的能力。
Introduction
互聯網上如YouTube和TikTok等視頻的迅速出現,給視頻內容的準確檢索帶來了巨大挑戰。傳統的檢索方法[2,3,11]主要是基于關鍵字搜索,其中關鍵字預先定義并自動或手動分配給視頻。然而,由于關鍵詞是有限的和非結構化的,檢索各種不同的內容是困難的,例如,在基于關鍵詞的視頻檢索系統中,準確檢索主題為“白狗”追逐對象為“黑貓”的視頻幾乎是不可能的。為了解決基于關鍵詞的視頻檢索方法的局限性,越來越多的研究者開始關注使用自然語言文本進行視頻檢索,這種文本比關鍵詞(也稱為跨模式視頻文本檢索)包含更豐富、更結構化的細節。
在這項工作中,本文提出了一個層次圖推理(HGR)模型,它利用了上述全局和局部方法,彌補了它們的不足。如圖1所示,本文將視頻文本匹配分解為三個層次語義層,分別負責捕獲全局事件、局部動作和實體。在文本方面,全局事件由整個句子表示。動作用動詞表示,實體指名詞短語。不同的層次不是獨立的,它們之間的相互作用解釋了它們在事件中扮演的語義角色。因此,本文在文本中建立了一個跨層次的語義角色圖,并提出了一種基于注意力的圖形推理方法來捕捉這種交互。相應地,視頻被編碼為與事件、動作和實體相關的層次嵌入,以區分視頻中的不同方面。在弱監督條件下,本文通過注意機制在每個語義層對齊跨模態成分,以便于匹配。所有三個級別的匹配分數聚合在一起,以增強細粒度的語義覆蓋。
這項工作的貢獻如下:
?本文提出了一個層次圖推理(HGR)模型,將視頻文本匹配分解為全局到局部的層次。它通過詳細的語義改進了全局匹配,通過全局事件結構改進了局部匹配,從而實現了細粒度的視頻文本檢索。
?文本中的三個分離層次,如事件、動作和實體,通過基于注意力的圖形推理相互作用,并與相應的視頻層次對齊。所有級別都有助于視頻文本匹配,以實現更好的語義覆蓋。 ?HGR模型在不同的視頻文本數據集上實現了更好的性能,在不可見數據集上實現了更好的泛化能力。本文還提出了一種新的二進制選擇任務,用以證明區分細粒度語義差異的能力。
- Related Works
Image-Text Matching
以往的圖像文本匹配研究大多將圖像和句子編碼為公共潛在空間中的固定維向量進行相似性度量。Frome等人[8]提出了圖像和文字的聯合嵌入框架,并訓練了具有對比排名損失的模型。Kirosetal[21]擴展框架,將圖像和句子與CNN進行匹配,對圖像進行編碼,對句子進行RNN。Faghrietal[6]通過hard負樣本數據改進訓練策略。為了豐富全球代表性,Huang等人
[17] 利用圖像嵌入技術通過圖像字幕來預測概念和順序。[9] 在多任務框架中進一步融合圖像和標題生成。然而,僅使用固定維向量很難涵蓋復雜的語義。因此,Karpathy等人
[19] 將圖像和句子分解為多個區域和單詞,并提出使用最大對齊來計算全局匹配相似度。Lee等人
[22]通過疊加交叉注意改善對齊。吳等人
[40]將句子分解為對象、屬性、關系和句子,但是,它們不考慮不同層次之間的交互,并且分解對于關注動作和事件的視頻描述可能不是最佳的。
Video-Text Matching
雖然視頻文本匹配與圖像文本匹配具有一定的相似性,但由于視頻具有更復雜的多模性和時空演化特性,使得視頻文本匹配任務更具挑戰性。Mithunetal [27]在視頻中使用來自圖像、運動、音頻模式的多模態提示。Liu等人
[26]進一步利用可從視頻中提取的所有模式,例如用于視頻編碼的語音內容和場景文本。為了對序列視頻和文本進行編碼,Dongetal[5]利用mean pooling、biGRU和CNN三個分支對它們進行編碼。Yu等人
[43]提出了一種用于視頻和文本序列交互的聯合序列融合模型。Songet等人
[31]針對多義詞問題,對視頻和文本采用多種多樣的表示。與我們最相似的工作是Wray等人
[39],它將動作短語分為不同的詞類,如動詞和名詞,用于細粒度的動作檢索。然而,句子比動作短語更復雜。因此,本文將一個句子分解為一個層次語義圖,并在不同層次上整合視頻文本匹配。
Graph-based Reasoning
圖卷積網絡(GCN)[20]是為圖數據識別而提出的。對于每個節點,它在其鄰域上使用卷積作為輸出。圖注意網絡[33]被進一步引入到動態地關注鄰域的特征,以便用不同的邊緣類型來建模圖,關系GCN在[29]中被提出,它為每種關系類型學習特定的上下文轉換?;趫D的推理在動作識別[32,36]、場景圖生成[42]、引用表達式接地[23,35]、視覺問答[16,24]等計算機視覺任務中有著廣泛的應用,其中大多數[16,23,24,35,42]在圖像區域上應用圖推理來學習它們之間的關系。在這項工作中,我們著重于對視頻描述的層次圖結構進行推理,以實現細粒度視頻文本匹配。
- Hierarchical Graph Reasoning Mode
圖2顯示了擬議的HGR模型的概述,該模型由三個模塊組成:
1)
分層文本編碼(第3.1節),從文本中構造語義角色圖,并應用圖形推理獲得分層文本表示;
2)
分層視頻編碼(第3.2節)將視頻映射到相應的多級表示;
3)視頻文本匹配(第3.3節),該視頻文本匹配在不同的級別上聚合全局和局部匹配,以計算整體的跨模態相似性。
3.1. Hierarchical Textual Encoding
視頻描述自然包含層次結構。整個句子描述了視頻中的全局事件,視頻中的全局事件由多個操作組成,每個操作由不同的實體組成,作為其參數,如操作的主體和病人。這種全局到局部的結構有利于準確、全面地理解視頻描述的語義。因此,在本節中,我們將介紹如何從全局到局部拓撲中的視頻描述獲取分層文本表示。
Semantic Role Graph Structure
給出了一個由N個詞{c1,···,cN}組成的視頻描述C,我們認為C是層次圖中的全局事件節點。這樣的語義角色關系對于理解事件結構很重要,例如,“狗追貓”與“貓追狗”明顯不同,后者只改變了兩個實體的語義角色。在圖2的左側,我們給出了一個構造圖的示例。
Initial Graph Node Representation
我們將每個節點的語義嵌入到一個密集向量中作為初始化。對于全局事件節點,我們旨在總結句子中描述的顯著事件。因此,我們首先利用雙向LSTM(bilstm)[13]生成一系列上下文感知單詞嵌入{w1,····,wN},如下所示:
其中,Wc是字嵌入矩陣,在兩個LSTMs中是參數。然后,我們通過關注機制對單詞嵌入進行平均,該機制將句子中的重要單詞作為全局事件嵌入ge:
Attention-based Graph Reasoning
在構造的圖中,不同層次的連接不僅解釋了局部節點如何構成全局事件,而且能夠減少每個節點的模糊性。例如,圖2中的實體“egg”可以在沒有上下文的情況下有不同的外觀,但是動作“break”的上下文限制了它的語義,因此它應該與“break egg”的視覺外觀具有高度的相似性,而不是“round egg”。因此,我們建議對圖中的交互進行推理,以獲得層次化的文本表示。
3.2.Hierarchical Video Encoding
視頻還包含多個方面,如對象、動作和事件。然而,直接將視頻分解成層次結構是一個挑戰,因為文本需要時間分割、目標檢測、跟蹤等。因此,我們構建了三個獨立的視頻嵌入來關注視頻中不同層次的方面。給定視頻V作為幀序列{f1,····,fM},我們利用不同的變換權重
將視頻編碼成三個層次的嵌入:
作為全局事件層次,我們使用類似于等式(4)的注意機制來獲得一個全局向量,將視頻中的顯著事件表示為ve。對于動作和實體級,視頻表示分別是幀級特征va={va,1,···,va,M}和vo={vo,1,····,vo,M}的序列。這些特征將被發送到下面的匹配模塊,與它們在不同層次上對應的文本特征進行匹配,從而保證通過端到端的學習方式來學習不同的變換權重以聚焦不同層次的視頻信息。
3.3
Video-Text Matching
為了同時覆蓋局部語義和全局語義以匹配視頻和文本,我們從三個層次對結果進行了聚合,以獲得整體的跨模態相似度。全局匹配。在全局事件級,視頻和文本被編碼成全局向量,通過注意機制捕獲顯著的事件語義。因此,我們簡單地利用余弦相似度
來度量全局視頻和文本內容的跨模態相似度。全局匹配得分為se=cos(ve,ce)。本地注意力匹配。在操作和實體級別,視頻和文本中有多個本地組件。因此,需要學習跨模態局部構件之間的對齊來計算整體匹配得分。
局部注意匹配不需要任何局部文本視頻接地,可以從弱監督的全局視頻文本對中學習。訓練和推理。我們將各級跨模態相似度的平均值作為最終視頻文本相似度:
表1將提出的HGR模型與MSR-VTT測試集上的SOTA方法進行了比較。為了公平比較,所有的模型都使用相同的視頻特性。在MSR-VTT數據集上,我們的模型在不同的評估指標上實現了最佳性能。
- Experiments
表2顯示了Youtube2Text數據集的檢索結果。VSE++[6]提出的hard負性訓練策略使模型能夠更有效地學習視覺語義匹配,提高了模型對未知數據的泛化能力。
為了證明我們的方法對不同數據集和特性的健壯性,我們在表3中進一步提供了TGIF和VATEX數據集的定量結果。這些模型在TGIF數據集上使用Resnet152圖像特征,在VATEX數據集上使用I3D視頻特征。
為了研究我們提出的模型中不同成分的貢獻,我們對表4中的MSR-VTT數據集進行了消融研究。表4中的第1行取代了圖推理中的圖注意機制,簡單地利用了鄰域節點上的平均池,在R@10度量上的檢索性能分別比第4行的完整模型在文本到視頻和視頻到文本檢索上降低了0.9和1.7。
在圖3中,我們展示了一個學習的模式,在不同層次的圖推理中,動作節點如何與鄰居節點交互,這與語義角色密切相關。
由于我們的視頻文本相似性是從不同的級別聚合的,在表5中,我們對視頻文本檢索的每個級別的性能進行了分解。我們可以看到,全局事件級別單獨在rsum度量上表現最好,因為局部級別本身可能不包含整個事件結構。
表6顯示了不同二進制選擇任務的結果。在角色轉換任務中,我們的模型優于VSE++模型,絕對值為4.87%,但略低于雙編碼模型。
大多數成功的跨模式視頻文本檢索系統都是基于聯合嵌入的方法。然而,簡單的嵌入不足以捕獲復雜視頻和文本中的細粒度語義。因此,本文提出了一個層次圖推理(HGR)模型,將視頻和文本分解為事件、動作和實體等層次語義層。然后通過基于注意力的圖形推理生成層次化的文本嵌入,并將文本與不同層次的視頻對齊。總體的跨模態匹配是通過聚合來自不同層次的匹配來生成的。在三個視頻文本數據集上的實驗結果證明了該模型的優越性。提出的HGR模型在不可見數據集上也能獲得更好的泛化性能,并且能夠區分細粒度的語義差異。
在圖5中,我們還提供了視頻到文本檢索的定性結果,這證明了我們的HGR模型在雙向跨模式檢索中的有效性。
- Conclusion
大多數成功的跨模式視頻文本檢索系統都是基于聯合嵌入的方法。然而,簡單的嵌入不足以捕獲復雜視頻和文本中的細粒度語義。因此,本文提出了一個層次圖推理(HGR)模型,將視頻和文本分解為事件、動作和實體等層次語義層。然后通過基于注意力的圖形推理生成層次化的文本嵌入,并將文本與不同層次的視頻對齊??傮w的跨模態匹配是通過聚合來自不同層次的匹配來生成的。在三個視頻文本數據集上的實驗結果證明了該模型的優越性。提出的HGR模型在不可見數據集上也能獲得更好的泛化性能,并且能夠區分細粒度的語義差異。
總結
以上是生活随笔為你收集整理的CVPR2020论文解析:视频语义检索的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 视觉SLAM技术应用
- 下一篇: CVPR2020论文解读:手绘草图卷积网