图文检索论文阅读
文章題目、出處:
Cross-modal Scene Graph Matching for Relationship-aware Image-Text Retrieval
WACV2020
論文地址:https://arxiv.org/pdf/1910.05134.pdf
代碼地址:https://github.com/m2man/LGSGM
目的:
將場景圖用于高級語義理解,通過構造圖像和文本場景圖,挖掘圖像文本中對象之間的相互作用。
結論:
提出了一個基于圖匹配的模型,用于復雜場景中包含各種對象的圖像-文本檢索。為了捕獲圖像和文本中的對象和關系,分別將圖像和文本表示為視覺場景圖和文本場景圖。然后設計場景圖匹配(Scene Graph Matching, SGM)模型,通過兩個圖形編碼器從圖形中提取對象級特征和關系級特征,實現圖像與文本的匹配。
背景:
一個自然場景不僅包含多個對象,而且還包含它們之間的關系,現有圖文檢索模型沒有充分挖掘關系信息。
方法:
引入視覺場景圖(VSG)和文本場景圖(TSG)分別表示圖像和文本,將傳統的圖像-文本檢索問題轉化為兩個場景圖的匹配問題。在VSG和TSG模型中設計了兩個特定的場景圖編碼器,通過聚合鄰域信息來細化圖上每個節點的表示。可以同時得到對象層和關系層的跨模態特征,有利于以更合理的方式評估圖像和文本在兩個層次上的相似性。
視覺特征嵌入:
通過視覺特征提取器將每個節點對應的圖像區域嵌入到一個特征向量中。然后通過多模態融合層融合各節點的視覺特征和單詞標簽。最后,圖由GCN編碼,其中每個節點收集信息并更新其表示,如虛線箭頭所示,生成視覺特征圖作為輸出。
Visual Scene Graph Generation:通過場景圖生成方法生成視覺場景圖。
Visual Scene Graph Encoder:通過多模態圖卷積網絡學習視覺場景圖的表示,包括一個預處理的視覺特征提取器、一個標簽嵌入層、一個多模態融合層和一個圖卷積網絡。
文本特征嵌入:
單詞嵌入層將每個單詞嵌入一個向量后,由不同邊緣連接的路徑分別用單詞級bi-GRU和路徑級bi-GRU進行編碼。
Textual Scene Graph Generation:自然語言句子也描述了許多物體及其關系,將輸入句子中的單詞組織成文本場景圖。
Textual Scene Graph Encoder:設計文本場景圖編碼器來從TSG中提取對象和關系特征,由單詞嵌入層、單詞級bi-GRU編碼器和路徑級bi-GRU編碼器組成。
損失函數:采用hardest negatives。
結果:
Dataset: MSCOCO, Flickr30K
總結
- 上一篇: 多通道采样键精确电力线监测
- 下一篇: ADC0809