日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

图文检索论文阅读

發布時間:2024/1/1 编程问答 22 豆豆
生活随笔 收集整理的這篇文章主要介紹了 图文检索论文阅读 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

文章題目、出處:

Cross-modal Scene Graph Matching for Relationship-aware Image-Text Retrieval
WACV2020
論文地址:https://arxiv.org/pdf/1910.05134.pdf
代碼地址:https://github.com/m2man/LGSGM

目的:

將場景圖用于高級語義理解,通過構造圖像和文本場景圖,挖掘圖像文本中對象之間的相互作用。

結論:

提出了一個基于圖匹配的模型,用于復雜場景中包含各種對象的圖像-文本檢索。為了捕獲圖像和文本中的對象和關系,分別將圖像和文本表示為視覺場景圖和文本場景圖。然后設計場景圖匹配(Scene Graph Matching, SGM)模型,通過兩個圖形編碼器從圖形中提取對象級特征和關系級特征,實現圖像與文本的匹配。

背景:

一個自然場景不僅包含多個對象,而且還包含它們之間的關系,現有圖文檢索模型沒有充分挖掘關系信息。

方法:

引入視覺場景圖(VSG)和文本場景圖(TSG)分別表示圖像和文本,將傳統的圖像-文本檢索問題轉化為兩個場景圖的匹配問題。在VSG和TSG模型中設計了兩個特定的場景圖編碼器,通過聚合鄰域信息來細化圖上每個節點的表示。可以同時得到對象層和關系層的跨模態特征,有利于以更合理的方式評估圖像和文本在兩個層次上的相似性。

視覺特征嵌入:

通過視覺特征提取器將每個節點對應的圖像區域嵌入到一個特征向量中。然后通過多模態融合層融合各節點的視覺特征和單詞標簽。最后,圖由GCN編碼,其中每個節點收集信息并更新其表示,如虛線箭頭所示,生成視覺特征圖作為輸出。
Visual Scene Graph Generation:通過場景圖生成方法生成視覺場景圖。
Visual Scene Graph Encoder:通過多模態圖卷積網絡學習視覺場景圖的表示,包括一個預處理的視覺特征提取器、一個標簽嵌入層、一個多模態融合層和一個圖卷積網絡。
文本特征嵌入:

單詞嵌入層將每個單詞嵌入一個向量后,由不同邊緣連接的路徑分別用單詞級bi-GRU和路徑級bi-GRU進行編碼。
Textual Scene Graph Generation:自然語言句子也描述了許多物體及其關系,將輸入句子中的單詞組織成文本場景圖。
Textual Scene Graph Encoder:設計文本場景圖編碼器來從TSG中提取對象和關系特征,由單詞嵌入層、單詞級bi-GRU編碼器和路徑級bi-GRU編碼器組成。
損失函數:采用hardest negatives。

結果:

Dataset: MSCOCO, Flickr30K


總結

以上是生活随笔為你收集整理的图文检索论文阅读的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。