日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

论文笔记:Multi-level Alignment Network for Domain Adaptive Cross-modal Retrieval

發布時間:2023/12/8 编程问答 34 豆豆
生活随笔 收集整理的這篇文章主要介紹了 论文笔记:Multi-level Alignment Network for Domain Adaptive Cross-modal Retrieval 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

域自適應跨模態檢索的多級對齊網絡

  • 摘要
  • 介紹
  • 材料與方法
    • 域自適應跨模態檢索
    • 網絡體系結構
    • 多級對齊
      • 語義對齊
      • 跨域對齊
      • 跨模態對齊
      • 聯合訓練與推理
  • 結論

摘要

跨模態檢索是多媒體領域中一項重要而富有挑戰性的研究課題。這項任務的大多數現有工作都是有監督的,通常在大量對齊的圖像-文本/視頻-文本對上訓練模型,假設訓練和測試數據來自同一分布。如果這一假設不成立,傳統的跨模態檢索方法在評估時可能會遇到性能下降。在本文中,我們介紹了一個新的任務稱為域自適應跨模式檢索,其中訓練(源)數據和測試(目標)數據來自不同的域。這項任務具有挑戰性,因為視覺和文本項目之間不僅存在語義差距和情態差距,而且源域和目標域之間也存在領域差距。因此,我們提出了一種多級對齊網絡(MAN),該網絡具有兩個映射模塊,分別在公共空間中投影視覺和文本模式,并使用三個對齊來學習空間中更具辨別力的特征。語義對齊用于縮小語義鴻溝,跨模態對齊和跨域對齊用于緩解模態鴻溝和域鴻溝。在域自適應圖像文本檢索和視頻文本檢索環境下的大量實驗表明,我們提出的模型MAN始終優于多基線,顯示了對目標數據的優異泛化能力。此外,MAN在TRECVID 2017、2018特設視頻搜索基準上為大規模文本到視頻檢索建立了新的技術水平

介紹

跨模式檢索的關鍵是學習一個公共空間,在這個公共空間中可以直接計算不同模式之間的相似度。

在實際應用場景中,如果我們想要為特定的新域(目標域)構建跨模式檢索,一種簡單的方法是收集大量標記的訓練數據,另一種解決方案不是收集新的數據集,而是利用現成的標記跨模式數據。

來自不同數據集的兩張時裝圖片顯示出明顯的差異。在這種情況下,大多數現有的跨模式檢索模型可能會經歷顯著的性能下降,因為它們假設訓練和測試數據來自同一分布。
因此,如何使用現成的標記數據集為新的目標領域建立跨模式檢索模型仍然是一個懸而未決的問題。我們引入了一個稱為域自適應跨模態檢索的任務,其中給定多個與未標記目標數據集具有不同數據分布的標記源數據集,它要求建立一個適用于目標域的跨模式檢索模型。

在給定多個與未標記目標數據集具有不同數據分布的標記源數據集的情況下,它要求建立一個適用于目標域的跨模式檢索模型。

針對視覺和文本模式,本文提出了一種用于域自適應跨模式檢索任務的多級對齊網絡(MAN)。MAN首先分別通過視覺編碼和文本編碼將視覺和文本模態映射到公共空間,并采用三種對齊方式來緩解映射公共空間中的上述差距:用于縮小語義差距的語義對齊,用于緩解模態差距的跨模態對齊,并且采用跨疇對齊來減小疇隙。具體來說,對于語義對齊,我們使用三元組排序損失[25]在公共空間中使語義相關數據接近,而語義無關數據遠離。對于域間隙,我們使用多個鑒別器來區分來自不同域的特征,而映射編碼器通過對抗性學習將其混淆,從而推動源數據的分布與目標數據很好地對齊。對于模態差異,模擬使用對抗性學習來調整不同模態的數據分布。

材料與方法

在本節中,我們首先正式定義了域自適應跨模式檢索問題,然后介紹了我們提出的MAN的模型結構和模型訓練描述。為了便于參考,表1列出了本工作中使用的主要縮寫。

域自適應跨模態檢索

先得到一個 標注的待標簽的數據集,然后有一個未標記的目標數據集,目標數據集的視頻和文本可能是不成對的,基于上述源數據集和目標數據集,域自適應跨模態檢索要求學習一種跨模態檢索模型,該模型可以在目標域的上下文中通過文本查詢搜索相關圖像/視頻,或通過圖像/視頻查詢搜索相關句子。

網絡體系結構

該網絡由三個組件組成:用于提取視覺項目特征的視覺編碼器,用于提取句子特征的文本編碼器,以及公共空間學習模塊,用于對齊所學習的公共空間中的跨模態和跨域表示。

對于圖像文本檢索,給定一幅圖像,我們采用在ImageNet上預訓練的CNN模型,并利用其最后一個池層的輸出作為圖像編碼特征;給定一個句子,我們采用雙向LSTM,并進一步使用最大池層來聚合所有時間步的隱藏狀態,輸出被視為句子編碼特征。由于圖像和句子具有不同的形式,它們的編碼特征無法直接比較。因此,在編碼特征上進一步采用完全連接的層,以將其投影到公共空間中,其中圖像-文本相似度可以通過標準距離度量直接計算,例如。余弦距離。為了便于參考,我們將特征提取和投影過程合并到一個空間。請注意,對于目標數據和源數據,我們共享映射模塊以將它們映射到公共空間。這樣的設計期望將在源領域學到的知識轉移到目標領域。

對于視頻文本檢索,我們使用一種多級視頻編碼和一種源自[13]的多級句子編碼,分別將視頻和文本編碼并投影到公共空間中。

多級對齊

對于領域自適應跨模態檢索,除了跨模態檢索中視覺和文本項之間眾所周知的語義鴻溝和模態鴻溝外,不同數據集之間還存在領域鴻溝,這使得該問題更具挑戰性。在本文中,我們提出了一種多層次對齊方法來增加映射的視覺和文本特征的通用性,它包括一種減少語義差距的語義對齊方法和一種減少模態差距的跨模態對齊方法,以及一種減少域差距的跨域對齊方法。(減少三種差距 )

語義對齊

公共空間中映射特征的基本要求是語義區分性,這使得檢索模型能夠找到與給定查詢語義相關的項。為此,流行的方法是使用三元組排序損失,我們在源數據集上使用這種損失。

跨域對齊

由于上述語義對齊只考慮源數據集而忽略目標數據集,因此僅使用語義對齊學習的特征可能無法很好地用于目標域。為了緩解這種情況,我們還引入了一種跨域對齊,旨在使學習到的特征域保持不變。跨域對齊的目標是學習源域和目標域之間不可區分的表示,從而使在標記的源域上學習的模型能夠很好地適用于目標域。

我們還使用它來對齊源域和目標域之間的特征。GAN模型通常由一個發生器和一個鑒別器組成,通常通過一個兩人對抗性游戲訓練,我們使用GAN來代表作為生成源和目標數據特征表示的生成器,此外,我們還引入了域鑒別器,用于預測輸入特征是來自源域還是目標域。

損失函數就是兩個gan的集合,我們希望來自不同領域的映射特征盡可能對齊,以便領域分類器無法區分它們。 也就是用gan來生成假的,讓鑒別器鑒別不出來真假的意思。

看這個gan的教學

只需要讓判別的結果D(G(z))接近于1就可以了

實際上最大化D是困難的,因此我們在鑒別器之前插入一個梯度反轉層,以反轉D的梯度。因此,只需最小化D即可。

跨模態對齊

不同模態的特征通常具有不一致的分布和表示。以前的方法通常通過對相應視頻和文本對的一致性建模,將來自不同模式的數據投影到公共空間中,而不考慮不同模式之間的分布一致性。此外,盡管三重態排序損失在一定程度上減少了跨模態間隙,但它僅適用于標記的源域。因此,目標域的跨模態間隙仍然存在。因此,與跨域對齊類似,我們還引入了跨模態對齊來學習模態變體特征。具體來說,我們介紹了兩種模態鑒別器,一種用于源域,另一種用于目標域。交叉熵損失也被用來訓練模態鑒別器。

跟上面的一樣,

聯合訓練與推理

損失是三個相加。
對于訓練好的參數,我們使用余弦相似性來度量他的相似度,

對于檢索,給定一個查詢,我們根據與給定查詢的余弦相似性按降序對所有候選圖像進行排序。

結論

在本文中,我們介紹了一種新的任務域自適應跨模態檢索,其中訓練數據和測試數據具有不同的分布。由于任務中存在語義鴻溝、領域鴻溝和情態鴻溝,這項任務非常具有挑戰性。針對這一任務,我們提出了一個多級對齊網絡,該網絡通過三個對齊模塊學習跨域和模式的對齊視覺語義嵌入。我們的模型與視覺和文本編碼器正交,允許我們靈活地采用最先進的視覺和文本編碼器結構。在視頻文本檢索和圖像文本檢索環境下進行的大量實驗驗證了該方法的有效性。在未來,我們將探索適用于域自適應跨模式檢索的視覺和文本編碼器結構。在本文中,我們在跨模態檢索的具體案例中展示了域自適應思想,它們原則上可以推廣到其他基于檢索的任務,例如視頻到視頻檢索。

總結

以上是生活随笔為你收集整理的论文笔记:Multi-level Alignment Network for Domain Adaptive Cross-modal Retrieval的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。