當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

论文笔记：Adaptive Cross-Modal Prototypes for Cross-Domain Visual-Language Retrieval

發(fā)布時間：2023/12/8 编程问答 39 豆豆

生活随笔收集整理的這篇文章主要介紹了论文笔记：Adaptive Cross-Modal Prototypes for Cross-Domain Visual-Language Retrieval 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

用于跨域視覺語言檢索的自適應(yīng)跨模態(tài)原型

摘要
介紹
方法
- 問題描述
- 單峰組合龍骨
- 源和目標(biāo)原型網(wǎng)絡(luò)
- - 最大化跨模態(tài)原型之間的互信息

摘要

在本文中，我們研究了在高度實用的環(huán)境下的視覺文本檢索任務(wù)，在這種環(huán)境下，帶有成對文本描述的標(biāo)記視覺數(shù)據(jù)在一個域（“源”）中可用，而在感興趣的域（“目標(biāo)”）中只有未標(biāo)記視覺數(shù)據(jù)（沒有文本描述）可用。我們提出了AdaptiveCross-MODAL原型框架，該框架旨在通過學(xué)習(xí)跨模態(tài)可視文本表示來實現(xiàn)目標(biāo)域檢索，同時最小化源域和目標(biāo)域之間的單峰和跨模態(tài)分布偏移。。我們的方法基于兩個關(guān)鍵思想：第一，我們對歸納偏差進(jìn)行編碼，即學(xué)習(xí)到的跨模態(tài)表示應(yīng)該是關(guān)于每個模態(tài)中的概念的組合。這是通過在每個域中聚類預(yù)訓(xùn)練的單峰特征并設(shè)計仔細(xì)的正則化方案來實現(xiàn)的，以保留產(chǎn)生的結(jié)構(gòu)。其次，在學(xué)習(xí)過程中，我們在源域和目標(biāo)域的跨模態(tài)表示之間使用互信息最大化，這提供了一種機(jī)制，該機(jī)制保留了域之間的共性，同時丟棄了每個域中無法從另一個域推斷的信號。我們展示了我們的跨域可視文本檢索方法，優(yōu)于現(xiàn)有的圖像和視頻檢索方法。

介紹

在本文中，我們研究了一個語用問題，即我們?nèi)绾文軌蜃詈玫?strong>利用配對數(shù)據(jù)學(xué)習(xí)“源”領(lǐng)域的知識，從而推廣到其他“目標(biāo)”領(lǐng)域，而無需額外數(shù)據(jù)收集的高昂成本。這項研究揭示了機(jī)器在一般情況下如何理解視覺和文本信息，而不是學(xué)習(xí)和利用特定領(lǐng)域的配對知識。

將在標(biāo)記的源域上學(xué)習(xí)的模型轉(zhuǎn)移到未標(biāo)記的目標(biāo)域的任務(wù)稱為無監(jiān)督域自適應(yīng)（UDA）。在這方面，單峰分析已經(jīng)取得了很大的進(jìn)展。eg：圖像分類[41]、圖像分割[59]、文本情感分類[51]等。

本文將UDA用于涉及視覺和自由形式自然語言描述的跨模態(tài)任務(wù)。

可視化文本檢索模型必須解決三個挑戰(zhàn)（如圖1所示）：

(1）組成性:該模型需要用多個視覺實體(多個單詞)的組合以及它們之間的關(guān)系來編碼復(fù)雜的語義特征。（多個單詞）
（2） 報告偏差:檢索要求模型解決一個具有挑戰(zhàn)性的集到集的跨模態(tài)匹配問題(其中多個視覺實體對應(yīng)于自由形式的句子中包含的各種單詞)，其中跨模態(tài)的信息僅部分匹配(也就是沒有把整個圖片的所有信息全部描述出來，僅僅描述了重點的意思)。
（3） 視覺和文本領(lǐng)域的轉(zhuǎn)變:檢索模型必須對視覺內(nèi)容和書面描述的領(lǐng)域轉(zhuǎn)移具有魯棒性。（也就是跨域唄）

ACP:
(1)為了解決組合性的需要，并實現(xiàn)報告偏差的穩(wěn)健性，我們建議學(xué)習(xí)一種精心設(shè)計的正則化的跨模式表示。由于用于文本視頻檢索的數(shù)據(jù)樣本缺乏自然的離散語義類結(jié)構(gòu)（不同于用于分類的傳統(tǒng)UDA，其中每個視覺輸入映射到一個或多個有限的預(yù)定義類別），我們首先對目標(biāo)域中的視覺內(nèi)容和源域中的文本執(zhí)行現(xiàn)成的單峰嵌入聚類。然后，我們將原型網(wǎng)絡(luò)連接到跨模態(tài)表示，并要求它們預(yù)測每個樣本的單峰嵌入到同一模態(tài)內(nèi)樣本的每個聚類中心的分配概率。（感覺就是先按照老方法處理文本和視頻（局域網(wǎng)），然后連接到互聯(lián)網(wǎng)，然后處理其他人的信息）目標(biāo)是確保在使用源域上的成對數(shù)據(jù)進(jìn)行訓(xùn)練時，通過聚類發(fā)現(xiàn)的類別之間的關(guān)系不會在跨模態(tài)表示中丟失。

（2）為了最大限度地減少跨域視覺和文本分布變化的影響，我們在源域和目標(biāo)域上的原型網(wǎng)絡(luò)預(yù)測之間采用互信息最大化[29]。這旨在保留域之間的共性，同時丟棄每個域中無法從另一個域推斷的信號。

本文的研究成果如下: (1)提出了一種新的跨模態(tài)檢索框架，即自適應(yīng)跨模態(tài)原型(adaptivcross -modal prototype)，通過保留單模態(tài)數(shù)據(jù)中組成概念的語義結(jié)構(gòu)，實現(xiàn)了UDA環(huán)境下的跨模態(tài)檢索;(2)我們證明，最大化源和目標(biāo)跨模式原型集群分配預(yù)測之間的共現(xiàn)互信息是減少視覺和文本數(shù)據(jù)域轉(zhuǎn)移的有效機(jī)制(3)與僅在源域上訓(xùn)練的檢索系統(tǒng)相比，我們的方法在三個圖像檢索數(shù)據(jù)集和三個視頻檢索數(shù)據(jù)集上實現(xiàn)了改進(jìn)，以及替代域適應(yīng)策略，如最大平均差異變體[42]、對抗性學(xué)習(xí)策略[24]和運(yùn)輸建模[17]。

方法

問題描述

源域已配對的視覺和文本樣本，目標(biāo)域未配對的視覺樣本，我們的目標(biāo)是學(xué)習(xí)一個跨模態(tài)嵌入空間，這樣當(dāng)?描述v時，它在域v和?上的描述的距離應(yīng)該嵌入得很近(意思就是，如果兩個域的v和?是一個描述一個，特們就該離得近)，否則則要分開很遠(yuǎn)。

ADAPTIVECROSS-MODAL原型（ACP）的總體框架如圖2所示，其中藍(lán)色和紅色箭頭分別表示來自源域和目標(biāo)域的信息流。它由六個組件組成，包括視覺和文本編碼器 $E_v$ , $E_l$ ，單峰視覺和文字基調(diào) $K_v$ , $K_l$ , 跨模式源和目標(biāo)原型網(wǎng)絡(luò) $P_s$ , $P_t$ 。我們將在下面討論這些組件及其相互作用。

單峰：感覺就是一個，比如匹配一個視頻，一種類別這個意思。

按照[62]中流行的跨模態(tài)方法，我們使用視覺編碼器和文本編碼器?映射每個可視樣本和文本描述的步驟?進(jìn)入一個共享的交叉模態(tài)嵌入空間，Ev（v），E?(?)∈RM，其中當(dāng)且僅當(dāng)文本描述視覺輸入時，視覺嵌入和文本嵌入彼此接近。我們利用源域中的成對數(shù)據(jù)強(qiáng)制執(zhí)行雙向排名損失，以對齊內(nèi)容和文本描述，如下所示：

Visual and Text Keels:為了用多個視覺概念（多個單詞）的組合來表示復(fù)雜的語義特征，我們建議利用每個模態(tài)中現(xiàn)成的結(jié)構(gòu)知識來構(gòu)造視覺和文本基架。

具體地說，我們首先用通用的視覺描述符和文本描述符獨立地繪制單模態(tài)數(shù)據(jù)結(jié)構(gòu)——這些是現(xiàn)成的“現(xiàn)成的”視覺分類和句子分類模型，它們已經(jīng)經(jīng)過了標(biāo)簽、在計算機(jī)視覺和自然語言處理社區(qū)中可用的大規(guī)模單模態(tài)數(shù)據(jù)集。

我們在每個模態(tài)內(nèi)獨立地用Lloyds算法[39]聚類通用描述符，生成一組質(zhì)心，我們稱之為視覺質(zhì)心和文本質(zhì)心(這個名字反映了這些質(zhì)心用于穩(wěn)定適應(yīng)過程的意圖)。
然后，我們通過計算其在所有聚類質(zhì)心上的相似度分布對每個樣本進(jìn)行編碼。這種賦值是“靜態(tài)的”，即預(yù)先訓(xùn)練的描述符是凍結(jié)的，從不進(jìn)行微調(diào)，因此賦值提供了一個領(lǐng)域中立(w.r.t源和目標(biāo)域)信號來描述單模結(jié)構(gòu)知識。

源和目標(biāo)原型網(wǎng)絡(luò): 接下來，我們將描述如何在每個領(lǐng)域中使用單峰結(jié)構(gòu)知識來有效地正則化跨峰嵌入的學(xué)習(xí)以進(jìn)行檢索。具體來說，我們將源和目標(biāo)原型網(wǎng)絡(luò)（每個都包含一個線性投影）附加到跨模式嵌入特征上，并讓它們預(yù)測每個樣本的聚類分配。

我們最小化KL發(fā)散損失，以懲罰該原型分配預(yù)測中的差異，因為交叉模態(tài)嵌入和由單峰龍骨確定的龍骨分配。這樣做的目的是，跨模態(tài)嵌入應(yīng)該保留原始單峰視覺和文本空間中的局部語義關(guān)系。

鏈接跨域原型: 由于原型網(wǎng)絡(luò)分別由源樣本和目標(biāo)樣本驅(qū)動，其分配的差異反映了域轉(zhuǎn)移。這些集群分配之間的共存揭示了跨域的底層關(guān)系。具體地說，對于源和目標(biāo)樣本，我們通過最大化源和目標(biāo)原型分配之間的互信息（MI）[29,48]來規(guī)范跨模式特征學(xué)習(xí)（即，從同一樣本獲得的分配應(yīng)該彼此可預(yù)測，無論領(lǐng)域如何）。這旨在幫助以跨模態(tài)方式最大限度地減少域轉(zhuǎn)移

單峰組合龍骨

與基于分類的UDA設(shè)置不同，自由格式的文本描述缺少一組明確定義的、有限的類別標(biāo)簽。因此，我們不能通過計算每個類別內(nèi)實例的平均特征向量來形成文本框架。

我們提出用通用文本描述符編碼源文本描述來繪制單模態(tài)源文本分布，并在大量自由形式句子的語料庫上預(yù)先訓(xùn)練一個“凍結(jié)”的句子級語言模型。然后使用Lloyd的算法[39]對源文本示例的描述符進(jìn)行聚類。每個集群質(zhì)心被命名為文本龍骨。

然后根據(jù)文本龍骨之間的關(guān)系，通過計算其簇分配的概率，對每個源文本樣本進(jìn)行編碼，然后計算概率。

預(yù)訓(xùn)練語言模型的作用有兩個：（1）以這種方式對語義相似的句子進(jìn)行編碼，每個文本簇質(zhì)心表示如何使用描述片段的組合來描述一段視覺內(nèi)容；（2）為了提高泛化能力，大型、預(yù)訓(xùn)練語言模型表現(xiàn)出顯著的少鏡頭學(xué)習(xí)能力[4]，這表明由預(yù)訓(xùn)練模型編碼的表示具有足夠的可組合性，可以有效地進(jìn)行泛化。

視覺龍骨構(gòu)造：與文本龍骨結(jié)構(gòu)類似，我們首先使用通用視覺描述符i繪制單峰視覺數(shù)據(jù)分布圖。E來自單峰感知任務(wù)的預(yù)訓(xùn)練模型。在執(zhí)行聚類算法以獲得視覺龍骨后，通過計算龍骨分配概率，通過視覺龍骨{Vk}Kk=1之間的關(guān)系對每個目標(biāo)視覺樣本進(jìn)行編碼

與文本龍骨結(jié)構(gòu)相比，有兩個主要區(qū)別：（1）為了捕獲多個視覺概念的不同組成，我們提取了多個通用視覺描述符，而不是一個，利用多個感知模型，包括用于對象分類、動作識別、場景識別的預(yù)訓(xùn)練模型（詳情見第4.1節(jié)）。然后，每個視覺龍骨跨越以下信息：{視覺空間中的什么、如何、何處}，描繪多個視覺概念的組合為了捕獲目標(biāo)域中存在的視覺概念的分布，視覺框架是從目標(biāo)樣本而不是源樣本（用于文本構(gòu)建）1構(gòu)建的（沒看懂呢）

源和目標(biāo)原型網(wǎng)絡(luò)

接下來，我們將描述如何使用源文本基架和目標(biāo)視覺基架來規(guī)范共享的跨模態(tài)嵌入空間。

源原型網(wǎng)絡(luò)：我們附加了一個源原型網(wǎng)絡(luò)（由單個線性投影組成），

為了在交叉模態(tài)嵌入空間中整合單峰數(shù)據(jù)的結(jié)構(gòu)知識，我們最小化了（5）中所示的源KL發(fā)散損失，懲罰了“龍骨分配”之間的差異，對于每一個源文本描述，我們使用從單峰文本龍骨中獲得的龍骨分配作為“軟標(biāo)簽”來指導(dǎo)跨峰文本嵌入的學(xué)習(xí)過程，因為可視內(nèi)容與源文本樣本配對

目標(biāo)原型網(wǎng)絡(luò)：任務(wù)是預(yù)測每個目標(biāo)樣本的典型分配，

最大化跨模態(tài)原型之間的互信息

由于缺少目標(biāo)域文本標(biāo)簽，我們引入了更多的標(biāo)簽函數(shù)來限制共享錯誤，包括用于計算單峰龍骨分配的函數(shù)f和f，用于預(yù)測跨峰原型分配的函數(shù)f和f。更具體地說，共享誤差通過三角形不等式進(jìn)行限定

總結(jié)

以上是生活随笔為你收集整理的论文笔记：Adaptive Cross-Modal Prototypes for Cross-Domain Visual-Language Retrieval的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇：论文笔记：Multi-level Ali
下一篇： CL-ReLKT: Cross-ling