日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

论文笔记:Adaptive Cross-Modal Prototypes for Cross-Domain Visual-Language Retrieval

發(fā)布時間:2023/12/8 编程问答 33 豆豆
生活随笔 收集整理的這篇文章主要介紹了 论文笔记:Adaptive Cross-Modal Prototypes for Cross-Domain Visual-Language Retrieval 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

用于跨域視覺語言檢索的自適應(yīng)跨模態(tài)原型

  • 摘要
  • 介紹
  • 方法
    • 問題描述
    • 單峰組合龍骨
    • 源和目標(biāo)原型網(wǎng)絡(luò)
      • 最大化跨模態(tài)原型之間的互信息

摘要

在本文中,我們研究了在高度實(shí)用的環(huán)境下的視覺文本檢索任務(wù),在這種環(huán)境下,帶有成對文本描述的標(biāo)記視覺數(shù)據(jù)在一個域(“源”)中可用,而在感興趣的域(“目標(biāo)”)中只有未標(biāo)記視覺數(shù)據(jù)(沒有文本描述)可用。我們提出了AdaptiveCross-MODAL原型框架,該框架旨在通過學(xué)習(xí)跨模態(tài)可視文本表示來實(shí)現(xiàn)目標(biāo)域檢索,同時最小化源域和目標(biāo)域之間的單峰和跨模態(tài)分布偏移。。我們的方法基于兩個關(guān)鍵思想:第一,我們對歸納偏差進(jìn)行編碼,即學(xué)習(xí)到的跨模態(tài)表示應(yīng)該是關(guān)于每個模態(tài)中的概念的組合。這是通過在每個域中聚類預(yù)訓(xùn)練的單峰特征并設(shè)計(jì)仔細(xì)的正則化方案來實(shí)現(xiàn)的,以保留產(chǎn)生的結(jié)構(gòu)。其次,在學(xué)習(xí)過程中,我們在源域和目標(biāo)域的跨模態(tài)表示之間使用互信息最大化,這提供了一種機(jī)制,該機(jī)制保留了域之間的共性,同時丟棄了每個域中無法從另一個域推斷的信號。我們展示了我們的跨域可視文本檢索方法,優(yōu)于現(xiàn)有的圖像和視頻檢索方法。

介紹

在本文中,我們研究了一個語用問題,即我們?nèi)绾文軌蜃詈玫?strong>利用配對數(shù)據(jù)學(xué)習(xí)“源”領(lǐng)域的知識,從而推廣到其他“目標(biāo)”領(lǐng)域,而無需額外數(shù)據(jù)收集的高昂成本。這項(xiàng)研究揭示了機(jī)器在一般情況下如何理解視覺和文本信息,而不是學(xué)習(xí)和利用特定領(lǐng)域的配對知識。

將在標(biāo)記的源域上學(xué)習(xí)的模型轉(zhuǎn)移到未標(biāo)記的目標(biāo)域的任務(wù)稱為無監(jiān)督域自適應(yīng)(UDA)。在這方面,單峰分析已經(jīng)取得了很大的進(jìn)展。eg:圖像分類[41]、圖像分割[59]、文本情感分類[51]等。

本文將UDA用于涉及視覺和自由形式自然語言描述的跨模態(tài)任務(wù)

可視化文本檢索模型必須解決三個挑戰(zhàn)(如圖1所示):

  • (1)組成性:該模型需要用多個視覺實(shí)體(多個單詞)的組合以及它們之間的關(guān)系來編碼復(fù)雜的語義特征。(多個單詞)

  • (2) 報(bào)告偏差:檢索要求模型解決一個具有挑戰(zhàn)性的集到集的跨模態(tài)匹配問題(其中多個視覺實(shí)體對應(yīng)于自由形式的句子中包含的各種單詞),其中跨模態(tài)的信息僅部分匹配(也就是沒有把整個圖片的所有信息全部描述出來,僅僅描述了重點(diǎn)的意思)。

  • (3) 視覺和文本領(lǐng)域的轉(zhuǎn)變:檢索模型必須對視覺內(nèi)容和書面描述的領(lǐng)域轉(zhuǎn)移具有魯棒性。(也就是跨域唄)

ACP:
(1)為了解決組合性的需要,并實(shí)現(xiàn)報(bào)告偏差的穩(wěn)健性,我們建議學(xué)習(xí)一種精心設(shè)計(jì)的正則化的跨模式表示。由于用于文本視頻檢索的數(shù)據(jù)樣本缺乏自然的離散語義類結(jié)構(gòu)(不同于用于分類的傳統(tǒng)UDA,其中每個視覺輸入映射到一個或多個有限的預(yù)定義類別),我們首先對目標(biāo)域中的視覺內(nèi)容和源域中的文本執(zhí)行現(xiàn)成的單峰嵌入聚類。然后,我們將原型網(wǎng)絡(luò)連接到跨模態(tài)表示,并要求它們預(yù)測每個樣本的單峰嵌入到同一模態(tài)內(nèi)樣本的每個聚類中心的分配概率。(感覺就是先按照老方法處理文本和視頻(局域網(wǎng)),然后連接到互聯(lián)網(wǎng),然后處理其他人的信息)目標(biāo)是確保在使用源域上的成對數(shù)據(jù)進(jìn)行訓(xùn)練時,通過聚類發(fā)現(xiàn)的類別之間的關(guān)系不會在跨模態(tài)表示中丟失。

(2) 為了最大限度地減少跨域視覺和文本分布變化的影響,我們在源域和目標(biāo)域上的原型網(wǎng)絡(luò)預(yù)測之間采用互信息最大化[29]。這旨在保留域之間的共性,同時丟棄每個域中無法從另一個域推斷的信號。

本文的研究成果如下: (1)提出了一種新的跨模態(tài)檢索框架,即自適應(yīng)跨模態(tài)原型(adaptivcross -modal prototype), 通過保留單模態(tài)數(shù)據(jù)中組成概念的語義結(jié)構(gòu),實(shí)現(xiàn)了UDA環(huán)境下的跨模態(tài)檢索;(2)我們證明,最大化源和目標(biāo)跨模式原型集群分配預(yù)測之間的共現(xiàn)互信息是減少視覺和文本數(shù)據(jù)域轉(zhuǎn)移的有效機(jī)制(3)與僅在源域上訓(xùn)練的檢索系統(tǒng)相比,我們的方法在三個圖像檢索數(shù)據(jù)集和三個視頻檢索數(shù)據(jù)集上實(shí)現(xiàn)了改進(jìn), 以及替代域適應(yīng)策略,如最大平均差異變體[42]、對抗性學(xué)習(xí)策略[24]和運(yùn)輸建模[17]。

方法

問題描述

源域已配對的視覺和文本樣本,目標(biāo)域未配對的視覺樣本,我們的目標(biāo)是學(xué)習(xí)一個跨模態(tài)嵌入空間,這樣當(dāng)?描述v時,它在域v和?上的描述的距離應(yīng)該嵌入得很近(意思就是,如果兩個域的v和?是一個描述一個,特們就該離得近),否則則要分開很遠(yuǎn)。

ADAPTIVECROSS-MODAL原型(ACP)的總體框架如圖2所示,其中藍(lán)色和紅色箭頭分別表示來自源域和目標(biāo)域的信息流。它由六個組件組成,包括視覺和文本編碼器EvE_vEv?,ElE_lEl? ,單峰視覺和文字基調(diào)KvK_vKv?,KlK_lKl?, 跨模式源和目標(biāo)原型網(wǎng)絡(luò)PsP_sPs?,PtP_tPt? 。我們將在下面討論這些組件及其相互作用。

單峰:感覺就是一個,比如匹配一個視頻,一種類別這個意思。


按照[62]中流行的跨模態(tài)方法,我們使用視覺編碼器和文本編碼器?映射每個可視樣本和文本描述的步驟?進(jìn)入一個共享的交叉模態(tài)嵌入空間,Ev(v),E?(?)∈RM,其中當(dāng)且僅當(dāng)文本描述視覺輸入時,視覺嵌入和文本嵌入彼此接近。我們利用源域中的成對數(shù)據(jù)強(qiáng)制執(zhí)行雙向排名損失,以對齊內(nèi)容和文本描述,如下所示:

Visual and Text Keels:為了用多個視覺概念(多個單詞)的組合來表示復(fù)雜的語義特征,我們建議利用每個模態(tài)中現(xiàn)成的結(jié)構(gòu)知識來構(gòu)造視覺和文本基架。

具體地說,我們首先用通用的視覺描述符和文本描述符獨(dú)立地繪制單模態(tài)數(shù)據(jù)結(jié)構(gòu)——這些是現(xiàn)成的“現(xiàn)成的”視覺分類和句子分類模型,它們已經(jīng)經(jīng)過了標(biāo)簽、在計(jì)算機(jī)視覺和自然語言處理社區(qū)中可用的大規(guī)模單模態(tài)數(shù)據(jù)集。

我們在每個模態(tài)內(nèi)獨(dú)立地用Lloyds算法[39]聚類通用描述符,生成一組質(zhì)心,我們稱之為視覺質(zhì)心和文本質(zhì)心(這個名字反映了這些質(zhì)心用于穩(wěn)定適應(yīng)過程的意圖)。
然后,我們通過計(jì)算其在所有聚類質(zhì)心上的相似度分布對每個樣本進(jìn)行編碼。這種賦值是“靜態(tài)的”,即預(yù)先訓(xùn)練的描述符是凍結(jié)的,從不進(jìn)行微調(diào),因此賦值提供了一個領(lǐng)域中立(w.r.t源和目標(biāo)域)信號來描述單模結(jié)構(gòu)知識。

源和目標(biāo)原型網(wǎng)絡(luò): 接下來,我們將描述如何在每個領(lǐng)域中使用單峰結(jié)構(gòu)知識來有效地正則化跨峰嵌入的學(xué)習(xí)以進(jìn)行檢索。具體來說,我們將源和目標(biāo)原型網(wǎng)絡(luò)(每個都包含一個線性投影)附加到跨模式嵌入特征上,并讓它們預(yù)測每個樣本的聚類分配。

我們最小化KL發(fā)散損失,以懲罰該原型分配預(yù)測中的差異,因?yàn)榻徊婺B(tài)嵌入和由單峰龍骨確定的龍骨分配。這樣做的目的是,跨模態(tài)嵌入應(yīng)該保留原始單峰視覺和文本空間中的局部語義關(guān)系。

鏈接跨域原型: 由于原型網(wǎng)絡(luò)分別由源樣本和目標(biāo)樣本驅(qū)動,其分配的差異反映了域轉(zhuǎn)移。這些集群分配之間的共存揭示了跨域的底層關(guān)系。具體地說,對于源和目標(biāo)樣本,我們通過最大化源和目標(biāo)原型分配之間的互信息(MI)[29,48]來規(guī)范跨模式特征學(xué)習(xí)(即,從同一樣本獲得的分配應(yīng)該彼此可預(yù)測,無論領(lǐng)域如何)。這旨在幫助以跨模態(tài)方式最大限度地減少域轉(zhuǎn)移

單峰組合龍骨

與基于分類的UDA設(shè)置不同,自由格式的文本描述缺少一組明確定義的、有限的類別標(biāo)簽。因此,我們不能通過計(jì)算每個類別內(nèi)實(shí)例的平均特征向量來形成文本框架。

我們提出用通用文本描述符編碼源文本描述來繪制單模態(tài)源文本分布,并在大量自由形式句子的語料庫上預(yù)先訓(xùn)練一個“凍結(jié)”的句子級語言模型。然后使用Lloyd的算法[39]對源文本示例的描述符進(jìn)行聚類。每個集群質(zhì)心被命名為文本龍骨

然后根據(jù)文本龍骨之間的關(guān)系,通過計(jì)算其簇分配的概率,對每個源文本樣本進(jìn)行編碼,然后計(jì)算概率。


預(yù)訓(xùn)練語言模型的作用有兩個:(1)以這種方式對語義相似的句子進(jìn)行編碼,每個文本簇質(zhì)心表示如何使用描述片段的組合來描述一段視覺內(nèi)容;(2) 為了提高泛化能力,大型、預(yù)訓(xùn)練語言模型表現(xiàn)出顯著的少鏡頭學(xué)習(xí)能力[4],這表明由預(yù)訓(xùn)練模型編碼的表示具有足夠的可組合性,可以有效地進(jìn)行泛化。

視覺龍骨構(gòu)造:與文本龍骨結(jié)構(gòu)類似,我們首先使用通用視覺描述符i繪制單峰視覺數(shù)據(jù)分布圖。E來自單峰感知任務(wù)的預(yù)訓(xùn)練模型。在執(zhí)行聚類算法以獲得視覺龍骨后,通過計(jì)算龍骨分配概率,通過視覺龍骨{Vk}Kk=1之間的關(guān)系對每個目標(biāo)視覺樣本進(jìn)行編碼

與文本龍骨結(jié)構(gòu)相比,有兩個主要區(qū)別:(1)為了捕獲多個視覺概念的不同組成,我們提取了多個通用視覺描述符,而不是一個,利用多個感知模型,包括用于對象分類、動作識別、場景識別的預(yù)訓(xùn)練模型(詳情見第4.1節(jié))。然后,每個視覺龍骨跨越以下信息:{視覺空間中的什么、如何、何處},描繪多個視覺概念的組合為了捕獲目標(biāo)域中存在的視覺概念的分布,視覺框架是從目標(biāo)樣本而不是源樣本(用于文本構(gòu)建)1構(gòu)建的(沒看懂呢)

源和目標(biāo)原型網(wǎng)絡(luò)

接下來,我們將描述如何使用源文本基架和目標(biāo)視覺基架來規(guī)范共享的跨模態(tài)嵌入空間。

源原型網(wǎng)絡(luò):我們附加了一個源原型網(wǎng)絡(luò)(由單個線性投影組成),

為了在交叉模態(tài)嵌入空間中整合單峰數(shù)據(jù)的結(jié)構(gòu)知識,我們最小化了(5)中所示的源KL發(fā)散損失,懲罰了“龍骨分配”之間的差異,對于每一個源文本描述,我們使用從單峰文本龍骨中獲得的龍骨分配作為“軟標(biāo)簽”來指導(dǎo)跨峰文本嵌入的學(xué)習(xí)過程,因?yàn)榭梢晝?nèi)容與源文本樣本配對

目標(biāo)原型網(wǎng)絡(luò):任務(wù)是預(yù)測每個目標(biāo)樣本的典型分配,

最大化跨模態(tài)原型之間的互信息

由于缺少目標(biāo)域文本標(biāo)簽,我們引入了更多的標(biāo)簽函數(shù)來限制共享錯誤,包括用于計(jì)算單峰龍骨分配的函數(shù)f和f,用于預(yù)測跨峰原型分配的函數(shù)f和f。更具體地說,共享誤差通過三角形不等式進(jìn)行限定

總結(jié)

以上是生活随笔為你收集整理的论文笔记:Adaptive Cross-Modal Prototypes for Cross-Domain Visual-Language Retrieval的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。