當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

SIGIR 2021 最佳学生论文：用于图像-文本检索的动态交互式建模

發(fā)布時間：2024/10/8 编程问答 36 豆豆

生活随笔收集整理的這篇文章主要介紹了 SIGIR 2021 最佳学生论文：用于图像-文本检索的动态交互式建模小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

?PaperWeekly 原創(chuàng) ·?作者?|?金金

單位?|?阿里巴巴研究實(shí)習(xí)生

研究方向?|?推薦系統(tǒng)

簡介

圖文檢索是信息檢索的一個基礎(chǔ)和關(guān)鍵分支。盡管在連接視覺和語言方面取得了很大進(jìn)展，但由于模內(nèi)推理和跨模態(tài)對齊困難，它仍然具有挑戰(zhàn)性。現(xiàn)有的模態(tài)交互方法在公共數(shù)據(jù)集上取得了令人矚目的成果。然而，他們在交互模式的設(shè)計上嚴(yán)重依賴專家經(jīng)驗(yàn)和經(jīng)驗(yàn)反饋，因此缺乏靈活性。

為了解決這些問題，本文提出了一種基于路由機(jī)制的新型模態(tài)交互建模網(wǎng)絡(luò)，這是第一個面向圖像-文本檢索的統(tǒng)一動態(tài)多模態(tài)交互框架。具體來說，坐著首先設(shè)計了四種類型的單元格作為基本單元來探索不同層次的模態(tài)交互，然后以密集的策略將它們連接起來以構(gòu)建路由空間。

論文標(biāo)題：

Dynamic Modality Interaction Modeling for Image-Text Retrieval

論文來源：

SIGIR 2021

為了賦予模型路徑?jīng)Q策能力，坐著在每個單元中集成了一個動態(tài)路由器以進(jìn)行模式探索。由于路由器以輸入為條件，本文的模型可以為不同的數(shù)據(jù)動態(tài)學(xué)習(xí)不同的激活路徑。在兩個基準(zhǔn)數(shù)據(jù)集（即 Flickr30K 和 MS-COCO）上進(jìn)行的大量實(shí)驗(yàn)驗(yàn)證了本文的模型的優(yōu)越性。

模型

本文的模型首先分別使用從底至頂?shù)淖⒁饬C(jī)制抽取圖像特征并選擇得分靠前的區(qū)域，另一方面使用 BERT+CNN 抽取文本特征。在此基礎(chǔ)上設(shè)計了四種交互方式：

Rectified Identity Cell：通過 Relu 保留有區(qū)別的線索；
Intra-Modal Reasoning Cell：通過注意力機(jī)制建模模態(tài)內(nèi)的交互特征；
Global-Local Guidance Cell：通過一種模態(tài)指導(dǎo)另一種模態(tài)的注意力交互；
Cross-Modal Refinement Cell：兩種模態(tài)互相交互的特征。

具體的模型圖如下：

在此基礎(chǔ)上，本文使用了動態(tài)路由的機(jī)制選擇交互的方式，在訓(xùn)練的階段，除了原本的損失函數(shù)以外，還加入了路徑正則的機(jī)制，使得相同的語義信息應(yīng)該選擇相同的路徑。

實(shí)驗(yàn)

本文在圖像檢索文本和文本檢索圖像兩個任務(wù)上都進(jìn)行了實(shí)驗(yàn)，可以看到對比之前僅有模態(tài)內(nèi)交互的模型和靜態(tài)的模態(tài)間交互模型，本文的模型都取得了更好的效果。

另外，作者探究了本文動態(tài)路由機(jī)制的有效性，具體來說，對比了隨機(jī)選擇路徑和 hard 的選擇方式，可以看到本文 soft 的選擇機(jī)制，可以取得更好的效果。

結(jié)論

在本文中，本文提出了一個面向圖像文本檢索的統(tǒng)一模態(tài)交互建模框架，這是通過動態(tài)路由學(xué)習(xí)探索交互模式的第一項(xiàng)工作。具體來說，本文首先設(shè)計了四種類型的單元來執(zhí)行不同的內(nèi)部交互操作和動態(tài)路由器進(jìn)行路由學(xué)習(xí)。

然后我們?yōu)槁窂經(jīng)Q策引入語義路徑一致性正則化。在兩個基準(zhǔn)上的大量實(shí)驗(yàn)結(jié)果證明了本文提出的方法的有效性和優(yōu)越性。未來，作者計劃在給定計算資源的約束下探索動態(tài)機(jī)制在信息檢索系統(tǒng)中的更多應(yīng)用，使其更加靈活和可擴(kuò)展。此外，作者計劃將哈希模塊合并到我們的模型中以加快檢索過程。

特別鳴謝

感謝 TCCI 天橋腦科學(xué)研究院對于 PaperWeekly 的支持。TCCI 關(guān)注大腦探知、大腦功能和大腦健康。

更多閱讀

#投稿?通道#

?讓你的文字被更多人看到?

如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達(dá)讀者群體，縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢？答案就是：你不認(rèn)識的人。

總有一些你不認(rèn)識的人，知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁，促使不同背景、不同方向的學(xué)者和學(xué)術(shù)靈感相互碰撞，迸發(fā)出更多的可能性。?

PaperWeekly 鼓勵高校實(shí)驗(yàn)室或個人，在我們的平臺上分享各類優(yōu)質(zhì)內(nèi)容，可以是最新論文解讀，也可以是學(xué)術(shù)熱點(diǎn)剖析、科研心得或競賽經(jīng)驗(yàn)講解等。我們的目的只有一個，讓知識真正流動起來。

?????稿件基本要求：

? 文章確系個人原創(chuàng)作品，未曾在公開渠道發(fā)表，如為其他平臺已發(fā)表或待發(fā)表的文章，請明確標(biāo)注?

? 稿件建議以?markdown?格式撰寫，文中配圖以附件形式發(fā)送，要求圖片清晰，無版權(quán)問題

? PaperWeekly 尊重原作者署名權(quán)，并將為每篇被采納的原創(chuàng)首發(fā)稿件，提供業(yè)內(nèi)具有競爭力稿酬，具體依據(jù)文章閱讀量和文章質(zhì)量階梯制結(jié)算

?????投稿通道：

? 投稿郵箱：hr@paperweekly.site?

? 來稿請備注即時聯(lián)系方式（微信），以便我們在稿件選用的第一時間聯(lián)系作者

? 您也可以直接添加小編微信（pwbot02）快速投稿，備注：姓名-投稿

△長按添加PaperWeekly小編

????

現(xiàn)在，在「知乎」也能找到我們了

進(jìn)入知乎首頁搜索「PaperWeekly」

點(diǎn)擊「關(guān)注」訂閱我們的專欄吧

關(guān)于PaperWeekly

PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學(xué)術(shù)平臺。如果你研究或從事 AI 領(lǐng)域，歡迎在公眾號后臺點(diǎn)擊「交流群」，小助手將把你帶入 PaperWeekly 的交流群里。

總結(jié)

以上是生活随笔為你收集整理的SIGIR 2021 最佳学生论文：用于图像-文本检索的动态交互式建模的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇：团体险怎么买
下一篇：慕尼黑工业大学最新综述：深度神经网络中的

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

编程问答

SIGIR 2021 最佳学生论文：用于图像-文本检索的动态交互式建模

總結(jié)