SIGIR 2021 最佳学生论文:用于图像-文本检索的动态交互式建模
?PaperWeekly 原創(chuàng) ·?作者?|?金金
單位?|?阿里巴巴研究實(shí)習(xí)生
研究方向?|?推薦系統(tǒng)
簡介
圖文檢索是信息檢索的一個基礎(chǔ)和關(guān)鍵分支。盡管在連接視覺和語言方面取得了很大進(jìn)展,但由于模內(nèi)推理和跨模態(tài)對齊困難,它仍然具有挑戰(zhàn)性。現(xiàn)有的模態(tài)交互方法在公共數(shù)據(jù)集上取得了令人矚目的成果。然而,他們在交互模式的設(shè)計上嚴(yán)重依賴專家經(jīng)驗(yàn)和經(jīng)驗(yàn)反饋,因此缺乏靈活性。
為了解決這些問題,本文提出了一種基于路由機(jī)制的新型模態(tài)交互建模網(wǎng)絡(luò),這是第一個面向圖像-文本檢索的統(tǒng)一動態(tài)多模態(tài)交互框架。具體來說,坐著首先設(shè)計了四種類型的單元格作為基本單元來探索不同層次的模態(tài)交互,然后以密集的策略將它們連接起來以構(gòu)建路由空間。
論文標(biāo)題:
Dynamic Modality Interaction Modeling for Image-Text Retrieval
論文來源:
SIGIR 2021
為了賦予模型路徑?jīng)Q策能力,坐著在每個單元中集成了一個動態(tài)路由器以進(jìn)行模式探索。由于路由器以輸入為條件,本文的模型可以為不同的數(shù)據(jù)動態(tài)學(xué)習(xí)不同的激活路徑。在兩個基準(zhǔn)數(shù)據(jù)集(即 Flickr30K 和 MS-COCO)上進(jìn)行的大量實(shí)驗(yàn)驗(yàn)證了本文的模型的優(yōu)越性。
模型
本文的模型首先分別使用從底至頂?shù)淖⒁饬C(jī)制抽取圖像特征并選擇得分靠前的區(qū)域,另一方面使用 BERT+CNN 抽取文本特征。在此基礎(chǔ)上設(shè)計了四種交互方式:
Rectified Identity Cell:通過 Relu 保留有區(qū)別的線索;
Intra-Modal Reasoning Cell:通過注意力機(jī)制建模模態(tài)內(nèi)的交互特征;
Global-Local Guidance Cell:通過一種模態(tài)指導(dǎo)另一種模態(tài)的注意力交互;
Cross-Modal Refinement Cell:兩種模態(tài)互相交互的特征。
具體的模型圖如下:
在此基礎(chǔ)上,本文使用了動態(tài)路由的機(jī)制選擇交互的方式,在訓(xùn)練的階段,除了原本的損失函數(shù)以外,還加入了路徑正則的機(jī)制,使得相同的語義信息應(yīng)該選擇相同的路徑。
實(shí)驗(yàn)
本文在圖像檢索文本和文本檢索圖像兩個任務(wù)上都進(jìn)行了實(shí)驗(yàn),可以看到對比之前僅有模態(tài)內(nèi)交互的模型和靜態(tài)的模態(tài)間交互模型,本文的模型都取得了更好的效果。
另外,作者探究了本文動態(tài)路由機(jī)制的有效性,具體來說,對比了隨機(jī)選擇路徑和 hard 的選擇方式,可以看到本文 soft 的選擇機(jī)制,可以取得更好的效果。
結(jié)論
在本文中,本文提出了一個面向圖像文本檢索的統(tǒng)一模態(tài)交互建模框架,這是通過動態(tài)路由學(xué)習(xí)探索交互模式的第一項(xiàng)工作。具體來說,本文首先設(shè)計了四種類型的單元來執(zhí)行不同的內(nèi)部交互操作和動態(tài)路由器進(jìn)行路由學(xué)習(xí)。
然后我們?yōu)槁窂經(jīng)Q策引入語義路徑一致性正則化。在兩個基準(zhǔn)上的大量實(shí)驗(yàn)結(jié)果證明了本文提出的方法的有效性和優(yōu)越性。未來,作者計劃在給定計算資源的約束下探索動態(tài)機(jī)制在信息檢索系統(tǒng)中的更多應(yīng)用,使其更加靈活和可擴(kuò)展。此外,作者計劃將哈希模塊合并到我們的模型中以加快檢索過程。
特別鳴謝
感謝 TCCI 天橋腦科學(xué)研究院對于 PaperWeekly 的支持。TCCI 關(guān)注大腦探知、大腦功能和大腦健康。
更多閱讀
#投 稿?通 道#
?讓你的文字被更多人看到?
如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達(dá)讀者群體,縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢?答案就是:你不認(rèn)識的人。
總有一些你不認(rèn)識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學(xué)者和學(xué)術(shù)靈感相互碰撞,迸發(fā)出更多的可能性。?
PaperWeekly 鼓勵高校實(shí)驗(yàn)室或個人,在我們的平臺上分享各類優(yōu)質(zhì)內(nèi)容,可以是最新論文解讀,也可以是學(xué)術(shù)熱點(diǎn)剖析、科研心得或競賽經(jīng)驗(yàn)講解等。我們的目的只有一個,讓知識真正流動起來。
?????稿件基本要求:
? 文章確系個人原創(chuàng)作品,未曾在公開渠道發(fā)表,如為其他平臺已發(fā)表或待發(fā)表的文章,請明確標(biāo)注?
? 稿件建議以?markdown?格式撰寫,文中配圖以附件形式發(fā)送,要求圖片清晰,無版權(quán)問題
? PaperWeekly 尊重原作者署名權(quán),并將為每篇被采納的原創(chuàng)首發(fā)稿件,提供業(yè)內(nèi)具有競爭力稿酬,具體依據(jù)文章閱讀量和文章質(zhì)量階梯制結(jié)算
?????投稿通道:
? 投稿郵箱:hr@paperweekly.site?
? 來稿請備注即時聯(lián)系方式(微信),以便我們在稿件選用的第一時間聯(lián)系作者
? 您也可以直接添加小編微信(pwbot02)快速投稿,備注:姓名-投稿
△長按添加PaperWeekly小編
????
現(xiàn)在,在「知乎」也能找到我們了
進(jìn)入知乎首頁搜索「PaperWeekly」
點(diǎn)擊「關(guān)注」訂閱我們的專欄吧
關(guān)于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學(xué)術(shù)平臺。如果你研究或從事 AI 領(lǐng)域,歡迎在公眾號后臺點(diǎn)擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
總結(jié)
以上是生活随笔為你收集整理的SIGIR 2021 最佳学生论文:用于图像-文本检索的动态交互式建模的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 团体险怎么买
- 下一篇: 慕尼黑工业大学最新综述:深度神经网络中的