當(dāng)前位置：首頁(yè) >

论文浅尝 - EMNLP2020 | 跨媒体关键词预测: 多模态多头注意力和图像文本的统一框架...

發(fā)布時(shí)間：2024/7/5 49 豆豆

生活随笔收集整理的這篇文章主要介紹了论文浅尝 - EMNLP2020 | 跨媒体关键词预测: 多模态多头注意力和图像文本的统一框架... 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

論文筆記整理：柏超宇，東南大學(xué)碩士。

文章鏈接：https://arxiv.org/pdf/2011.01565.pdf

來(lái)源：EMNLP 2020

動(dòng)機(jī)

社交媒體每天都會(huì)產(chǎn)生大量的內(nèi)容。為了幫助用戶快速捕捉所需內(nèi)容，關(guān)鍵詞預(yù)測(cè)受到越來(lái)越多的關(guān)注。盡管如此，之前的工作大多集中在文本建模上，很大程度上忽略了圖像中蘊(yùn)含的豐富信息。隨著單模態(tài)模型的發(fā)展成熟，研究人員把關(guān)注熱點(diǎn)聚焦在了多模態(tài)模型上，希望通過(guò)結(jié)合文本和視覺(jué)信息，幫助模型去更好的完成對(duì)應(yīng)任務(wù)。

簡(jiǎn)介

在這項(xiàng)工作中，作者探索了文本和圖像在預(yù)測(cè)多媒體帖子的關(guān)鍵詞中的作用。為了更好地調(diào)整社交媒體風(fēng)格的文本和圖像，作者提出了：（1）一種新穎的多模態(tài)多頭注意力（M3H-Att），以捕捉復(fù)雜的跨媒體交互；（2）image wordings，以光學(xué)字符和圖像屬性的形式，連接兩種模態(tài)。此外，我們?cè)O(shè)計(jì)了一個(gè)新穎的統(tǒng)一框架，以利用關(guān)鍵詞分類(lèi)和生成的輸出，并將它們的優(yōu)點(diǎn)結(jié)合起來(lái)。在實(shí)驗(yàn)部分，作者從Twitter收集了一個(gè)大規(guī)模數(shù)據(jù)集，實(shí)驗(yàn)表明，本文的模型明顯優(yōu)于之前傳統(tǒng)注意力網(wǎng)絡(luò)。進(jìn)一步的分析表明，該模型的多頭注意力能夠關(guān)注各個(gè)模態(tài)的信息，并在不同場(chǎng)景下提升分類(lèi)或生成任務(wù)的效果，本文所關(guān)注的任務(wù)是在多模態(tài)的社交信息中提取出關(guān)鍵詞。

模型框架

作者采用了一個(gè)生成式模型來(lái)生成最后的答案，這也是最近多模態(tài)模型常用的方法，作者使用了Glove對(duì)文字信息進(jìn)行初始化，使用GRU提取文本的特征。而在圖像方面作者考慮了兩種特征，使用了在VG數(shù)據(jù)集上預(yù)訓(xùn)練過(guò)的Faster-RCNN對(duì)目標(biāo)框進(jìn)行檢測(cè)，置信度前五框的類(lèi)別被選出來(lái)，作為圖像的attributefeature，用來(lái)提供對(duì)圖像的高層理解；同時(shí)也會(huì)采用卷積核為7*7的VGG-16抽取出整幅圖像的特征。而圖片中的文字信息，作者也使用了OCR技術(shù)識(shí)別了出來(lái)，與文字信息拼接在一起。

在抽取出單模態(tài)的特征后，作者使用了一個(gè)M3H-Att的模型來(lái)對(duì)這三種模態(tài)的特征進(jìn)行融合，將融合后的多模態(tài)向量解碼生成所需要的關(guān)鍵詞。

M3H-Att即Multi-Modality Multi-Head Attention，也是基于Transformer結(jié)構(gòu)的一個(gè)編碼器。QKV三個(gè)矩陣只有Q送入了自己模態(tài)的attention層，而K和V矩陣都送入另一個(gè)模態(tài)的attention層，詳情可以參考下面的圖。

這種結(jié)構(gòu)在雙流的多模態(tài)預(yù)訓(xùn)練模型中也有用到，如Vil-BERT，而本模型將bbox的類(lèi)別也當(dāng)成一個(gè)模態(tài)信息進(jìn)行了三個(gè)模態(tài)信息的融合。

實(shí)驗(yàn)

在實(shí)驗(yàn)部分，作者與一些流行的單模態(tài)多模態(tài)模型進(jìn)行對(duì)比，從實(shí)驗(yàn)結(jié)果中我們可以發(fā)現(xiàn)由于最后需要回答的關(guān)鍵詞是文本模態(tài)的，所以單從圖片中進(jìn)行解碼并不會(huì)獲得比較好的效果，而從利用文本模態(tài)能夠得到一個(gè)比較不錯(cuò)的結(jié)果，本文提出的多模態(tài)模型相比較于最出色的單文本模態(tài)模型有所提升，但是效果不明顯，圖片的視覺(jué)信息還未和文本對(duì)齊，所以帶來(lái)的性能提升非常有限，在這里可能借助一些預(yù)訓(xùn)練任務(wù)能夠讓這幾個(gè)模態(tài)的向量融合的更好。

在實(shí)驗(yàn)部分，作者還嘗試了一些消融實(shí)驗(yàn)，分別展示了在該任務(wù)上使用多頭注意力機(jī)制和OCR特征以及attribute特征的作用，分別都對(duì)模型的效果有所提升。

總結(jié)

本文研究了社交媒體上的跨媒體關(guān)鍵詞預(yù)測(cè)任務(wù)，并提出了一個(gè)框架來(lái)融合生成和分類(lèi)模型的優(yōu)勢(shì)來(lái)完成這一任務(wù)。此外，本文還提出了一種新型的多模態(tài)多頭注意力機(jī)制來(lái)融合文本和圖像的特征。在新收集的大規(guī)模Twitter語(yǔ)料庫(kù)上的實(shí)驗(yàn)結(jié)果表明，該模型優(yōu)于基于傳統(tǒng)注意力機(jī)制的生成和分類(lèi)模型。

OpenKG

開(kāi)放知識(shí)圖譜（簡(jiǎn)稱 OpenKG）旨在促進(jìn)中文知識(shí)圖譜數(shù)據(jù)的開(kāi)放與互聯(lián)，促進(jìn)知識(shí)圖譜和語(yǔ)義技術(shù)的普及和廣泛應(yīng)用。

點(diǎn)擊閱讀原文，進(jìn)入 OpenKG 網(wǎng)站。

總結(jié)

以上是生活随笔為你收集整理的论文浅尝 - EMNLP2020 | 跨媒体关键词预测: 多模态多头注意力和图像文本的统一框架...的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：互联网架构：常用基础中间件介绍
下一篇：会议交流 | “数据智能与知识服务”研讨

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

论文浅尝 - EMNLP2020 | 跨媒体关键词预测: 多模态多头注意力和图像文本的统一框架...

總結(jié)