日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

          歡迎訪問(wèn) 生活随笔!

          生活随笔

          當(dāng)前位置: 首頁(yè) >

          论文浅尝 - EMNLP2020 | 跨媒体关键词预测: 多模态多头注意力和图像文本的统一框架...

          發(fā)布時(shí)間:2024/7/5 49 豆豆
          生活随笔 收集整理的這篇文章主要介紹了 论文浅尝 - EMNLP2020 | 跨媒体关键词预测: 多模态多头注意力和图像文本的统一框架... 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

          論文筆記整理:柏超宇,東南大學(xué)碩士。


          文章鏈接:https://arxiv.org/pdf/2011.01565.pdf

          來(lái)源:EMNLP 2020

          動(dòng)機(jī)

          社交媒體每天都會(huì)產(chǎn)生大量的內(nèi)容。為了幫助用戶快速捕捉所需內(nèi)容,關(guān)鍵詞預(yù)測(cè)受到越來(lái)越多的關(guān)注。盡管如此,之前的工作大多集中在文本建模上,很大程度上忽略了圖像中蘊(yùn)含的豐富信息。隨著單模態(tài)模型的發(fā)展成熟,研究人員把關(guān)注熱點(diǎn)聚焦在了多模態(tài)模型上,希望通過(guò)結(jié)合文本和視覺(jué)信息,幫助模型去更好的完成對(duì)應(yīng)任務(wù)。

          簡(jiǎn)介

          在這項(xiàng)工作中,作者探索了文本和圖像在預(yù)測(cè)多媒體帖子的關(guān)鍵詞中的作用。為了更好地調(diào)整社交媒體風(fēng)格的文本和圖像,作者提出了:(1)一種新穎的多模態(tài)多頭注意力(M3H-Att),以捕捉復(fù)雜的跨媒體交互;(2)image wordings,以光學(xué)字符和圖像屬性的形式,連接兩種模態(tài)。此外,我們?cè)O(shè)計(jì)了一個(gè)新穎的統(tǒng)一框架,以利用關(guān)鍵詞分類(lèi)和生成的輸出,并將它們的優(yōu)點(diǎn)結(jié)合起來(lái)。在實(shí)驗(yàn)部分,作者從Twitter收集了一個(gè)大規(guī)模數(shù)據(jù)集,實(shí)驗(yàn)表明,本文的模型明顯優(yōu)于之前傳統(tǒng)注意力網(wǎng)絡(luò)。進(jìn)一步的分析表明,該模型的多頭注意力能夠關(guān)注各個(gè)模態(tài)的信息,并在不同場(chǎng)景下提升分類(lèi)或生成任務(wù)的效果,本文所關(guān)注的任務(wù)是在多模態(tài)的社交信息中提取出關(guān)鍵詞。

          模型框架

          作者采用了一個(gè)生成式模型來(lái)生成最后的答案,這也是最近多模態(tài)模型常用的方法,作者使用了Glove對(duì)文字信息進(jìn)行初始化,使用GRU提取文本的特征。而在圖像方面作者考慮了兩種特征,使用了在VG數(shù)據(jù)集上預(yù)訓(xùn)練過(guò)的Faster-RCNN對(duì)目標(biāo)框進(jìn)行檢測(cè),置信度前五框的類(lèi)別被選出來(lái),作為圖像的attributefeature,用來(lái)提供對(duì)圖像的高層理解;同時(shí)也會(huì)采用卷積核為7*7的VGG-16抽取出整幅圖像的特征。而圖片中的文字信息,作者也使用了OCR技術(shù)識(shí)別了出來(lái),與文字信息拼接在一起。

          在抽取出單模態(tài)的特征后,作者使用了一個(gè)M3H-Att的模型來(lái)對(duì)這三種模態(tài)的特征進(jìn)行融合,將融合后的多模態(tài)向量解碼生成所需要的關(guān)鍵詞。

          M3H-Att即Multi-Modality Multi-Head Attention,也是基于Transformer結(jié)構(gòu)的一個(gè)編碼器。QKV三個(gè)矩陣只有Q送入了自己模態(tài)的attention層,而K和V矩陣都送入另一個(gè)模態(tài)的attention層,詳情可以參考下面的圖。

          這種結(jié)構(gòu)在雙流的多模態(tài)預(yù)訓(xùn)練模型中也有用到,如Vil-BERT,而本模型將bbox的類(lèi)別也當(dāng)成一個(gè)模態(tài)信息進(jìn)行了三個(gè)模態(tài)信息的融合。

          實(shí)驗(yàn)

          在實(shí)驗(yàn)部分,作者與一些流行的單模態(tài)多模態(tài)模型進(jìn)行對(duì)比,從實(shí)驗(yàn)結(jié)果中我們可以發(fā)現(xiàn)由于最后需要回答的關(guān)鍵詞是文本模態(tài)的,所以單從圖片中進(jìn)行解碼并不會(huì)獲得比較好的效果,而從利用文本模態(tài)能夠得到一個(gè)比較不錯(cuò)的結(jié)果,本文提出的多模態(tài)模型相比較于最出色的單文本模態(tài)模型有所提升,但是效果不明顯,圖片的視覺(jué)信息還未和文本對(duì)齊,所以帶來(lái)的性能提升非常有限,在這里可能借助一些預(yù)訓(xùn)練任務(wù)能夠讓這幾個(gè)模態(tài)的向量融合的更好。

          在實(shí)驗(yàn)部分,作者還嘗試了一些消融實(shí)驗(yàn),分別展示了在該任務(wù)上使用多頭注意力機(jī)制和OCR特征以及attribute特征的作用,分別都對(duì)模型的效果有所提升。

          總結(jié)

          本文研究了社交媒體上的跨媒體關(guān)鍵詞預(yù)測(cè)任務(wù),并提出了一個(gè)框架來(lái)融合生成和分類(lèi)模型的優(yōu)勢(shì)來(lái)完成這一任務(wù)。此外,本文還提出了一種新型的多模態(tài)多頭注意力機(jī)制來(lái)融合文本和圖像的特征。在新收集的大規(guī)模Twitter語(yǔ)料庫(kù)上的實(shí)驗(yàn)結(jié)果表明,該模型優(yōu)于基于傳統(tǒng)注意力機(jī)制的生成和分類(lèi)模型。


          ?

          OpenKG

          開(kāi)放知識(shí)圖譜(簡(jiǎn)稱 OpenKG)旨在促進(jìn)中文知識(shí)圖譜數(shù)據(jù)的開(kāi)放與互聯(lián),促進(jìn)知識(shí)圖譜和語(yǔ)義技術(shù)的普及和廣泛應(yīng)用。

          點(diǎn)擊閱讀原文,進(jìn)入 OpenKG 網(wǎng)站。

          總結(jié)

          以上是生活随笔為你收集整理的论文浅尝 - EMNLP2020 | 跨媒体关键词预测: 多模态多头注意力和图像文本的统一框架...的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

          如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。