當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

【论文阅读】Multi-Modal Sarcasm Detection 图文反讽识别

發(fā)布時間：2023/12/14 编程问答 41 豆豆

生活随笔收集整理的這篇文章主要介紹了【论文阅读】Multi-Modal Sarcasm Detection 图文反讽识别小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

Multi-Modal Sarcasm Detection 圖文反諷識別

題目：Multi-Modal Sarcasm Detection in Twitter with Hierarchical Fusion

發(fā)表會議/期刊： ACL2019

主要相關(guān)：方面級情感分析+圖文

反諷識別任務(wù)的目的是判斷一段文檔是否含有反諷表達

Conttrbutions:

將文本特征，圖像特征，圖像屬性作為三種模態(tài)

提出一種多模態(tài)層次融合模型

① 首先提取圖像特征和圖像屬性特征

② 再利用屬性特征和雙向LSTM網(wǎng)絡(luò)來提取文本特征

③ 三種模態(tài)特征進行重構(gòu)融合成一個特征向量來預測

驗證了為了充分發(fā)揮圖像的潛力，需要考慮圖像屬性——一種連接文本和圖像之間的高層次抽象信息。

圖像屬性：由描述圖像組成成分的若干詞組成。

Approach:

（1）初步表示

① For 圖片模態(tài)：

對于raw vector：使用一個預訓練和微調(diào)的ResNet模型來獲得圖片的14*14區(qū)域向量Ii\

圖片guidance vector：將原始向量平均

② For 圖片屬性模態(tài)

對于raw vector：使用另一個預訓練和微調(diào)的ResNet-101模型來預測每個圖片的5個屬性，其GloVe embeddings被視為原始屬性向量

圖片guidance vector：將原始向量加權(quán)平均
原始屬性向量 e(ai) 通過兩層卷積網(wǎng)絡(luò)得到注意力權(quán)重，用來重構(gòu)得到guidance vector :Vattr

③ For 文本模態(tài)

使用雙向LSTM來獲得推特文本表示，得到的最終隱藏狀態(tài)進行平均得到guidance vector:

（2）融合

① 早期融合：

在文本分類任務(wù)中，Bi-LSTM的初始狀態(tài)通常設(shè)置為零，但可以注入多模態(tài)信息來促進對文本模態(tài)的理解。

將非線性變換后的屬性引導向量作為Bi-LSTM的初始狀態(tài)。

曾嘗試使用圖片引導向量進行融合，但表現(xiàn)不好

[外鏈圖片轉(zhuǎn)存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-DYNDRip0-1586179918711)(C:\Users\dell\AppData\Roaming\Typora\typora-user-images\1586141236228.png)]

② 表示融合

在低層次原始向量和高層次引導向量的幫助下重構(gòu)特征向量

低層次原始向量：文本->最終時刻的隱藏狀態(tài)ht

? 圖像->14*14的區(qū)域向量

? 圖像屬性->5個屬性的嵌入表示

將原始向量和引導向量通過一層卷積+非線性變化+卷積，在標準化后平均得到每個原始向量的權(quán)重，進而得到該模態(tài)下的特征表示

③ 模態(tài)融合

特征向量轉(zhuǎn)換成定長的表示，采用兩層前饋神經(jīng)網(wǎng)絡(luò)，計算各模態(tài)的注意力權(quán)值，將其作為定長特征向量的權(quán)重得到該模態(tài)下的最終單一向量

（3）分類

使用兩層全連通神經(jīng)網(wǎng)絡(luò)作為分類層，隱含層的激活函數(shù)和輸出層的激活函數(shù)分別是ReLu函數(shù)和sigmoid函數(shù)。損失函數(shù)是交叉熵

Results:

總結(jié)

以上是生活随笔為你收集整理的【论文阅读】Multi-Modal Sarcasm Detection 图文反讽识别的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇： P3386二分图最大匹配模版
下一篇： html程序国庆节祝福,2018有关于国