當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

【论文泛读】Modeling Intra and Inter-modality Incongruity for Multi-Modal Sarcasm Detection

發(fā)布時(shí)間：2023/12/14 编程问答 53 豆豆

生活随笔收集整理的這篇文章主要介紹了【论文泛读】Modeling Intra and Inter-modality Incongruity for Multi-Modal Sarcasm Detection 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

論文題目：Modeling Intra and Inter-modality Incongruity for Multi-Modal Sarcasm Detection
時(shí)間：2020
來源：EMNLP
論文鏈接：點(diǎn)擊跳轉(zhuǎn)
論文代碼：點(diǎn)擊跳轉(zhuǎn)
又沒有代碼太難了

摘要
介紹
2. 方法
- 2.1 任務(wù)定義
- 2.2 背景
- 2.3 模型架構(gòu)
3. 實(shí)驗(yàn)
- 3.1 數(shù)據(jù)集
- 3.2 基線模型
- 3.3 實(shí)驗(yàn)設(shè)置
- 3.4 實(shí)驗(yàn)結(jié)果
- 3.5 消融研究
- 3.6 模型分析
4. 相關(guān)工作
4.1基于文本的諷刺檢測(cè)
4.2多模態(tài)諷刺檢測(cè)
5. 結(jié)論

摘要

??諷刺是當(dāng)今社交媒體平臺(tái)（例如 Twitter 和 Reddit）中普遍存在的現(xiàn)象。這些平臺(tái)允許用戶創(chuàng)建多模式消息，包括文本、圖像和視頻。現(xiàn)有的多模態(tài)諷刺檢測(cè)方法要么簡(jiǎn)單地連接多模態(tài)的特征，要么以設(shè)計(jì)的方式融合多模態(tài)信息。然而，他們忽略了諷刺話語中的不協(xié)調(diào)性，這種不協(xié)調(diào)性往往表現(xiàn)在情態(tài)之間或情態(tài)之內(nèi)。受此啟發(fā)，我們提出了一個(gè)基于 BERT 架構(gòu)的模型，該模型專注于多模態(tài)諷刺檢測(cè)的模態(tài)內(nèi)和模態(tài)間不協(xié)調(diào)。具體來說，我們受到自我注意機(jī)制和設(shè)計(jì)多模態(tài)注意以捕獲多模態(tài)不協(xié)調(diào)的想法的啟發(fā)。此外，還應(yīng)用了共同注意機(jī)制來模擬文本內(nèi)部的矛盾。然后將不一致信息用于預(yù)測(cè)。實(shí)驗(yàn)結(jié)果表明，我們的模型在公共多模態(tài)諷刺檢測(cè)數(shù)據(jù)集上達(dá)到了最先進(jìn)的性能。

介紹

??諷刺是一種比喻語言，其中單詞的字面含義不成立，而是打算進(jìn)行相反的解釋（Joshi 等，2017）。諷刺在當(dāng)今的社交媒體平臺(tái)中很普遍，它可以完全翻轉(zhuǎn)情緒或意見的極性。因此，有效的諷刺檢測(cè)器有利于情感分析、意見挖掘（Pang 和 Lee，2007）以及其他需要人們真實(shí)情感的任務(wù)。然而，諷刺的比喻性質(zhì)使其成為一項(xiàng)具有挑戰(zhàn)性的任務(wù)（Liu，2010）。學(xué)者們注意到諷刺通常與一個(gè)稱為不協(xié)調(diào)的概念相關(guān)聯(lián)，該概念用于暗示現(xiàn)實(shí)與期望之間的區(qū)別。因此，通過捕獲文本中的不協(xié)調(diào)性，提出了許多諷刺檢測(cè)方法（Riloff 等人，2013 年；Joshi 等人，2015 年；Tay 等人，2018 年；Xiong 等人，2019 年）。
??越來越多的應(yīng)用程序（如 Twitter）允許用戶發(fā)布多模式消息。因此，僅對(duì)文本模態(tài)內(nèi)的不協(xié)調(diào)進(jìn)行建模不足以識(shí)別模態(tài)間矛盾的諷刺。考慮圖 1 中的給定示例；人們不能僅僅從文本中識(shí)別諷刺，除非他們發(fā)現(xiàn)文本和圖像之間的矛盾。因此，捕獲模態(tài)之間的不協(xié)調(diào)對(duì)于多模態(tài)諷刺檢測(cè)非常重要。
??然而，現(xiàn)有的多模態(tài)諷刺檢測(cè)模型要么連接多模態(tài)的特征（Schifanella et al., 2016），要么以設(shè)計(jì)的方式融合來自不同模態(tài)的信息（Cai et al., 2019）。以前的多模態(tài)諷刺檢測(cè)方法忽略了諷刺的不協(xié)調(diào)性。我們相信對(duì)于捕捉多模態(tài)諷刺檢測(cè)的模態(tài)內(nèi)和模態(tài)間的不協(xié)調(diào)是有意義的。
??在這項(xiàng)工作中，我們將圖像和文本視為兩種模態(tài)，并提出了一種新的基于 BERT 架構(gòu)的模型，用于多模態(tài)諷刺檢測(cè)。 BERT 作為 Devlin 等人提出的預(yù)訓(xùn)練語言模型。（2019），可用于生成出色的文本表示。出于這個(gè)原因，我們利用 BERT 來獲取文本中的文本和主題標(biāo)簽（使用前面帶有“#”的單詞來表示推文的主題）的表示。我們注意到主題標(biāo)簽可能包含與文本形成對(duì)比的信息。 Maynard 和 Greenwood (2014) 也在主題標(biāo)簽的幫助下研究了情緒和諷刺。因此，我們應(yīng)用一個(gè)共同注意矩陣來將文本和主題標(biāo)簽之間的不一致建模為模態(tài)內(nèi)的不一致。此外，自注意力機(jī)制考慮了鍵和查詢之間的交互，模態(tài)間的不一致信息也可以被視為文本和圖像之間的交互。因此，受自注意力這一關(guān)鍵思想的啟發(fā)，我們?cè)O(shè)計(jì)了多模態(tài)注意力，將文本特征視為查詢，將圖像特征視為鍵和值，以捕捉模態(tài)間的不一致。然后組合模態(tài)內(nèi)和模態(tài)間不一致信息以進(jìn)行預(yù)測(cè)。
我們工作的主要貢獻(xiàn)可以總結(jié)如下：

我們提出了一種新的基于 BERT 架構(gòu)的多模態(tài)諷刺檢測(cè)模型，旨在解決現(xiàn)有的多模態(tài)諷刺檢測(cè)模型沒有考慮諷刺的不協(xié)調(diào)特征的問題
我們?cè)O(shè)計(jì)了模態(tài)間注意來模擬模態(tài)之間的不一致，并應(yīng)用共同注意機(jī)制來模擬文本模態(tài)內(nèi)的不一致以進(jìn)行多模態(tài)諷刺檢測(cè)
我們進(jìn)行了一系列實(shí)驗(yàn)來展示我們模型的有效性，我們的模型在 F1 分?jǐn)?shù)上比最先進(jìn)的方法提高了 2.74%。此外，我們發(fā)現(xiàn)考慮圖像上的文本可以帶來顯著的改進(jìn)。

2. 方法

??在本節(jié)中，我們首先定義多模態(tài)諷刺檢測(cè)任務(wù)。然后我們簡(jiǎn)要介紹 BERT 模型的背景，并詳細(xì)描述我們提出的模型的架構(gòu)。圖 2 概述了我們的模型。

圖2：我們提出的模型概述。預(yù)先訓(xùn)練的 bert 模型對(duì)文本及其內(nèi)的標(biāo)簽進(jìn)行編碼。ResNet用于獲取圖像表示。我們運(yùn)用情態(tài)內(nèi)注意來模擬文本內(nèi)部的不一致性，而情態(tài)內(nèi)注意來模擬文本和圖像之間的不一致性。然后將不一致性信息進(jìn)行組合并用于預(yù)測(cè)。

2.1 任務(wù)定義

??多模態(tài)諷刺檢測(cè)旨在識(shí)別與圖像相關(guān)的給定文本是否具有諷刺意義。形式上，給定一組多模態(tài)樣本 D，對(duì)于每個(gè)樣本 d ∈ D，它包含一個(gè)句子 T，其中有 n 個(gè)詞 { t1, t2, t3, … . . , tn} 和相關(guān)圖像 I。我們模型的目標(biāo)是學(xué)習(xí)多模態(tài)諷刺檢測(cè)分類器，以正確預(yù)測(cè)未見過樣本的結(jié)果。

2.2 背景

??語言模型預(yù)訓(xùn)練已被證明可用于許多自然語言處理任務(wù)（Peters 等人，2018 年；Howard 和 Ruder，2018 年）。 BERT 是由 Devlin 等人提出的。 (2019)，旨在通過對(duì)所有層的左右上下文進(jìn)行聯(lián)合調(diào)節(jié)，從大型未標(biāo)記數(shù)據(jù)中預(yù)訓(xùn)練深度雙向表示。預(yù)訓(xùn)練過程使 BERT 具有獲取文本良好表示的能力。 BERT 模型由多層雙向變壓器編碼器組成（V aswani 等，2017）。德夫林等人。 (2019) 在他們的工作中提出了兩個(gè) BERT 模型。具有 12 個(gè)轉(zhuǎn)換器塊的基本 BERT 模型、具有 768 個(gè)隱藏單元和 12 個(gè)注意頭的前饋網(wǎng)絡(luò)，以及具有 24 個(gè)轉(zhuǎn)換器塊的大型 BERT 模型、具有 1024 個(gè)隱藏單元和 16 個(gè)注意頭的前饋網(wǎng)絡(luò)，在我們的工作中，我們應(yīng)用預(yù)訓(xùn)練的 Base BERT 模型來獲取文本表示。

2.3 模型架構(gòu)

??我們的模型可以分為三個(gè)部分：圖像和文本處理模塊、模態(tài)間注意模塊和模態(tài)內(nèi)注意模塊。
圖像和文本處理
??對(duì)于文本處理，給定一個(gè)單詞序列 X = {x1, x2, . . . , xN}，其中 xi∈Rdis 是詞、段和位置嵌入的總和，N 是序列的最大長(zhǎng)度，d 是嵌入大小。我們?cè)谄渖喜捎妙A(yù)訓(xùn)練的 BERT 模型來獲取文本表示。編碼后的文本可以表示為 H∈Rd?N，它是 BERT 編碼器最后一層的輸出，d 是 BERT 的隱藏大小。
??對(duì)于圖像處理，給定圖像 I，我們首先將其大小調(diào)整為 224*224 像素，然后我們使用 ResNet-152 獲得圖像的表示。具體來說，我們砍掉最后一個(gè)全連接（FC）層，得到最后一個(gè)卷積層的輸出：

??其中每個(gè) $r_i$ 是一個(gè) 2048 維的向量，表示圖像上的一個(gè)區(qū)域。因此，圖像 I 可以表示為 $ResNet(I) ∈ R^{2048?49}$ 。最后，為了將視覺特征投影到文本特征的相同維度，我們對(duì)編碼圖像表示 ResNet(I) 進(jìn)行線性變換，如下所示：

??其中 $W_v∈R^{d?2048}$ 是可訓(xùn)練參數(shù)，d 是文本特征的維度。 $G ∈ R^{d?49}$ 是視覺特征的編碼表示。

模態(tài)間注意力
??模態(tài)間不一致信息可以表示為多模態(tài)特征之間的一種相互作用。對(duì)句子和圖像區(qū)域相矛盾的給予高度關(guān)注，因?yàn)椴粎f(xié)調(diào)是諷刺的關(guān)鍵特征。因此，我們借鑒了self-attention 的思想，設(shè)計(jì)了一個(gè)文本圖像匹配層來捕獲文本和圖像之間的不一致信息。我們的文本圖像匹配層接受文本特征 $H ∈ R^{d?N}$ 查詢，以及圖像特征 $G ∈ R^{d?49}$ 作為鍵和值。這樣，文本特征可以引導(dǎo)模型更加關(guān)注不協(xié)調(diào)的圖像區(qū)域。具體來說，對(duì)于圖文匹配層的第i個(gè)head，它有如下形式：

其中 $d_k∈ R^{d/h}$ ， $AT Ti(H, G) ∈ R^{N?d_k}$ ， $WiQ,WiK,WiV∈Rdk?d{W^Q_i, W^K_i, W^V_i} ∈ R^{d_k?d}$ ，可學(xué)習(xí)參數(shù)。然后將 h 個(gè)頭的輸出連接起來，然后進(jìn)行線性變換，如下所示：

其中 $W^o∈R^{d?d}$ 是一個(gè)可學(xué)習(xí)的參數(shù)。之后，對(duì)文本特征 H 和自注意力層 MATT(H, G) 的輸出進(jìn)行殘差連接：

其中 LN 是 Ba 等人提出的層歸一化操作。 (2016)。之后，在 Z 上采用前饋網(wǎng)絡(luò)（又名 M LP）和另一個(gè)殘差連接來獲得第一個(gè)變壓器編碼器的輸出：

其中 $TIM_lm(H, G)∈ R^{N?d}$ 是第一個(gè)文本圖像匹配層的輸出。我們堆疊 lm文本-圖像匹配層并得到 $TIM_lm(H, G)$ 作為最后一層的輸出，其中 $TIM_lm(H, G)∈ R^{N?d}$ 和 $l_m$ 一個(gè)預(yù)定義的超參數(shù)。模態(tài)間不一致的最終表示可以描述為 $H_G∈R^d$ ，這是[CLS]標(biāo)記在 $TIM_lm(H, G)$ 中的編碼。

模態(tài)內(nèi)注意力
由于不一致可能僅出現(xiàn)在文本中（例如，與不相關(guān)圖像相關(guān)的諷刺文本），因此有必要考慮模態(tài)內(nèi)的不一致。 Twitter 等社交媒體允許用戶添加主題標(biāo)簽來表明主題或他們的真實(shí)想法。 Maynard 和 Greenwood (2014) 指出，在分析用戶的真實(shí)情緒時(shí)，主題標(biāo)簽很有用（例如，我很高興我今天早上 5:15 醒來。# 不是）。因此，我們將原始文本和其中的主題標(biāo)簽之間的矛盾視為模態(tài)內(nèi)不協(xié)調(diào)（即，對(duì)于那些沒有主題標(biāo)簽的樣本，我們使用特殊標(biāo)記代替）。直觀上，我們可以使用與模態(tài)間注意相同的方式來獲得模態(tài)內(nèi)不協(xié)調(diào)信息。然而，我們發(fā)現(xiàn)它即使包含更多的參數(shù)也沒有帶來太大的改進(jìn)。因此，受到 Lu 等人的啟發(fā)。 (2016) 的工作，我們引入了一個(gè)親和矩陣 C 來模擬文本和主題標(biāo)簽之間的交互。 C 計(jì)算公式為：

其中 H ∈ Rd?Nand T ∈ Rd?M 分別表示文本特征和標(biāo)簽特征。 N 和 M 是預(yù)定義的超參數(shù)，分別表示輸入序列的最大長(zhǎng)度和主題標(biāo)簽。 Wb∈Rd?dis 是一個(gè)包含權(quán)重的可學(xué)習(xí)參數(shù)。在計(jì)算親和力矩陣 C ∈ RN?M 之后，我們最大化文本特征位置上的親和力矩陣以獲得標(biāo)簽注意力。具體來說，我們通過對(duì)矩陣 C 應(yīng)用列式最大池化操作來計(jì)算權(quán)重向量 a ∈ RM。 (2018) 認(rèn)為應(yīng)該突出導(dǎo)致不協(xié)調(diào)的詞（通常伴隨著高注意力價(jià)值）。因此，在我們的例子中，像最大池化這樣的更具辨別力的池化算子是可取的。最后，模態(tài)內(nèi)不一致性計(jì)算如下：

其中HT∈Rd包含模態(tài)內(nèi)不協(xié)調(diào)信息。

3. 實(shí)驗(yàn)

??本節(jié)首先描述數(shù)據(jù)集、實(shí)驗(yàn)設(shè)置、基線模型和實(shí)驗(yàn)結(jié)果。然后，我們進(jìn)行了一系列燒蝕實(shí)驗(yàn)來驗(yàn)證組件在我們的模型。之后，我們分析了文本圖像匹配層數(shù)對(duì)模型性能的影響。最后，我們給出了幾個(gè)給定的諷刺案例的模型可視化，并對(duì)錯(cuò)誤預(yù)測(cè)的樣本進(jìn)行了分析。

3.1 數(shù)據(jù)集

??我們?cè)谝粋€(gè)公開可用的多模態(tài)諷刺檢測(cè)數(shù)據(jù)集上評(píng)估我們的模型，該數(shù)據(jù)集由 Cai 等人收集。 (2019)。數(shù)據(jù)集中的每個(gè)樣本都由一系列文本和相關(guān)圖像組成。包含諷刺、諷刺、諷刺、諷刺或 URL 等詞的推文在數(shù)據(jù)預(yù)處理期間被丟棄。蔡等人。 (2019) 將數(shù)據(jù)劃分為訓(xùn)練集、開發(fā)集和測(cè)試集，比例為80%:10%:10%。他們還手動(dòng)檢查開發(fā)集和測(cè)試集，以確保標(biāo)簽的準(zhǔn)確性。詳細(xì)的統(tǒng)計(jì)數(shù)據(jù)總結(jié)在表 1 中。

3.2 基線模型

??我們將基線模型分為三類：視覺模態(tài)模型、文本模態(tài)模型和文本視覺模態(tài)模型。

視覺模態(tài)模型：Image-Only：圖像特征 G 直接用于預(yù)測(cè)平均池化操作后的結(jié)果。
文本模態(tài)模型：
TextCNN： 由 Kim (2014) 提出，是一種基于 CNN 的深度學(xué)習(xí)模型，用于解決文本分類任務(wù)。
SIARN： SIARN 是由 Tay 等人提出的。 (2018)。它采用內(nèi)部注意力進(jìn)行文本諷刺檢測(cè)，以克服先前序列模型（如 RNN）的弱點(diǎn)，這些模型無法捕獲詞對(duì)之間的交互并妨礙明確建模不協(xié)調(diào)的能力。
SMSD： 繼（Tay et al.，2018）的工作之后，Xiong et al.（2019）提出了一個(gè)自匹配網(wǎng)絡(luò)，通過探索詞與詞之間的交互來捕獲句子不一致信息。
BERT: BERT是Devlin等人（2019）提出的一種預(yù)訓(xùn)練模型，它在許多NLP任務(wù)中實(shí)現(xiàn)了最先進(jìn)的結(jié)果。我們認(rèn)為這是一個(gè)基線調(diào)查性能增益來自伯特或我們提出的方法。
視覺文本模態(tài)模型：
Hierarchical Fusion Model（HFM）： 蔡等人。 (2019) 提出了一種用于多模態(tài)諷刺檢測(cè)的分層融合模型。他們的模型將圖像特征、圖像屬性特征和文本特征作為三種模態(tài)。三種模態(tài)的特征被重建和融合以進(jìn)行預(yù)測(cè)。
Res-bert： 我們將 Res-bert 實(shí)現(xiàn)為我們的基線模型之一。 Res-bert 簡(jiǎn)單地將圖像特征 G 和文本特征 H 連接起來進(jìn)行分類。

3.3 實(shí)驗(yàn)設(shè)置

??我們的模型在 PyTorch (Paszke et al., 2019) 中實(shí)現(xiàn)，在 NVIDIA TITAN RTX GPU 上運(yùn)行。預(yù)訓(xùn)練的 BERT 模型可從 Hugging Face 發(fā)布的轉(zhuǎn)換工具包中獲得。2我們采用 Adam (Kingma and Ba, 2015) 作為我們的優(yōu)化器，并將初始學(xué)習(xí)率設(shè)置為 5e-5，預(yù)熱率為 0.2。用于訓(xùn)練的批大小固定為 32。文本的最大長(zhǎng)度為 75，主題標(biāo)簽的最大長(zhǎng)度分別為 10。我們的模型針對(duì) 8 個(gè) epoch 進(jìn)行了微調(diào)訓(xùn)練集。我們保存模型，它在驗(yàn)證集上具有最佳性能。完整參數(shù)列于表 2 中

3.4 實(shí)驗(yàn)結(jié)果

??我們將我們的模型與基線模型在標(biāo)準(zhǔn)指標(biāo)上進(jìn)行比較，包括精度、召回率、F1 分?jǐn)?shù)和準(zhǔn)確率。3 結(jié)果如表 3 所示。實(shí)驗(yàn)結(jié)果表明，我們的模型在基線模型中取得了最佳性能。具體來說，與 Cai 等人提出的最先進(jìn)的分層融合模型 (HFM) 相比，我們的模型在 F1 分?jǐn)?shù)方面獲得了 2.74% 的改進(jìn)。 (2019)。我們的模型也以 2.7% 的改進(jìn)優(yōu)于微調(diào)的 BERT 模型，這顯示了我們模型的有效性和圖像的重要作用。
??從表 3 中我們可以看出，僅使用圖像特征的模型表現(xiàn)不佳，這表明對(duì)于多模態(tài)諷刺檢測(cè)任務(wù)無法獨(dú)立處理圖像。顯然，基于文本模態(tài)的方法比基于圖像模態(tài)的方法獲得了更好的性能。因此，對(duì)于諷刺檢測(cè)，文本信息比圖像信息更有用。值得注意的是，微調(diào)的 BERT 模型的性能遠(yuǎn)遠(yuǎn)優(yōu)于其他基于文本的非預(yù)訓(xùn)練模型，這支持了我們的動(dòng)機(jī)，即像 BERT 這樣的預(yù)訓(xùn)練模型可以改進(jìn)我們的任務(wù)。屬于 Visual Text 模態(tài)的模型通常比其他模型獲得更好的結(jié)果，表明圖像對(duì)于提高性能很有用。
??查看文本模態(tài)中的模型，SIARN（Tay 等人，2018 年）和 SMSD（Xiong 等人，2019 年）都將不一致信息納入考慮并優(yōu)于 TextCNN。因此，不協(xié)調(diào)信息有利于識(shí)別諷刺。我們提出的方法比 Res-bert 取得了更好的結(jié)果，證明對(duì)模態(tài)內(nèi)和模態(tài)間不協(xié)調(diào)進(jìn)行建模比用于多模態(tài)諷刺檢測(cè)的簡(jiǎn)單模態(tài)串聯(lián)更有效。

3.5 消融研究

??為了評(píng)估模型中各組件的有效性，我們進(jìn)行了一系列的消融實(shí)驗(yàn)。我們首先去掉通道內(nèi)注意力，得到只使用HG進(jìn)行預(yù)測(cè)的模型(w\o Intra)。然后，我們消除了通道間的注意，得到了無通道注意的模型。該模型將H和HT連接到分類器層，實(shí)驗(yàn)結(jié)果表明，HT在我們的模型中只起到輔助作用。
??表4給出了消融實(shí)驗(yàn)的結(jié)果。實(shí)驗(yàn)結(jié)果表明，當(dāng)同時(shí)包含通道內(nèi)和通道間注意模塊時(shí)，我們提出的模型獲得了最好的性能。通道間注意力的缺失導(dǎo)致檢測(cè)結(jié)果的降低，證明了考慮通道之間的矛盾對(duì)于多通道諷刺檢測(cè)具有重要意義。沒有通道內(nèi)注意的模型也會(huì)影響性能。因此，通道內(nèi)和通道間注意在我們的模型中扮演著不可或缺的角色。

誤差分析：我們還對(duì)錯(cuò)誤預(yù)測(cè)的樣本進(jìn)行定性分析。我們檢查了大約50個(gè)錯(cuò)誤分類的實(shí)例，發(fā)現(xiàn)我們的模型可能會(huì)錯(cuò)誤地對(duì)包含圖像上必要文本信息的樣本進(jìn)行分類（見圖5）。因此，考慮圖像上的文本可能會(huì)改進(jìn)多模態(tài)諷刺檢測(cè)任務(wù)。基于這一觀察，我們進(jìn)一步實(shí)現(xiàn)了一個(gè)實(shí)驗(yàn)，其中考慮了圖像上的文本。具體來說，我們使用一個(gè)通用的字符識(shí)別API來獲取圖片上的文本，并使用共同注意矩陣來建模原始tweet和文本之間的不一致信息。表5顯示，當(dāng)考慮到圖像上的文本時(shí)，我們的模型實(shí)現(xiàn)了顯著的改進(jìn)。除此之外我們發(fā)現(xiàn)我們的模型在需要外部知識(shí)的情況下，例如說話人的面部姿勢(shì)或上下文信息，可能會(huì)遇到困難。因此，外部信息對(duì)于諷刺檢測(cè)也是必不可少的。

3.6 模型分析

??文本-圖像匹配層數(shù)lm的影響：我們測(cè)量模型性能對(duì)F1得分的影響，以及文本-圖像匹配層數(shù)lm從1到7的范圍。在圖4中我們可以看到，當(dāng)lmequals為3時(shí)，F1得分一直增加，直到達(dá)到峰值。在這一點(diǎn)上，我們的模型取得了最佳的性能。然后，隨著lm的繼續(xù)增長(zhǎng)，模型的性能開始下降。我們猜測(cè)性能會(huì)變差，可能是由于模型參數(shù)的增加，這表明添加更多的文本-圖像匹配層可能不會(huì)增強(qiáng)性能，反而會(huì)阻礙性能。
??模型可視化：在本節(jié)中，我們將可視化文本圖像的注意力分布。我們的模型旨在捕獲不一致信息。因此，我們的模型更可能關(guān)注圖像上的不一致區(qū)域。我們展示了從數(shù)據(jù)集中收集的幾個(gè)諷刺案例：

4. 相關(guān)工作

4.1基于文本的諷刺檢測(cè)

4.2多模態(tài)諷刺檢測(cè)

??值得注意的是，也有一些有價(jià)值的工作集中在多模態(tài)諷刺檢測(cè)。Schifanella等人（2016）首先考慮諷刺和諷刺的文本和視覺特征，并提出兩種可供選擇的框架。Mishra等人（2017年）提出了情感和諷刺分類的認(rèn)知 NLP 系統(tǒng)。他們引入了一個(gè)框架來自動(dòng)從眼動(dòng)/凝視數(shù)據(jù)中提取認(rèn)知特征。他們使用CNN對(duì)基于凝視和文本的特征進(jìn)行編碼以進(jìn)行分類。卡斯特羅等人（2019年）提出了一個(gè)新的諷刺數(shù)據(jù)集，該數(shù)據(jù)集來自電視節(jié)目。他們將文本特征、語音特征和視頻特征視為三種模式，并使用支持向量機(jī)作為分類器。Cai等人（2019）介紹了一種分層融合模型。它們將圖像特征、圖像屬性特征和文本特征作為三種模式。三種模式的特征被重建并融合用于預(yù)測(cè)。

5. 結(jié)論

??在本文中，我們提出了一種新的基于 bert 的模型，以解決現(xiàn)有的多模態(tài)諷刺檢測(cè)方法不考慮不一致性諷刺的問題。具體來說，我們的模型考慮了模態(tài)內(nèi)和模態(tài)間的不一致性，并在公共多模態(tài)諷刺檢測(cè)數(shù)據(jù)集上實(shí)現(xiàn)了最先進(jìn)的性能。此外，我們還進(jìn)行了一系列實(shí)驗(yàn)來驗(yàn)證模型的有效性。最后，我們進(jìn)行了錯(cuò)誤分析，發(fā)現(xiàn)圖像上的文本對(duì)于多模態(tài)諷刺檢測(cè)是必不可少的。

總結(jié)

以上是生活随笔為你收集整理的【论文泛读】Modeling Intra and Inter-modality Incongruity for Multi-Modal Sarcasm Detection的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

生活随笔