【论文泛读】Modeling Intra and Inter-modality Incongruity for Multi-Modal Sarcasm Detection
論文題目:Modeling Intra and Inter-modality Incongruity for Multi-Modal Sarcasm Detection
時(shí)間:2020
來源:EMNLP
論文鏈接:點(diǎn)擊跳轉(zhuǎn)
論文代碼:點(diǎn)擊跳轉(zhuǎn)
又沒有代碼 太難了
目錄
- 摘要
- 介紹
- 2. 方法
- 2.1 任務(wù)定義
- 2.2 背景
- 2.3 模型架構(gòu)
- 3. 實(shí)驗(yàn)
- 3.1 數(shù)據(jù)集
- 3.2 基線模型
- 3.3 實(shí)驗(yàn)設(shè)置
- 3.4 實(shí)驗(yàn)結(jié)果
- 3.5 消融研究
- 3.6 模型分析
- 4. 相關(guān)工作
- 4.1基于文本的諷刺檢測(cè)
- 4.2多模態(tài)諷刺檢測(cè)
- 5. 結(jié)論
摘要
??諷刺是當(dāng)今社交媒體平臺(tái)(例如 Twitter 和 Reddit)中普遍存在的現(xiàn)象。這些平臺(tái)允許用戶創(chuàng)建多模式消息,包括文本、圖像和視頻。現(xiàn)有的多模態(tài)諷刺檢測(cè)方法要么簡(jiǎn)單地連接多模態(tài)的特征,要么以設(shè)計(jì)的方式融合多模態(tài)信息。然而,他們忽略了諷刺話語中的不協(xié)調(diào)性,這種不協(xié)調(diào)性往往表現(xiàn)在情態(tài)之間或情態(tài)之內(nèi)。受此啟發(fā),我們提出了一個(gè)基于 BERT 架構(gòu)的模型,該模型專注于多模態(tài)諷刺檢測(cè)的模態(tài)內(nèi)和模態(tài)間不協(xié)調(diào)。具體來說,我們受到自我注意機(jī)制和設(shè)計(jì)多模態(tài)注意以捕獲多模態(tài)不協(xié)調(diào)的想法的啟發(fā)。此外,還應(yīng)用了共同注意機(jī)制來模擬文本內(nèi)部的矛盾。然后將不一致信息用于預(yù)測(cè)。實(shí)驗(yàn)結(jié)果表明,我們的模型在公共多模態(tài)諷刺檢測(cè)數(shù)據(jù)集上達(dá)到了最先進(jìn)的性能。
介紹
??諷刺是一種比喻語言,其中單詞的字面含義不成立,而是打算進(jìn)行相反的解釋(Joshi 等,2017)。諷刺在當(dāng)今的社交媒體平臺(tái)中很普遍,它可以完全翻轉(zhuǎn)情緒或意見的極性。因此,有效的諷刺檢測(cè)器有利于情感分析、意見挖掘(Pang 和 Lee,2007)以及其他需要人們真實(shí)情感的任務(wù)。然而,諷刺的比喻性質(zhì)使其成為一項(xiàng)具有挑戰(zhàn)性的任務(wù)(Liu,2010)。學(xué)者們注意到諷刺通常與一個(gè)稱為不協(xié)調(diào)的概念相關(guān)聯(lián),該概念用于暗示現(xiàn)實(shí)與期望之間的區(qū)別。因此,通過捕獲文本中的不協(xié)調(diào)性,提出了許多諷刺檢測(cè)方法(Riloff 等人,2013 年;Joshi 等人,2015 年;Tay 等人,2018 年;Xiong 等人,2019 年)。
??越來越多的應(yīng)用程序(如 Twitter)允許用戶發(fā)布多模式消息。因此,僅對(duì)文本模態(tài)內(nèi)的不協(xié)調(diào)進(jìn)行建模不足以識(shí)別模態(tài)間矛盾的諷刺。考慮圖 1 中的給定示例;人們不能僅僅從文本中識(shí)別諷刺,除非他們發(fā)現(xiàn)文本和圖像之間的矛盾。因此,捕獲模態(tài)之間的不協(xié)調(diào)對(duì)于多模態(tài)諷刺檢測(cè)非常重要。
??然而,現(xiàn)有的多模態(tài)諷刺檢測(cè)模型要么連接多模態(tài)的特征(Schifanella et al., 2016),要么以設(shè)計(jì)的方式融合來自不同模態(tài)的信息(Cai et al., 2019)。以前的多模態(tài)諷刺檢測(cè)方法忽略了諷刺的不協(xié)調(diào)性。我們相信對(duì)于捕捉多模態(tài)諷刺檢測(cè)的模態(tài)內(nèi)和模態(tài)間的不協(xié)調(diào)是有意義的。
??在這項(xiàng)工作中,我們將圖像和文本視為兩種模態(tài),并提出了一種新的基于 BERT 架構(gòu)的模型,用于多模態(tài)諷刺檢測(cè)。 BERT 作為 Devlin 等人提出的預(yù)訓(xùn)練語言模型。 (2019),可用于生成出色的文本表示。出于這個(gè)原因,我們利用 BERT 來獲取文本中的文本和主題標(biāo)簽(使用前面帶有“#”的單詞來表示推文的主題)的表示。我們注意到主題標(biāo)簽可能包含與文本形成對(duì)比的信息。 Maynard 和 Greenwood (2014) 也在主題標(biāo)簽的幫助下研究了情緒和諷刺。因此,我們應(yīng)用一個(gè)共同注意矩陣來將文本和主題標(biāo)簽之間的不一致建模為模態(tài)內(nèi)的不一致。此外,自注意力機(jī)制考慮了鍵和查詢之間的交互,模態(tài)間的不一致信息也可以被視為文本和圖像之間的交互。因此,受自注意力這一關(guān)鍵思想的啟發(fā),我們?cè)O(shè)計(jì)了多模態(tài)注意力,將文本特征視為查詢,將圖像特征視為鍵和值,以捕捉模態(tài)間的不一致。然后組合模態(tài)內(nèi)和模態(tài)間不一致信息以進(jìn)行預(yù)測(cè)。
我們工作的主要貢獻(xiàn)可以總結(jié)如下:
- 我們提出了一種新的基于 BERT 架構(gòu)的多模態(tài)諷刺檢測(cè)模型,旨在解決現(xiàn)有的多模態(tài)諷刺檢測(cè)模型沒有考慮諷刺的不協(xié)調(diào)特征的問題
- 我們?cè)O(shè)計(jì)了模態(tài)間注意來模擬模態(tài)之間的不一致,并應(yīng)用共同注意機(jī)制來模擬文本模態(tài)內(nèi)的不一致以進(jìn)行多模態(tài)諷刺檢測(cè)
- 我們進(jìn)行了一系列實(shí)驗(yàn)來展示我們模型的有效性,我們的模型在 F1 分?jǐn)?shù)上比最先進(jìn)的方法提高了 2.74%。此外,我們發(fā)現(xiàn)考慮圖像上的文本可以帶來顯著的改進(jìn)。
2. 方法
??在本節(jié)中,我們首先定義多模態(tài)諷刺檢測(cè)任務(wù)。然后我們簡(jiǎn)要介紹 BERT 模型的背景,并詳細(xì)描述我們提出的模型的架構(gòu)。圖 2 概述了我們的模型。
圖2:我們提出的模型概述。預(yù)先訓(xùn)練的 bert 模型對(duì)文本及其內(nèi)的標(biāo)簽進(jìn)行編碼。ResNet用于獲取圖像表示。我們運(yùn)用情態(tài)內(nèi)注意來模擬文本內(nèi)部的不一致性,而情態(tài)內(nèi)注意來模擬文本和圖像之間的不一致性。然后將不一致性信息進(jìn)行組合并用于預(yù)測(cè)。
2.1 任務(wù)定義
??多模態(tài)諷刺檢測(cè)旨在識(shí)別與圖像相關(guān)的給定文本是否具有諷刺意義。形式上,給定一組多模態(tài)樣本 D,對(duì)于每個(gè)樣本 d ∈ D,它包含一個(gè)句子 T,其中有 n 個(gè)詞 { t1, t2, t3, … . . , tn} 和相關(guān)圖像 I。我們模型的目標(biāo)是學(xué)習(xí)多模態(tài)諷刺檢測(cè)分類器,以正確預(yù)測(cè)未見過樣本的結(jié)果。
2.2 背景
??語言模型預(yù)訓(xùn)練已被證明可用于許多自然語言處理任務(wù)(Peters 等人,2018 年;Howard 和 Ruder,2018 年)。 BERT 是由 Devlin 等人提出的。 (2019),旨在通過對(duì)所有層的左右上下文進(jìn)行聯(lián)合調(diào)節(jié),從大型未標(biāo)記數(shù)據(jù)中預(yù)訓(xùn)練深度雙向表示。預(yù)訓(xùn)練過程使 BERT 具有獲取文本良好表示的能力。 BERT 模型由多層雙向變壓器編碼器組成(V aswani 等,2017)。德夫林等人。 (2019) 在他們的工作中提出了兩個(gè) BERT 模型。具有 12 個(gè)轉(zhuǎn)換器塊的基本 BERT 模型、具有 768 個(gè)隱藏單元和 12 個(gè)注意頭的前饋網(wǎng)絡(luò),以及具有 24 個(gè)轉(zhuǎn)換器塊的大型 BERT 模型、具有 1024 個(gè)隱藏單元和 16 個(gè)注意頭的前饋網(wǎng)絡(luò),在我們的工作中,我們應(yīng)用預(yù)訓(xùn)練的 Base BERT 模型來獲取文本表示。
2.3 模型架構(gòu)
??我們的模型可以分為三個(gè)部分:圖像和文本處理模塊、模態(tài)間注意模塊和模態(tài)內(nèi)注意模塊。
圖像和文本處理
??對(duì)于文本處理,給定一個(gè)單詞序列 X = {x1, x2, . . . , xN},其中 xi∈Rdis 是詞、段和位置嵌入的總和,N 是序列的最大長(zhǎng)度,d 是嵌入大小。我們?cè)谄渖喜捎妙A(yù)訓(xùn)練的 BERT 模型來獲取文本表示。編碼后的文本可以表示為 H∈Rd?N,它是 BERT 編碼器最后一層的輸出,d 是 BERT 的隱藏大小。
??對(duì)于圖像處理,給定圖像 I,我們首先將其大小調(diào)整為 224*224 像素,然后我們使用 ResNet-152 獲得圖像的表示。具體來說,我們砍掉最后一個(gè)全連接(FC)層,得到最后一個(gè)卷積層的輸出:
??其中每個(gè) rir_iri? 是一個(gè) 2048 維的向量,表示圖像上的一個(gè)區(qū)域。因此,圖像 I 可以表示為 ResNet(I)∈R2048?49ResNet(I) ∈ R^{2048?49}ResNet(I)∈R2048?49。最后,為了將視覺特征投影到文本特征的相同維度,我們對(duì)編碼圖像表示 ResNet(I) 進(jìn)行線性變換,如下所示:
??其中 Wv∈Rd?2048W_v∈R^{d?2048}Wv?∈Rd?2048 是可訓(xùn)練參數(shù),d 是文本特征的維度。 G∈Rd?49G ∈ R^{d?49}G∈Rd?49 是視覺特征的編碼表示。
模態(tài)間注意力
??模態(tài)間不一致信息可以表示為多模態(tài)特征之間的一種相互作用。對(duì)句子和圖像區(qū)域相矛盾的給予高度關(guān)注,因?yàn)椴粎f(xié)調(diào)是諷刺的關(guān)鍵特征。因此,我們借鑒了self-attention 的思想,設(shè)計(jì)了一個(gè)文本圖像匹配層來捕獲文本和圖像之間的不一致信息。我們的文本圖像匹配層接受文本特征 H∈Rd?NH ∈ R^{d?N}H∈Rd?N 查詢,以及圖像特征G∈Rd?49G ∈ R^{d?49}G∈Rd?49 作為鍵和值。這樣,文本特征可以引導(dǎo)模型更加關(guān)注不協(xié)調(diào)的圖像區(qū)域。具體來說,對(duì)于圖文匹配層的第i個(gè)head,它有如下形式:
其中 dk∈Rd/hd_k∈ R^{d/h}dk?∈Rd/h,ATTi(H,G)∈RN?dkAT Ti(H, G) ∈ R^{N?d_k}ATTi(H,G)∈RN?dk?,WiQ,WiK,WiV∈Rdk?d{W^Q_i, W^K_i, W^V_i} ∈ R^{d_k?d}WiQ?,WiK?,WiV?∈Rdk??d,可學(xué)習(xí)參數(shù)。然后將 h 個(gè)頭的輸出連接起來,然后進(jìn)行線性變換,如下所示:
其中 Wo∈Rd?dW^o∈R^{d?d}Wo∈Rd?d 是一個(gè)可學(xué)習(xí)的參數(shù)。之后,對(duì)文本特征 H 和自注意力層 MATT(H, G) 的輸出進(jìn)行殘差連接:
其中 LN 是 Ba 等人提出的層歸一化操作。 (2016)。之后,在 Z 上采用前饋網(wǎng)絡(luò)(又名 M LP)和另一個(gè)殘差連接來獲得第一個(gè)變壓器編碼器的輸出:
其中TIMlm(H,G)∈RN?dTIM_lm(H, G)∈ R^{N?d}TIMl?m(H,G)∈RN?d是第一個(gè)文本圖像匹配層的輸出。我們堆疊 lm文本-圖像匹配層并得到TIMlm(H,G)TIM_lm(H, G)TIMl?m(H,G)作為最后一層的輸出,其中TIMlm(H,G)∈RN?dTIM_lm(H, G)∈ R^{N?d}TIMl?m(H,G)∈RN?d 和 lml_mlm?一個(gè)預(yù)定義的超參數(shù)。模態(tài)間不一致的最終表示可以描述為HG∈RdH_G∈R^dHG?∈Rd,這是[CLS]標(biāo)記在TIMlm(H,G)TIM_lm(H, G)TIMl?m(H,G)中的編碼。
模態(tài)內(nèi)注意力
由于不一致可能僅出現(xiàn)在文本中(例如,與不相關(guān)圖像相關(guān)的諷刺文本),因此有必要考慮模態(tài)內(nèi)的不一致。 Twitter 等社交媒體允許用戶添加主題標(biāo)簽來表明主題或他們的真實(shí)想法。 Maynard 和 Greenwood (2014) 指出,在分析用戶的真實(shí)情緒時(shí),主題標(biāo)簽很有用(例如,我很高興我今天早上 5:15 醒來。# 不是)。因此,我們將原始文本和其中的主題標(biāo)簽之間的矛盾視為模態(tài)內(nèi)不協(xié)調(diào)(即,對(duì)于那些沒有主題標(biāo)簽的樣本,我們使用特殊標(biāo)記代替)。直觀上,我們可以使用與模態(tài)間注意相同的方式來獲得模態(tài)內(nèi)不協(xié)調(diào)信息。然而,我們發(fā)現(xiàn)它即使包含更多的參數(shù)也沒有帶來太大的改進(jìn)。因此,受到 Lu 等人的啟發(fā)。 (2016) 的工作,我們引入了一個(gè)親和矩陣 C 來模擬文本和主題標(biāo)簽之間的交互。 C 計(jì)算公式為:
其中 H ∈ Rd?Nand T ∈ Rd?M 分別表示文本特征和標(biāo)簽特征。 N 和 M 是預(yù)定義的超參數(shù),分別表示輸入序列的最大長(zhǎng)度和主題標(biāo)簽。 Wb∈Rd?dis 是一個(gè)包含權(quán)重的可學(xué)習(xí)參數(shù)。在計(jì)算親和力矩陣 C ∈ RN?M 之后,我們最大化文本特征位置上的親和力矩陣以獲得標(biāo)簽注意力。具體來說,我們通過對(duì)矩陣 C 應(yīng)用列式最大池化操作來計(jì)算權(quán)重向量 a ∈ RM。 (2018) 認(rèn)為應(yīng)該突出導(dǎo)致不協(xié)調(diào)的詞(通常伴隨著高注意力價(jià)值)。因此,在我們的例子中,像最大池化這樣的更具辨別力的池化算子是可取的。最后,模態(tài)內(nèi)不一致性計(jì)算如下:
其中HT∈Rd包含模態(tài)內(nèi)不協(xié)調(diào)信息。
3. 實(shí)驗(yàn)
??本節(jié)首先描述數(shù)據(jù)集、實(shí)驗(yàn)設(shè)置、基線模型和實(shí)驗(yàn)結(jié)果。然后,我們進(jìn)行了一系列燒蝕實(shí)驗(yàn)來驗(yàn)證組件在我們的模型。之后,我們分析了文本圖像匹配層數(shù)對(duì)模型性能的影響。最后,我們給出了幾個(gè)給定的諷刺案例的模型可視化,并對(duì)錯(cuò)誤預(yù)測(cè)的樣本進(jìn)行了分析。
3.1 數(shù)據(jù)集
??我們?cè)谝粋€(gè)公開可用的多模態(tài)諷刺檢測(cè)數(shù)據(jù)集上評(píng)估我們的模型,該數(shù)據(jù)集由 Cai 等人收集。 (2019)。數(shù)據(jù)集中的每個(gè)樣本都由一系列文本和相關(guān)圖像組成。包含諷刺、諷刺、諷刺、諷刺或 URL 等詞的推文在數(shù)據(jù)預(yù)處理期間被丟棄。蔡等人。 (2019) 將數(shù)據(jù)劃分為訓(xùn)練集、開發(fā)集和測(cè)試集,比例為80%:10%:10%。他們還手動(dòng)檢查開發(fā)集和測(cè)試集,以確保標(biāo)簽的準(zhǔn)確性。詳細(xì)的統(tǒng)計(jì)數(shù)據(jù)總結(jié)在表 1 中。
3.2 基線模型
??我們將基線模型分為三類:視覺模態(tài)模型、文本模態(tài)模型和文本視覺模態(tài)模型。
- 視覺模態(tài)模型:Image-Only:圖像特征 G 直接用于預(yù)測(cè)平均池化操作后的結(jié)果。
- 文本模態(tài)模型:
TextCNN: 由 Kim (2014) 提出,是一種基于 CNN 的深度學(xué)習(xí)模型,用于解決文本分類任務(wù)。
SIARN: SIARN 是由 Tay 等人提出的。 (2018)。它采用內(nèi)部注意力進(jìn)行文本諷刺檢測(cè),以克服先前序列模型(如 RNN)的弱點(diǎn),這些模型無法捕獲詞對(duì)之間的交互并妨礙明確建模不協(xié)調(diào)的能力。
SMSD: 繼(Tay et al.,2018)的工作之后,Xiong et al.(2019)提出了一個(gè)自匹配網(wǎng)絡(luò),通過探索詞與詞之間的交互來捕獲句子不一致信息。
BERT: BERT是Devlin等人(2019)提出的一種預(yù)訓(xùn)練模型,它在許多NLP任務(wù)中實(shí)現(xiàn)了最先進(jìn)的結(jié)果。我們認(rèn)為這是一個(gè)基線調(diào)查性能增益來自伯特或我們提出的方法。 - 視覺文本模態(tài)模型:
Hierarchical Fusion Model(HFM): 蔡等人。 (2019) 提出了一種用于多模態(tài)諷刺檢測(cè)的分層融合模型。他們的模型將圖像特征、圖像屬性特征和文本特征作為三種模態(tài)。三種模態(tài)的特征被重建和融合以進(jìn)行預(yù)測(cè)。
Res-bert: 我們將 Res-bert 實(shí)現(xiàn)為我們的基線模型之一。 Res-bert 簡(jiǎn)單地將圖像特征 G 和文本特征 H 連接起來進(jìn)行分類。
3.3 實(shí)驗(yàn)設(shè)置
??我們的模型在 PyTorch (Paszke et al., 2019) 中實(shí)現(xiàn),在 NVIDIA TITAN RTX GPU 上運(yùn)行。預(yù)訓(xùn)練的 BERT 模型可從 Hugging Face 發(fā)布的轉(zhuǎn)換工具包中獲得。2我們采用 Adam (Kingma and Ba, 2015) 作為我們的優(yōu)化器,并將初始學(xué)習(xí)率設(shè)置為 5e-5,預(yù)熱率為 0.2。用于訓(xùn)練的批大小固定為 32。文本的最大長(zhǎng)度為 75,主題標(biāo)簽的最大長(zhǎng)度分別為 10。我們的模型針對(duì) 8 個(gè) epoch 進(jìn)行了微調(diào)訓(xùn)練集。我們保存模型,它在驗(yàn)證集上具有最佳性能。完整參數(shù)列于表 2 中
3.4 實(shí)驗(yàn)結(jié)果
??我們將我們的模型與基線模型在標(biāo)準(zhǔn)指標(biāo)上進(jìn)行比較,包括精度、召回率、F1 分?jǐn)?shù)和準(zhǔn)確率。3 結(jié)果如表 3 所示。實(shí)驗(yàn)結(jié)果表明,我們的模型在基線模型中取得了最佳性能。具體來說,與 Cai 等人提出的最先進(jìn)的分層融合模型 (HFM) 相比,我們的模型在 F1 分?jǐn)?shù)方面獲得了 2.74% 的改進(jìn)。 (2019)。我們的模型也以 2.7% 的改進(jìn)優(yōu)于微調(diào)的 BERT 模型,這顯示了我們模型的有效性和圖像的重要作用。
??從表 3 中我們可以看出,僅使用圖像特征的模型表現(xiàn)不佳,這表明對(duì)于多模態(tài)諷刺檢測(cè)任務(wù)無法獨(dú)立處理圖像。顯然,基于文本模態(tài)的方法比基于圖像模態(tài)的方法獲得了更好的性能。因此,對(duì)于諷刺檢測(cè),文本信息比圖像信息更有用。值得注意的是,微調(diào)的 BERT 模型的性能遠(yuǎn)遠(yuǎn)優(yōu)于其他基于文本的非預(yù)訓(xùn)練模型,這支持了我們的動(dòng)機(jī),即像 BERT 這樣的預(yù)訓(xùn)練模型可以改進(jìn)我們的任務(wù)。屬于 Visual Text 模態(tài)的模型通常比其他模型獲得更好的結(jié)果,表明圖像對(duì)于提高性能很有用。
??查看文本模態(tài)中的模型,SIARN(Tay 等人,2018 年)和 SMSD(Xiong 等人,2019 年)都將不一致信息納入考慮并優(yōu)于 TextCNN。因此,不協(xié)調(diào)信息有利于識(shí)別諷刺。我們提出的方法比 Res-bert 取得了更好的結(jié)果,證明對(duì)模態(tài)內(nèi)和模態(tài)間不協(xié)調(diào)進(jìn)行建模比用于多模態(tài)諷刺檢測(cè)的簡(jiǎn)單模態(tài)串聯(lián)更有效。
3.5 消融研究
??為了評(píng)估模型中各組件的有效性,我們進(jìn)行了一系列的消融實(shí)驗(yàn)。我們首先去掉通道內(nèi)注意力,得到只使用HG進(jìn)行預(yù)測(cè)的模型(w\o Intra)。然后,我們消除了通道間的注意,得到了無通道注意的模型。該模型將H和HT連接到分類器層,實(shí)驗(yàn)結(jié)果表明,HT在我們的模型中只起到輔助作用。
??表4給出了消融實(shí)驗(yàn)的結(jié)果。實(shí)驗(yàn)結(jié)果表明,當(dāng)同時(shí)包含通道內(nèi)和通道間注意模塊時(shí),我們提出的模型獲得了最好的性能。通道間注意力的缺失導(dǎo)致檢測(cè)結(jié)果的降低,證明了考慮通道之間的矛盾對(duì)于多通道諷刺檢測(cè)具有重要意義。沒有通道內(nèi)注意的模型也會(huì)影響性能。因此,通道內(nèi)和通道間注意在我們的模型中扮演著不可或缺的角色。
誤差分析:我們還對(duì)錯(cuò)誤預(yù)測(cè)的樣本進(jìn)行定性分析。我們檢查了大約50個(gè)錯(cuò)誤分類的實(shí)例,發(fā)現(xiàn)我們的模型可能會(huì)錯(cuò)誤地對(duì)包含圖像上必要文本信息的樣本進(jìn)行分類(見圖5)。因此,考慮圖像上的文本可能會(huì)改進(jìn)多模態(tài)諷刺檢測(cè)任務(wù)。基于這一觀察,我們進(jìn)一步實(shí)現(xiàn)了一個(gè)實(shí)驗(yàn),其中考慮了圖像上的文本。具體來說,我們使用一個(gè)通用的字符識(shí)別API來獲取圖片上的文本,并使用共同注意矩陣來建模原始tweet和文本之間的不一致信息。表5顯示,當(dāng)考慮到圖像上的文本時(shí),我們的模型實(shí)現(xiàn)了顯著的改進(jìn)。除此之外我們發(fā)現(xiàn)我們的模型在需要外部知識(shí)的情況下,例如說話人的面部姿勢(shì)或上下文信息,可能會(huì)遇到困難。因此,外部信息對(duì)于諷刺檢測(cè)也是必不可少的。
3.6 模型分析
??文本-圖像匹配層數(shù)lm的影響:我們測(cè)量模型性能對(duì)F1得分的影響,以及文本-圖像匹配層數(shù)lm從1到7的范圍。在圖4中我們可以看到,當(dāng)lmequals為3時(shí),F1得分一直增加,直到達(dá)到峰值。在這一點(diǎn)上,我們的模型取得了最佳的性能。然后,隨著lm的繼續(xù)增長(zhǎng),模型的性能開始下降。我們猜測(cè)性能會(huì)變差,可能是由于模型參數(shù)的增加,這表明添加更多的文本-圖像匹配層可能不會(huì)增強(qiáng)性能,反而會(huì)阻礙性能。
??模型可視化:在本節(jié)中,我們將可視化文本圖像的注意力分布。我們的模型旨在捕獲不一致信息。因此,我們的模型更可能關(guān)注圖像上的不一致區(qū)域。我們展示了從數(shù)據(jù)集中收集的幾個(gè)諷刺案例:
4. 相關(guān)工作
4.1基于文本的諷刺檢測(cè)
4.2多模態(tài)諷刺檢測(cè)
??值得注意的是,也有一些有價(jià)值的工作集中在多模態(tài)諷刺檢測(cè)。Schifanella等人(2016)首先考慮諷刺和諷刺的文本和視覺特征,并提出兩種可供選擇的框架。Mishra等人(2017年)提出了情感和諷刺分類的認(rèn)知 NLP 系統(tǒng)。他們引入了一個(gè)框架來自動(dòng)從眼動(dòng)/凝視數(shù)據(jù)中提取認(rèn)知特征。他們使用CNN對(duì)基于凝視和文本的特征進(jìn)行編碼以進(jìn)行分類。卡斯特羅等人(2019年)提出了一個(gè)新的諷刺數(shù)據(jù)集,該數(shù)據(jù)集來自電視節(jié)目。他們將文本特征、語音特征和視頻特征視為三種模式,并使用支持向量機(jī)作為分類器。Cai等人(2019)介紹了一種分層融合模型。它們將圖像特征、圖像屬性特征和文本特征作為三種模式。三種模式的特征被重建并融合用于預(yù)測(cè)。
5. 結(jié)論
??在本文中,我們提出了一種新的基于 bert 的模型,以解決現(xiàn)有的多模態(tài)諷刺檢測(cè)方法不考慮不一致性諷刺的問題。具體來說,我們的模型考慮了模態(tài)內(nèi)和模態(tài)間的不一致性,并在公共多模態(tài)諷刺檢測(cè)數(shù)據(jù)集上實(shí)現(xiàn)了最先進(jìn)的性能。此外,我們還進(jìn)行了一系列實(shí)驗(yàn)來驗(yàn)證模型的有效性。最后,我們進(jìn)行了錯(cuò)誤分析,發(fā)現(xiàn)圖像上的文本對(duì)于多模態(tài)諷刺檢測(cè)是必不可少的。
總結(jié)
以上是生活随笔為你收集整理的【论文泛读】Modeling Intra and Inter-modality Incongruity for Multi-Modal Sarcasm Detection的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 蓝牙技术简介
- 下一篇: 阿里云域名申请注册与绑定