SemEval-2022 Task 6 有意讽刺检测
YNU-HPCC at SemEval-2022 Task 6: Transformer-based Model for Intended Sarcasm Detection in English and Arabic
本篇隨便講下論文,這是我們在SemEval-2022 Task6的相關工作,本篇論文在Task6榜單上取得了 12/43 (21/32), 11/22, and 3/16 (8/13) 的排名。
官方的排行榜
論文
Github
任務介紹
官方的主頁:semeval2022-isarcasmeval
其實就是三個在英語、阿拉伯語數據集下的分類任務:
- Task A:很簡單的二分類任務,給定句子,判斷是否具有諷刺意義
- Task B:與A類似,不過是多標簽分類任務,且只有英語數據
- Task C:給定兩個句子,一個是有諷刺的句子,一個是同義但無諷刺的轉述,判斷諷刺句子的位置。是個句子對分類任務。
模型介紹
沒做多大的創新,正如主辦方所言,
我們使用的和其他參賽者并無多大區別,都是BERT及其變種,預訓練+Fine-tuning的兩段式,差異主要在數據處理上。結構如下圖所示,
主要難點及解決方案
難點:
數據高度不平衡,體現在Task B中,Task B的標簽數據分布如下所示:
標簽數量差異十分巨大,且除此之外還有大量的非諷刺標簽存在。
解決方案:
當時考慮過獨立訓練每個標簽,缺點是喪失了標簽之間的關聯性(雖然我也不知道他們之間的關聯性是啥),相對來說在訓練每個獨立二分類器的時候,還是比較容易選取相對平衡的訓練集。然而這個方案對于標簽太少的(如understatement)依舊沒啥辦法。
也考慮過數據增強,然而數據增強可能會損失句子的諷刺意義,擔心引入太多臟數據,所以沒有采用。
最后效果比較好的,還是采用了Label-Power(就是一個分類器來輸出多個標簽)方案。訓練數據選取上只用了一小部分非諷刺標簽,避免模型過度關注非諷刺標簽。另外就是在損失函數上使用了WBCE(帶有權重的BCE),來增大模型對數量少的標簽的關注度。WBCE以及權重計算方法如下所示:
Task C的訓練集構造
這個也講講吧,這個任務是最平衡的了,果然我處理不平衡不如別人,只在這個任務上取得了還不錯的排名。
我們設有諷刺的文本為tweet,無諷刺的轉述為rephrase,無非就兩種可能的句子對,(tweet,rephrase)或(rephrase,tweet)。
數據集中有tweet列和rephrase列,那就很好辦了,在模型介紹里我們看到了Task C輸入部分的樣子。
顯然,我們需要兩個句子來輸入,tweet、rephrase作為Sentence A、B(B、A),然后給對應的標簽0(1),即
- (tweet,rephrase) as 0
- (rephrase,tweet) as 1
結果
實驗細節和結果分析不想講太多,論文和代碼都有。
官方給的主要評估指標:
- SubTask A: F1-score for the sarcastic class.
- SubTask B: Macro-F1 score.
- SubTask C: Accuracy.
我們嘗試的各種方法結果如下所示,加粗的是我提交上去的結果,不一定是我們實驗中最好的方案(他只記最后一次提交的結果,我還以為是最好的,,,,坑啊)
總結
以上是生活随笔為你收集整理的SemEval-2022 Task 6 有意讽刺检测的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 固定U盘盘符原理
- 下一篇: MATLAB图像模糊复原