论文浅尝 | 利用开放域触发器知识改进事件检测
筆記整理 |?申時榮,東南大學(xué)博士
來源:ACL 2020
源碼:https://github.com/shuaiwa16/ekd.git
摘要
事件檢測(ED)是文本自動結(jié)構(gòu)化處理的一項基本任務(wù)。由于訓(xùn)練數(shù)據(jù)的規(guī)模小,以前的方法在unseen/標(biāo)記稀疏的觸發(fā)詞上效果較差,并且容易過度擬合密集標(biāo)記的觸發(fā)詞。為了解決該問題,我們提出了一種新穎的擴展知識提煉(EKD)模型,以利用外部開放域觸發(fā)知識來減少對注釋中頻繁觸發(fā)詞的內(nèi)在偏見。在基準(zhǔn)ACE2005上進行的實驗表明,我們的模型優(yōu)于9個強基準(zhǔn),對于unseen/標(biāo)記稀疏的觸發(fā)詞特別有效。
介紹
事件檢測(ED)的核心就是識別觸發(fā)詞,觸發(fā)詞識別是一項艱巨的任務(wù),存在長尾問題。以基準(zhǔn)ACE2005為例:頻率小于5的觸發(fā)詞占總數(shù)的78.2%。長尾問題使監(jiān)督方法容易過度擬合并且在看不見/稀疏標(biāo)記的觸發(fā)器上表現(xiàn)不佳。自動生成更多訓(xùn)練實例似乎是一種解決方案:通過自舉擴展更多實例并從遠程監(jiān)督方法中擴展更多數(shù)據(jù)。但是,如表1所示,這些方法在看不見/稀疏標(biāo)記的觸發(fā)詞上的性能仍不令人滿意。我們認為,這些方法要么導(dǎo)致生成語料庫的同質(zhì)性,要么受到知識庫覆蓋率較低的困擾。更重要的是,擴展后的數(shù)據(jù)本身分布不均,我們不能期望通過內(nèi)置的偏差數(shù)據(jù)來緩解長尾問題。
在本文中,我們使用“開放域觸發(fā)知識”的外部知識來增強模型的功能,為Unseen/稀疏標(biāo)記的觸發(fā)詞提供額外的語義支持,并改善觸發(fā)識別。
如圖1的S1所示,即使hearing不適合ACE2005中的任何預(yù)定義事件類型,開放域觸發(fā)器知識也可以將hearing和fire識別為事件觸發(fā)器。借助開放域觸發(fā)知識,我們能夠從大規(guī)模的未標(biāo)記語料庫中發(fā)現(xiàn)unseen/稀疏的觸發(fā),這將改善觸發(fā)詞識別中的召回率。但是,將開放域觸發(fā)知識整合到ED中具有挑戰(zhàn)性:通過開放域觸發(fā)知識識別的觸發(fā)并不總是與域內(nèi)標(biāo)簽完全匹配,因此不能直接用作觸發(fā)識別結(jié)果。例如,在圖1的S4中,開放域觸發(fā)知識認為exploded是觸發(fā)詞,而在ACE2005的標(biāo)記規(guī)則下,intifada是觸發(fā)詞。
方法
具體來說,我們提出了一個擴展知識蒸餾(EKD)模型,以從標(biāo)記的和未標(biāo)記的大量語料庫中有效地提取開放域觸發(fā)知識。我們首先使用WordNet的觸發(fā)知識將輕量級pipeline應(yīng)用于設(shè)備上未標(biāo)記的句子。該方法不限于特定的領(lǐng)域,因此可以保證觸發(fā)詞的覆蓋范圍。然后,考慮到知識增強的數(shù)據(jù)以及ED注釋,我們訓(xùn)練了教師模型以提高性能;同時,對學(xué)生模型進行了訓(xùn)練,以使用不加任何知識增強的數(shù)據(jù)來模仿教師的輸出,這與推論過程中的分布相符。通過向?qū)W生模型的輸入添加噪聲,我們進一步促進了模型的泛化。模型的整體流程如圖2:
知識收集
開放域觸發(fā)知識從詞義的角度闡述了單詞是否觸發(fā)事件。無論觸發(fā)器是密集標(biāo)記的還是看不見/稀疏標(biāo)記的,開放域觸發(fā)器知識都可以毫無區(qū)別地識別它們。例如,在圖1的S3中,盡管被黑客入侵是一個稀有單詞,并且沒有被標(biāo)記,但從單詞的意義來看,開放域觸發(fā)知識成功地將被黑客入侵稱為觸發(fā)單詞。我們采用一種輕量級pipeline方法,稱為WordNet觸發(fā)(TFW),以收集開放域觸發(fā)知識(Araki and ?Mitamura,2018)。具體的:1)將單詞歧義化為WordNet意義,2)確定意義是否觸發(fā)事件。最后,我們總共獲得了733,848個帶注釋的NYT的句子,觸發(fā)詞的總數(shù)為265萬,平均每句3.6個觸發(fā)詞。
特征抽取
使用預(yù)訓(xùn)練的Bert作為文本的特征抽取器。
事件預(yù)測
對token的編碼使用全連接分類器輸出其對應(yīng)的事件類型。這部分預(yù)測結(jié)果與真是標(biāo)注數(shù)據(jù)計算損失后進行監(jiān)督學(xué)習(xí)。
知識蒸餾
對于一個輸入的句子S:
使用a)的方法標(biāo)注的到觸發(fā)詞,并利用指示符表示位置,轉(zhuǎn)換為S+:
同時,為了構(gòu)建困難的學(xué)習(xí)樣本,利用觸發(fā)詞位置轉(zhuǎn)換得到S-:
使用模型同時輸入S+和S-,并執(zhí)行事件預(yù)測,在無標(biāo)注數(shù)據(jù)上使得兩者預(yù)測KL散度變小。
聯(lián)合訓(xùn)練
最終的訓(xùn)練目標(biāo)是最小化監(jiān)督數(shù)據(jù)集上的正常損失和知識蒸餾部分的散度。主要目的是將wordnet標(biāo)注的知識被模型學(xué)到。
實驗
實驗表明,在unseen/稀疏觸發(fā)詞上模型表現(xiàn)的更好
在整個訓(xùn)練數(shù)據(jù)的表現(xiàn)上,也超過了SOTA
?
OpenKG
開放知識圖譜(簡稱 OpenKG)旨在促進中文知識圖譜數(shù)據(jù)的開放與互聯(lián),促進知識圖譜和語義技術(shù)的普及和廣泛應(yīng)用。
點擊閱讀原文,進入 OpenKG 網(wǎng)站。
總結(jié)
以上是生活随笔為你收集整理的论文浅尝 | 利用开放域触发器知识改进事件检测的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 论文浅尝 - AAAI2020 | 多模
- 下一篇: 参会邀请 - CCKS2020 | 20