當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

论文浅尝 | 利用开放域触发器知识改进事件检测

發(fā)布時間：2024/7/5 编程问答 39 豆豆

生活随笔收集整理的這篇文章主要介紹了论文浅尝 | 利用开放域触发器知识改进事件检测小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

筆記整理 |?申時榮，東南大學(xué)博士

來源：ACL 2020

源碼：https://github.com/shuaiwa16/ekd.git

摘要

事件檢測（ED）是文本自動結(jié)構(gòu)化處理的一項基本任務(wù)。由于訓(xùn)練數(shù)據(jù)的規(guī)模小，以前的方法在unseen/標(biāo)記稀疏的觸發(fā)詞上效果較差，并且容易過度擬合密集標(biāo)記的觸發(fā)詞。為了解決該問題，我們提出了一種新穎的擴展知識提煉（EKD）模型，以利用外部開放域觸發(fā)知識來減少對注釋中頻繁觸發(fā)詞的內(nèi)在偏見。在基準(zhǔn)ACE2005上進行的實驗表明，我們的模型優(yōu)于9個強基準(zhǔn)，對于unseen/標(biāo)記稀疏的觸發(fā)詞特別有效。

介紹

事件檢測（ED）的核心就是識別觸發(fā)詞，觸發(fā)詞識別是一項艱巨的任務(wù)，存在長尾問題。以基準(zhǔn)ACE2005為例：頻率小于5的觸發(fā)詞占總數(shù)的78.2％。長尾問題使監(jiān)督方法容易過度擬合并且在看不見/稀疏標(biāo)記的觸發(fā)器上表現(xiàn)不佳。自動生成更多訓(xùn)練實例似乎是一種解決方案：通過自舉擴展更多實例并從遠程監(jiān)督方法中擴展更多數(shù)據(jù)。但是，如表1所示，這些方法在看不見/稀疏標(biāo)記的觸發(fā)詞上的性能仍不令人滿意。我們認為，這些方法要么導(dǎo)致生成語料庫的同質(zhì)性，要么受到知識庫覆蓋率較低的困擾。更重要的是，擴展后的數(shù)據(jù)本身分布不均，我們不能期望通過內(nèi)置的偏差數(shù)據(jù)來緩解長尾問題。

在本文中，我們使用“開放域觸發(fā)知識”的外部知識來增強模型的功能，為Unseen/稀疏標(biāo)記的觸發(fā)詞提供額外的語義支持，并改善觸發(fā)識別。

如圖1的S1所示，即使hearing不適合ACE2005中的任何預(yù)定義事件類型，開放域觸發(fā)器知識也可以將hearing和fire識別為事件觸發(fā)器。借助開放域觸發(fā)知識，我們能夠從大規(guī)模的未標(biāo)記語料庫中發(fā)現(xiàn)unseen/稀疏的觸發(fā)，這將改善觸發(fā)詞識別中的召回率。但是，將開放域觸發(fā)知識整合到ED中具有挑戰(zhàn)性：通過開放域觸發(fā)知識識別的觸發(fā)并不總是與域內(nèi)標(biāo)簽完全匹配，因此不能直接用作觸發(fā)識別結(jié)果。例如，在圖1的S4中，開放域觸發(fā)知識認為exploded是觸發(fā)詞，而在ACE2005的標(biāo)記規(guī)則下，intifada是觸發(fā)詞。

方法

具體來說，我們提出了一個擴展知識蒸餾（EKD）模型，以從標(biāo)記的和未標(biāo)記的大量語料庫中有效地提取開放域觸發(fā)知識。我們首先使用WordNet的觸發(fā)知識將輕量級pipeline應(yīng)用于設(shè)備上未標(biāo)記的句子。該方法不限于特定的領(lǐng)域，因此可以保證觸發(fā)詞的覆蓋范圍。然后，考慮到知識增強的數(shù)據(jù)以及ED注釋，我們訓(xùn)練了教師模型以提高性能；同時，對學(xué)生模型進行了訓(xùn)練，以使用不加任何知識增強的數(shù)據(jù)來模仿教師的輸出，這與推論過程中的分布相符。通過向?qū)W生模型的輸入添加噪聲，我們進一步促進了模型的泛化。模型的整體流程如圖2：

知識收集

開放域觸發(fā)知識從詞義的角度闡述了單詞是否觸發(fā)事件。無論觸發(fā)器是密集標(biāo)記的還是看不見/稀疏標(biāo)記的，開放域觸發(fā)器知識都可以毫無區(qū)別地識別它們。例如，在圖1的S3中，盡管被黑客入侵是一個稀有單詞，并且沒有被標(biāo)記，但從單詞的意義來看，開放域觸發(fā)知識成功地將被黑客入侵稱為觸發(fā)單詞。我們采用一種輕量級pipeline方法，稱為WordNet觸發(fā)（TFW），以收集開放域觸發(fā)知識（Araki and ?Mitamura，2018）。具體的：1）將單詞歧義化為WordNet意義，2）確定意義是否觸發(fā)事件。最后，我們總共獲得了733,848個帶注釋的NYT的句子，觸發(fā)詞的總數(shù)為265萬，平均每句3.6個觸發(fā)詞。

特征抽取

使用預(yù)訓(xùn)練的Bert作為文本的特征抽取器。

事件預(yù)測

對token的編碼使用全連接分類器輸出其對應(yīng)的事件類型。這部分預(yù)測結(jié)果與真是標(biāo)注數(shù)據(jù)計算損失后進行監(jiān)督學(xué)習(xí)。

知識蒸餾

對于一個輸入的句子S：

使用a）的方法標(biāo)注的到觸發(fā)詞，并利用指示符表示位置，轉(zhuǎn)換為S+：

同時，為了構(gòu)建困難的學(xué)習(xí)樣本，利用觸發(fā)詞位置轉(zhuǎn)換得到S-：

使用模型同時輸入S+和S-，并執(zhí)行事件預(yù)測，在無標(biāo)注數(shù)據(jù)上使得兩者預(yù)測KL散度變小。

聯(lián)合訓(xùn)練

最終的訓(xùn)練目標(biāo)是最小化監(jiān)督數(shù)據(jù)集上的正常損失和知識蒸餾部分的散度。主要目的是將wordnet標(biāo)注的知識被模型學(xué)到。

實驗

實驗表明，在unseen/稀疏觸發(fā)詞上模型表現(xiàn)的更好

在整個訓(xùn)練數(shù)據(jù)的表現(xiàn)上，也超過了SOTA

OpenKG

開放知識圖譜（簡稱 OpenKG）旨在促進中文知識圖譜數(shù)據(jù)的開放與互聯(lián)，促進知識圖譜和語義技術(shù)的普及和廣泛應(yīng)用。

點擊閱讀原文，進入 OpenKG 網(wǎng)站。

總結(jié)

以上是生活随笔為你收集整理的论文浅尝 | 利用开放域触发器知识改进事件检测的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇：论文浅尝 - AAAI2020 | 多模
下一篇：参会邀请 - CCKS2020 | 20

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

编程问答

论文浅尝 | 利用开放域触发器知识改进事件检测

總結(jié)