日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

论文浅尝 | Zero-Shot Transfer Learning for Event Extraction

發(fā)布時(shí)間:2024/7/5 编程问答 47 豆豆
生活随笔 收集整理的這篇文章主要介紹了 论文浅尝 | Zero-Shot Transfer Learning for Event Extraction 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

事件抽取的目標(biāo)是在非結(jié)構(gòu)化的文本中確認(rèn)事件的觸發(fā)詞(Eventtrigger)和參與者(Event argument),并判斷觸法詞的事件類型(Eventtype),判斷參與者在事件中的扮演的角色(Argument role)。有觸發(fā)詞和參與者的短語(yǔ)或文本稱為EventMention。如下圖的關(guān)于Transport-Person 事件的一條EventMention,dispatching是觸發(fā)詞,下劃線是參與者,其中China作為Agent參與事件。

目前大多數(shù)的事件抽取是基于已有的手動(dòng)標(biāo)記樣本進(jìn)行訓(xùn)練。常見的數(shù)據(jù)集ACE,總共有8個(gè)大類,33個(gè)小類,對(duì)每個(gè)類,有人為標(biāo)記的訓(xùn)練語(yǔ)料。但是對(duì)于沒有樣本的新事件類型,用上述語(yǔ)料訓(xùn)練的模型會(huì)顯得無(wú)力。對(duì)此,一是可以用遠(yuǎn)程監(jiān)督的方法標(biāo)記訓(xùn)練樣本,二是用遷移學(xué)習(xí)方法。本文基于第二點(diǎn)的,提出在事件抽取任務(wù)中用零樣本遷移學(xué)習(xí)方法:event mention 和event ontology聯(lián)合映射到共享的語(yǔ)義空間上,拉近兩者在語(yǔ)義空間上的距離。

具體來(lái)說(shuō):對(duì)于新的語(yǔ)料,可以用AMR得到具體事件mention的結(jié)構(gòu),同時(shí)提供已定義好的關(guān)于事件類型ontology的結(jié)構(gòu)。如上圖所示,是對(duì)上述E1進(jìn)行處理后得到mention的結(jié)構(gòu)和一些已定義好的ontology結(jié)構(gòu)。可以看到,事件觸發(fā)詞和事件類型名通常有一些共享含義,同時(shí),兩者的結(jié)構(gòu)也趨于相似。本文基于這兩點(diǎn),將mention和ontology的結(jié)構(gòu)表示聯(lián)合映射到同一語(yǔ)義空間,最小化mention和對(duì)應(yīng)的ontology的語(yǔ)義距離,從而學(xué)習(xí)一個(gè)通用映射函數(shù),將已有樣本訓(xùn)練得到的模型遷移到?jīng)]有樣本的事件中,整體框架如下:

分為如下幾步:

1. 找出候選觸發(fā)詞和候選參與者,稱為Tiggerand Argument Identification

用WSD找出觸發(fā)詞候選項(xiàng),并用FrameNet中的Lexical units匹配文本擴(kuò)充觸發(fā)詞候選項(xiàng);利用ARMparser找出參與者候選項(xiàng)。

2. 確定觸發(fā)詞對(duì)應(yīng)的事件類型,稱為 Tigger Classification

觸發(fā)詞分類主要是用CNN模型,模型的輸入考慮了兩個(gè)部分 [V_t,V_(S_t)]:V_t 觸發(fā)詞本身的語(yǔ)義表示,可以用word2vec來(lái)訓(xùn)練;觸發(fā)詞t的結(jié)構(gòu)是 S_t,V_(S_t)是 S_t 的表示; ontology的 [V_y,V_(S_y)] 輸入同理。

對(duì)于 V_(S_t),分兩步進(jìn)行:首先結(jié)構(gòu)中的每條邊,可以表示為 u=<w_1,λ,w_2>,用 M_λ 表示關(guān)系,可以得到每個(gè)元組的表示 V_u,對(duì)應(yīng)公式如下;之后將 t 的所有元組的表示 V_u 拼接起來(lái),輸入到CNN網(wǎng)絡(luò)中,得到V_(S_t)。


對(duì)于 V_(S_y),ontology的每個(gè)元祖表示為?u^'=<y,r>, y 是事件類型,r 是參與者角色,?V_u' 的表示如下,之后也輸入到CNN中得到 V_(S_y)


通過hinge loss來(lái)訓(xùn)練模型,將mention和ontology的表示學(xué)習(xí)到同一語(yǔ)義空間:


3. 確定參與者在事件中扮演的角色,稱為ArgumentClassification

參與角色的分類是基于觸發(fā)詞到參與者路徑的相似度。仍以E1為例,通過將dispatch-01—>:ARG0—>China和Transport-Person—>Agent的路徑信息學(xué)習(xí)到同一語(yǔ)義空間,之后根據(jù)語(yǔ)義相似度判斷China在Transport-Person中的扮演的角色是Agent。

4. 預(yù)測(cè)新類別

測(cè)試時(shí)候,對(duì)于新的?t',用訓(xùn)練好的模型得到 t' 的結(jié)構(gòu)化表示和所有ontology的結(jié)構(gòu)化表示,距離最近的就是預(yù)測(cè)的結(jié)果。


本文進(jìn)行了比較豐富的實(shí)驗(yàn):

1. 在ACE數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)中可見類設(shè)置如下,N表示可見類的數(shù)量:

上述設(shè)置下得到的效果如下,WSD-Embedding沒有將結(jié)構(gòu)信息考慮到遷移的過程中。可以在遷移學(xué)習(xí)過程中考慮更多的機(jī)構(gòu)化信息,得到的效果更好;可見類越多,效果越好。

2. 用ACE的 Justice類的4個(gè)小類做訓(xùn)練,用其余三個(gè)或用其他大類下隨機(jī)的一個(gè)小類作測(cè)試。可以看到,測(cè)試類跟訓(xùn)練類的相似度越高,效果越好。

3. 使用LSTM在所有類上進(jìn)行訓(xùn)練和測(cè)試,和用ZSL進(jìn)行訓(xùn)練和測(cè)試的效果對(duì)比。可以看到用ZSL訓(xùn)練得到的效果和用LSTM訓(xùn)練近500條樣本得到的效果不相上下。


筆記整理:王若旭,浙江大學(xué)碩士,研究方向?yàn)橹R(shí)圖譜,自然語(yǔ)言處理.



OpenKG.CN


中文開放知識(shí)圖譜(簡(jiǎn)稱OpenKG.CN)旨在促進(jìn)中文知識(shí)圖譜數(shù)據(jù)的開放與互聯(lián),促進(jìn)知識(shí)圖譜和語(yǔ)義技術(shù)的普及和廣泛應(yīng)用。

轉(zhuǎn)載須知:轉(zhuǎn)載需注明來(lái)源“OpenKG.CN”、作者及原文鏈接。如需修改標(biāo)題,請(qǐng)注明原標(biāo)題。

?

點(diǎn)擊閱讀原文,進(jìn)入 OpenKG 博客。

總結(jié)

以上是生活随笔為你收集整理的论文浅尝 | Zero-Shot Transfer Learning for Event Extraction的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。