當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

论文学习11-Adversarial training for multi-context joint entity and relation extraction(实体关系买抽取模型，对抗学习

發(fā)布時間：2024/7/5 编程问答 55 豆豆

生活随笔收集整理的這篇文章主要介紹了论文学习11-Adversarial training for multi-context joint entity and relation extraction(实体关系买抽取模型，对抗学习小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

文章目錄

1. introduction
2.相關(guān)工作
3.Model
- 3.1 Joint learning as head selection
- 3.2 AT
4.實驗設(shè)置
5.結(jié)果
6.總結(jié)

實體關(guān)系抽取模型
對抗學(xué)習(xí).
論文鏈接
code
Bekoulis, G., et al. (2018). “Adversarial training for multi-context joint entity and relation extraction.” arXiv preprint arXiv:1808.06876.

1. introduction

穩(wěn)定性差
- 許多神經(jīng)網(wǎng)絡(luò)方法最近被用于各種自然語言處理(NLP)任務(wù)，如解析(Zhang et al.， 2017)、詞性標(biāo)注(Lample et al.， 2016)、關(guān)系提取(dos Santos et al.， 2015)、翻譯(Bahdanau et al.， 2015)和聯(lián)合任務(wù)(Miwa and Bansal, 2016)。
- 然而，Szegedy等人(2014)觀察到將小尺度擾動輸入這樣的模型可能會導(dǎo)致不正確的決策(并且有很高的可信度)。
使用對抗模型
- Goodfellow et al.(2015)提出了將對抗訓(xùn)練(AT)(用于圖像識別)作為一種正則化方法，該方法使用干凈的和對抗的混合實例來增強模型的魯棒性。
- 盡管AT最近已被應(yīng)用于NLP任務(wù)(如文本分類(Miyato et al.， 2017))，但就我們所知，這篇論文是首次嘗試研究AT在兩個相關(guān)任務(wù)的聯(lián)合設(shè)置下的正則化效果。
從基線聯(lián)合模型開始
- 筆記：基線模型
- 論文：Joint entity recognition and relation extraction as a multi-head selection problem
- code：code
本文的核心貢獻(xiàn)：在于將AT作為聯(lián)合提取任務(wù)的訓(xùn)練過程的擴(kuò)展(第3.2節(jié))。

2.相關(guān)工作

聯(lián)合實體和關(guān)系提取:
- 聯(lián)合模型(Li and Ji, 2014;Miwa和Sasaki(2014)提出了一種基于手動提取特征的方法，用于同時執(zhí)行命名實體識別(NER)和關(guān)系提取子任務(wù)。
- 缺點：這些方法依賴于NLP工具的可用性(例如，POS標(biāo)記器)或手動設(shè)計的特性，從而導(dǎo)致額外的復(fù)雜性。
- 神經(jīng)網(wǎng)絡(luò)方法已經(jīng)被用來克服這一特征設(shè)計問題，通常涉及到RNNs和CNNs (Miwa和Bansal，2016; Zheng et al., 2017).)
  - 具體而言，Miwa和Bansal(2016)以及Li等人(2017)將雙向樹狀結(jié)構(gòu)的RNNs應(yīng)用于不同的上下文(即捕獲語法信息(使用外部依賴解析器)。
  - Gupta等人(2016)提出使用各種手動提取的特征和RNNs。
  - Adel和Sch utze(2017)解決了實體分類的簡單問題(假設(shè)給出了實體邊界EC)，而不是NER，他們復(fù)制實體周圍的上下文，將實體對提供給關(guān)系提取層。
  - Katiyar和Cardie(2017)仔細(xì)研究了RNNs，但沒有考慮到關(guān)系標(biāo)簽并不相互排斥。
  - 最后，Bekoulis等人(2018a)在聯(lián)合模型中使用LSTMs一次只提取一個關(guān)系，但增加了NER部分的復(fù)雜性。
  - 我們的基線模型支持同時從相同的輸入中提取多個關(guān)系。然后，我們使用對抗性訓(xùn)練進(jìn)一步擴(kuò)展這個強基線。
對抗性訓(xùn)練(AT)
- (Goodfellow等，(2015)提出了AT使分類器在圖像識別環(huán)境下對輸入擾動具有更強的魯棒性。
- 在NLP的背景下，針對不同的任務(wù)提出了幾個變體，如文本分類(Miyato et al.， 2017)、關(guān)系提取(Wu et al.， 2017)和詞性標(biāo)注(Yasunaga et al.， 2018)。
- AT被認(rèn)為是一種正則化方法。
  - 不像其他的正則化方法。， dropout (Srivastava et al.， 2014)， word dropout (Iyyer et al.， 2015)引入隨機(jī)噪聲，
  - AT產(chǎn)生擾動，這些擾動是很容易被模型錯誤分類的例子的變體。

3.Model

3.1 Joint learning as head selection

基線模型（詳見前文Joint entity recognition and relation extraction as a multi-head selection problem

3.2 AT

目的：對擾動更穩(wěn)定
我們利用AT (Goodfellow et al.， 2015)的思想作為正則化方法，使我們的模型對輸入擾動具有魯棒性。具體來說，
反例的生成：我們通過在連接詞表示的層次上添加一些噪聲來生成原示例的變體(Miyato et al.， 2017)。這與Goodfellow等(2015)提出的提高圖像識別分類器魯棒性的概念類似。
- 我們生成一個敵對的例子通過添加最壞擾動ηadv原嵌入w最大化損失函數(shù)
- 因為2很棘手，所以用近似定義 $ηadv=?g/∣∣g∣∣\eta_{adv}=\epsilon g/||g||$
  - $g=▽wLJOINT(w;θ^)g=▽_wL_{JOINT}(w;\hat{\theta})$
  - $?=αD??當(dāng)超參數(shù)，D是詞嵌入的維度\epsilon=\alpha\sqrt{D}--當(dāng)超參數(shù)，D是詞嵌入的維度$ .
最終損失函數(shù)為：原+反例
- $LJOINT(w;θ^)+LJOINT(w+ηadv;θ^)L_{JOINT}(w;\hat{\theta})+L_{JOINT}(w+\eta_{adv};\hat{\theta})$

4.實驗設(shè)置

實驗設(shè)置
- 交叉驗證
- 早停
- 和以前工作相同的嵌入
- 相同的數(shù)據(jù)集下和以前工作相同的處理
- adam優(yōu)化器
  - α,dropout,best-epoch,學(xué)習(xí)率
超參數(shù)
- α：{ $5e^{-2}，1e^{-2}，1e^{-3}，1e^{-4}$ }–擾動
  - 更大的α值(即。在我們的早期實驗中，較大的擾動會導(dǎo)致一致性的性能下降。這可以從增加噪音會改變句子內(nèi)容這一事實來解釋，Wu et al.(2017)也報道了這一現(xiàn)象。

ACE04數(shù)據(jù)集：五折交叉驗證 * 具體來說，我們遵循Miwa和Bansal(2016)為ACE04數(shù)據(jù)集定義的5倍交叉驗證(Doddington et al.， 2004)。
對于CoNLL04 (Roth和Yih, 2004) EC任務(wù)(假設(shè)給出了邊界)，我們使用與Gupta等人(2016)相同的分割;Adel和Sch¨utze(2017)。
NER * 10折交叉驗證
對于荷蘭房地產(chǎn)分類，DREC (Bekoulis et al.， 2017)數(shù)據(jù)集，我們使用訓(xùn)練-測試分割如在Bekoulis et al. (2018a)。
對于不良藥物事件，ADE (Gurulingappa et al.， 2012)，我們進(jìn)行了與Li et al.(2017)類似的10倍交叉驗證。
為了獲得不受輸入嵌入影響的可比結(jié)果，我們使用了以前工作的嵌入。我們在所有的實驗中都采用了提前停止的方法。我們使用Adam優(yōu)化器(Kingma和Ba,2015)并修復(fù)超參數(shù)(即α,dropout,best-epoch,學(xué)習(xí)率)驗證集。

三種類型的評估
- S（strict）
  - 如果實體邊界和實體類型都是正確的，我們就將實體評為正確的(ACE04, ADE, CoNLL04, DREC)
- B（邊界）
  - 如果實體邊界是正確的，而沒有考慮實體類型(DREC)，則我們將實體視為正確的
- R（relaxed)
  - 如果為組成實體的令牌分配了至少一個正確類型，則認(rèn)為多令牌實體是正確的，假設(shè)邊界是已知的(CoNLL04)，以比較以前的作品。在所有情況下，當(dāng)關(guān)系類型和參數(shù)實體都正確時，關(guān)系被認(rèn)為是正確的。

5.結(jié)果

表1顯示了我們的實驗結(jié)果。數(shù)據(jù)集的名稱在第一列中顯示，而模型在第二列中列出。提出的模型如下:
(i)基線:圖1所示的具有CRF層和sigmoid損失的基線模型， (ii)基線EC:具有用于EC的softmax層的模型，
(iii)基線(EC) + AT:使用AT的基線正則化。
最后三列顯示兩個子任務(wù)的F1結(jié)果及其平均性能。粗體值表示只使用自動提取的特征的模型的最佳結(jié)果。

這些自動提取的特征之所以表現(xiàn)出性能改進(jìn)，主要是因為共享的LSTM層學(xué)會了在單個模型中自動生成實體及其對應(yīng)關(guān)系的特征表示。
這種看似很小的性能提升主要是由于NER組件的性能收益有限，這與NER使用神經(jīng)網(wǎng)絡(luò)的最新進(jìn)展相一致，神經(jīng)網(wǎng)絡(luò)也報告了類似的小收益
這可能表明在聯(lián)合模型的上下文中，數(shù)據(jù)集的大小和對抗性訓(xùn)練的好處之間存在相關(guān)性，但這需要在未來的工作中進(jìn)行進(jìn)一步的研究。

6.總結(jié)

我們提出了將對抗性訓(xùn)練用于實體識別和關(guān)系提取的聯(lián)合任務(wù)。

本研究的貢獻(xiàn)有兩方面:
- (i)研究AT作為一種多上下文基線聯(lián)合模型的正則化方法的一致性有效性，以及
- (ii)大規(guī)模的實驗評估。
AT分別提高了每個任務(wù)的結(jié)果，以及基線聯(lián)合模型的整體性能，同時在訓(xùn)練過程的第一個階段就已經(jīng)達(dá)到了高性能。

總結(jié)

以上是生活随笔為你收集整理的论文学习11-Adversarial training for multi-context joint entity and relation extraction(实体关系买抽取模型，对抗学习的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇：八大排序:Java实现八大排序及算法复杂
下一篇：介绍一些知识图谱的实际应用类项目