论文学习11-Adversarial training for multi-context joint entity and relation extraction(实体关系买抽取模型,对抗学习
生活随笔
收集整理的這篇文章主要介紹了
论文学习11-Adversarial training for multi-context joint entity and relation extraction(实体关系买抽取模型,对抗学习
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
文章目錄
- 1. introduction
- 2.相關工作
- 3.Model
- 3.1 Joint learning as head selection
- 3.2 AT
- 4.實驗設置
- 5.結果
- 6.總結
- 實體關系抽取模型
- 對抗學習.
論文鏈接
code
Bekoulis, G., et al. (2018). “Adversarial training for multi-context joint entity and relation extraction.” arXiv preprint arXiv:1808.06876.
1. introduction
- 穩定性差
- 許多神經網絡方法最近被用于各種自然語言處理(NLP)任務,如解析(Zhang et al., 2017)、詞性標注(Lample et al., 2016)、關系提取(dos Santos et al., 2015)、翻譯(Bahdanau et al., 2015)和聯合任務(Miwa and Bansal, 2016)。
- 然而,Szegedy等人(2014)觀察到將小尺度擾動輸入這樣的模型可能會導致不正確的決策(并且有很高的可信度)。
- 使用對抗模型
- Goodfellow et al.(2015)提出了將對抗訓練(AT)(用于圖像識別)作為一種正則化方法,該方法使用干凈的和對抗的混合實例來增強模型的魯棒性。
- 盡管AT最近已被應用于NLP任務(如文本分類(Miyato et al., 2017)),但就我們所知,這篇論文是首次嘗試研究AT在兩個相關任務的聯合設置下的正則化效果。
- 從基線聯合模型開始
- 筆記:基線模型
- 論文:Joint entity recognition and relation extraction as a multi-head selection problem
- code:code
- 本文的核心貢獻:在于將AT作為聯合提取任務的訓練過程的擴展(第3.2節)。
2.相關工作
-
聯合實體和關系提取:
- 聯合模型(Li and Ji, 2014;Miwa和Sasaki(2014)提出了一種基于手動提取特征的方法,用于同時執行命名實體識別(NER)和關系提取子任務。
- 缺點:這些方法依賴于NLP工具的可用性(例如,POS標記器)或手動設計的特性,從而導致額外的復雜性。
- 神經網絡方法已經被用來克服這一特征設計問題,通常涉及到RNNs和CNNs (Miwa和Bansal,2016; Zheng et al., 2017).)
- 具體而言,Miwa和Bansal(2016)以及Li等人(2017)將雙向樹狀結構的RNNs應用于不同的上下文(即捕獲語法信息(使用外部依賴解析器)。
- Gupta等人(2016)提出使用各種手動提取的特征和RNNs。
- Adel和Sch utze(2017)解決了實體分類的簡單問題(假設給出了實體邊界EC),而不是NER,他們復制實體周圍的上下文,將實體對提供給關系提取層。
- Katiyar和Cardie(2017)仔細研究了RNNs,但沒有考慮到關系標簽并不相互排斥。
- 最后,Bekoulis等人(2018a)在聯合模型中使用LSTMs一次只提取一個關系,但增加了NER部分的復雜性。
- 我們的基線模型支持同時從相同的輸入中提取多個關系。然后,我們使用對抗性訓練進一步擴展這個強基線。
-
對抗性訓練(AT)
- (Goodfellow等,(2015)提出了AT使分類器在圖像識別環境下對輸入擾動具有更強的魯棒性。
- 在NLP的背景下,針對不同的任務提出了幾個變體,如文本分類(Miyato et al., 2017)、關系提取(Wu et al., 2017)和詞性標注(Yasunaga et al., 2018)。
- AT被認為是一種正則化方法。
- 不像其他的正則化方法。, dropout (Srivastava et al., 2014), word dropout (Iyyer et al., 2015)引入隨機噪聲,
- AT產生擾動,這些擾動是很容易被模型錯誤分類的例子的變體。
3.Model
3.1 Joint learning as head selection
- 基線模型(詳見前文Joint entity recognition and relation extraction as a multi-head selection problem
3.2 AT
- 目的:對擾動更穩定
- 我們利用AT (Goodfellow et al., 2015)的思想作為正則化方法,使我們的模型對輸入擾動具有魯棒性。具體來說,
- 反例的生成:我們通過在連接詞表示的層次上添加一些噪聲來生成原示例的變體(Miyato et al., 2017)。這與Goodfellow等(2015)提出的提高圖像識別分類器魯棒性的概念類似。
- 我們生成一個敵對的例子通過添加最壞擾動ηadv原嵌入w最大化損失函數
- 因為2很棘手,所以用近似定義ηadv=?g/∣∣g∣∣\eta_{adv}=\epsilon g/||g||ηadv?=?g/∣∣g∣∣
- g=▽wLJOINT(w;θ^)g=▽_wL_{JOINT}(w;\hat{\theta})g=▽w?LJOINT?(w;θ^)
- ?=αD??當超參數,D是詞嵌入的維度\epsilon=\alpha\sqrt{D}--當超參數,D是詞嵌入的維度?=αD???當超參數,D是詞嵌入的維度.
- 最終損失函數為:原+反例
- LJOINT(w;θ^)+LJOINT(w+ηadv;θ^)L_{JOINT}(w;\hat{\theta})+L_{JOINT}(w+\eta_{adv};\hat{\theta})LJOINT?(w;θ^)+LJOINT?(w+ηadv?;θ^)
4.實驗設置
- 實驗設置
- 交叉驗證
- 早停
- 和以前工作相同的嵌入
- 相同的數據集下和以前工作相同的處理
- adam優化器
- α,dropout,best-epoch,學習率
- 超參數
- α:{5e?2,1e?2,1e?3,1e?45e^{-2},1e^{-2},1e^{-3},1e^{-4}5e?2,1e?2,1e?3,1e?4}–擾動
- 更大的α值(即。在我們的早期實驗中,較大的擾動會導致一致性的性能下降。這可以從增加噪音會改變句子內容這一事實來解釋,Wu et al.(2017)也報道了這一現象。
- α:{5e?2,1e?2,1e?3,1e?45e^{-2},1e^{-2},1e^{-3},1e^{-4}5e?2,1e?2,1e?3,1e?4}–擾動
- ACE04數據集:五折交叉驗證 * 具體來說,我們遵循Miwa和Bansal(2016)為ACE04數據集定義的5倍交叉驗證(Doddington et al., 2004)。
- 對于CoNLL04 (Roth和Yih, 2004) EC任務(假設給出了邊界),我們使用與Gupta等人(2016)相同的分割;Adel和Sch¨utze(2017)。
- NER * 10折交叉驗證
- 對于荷蘭房地產分類,DREC (Bekoulis et al., 2017)數據集,我們使用訓練-測試分割如在Bekoulis et al. (2018a)。
- 對于不良藥物事件,ADE (Gurulingappa et al., 2012),我們進行了與Li et al.(2017)類似的10倍交叉驗證。
- 為了獲得不受輸入嵌入影響的可比結果,我們使用了以前工作的嵌入。我們在所有的實驗中都采用了提前停止的方法。我們使用Adam優化器(Kingma和Ba,2015)并修復超參數(即α,dropout,best-epoch,學習率)驗證集。
- 三種類型的評估
- S(strict)
- 如果實體邊界和實體類型都是正確的,我們就將實體評為正確的(ACE04, ADE, CoNLL04, DREC)
- B(邊界)
- 如果實體邊界是正確的,而沒有考慮實體類型(DREC),則我們將實體視為正確的
- R(relaxed)
- 如果為組成實體的令牌分配了至少一個正確類型,則認為多令牌實體是正確的,假設邊界是已知的(CoNLL04),以比較以前的作品。在所有情況下,當關系類型和參數實體都正確時,關系被認為是正確的。
- S(strict)
5.結果
表1顯示了我們的實驗結果。數據集的名稱在第一列中顯示,而模型在第二列中列出。提出的模型如下:
(i)基線:圖1所示的具有CRF層和sigmoid損失的基線模型, (ii)基線EC:具有用于EC的softmax層的模型,
(iii)基線(EC) + AT:使用AT的基線正則化。
最后三列顯示兩個子任務的F1結果及其平均性能。粗體值表示只使用自動提取的特征的模型的最佳結果。
- 這些自動提取的特征之所以表現出性能改進,主要是因為共享的LSTM層學會了在單個模型中自動生成實體及其對應關系的特征表示。
- 這種看似很小的性能提升主要是由于NER組件的性能收益有限,這與NER使用神經網絡的最新進展相一致,神經網絡也報告了類似的小收益
- 這可能表明在聯合模型的上下文中,數據集的大小和對抗性訓練的好處之間存在相關性,但這需要在未來的工作中進行進一步的研究。
6.總結
我們提出了將對抗性訓練用于實體識別和關系提取的聯合任務。
- 本研究的貢獻有兩方面:
- (i)研究AT作為一種多上下文基線聯合模型的正則化方法的一致性有效性,以及
- (ii)大規模的實驗評估。
- AT分別提高了每個任務的結果,以及基線聯合模型的整體性能,同時在訓練過程的第一個階段就已經達到了高性能。
總結
以上是生活随笔為你收集整理的论文学习11-Adversarial training for multi-context joint entity and relation extraction(实体关系买抽取模型,对抗学习的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 八大排序:Java实现八大排序及算法复杂
- 下一篇: 介绍一些知识图谱的实际应用类项目