论文学习14-End-to-End Relation Extraction using LSTMs on Sequences and Tree Structures(端到端实体关系抽取)
文章目錄
- abstract
- 1.introduction
- 2.相關工作
- 3.model
- 3.1嵌入層
- 3.2 序列層
- 3.3實體檢測
- 3.4 依賴層
- 3.5 Stacking Sequence and Dependency Layers
- 3.6關系分類
- 3.7 訓練
- 4 實驗
- 總結
本文:Miwa, M. and M. Bansal “End-to-End Relation Extraction using LSTMs on Sequences and Tree Structures.”
abstract
提出了一種新的端到端神經網絡模型來提取實體及其之間的關系。我們的遞歸神經網絡模型通過在雙向序列LSTM-RNNs上疊加雙向樹型結構LSTM-RNNs來捕獲單詞序列和依賴樹的子結構信息。這使得我們的模型可以在單個模型中使用共享參數聯合表示實體和關系。我們進一步鼓勵在訓練期間發現實體,并通過實體培訓前和計劃抽樣在關系提取中使用實體信息。我們的模型在基于端到端關系提取的最先進特征模型的基礎上進行了改進,分別實現了ACE2005和ACE2004上的F1score的12.1%和5.7%的相對誤差降低。我們還表明,我們基于LSTMRNN的模型在名義關系分類(SemEval-2010 Task 8)方面優于最先進的基于CNN的模型(F1-score)。最后,我們提出了一個廣泛的燒蝕分析的幾個模型組件(an extensive ablation analysis of several model components)。
- model:端到端神經網絡模型來提取實體及其之間的關系
- 遞歸神經網絡:雙向序列LSTM-RNNs上疊加雙向樹型結構LSTM-RNNs–> 捕獲單詞序列和依賴樹的子結構信息
- 共享參數
- extensive ablation analysis 組件
- 在訓練中發現尸體,在關系抽取中使用實體信息
1.introduction
(聯合)實體和關系的建模對高性能很重要(Li和Ji, 2014;(Miwa and Sasaki, 2014)因為關系與實體信息密切互動。例如,Toefting和Bolton在Toefting轉移到Bolton這句話中有一個Organization (ORG-AFF)關系,Toefting和Bolton是個體和組織實體的實體信息是重要的。反過來,這些實體的提取又受到轉到表示雇傭關系的上下文詞的鼓勵。之前的聯合模型采用了基于特征的結構化學習。這種端到端關系提取任務的另一種方法是通過基于神經網絡(NN)的模型實現自動特征學習。
- 以前:管道(兩個任務分開處理)
- 端到端:聯合模型更好
- 關系與實體密切相關
- 以前的模型:基于特征的結構化學習
- 本文:基于NN的自動特征學習
使用神經網絡表示實體之間的關系有兩種方法:遞歸神經網絡(RNNs)和卷積神經網絡(CNNs)。其中,RNNs可以直接表示基本的語言結構,即,單詞序列(Hammerton, 2001)和成分/依賴樹(Tai et al., 2015)。盡管有這種表示能力,但在關系分類任務中,之前報道的基于長短時記憶(LSTM)的RNNs的性能(Xu et al., 2015b;Li et al., 2015)比使用CNNs更糟糕(dos Santos et al., 2015)。這些以前的基于lstm的系統大多包括有限的語言結構和神經結構,并且不聯合建模實體和關系。我們能夠通過基于包含互補語言結構的更豐富的LSTM-RNN體系結構的實體和關系的端到端建模來實現對最先進模型的改進。
- NN的方法
- RNNs:直接表示基本的語言結構
- 但LSTM<CNNs
- 原因:以前的基于lstm的系統大多包括有限的語言結構和神經結構,并且不聯合建模實體和關系
- 但LSTM<CNNs
- CNNs:
- 本文:通過基于包含互補語言結構的更豐富的LSTM-RNN體系結構的實體和關系的端到端建模來實現對最先進模型的改進。
- RNNs:直接表示基本的語言結構
詞序列和樹結構是提取關系的互補信息。例如,單詞之間的依賴關系僅僅預測來源和美國在句子This is…一位美國消息人士說,這個語境詞是這個預測所需要的。許多傳統的基于特征的關系分類模型從序列和解析樹中提取特征(Zhou et al., 2005)。然而,以往基于RNN的模型只關注這些語言結構中的一種(Socher et al., 2012)。
- 詞序列和樹結構是提取關系的互補信息
- 往基于RNN的模型只關注這些語言結構中的一種(詞序列或樹結構
我們提出了一種新的端到端模型來提取詞序列和依賴樹結構上實體之間的關系。我們的模型通過使用雙向順序(從左到右和從右到左)和雙向樹結構(自底向上和自頂向下)LSTM-RNNs,允許在單個模型中對實體和關系進行聯合建模。我們的模型首先檢測實體,然后使用單個增量解碼的神經網絡結構提取被檢測實體之間的關系,并使用實體和關系標簽聯合對神經網絡參數進行更新。與傳統的增量端到端關系提取模型不同,我們的模型在訓練中進一步加入了兩個增強:實體預訓練(對實體模型進行預訓練)和計劃抽樣(Bengio et al., 2015),后者以一定的概率將(不可靠的)預測標簽替換為黃金標簽。這些增強減輕了在培訓的早期階段發現性能低下的實體的問題,并允許實體信息進一步幫助下游關系分類。
- NN:
- 使用雙向順序(從左到右和從右到左)和雙向樹結構(自底向上和自頂向下)LSTM-RNNs
- 允許在單個模型中對實體和關系進行聯合建模
- 操作:
- 先檢測實體,
- 然后使用單個增量解碼的神經網絡結構提取被檢測實體之間的關系,
- 并使用實體和關系標簽聯合對神經網絡參數進行更新。
- 兩個增強:
- 實體預訓練(對實體模型進行預訓練
- 計劃抽樣(Bengio et al., 2015)
- 后者以一定的概率將(不可靠的)預測標簽替換為黃金標簽
- 作用:減輕了在培訓的早期階段發現性能低下的實體的問題,并允許實體信息進一步幫助下游關系分類。
在端到端關系提取方面,我們改進了最先進的基于特征的模型,在F1-score中減少了12.1% (ACE2005)和5.7% (ACE2004)的相對錯誤。在名義關系分類(SemEval-2010 Task 8)上,我們的模型在F1-score上優于最先進的基于cnn的模型。最后,我們還對我們的各種模型組件進行了刪減和比較,得出了關于不同RNN結構、輸入依賴關系結構、不同解析模型、外部資源和聯合學習設置的貢獻和有效性的一些關鍵結論(積極的和消極的)。
- 改進了最先進的基于特征的模型
- 組件刪減和比較
2.相關工作
LSTM-RNNs被廣泛用于順序標記,如從句識別(Hammerton, 2001)、語音標記(Graves and Schmidhuber, 2005)和NER (Hammerton, 2003)。最近,Huang等人(2015)證明了這一點在雙向LSTM-RNNs上構建條件隨機域(CRF)層的性能與partof-speech (POS)標記、分塊和NER中的最新方法相當。
- 對于關系分類,除了傳統的基于特征/內核的方法外(Zelenko et al., 2003;Bunescu和Mooney(2005)在semevalv -2010 Task 8 (Hendrickx et al., 2010)中提出了幾種神經模型,包括
- 基于嵌入的模型(Hashimoto et al., 2015)、
- 基于cnn的模型(dos Santos et al., 2015)和
- 基于rnn的模型(Socher et al., 2012)。
- 最近,Xu et al. (2015a)和Xu et al. (2015b)表明,基于特征/內核的系統中使用的關系參數之間的最短依賴路徑在基于nn-based的模型中也很有用(Bunescu和Mooney, 2005)。
- Xu等人(2015b)也表明LSTMRNNs在關系分類中是有用的,但其性能不如基于cnn的模型。
- Li等(2015)使用基本的RNN模型結構,比較了單獨的基于序列和樹型的LSTM-RNNs在關系分類上的差異。
樹結構LSTM-RNNs的研究(Tai et al., 2015)修正了從下到上的信息傳播方向,也不能像類型化依賴樹那樣處理任意數量的類型化子節點。此外,沒有一種基于RNNbased的關系分類模型同時使用詞序列和依賴樹信息。我們提出了幾個這樣的新模型結構和訓練設置,研究了同時使用雙向順序和雙向樹狀結構LSTM-RNNs來聯合捕獲線性和依賴上下文來提取實體之間的關系。
- 沒有一種基于RNNbased的關系分類模型同時使用詞序列和依賴樹信息
- 本文用了
對于實體間關系的端到端(聯合)提取,現有的模型都是基于特征的系統(沒有提出基于nn的模型)。這些模型包括結構化預測(Li和Ji, 2014;Miwa和Sasaki, 2014),整數線性規劃(Roth和Yih, 2007;Yang和Cardie, 2013),卡片金字塔解析(Kate和Mooney, 2010),全球概率圖形模型(Yu和Lam, 2010;辛格等人,2013)。其中,結構化預測方法在一些語料庫上是最先進的。我們提出了一種改進的基于nn的端到端關系提取方法。
- 以前只有基于特征的聯合抽取
- 本文提出了基于nn的聯合抽取
3.model
我們使用表示字序列和依賴樹結構的LSTM-RNNs來設計我們的模型,并在這些RNNs之上執行實體之間關系的端到端提取。圖1為模型概述。該模型主要由三層表示層組成:單詞嵌入層(embeddings layer,即嵌入層)、基于單詞序列的LSTM-RNN層(sequence layer,即序列層),最后是基于依賴子樹的LSTM-RNN層(dependency layer,即依賴層)。在解碼過程中,我們在序列層上建立貪婪的從左到右的實體檢測,在依賴層上實現關系分類,每個基于LSTM-RNN的子樹對應兩個被檢測實體之間的關系候選。在解碼整個模型結構之后,我們通過時間反向傳播(BPTT)同時更新參數(Werbos, 1990)。依賴層疊加在序列層上,嵌入層和序列層由實體檢測和關系分類共享,共享參數由實體標簽和關系標簽共同影響。
- 三層
- 嵌入層
- lstm-rnn層(序列層
- 依賴層(基于依賴子樹的LSTM-RNN層
- 解碼
- 貪婪的實體檢測(左-》右)
- 在依賴層上實現關系分類
- 每個基于LSTM-RNN的子樹對應兩個被檢測實體之間的關系候選
- 參數更新
- BPTT(同時更新
- 共享參數
- 依賴層疊加在序列層上,嵌入層和序列層由實體檢測和關系分類共享,共享參數由實體標簽和關系標簽共同影響。
3.1嵌入層
- 向量表示
- v(w):nw維,單詞嵌入v^{(w)}:n_w維,單詞嵌入v(w):nw?維,單詞嵌入
- v(p):np維,part?of?speech(POS)標簽v^{(p)}:n_p維,part-of-speech(POS)標簽v(p):np?維,part?of?speech(POS)標簽
- v(d):nd維,依賴類型嵌入v^{(d)}:n_d維,依賴類型嵌入v(d):nd?維,依賴類型嵌入
- v(e):ne維,實體標簽嵌入v^{(e)}:n_e維,實體標簽嵌入v(e):ne?維,實體標簽嵌入
3.2 序列層
序列層使用來自嵌入層的表示以線性序列表示單詞。該層表示句子上下文信息并維護實體,如圖1左下角所示
我們用雙向LSTM-RNNs表示句子中的單詞序列(Graves et al., 2013)。第t字處的LSTM單元由一組nls維向量組成:一個輸入門it、一個遺忘門ft、一個輸出門ot、一個存儲單元ct和一個隱藏狀態ht。該單元接收一個n維輸入向量xt、先前的隱藏狀態ht 1和內存單元ct 1,并使用以下方程計算新的向量
- KaTeX parse error: Undefined control sequence: \sigmoid at position 1: \?s?i?g?m?o?i?d?:是sigmoid函數(log…
- xt=[vt(w);vt(p)]x_t=[v_t^{(w)};v_t^{(p)}]xt?=[vt(w)?;vt(p)?]
- 輸出向量的兩個方向也聯合成一個st
3.3實體檢測
我們將實體檢測視為一個序列標記任務。我們使用一個常用的編碼方案BILOU (Begin, Inside, Last, Outside, Unit)為每個單詞分配一個實體標記(Ratinov和Roth, 2009),其中每個實體標記表示實體類型和單詞在實體中的位置。例如,在圖1中,我們將B-PER和L-PER(分別表示person實體類型的開頭和結尾)分配給Sidney Yates中的每個單詞,以將該短語表示為PER (person)實體類型。
- 序列標注問題
- 使用BILOU(Begin, Inside, Last, Outside, Unit)
- 使用BILOU(Begin, Inside, Last, Outside, Unit)
我們以貪婪的從左到右的方式為單詞分配實體標簽。在這個解碼過程中,我們使用一個單詞的預測標簽來預測下一個單詞的標簽,從而考慮到標簽的相關性。上面的NN接收它在序列層中相應輸出的拼接和它前面單詞的標簽嵌入(圖1)。
3.4 依賴層
- 找一對目標詞之間的最短路徑
- 我們使用雙向樹結構的LSTM-RNNs(即。底->上,上->下)
- 我們提出了一種新的樹結構LSTM-RNN的變體,它可以共享同類型子節點的權矩陣,并且允許子節點的數目是可變的。
依賴層表示依賴樹中一對目標詞(對應關系分類中的關系候選詞)之間的關系,負責關系的特定表示,如圖1右上角所示。這一層主要關注依賴樹中一對目標詞之間的最短路徑。因為這些路徑被證明在關系分類中是有效的(Xu et al., 2015a)。例如,我們在圖1的底部顯示了Yates和Chicago之間的最短路徑,這條路徑很好地捕捉了他們關系的關鍵短語,即borin-in。
我們使用雙向樹結構的LSTM-RNNs(即。底->上,上->下)通過捕獲目標詞對周圍的依賴關系結構來表示候選關系。這種雙向結構不僅向每個節點傳播來自葉節點的信息,而且還傳播來自根節點的信息。這對于關系分類特別重要,因為它利用了樹底部附近的參數節點,而我們的自頂向下LSTM-RNN將樹頂部的信息發送到這些近葉節點(與標準的自底向上LSTM-RNNs不同)。注意,Tai等人(2015)提出的樹結構LSTM-RNNs的兩個變體不能表示我們的目標結構,這些目標結構的子類型數量是可變的:子和樹lstm不處理類型,而N-ary樹假設有固定數量的子類型。因此,我們提出了一種新的樹結構LSTM-RNN的變體,它可以共享同類型子節點的權矩陣,并且允許子節點的數目是可變的。對于該變量,我們使用以下公式計算LSTM單元第t個節點上的nlt維向量和C(t)個子節點上的nlt維向量
- m–一種映射函數
為了研究合適的結構來表示兩個目標詞對之間的關系,我們用三種結構選項進行了實驗。我們主要使用最短路徑結構(SPTree),它捕獲目標詞對之間的核心依賴路徑,廣泛用于關系分類模型,例如Bunescu和Mooney, 2005; Xu et al., 2015a). 我們還嘗試了另外兩種依賴結構:SubTree 和FullTree。SubTree 是目標詞對的最低共同祖先的子樹。這為SPTree中的路徑和單詞對提供了額外的修飾符信息。FullTree是完整的依賴樹。這捕獲了整個句子的上下文。當我們為SPTree使用一個節點類型時,我們為子樹和FullTree定義了兩個節點類型,即,一個用于最短路徑上的節點,另一個用于所有其他節點。我們使用類型映射function m(·)來區分這兩個節點類型。
- 用了三種結構選項實驗
- 最短路徑結構(SPTree),它捕獲目標詞對之間的核心依賴路徑
- SubTree :目標詞對的最低共同祖先的子樹
- FullTree:完整的依賴樹,這捕獲了整個句子的上下文。
3.5 Stacking Sequence and Dependency Layers
我們將依賴層(對應于候選關系)堆疊在序列層的頂部,以便將單詞序列和依賴樹結構信息合并到輸出中。
- 第t個字的依賴層LSTM單元接收xt作為輸入
3.6關系分類
- 我們使用檢測到的實體的最后幾個字的所有可能組合,逐步構建候選關系。
- 負關系:實體錯誤或沒關系–無方向
- 關系標簽:類型+方向
- 將關聯候選向量構造為串聯KaTeX parse error: Undefined control sequence: \toparrow at position 6: d_p=[\?t?o?p?a?r?r?o?w? ?h_{pA};\downarr…
我們使用檢測到的實體的最后幾個字的所有可能組合,逐步構建候選關系。即是說,譯碼過程中,BILOU方案中帶有L或U標簽的單詞。例如,在圖1中,我們使用帶有L-PER標簽的Yates和帶有U-LOC標簽的Chicago來構建關系候選。對于每個關系候選對象,我們實現了與關系候選對象中對p之間的路徑相對應的依賴層dp(如上所述),神經網絡接收由依賴樹層輸出構造的關系候選向量,并預測其關系標簽。當被檢測到的實體是錯誤的或者是沒有關系的時候,我們將一對視為負關系。除了沒有方向的負關系外,我們用類型和方向來表示關系標簽。
我們從基于順序LSTM-RNNs+樹型LSTM-RNNs的關系分類中構造了輸入dp,因此序列層對輸入的貢獻是間接的。此外,我們的模型使用單詞來表示實體,因此它不能完全使用實體信息。為了緩解這些問題,我們直接將從序列層到輸入dp再到關系分類的每個實體的隱藏狀態向量的平均值連接起來
- 問題
- 貢獻是簡介的
- 不能完全使用實體信息
- 解決:直接將從序列層到輸入dp再到關系分類的每個實體的隱藏狀態向量的平均值連接起來–dp’=
此外,由于我們同時考慮了從左到右和從右到左的方向,所以我們在預測時為每個詞對分配了兩個標簽。當預測的標簽不一致時,我們選擇積極和更自信的標簽,類似于Xu等人(2015a)。
3.7 訓練
更新:權重,bias,embeddings
- 方法
- BPTT
- adam(梯度裁剪)
- 參數平均
- L2-regularization(W,U),不對biases正則化
- dropout
- 嵌入層
- 實體檢測的最后一層的隱層
- 關系分類
- 兩個增強
- 為了減輕培訓初期實體預測不可靠的問題和鼓勵從被檢測的實體構建積極的關系實例
- scheduled sampling
- 概率?i??依賴于epoch:?i=k/(k+exp(i/k)概率\epsilon_i--依賴于epoch:\epsilon_i=k/(k+exp(i/k)概率?i???依賴于epoch:?i?=k/(k+exp(i/k)
- 實體預訓練
4 實驗
為了分析我們的端到端關系提取模型的各個組成部分的貢獻和影響,我們對ACE05開發集進行了消融測試(表2)。在不進行計劃采樣的情況下,性能略有下降,在去除實體預訓練或同時去除實體預訓練或同時去除兩者時,性能顯著下降(p<0.05)。這是合理的,因為模型只能在發現兩個實體時創建關系實例,如果沒有這些增強,發現一些關系可能就太晚了。
我們還展示了在不共享參數的情況下的性能,即、嵌入層和序列層,用于檢測實體和關系(共享參數);我們首先訓練實體檢測模型,用模型檢測實體,然后利用被檢測實體建立一個單獨的關系提取模型,即,沒有實體檢測。這個設置可以看作是一個流水線模型,因為兩個單獨的模型是按順序訓練的。在沒有共享參數的情況下,實體檢測和關系分類的性能都略有下降,盡管存在差異但不重要。當我們刪除所有的增強時,即的性能顯著低于SPTree (p<0.01),表明這些增強為端到端關系提取提供了互補優勢
總結
提出了一種基于雙向序列和雙向樹結構的LSTM-RNNs的端到端關系抽取模型,該模型同時表示字序列和依賴樹結構。這允許我們代表實體和關系在一個模型中,實現先進的收益,基于功能的系統端到端關系提取(ACE04和ACE05),并顯示類似的性能要優于最新最先進的CNNbased模型名義關系分類任務(semeval - 2010 8)。我們的評估和燒蝕導致三個重要發現。首先,單詞序列和依賴樹結構的使用是有效的。其次,使用共享參數進行訓練可以提高關系提取的準確性,特別是在使用實體預訓練、計劃抽樣和標簽嵌入時。最后,在關系分類中得到廣泛應用的最短路徑也適用于神經LSTM模型中樹結構的表示。
總結
以上是生活随笔為你收集整理的论文学习14-End-to-End Relation Extraction using LSTMs on Sequences and Tree Structures(端到端实体关系抽取)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 算术逻辑单元设计
- 下一篇: 如何通向“广义人工智能”?LSTM 提出