當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Exploiting the Syntax-Model Consistency for Neural Relation Extraction(关系抽取，语法模型，跨领域关系抽取

發布時間：2024/7/5 编程问答 49 豆豆

生活随笔收集整理的這篇文章主要介紹了 Exploiting the Syntax-Model Consistency for Neural Relation Extraction(关系抽取，语法模型，跨领域关系抽取小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

文章目錄

1.Introductiony
- 1.1 神經網絡的關系抽取
- 1.2使用依賴樹的關系抽取
- - 1.2.2 依賴樹的一般樹
- 1.3 本文做法
2. 相關工作
- 2.1核方法
- 2.2 深度學習方法
- - 2.2.1 CNN
  - 2.2.2 RNN
  - 2.2.3 transformer
  - 2.2.4 依賴樹
3.模型
- 3.1CEON-LSTM
- - 3.1.1 LSTM
  - 3.1.2ON-LSTM
  - - 3.1.2.1 公式
    - 3.1.2.2the master gate的區別和原因
    - 3.1.2.3重要性分數
  - 3.1.3 CEON-LSTM
- 3.3 一致性
- 3.3 Sentence-Dependency Path Similarity
- 3.4 預測
4 實驗
- 4.1 數據集和超參數
- - 4.1.1ACE2005
  - - 4.1.1.1 超參數
  - 4.1.2 SPOUSE
  - 4.1.3 the SciERC dataset (Luan et al., 2018)
- 4.2 比較對象
- - 4.2.1 ACE2005+word2vec
  - 4.2.2 ACE2005+Bert
- 4.3 Ablation Study
- - 4.3.1 the Model Components
  - 4.3.2變體
  - 4.3.3 基于模型的重要性分數
5 結論
參考文獻

引入語法依賴樹是有用的：語法對于關系抽取有意
- 依賴樹–>直接用于構建模型結構
- 或者，多任務學習(詞對的依賴關系和語義關系RE兩個任務）
- 獲得詞法信息
- 缺點：
  - 缺乏句法結構之外的泛化：泛化性能差
  - 對RE重要的詞沒有被捕獲
本文的方案
- 將詞法信息引入模型
  - 利用依賴樹
  - —>給對RE重要的詞高分數（重要性分數）—給每一個詞打分
- 做法
  - ON-LSTM:獲得每個詞在RE中的重要性
  - 語法的分數
  - 讓上面兩個分數一致

1.Introductiony

1.1 神經網絡的關系抽取

神經網絡的關系抽取
- Verga et al., 2018
Patrick Verga, Emma Strubell, and Andrew McCallum.2018. Simultaneously self-attending to all mentions for full-abstract biological relation extraction. In EMNLP.

1.2使用依賴樹的關系抽取

依賴樹（使用依賴樹的關系抽取）
- (Xu et al., 2015; Guo et al., 2019; Tran et al., 2019)
Yan Xu, Lili Mou, Ge Li, Yunchuan Chen, Hao Peng,and Zhi Jin. 2015. Classifying relations via long short term memory networks along shortest dependency paths. In EMNLP.
Zhijiang Guo, Yan Zhang, and Wei Lu. 2019. Attention guided graph convolutional networks for relation extraction. In ACL.
Van-Hien Tran, Van-Thuy Phi, Hiroyuki Shindo, and Yuji Matsumoto. 2019. Relation classification using segment-level attention-based cnn and dependencybased rnn. In NAACL-HLT.
- 使用依賴樹來構建神經網絡
  - GCN（依據語法樹構建）： (Zhang et al., 2018)
  Yuhao Zhang, Peng Qi, and Christopher D Manning.2018. Graph convolution over pruned dependency trees improves relation extraction. In EMNLP.
- 缺陷
  - 泛化性能差
    - 測試數據和訓練數據的語法結構不同
    - 過擬合了
    - 尤其是：跨領域關系抽取（語法結構差異更大
- 解決想法
  - 獲得更一般的語法結構表示（依賴樹）

1.2.2 依賴樹的一般樹

RE的一般語法樹表示
- 依賴樹劃分為邊的集合：Veyseh et al.， 2019
  
  Amir Pouran Ben Veyseh, Thien Huu Nguyen, and Dejing Dou. 2019. Improving cross-domain performance for relation extraction via dependency prediction and information flow control. In IJCAI.
  - 單詞之間的依賴關系集合
  - 隨后用于多任務學習
  - 優點：
    - 對整個樹的依賴變為對邊的依賴–特定于邊的泛化性好一點
    - 只抓住了詞對之間的依賴關系
  - 限制
    - 忽略了全局的重要性（對RE任務的重要性）
      - 詞在句子中能獲得更多信息
      - 依賴樹在句子中可以幫助識別重要的單詞，并為其分配更高的分數

1.3 本文做法

目標
- 一般樹+詞的重要性
做法
- ON-LSTM(Shen et al.， 2019)：獲得句子中單詞的重要得分（對RE)
  - LSTM+兩個門（master遺忘門和master輸入門)
    - 高階神經元被保持的更久（？）
  - 重要性得分：依據激活神經元個數而定
  - ON-LSTM第一次用于RE
  - 改進：
    - 問題：原始ON-LSTM只看這個單詞及其左邊的隱層單元（此前的）
    - 右邊的信息也很重要(要有一個整體的理解
    - 使用句子的整體表示+master gates–>重要性
- 注入基于語法的重要性得分
- 確保一致性：語法得分==RE得分（KL散度實現）
  - 動機：提高重要性得分作為傳遞語法信息的橋梁的能力，豐富RE的向量表示
- 引入一種新的inductive bias
  - 使得有最短依賴路徑上的實體對之間的表示和整個句子的表示的相似性提升
  - 關系可從這兩者推斷
  - 所以期望依賴路徑與整個句子的表示相似—都捕獲了語義關系
  - 相似，可獲得更有利于RE的表示

2. 相關工作

2.1核方法

(Zelenko et al., 2003; Zhou et al., 2005; Bunescu and Mooney, 2005; Sun et al., 2011; Chan and Roth, 2010; Nguyen and Grishman, 2014; Nguyen et al., 2015c)

問題
- 對extensive feature 或者 kernel engineering effort的需求
- 阻礙了其泛化性和適用性

2.2 深度學習方法

2.2.1 CNN

(Zeng et al., 2014; Nguyen and Grishman, 2015a; dos Santos et al., 2015; Wang et al., 2016)

2.2.2 RNN

(Nguyen and Grishman, 2016; Zhou et al., 2016; Zhang et al., 2017; Nguyen et al., 2019a)

2.2.3 transformer

(Verga et al., 2018)

2.2.4 依賴樹

(Tai et al., 2015; Xu et al., 2015; Liu et al., 2015; Miwa and Bansal, 2016; Peng et al., 2017; Zhang et al., 2018; Guo et al., 2019; Tran et al., 2019; Song et al., 2019; Veyseh et al., 2019)

問題
- 泛化性差
  - 不同領域
- 無詞法重要性（依賴樹的邊獲得）
  - (Veyseh et al., 2019)

3.模型

形式化：多分類問題
- $W=w_1,w_2,...,w_N:w_t為第t個詞\\ s,o為頭實體、尾實體的mention的索引\\ w_s,w_o為相應的提及$
輸入
- word embedding
- position embedding(實體1和實體2的）
- entity type embedding(BIO)
- 將 $W=w_1,w_2,...,w_N-->X=x_1,x_2,...,x_N$ 表示為向量
三個組件
- CEON-LSTM:centext-enriched ON-LSTM)計算基于模型的單詞重要性
- syntax-model consistency component:基于語法的和基于模型的重要性分數一致
- the similarity component:使整個句子和最短依賴路徑的向量表示相似

3.1CEON-LSTM

目的：計算每個詞在句中上下文下，預測關系時的重要性(基于模型的分數)
組件
- ON-LSTM:得到基于模型的分數
- CEON-LSTM:將整個句子的表示整合到ON-LSTM的cells中

3.1.1 LSTM

LSTM
- 輸入： $X=x_1,x_2,...,x_N$
- 遞歸函數—LSTM的公式
  - $ft=σ(Wfxt+Ufht?1+bf)it=σ(Wixt+Uiht?1+bi)ot=σ(Woxt+Uoht?1+bo)ct^=tanh(Wcxt+Ucht?1+bo)ct=ft°ct?1+it°ct^ht=ot°tanh(ct)f_t=\sigma(W_fx_t+U_fh_{t-1}+b_f)\\ i_t=\sigma(W_ix_t+U_ih_{t-1}+b_i)\\ o_t=\sigma(W_ox_t+U_oh_{t-1}+b_o)\\ \hat{c_t}=tanh(W_cx_t+U_ch_{t-1}+b_o)\\ c_t=f_t\circ c_{t-1}+i_t\circ \hat{c_t}\\ h_t=o_t\circ tanh(c_t)$
  - 這里應該就是LSTM而不是GRU

3.1.2ON-LSTM

ON-LSTM
- 多引入了兩個門
  - 為了計算重要性
  - the master forget gate
  - the master input gate

3.1.2.1 公式

公式
- $ft=σ(Wfxt+Ufht?1+bf)it=σ(Wixt+Uiht?1+bi)ot=σ(Woxt+Uoht?1+bo)ft^=cummax(Wf^xt+Uf^ht?1+bf^)it^=1?cummax(Wi^xt+Ui^ht?1+bi^)ftˉ=ft^°(ftit^+1?it^)itˉ=it^°(itft^+1?ft^)ct=ftˉ°ct?1+itˉ°ct^ht=ot°tanh(ct)f_t=\sigma(W_fx_t+U_fh_{t-1}+b_f)\\ i_t=\sigma(W_ix_t+U_ih_{t-1}+b_i)\\ o_t=\sigma(W_ox_t+U_oh_{t-1}+b_o)\\ \hat{f_t}=cummax(W_{\hat{f}}x_t+U_{\hat{f}}h_{t-1}+b_{\hat{f}})\\ \hat{i_t}=1-cummax(W_{\hat{i}}x_t+U_{\hat{i}}h_{t-1}+b_{\hat{i}})\\ \bar{f_t}=\hat{f_t}\circ (f_t\hat{i_t}+1-\hat{i_t})\\ \bar{i_t}=\hat{i_t}\circ(i_t\hat{f_t}+1-\hat{f_t})\\ c_t=\bar{f_t}\circ c_{t-1}+\bar{i_t}\circ \hat{c_t}\\ h_t=o_t\circ tanh(c_t)$
- $c u m m a x (x) = c u m s u m (s o f t m a x (x))$

3.1.2.2the master gate的區別和原因

the master forget/input gate(ON -LSTM) 和the forget/input gate（LSTM)不同
- the forget/input gate（LSTM)
  - 假設隱層向量中的神經元/維度是同等重要的
  - 在句子中的每一步都被激活（？）
    - the neurons/dimensions in their hidden vectors are equally important and that these neurons are active at every step (word) in thesentence.
- ON-LSTM完全相反
  - 隱層向量的神經元是分層級的
  - 活動限制:限制句中部分單詞的神經元的活動
    - 高階神經元對更多的詞而言是激活的
    - 高階神經元被保持的更久（？）
  - 以上兩者的實現，依靠cumax(x)
    - cusum:沿著維度聚合（相加）
    - 輸出：二進制向量的期望
      - 二進制向量形式為（0,…,0,1,…,1)–門向量
        （這個向量，怎么0,1這么分明？？）
        0段：未激活
        1段：激活

3.1.2.3重要性分數

重要性分數
- 看the master gate:單詞激活的神經元數量
- 估計：the master gate中神經元的權重之和之和
- 使用the master forget gate的隱層向量
- 隱層向量的 $ht^\hat{h_t}$ 權重： $ft^=ft1^,ft2^,...,ftD^\hat{f_t}=\hat{f_{t1}},\hat{f_{t2}},...,\hat{f_{tD}}$
  - D：門向量的維度
- 重要性分數 $modt=1?Σi=1..Dfti^mod_t=1-\Sigma_{i=1..D}\hat{f_{ti}}$
- 為了方便，用H表示ON-LSTM返回的向量

3.1.3 CEON-LSTM

將上下文信息注入到ON-LSTM中
ON-LSTM的限制
- 僅看當前詞 $x_t$ 和左側詞，不看右側詞–計算the master gate vectors和基于模型的重要性
- 右側的一些詞的出現可以降低當前詞的重要性
CEON-LSTM
- 獲取包含整個句子上下文信息的單詞的表示 $x_t'=g(x_1,x_2,...,x_N)$
- 在計算the master gate和重要性分數時： $x_t'$ 替換 $x_t$ —這樣就包含了上下文信息
- $ft=σ(Wfxt+Ufht?1+bf)it=σ(Wixt+Uiht?1+bi)ot=σ(Woxt+Uoht?1+bo)xt′=Σiαti(Wxxi+bx)αti=exp((Whht?1+bh)?(Wxxi+bx))Σj=1Nexp((Whht?1+bh)?(Wxxj+bx))attentionft^=cummax(Wf^xt′+Uf^ht?1+bf^)it^=1?cummax(Wi^xt′+Ui^ht?1+bi^)ftˉ=ft^°(ftit^+1?it^)itˉ=it^°(itft^+1?ft^)ct=ftˉ°ct?1+itˉ°ct^ht=ot°tanh(ct)f_t=\sigma(W_fx_t+U_fh_{t-1}+b_f)\\ i_t=\sigma(W_ix_t+U_ih_{t-1}+b_i)\\ o_t=\sigma(W_ox_t+U_oh_{t-1}+b_o)\\ x_t'=\Sigma_i\alpha_{ti}(W_xx_i+b_x)\\ \alpha_{ti}=\frac{exp((W_hh_{t-1}+b_h)\cdot(W_xx_i+b_x))}{\Sigma_{j=1}^Nexp((W_hh_{t-1}+b_h)\cdot(W_xx_j+b_x))}attention\\ \hat{f_t}=cummax(W_{\hat{f}}x_t'+U_{\hat{f}}h_{t-1}+b_{\hat{f}})\\ \hat{i_t}=1-cummax(W_{\hat{i}}x_t'+U_{\hat{i}}h_{t-1}+b_{\hat{i}})\\ \bar{f_t}=\hat{f_t}\circ (f_t\hat{i_t}+1-\hat{i_t})\\ \bar{i_t}=\hat{i_t}\circ(i_t\hat{f_t}+1-\hat{f_t})\\ c_t=\bar{f_t}\circ c_{t-1}+\bar{i_t}\circ \hat{c_t}\\ h_t=o_t\circ tanh(c_t)$
- $c u m m a x (x) = c u m s u m (s o f t m a x (x))$
- $h_{t-1}$ -query

3.3 一致性

基于模型的重要性： $mod_t$ 語義信息（RE）
語法信息的重要性： $syn_t$ 依賴樹
都希望能有助于關系抽取
通過KL散度保證一致性
- 標準化： $mod1ˉ,...,modNˉ=softmax(mod1,...,modN)syn1ˉ,...,synNˉ=softmax(syn1,...,synN)\bar{mod_1},...,\bar{mod_N}=softmax(mod_1,...,mod_N)\\ \bar{syn_1},...,\bar{syn_N}=softmax(syn_1,...,syn_N)$
- KL散度： $Limport=?ΣimodiˉlogmodiˉsyniˉL_{import}=-\Sigma_i\bar{mod_i}log\frac{\bar{mod_i}}{\bar{syn_i}}$
  - 利用一致性監督基于模型的得分和基于語法的得分
  - 使得語法信息 直接對CEON-LSTM的內部神經元結構干涉
  - 融入語法信息，更好地進行RE
動機
- 兩實體之間的最短依賴路徑：抓住了重要的上下文信息（詞）
具體：
- 首先檢索：最短依賴路徑DP和（任意對詞對的）最長路徑的長度T
- 計算語法重要性 $Syn_t$ ：
  - 區別（下面兩者的difference）
    - T
    - $w_t$ 和DP中的一些詞的最短路徑長度（？）
- 重要性得分
  - 捕獲了重要性
  - 代表一種原始依賴樹的寬松版本，便于泛化（在不同領域數據上）
    - 直接使用依賴樹，容易過擬合

3.3 Sentence-Dependency Path Similarity

inductive bias–提升相似性
- 對象：
  - 整個輸入句子W的向量表示– $R_W$
  - 沿著最短路徑DP的單詞們的向量表示– $R_{DP}$
- 方法：
  - 引入約束
- 目的：
  - 最大化相似性
- 獲得向量表示–by max-pooling
  - $RW=max_poolinggwi∈W(hi)R_W=max\_pooling_{g_{w_i}\in W}(h_i)$
  - $RDP=max_poolinggwi∈DP(hi)R_{DP}=max\_pooling_{g_{w_i}\in DP}(h_i)$
  - 符號
    - h：CEON_LSTM的隱層輸出向量
- 計算：cosine 相似度
  - $L_{path}=1-cos(R_W,R_{DP})$
  - –最小化這個損失函數

3.4 預測

同(Veyseh et al.， 2019)
V:整體向量表示
- 用于：預測 $w_s,w_o$
- $V=[x_s,x_o,h_s,h_o,R_W]$
- 信息：有W不同抽象等級的信息
  - raw: $x_s,x_o$
  - 抽象表示 $h_s,h_o$ –來自CEON-LSTM
  - 整體句子向量 $R_W$
$P(`|W,w_s,w_o)$ :W中可能關系的概率分布
- $P(y|W,w_s,w_o)=softmax(ff(V))$
- ff:feed-forward neural network
損失函數
- $L_{label}=-log(P(y|W,w_s,w_o))$
- $L_{path}=1-cos(R_W,R_{DP})$
- $Limport=?ΣimodiˉlogmodiˉsyniˉL_{import}=-\Sigma_i\bar{mod_i}log\frac{\bar{mod_i}}{\bar{syn_i}}$
- $L=Llabel+αLimport+βLpathL=L_{label}+\alpha L_{import}+\beta L_{path}$
訓練
- 打散
- mini-batching

4 實驗

4.1 數據集和超參數

數據集
- ACE2005
- SPOUCE
- SciERC

4.1.1ACE2005

使用過這個數據集的：
- (Nguyen and Grishman, 2016; Fu et al., 2017;
  Shi et al., 2018; Veyseh et al., 2019),
數據預處理： Fu et al., 2017;
ACE2005
- 多個領域：bc, bn, cts,nw, un, and wl
- 劃分
  - 訓練集：bn,nw(news)–source domain
  - dev:bc的一半
  - test:cts,wl,bc的另外一半
  - –研究跨領域關系抽取

4.1.1.1 超參數

在ACE2005上調出
- 輸入維度
  - word embedding:
    - word2vec–300
    - $BERT_{base} model$ 768
  - pos embedding:30
  - entity type emebdding:30
- CEON-LSTM隱層單元數：200
- 各種隱層：200
  - $x_t'$
  - ff:2層
- $α=1β=1\alpha=1\\ \beta=1$
- lr=0.001–adam optimizer
- batch size=50

4.1.2 SPOUSE

SPOUSE數據集(Hancock et al.， 2018)
- 22195個句子用于訓練數據，2796個句子用于驗證數據，2697個句子用于測試數據
- 實體：這個數據集中的每個句子包含兩個標記的人名(即實體提到的人名)
- 目標：是識別句子中提到的兩個人是否為配偶。

4.1.3 the SciERC dataset (Luan et al., 2018)

the SciERC dataset (Luan et al., 2018)
- 實體：500個科技摘要
- 和這些實體之間的共指消解和關系抽取
- RE:
  - train:3219句子
  - dev:455
  - test:974

4.2 比較對象

基于特征的方法：FCM、HybridFCM、LRFCM、SVM
- (Yu et al., 2015; Hendrickx et al., 2010)
深度學習（神經網絡）
- 基于序列的方法：
  - log-linear,
  - CNN,
  - Bi-GRU,
  - Forward GRU,
  - Backward GRU (Nguyen and Grishman, 2016),
  - CNN+DANN (Fu et al., 2017).
對抗學習：Adversarial learning model:GSN
- (Shi et al., 2018)
深度的基于結構的模型
- 依賴樹
- 用圖去構造神經網絡結構

4.2.1 ACE2005+word2vec

多數模型使用word2vec
- 語法結構作用重大：基于結構的模型>基于序列的模型 and 基于特征的模型
- CEON-LSTM:在各個領域表現都好,對RE有效
  - 使用p<0.01,

4.2.2 ACE2005+Bert

一起訓練還是只用來初始化word embedding？
EA-BERT是Entity-Aware BERT
Bert有用：和表1比，均有提升
CEON-LSTM:在各個領域表現都好,對RE有效
* 使用p<0.01,
### 4.2.3 SPOUSE SciERC

4.3 Ablation Study

4.3.1 the Model Components

SCG: $x_t'$
SMC:一致性
SDPS:相似性

4.3.2變體

Bi-ON-LSTM:不用 $x_t'$ ,使用前向ON-LSTM和后向ON-LSTM計算的重要性的平均值
SA-ON-LSTM:query從h變成了x–self attention
CE-LSTM:ON-LSTM–>普通的LSTM
EP-ON-LSTM：依賴樹變為DRPC中的邊依賴
SP-CEON-LSTM: $R_W$ 的作用

4.3.3 基于模型的重要性分數

用the master gate獲得重要性分數的有效性
- 改為直接使用h計算mod

5 結論

首先，我們通過對輸入句子中的單詞進行基于語法的重要度評分來表示依賴樹。
其次，我們建議將整個句子表示向量納入ON-LSTM的單元中，使其能夠更有效地計算基于模型的重要度得分。我們還設計了一種新的機制，通過提高基于語法和基于模型的重要度得分的一致性，將語法信息投影到ON-LSTM的計算中。
最后，我們提出了一種新的深度學習模型的歸納偏差，它利用了整個輸入句子的表示向量的相似性和兩個實體之間最短的依賴路徑。

參考文獻

論文地址

總結

以上是生活随笔為你收集整理的Exploiting the Syntax-Model Consistency for Neural Relation Extraction(关系抽取，语法模型，跨领域关系抽取的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：视觉意识的主动推理模型
下一篇：一张图带你了解JRE、JDK、JVM