Exploiting the Syntax-Model Consistency for Neural Relation Extraction(关系抽取,语法模型,跨领域关系抽取
文章目錄
- 1.Introductiony
- 1.1 神經網絡的關系抽取
- 1.2使用依賴樹的關系抽取
- 1.2.2 依賴樹的一般樹
- 1.3 本文做法
- 2. 相關工作
- 2.1核方法
- 2.2 深度學習方法
- 2.2.1 CNN
- 2.2.2 RNN
- 2.2.3 transformer
- 2.2.4 依賴樹
- 3.模型
- 3.1CEON-LSTM
- 3.1.1 LSTM
- 3.1.2ON-LSTM
- 3.1.2.1 公式
- 3.1.2.2the master gate的區別和原因
- 3.1.2.3重要性分數
- 3.1.3 CEON-LSTM
- 3.3 一致性
- 3.3 Sentence-Dependency Path Similarity
- 3.4 預測
- 4 實驗
- 4.1 數據集和超參數
- 4.1.1ACE2005
- 4.1.1.1 超參數
- 4.1.2 SPOUSE
- 4.1.3 the SciERC dataset (Luan et al., 2018)
- 4.2 比較對象
- 4.2.1 ACE2005+word2vec
- 4.2.2 ACE2005+Bert
- 4.3 Ablation Study
- 4.3.1 the Model Components
- 4.3.2變體
- 4.3.3 基于模型的重要性分數
- 5 結論
- 參考文獻
- 引入語法依賴樹是有用的:語法對于關系抽取有意
- 依賴樹–>直接用于構建模型結構
- 或者,多任務學習(詞對的依賴關系和語義關系RE兩個任務)
- 獲得詞法信息
- 缺點:
- 缺乏句法結構之外的泛化:泛化性能差
- 對RE重要的詞沒有被捕獲
- 本文的方案
- 將詞法信息引入模型
- 利用依賴樹
- —>給對RE重要的詞高分數(重要性分數)—給每一個詞打分
- 做法
- ON-LSTM:獲得每個詞在RE中的重要性
- 語法的分數
- 讓上面兩個分數一致
- 將詞法信息引入模型
1.Introductiony
1.1 神經網絡的關系抽取
- 神經網絡的關系抽取
- Verga et al., 2018
Patrick Verga, Emma Strubell, and Andrew McCallum.2018. Simultaneously self-attending to all mentions for full-abstract biological relation extraction. In EMNLP.
1.2使用依賴樹的關系抽取
-
依賴樹(使用依賴樹的關系抽取)
- (Xu et al., 2015; Guo et al., 2019; Tran et al., 2019)
Yan Xu, Lili Mou, Ge Li, Yunchuan Chen, Hao Peng,and Zhi Jin. 2015. Classifying relations via long short term memory networks along shortest dependency paths. In EMNLP.
Zhijiang Guo, Yan Zhang, and Wei Lu. 2019. Attention guided graph convolutional networks for relation extraction. In ACL.
Van-Hien Tran, Van-Thuy Phi, Hiroyuki Shindo, and Yuji Matsumoto. 2019. Relation classification using segment-level attention-based cnn and dependencybased rnn. In NAACL-HLT.-
使用依賴樹來構建神經網絡
- GCN(依據語法樹構建): (Zhang et al., 2018)
Yuhao Zhang, Peng Qi, and Christopher D Manning.2018. Graph convolution over pruned dependency trees improves relation extraction. In EMNLP.
-
缺陷
- 泛化性能差
- 測試數據和訓練數據的語法結構不同
- 過擬合了
- 尤其是:跨領域關系抽取(語法結構差異更大
- 泛化性能差
-
解決想法
- 獲得更一般的語法結構表示(依賴樹)
1.2.2 依賴樹的一般樹
- RE的一般語法樹表示
-
依賴樹劃分為邊的集合:Veyseh et al., 2019
Amir Pouran Ben Veyseh, Thien Huu Nguyen, and Dejing Dou. 2019. Improving cross-domain performance for relation extraction via dependency prediction and information flow control. In IJCAI.
- 單詞之間的依賴關系集合
- 隨后用于多任務學習
- 優點:
- 對整個樹的依賴變為對邊的依賴–特定于邊的泛化性好一點
- 只抓住了詞對之間的依賴關系
- 限制
- 忽略了全局的重要性(對RE任務的重要性)
- 詞在句子中能獲得更多信息
- 依賴樹在句子中可以幫助識別重要的單詞,并為其分配更高的分數
- 忽略了全局的重要性(對RE任務的重要性)
-
1.3 本文做法
- 目標
- 一般樹+詞的重要性
- 做法
-
ON-LSTM(Shen et al., 2019):獲得句子中單詞的重要得分(對RE)
- LSTM+兩個門(master遺忘門和master輸入門)
- 高階神經元被保持的更久(?)
- 重要性得分:依據激活神經元個數而定
- ON-LSTM第一次用于RE
- 改進:
- 問題:原始ON-LSTM只看這個單詞及其左邊的隱層單元(此前的)
- 右邊的信息也很重要(要有一個整體的理解
- 使用句子的整體表示+master gates–>重要性
- LSTM+兩個門(master遺忘門和master輸入門)
-
注入基于語法的重要性得分
-
確保一致性:語法得分==RE得分(KL散度實現)
- 動機:提高重要性得分作為傳遞語法信息的橋梁的能力,豐富RE的向量表示
-
引入一種新的inductive bias
- 使得有最短依賴路徑上的實體對之間的表示和整個句子的表示的相似性提升
- 關系可從這兩者推斷
- 所以期望依賴路徑與整個句子的表示相似—都捕獲了語義關系
- 相似,可獲得更有利于RE的表示
-
2. 相關工作
2.1核方法
(Zelenko et al., 2003; Zhou et al., 2005; Bunescu and Mooney, 2005; Sun et al., 2011; Chan and Roth, 2010; Nguyen and Grishman, 2014; Nguyen et al., 2015c)
- 問題
- 對extensive feature 或者 kernel engineering effort的需求
- 阻礙了其泛化性和適用性
2.2 深度學習方法
2.2.1 CNN
(Zeng et al., 2014; Nguyen and Grishman, 2015a; dos Santos et al., 2015; Wang et al., 2016)
2.2.2 RNN
(Nguyen and Grishman, 2016; Zhou et al., 2016; Zhang et al., 2017; Nguyen et al., 2019a)
2.2.3 transformer
(Verga et al., 2018)
2.2.4 依賴樹
(Tai et al., 2015; Xu et al., 2015; Liu et al., 2015; Miwa and Bansal, 2016; Peng et al., 2017; Zhang et al., 2018; Guo et al., 2019; Tran et al., 2019; Song et al., 2019; Veyseh et al., 2019)
- 問題
- 泛化性差
- 不同領域
- 無詞法重要性(依賴樹的邊獲得)
- (Veyseh et al., 2019)
- 泛化性差
3.模型
- 形式化:多分類問題
- W=w1,w2,...,wN:wt為第t個詞s,o為頭實體、尾實體的mention的索引ws,wo為相應的提及W=w_1,w_2,...,w_N:w_t為第t個詞\\ s,o為頭實體、尾實體的mention的索引\\ w_s,w_o為相應的提及W=w1?,w2?,...,wN?:wt?為第t個詞s,o為頭實體、尾實體的mention的索引ws?,wo?為相應的提及
- 輸入
- word embedding
- position embedding(實體1和實體2的)
- entity type embedding(BIO)
- 將W=w1,w2,...,wN??>X=x1,x2,...,xNW=w_1,w_2,...,w_N-->X=x_1,x_2,...,x_NW=w1?,w2?,...,wN???>X=x1?,x2?,...,xN?表示為向量
- 三個組件
- CEON-LSTM:centext-enriched ON-LSTM)計算基于模型的單詞重要性
- syntax-model consistency component:基于語法的和基于模型的重要性分數一致
- the similarity component:使整個句子和最短依賴路徑的向量表示相似
3.1CEON-LSTM
- 目的:計算每個詞在句中上下文下,預測關系時的重要性(基于模型的分數)
- 組件
- ON-LSTM:得到基于模型的分數
- CEON-LSTM:將整個句子的表示整合到ON-LSTM的cells中
3.1.1 LSTM
- LSTM
- 輸入:X=x1,x2,...,xNX=x_1,x_2,...,x_NX=x1?,x2?,...,xN?
- 遞歸函數—LSTM的公式
- ft=σ(Wfxt+Ufht?1+bf)it=σ(Wixt+Uiht?1+bi)ot=σ(Woxt+Uoht?1+bo)ct^=tanh(Wcxt+Ucht?1+bo)ct=ft°ct?1+it°ct^ht=ot°tanh(ct)f_t=\sigma(W_fx_t+U_fh_{t-1}+b_f)\\ i_t=\sigma(W_ix_t+U_ih_{t-1}+b_i)\\ o_t=\sigma(W_ox_t+U_oh_{t-1}+b_o)\\ \hat{c_t}=tanh(W_cx_t+U_ch_{t-1}+b_o)\\ c_t=f_t\circ c_{t-1}+i_t\circ \hat{c_t}\\ h_t=o_t\circ tanh(c_t)ft?=σ(Wf?xt?+Uf?ht?1?+bf?)it?=σ(Wi?xt?+Ui?ht?1?+bi?)ot?=σ(Wo?xt?+Uo?ht?1?+bo?)ct?^?=tanh(Wc?xt?+Uc?ht?1?+bo?)ct?=ft?°ct?1?+it?°ct?^?ht?=ot?°tanh(ct?)
- 這里應該就是LSTM而不是GRU
3.1.2ON-LSTM
- ON-LSTM
- 多引入了兩個門
- 為了計算重要性
- the master forget gate
- the master input gate
- 多引入了兩個門
3.1.2.1 公式
- 公式
- ft=σ(Wfxt+Ufht?1+bf)it=σ(Wixt+Uiht?1+bi)ot=σ(Woxt+Uoht?1+bo)ft^=cummax(Wf^xt+Uf^ht?1+bf^)it^=1?cummax(Wi^xt+Ui^ht?1+bi^)ftˉ=ft^°(ftit^+1?it^)itˉ=it^°(itft^+1?ft^)ct=ftˉ°ct?1+itˉ°ct^ht=ot°tanh(ct)f_t=\sigma(W_fx_t+U_fh_{t-1}+b_f)\\ i_t=\sigma(W_ix_t+U_ih_{t-1}+b_i)\\ o_t=\sigma(W_ox_t+U_oh_{t-1}+b_o)\\ \hat{f_t}=cummax(W_{\hat{f}}x_t+U_{\hat{f}}h_{t-1}+b_{\hat{f}})\\ \hat{i_t}=1-cummax(W_{\hat{i}}x_t+U_{\hat{i}}h_{t-1}+b_{\hat{i}})\\ \bar{f_t}=\hat{f_t}\circ (f_t\hat{i_t}+1-\hat{i_t})\\ \bar{i_t}=\hat{i_t}\circ(i_t\hat{f_t}+1-\hat{f_t})\\ c_t=\bar{f_t}\circ c_{t-1}+\bar{i_t}\circ \hat{c_t}\\ h_t=o_t\circ tanh(c_t)ft?=σ(Wf?xt?+Uf?ht?1?+bf?)it?=σ(Wi?xt?+Ui?ht?1?+bi?)ot?=σ(Wo?xt?+Uo?ht?1?+bo?)ft?^?=cummax(Wf^??xt?+Uf^??ht?1?+bf^??)it?^?=1?cummax(Wi^?xt?+Ui^?ht?1?+bi^?)ft?ˉ?=ft?^?°(ft?it?^?+1?it?^?)it?ˉ?=it?^?°(it?ft?^?+1?ft?^?)ct?=ft?ˉ?°ct?1?+it?ˉ?°ct?^?ht?=ot?°tanh(ct?)
- cummax(x)=cumsum(softmax(x))cummax(x)=cumsum(softmax(x))cummax(x)=cumsum(softmax(x))
3.1.2.2the master gate的區別和原因
- the master forget/input gate(ON -LSTM) 和the forget/input gate(LSTM)不同
- the forget/input gate(LSTM)
- 假設隱層向量中的神經元/維度是同等重要的
- 在句子中的每一步都被激活(?)
- the neurons/dimensions in their hidden vectors are equally important and that these neurons are active at every step (word) in thesentence.
- ON-LSTM完全相反
- 隱層向量的神經元是分層級的
- 活動限制:限制句中部分單詞的神經元的活動
- 高階神經元對更多的詞而言是激活的
- 高階神經元被保持的更久(?)
- 以上兩者的實現,依靠cumax(x)
- cusum:沿著維度聚合(相加)
- 輸出:二進制向量的期望
- 二進制向量形式為(0,…,0,1,…,1)–門向量
- (這個向量,怎么0,1這么分明??)
- 0段:未激活
- 1段:激活
- 二進制向量形式為(0,…,0,1,…,1)–門向量
- the forget/input gate(LSTM)
3.1.2.3重要性分數
- 重要性分數
- 看the master gate:單詞激活的神經元數量
- 估計:the master gate中神經元的權重之和之和
- 使用the master forget gate的隱層向量
- 隱層向量的ht^\hat{h_t}ht?^?權重:ft^=ft1^,ft2^,...,ftD^\hat{f_t}=\hat{f_{t1}},\hat{f_{t2}},...,\hat{f_{tD}}ft?^?=ft1?^?,ft2?^?,...,ftD?^?
- D:門向量的維度
- 重要性分數modt=1?Σi=1..Dfti^mod_t=1-\Sigma_{i=1..D}\hat{f_{ti}}modt?=1?Σi=1..D?fti?^?
- 為了方便,用H表示ON-LSTM返回的向量
3.1.3 CEON-LSTM
- 將上下文信息注入到ON-LSTM中
- ON-LSTM的限制
- 僅看當前詞xtx_txt?和左側詞,不看右側詞–計算the master gate vectors和基于模型的重要性
- 右側的一些詞的出現可以降低當前詞的重要性
- CEON-LSTM
- 獲取包含整個句子上下文信息的單詞的表示xt′=g(x1,x2,...,xN)x_t'=g(x_1,x_2,...,x_N)xt′?=g(x1?,x2?,...,xN?)
- 在計算the master gate和重要性分數時:xt′x_t'xt′?替換xtx_txt?—這樣就包含了上下文信息
- ft=σ(Wfxt+Ufht?1+bf)it=σ(Wixt+Uiht?1+bi)ot=σ(Woxt+Uoht?1+bo)xt′=Σiαti(Wxxi+bx)αti=exp((Whht?1+bh)?(Wxxi+bx))Σj=1Nexp((Whht?1+bh)?(Wxxj+bx))attentionft^=cummax(Wf^xt′+Uf^ht?1+bf^)it^=1?cummax(Wi^xt′+Ui^ht?1+bi^)ftˉ=ft^°(ftit^+1?it^)itˉ=it^°(itft^+1?ft^)ct=ftˉ°ct?1+itˉ°ct^ht=ot°tanh(ct)f_t=\sigma(W_fx_t+U_fh_{t-1}+b_f)\\ i_t=\sigma(W_ix_t+U_ih_{t-1}+b_i)\\ o_t=\sigma(W_ox_t+U_oh_{t-1}+b_o)\\ x_t'=\Sigma_i\alpha_{ti}(W_xx_i+b_x)\\ \alpha_{ti}=\frac{exp((W_hh_{t-1}+b_h)\cdot(W_xx_i+b_x))}{\Sigma_{j=1}^Nexp((W_hh_{t-1}+b_h)\cdot(W_xx_j+b_x))}attention\\ \hat{f_t}=cummax(W_{\hat{f}}x_t'+U_{\hat{f}}h_{t-1}+b_{\hat{f}})\\ \hat{i_t}=1-cummax(W_{\hat{i}}x_t'+U_{\hat{i}}h_{t-1}+b_{\hat{i}})\\ \bar{f_t}=\hat{f_t}\circ (f_t\hat{i_t}+1-\hat{i_t})\\ \bar{i_t}=\hat{i_t}\circ(i_t\hat{f_t}+1-\hat{f_t})\\ c_t=\bar{f_t}\circ c_{t-1}+\bar{i_t}\circ \hat{c_t}\\ h_t=o_t\circ tanh(c_t)ft?=σ(Wf?xt?+Uf?ht?1?+bf?)it?=σ(Wi?xt?+Ui?ht?1?+bi?)ot?=σ(Wo?xt?+Uo?ht?1?+bo?)xt′?=Σi?αti?(Wx?xi?+bx?)αti?=Σj=1N?exp((Wh?ht?1?+bh?)?(Wx?xj?+bx?))exp((Wh?ht?1?+bh?)?(Wx?xi?+bx?))?attentionft?^?=cummax(Wf^??xt′?+Uf^??ht?1?+bf^??)it?^?=1?cummax(Wi^?xt′?+Ui^?ht?1?+bi^?)ft?ˉ?=ft?^?°(ft?it?^?+1?it?^?)it?ˉ?=it?^?°(it?ft?^?+1?ft?^?)ct?=ft?ˉ?°ct?1?+it?ˉ?°ct?^?ht?=ot?°tanh(ct?)
- cummax(x)=cumsum(softmax(x))cummax(x)=cumsum(softmax(x))cummax(x)=cumsum(softmax(x))
- ht?1h_{t-1}ht?1?-query
3.3 一致性
-
基于模型的重要性:modtmod_tmodt?語義信息(RE)
-
語法信息的重要性:syntsyn_tsynt?依賴樹
-
都希望能有助于關系抽取
-
通過KL散度保證一致性
- 標準化:mod1ˉ,...,modNˉ=softmax(mod1,...,modN)syn1ˉ,...,synNˉ=softmax(syn1,...,synN)\bar{mod_1},...,\bar{mod_N}=softmax(mod_1,...,mod_N)\\ \bar{syn_1},...,\bar{syn_N}=softmax(syn_1,...,syn_N)mod1?ˉ?,...,modN?ˉ?=softmax(mod1?,...,modN?)syn1?ˉ?,...,synN?ˉ?=softmax(syn1?,...,synN?)
- KL散度:Limport=?ΣimodiˉlogmodiˉsyniˉL_{import}=-\Sigma_i\bar{mod_i}log\frac{\bar{mod_i}}{\bar{syn_i}}Limport?=?Σi?modi?ˉ?logsyni?ˉ?modi?ˉ??
- 利用一致性監督基于模型的得分和基于語法的得分
- 使得語法信息 直接對CEON-LSTM的內部神經元結構干涉
- 融入語法信息,更好地進行RE
-
動機
- 兩實體之間的最短依賴路徑:抓住了重要的上下文信息(詞)
-
具體:
- 首先檢索:最短依賴路徑DP和(任意對詞對的)最長路徑的長度T
- 計算語法重要性SyntSyn_tSynt?:
- 區別(下面兩者的difference)
- T
- wtw_twt?和DP中的一些詞的最短路徑長度(?)
- 區別(下面兩者的difference)
- 重要性得分
- 捕獲了重要性
- 代表一種原始依賴樹的寬松版本,便于泛化(在不同領域數據上)
- 直接使用依賴樹,容易過擬合
3.3 Sentence-Dependency Path Similarity
- inductive bias–提升相似性
- 對象:
- 整個輸入句子W的向量表示–RWR_WRW?
- 沿著最短路徑DP的單詞們的向量表示–RDPR_{DP}RDP?
- 方法:
- 引入約束
- 目的:
- 最大化相似性
- 獲得向量表示–by max-pooling
- RW=max_poolinggwi∈W(hi)R_W=max\_pooling_{g_{w_i}\in W}(h_i)RW?=max_poolinggwi??∈W?(hi?)
- RDP=max_poolinggwi∈DP(hi)R_{DP}=max\_pooling_{g_{w_i}\in DP}(h_i)RDP?=max_poolinggwi??∈DP?(hi?)
- 符號
- h:CEON_LSTM的隱層輸出向量
- 計算:cosine 相似度
- Lpath=1?cos(RW,RDP)L_{path}=1-cos(R_W,R_{DP})Lpath?=1?cos(RW?,RDP?)
- –最小化這個損失函數
- 對象:
3.4 預測
- 同(Veyseh et al., 2019)
- V:整體向量表示
- 用于:預測ws,wow_s,w_ows?,wo?
- V=[xs,xo,hs,ho,RW]V=[x_s,x_o,h_s,h_o,R_W]V=[xs?,xo?,hs?,ho?,RW?]
- 信息:有W不同抽象等級的信息
- raw:xs,xox_s,x_oxs?,xo?
- 抽象表示hs,hoh_s,h_ohs?,ho?–來自CEON-LSTM
- 整體句子向量RWR_WRW?
- P(‘∣W,ws,wo)P(`|W,w_s,w_o)P(‘∣W,ws?,wo?):W中可能關系的概率分布
- P(y∣W,ws,wo)=softmax(ff(V))P(y|W,w_s,w_o)=softmax(ff(V))P(y∣W,ws?,wo?)=softmax(ff(V))
- ff:feed-forward neural network
- 損失函數
- Llabel=?log(P(y∣W,ws,wo))L_{label}=-log(P(y|W,w_s,w_o))Llabel?=?log(P(y∣W,ws?,wo?))
- Lpath=1?cos(RW,RDP)L_{path}=1-cos(R_W,R_{DP})Lpath?=1?cos(RW?,RDP?)
- Limport=?ΣimodiˉlogmodiˉsyniˉL_{import}=-\Sigma_i\bar{mod_i}log\frac{\bar{mod_i}}{\bar{syn_i}}Limport?=?Σi?modi?ˉ?logsyni?ˉ?modi?ˉ??
- L=Llabel+αLimport+βLpathL=L_{label}+\alpha L_{import}+\beta L_{path}L=Llabel?+αLimport?+βLpath?
- 訓練
- 打散
- mini-batching
4 實驗
4.1 數據集和超參數
- 數據集
- ACE2005
- SPOUCE
- SciERC
4.1.1ACE2005
- 使用過這個數據集的:
- (Nguyen and Grishman, 2016; Fu et al., 2017;
Shi et al., 2018; Veyseh et al., 2019),
- (Nguyen and Grishman, 2016; Fu et al., 2017;
- 數據預處理: Fu et al., 2017;
- ACE2005
- 多個領域:bc, bn, cts,nw, un, and wl
- 劃分
- 訓練集:bn,nw(news)–source domain
- dev:bc的一半
- test:cts,wl,bc的另外一半
- –研究跨領域關系抽取
4.1.1.1 超參數
- 在ACE2005上調出
- 輸入維度
- word embedding:
- word2vec–300
- BERTbasemodelBERT_{base} modelBERTbase?model 768
- pos embedding:30
- entity type emebdding:30
- word embedding:
- CEON-LSTM隱層單元數:200
- 各種隱層:200
- xt′x_t'xt′?
- ff:2層
- α=1β=1\alpha=1\\ \beta=1α=1β=1
- lr=0.001–adam optimizer
- batch size=50
- 輸入維度
4.1.2 SPOUSE
- SPOUSE數據集(Hancock et al., 2018)
- 22195個句子用于訓練數據,2796個句子用于驗證數據,2697個句子用于測試數據
- 實體:這個數據集中的每個句子包含兩個標記的人名(即實體提到的人名)
- 目標:是識別句子中提到的兩個人是否為配偶。
4.1.3 the SciERC dataset (Luan et al., 2018)
- the SciERC dataset (Luan et al., 2018)
- 實體:500個科技摘要
- 和這些實體之間的共指消解和關系抽取
- RE:
- train:3219句子
- dev:455
- test:974
4.2 比較對象
- 基于特征的方法:FCM、HybridFCM、LRFCM、SVM
- (Yu et al., 2015; Hendrickx et al., 2010)
- 深度學習(神經網絡)
- 基于序列的方法:
- log-linear,
- CNN,
- Bi-GRU,
- Forward GRU,
- Backward GRU (Nguyen and Grishman, 2016),
- CNN+DANN (Fu et al., 2017).
- 基于序列的方法:
- 對抗學習:Adversarial learning model:GSN
- (Shi et al., 2018)
- 深度的基于結構的模型
- 依賴樹
- 用圖去構造神經網絡結構
4.2.1 ACE2005+word2vec
- 多數模型使用word2vec
- 語法結構作用重大:基于結構的模型>基于序列的模型 and 基于特征的模型
- CEON-LSTM:在各個領域表現都好,對RE有效
- 使用p<0.01,
4.2.2 ACE2005+Bert
- 一起訓練還是只用來初始化word embedding?
- EA-BERT是Entity-Aware BERT
- Bert有用:和表1比,均有提升
- CEON-LSTM:在各個領域表現都好,對RE有效
* 使用p<0.01,
### 4.2.3 SPOUSE SciERC
4.3 Ablation Study
4.3.1 the Model Components
- SCG:xt′x_t'xt′?
- SMC:一致性
- SDPS:相似性
4.3.2變體
- Bi-ON-LSTM:不用xt′x_t'xt′?,使用前向ON-LSTM和后向ON-LSTM計算的重要性的平均值
- SA-ON-LSTM:query從h變成了x–self attention
- CE-LSTM:ON-LSTM–>普通的LSTM
- EP-ON-LSTM:依賴樹變為DRPC中的邊依賴
- SP-CEON-LSTM:RWR_WRW?的作用
4.3.3 基于模型的重要性分數
- 用the master gate獲得重要性分數的有效性
- 改為直接使用h計算mod
- 改為直接使用h計算mod
5 結論
- 首先,我們通過對輸入句子中的單詞進行基于語法的重要度評分來表示依賴樹。
- 其次,我們建議將整個句子表示向量納入ON-LSTM的單元中,使其能夠更有效地計算基于模型的重要度得分。我們還設計了一種新的機制,通過提高基于語法和基于模型的重要度得分的一致性,將語法信息投影到ON-LSTM的計算中。
- 最后,我們提出了一種新的深度學習模型的歸納偏差,它利用了整個輸入句子的表示向量的相似性和兩個實體之間最短的依賴路徑。
參考文獻
論文地址
總結
以上是生活随笔為你收集整理的Exploiting the Syntax-Model Consistency for Neural Relation Extraction(关系抽取,语法模型,跨领域关系抽取的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 视觉意识的主动推理模型
- 下一篇: 一张图带你了解JRE、JDK、JVM