论文学习10-Joint entity recognition and relation extraction as a multi-head selection problem(实体关系联合抽取模型
文章目錄
- abstract
- 1.introduction
- 2. 相關工作
- 2.1 命名實體識別
- 2.2 關系抽取
- 2.3 實體關系聯合抽取模型
- 3.聯合模型
- 3.1 Embedding層
- 3.2 bilstm--編碼層
- 3.3 命名實體識別
- 3.4 多頭選擇的關系抽取模型
- 3.5. Edmonds’ algorithm
Joint entity recognition and relation extraction as a multi-head selection problem
code
abstract
聯合實體識別和關系提取的最新模型嚴重依賴外部自然語言處理(NLP)工具,如詞性標記器和依賴解析器。因此,這種聯合模型的性能取決于從這些NLP工具中獲得的特征的質量。然而,這些特性對于不同的語言和上下文并不總是準確的。在本文中,我們提出了一個聯合神經模型,它可以同時進行實體識別和關系提取,不需要任何手動提取的特征或使用任何外部工具。具體地,我們使用CRF(條件隨機域)層將實體識別任務和關系提取任務建模為一個多頭選擇問題。,可能為每個實體標識多個關系)。我們提出了一個廣泛的實驗設置,以證明我們的方法的有效性使用數據集從不同的上下文(即。、新聞、生物醫學、房地產)和語言(即、英語、荷蘭)。我們的模型優于之前使用自動提取特征的神經模型,而它在基于特征的神經模型的合理范圍內執行,甚至超過了它們
- 轉化為多頭選擇問題
- 同時實體識別和關系識別
- 多重關系
1.introduction
- 管道模型(分開進行)
- 這個問題傳統上是作為兩個獨立的子任務處理的,即(i)命名實體識別(NER) (Nadeau &Sekine, 2007)和(ii)關系提取(RE) (Bach &Badaskar, 2007),在一個管道設置中。管道模型的主要限制是:(i)組件之間的錯誤傳播(即(ii)來自一個任務的可能有用的信息不會被另一個任務利用(例如,識別一個關聯的工作可能有助于NER模塊檢測兩個實體的類型,即。, PER, ORG,反之亦然)。另一方面,最近的研究建議使用聯合模型來檢測實體及其關系,以克服上述問題并實現最先進的性能。
- 問題
- 組件之間錯誤傳播
- 來自一個任務的有用信息不一定會被使用
以前的聯合模式嚴重依賴手工制作的特征。神經網絡的最新進展緩解了手工特征工程的問題,但其中一些仍然依賴于NLP工具(如POS標記器、依賴解析器)。
- 關系抽取
- Miwa&Bansal(2016)提出了一種基于遞歸神經網絡(RNN)的聯合模型,該模型使用雙向順序LSTM (Long - Short - Term Memory,長短時記憶)對實體進行建模,并使用一種考慮依賴樹信息的樹-LSTM對實體之間的關系進行建模。依賴項信息是使用外部依賴項解析器提取的。
- 依賴于依賴解析器,依賴解析器在特定語言(英語)和上下文(即、新聞)上表現得特別好——泛化性弱。
- 同樣,Li等人(2017)在生物醫學文本的實體和關系提取中,采用了同樣使用樹- lstms的模型來提取依賴信息。
- Gupta等人(2016)提出了一種依賴于RNNs的方法,但是使用了大量手工制作的特性和額外的NLP工具來提取諸如posr -tag等特性。
- (注意,前面的工作是檢查實體對的關系提取,而不是直接對整個句子建模。)
- Adel,Schutze(2017)使用卷積神經網絡(CNNs)復制實體周圍的上下文。這意味著同一句子中其他對實體的關系(可能有助于決定關系類型為特定的一對)不考慮
- Katiyar,Cardie(2017)提出了一種基于LSTMs的神經聯合模型,他們一次對整個句子進行建模,但仍然沒有一個處理多重關系的原則性方法。
- Bekoulis等人(2018)引入了一個二次評分層來同時對兩個任務進行建模。該方法的局限性在于只能將單個關系分配給一個token,而實體識別任務的時間復雜度與線性復雜度的標準方法相比有所增加
- Miwa&Bansal(2016)提出了一種基于遞歸神經網絡(RNN)的聯合模型,該模型使用雙向順序LSTM (Long - Short - Term Memory,長短時記憶)對實體進行建模,并使用一種考慮依賴樹信息的樹-LSTM對實體之間的關系進行建模。依賴項信息是使用外部依賴項解析器提取的。
- 本文貢獻
- (i)我們的模型不依賴于外部NLP工具還是手工功能,
- (ii)實體和關系在同一文本片段(通常是一個句子)同時提取,
- (3)一個實體可以參與多個關系
- 與Miwa比,本文想要開發一個能在各種設置中很好概括的模型,因此只使用在訓練中學習到的自動提取的特性。——不同的上下文下也用相同的模型,得到了改進。
- 與Adel和Schutze(2017)相比,我們通過一次建模所有實體和句子之間的關系來訓練我們的模型。這種類型的推理有助于獲得關于相鄰實體和關系的信息,而不是每次只檢查一對實體。
- 最后,我們解決了Katiyar &Cardie(2017)和Bekoulis等人(2017),他們本質上假定類(即關系)是互斥的:我們通過將關系提取組件描述為一個多標簽預測問題來解決這個問題
2. 相關工作
2.1 命名實體識別
在我們的工作中,為了解決端到端關系提取問題,NER是我們首先要解決的任務。許多不同的方法來ner任務提出了
- 基于手工的特性,如
- CRFs(拉弗蒂et al ., 2001),
- 最大利潤率馬爾可夫網絡(Taskar et al ., 2003)和
- 對結構化輸出(Tsochantaridis et al ., 2004)的支持向量機(svm),等等。
- 基于CNN和rnn模型的深度學習方法與CRF損失函數相結合(Collobert et al., 2011;黃等,2015;Lample等人,2016;馬,霍維,2016)。
- 這些方法在不依賴手工特性的情況下,在公開可用的NER數據集上實現了最先進的性能。
2.2 關系抽取
- 我們將關系提取作為聯合模型的第二個任務。關系提取的主要方法
- 依賴于手工特征(Zelenko et al., 2003;Kambhatla, 2004)或神經網絡(Socher et al., 2012;曾等,2014)。
- 基于特征的方法側重于獲得有效的手工特征,例如
- 定義kernel函數(Zelenko et al., 2003;Culotta,Sorensen, 2004)和
- 設計詞匯、句法、語義特征等(Kambhatla, 2004;Rink&Harabagiu, 2010)。
- 神經網絡模型已經被提出來克服手工設計的問題,從而提高性能。
- CNN-(Zeng等,2014;徐等,2015a;dos Santos等人,2015)和
- rnn-based (Socher等人,2013;張,王,2015;Xu等人,2015b)引入了模型來自動提取詞匯和句子級特征,從而更深入地理解語言。
- Vu等人(2016)使用集成方案將CNNs和RNNs結合起來,以獲得最先進的結果。
2.3 實體關系聯合抽取模型
- Feature-based joint models (Kate & Mooney, 2010; Yang & Cardie, 2013; Li & Ji,2014; Miwa & Sasaki, 2014)提出了同時解決實體識別和關系提取(RE)子任務的方法。這些方法依賴于NLP工具(如POS標記器)或手工設計的特性的可用性,因此
- (i)需要額外的數據預處理工作,
- (ii)在NLP工具不可靠的不同應用程序和語言設置中表現較差
- (iii)增加計算復雜度。
- 在本文中,我們引入一個聯合神經網絡模型來克服上述問題,并自動執行端到端的關系提取,而不需要任何手動的特征工程或使用額外的NLP組件
- 神經網絡方法已經被考慮在聯合設置(端到端關系提取)中解決這個問題,
- 通常包括使用RNNs和CNNs (Miwa & Bansal, 2016; Zheng et al., 2017; Li et al., 2017)。
- 特別的,Miwa & Bansal(2016)提出使用雙向樹結構的RNNs來捕獲依賴樹信息(其中使用最先進的依賴解析器來提取解析樹),這已被證明對關系提取是有益的(Xu et al., 2015a,b)。
- Li等人(2017)將Miwa &Bansal的工作應用于生物醫學文本,報告了兩個生物醫學數據集的最新性能。
- Gupta等人(2016)提出在RNNs的同時使用大量手工制作的功能。
- Adel,Schutze(2017)解決了實體分類任務(與NER不同,因為在實體分類中,實體的邊界是已知的,只需要預測實體的類型)和關系提取問題,使用了全局規范化目標的近似值(即:它們復制句子的上下文(實體的左右部分),每次向CNN提供一個實體對,以提取關系。因此,他們不會在同一句話中同時推斷出其他潛在的實體和關系。
- Katiyar,Cardie(2017)和Bekoulis等人(2018)研究了RNNs,注意在不使用任何依賴解析樹特征的情況下提取實體提及之間的關系。
- 我們不一樣:
- 不同于Katiyar &Cardie(2017)在這項工作中我們將該問題定義為一個多頭選擇問題,通過使用sigmoid損失來獲得多個關系,并為NER組件使用CRF損失。通過這種方式,我們能夠獨立地預測不互斥的類,而不是在標記之間分配相等的概率值。
- 我們克服了額外的時間復雜度增加問題(由Bekoulis等人(2018)通過將損失函數分為NER和關系提取組件造成的)。此外,我們可以處理多個關系,而不只是預測單個關系,正如Bekoulis等人(2018)在結構化房地產廣告中的應用中所描述的那樣。
3.聯合模型
在本節中,我們將給出如圖1所示的多頭關節模型。模型能夠同時識別實體(即以及它們之間所有可能的關系。我們將該問題描述為一個擴展了以前工作的多頭選擇問題(Zhang et al., 2017;(Bekoulis et al., 2018)如2.3節所述。所謂多頭,我們的意思是任何特定的實體都可能涉及到與其他實體的多種關系。模型的基本層如下圖1所示:
(i)embedding層,
(ii)雙向序列LSTM (BiLSTM)層,
(iii) CRF層,
(iv) sigmoid評分層。
- Embedding層
- 輸入:句子的token(單詞
- 輸出:詞向量
- BiLSTM層能夠為每個通過RNN結構合并上下文的單詞提取更復雜的表示。
- 然后CRF和sigmoid層就能夠生成這兩個任務的輸出。
- 每個token的輸出(例如,史密斯)是雙重的:
- (i)一個實體識別標簽(如I-PER,表示命名實體的類型)和
- (2)一組元組組成的頭標記實體和它們之間的關系的類型(例如,{(中心工作),(住在亞特蘭大)})。
- 由于我們假設了基于標記的編碼,所以我們只將實體的最后一個標記作為另一個標記的頭部,從而消除了冗余關系。例如,有一個關于實體約翰·史密斯和疾病控制中心之間工作關系。我們只連接Smith和Center,而不連接實體的所有令牌。同樣,對于沒有關系的情況,我們引入N標簽,并預測令牌本身為頭部。
3.1 Embedding層
- 輸入:一個token序列
- 輸出:一個token輸出一個word vector
- 方法:
- skip-gram
- word2vec
- 在這項工作中,我們還使用了字符嵌入(character embeddings),因為它們通常應用于神經網絡(Ma & Hovy, 2016;Lample等人,2016)。
- 這種類型的嵌入能夠捕獲前綴和后綴等形態特征。
- eg
- 例如,在不良藥物事件(ADE)數據集中,后綴“毒性”可以指定一個不良藥物事件實體,如“神經毒性”或“肝毒性”,因此它是非常有用的。
- 另一個例子可能是荷蘭語中的后綴“kamer”(英語中的“房間”)荷蘭房地產分類(DREC)數據集,用于指定空間實體“badkamer”(英語中的“bathroom”)和“slaapkamer”(英語中的“bedroom”)。
- 字符級嵌入是在training中學習的,類似于Ma & Hovy(2016)和Lample等人(2016)。
- 有效果,有提升
圖2說明了基于字嵌入特征的神經網絡結構。每個單詞的字符由字符向量表示
(即。嵌入的)。將字符嵌入提供給BiLSTM,并將兩個最終狀態(向前和向后)連接起來。向量wchars是單詞的字符級表示。然后將這個向量進一步連接到單詞級表示wword2vec,以獲得完整的單詞嵌入向量
- 字符embedding->bilstm->forward+backward
- wchar+wwordw_{char}+w_{word}wchar?+wword?–完整的單詞嵌入向量
3.2 bilstm–編碼層
這項工作中,我們使用了多層的LSTMs(這是一種能夠很好地捕獲長期依賴關系的特定類型的rns)(Bengio et al., 1994; Pascanu et al.,2013).
- 第i時間步的輸出:
3.3 命名實體識別
- –》序列標注問題
- BIO
- 每個token分配一個標記(一個詞一個標記)
- 在CRF層,可以看到我們分別指定了B-ORG和I-ORG標記來表示實體“疾病控制中心”的開始和內部標記。
- 在BiLSTM層的頂層,我們使用softmax或CRF層來計算每個令牌的最可能實體標記。
- 我們計算每個令牌wi對每個實體標簽的得分:
- 我們僅對實體分類(EC)任務(類似于NER)使用softmax方法,在此任務中,假設邊界已知,我們只需預測每個令牌的實體類型(例如PER)。
- CRF方法用于包含實體類型和邊界識別的NER任務。
- 盡管假設獨立的標記分布有利于實體分類任務(例如,POS標記),但當存在強依賴時時,情況就不一樣了
- 具體來說,在NER中,BIO標記方案強制了幾個限制(例如,B-LOC不能被I-PER遵循)。softmax方法允許局部決策(即,對于每個令牌的標記wi),即使BiLSTM捕獲關于相鄰單詞的信息。但是,相鄰的標記并沒有考慮到特定標記的標記決策。
- 例如,在實體中“John Smith”,按PER標記“Smith”有助于確定“John”是B-PER。為此,對于NER,我們使用一個線性鏈CRF,類似于Lample et al.(2016),在使用CRF時,報告了對~1% F1 NER點的改進。在我們的例子中,使用CRF我們還報告了一個~1%的整體性能改進,如表2所示(參見5.2節)。
- 具體來說,在NER中,BIO標記方案強制了幾個限制(例如,B-LOC不能被I-PER遵循)。softmax方法允許局部決策(即,對于每個令牌的標記wi),即使BiLSTM捕獲關于相鄰單詞的信息。但是,相鄰的標記并沒有考慮到特定標記的標記決策。
- CRF的得分(T是轉移矩陣)
- 我們使用Viterbi來獲得得分最高的標記序列y (e)。
- 我們通過最小化交叉熵損失來訓練softmax(用于EC任務)和CRF層(用于NER)。
- 我們還使用實體標簽作為輸入到我們的關系提取層學習標簽嵌入,
- 由Miwa &Bansal(2016)報告了2% F1的改進(使用標簽嵌入)。在我們的例子中,標簽嵌入導致F1得分增加1%,如表2所示(見5.2節)。
- 下一層的輸入是雙重的:
- LSTM的輸出狀態和學習到的標簽嵌入表示,
- 對命名實體的知識對關系提取有用的直覺進行編碼。
- 在訓練期間,我們使用gold實體標記,
- 而在預測時,我們使用預測的實體標記作為下一層的輸入。
- 下一層的輸入是LSTM的隱藏狀態hi(帶有令牌wi的標簽嵌入gi的拼接:
3.4 多頭選擇的關系抽取模型
我們將關系提取任務描述為一個多頭選擇問題(Zhang et al., 2017;(Bekoulis et al., 2018)。
在我們方法的一般公式中,每個令牌wi可以有多個頭(即,與其他令牌的多個關系)。
我們預測元組(yi, c_i)其中yi是正面的向量,而c_i是每個令牌wi對應關系的向量。這與之前的依賴分析方法的標準頭選擇不同(Zhang et al., 2017),因為
(i)它被擴展為預測多個頭,
(ii)頭的決策和關系是共同做出的(即,而不是先預測正面,然后在下一步使用額外的分類器來預測關系)。
- 輸入:給定一個令牌序列w和一組關系標簽R作為輸入,
- 目標:我們的目標是識別每個令牌的wi, i{0,…, n}最可能正面的向量y i 和最可能對應關系標簽r i的向量
- 得分(給定一個標簽rk,我們計算令牌wi和wj之間的分數如下:
- 交叉熵損失函數
3.5. Edmonds’ algorithm
通過使用閾值推理,關系樹結構不能得到保證。因此,我們應該對我們的模型實施樹結構約束。為此,我們使用有向圖的Edmonds最大生成樹算法(Chu &劉,1965;埃德蒙茲,1967)。構造一個完全連通的有向圖G = (V, E),其中頂點V表示標識實體的最后標記(NER預測的),邊E表示得分最高的關系,它們的得分作為權重。Edmonds算法適用于閾值推理尚未形成樹的情況。
總結
以上是生活随笔為你收集整理的论文学习10-Joint entity recognition and relation extraction as a multi-head selection problem(实体关系联合抽取模型的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: PHP7 ini 配置大全
- 下一篇: finetune与Bert