论文学习16-Going out on a limb: without Dependency Trees(联合实体关系抽取2017)
文章目錄
- abstract
- 1. Introduction
- 2. 相關(guān)工作
- 3. Model
- 3.1 Multi-layer Bi-directional Recurrent Network
- 3.2實(shí)體檢測
- 3.3 attention model
- 3.4 關(guān)系檢測
- 3.5雙向編碼
- 4.訓(xùn)練
- 5.實(shí)驗(yàn)
- 5.2 evaluation metrics
- 5.3 基線和以前的模型
- 5.4 超參數(shù)
- 6.結(jié)果
Katiyar, A. and C. Cardie (2017). Going out on a limb: Joint extraction of entity mentions and relations without dependency trees. Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers).
abstract
提出了一種新的基于注意的遞歸神經(jīng)網(wǎng)絡(luò),用于聯(lián)合提取實(shí)體提及度和關(guān)系。我們證明了注意力和長短時記憶(LSTM)網(wǎng)絡(luò)可以在不訪問依賴樹的情況下提取實(shí)體提及之間的語義關(guān)系。在自動內(nèi)容提取(ACE)語料庫上的實(shí)驗(yàn)表明,我們的模型顯著優(yōu)于Li和Ji(2014)基于特征的聯(lián)合模型。我們還將我們的模型與Miwa和Bansal(2016)的基于端到端樹的LSTM模型(SPTree)進(jìn)行了比較,結(jié)果表明我們的模型在實(shí)體提及率1%和關(guān)系率2%的范圍內(nèi)運(yùn)行。我們的細(xì)粒度分析還表明,我們的模型在代理工件關(guān)系上表現(xiàn)得更好,而SPTree在物理和部分整體關(guān)系上表現(xiàn)得更好。
- 一種新的基于注意的遞歸神經(jīng)網(wǎng)絡(luò)
- l聯(lián)合抽取
- 無依賴樹
1. Introduction
- 聯(lián)合模型的性能優(yōu)于管道模型,因?yàn)轭愋突P(guān)系的知識可以增加模型對實(shí)體提取的信心,反之亦然
遞歸網(wǎng)絡(luò)(RNNs) (Elman, 1990)最近成為非常流行的序列標(biāo)記任務(wù),如涉及一組連續(xù)令牌的實(shí)體提取。然而,它們識別序列中不相鄰的標(biāo)記(如兩個實(shí)體的頭名詞)之間關(guān)系的能力卻很少被研究。對于這些任務(wù),使用樹結(jié)構(gòu)的rns被認(rèn)為是更合適的。例如,Miwa和Bansal(2016)提出了一個由基于序列的長短時記憶(LSTM)和一個獨(dú)立的基于樹的依賴LSTM層組成的RNN來進(jìn)行實(shí)體識別,并使用兩個組件之間的共享參數(shù)進(jìn)行關(guān)系分類。因此,他們的模型嚴(yán)重依賴于對依賴樹的訪問,將其限制在句子層次提取和存在(好的)依賴解析器的語言。而且,他們的模型并不共同提取實(shí)體和關(guān)系;它們首先提取所有實(shí)體,然后對句子中所有對實(shí)體進(jìn)行關(guān)系分類。
- 不相鄰的標(biāo)記之間的關(guān)系—用樹結(jié)構(gòu)的RNNs
在我們之前的工作(Katiyar和Cardie, 2016)中,我們在意見提取上下文中處理了相同的任務(wù)。我們基于lstm的公式明確地將實(shí)體頭部之間的距離編碼為意見關(guān)系標(biāo)簽。我們的模型的輸出空間是實(shí)體和關(guān)系標(biāo)簽集大小的平方,我們沒有明確地標(biāo)識關(guān)系類型。不幸的是,添加關(guān)系類型使得輸出標(biāo)簽空間非常稀疏,使得模型很難學(xué)習(xí)。
- 本文:a novel RNN-based model,無樹
與其他模型不同,我們的模型不依賴于任何依賴樹信息。我們的基于rnn的模型是一個序列上的多層雙向LSTM。我們從左到右對輸出序列進(jìn)行編碼。在每個時間步上,我們在前面解碼的時間步上使用一個類似于注意的模型,來標(biāo)識與當(dāng)前令牌具有指定關(guān)系的令牌。我們還在網(wǎng)絡(luò)中添加了一個額外的層來對從右到左的輸出序列進(jìn)行編碼,并發(fā)現(xiàn)使用雙向編碼對關(guān)系識別的性能有了顯著的改進(jìn)。
我們的模型顯著優(yōu)于Li和Ji(2014)的基于特征的結(jié)構(gòu)化感知器模型,在ACE05數(shù)據(jù)集的實(shí)體和關(guān)系提取上都有了改進(jìn)。與Miwa和Bansal(2016)的基于依賴樹的LSTM模型相比,我們的模型對ACE05數(shù)據(jù)集的實(shí)體和關(guān)系的處理效率分別為1%和2%。我們還發(fā)現(xiàn),我們的模型在AGENT-ARTIFACT關(guān)系上的表現(xiàn)明顯好于基于樹的模型,而他們的基于樹的模型在物理和部分-整體關(guān)系上的表現(xiàn)更好;這兩個模型在所有其他關(guān)系類型上的表現(xiàn)是比較的。我們的非樹模型極具競爭力的性能對于在缺乏良好解析器的低資源語言中提取非相鄰實(shí)體的關(guān)系來說是個好兆頭。
2. 相關(guān)工作
RNNs (Hochreiter and Schmidhuber, 1997)最近被應(yīng)用于許多順序建模和預(yù)測任務(wù),如機(jī)器翻譯(Bahdanau et al., 2015;Sutskever等,2014),命名實(shí)體識別(NER) (Hammerton, 2003),意見挖掘(Irsoy and Cardie, 2014)。已經(jīng)發(fā)現(xiàn),在LSTMs上添加crf樣目標(biāo)等變體可以在多個序列預(yù)測NLP任務(wù)中產(chǎn)生最新的結(jié)果(Collobert et al., 2011;黃等,2015;Katiyar和Cardie, 2016)。這些模型在輸出層假設(shè)條件獨(dú)立,我們不假設(shè)條件獨(dú)立在輸出層,允許它對輸出序列上的任意分布建模。
- RNN+crf–效果更好
- 以前都假設(shè)條件獨(dú)立,我們不假設(shè)輸出層條件獨(dú)立,允許它對輸出序列上的任意分布建模。
關(guān)系分類作為一個獨(dú)立的任務(wù)被廣泛研究,假設(shè)關(guān)系的參數(shù)是預(yù)先知道的。已經(jīng)提出了幾種模型,包括基于特征的模型(Bunescu和Mooney, 2005;和基于神經(jīng)網(wǎng)絡(luò)的模型(Socher et al., 2012;dos Santos等人,2015;橋本等人,2015;徐等,2015a,b)。
聯(lián)合提取實(shí)體和關(guān)系,基于特征的結(jié)構(gòu)化預(yù)測模型(Li and Ji, 2014;Miwa和Sasaki, 2014),聯(lián)合推理整數(shù)線性規(guī)劃模型(Yih和Roth, 2007;Yang和Cardie, 2013),卡片金字塔解析(Kate和Mooney, 2010)和概率圖形模型(Yu和Lam, 2010;(Singh et al., 2013)已經(jīng)被提出。與此相反,我們提出了一種不依賴于諸如詞性(POS)標(biāo)簽、依賴樹等任何特征的可用性的神經(jīng)網(wǎng)絡(luò)模型。
- 本文:我們提出了一種不依賴于諸如詞性(POS)標(biāo)簽、依賴樹等任何特征的可用性的神經(jīng)網(wǎng)絡(luò)模型
最近,Miwa和Bansal(2016)提出了一種基于端到端的LSTM序列和樹結(jié)構(gòu)模型。它們通過序列層提取實(shí)體,通過最短路徑依賴樹網(wǎng)絡(luò)提取實(shí)體之間的關(guān)系。在本文中,我們嘗試研究遞歸神經(jīng)網(wǎng)絡(luò),在不使用任何依賴解析樹特征的情況下提取實(shí)體提及之間的語義關(guān)系。我們還提出了第一個基于神經(jīng)網(wǎng)絡(luò)的聯(lián)合模型,該模型可以提取實(shí)體提及和關(guān)系以及關(guān)系類型。在我們之前的工作(Katiyar和Cardie, 2016)中,如前所述,我們提出了一個基于lstm的模型來聯(lián)合提取意見實(shí)體和關(guān)系,但是沒有關(guān)聯(lián)類型。由于輸出空間變得稀疏,使得模型難以學(xué)習(xí),因此不能直接擴(kuò)展該模型以包含關(guān)系類型。
遞歸神經(jīng)網(wǎng)絡(luò)的最新進(jìn)展是將注意力應(yīng)用于遞歸神經(jīng)網(wǎng)絡(luò),以獲得序列模型中令牌的重要性加權(quán)的表示。這些模型在問答任務(wù)中被頻繁使用(最近的例子見Chen et al.(2016)和Lee et al.(2016)),機(jī)器翻譯(Luong et al., 2015;以及許多其他NLP應(yīng)用。指針網(wǎng)絡(luò)(Vinyals et al., 2015)是注意力模型的一種適應(yīng),使用這些標(biāo)記級權(quán)重作為指向輸入元素的指針。例如,Zhai et al.(2017)將這些用于神經(jīng)分塊,Nallapati et al.(2016)和Cheng and Lapata(2016)用于總結(jié)。然而,就我們所知,這些網(wǎng)絡(luò)還沒有被用來聯(lián)合提取實(shí)體提及和關(guān)系。我們首先嘗試使用這些帶有遞歸神經(jīng)網(wǎng)絡(luò)的注意模型來聯(lián)合提取實(shí)體提及和關(guān)系。
3. Model
該模型由一個多層的雙向遞歸網(wǎng)絡(luò)構(gòu)成,它學(xué)習(xí)序列中每個令牌的表示。我們使用來自頂層的隱藏表示來進(jìn)行聯(lián)合實(shí)體和關(guān)系提取。對于序列中的每個標(biāo)記,我們輸出一個實(shí)體標(biāo)記和一個關(guān)系標(biāo)記。實(shí)體標(biāo)記對應(yīng)于實(shí)體類型,而關(guān)系標(biāo)記是指向相關(guān)實(shí)體及其各自關(guān)系類型的指針的元組。圖1顯示了來自數(shù)據(jù)集的一個示例句子的注釋。我們將關(guān)系標(biāo)記從實(shí)體級轉(zhuǎn)換為令牌級。例如,我們?yōu)楠?dú)立電視新聞實(shí)體中的每個令牌分別建模關(guān)系ORG-AFF。因此,我們分別模擬ITV和Martin Geissler, News和Martin Geissler之間的關(guān)系。為了找到每個令牌的關(guān)系標(biāo)記,我們在序列層的頂部使用了一個類似指針的網(wǎng)絡(luò),如圖2所示。在每個時間步驟中,網(wǎng)絡(luò)利用前一個時間步驟中所有輸出標(biāo)記的可用信息來聯(lián)合輸出當(dāng)前令牌的實(shí)體標(biāo)記和關(guān)系標(biāo)記。
- 多層,雙向RNN
- 學(xué)習(xí)序列每個token的表示,然后用這個來進(jìn)行聯(lián)合實(shí)體和關(guān)系抽取
- 為了找到每個token的關(guān)系標(biāo)記
- 使用類似指針的網(wǎng)絡(luò)
3.1 Multi-layer Bi-directional Recurrent Network
- 多層LSTMs,雙向
- 我們使用多層雙向lstm進(jìn)行序列標(biāo)記,因?yàn)閘stm更能夠捕獲令牌之間的長期依賴關(guān)系,這使得它非常適合實(shí)體提及和關(guān)系抽取。
- xtl=[h→t?1l?1,h←t?1l?1]x_t^l=[\stackrel{\rightarrow}{h}_{t-1}^{l-1},\stackrel{\leftarrow}{h}_{t-1}^{l-1} ]xtl?=[h→?t?1l?1?,h←?t?1l?1?]
- 最終的隱層表示
3.2實(shí)體檢測
- BILOU,序列標(biāo)注任務(wù)
- yt=softmax(Uzt′+b)y_t=softmax(Uz_t'+b)yt?=softmax(Uzt′?+b)—找到最有可能的輸出標(biāo)簽
我們的網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示,也包含了從前一個時間步驟的輸出yt-1到當(dāng)前頂層隱藏層的連接。因此,我們的產(chǎn)出并不是有條件地相互獨(dú)立的。為了添加來自yt-1的連接,我們將這個輸出k轉(zhuǎn)換為一個嵌入bt?1kb^k_{t-1}bt?1k?的標(biāo)簽。(我們還可以使用前一個時間步驟的關(guān)系標(biāo)簽輸出來添加關(guān)系標(biāo)簽嵌入。)我們表示每種標(biāo)簽類型k用一個密度表示bkb^kbk
- 我們用貪婪的方式從左向右來解碼輸出序列
3.3 attention model
- 關(guān)系抽取:attention model
我們使用注意模型進(jìn)行關(guān)系提取。注意模型,在一個編碼序列的表示z上,可以在這些學(xué)習(xí)的表示上計(jì)算一個軟概率分布p,其中di是解碼序列中的第i個標(biāo)記。這些概率表示編碼器序列中不同令牌的重要性:
- v是attention scores
- v是注意力的權(quán)重矩陣,它將隱藏的表征轉(zhuǎn)化為注意力得分。
我們在我們的方法中使用了指針網(wǎng)絡(luò)(Vinyals等人,2015),這是這些注意力模型的變體。指針網(wǎng)絡(luò)將這些pi t解釋為指向輸入t的指針,表示在輸入編碼序列上的概率分布,并使用ui元素。我們可以使用這些指針來對當(dāng)前令牌和之前預(yù)測的令牌之間的關(guān)系進(jìn)行編碼,使其適合于關(guān)系提取,如3.4節(jié)所述。
3.4 關(guān)系檢測
- 看做序列標(biāo)注任務(wù)
我們還將關(guān)系提取描述為一個序列標(biāo)記任務(wù)。對于每個令牌,我們希望找到與當(dāng)前令牌相關(guān)的過去令牌及其關(guān)系類型。在圖1中,“Safwan”通過關(guān)系類型“PHYS”與令牌“Martin”以及“Geissler”相關(guān)聯(lián)。為簡單起見,我們假設(shè)只有一個以前的令牌與當(dāng)前的令牌在訓(xùn)練時相關(guān),即,“Safwan”和“Geissler”是通過物理關(guān)系聯(lián)系在一起的。我們可以擴(kuò)展我們的方法來輸出多個關(guān)系,如第4節(jié)所述。
使用3.3的pointer network。在每個時間步,我們堆棧頂部隱藏層表示從以前的時間步驟z<= t 及其相應(yīng)的標(biāo)簽嵌入b<= t。我們只壓棧頂部的令牌被預(yù)測為隱層表示non-O‘s之前的時間步驟如圖2所示。我們在t時刻的譯碼表示是zt和bt的拼接,注意概率可以計(jì)算如下
- p對應(yīng)到目前為止序列中每個令牌在第t步與當(dāng)前令牌相關(guān)的概率。對于沒有關(guān)系的情況,t時刻的令牌與自身相關(guān)。
我們還想找出關(guān)系的類型。為了實(shí)現(xiàn)這一點(diǎn),我們向v添加了一個額外的維度,該維度與關(guān)系類型R空間的大小相對應(yīng)。因此,ui t不再是一個分?jǐn)?shù),而是一個R維向量。然后我們對這個大小為O(|z≤t|×R)的向量取softmax,以找到指向相關(guān)實(shí)體及其關(guān)系類型的最可能的指針元組。
3.5雙向編碼
- biLSTMs比單向更好地獲取上下文
- –>在輸出層雙向編碼
- bi-LSTM+另一個隱層,對從右到左的輸出序列編碼–>實(shí)體標(biāo)記和關(guān)系標(biāo)記
基于它們在各種NLP任務(wù)上的性能(Irsoy和Cardie, 2014),雙向lstm被發(fā)現(xiàn)能夠比普通的從左到右lstm更好地捕獲上下文。此外,Sutskever等(2014)發(fā)現(xiàn),在訓(xùn)練過程中,他們在機(jī)器翻譯任務(wù)中的表現(xiàn)隨著輸入句子的倒排而提高。受這些開發(fā)的啟發(fā),我們在輸出層試驗(yàn)了雙向編碼。我們在圖2的Bi-LSTM上添加了另一個頂層隱藏層,它對從右到左的輸出序列進(jìn)行編碼。除了頂層隱藏層外,這兩種編碼共享相同的多層雙向LSTM。因此,我們的網(wǎng)絡(luò)中有兩個輸出層,分別輸出實(shí)體標(biāo)記和關(guān)系標(biāo)記。在推理時,我們使用啟發(fā)式來合并兩個方向的輸出。
4.訓(xùn)練
我們通過最大化正確實(shí)體E和關(guān)系R標(biāo)簽序列的logprobability來訓(xùn)練我們的網(wǎng)絡(luò)
我們可以將目標(biāo)分解為實(shí)體序列和關(guān)系序列的對數(shù)概率和。我們在培訓(xùn)時使用黃金實(shí)體標(biāo)簽。如圖2所示,在當(dāng)前時間步長中,我們將之前的時間步長嵌入到頂層隱藏層的標(biāo)簽與其他循環(huán)輸入一起輸入。在訓(xùn)練過程中,我們將金標(biāo)簽嵌入到下一個時間步中,這使得我們的模型能夠得到更好的訓(xùn)練。但是,在測試時,當(dāng)gold標(biāo)簽不可用時,我們使用先前時間步驟的預(yù)測標(biāo)簽作為當(dāng)前步驟的輸入。
因?yàn)?#xff0c;我們添加了另一個頂層,按照章節(jié)3.5中解釋的相反順序?qū)?biāo)記序列進(jìn)行編碼,所以輸出中可能會有沖突。我們選擇了與Miwa和Bansal(2016)類似的積極和更自信的標(biāo)簽。
- 貪婪解碼
我們提取關(guān)系的方法不同于Miwa和Bansal(2016)。Miwa和Bansal(2016)將每一對實(shí)體提交到其關(guān)系分類模型中。在我們的方法中,我們使用指針網(wǎng)絡(luò)來標(biāo)識相關(guān)實(shí)體。因此,對于目前所描述的方法,如果我們只計(jì)算目標(biāo)上的argmax,那么我們將模型限制為每個標(biāo)記只輸出一個關(guān)系標(biāo)簽。但是,從我們對數(shù)據(jù)集的分析來看,一個實(shí)體可能與句子中的多個實(shí)體相關(guān)。因此,我們修改目標(biāo)以包含多個關(guān)系。在圖2中,令牌Safwan與實(shí)體Martin Geissler的令牌Martin和Geissler都相關(guān),因此我們將概率賦值為0.5送給這兩個token。這可以很容易地?cái)U(kuò)展為包含來自其他相關(guān)實(shí)體的令牌,這樣我們就可以分配相等的概率1/N到所有tokens.取決于這些相關(guān)令牌的數(shù)量N。
-
實(shí)體部分的log-probability與我們在第4節(jié)中討論的目標(biāo)相同,但是我們將關(guān)系log-probability修改如下
-
ri’系數(shù),因此使用交叉熵目標(biāo)函數(shù)
-
我們也可以使用Sparsemax (Martins and Astudillo, 2016)來代替softmax,后者更適合于稀疏分布。然而,我們把它留給未來的工作。
-
在推理時,我們輸出所有概率值超過一定閾值的標(biāo)簽。我們根據(jù)驗(yàn)證集調(diào)整這個閾值。
5.實(shí)驗(yàn)
5.2 evaluation metrics
為了將我們的系統(tǒng)與之前的系統(tǒng)進(jìn)行比較,我們報(bào)告了與Li和Ji(2014)以及Miwa和Bansal(2016)類似的實(shí)體和關(guān)系的微觀f1分?jǐn)?shù)、精確度和召回率。如果我們能正確識別實(shí)體的頭部和實(shí)體類型,則認(rèn)為實(shí)體是正確的。如果我們能夠識別參數(shù)實(shí)體的頭部和關(guān)系類型,則關(guān)系被認(rèn)為是正確的。當(dāng)參數(shù)實(shí)體和關(guān)系都正確時,我們也報(bào)告一個合并的分?jǐn)?shù)。
5.3 基線和以前的模型
我們將我們的方法與前面的兩種方法進(jìn)行比較。Li和Ji(2014)提出的模型是一種基于特征的結(jié)構(gòu)化感知器模型,具有高效的波束搜索。他們使用基于分段的譯碼器而不是基于符號的譯碼器。他們的模型比之前最先進(jìn)的流水線模型要好。Miwa和Sasaki (2014) (SPTree)最近提出了一個基于lstm的模型,其中包含一個用于實(shí)體識別的序列層,以及一個基于樹的依賴層,該依賴層使用候選實(shí)體之間的最短依賴路徑來識別候選實(shí)體對之間的關(guān)系。我們還使用了之前的方法(Katiyar和Cardie, 2016)來提取意見實(shí)體和與此任務(wù)的關(guān)系。我們發(fā)現(xiàn),與上面提到的兩種方法相比,這種方法的性能并不具有競爭力,在關(guān)系上的性能降低了10個百分點(diǎn)。因此,我們不包括表1中的結(jié)果。Li和Ji(2014)也表明,聯(lián)合模型的性能優(yōu)于流水線方法。因此,我們不包括任何管道基線。
5.4 超參數(shù)
使用300維word2vec (Mikolov et al., 2013)對谷歌新聞數(shù)據(jù)集進(jìn)行單詞嵌入訓(xùn)練。我們的網(wǎng)絡(luò)中有3個隱藏層,隱藏單元的維度是100。網(wǎng)絡(luò)中的所有權(quán)值都是由小的隨機(jī)均勻噪聲初始化的。我們基于ACE05開發(fā)集調(diào)整超參數(shù),并使用它們對ACE04數(shù)據(jù)集進(jìn)行培訓(xùn)。
6.結(jié)果
- 我們的聯(lián)合模型在實(shí)體和關(guān)系上都顯著優(yōu)于聯(lián)合結(jié)構(gòu)化感知器模型(Li和Ji, 2014),盡管還缺乏依賴樹、POS標(biāo)簽等特性。然而,如果我們將我們的模型與SPTree模型進(jìn)行比較,我們會發(fā)現(xiàn)它們的模型在實(shí)體和關(guān)系上有更好的回憶。
- 我們發(fā)現(xiàn)將目標(biāo)修改為包含多個關(guān)系可以提高系統(tǒng)對關(guān)系的回憶,從而略微提高系統(tǒng)的整體性能。但是,仔細(xì)調(diào)整閾值可以進(jìn)一步提高精度。
- 雙向編碼很有用。
總結(jié)
以上是生活随笔為你收集整理的论文学习16-Going out on a limb: without Dependency Trees(联合实体关系抽取2017)的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 快捷键记录
- 下一篇: TabError的解决方法