當(dāng)前位置：首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

论文浅尝 | 基于神经网络的实体识别和关系抽取联合学习

發(fā)布時(shí)間：2024/7/5 编程问答 43 豆豆

生活随笔收集整理的這篇文章主要介紹了论文浅尝 | 基于神经网络的实体识别和关系抽取联合学习小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

本文轉(zhuǎn)載自公眾號(hào)：PaperWeekly。

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??

作者丨羅凌

學(xué)校丨大連理工大學(xué)博士生

研究方向丨深度學(xué)習(xí)，文本分類，實(shí)體識(shí)別

聯(lián)合學(xué)習(xí)（Joint learning）一詞并不是一個(gè)最近才出現(xiàn)的術(shù)語(yǔ)，在自然語(yǔ)言處理領(lǐng)域，很早就有研究者使用基于傳統(tǒng)機(jī)器學(xué)習(xí)的聯(lián)合模型（Joint model）來(lái)對(duì)一些有些密切聯(lián)系的自然語(yǔ)言處理任務(wù)進(jìn)行聯(lián)合學(xué)習(xí)。例如實(shí)體識(shí)別和實(shí)體標(biāo)準(zhǔn)化聯(lián)合學(xué)習(xí)，分詞和詞性標(biāo)注聯(lián)合學(xué)習(xí)等等。

最近，研究者們?cè)?strong>基于神經(jīng)網(wǎng)絡(luò)方法上進(jìn)行實(shí)體識(shí)別和關(guān)系抽取聯(lián)合學(xué)習(xí)，我閱讀了一些相關(guān)工作，在此和大家一起分享學(xué)習(xí)（本文中引用了一些論文作者 Suncong Zheng 的 PPT 報(bào)告）。

引言

本文關(guān)注的任務(wù)是從無(wú)結(jié)構(gòu)的文本中抽取實(shí)體以及實(shí)體之間的關(guān)系（實(shí)體 1-關(guān)系-實(shí)體 2，三元組），這里的關(guān)系是我們預(yù)定義好的關(guān)系類型，例如下圖：

目前有兩大類方法，一種是使用流水線的方法（Pipelined Method）進(jìn)行抽取：輸入一個(gè)句子，首先進(jìn)行命名實(shí)體識(shí)別，然后對(duì)識(shí)別出來(lái)的實(shí)體進(jìn)行兩兩組合，再進(jìn)行關(guān)系分類，最后把存在實(shí)體關(guān)系的三元組作為輸入。

流水線的方法存在的缺點(diǎn)有：

1. 錯(cuò)誤傳播，實(shí)體識(shí)別模塊的錯(cuò)誤會(huì)影響到下面的關(guān)系分類性能；

2. 忽視了兩個(gè)子任務(wù)之間存在的關(guān)系，例如圖中的例子，如果存在 Country-President 關(guān)系，那么我們可以知道前一個(gè)實(shí)體必然屬于 Location 類型，后一個(gè)實(shí)體屬于 Person 類型，流水線的方法沒(méi)法利用這樣的信息；

3. 產(chǎn)生了沒(méi)必要的冗余信息，由于對(duì)識(shí)別出來(lái)的實(shí)體進(jìn)行兩兩配對(duì)，然后再進(jìn)行關(guān)系分類，那些沒(méi)有關(guān)系的實(shí)體對(duì)就會(huì)帶來(lái)多余信息，提升錯(cuò)誤率。

理想的聯(lián)合學(xué)習(xí)應(yīng)該如下圖：輸入一個(gè)句子，通過(guò)實(shí)體識(shí)別和關(guān)系抽取聯(lián)合模型，直接得到有關(guān)系的實(shí)體三元組。這種可以克服上面流水線方法的缺點(diǎn)，但是可能會(huì)有更復(fù)雜的結(jié)構(gòu)。

聯(lián)合學(xué)習(xí)

這里我主要關(guān)注的基于神經(jīng)網(wǎng)絡(luò)方法的聯(lián)合學(xué)習(xí)，我把目前的工作主要分為兩大類：1. 參數(shù)共享（Parameter Sharing）和 2. 標(biāo)注策略（Tagging Scheme）。主要涉及到下面一些相關(guān)工作。

參數(shù)共享

論文《Joint Entity and Relation Extraction Based on A Hybrid Neural Network》，Zheng 等人利用共享神經(jīng)網(wǎng)絡(luò)底層表達(dá)來(lái)進(jìn)行聯(lián)合學(xué)習(xí)。

具體的，對(duì)于輸入句子通過(guò)共用的 word embedding 層，然后接雙向的 LSTM 層來(lái)對(duì)輸入進(jìn)行編碼。然后分別使用一個(gè) LSTM 來(lái)進(jìn)行命名實(shí)體識(shí)別（NER）和一個(gè) CNN 來(lái)進(jìn)行關(guān)系分類（RC）。

相比現(xiàn)在主流的 NER 模型 BiLSTM-CRF 模型，這里將前一個(gè)預(yù)測(cè)標(biāo)簽進(jìn)行了 embedding 再傳入到當(dāng)前解碼中來(lái)代替 CRF 層解決 NER 中的標(biāo)簽依賴問(wèn)題。

在進(jìn)行關(guān)系分類的時(shí)候，需要先根據(jù) NER 預(yù)測(cè)的結(jié)果對(duì)實(shí)體進(jìn)行配對(duì)，然后將實(shí)體之間的文本使用一個(gè) CNN 進(jìn)行關(guān)系分類。所以該模型主要是通過(guò)底層的模型參數(shù)共享，在訓(xùn)練時(shí)兩個(gè)任務(wù)都會(huì)通過(guò)后向傳播算法來(lái)更新共享參數(shù)來(lái)實(shí)現(xiàn)兩個(gè)子任務(wù)之間的依賴。

論文《End-to-End Relation Extraction using LSTMs on Sequences and Tree Structures》也是類似的思想，通過(guò)參數(shù)共享來(lái)聯(lián)合學(xué)習(xí)。只是他們?cè)?NER 和 RC 的解碼模型上有所區(qū)別。

這篇論文 Miwa 等人同樣是通過(guò)參數(shù)共享，NER 使用的是一個(gè) NN 進(jìn)行解碼，在 RC 上加入了依存信息，根據(jù)依存樹最短路徑使用一個(gè) BiLSTM 來(lái)進(jìn)行關(guān)系分類。

根據(jù)這兩篇論文的實(shí)驗(yàn)，使用參數(shù)共享來(lái)進(jìn)行聯(lián)合學(xué)習(xí)比流水線的方法獲得了更好的結(jié)果在他們的任務(wù)上 F 值約提升了 1%，是一種簡(jiǎn)單通用的方法。論文《A Neural Joint Model for Entity and Relation Extraction from Biomedical Text》將同樣的思想用到了生物醫(yī)學(xué)文本中的實(shí)體關(guān)系抽取任務(wù)上。

標(biāo)注策略

但是我們可以看到，參數(shù)共享的方法其實(shí)還是有兩個(gè)子任務(wù)，只是這兩個(gè)子任務(wù)之間通過(guò)參數(shù)共享有了交互。而且在訓(xùn)練的時(shí)候還是需要先進(jìn)行 NER，再根據(jù) NER 的預(yù)測(cè)信息進(jìn)行兩兩匹配來(lái)進(jìn)行關(guān)系分類。仍然會(huì)產(chǎn)生沒(méi)有關(guān)系的實(shí)體對(duì)這種冗余信息。

出于這樣的動(dòng)機(jī)，Zheng 等人在論文《Joint Extraction of Entities and Relations Based on a Novel Tagging Scheme》中提出了一種新的標(biāo)注策略來(lái)進(jìn)行關(guān)系抽取，該論文發(fā)表在 2017 ACL 上，并入選了 Outstanding Paper。

他們通過(guò)提出了一種新的標(biāo)注策略把原來(lái)涉及到序列標(biāo)注任務(wù)和分類任務(wù)的關(guān)系抽取完全變成了一個(gè)序列標(biāo)注問(wèn)題。然后通過(guò)一個(gè)端對(duì)端的神經(jīng)網(wǎng)絡(luò)模型直接得到關(guān)系實(shí)體三元組。

他們提出的這種新的標(biāo)注策略主要由下圖中三部分組成：1）實(shí)體中詞的位置信息{B（實(shí)體開(kāi)始），I（實(shí)體內(nèi)部），E（實(shí)體結(jié)尾），S（單個(gè)實(shí)體）}；2）關(guān)系類型信息{根據(jù)預(yù)先定義的關(guān)系類型進(jìn)行編碼}；3）實(shí)體角色信息{1（實(shí)體1），2（實(shí)體2）}。注意，這里只要不是實(shí)體關(guān)系三元組內(nèi)的詞全部標(biāo)簽都為“O”。

根據(jù)標(biāo)簽序列，將同樣關(guān)系類型的實(shí)體合并成一個(gè)三元組作為最后的結(jié)果，如果一個(gè)句子包含一個(gè)以上同一類型的關(guān)系，那么就采用就近原則來(lái)進(jìn)行配對(duì)。目前這套標(biāo)簽并不支持實(shí)體關(guān)系重疊的情況。

然后該任務(wù)就變成了一個(gè)序列標(biāo)注問(wèn)題，整體模型如下圖。首先使用了一個(gè) BiLSTM 來(lái)進(jìn)行編碼，然后使用了在參數(shù)共享中提到的 LSTM 來(lái)進(jìn)行解碼。

和經(jīng)典模型不同的地方在于他們使用了一個(gè)帶偏置的目標(biāo)函數(shù)。當(dāng)標(biāo)簽為“O”時(shí)，就是正常的目標(biāo)函數(shù)，當(dāng)標(biāo)簽不是“O”時(shí)，即涉及到了關(guān)系實(shí)體標(biāo)簽，則通過(guò) α 來(lái)增大標(biāo)簽的影響。實(shí)驗(yàn)結(jié)果表明，這個(gè)帶偏置的目標(biāo)函數(shù)能夠更準(zhǔn)確的預(yù)測(cè)實(shí)體關(guān)系對(duì)。

總結(jié)

基于神經(jīng)網(wǎng)絡(luò)的實(shí)體識(shí)別和關(guān)系抽取聯(lián)合學(xué)習(xí)主要由兩類方法。其中參數(shù)共享的方法簡(jiǎn)單易實(shí)現(xiàn)，在多任務(wù)學(xué)習(xí)中有著廣泛的應(yīng)用。

Zheng 等人提出的新的標(biāo)注策略，雖然目前還存在一些問(wèn)題（例如無(wú)法識(shí)別重疊實(shí)體關(guān)系），但是給出了一種新的思路，真正的做到了兩個(gè)子任務(wù)合并成了一個(gè)序列標(biāo)注問(wèn)題，在這套標(biāo)注策略上也可以進(jìn)行更多的改進(jìn)和發(fā)展來(lái)進(jìn)一步完善端到端的關(guān)系抽取任務(wù)。

參考文獻(xiàn)

[1] S. Zheng, Y. Hao, D. Lu, H. Bao, J. Xu, H. Hao, et al., Joint Entity and Relation Extraction Based on A Hybrid Neural Network, Neurocomputing. (2017) 1–8.?

[2] M. Miwa, M. Bansal, End-to-End Relation Extraction using LSTMs on Sequences and Tree Structures, ACL, (2016).?

[3] F. Li, M. Zhang, G. Fu, D. Ji, A Neural Joint Model for Entity and Relation Extraction from Biomedical Text, BMC Bioinformatics. 18 (2017).?

[4] S. Zheng, F. Wang, H. Bao, Y. Hao, P. Zhou, B. Xu, Joint Extraction of Entities and Relations Based on a Novel Tagging Scheme, Acl. (2017).

编程问答

论文浅尝 | 基于神经网络的实体识别和关系抽取联合学习

引言

聯(lián)合學(xué)習(xí)

參數(shù)共享

標(biāo)注策略

總結(jié)

參考文獻(xiàn)

相關(guān)鏈接

總結(jié)