论文浅尝 | 基于神经网络的实体识别和关系抽取联合学习
本文轉(zhuǎn)載自公眾號(hào):PaperWeekly。
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
作者丨羅凌
學(xué)校丨大連理工大學(xué)博士生
研究方向丨深度學(xué)習(xí),文本分類,實(shí)體識(shí)別
聯(lián)合學(xué)習(xí)(Joint learning)一詞并不是一個(gè)最近才出現(xiàn)的術(shù)語(yǔ),在自然語(yǔ)言處理領(lǐng)域,很早就有研究者使用基于傳統(tǒng)機(jī)器學(xué)習(xí)的聯(lián)合模型(Joint model)來(lái)對(duì)一些有些密切聯(lián)系的自然語(yǔ)言處理任務(wù)進(jìn)行聯(lián)合學(xué)習(xí)。例如實(shí)體識(shí)別和實(shí)體標(biāo)準(zhǔn)化聯(lián)合學(xué)習(xí),分詞和詞性標(biāo)注聯(lián)合學(xué)習(xí)等等。
最近,研究者們?cè)?strong>基于神經(jīng)網(wǎng)絡(luò)方法上進(jìn)行實(shí)體識(shí)別和關(guān)系抽取聯(lián)合學(xué)習(xí),我閱讀了一些相關(guān)工作,在此和大家一起分享學(xué)習(xí)(本文中引用了一些論文作者 Suncong Zheng 的 PPT 報(bào)告)。
引言
本文關(guān)注的任務(wù)是從無(wú)結(jié)構(gòu)的文本中抽取實(shí)體以及實(shí)體之間的關(guān)系(實(shí)體 1-關(guān)系-實(shí)體 2,三元組),這里的關(guān)系是我們預(yù)定義好的關(guān)系類型,例如下圖:
目前有兩大類方法,一種是使用流水線的方法(Pipelined Method)進(jìn)行抽取:輸入一個(gè)句子,首先進(jìn)行命名實(shí)體識(shí)別,然后對(duì)識(shí)別出來(lái)的實(shí)體進(jìn)行兩兩組合,再進(jìn)行關(guān)系分類,最后把存在實(shí)體關(guān)系的三元組作為輸入。
流水線的方法存在的缺點(diǎn)有:
1. 錯(cuò)誤傳播,實(shí)體識(shí)別模塊的錯(cuò)誤會(huì)影響到下面的關(guān)系分類性能;
2. 忽視了兩個(gè)子任務(wù)之間存在的關(guān)系,例如圖中的例子,如果存在 Country-President 關(guān)系,那么我們可以知道前一個(gè)實(shí)體必然屬于 Location 類型,后一個(gè)實(shí)體屬于 Person 類型,流水線的方法沒(méi)法利用這樣的信息;
3. 產(chǎn)生了沒(méi)必要的冗余信息,由于對(duì)識(shí)別出來(lái)的實(shí)體進(jìn)行兩兩配對(duì),然后再進(jìn)行關(guān)系分類,那些沒(méi)有關(guān)系的實(shí)體對(duì)就會(huì)帶來(lái)多余信息,提升錯(cuò)誤率。
理想的聯(lián)合學(xué)習(xí)應(yīng)該如下圖:輸入一個(gè)句子,通過(guò)實(shí)體識(shí)別和關(guān)系抽取聯(lián)合模型,直接得到有關(guān)系的實(shí)體三元組。這種可以克服上面流水線方法的缺點(diǎn),但是可能會(huì)有更復(fù)雜的結(jié)構(gòu)。
聯(lián)合學(xué)習(xí)
這里我主要關(guān)注的基于神經(jīng)網(wǎng)絡(luò)方法的聯(lián)合學(xué)習(xí),我把目前的工作主要分為兩大類:1. 參數(shù)共享(Parameter Sharing)和 2. 標(biāo)注策略(Tagging Scheme)。主要涉及到下面一些相關(guān)工作。
參數(shù)共享
論文《Joint Entity and Relation Extraction Based on A Hybrid Neural Network》,Zheng 等人利用共享神經(jīng)網(wǎng)絡(luò)底層表達(dá)來(lái)進(jìn)行聯(lián)合學(xué)習(xí)。
具體的,對(duì)于輸入句子通過(guò)共用的 word embedding 層,然后接雙向的 LSTM 層來(lái)對(duì)輸入進(jìn)行編碼。然后分別使用一個(gè) LSTM 來(lái)進(jìn)行命名實(shí)體識(shí)別(NER)和一個(gè) CNN 來(lái)進(jìn)行關(guān)系分類(RC)。
相比現(xiàn)在主流的 NER 模型 BiLSTM-CRF 模型,這里將前一個(gè)預(yù)測(cè)標(biāo)簽進(jìn)行了 embedding 再傳入到當(dāng)前解碼中來(lái)代替 CRF 層解決 NER 中的標(biāo)簽依賴問(wèn)題。
在進(jìn)行關(guān)系分類的時(shí)候,需要先根據(jù) NER 預(yù)測(cè)的結(jié)果對(duì)實(shí)體進(jìn)行配對(duì),然后將實(shí)體之間的文本使用一個(gè) CNN 進(jìn)行關(guān)系分類。所以該模型主要是通過(guò)底層的模型參數(shù)共享,在訓(xùn)練時(shí)兩個(gè)任務(wù)都會(huì)通過(guò)后向傳播算法來(lái)更新共享參數(shù)來(lái)實(shí)現(xiàn)兩個(gè)子任務(wù)之間的依賴。
論文《End-to-End Relation Extraction using LSTMs on Sequences and Tree Structures》也是類似的思想,通過(guò)參數(shù)共享來(lái)聯(lián)合學(xué)習(xí)。只是他們?cè)?NER 和 RC 的解碼模型上有所區(qū)別。
這篇論文 Miwa 等人同樣是通過(guò)參數(shù)共享,NER 使用的是一個(gè) NN 進(jìn)行解碼,在 RC 上加入了依存信息,根據(jù)依存樹最短路徑使用一個(gè) BiLSTM 來(lái)進(jìn)行關(guān)系分類。
根據(jù)這兩篇論文的實(shí)驗(yàn),使用參數(shù)共享來(lái)進(jìn)行聯(lián)合學(xué)習(xí)比流水線的方法獲得了更好的結(jié)果在他們的任務(wù)上 F 值約提升了 1%,是一種簡(jiǎn)單通用的方法。論文《A Neural Joint Model for Entity and Relation Extraction from Biomedical Text》將同樣的思想用到了生物醫(yī)學(xué)文本中的實(shí)體關(guān)系抽取任務(wù)上。
標(biāo)注策略
但是我們可以看到,參數(shù)共享的方法其實(shí)還是有兩個(gè)子任務(wù),只是這兩個(gè)子任務(wù)之間通過(guò)參數(shù)共享有了交互。而且在訓(xùn)練的時(shí)候還是需要先進(jìn)行 NER,再根據(jù) NER 的預(yù)測(cè)信息進(jìn)行兩兩匹配來(lái)進(jìn)行關(guān)系分類。仍然會(huì)產(chǎn)生沒(méi)有關(guān)系的實(shí)體對(duì)這種冗余信息。
出于這樣的動(dòng)機(jī),Zheng 等人在論文《Joint Extraction of Entities and Relations Based on a Novel Tagging Scheme》中提出了一種新的標(biāo)注策略來(lái)進(jìn)行關(guān)系抽取,該論文發(fā)表在 2017 ACL 上,并入選了 Outstanding Paper。
他們通過(guò)提出了一種新的標(biāo)注策略把原來(lái)涉及到序列標(biāo)注任務(wù)和分類任務(wù)的關(guān)系抽取完全變成了一個(gè)序列標(biāo)注問(wèn)題。然后通過(guò)一個(gè)端對(duì)端的神經(jīng)網(wǎng)絡(luò)模型直接得到關(guān)系實(shí)體三元組。
他們提出的這種新的標(biāo)注策略主要由下圖中三部分組成:1)實(shí)體中詞的位置信息{B(實(shí)體開(kāi)始),I(實(shí)體內(nèi)部),E(實(shí)體結(jié)尾),S(單個(gè)實(shí)體)};2)關(guān)系類型信息{根據(jù)預(yù)先定義的關(guān)系類型進(jìn)行編碼};3)實(shí)體角色信息{1(實(shí)體1),2(實(shí)體2)}。注意,這里只要不是實(shí)體關(guān)系三元組內(nèi)的詞全部標(biāo)簽都為“O”。
根據(jù)標(biāo)簽序列,將同樣關(guān)系類型的實(shí)體合并成一個(gè)三元組作為最后的結(jié)果,如果一個(gè)句子包含一個(gè)以上同一類型的關(guān)系,那么就采用就近原則來(lái)進(jìn)行配對(duì)。目前這套標(biāo)簽并不支持實(shí)體關(guān)系重疊的情況。
然后該任務(wù)就變成了一個(gè)序列標(biāo)注問(wèn)題,整體模型如下圖。首先使用了一個(gè) BiLSTM 來(lái)進(jìn)行編碼,然后使用了在參數(shù)共享中提到的 LSTM 來(lái)進(jìn)行解碼。
和經(jīng)典模型不同的地方在于他們使用了一個(gè)帶偏置的目標(biāo)函數(shù)。當(dāng)標(biāo)簽為“O”時(shí),就是正常的目標(biāo)函數(shù),當(dāng)標(biāo)簽不是“O”時(shí),即涉及到了關(guān)系實(shí)體標(biāo)簽,則通過(guò) α 來(lái)增大標(biāo)簽的影響。實(shí)驗(yàn)結(jié)果表明,這個(gè)帶偏置的目標(biāo)函數(shù)能夠更準(zhǔn)確的預(yù)測(cè)實(shí)體關(guān)系對(duì)。
總結(jié)
基于神經(jīng)網(wǎng)絡(luò)的實(shí)體識(shí)別和關(guān)系抽取聯(lián)合學(xué)習(xí)主要由兩類方法。其中參數(shù)共享的方法簡(jiǎn)單易實(shí)現(xiàn),在多任務(wù)學(xué)習(xí)中有著廣泛的應(yīng)用。
Zheng 等人提出的新的標(biāo)注策略,雖然目前還存在一些問(wèn)題(例如無(wú)法識(shí)別重疊實(shí)體關(guān)系),但是給出了一種新的思路,真正的做到了兩個(gè)子任務(wù)合并成了一個(gè)序列標(biāo)注問(wèn)題,在這套標(biāo)注策略上也可以進(jìn)行更多的改進(jìn)和發(fā)展來(lái)進(jìn)一步完善端到端的關(guān)系抽取任務(wù)。
參考文獻(xiàn)
[1] S. Zheng, Y. Hao, D. Lu, H. Bao, J. Xu, H. Hao, et al., Joint Entity and Relation Extraction Based on A Hybrid Neural Network, Neurocomputing. (2017) 1–8.?
[2] M. Miwa, M. Bansal, End-to-End Relation Extraction using LSTMs on Sequences and Tree Structures, ACL, (2016).?
[3] F. Li, M. Zhang, G. Fu, D. Ji, A Neural Joint Model for Entity and Relation Extraction from Biomedical Text, BMC Bioinformatics. 18 (2017).?
[4] S. Zheng, F. Wang, H. Bao, Y. Hao, P. Zhou, B. Xu, Joint Extraction of Entities and Relations Based on a Novel Tagging Scheme, Acl. (2017).
相關(guān)鏈接
[1] 論文作者 Suncong Zheng 報(bào)告:http://t.cn/RXmunzm
關(guān)于PaperWeekly
PaperWeekly 是一個(gè)推薦、解讀、討論、報(bào)道人工智能前沿論文成果的學(xué)術(shù)平臺(tái)。
OpenKG.CN
中文開(kāi)放知識(shí)圖譜(簡(jiǎn)稱OpenKG.CN)旨在促進(jìn)中文知識(shí)圖譜數(shù)據(jù)的開(kāi)放與互聯(lián),促進(jìn)知識(shí)圖譜和語(yǔ)義技術(shù)的普及和廣泛應(yīng)用。
點(diǎn)擊閱讀原文,進(jìn)入 OpenKG 博客。
總結(jié)
以上是生活随笔為你收集整理的论文浅尝 | 基于神经网络的实体识别和关系抽取联合学习的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: docker -v -it -p 详细说
- 下一篇: 论文浅尝 | Know-Evolve: