论文浅尝 | Global Relation Embedding for Relation Extraction
鏈接:https://arxiv.org/abs/1704.05958
Introduction
在關(guān)系抽取任務(wù)中,通常采用遠(yuǎn)程監(jiān)督的方式自動(dòng)生成數(shù)據(jù)集。由于實(shí)體對(duì)間可能存在多關(guān)系,生成的數(shù)據(jù)集往往存在大量噪音。本文對(duì)文本中的關(guān)系表述(textual relation)和知識(shí)庫(kù)中的關(guān)系(kb relation)進(jìn)行了共現(xiàn)統(tǒng)計(jì),利用全局統(tǒng)計(jì)的信息訓(xùn)練 embedding,使模型能更加魯棒地應(yīng)對(duì)訓(xùn)練噪音的問(wèn)題。
?
Idea
本文的核心思想是:全局的統(tǒng)計(jì)信息比局部的統(tǒng)計(jì)信息更加魯棒。在傳統(tǒng)的關(guān)系抽取訓(xùn)練中,句子與句子之間是獨(dú)立的,基于單句的局部特征訓(xùn)練模型,受到錯(cuò)誤標(biāo)簽的影響比較大。本文提出了一種全局統(tǒng)計(jì)的思路,對(duì)每個(gè)句子,提取它文本中的關(guān)系表述(textual relation),并統(tǒng)計(jì)該 textual relation 在訓(xùn)練集中共現(xiàn)的 kb relation 的分布,這個(gè)分布可以用來(lái)作為 textual relation 的embedding 表示。
比如,對(duì)于上述兩個(gè)textual relation,分別統(tǒng)計(jì)訓(xùn)練集中包含該textual relation的句子對(duì)應(yīng)的label,可以得到texual relation在kbrelation上的分布如下:
可以看出,表述為born的句子可以被映射到place_of_birth上,雖然訓(xùn)練集中存在錯(cuò)誤標(biāo)簽(place_of_death)的問(wèn)題,但在全局統(tǒng)計(jì)的角度看,錯(cuò)誤標(biāo)簽占比比較小。因此,全局共現(xiàn)信息可以有效地突出正確標(biāo)簽。
本文的思路可以類(lèi)比 GloVE 對(duì) word2vec 的改進(jìn)。
?
Methods
1、統(tǒng)計(jì)
首先,在語(yǔ)料集上,本文用short dependency path來(lái)提取每個(gè)關(guān)系的texual relation,得到文本的relational fact,以及對(duì)應(yīng)的texualrelation set:。
其次,對(duì)于每個(gè)texual relation,得到共現(xiàn)的實(shí)體對(duì):
每個(gè)實(shí)體對(duì)出現(xiàn)的次數(shù)記為。
在知識(shí)庫(kù)上,relational fact 即為三元組。對(duì)于每個(gè)三元組,統(tǒng)計(jì)出共現(xiàn)的實(shí)體對(duì),記做S(rj)。根據(jù)關(guān)系標(biāo)簽的映射,我們可以得到textual relation和kb relation的共現(xiàn)信息:
2、Global relation embedding(GloRE)
本文用GRU處理texual relation的路徑,并將輸出結(jié)果映射到上一節(jié)統(tǒng)計(jì)出的共現(xiàn)分布上:
這里用『-』來(lái)代表依賴(lài)路徑中的方向。目標(biāo)函數(shù)如下:
最終得到 textual relation 的embedding。
?
3、關(guān)系抽取增強(qiáng)
本文用GloRE計(jì)算關(guān)系score,加到原有關(guān)系抽取模型的score中。
在實(shí)體對(duì)的 set level 上,關(guān)系抽取模型的score記作E(z|C)。
用GloRE對(duì)單句進(jìn)行預(yù)測(cè)得到score,再做set內(nèi)的聚合,和關(guān)系抽取的set level對(duì)齊:
最終關(guān)系抽取的score表示為兩個(gè)score加權(quán)的和:
Experiments
本文首先在多種關(guān)系抽取模型上進(jìn)行了GloRE的加成測(cè)試,效果均有一定提升:
其次,作者用PCNN+ATT+GloRE和一些經(jīng)典關(guān)系抽取數(shù)據(jù)集進(jìn)行最終對(duì)比:
最后,本文用同樣的PCNN+ATT作為BASE模型,用不同模型作為疊加,證明了GloRE的加成效果最好。
作者還進(jìn)行了 case study,來(lái)分析GloRE的具體效果:
筆記整理:王冠穎,浙江大學(xué)碩士,研究方向關(guān)系抽取、知識(shí)圖譜
OpenKG
開(kāi)放知識(shí)圖譜(簡(jiǎn)稱(chēng) OpenKG)旨在促進(jìn)中文知識(shí)圖譜數(shù)據(jù)的開(kāi)放與互聯(lián),促進(jìn)知識(shí)圖譜和語(yǔ)義技術(shù)的普及和廣泛應(yīng)用。
點(diǎn)擊閱讀原文,進(jìn)入 OpenKG 博客。
總結(jié)
以上是生活随笔為你收集整理的论文浅尝 | Global Relation Embedding for Relation Extraction的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 微服务设计原则和解决方案
- 下一篇: 论文浅尝 | 基于复杂查询图编码的知识库