文献阅读课10-Neural Relation Extraction for Knowledge Base Enrichment(提取+嵌入+消歧+规范化联合模型,实体已知,仅关系抽取,多词实体)
文章目錄
- Abstract
- 1.Introduction
- 2. 相關(guān)工作
- 2.2 Entity-aware Relation Extraction
- 3.提出的模型
- 3.1 Solution Framework
- 3.1 data collection module
- 3.3 Joint Learning of Word and Entity Embeddings
- 3.4 N-gram Based Attention Model
- 訓(xùn)練
- 3.5 Triple Generation
- 4.實(shí)驗(yàn)
- 4.1 超參數(shù)
- 4.2 models
- 4.3 results
- 5.總結(jié)
Trisedya, B. D., et al. (2019). Neural Relation Extraction for Knowledge Base Enrichment. Proceedings ofthe 57th Annual Meeting ofthe Association for Computational Linguistics: 229–240.
code
Abstract
我們研究知識(shí)庫(kù)(KB)豐富化的關(guān)系提取。具體來說,我們旨在以三元組的形式從句子中提取實(shí)體及其關(guān)系,并以端到端的方式將提取的三元組的元素映射到現(xiàn)有的知識(shí)庫(kù)。先前的研究集中于提取本身,并依靠命名實(shí)體消歧(NED)將三元組映射到KB空間。這樣,NED錯(cuò)誤可能會(huì)導(dǎo)致提取錯(cuò)誤,從而影響整體精度和召回率。為了解決這個(gè)問題,我們提出了一種基于神經(jīng)編碼器-解碼器模型的知識(shí)庫(kù)豐富的端到端關(guān)系提取模型。我們通過遠(yuǎn)程監(jiān)控與共參考分辨率和復(fù)述檢測(cè)來收集高質(zhì)量的培訓(xùn)數(shù)據(jù)。我們提出了一種基于n元語法的注意力模型,該模型捕獲句子中的多詞實(shí)體名稱。我們的模型采用共同學(xué)習(xí)的單詞和實(shí)體嵌入來支持命名實(shí)體消歧。最后,我們的模型使用改進(jìn)的波束搜索和三重分類器來幫助生成高質(zhì)量的三重。就兩個(gè)真實(shí)數(shù)據(jù)集的F1得分而言,我們的模型分別比最新基準(zhǔn)高出15.51%和8.38%。
- 豐富KB
- 原先:提取關(guān)系/實(shí)體–>消歧來映射到KB
- 實(shí)體消歧的錯(cuò)誤會(huì)導(dǎo)致提取錯(cuò)誤,從而影響整體的精度和召回率
- 本文:n-gram based attention model that captures multi-word entity names in a sentence.
- 提取+嵌入+消歧聯(lián)合模型
- 改進(jìn)的beam search
- 三元組 classifier
- 原先:提取關(guān)系/實(shí)體–>消歧來映射到KB
1.Introduction
知識(shí)庫(kù)(KBs)通常以知識(shí)圖(KGs)的形式出現(xiàn),已成為許多任務(wù)中必不可少的資源,包括問答系統(tǒng),推薦系統(tǒng)和自然語言生成。大型KB,例如DBpedia(Auer等,2007),Wikidata(Vrandecic和Krotzsch,2014)和Yago(Suchanek等,2007)包含數(shù)以百萬計(jì)的有關(guān)實(shí)體的事實(shí),它們以主題的形式表示。謂語-賓語三元組。但是,這些知識(shí)庫(kù)遠(yuǎn)非完整,需要不斷地進(jìn)行豐富和管理。
-
大型KB
- DBpedia(Auer等,2007),
- Wikidata(Vrandecic和Krotzsch,2014)和
- Yago(Suchanek等,2007)
- 知識(shí)多但不完整,需要不斷地豐富和管理
-
以前的研究工作–豐富知識(shí)基礎(chǔ)
- 基于嵌入的模型(Nguyen等人,2018; Wang等人,2015)
- 實(shí)體對(duì)齊模型(Chen等人,2017; Sun等人,2017; Trisedya等人,2019)。
- 無監(jiān)督方法
- 一小組手動(dòng)定義的提取模式開始,以檢測(cè)實(shí)體名稱和有關(guān)輸入文本中關(guān)系的短語。
- 這種范例被稱為開放信息提取(Open IE)(Banko等,2007; Corro and Gemulla,2013; Gashteovski等,2017)。
- 在這一系列方法中,實(shí)體和謂詞均以其表面形式捕獲而無需規(guī)范化。
- 監(jiān)督方法:
- 訓(xùn)練統(tǒng)計(jì)和神經(jīng)模型來推斷句子中兩個(gè)已知實(shí)體之間的關(guān)系
- (Mintz等,2009;
- Riedel等,2010,2013;
- Zeng等,2015;
- Lin等,2016)。
- 這些研究大多數(shù)采用預(yù)處理步驟來識(shí)別實(shí)體。
- 只有很少的研究通過對(duì)現(xiàn)有KB進(jìn)行邏輯推理來消除提取的實(shí)體的歧義,將提取的三元組映射完全整合到唯一標(biāo)識(shí)的KB實(shí)體中
- (例如(Suchanek等人,2009;
- Sa等人,2017)。
- 訓(xùn)練統(tǒng)計(jì)和神經(jīng)模型來推斷句子中兩個(gè)已知實(shí)體之間的關(guān)系
- 多將實(shí)體消歧NED作為單獨(dú)的一步:
- 缺點(diǎn):實(shí)體消歧的錯(cuò)誤傳播,導(dǎo)致錯(cuò)誤的關(guān)系被添加
-
本文工作
- 繼序列到序列架構(gòu)(Bahdanau et al。,2015)成功用于從結(jié)構(gòu)化數(shù)據(jù)生成句子(Marcheggiani和Perez-Beltrachini,2018; Trisedya et al。,2018)之后,我們采用這種架構(gòu)進(jìn)行相反的工作,也就是從句子中提取三元組。
- 輸入:句子
- 輸出:三元組
- 應(yīng)用情景:h,t為KB中已有實(shí)體,r為關(guān)系列表中的關(guān)系,<h,r,t>不存在于KB中
- 目的:發(fā)現(xiàn)h,t中更多的關(guān)系
- 要求:三元組中的關(guān)系,實(shí)體要規(guī)范,可以映射到KB中對(duì)應(yīng)的ID上
- 提取+嵌入+消歧(規(guī)范化)–從句子到KB的端到端
- 架構(gòu):encoder-decoder的translation model
- 標(biāo)準(zhǔn)的encoder-decoder無法處理多詞實(shí)體/謂詞
- n-gram attention–得到單詞級(jí)的信息
- 基于n-gram的注意力形式,該形式可以計(jì)算注意力權(quán)重的ngram組合來捕獲語音或名詞短語上下文,從而補(bǔ)充標(biāo)準(zhǔn)注意力模型的單詞級(jí)注意力。
- 因此,我們的模型可以更好地捕獲實(shí)體和關(guān)系的多詞上下文。
- pre-train
- 單詞:skip gram
- 嵌入:TransE
- 優(yōu)點(diǎn):
- 首先,嵌入捕獲可單詞和實(shí)體之間的關(guān)系,這對(duì)于命名實(shí)體消除歧義至關(guān)重要。
- 其次,實(shí)體嵌入保留了實(shí)體之間的關(guān)系,這有助于建立一個(gè)高度準(zhǔn)確的分類器來過濾無效的提取的三元組。
- 數(shù)據(jù)不足:遠(yuǎn)程監(jiān)督
- 為了解決缺少完全標(biāo)記的訓(xùn)練數(shù)據(jù)的問題,我們采用了遠(yuǎn)程監(jiān)督來生成對(duì)齊的句子對(duì)和三對(duì)作為訓(xùn)練數(shù)據(jù)。
- 增強(qiáng)
- 我們通過co-reference resolution (Clark和Manning,2016)
- co-reference resolution有助于提取帶有隱式實(shí)體名稱的句子,從而擴(kuò)大候選句子的集合以與KB中現(xiàn)有的三元組對(duì)齊。
- dictionary-based paraphrase detection(Ganitkevitch等,2013; Grycner和Weikum,2016
- 有助于過濾不表達(dá)實(shí)體之間任何關(guān)系的句子。
- 我們通過co-reference resolution (Clark和Manning,2016)
- 貢獻(xiàn)
- 聯(lián)合關(guān)系抽取+消歧的model:該模型減少了關(guān)系提取和NED之間的錯(cuò)誤傳播,而現(xiàn)有方法則容易發(fā)生這種錯(cuò)誤傳播。
- 基于n-gram的注意力模型:
- 以有效地將實(shí)體及其關(guān)系的多詞提及映射到唯一標(biāo)識(shí)的實(shí)體和謂詞中。
- 我們建議聯(lián)合學(xué)習(xí)單詞和實(shí)體嵌入,以捕獲單詞和實(shí)體之間的關(guān)系,以消除命名實(shí)體的歧義。
- 我們進(jìn)一步提出一種改進(jìn)的波束搜索和三元組分類器,以生成高質(zhì)量的三元組。
- 我們?cè)趦蓚€(gè)真實(shí)世界的數(shù)據(jù)集上評(píng)估提出的模型。
- 我們將遠(yuǎn)程監(jiān)控與co-reference resolution和dictionary-based paraphrase detection相結(jié)合,以獲取高質(zhì)量的訓(xùn)練數(shù)據(jù)。
- 實(shí)驗(yàn)結(jié)果表明,我們的模型始終優(yōu)于神經(jīng)關(guān)系提取(Lin等人,2016)和最新的NED模型(Hoffart等人,2011; Kolitsas等人,2018)的強(qiáng)大基線。
在本文中,我們研究如何通過文本來源中的關(guān)聯(lián)關(guān)系來豐富知識(shí)庫(kù)。具體來說,我們旨在提取形式為的三元組,其中h是頭實(shí)體,t是尾實(shí)體,r是實(shí)體之間的關(guān)系。重要的是,由于KB在實(shí)體上的覆蓋范圍通常比關(guān)系上的覆蓋范圍要好得多,因此我們假定h和t是KB中的現(xiàn)有實(shí)體,r是屬于我們感興趣的一組預(yù)先定義的謂詞的謂詞,但該關(guān)系沒有存在于KB中。我們旨在發(fā)現(xiàn)h和t之間的更多關(guān)系,并將它們添加到KB中。
KB的豐富要求通過將提取的三元組的實(shí)體和關(guān)系映射到其適當(dāng)?shù)膶?shí)體和KB中的謂詞ID來規(guī)范化它們。表1示出了從句子中提取的三元組的示例。提取的第一個(gè)三元組的實(shí)體和謂詞(包括NYU,實(shí)例大學(xué)和私立大學(xué))分別映射到其唯一的ID Q49210,P31和Q902104,以符合KB的語義空間。
以前有關(guān)關(guān)系提取的研究都采用了無監(jiān)督和有監(jiān)督的方法。無監(jiān)督方法通常從一小組手動(dòng)定義的提取模式開始,以檢測(cè)實(shí)體名稱和有關(guān)輸入文本中關(guān)系的短語。這種范例被稱為開放信息提取(Open IE)(Banko等,2007; Corro and Gemulla,2013; Gashteovski等,2017)。在這一系列方法中,實(shí)體和謂詞均以其表面形式捕獲而無需規(guī)范化。監(jiān)督方法訓(xùn)練統(tǒng)計(jì)和神經(jīng)模型來推斷句子中兩個(gè)已知實(shí)體之間的關(guān)系(Mintz等,2009; Riedel等,2010,2013; Zeng等,2015; Lin等,2016)。這些研究大多數(shù)采用預(yù)處理步驟來識(shí)別實(shí)體。只有很少的研究通過對(duì)現(xiàn)有KB進(jìn)行邏輯推理來消除提取的實(shí)體的歧義,將提取的三元組映射完全整合到唯一標(biāo)識(shí)的KB實(shí)體中(例如(Suchanek等人,2009; Sa等人,2017)。
因此,大多數(shù)現(xiàn)有方法都需要使用命名實(shí)體消歧(NED)(請(qǐng)參閱Shen等人(2015)的調(diào)查)作為單獨(dú)的處理步驟。另外,將關(guān)系短語映射到KB謂詞上需要另一個(gè)映射步驟,通常需要借助復(fù)述詞典來進(jìn)行。這種兩階段體系結(jié)構(gòu)固有地傾向于在其兩個(gè)階段中傳播錯(cuò)誤:NED錯(cuò)誤可能會(huì)導(dǎo)致提取錯(cuò)誤(反之亦然),從而導(dǎo)致將錯(cuò)誤的關(guān)系添加到KB中。
但是,標(biāo)準(zhǔn)的編碼器-解碼器模型(Bahdanau等,2015)無法捕獲表示謂詞的多詞實(shí)體名稱和口頭或名詞短語。為了解決這個(gè)問題,我們提出了一種新穎的基于n-gram的注意力形式,該形式可以計(jì)算注意力權(quán)重的ngram組合來捕獲語音或名詞短語上下文,從而補(bǔ)充標(biāo)準(zhǔn)注意力模型的單詞級(jí)注意力。因此,我們的模型可以更好地捕獲實(shí)體和關(guān)系的多詞上下文。我們的模型利用了預(yù)訓(xùn)練的單詞和實(shí)體嵌入,它們是通過skip gram(Mikolov等,2013)和TransE(Bordes等,2013)共同學(xué)習(xí)的。我們共同學(xué)習(xí)的嵌入的優(yōu)點(diǎn)是雙重的。首先,嵌入捕獲單詞和實(shí)體之間的關(guān)系,這對(duì)于命名實(shí)體消除歧義至關(guān)重要。其次,實(shí)體嵌入保留了實(shí)體之間的關(guān)系,這有助于建立一個(gè)高度準(zhǔn)確的分類器來過濾無效的提取三元組。為了解決缺少完全標(biāo)記的訓(xùn)練數(shù)據(jù)的問題,我們采用了遠(yuǎn)程監(jiān)督來生成對(duì)齊的句子對(duì)和三對(duì)作為訓(xùn)練數(shù)據(jù)。我們通過共同引用分辨率(Clark和Manning,2016)和基于字典的釋義檢測(cè)(Ganitkevitch等,2013; Grycner和Weikum,2016)來增強(qiáng)該過程。共參考消解有助于提取帶有隱式實(shí)體名稱的句子,從而擴(kuò)大候選句子的集合以與KB中現(xiàn)有的三元組對(duì)齊。復(fù)述檢測(cè)有助于過濾不表達(dá)實(shí)體之間任何關(guān)系的句子。
2. 相關(guān)工作
- Open IE:
- Banko等。 (2007年)介紹了開放信息提取(Open IE)的范例,并提出了一個(gè)包括三個(gè)階段的管道:學(xué)習(xí)者,提取者和評(píng)估者。
- 學(xué)習(xí)者使用依賴項(xiàng)解析信息以無監(jiān)督的方式學(xué)習(xí)提取模式。
- 提取器通過將名詞短語識(shí)別為自變量并將連接短語識(shí)別為謂詞來生成候選三元組。
- 評(píng)估者根據(jù)統(tǒng)計(jì)證據(jù)為每個(gè)候選三元組分配一個(gè)概率。
- 缺點(diǎn):這種方法易于提取不正確的,冗長(zhǎng)的和無意義的三元組。
- (Fader等人,2011; Mausam等人,2012; Angeli等人,2015; Mausam,2016)
- 通過添加手工模式或使用遠(yuǎn)程監(jiān)督來提高Open IE的準(zhǔn)確性。
- ClausIE:
- Corro and Gemulla(2013)開發(fā)了ClausIE,
- 該方法可分析句子中的從句并從該結(jié)構(gòu)中得出三元組。
- MinIE:
- Gashteovski等。 (2017)開發(fā)了MinIE,
- 通過使生成的三元組更加簡(jiǎn)潔來推進(jìn)ClausIE。
- Stanovsky等。 (2018)
- 通過將關(guān)系提取轉(zhuǎn)換為序列標(biāo)簽,
- 提出了一個(gè)Open IE的受監(jiān)督學(xué)習(xí)器。
- bi-LSTM模型經(jīng)過訓(xùn)練,可以預(yù)測(cè)輸入的每個(gè)標(biāo)記的標(biāo)簽(實(shí)體,謂詞或其他)。
- 與我們最相關(guān)的工作是Neural Open IE(Cui等人,2018),
- 它提出了一種具有注意力模型的編碼器/解碼器來提取三元組。
- 但是,這項(xiàng)工作并不適合于提取規(guī)范化實(shí)體的關(guān)系。
- 另一類研究使用神經(jīng)學(xué)習(xí)進(jìn)行語義角色標(biāo)記(He等人,2018),
- 但此處的目標(biāo)是識(shí)別單個(gè)輸入句子的謂詞-論元結(jié)構(gòu),而不是從語料庫(kù)中提取關(guān)系。
- 所有這些方法都會(huì)生成三元組,其中頭和尾實(shí)體以及謂詞保持其表面形式。* 因此,相同實(shí)體的不同名稱和短語會(huì)導(dǎo)致多個(gè)三元組,如果以這種方式添加,將會(huì)污染KG。
- 將三元組映射到KG中唯一標(biāo)識(shí)的實(shí)體的唯一方法:
- 是通過實(shí)體鏈接(NED)方法進(jìn)行后處理(Shen等,2015)或
- 通過聚類(Gal′arraga等,2014)。
2.2 Entity-aware Relation Extraction
- 受Brin(1998)的啟發(fā),最先進(jìn)的方法通過利用來自現(xiàn)有KG的種子事實(shí)來進(jìn)行遠(yuǎn)程監(jiān)督(
- Mintz等,2009;
- Suchanek等,2009;
- Carlson等,2010)。
- 這些方法從種子事實(shí)中學(xué)習(xí)提取模式,將這些模式應(yīng)用于提取新事實(shí)候選者,迭代該原理,最后使用統(tǒng)計(jì)推斷(例如分類器)來減少誤報(bào)率。
- 這些方法中的某些方法基于這樣一個(gè)假設(shè),即在同一句子中種子事實(shí)的實(shí)體的同時(shí)出現(xiàn)是表達(dá)實(shí)體之間語義關(guān)系的指標(biāo)。這是標(biāo)記錯(cuò)誤的潛在原因。
- 后續(xù)研究(Hoffmann等人,2010; Riedel等人,2010,2013; Surdeanu等人,2012)通過各種方式克服了這一局限性,包括
- 使用特定于關(guān)系的詞典和潛在因子模型。
- 盡管如此,這些方法仍通過實(shí)體的表面形式來處理實(shí)體,而忽略了它們到KG中現(xiàn)有實(shí)體的映射。
- Suchanek等。 (2009)和Sa等。 (2017)
- 使用概率邏輯推論來消除誤報(bào),分別
- 基于約束解決方案或
- 概率圖形模型的蒙特卡洛采樣。
- 這些方法將實(shí)體鏈接(即NED)集成到其模型中。
- 但是,:
- 兩者都具有很高的計(jì)算復(fù)雜度,
- 并且都依賴于建模約束和適當(dāng)?shù)南闰?yàn)條件。
- 最近的研究使用神經(jīng)網(wǎng)絡(luò)來學(xué)習(xí)三元組的提取。
- Nguyen和Grish man(2015)提出了具有多尺寸窗口內(nèi)核的卷積網(wǎng)絡(luò)。
- Zeng等。 (2015年)提出了分段卷積神經(jīng)網(wǎng)絡(luò)(PCNN)。
- Lin等。 (2016,2017)通過提出PCNN并在句子層面給予ATTENTION來改進(jìn)這種方法。
- 這種方法在實(shí)驗(yàn)研究中效果最好;
- 因此,我們選擇它作為我們比較方法的主要基準(zhǔn)。后
- 續(xù)研究考慮了進(jìn)一步的變化:
- Zhou等。 (2018)提出了層次注意,
- Ji等。 (2017)合并了實(shí)體描述,
- Miwa和Bansal(2016)合并了語法功能,
- Sorokin和Gurevych(2017)使用了背景知識(shí)進(jìn)行語境化。
- 這些模型都不適合于KG enrichment, 因?yàn)槎紱]有實(shí)體規(guī)范化
3.提出的模型
3.1 Solution Framework
- 三個(gè)模塊
- data collection module,
- 在數(shù)據(jù)收集模塊中(在第3.2節(jié)中詳細(xì)介紹),
- 我們將現(xiàn)有知識(shí)庫(kù)中的已知三元組與包含文本語料庫(kù)中此類三元組的句子對(duì)齊。
- 對(duì)齊的句子和三元組對(duì)將在以后的神經(jīng)關(guān)系提取模塊中用作訓(xùn)練數(shù)據(jù)。
- 這種協(xié)調(diào)是通過遠(yuǎn)程監(jiān)督來完成的。
- 為了獲得大量高質(zhì)量的比對(duì),
- 我們使用共指消解擴(kuò)展了處理過程,
- 以提取具有隱式實(shí)體名稱的句子,
- 從而擴(kuò)大了要對(duì)齊的候選句子的集合。
- 我們進(jìn)一步使用基于字典的釋義檢測(cè)來過濾不表達(dá)實(shí)體之間任何關(guān)系的句子。
- 我們使用共指消解擴(kuò)展了處理過程,
- embedding module
- 在嵌入模塊(在第3.3節(jié)中有詳細(xì)介紹)中,
- 我們提出了一種結(jié)合詞skip-gram和實(shí)體嵌入的聯(lián)合學(xué)習(xí)方法(Mikolov等,2013)
- 以skip-gram計(jì)算詞嵌入
- 以TransE(Bordes等,2013),計(jì)算實(shí)體嵌入。
- 聯(lián)合學(xué)習(xí)的目的是捕獲單詞和實(shí)體的相似性,以幫助將實(shí)體名稱映射到相關(guān)的實(shí)體ID。
- 此外,結(jié)果實(shí)體嵌入用于訓(xùn)練三元組分類器,
- 以幫助過濾由我們的神經(jīng)關(guān)系提取模型生成的無效三元組。
- neural relation extraction module.
- 在神經(jīng)關(guān)系提取模塊(在第3.4節(jié)中有詳細(xì)介紹)中,
- 我們通過將注意力機(jī)制擴(kuò)展到句子的n-gram標(biāo)記,
- 提出了一個(gè)基于n-gram的注意力模型。
- ngram注意會(huì)計(jì)算注意權(quán)重的n-gram組合,以捕獲補(bǔ)充標(biāo)準(zhǔn)注意模型的單詞級(jí)別注意的語言或名詞短語上下文。
- 這種擴(kuò)展有助于我們的模型更好地捕獲實(shí)體和關(guān)系的多詞上下文。
- 編碼器-解碼器模型的輸出是實(shí)體和謂詞ID的序列,其中每三個(gè)ID表示一個(gè)三元組。
- 為了生成高質(zhì)量的三元組,我們提出了兩種策略。
- 第一種策略使用改進(jìn)的波束搜索,
- 該算法計(jì)算提取的實(shí)體與輸入句子中實(shí)體名稱的表面形式的詞匯相似度,以確保正確的實(shí)體預(yù)測(cè)。
- 第二種策略使用三元分類器,該分類器使用來自聯(lián)合學(xué)習(xí)的實(shí)體嵌入進(jìn)行訓(xùn)練,以過濾無效的三元組。第3.5節(jié)詳細(xì)介紹了三重生成過程
- 第一種策略使用改進(jìn)的波束搜索,
- 為了生成高質(zhì)量的三元組,我們提出了兩種策略。
- 在神經(jīng)關(guān)系提取模塊(在第3.4節(jié)中有詳細(xì)介紹)中,
- data collection module,
3.1 data collection module
- 我們的目的:通過提出監(jiān)督關(guān)系提取模型,從句子中提取三元組以豐富知識(shí)庫(kù)。
* 為了訓(xùn)練這樣的模型,我們需要大量的帶有完整標(biāo)簽的訓(xùn)練數(shù)據(jù),這些數(shù)據(jù)以句子-三元組對(duì)的形式出現(xiàn)。
* 根據(jù)Sorokin和Gurevych(2017)的研究,我們使用遠(yuǎn)距離監(jiān)督(Mintz等,2009)將Wikipedia中的句子與Wikidata中的三元組對(duì)齊(Vrandecic和Kr?otzsch,2014)。 - 將實(shí)體-KB條目對(duì)應(yīng)
- 我們通過與實(shí)體提及相關(guān)聯(lián)的超鏈接將句子中的實(shí)體提及映射到Wikidata中的相應(yīng)實(shí)體條目(即Wikidata ID),
* 該超鏈接記錄在Wikidata中作為實(shí)體條目的url屬性。 - 每對(duì)可能包含一個(gè)句子和多個(gè)三元組。
- 我們根據(jù)表示句子中實(shí)體之間關(guān)系的謂詞復(fù)述順序?qū)θM的順序進(jìn)行排序。
- 我們通過提取包含Wikidata三元組的頭和尾實(shí)體的句子來收集句子三對(duì)。
- 為了生成高質(zhì)量的句子三元組對(duì),我們提出了兩個(gè)附加步驟:
* (1)使用共指消解來提取包含隱式實(shí)體名稱的句子,以及
* (2)使用 paraphrase detection過濾不表達(dá)任何關(guān)系的句子。
- 我們通過與實(shí)體提及相關(guān)聯(lián)的超鏈接將句子中的實(shí)體提及映射到Wikidata中的相應(yīng)實(shí)體條目(即Wikidata ID),
- 實(shí)體與知識(shí)庫(kù)對(duì)應(yīng)
- 方法:遠(yuǎn)程監(jiān)督
- 連接:超鏈接
- 增強(qiáng):
- 共指消解:提取包含隱式實(shí)體名的句子
- 可以增加候選句子數(shù)量
- 將提取的mention換成適當(dāng)?shù)膶?shí)體名稱
- 啟發(fā)式:
- wikipedia中,文章段落第一句可能包含代詞
- 將代詞–>wikipedia的對(duì)應(yīng)主要是替名稱
- 直覺,他應(yīng)該與主要實(shí)體有關(guān)。
- a dictionary based paraphrase detection:去除不表達(dá)任何關(guān)系的句子。
- 一個(gè)關(guān)系,可能有多種表達(dá),將這些表達(dá)放入到字典中,
- 如果句子中包含這些表達(dá),則保留;否則移除。
- 但移除的句子,也可能包含其他關(guān)系的表達(dá)—在其他包中保留。
- 共指消解:提取包含隱式實(shí)體名的句子
在將句子與三元組對(duì)齊之前,在步驟(1)中,我們發(fā)現(xiàn)隱式實(shí)體名稱以增加要對(duì)齊的候選句子的數(shù)量。我們將共同引用解析(Clark和Manning,2016)應(yīng)用于維基百科文章中的每個(gè)段落,并將提取的共同引用替換為適當(dāng)?shù)膶?shí)體名稱。我們觀察到,維基百科文章中段落的第一句可能包含代名詞,指代主要實(shí)體。例如,巴拉克·奧巴馬(Barack Obama)文章中有一個(gè)段落以一個(gè)句子"He was reelected to the Illinois Senate in 1998".開頭。這可能會(huì)導(dǎo)致標(biāo)準(zhǔn)的共同引用解析丟失該段落其余部分的隱式實(shí)體名稱。為了解決此問題,如果未提及Wikipedia頁(yè)面的主要實(shí)體名稱,我們會(huì)試探性地替換段落第一句中的代詞。對(duì)于前面示例中的句子,我們將"He"–>“Barack Obama”。直覺是,Wikipedia文章包含單個(gè)感興趣實(shí)體的內(nèi)容,并且段落第一句中提到的代詞大多與主要實(shí)體有關(guān)。
在步驟(2)中,我們使用基于字典的復(fù)述檢測(cè)來捕獲句子中實(shí)體之間的關(guān)系。首先,我們通過填充三個(gè)來源的謂詞復(fù)述來創(chuàng)建字典,包括PATTY(Nakashole等,2012),POLY(Grycner和Weikum,2016)和PPDB(Ganitkevitch等,2013),產(chǎn)生540個(gè)謂詞和24013個(gè)獨(dú)特的釋義。
eg:“出生地” {出生于,出生于……}。然后,我們使用該詞典過濾不表達(dá)實(shí)體之間任何關(guān)系的句子。我們使用精確的字符串匹配來查找句子中的語言或名詞短語,這是三元組謂詞的復(fù)述。例如,對(duì)于三胞胎“巴拉克·奧巴馬(Barack Obama)出生地檀香山”,句子“巴拉克·奧巴馬(Barack Obama)1961年出生于夏威夷檀香山Honolulu”將保留,而句子“巴拉克·奧巴馬(Barack Obama)在2010年訪問檀香山Honolulu”將被刪除(如果還有另一個(gè)有效的三元組<Barack Obama, visited, Honolulu>,可以保留該句子。這有助于過濾噪聲以使句子三重對(duì)齊。
3.3 Joint Learning of Word and Entity Embeddings
我們的關(guān)系提取模型基于編碼器-解碼器框架,該框架已在神經(jīng)機(jī)器翻譯中廣泛用于將文本從一種語言翻譯為另一種語言。在我們的設(shè)置中,我們旨在將一個(gè)句子翻譯成三元組,因此源輸入的詞匯是一組英語單詞,而目標(biāo)輸出的詞匯是現(xiàn)有KG中的一組實(shí)體和謂詞ID。為了計(jì)算源詞匯表和目標(biāo)詞匯表的嵌入,我們提出了單詞和實(shí)體嵌入的聯(lián)合學(xué)習(xí)方法,該方法可有效捕獲單詞和實(shí)體之間的相似性,以消除命名實(shí)體的歧義(Yamada et al。,2016)。請(qǐng)注意,我們的方法不同于Yamada等人的方法。 (2016)。我們使用聯(lián)合學(xué)習(xí)的方法是結(jié)合skip-gram(Mikolov等人,2013)來計(jì)算單詞嵌入和使用TransE(Bordes等人,2013)來計(jì)算實(shí)體嵌入(包括關(guān)系嵌入),而Yamada等人(2016)使用不考慮關(guān)系嵌入的基于維基百科基于鏈接的度量(WLM)(Milne and Witten,2008)。
- 目的:句子–>三元組
- 框架:encoder-decoder的翻譯框架
- 輸入詞表:英語單詞
- 輸出詞表:KG中的一組實(shí)體和謂詞ID
- 提出的方法:Joint Learning of Word and Entity Embeddings
- 效果:捕獲單詞和實(shí)體之間的相似性,可以消除命名實(shí)體的歧義
- 做法:
- skip-gram:計(jì)算單詞嵌入
- Anchor Context Model
- 輸入:
- 原始文本
- 經(jīng)過修改的wikipeidia錨文本
- 將句子中的實(shí)體名稱用相關(guān)的實(shí)體或謂詞ID替換
- “New York University is a private university in Manhattan”
- “Q49210 is a Q902104 in Q11299”
- 將句子中的實(shí)體名稱用相關(guān)的實(shí)體或謂詞ID替換
- 結(jié)合生成文本語料庫(kù)
- 方法:用skip-gram計(jì)算(把ID一起當(dāng)做單詞計(jì)算)
- 輸入:
- Anchor Context Model
- TransE:計(jì)算實(shí)體嵌入(包含關(guān)系嵌入
- skip-gram:計(jì)算單詞嵌入
- 區(qū)別:
- (Yamada et al。,2016):WLM方法,不考慮關(guān)系嵌入
- 目標(biāo)函數(shù):
- JE=Σtr∈TrΣtr′∈Tr′max(0,[γ+f(tr)?f(tr′)])Tr={<h,r,t>∣<h,r,t>∈G}??有效的Tr′={<h′,r,t>∣h′∈E}∪{<h,r,t′>∣t′∈E}??反例f(tr)=∣∣h+r?t∣∣??l1?normJ_E=\Sigma_{t_r\in T_r}\Sigma_{t'_r\in T'_r} max(0,[\gamma+f(t_r)-f(t_r')])\\ T_r=\{<h,r,t>|<h,r,t>\in G\}--有效的\\ T_r'=\{<h',r,t>|h'\in E\} \cup \{<h,r,t'>|t'\in E\}--反例\\ f(t_r)=||h+r-t||--l1-normJE?=Σtr?∈Tr??Σtr′?∈Tr′??max(0,[γ+f(tr?)?f(tr′?)])Tr?={<h,r,t>∣<h,r,t>∈G}??有效的Tr′?={<h′,r,t>∣h′∈E}∪{<h,r,t′>∣t′∈E}??反例f(tr?)=∣∣h+r?t∣∣??l1?norm
- 趨向于是正例和反例的差別增大
- JW=1TΣt=1nΣ?c≤j≤c,j≠0logP(wt+j∣wt)P(wt+j∣wt)=exp(vwt+j′Tvwt)Σi=1W(vi′Tvwt)c?上下文窗口尺寸wt目標(biāo)詞wt+j上下文vwt輸入向量vi′輸出向量W?vocabularysizeJ_W=\frac{1}{T}\Sigma_{t=1}^n\Sigma_{-c\leq j\leq c,j\neq 0} logP(w_{t+j}|w_t)\\ P(w_{t+j}|w_t)=\frac{exp(v_{w_{t+j}}^{'T }v_{w_t})}{\Sigma_{i=1}^W(v_i^{'T}v_{w_t})}\\ c-上下文窗口尺寸\\w_t目標(biāo)詞\\w_{t+j}上下文\\v_{w_t}輸入向量\\v_i'輸出向量\\W-vocabulary sizeJW?=T1?Σt=1n?Σ?c≤j≤c,j?=0?logP(wt+j?∣wt?)P(wt+j?∣wt?)=Σi=1W?(vi′T?vwt??)exp(vwt+j?′T?vwt??)?c?上下文窗口尺寸wt?目標(biāo)詞wt+j?上下文vwt??輸入向量vi′?輸出向量W?vocabularysize
- 整體的目標(biāo)函數(shù):J=JE+JWJ=J_E+J_WJ=JE?+JW?
- JE=Σtr∈TrΣtr′∈Tr′max(0,[γ+f(tr)?f(tr′)])Tr={<h,r,t>∣<h,r,t>∈G}??有效的Tr′={<h′,r,t>∣h′∈E}∪{<h,r,t′>∣t′∈E}??反例f(tr)=∣∣h+r?t∣∣??l1?normJ_E=\Sigma_{t_r\in T_r}\Sigma_{t'_r\in T'_r} max(0,[\gamma+f(t_r)-f(t_r')])\\ T_r=\{<h,r,t>|<h,r,t>\in G\}--有效的\\ T_r'=\{<h',r,t>|h'\in E\} \cup \{<h,r,t'>|t'\in E\}--反例\\ f(t_r)=||h+r-t||--l1-normJE?=Σtr?∈Tr??Σtr′?∈Tr′??max(0,[γ+f(tr?)?f(tr′?)])Tr?={<h,r,t>∣<h,r,t>∈G}??有效的Tr′?={<h′,r,t>∣h′∈E}∪{<h,r,t′>∣t′∈E}??反例f(tr?)=∣∣h+r?t∣∣??l1?norm
為了建立實(shí)體和單詞嵌入之間的交互作用,我們遵循Yamada等人提出的Anchor Context Model。 (2016)。首先,我們通過結(jié)合原始文本和經(jīng)過修改的Wikipedia錨文本來生成文本語料庫(kù)。這是通過用相關(guān)的實(shí)體或謂詞ID替換句子中的實(shí)體名稱來完成的。例如,將該句子修改為。然后,我們使用skip-gram方法從生成的語料庫(kù)中計(jì)算單詞嵌入(修改后的錨文本中的實(shí)體ID在skip-gram模型中被視為單詞)。給定一個(gè)n個(gè)單詞的序列,該模型通過最小化以下目標(biāo)函數(shù)來學(xué)習(xí)單詞嵌入:
3.4 N-gram Based Attention Model
- encoder-decoder
- 輸入:句子
- 輸出:三元組序列(實(shí)體ID,關(guān)系ID的序列,每三個(gè)是一個(gè)三元組)
- encoder:
- 輸入:句子
- 輸出:向量
- 使用:LSTM
- decoder:
- 輸入:向量–作為上下文
- 輸出:三元組序列
- 使用:LSTM
- attention:
- 用于re任務(wù),無法捕捉多字實(shí)體名稱
- 原因:實(shí)體和單詞不對(duì)齊(初步調(diào)查)
- 即使前文以ID代替實(shí)體也不可消除
- 解決:N-gram Based Attention Model
- 根據(jù)詞嵌入的n元語法組合計(jì)算注意權(quán)重
- ctd=[he;Σn=1∣N∣Wn(Σi=1∣Xn∣αinxin)]???上下文向量he:encoder的隱層輸出αin=exp(heTVnxin)Σj=1∣Xn∣exp(heTVnxjn)∣Xn∣:?gram的令牌組合總數(shù)W,V??參數(shù)矩陣c_t^d=[h^e;\Sigma_{n=1}^{|N|}W^n(\Sigma_{i=1}^{|X^n|}\alpha_i^nx_i^n)]---上下文向量\\ h^e:encoder的隱層輸出\\ \alpha_i^n=\frac{exp(h^{eT}V^nx_i^n)}{\Sigma_{j=1}^{|X^n|}exp(h^{eT}V^nx_j^n)}\\ |X^n|:-gram的令牌組合總數(shù)\\ W,V--參數(shù)矩陣ctd?=[he;Σn=1∣N∣?Wn(Σi=1∣Xn∣?αin?xin?)]???上下文向量he:encoder的隱層輸出αin?=Σj=1∣Xn∣?exp(heTVnxjn?)exp(heTVnxin?)?∣Xn∣:?gram的令牌組合總數(shù)W,V??參數(shù)矩陣
訓(xùn)練
- 在訓(xùn)練階段
- 使用句子-三元組對(duì)輸入
- 還用<實(shí)體名,實(shí)體id>對(duì)輸入
- 這允許模型學(xué)習(xí)實(shí)體名稱和實(shí)體ID之間的映射,尤其是對(duì)于看不見的實(shí)體。
我們提出的關(guān)系提取模型以端到端的方式集成了KB富集的提取和規(guī)范化任務(wù)。為了構(gòu)建這樣的模型,我們采用編碼器-解碼器模型(Cho等人,2014)將句子翻譯成三元組序列。編碼器將句子編碼為向量,解碼器將其用作上下文以生成三元組序列。因?yàn)槲覀儗⑤斎牒洼敵鲆暈橐粋€(gè)序列,所以我們?cè)诰幋a器和解碼器中使用LSTM網(wǎng)絡(luò)(Hochreiter和Schmidhuber,1997)。
具有注意力模型的編碼器/解碼器(Bahdanau等人,2015)已??用于機(jī)器翻譯中。但是,在關(guān)系提取任務(wù)中,注意力模型無法捕獲多字實(shí)體名稱。在我們的初步調(diào)查中,我們發(fā)現(xiàn)注意模型在單詞和實(shí)體之間產(chǎn)生了不對(duì)齊的情況。
上面的問題是由于不同實(shí)體的名稱中的單詞相同(例如,紐約大學(xué),華盛頓大學(xué)等不同大學(xué)名稱中的單詞大學(xué))。在訓(xùn)練期間,模型會(huì)更加注意“大學(xué)”一詞,以區(qū)分名稱相似的不同類型的實(shí)體,例如,紐約大學(xué),紐約時(shí)報(bào)大樓或紐約人壽大廈,但不會(huì)區(qū)分名稱不同的相同類型的實(shí)體(例如,紐約大學(xué)和華盛頓大學(xué))。這可能會(huì)導(dǎo)致實(shí)體對(duì)齊出錯(cuò),尤其是在預(yù)測(cè)不在訓(xùn)練數(shù)據(jù)中的實(shí)體的ID時(shí)。即使我們將<Entity-name, Entity-ID>對(duì)添加為訓(xùn)練數(shù)據(jù)(請(qǐng)參閱“訓(xùn)練”部分),仍然會(huì)發(fā)生對(duì)齊錯(cuò)誤。
我們通過提出一個(gè)基于n-gram的注意力模型來解決上述問題。此模型計(jì)算句子輸入的所有可能n-gram的注意力。注意權(quán)重是根據(jù)詞嵌入的n元語法組合計(jì)算的,因此,解碼器的上下文向量的計(jì)算如下。
3.5 Triple Generation
編碼器-解碼器模型的輸出是實(shí)體和謂詞ID的序列,其中每三個(gè)標(biāo)記表示一個(gè)三元組。因此,要提取一個(gè)三元組,我們只需將生成的輸出的每三個(gè)標(biāo)記分組即可。但是,由于實(shí)體嵌入(例如,紐約市和芝加哥的嵌入)之間的相似性,貪婪方法(即,選擇解碼器的最后一個(gè)softmax層中概率最高的實(shí)體)可能導(dǎo)致模型提取錯(cuò)誤的實(shí)體可能相似,因?yàn)閮烧叨际敲绹?guó)的城市)。為了解決這個(gè)問題,我們提出了兩種策略:使用經(jīng)過改進(jìn)的波束搜索對(duì)預(yù)測(cè)實(shí)體進(jìn)行重新排序,以及使用三元分類器過濾無效的三元組。
修改后的波束搜索重新排名top-k(在我們的實(shí)驗(yàn)中為10)實(shí)體ID,這些ID由解碼器通過計(jì)算實(shí)體名稱(從KB中獲得)與輸入句子的每個(gè)n-gram標(biāo)記之間的編輯距離來預(yù)測(cè)。直覺是應(yīng)在句子中提及實(shí)體名稱,以便選擇相似度最高的實(shí)體作為輸出
- encoder-decoder的輸出–>三元組
- 貪婪策略
- 策略:選softmax中概率最高的
- 缺點(diǎn):提取錯(cuò)誤的實(shí)體
- 原因:實(shí)體嵌入的相似性
- 解決
- 改進(jìn)的beam search
- 對(duì)預(yù)測(cè)實(shí)體沖排序(對(duì)top-k)
- 實(shí)體ID:
- encoder計(jì)算實(shí)體名稱(KB的)與輸入句子的每個(gè)n-gram之間的編輯距離來預(yù)測(cè)
- 直覺:句子中的entity mention,則輸出對(duì)應(yīng)的entity(相似度也應(yīng)是最高的)
- 三元組分類器
- 過濾掉無效的三元組
- 我們的三元組分類器接受了來自聯(lián)合學(xué)習(xí)的實(shí)體嵌入訓(xùn)練(請(qǐng)參見第3.3節(jié))。
- 三元組分類是評(píng)估實(shí)體嵌入質(zhì)量的指標(biāo)之一(Socher等,2013)。
- 我們建立一個(gè)分類器來確定三元組的有效性。
- 我們根據(jù)合理性分?jǐn)?shù)(計(jì)算實(shí)體嵌入的分?jǐn)?shù))訓(xùn)練二元分類器。
- 我們通過破壞有效的三元組(即用隨機(jī)實(shí)體替換首尾實(shí)體)來創(chuàng)建否定樣本。
- 因而,三元組分類器可有效過濾無效的三元組,例如<New York University, capital of, Manhattan>
- 過濾掉無效的三元組
- 改進(jìn)的beam search
- 貪婪策略
4.實(shí)驗(yàn)
- 數(shù)據(jù)集
- WIKI
- GEO
4.1 超參數(shù)
- 尋找超參數(shù):grid search
- lstm unit:512
- embedding-dim:64
- dropout:0.5
- adam,lr=0.0002
4.2 models
- 對(duì)比
- CNN (the state-of-theart supervised approach by Lin et al. (2016)),
- MiniE (the state-of-the-art unsupervised approach by Gashteovski et al. (2017)),
- ClausIE by Corro and Gemulla (2013).
- NED:
- AIDA (Hoffart et al., 2011)
- NeuralEL (Kolitsas et al., 2018)
- the dictionary based paraphrase detection:
- 映射謂詞–>關(guān)系
- 和之前說的一樣的詞典
- 如果正確謂詞的釋義之一出現(xiàn)在抽取的謂詞中,則用id替換它。
- 否則,記為NA
- 注意力的比較
- he Single Attention model (Bahdanau et al., 2015)
- Transformer model (Vaswani et al., 2017).
我們將我們提出的模型3與三個(gè)現(xiàn)有模型進(jìn)行了比較,包括CNN(Lin等人(2016)的最新監(jiān)督方法),MiniE(Gashteovski等人的最新的無監(jiān)督方法(2017))。 ),以及Corro和Gemulla(2013)的ClausIE。為了通過這些模型映射提取的實(shí)體,我們使用了兩個(gè)最新的NED系統(tǒng),包括AIDA(Hoffart等,2011)和NeuralEL(Kolitsas等,2018)。 AIDA和NeuralEL的精度(在我們的測(cè)試數(shù)據(jù)集中測(cè)試)分別為70%和61%。為了映射無監(jiān)督方法輸出的提取謂詞(關(guān)系),我們使用基于字典的釋義檢測(cè)。我們使用用于收集數(shù)據(jù)集的同一詞典(即,三個(gè)釋義詞典的組合,包括PATTY(Nakashole等,2012),POLY(Grycner和Weikum,2016)和PPDB(Ganitkevitch等,2013)。 ))。如果正確謂詞的釋義之一(即黃金標(biāo)準(zhǔn))出現(xiàn)在抽取謂詞中,則我們用正確謂詞ID替換抽取謂詞。否則,我們將提取的謂詞替換為表示無法識(shí)別的謂詞。我們還將N-gram注意模型與兩個(gè)基于編碼器/解碼器的模型進(jìn)行比較,包括單注意模型(Bahdanau等,2015)和變形模型(Vaswani等,2017)。
4.3 results
- 本文模型效果最好
- 已經(jīng)存在的模型+NED
- NED效果好的就好
- 證明它受NED錯(cuò)誤傳播的影響大
- 無規(guī)范化任務(wù)的情況下:
- 已經(jīng)存在的模型的精度挺好
- 可以捕獲多詞實(shí)體名稱
- 因?yàn)楸萻ingle-attention和transformer好
- 三元組分類器可以提升precision
- 改進(jìn)的beam search可以提升recall
- 無法做到:識(shí)別來自不同實(shí)體的相同名稱
為了進(jìn)一步顯示錯(cuò)誤傳播的影響,我們建立了一個(gè)沒有規(guī)范化任務(wù)的實(shí)驗(yàn)(即目標(biāo)是預(yù)測(cè)已知實(shí)體之間的關(guān)系)。通過允許CNN模型訪問正確的實(shí)體,我們刪除了NED預(yù)處理步驟。同時(shí),我們向我們提出的模型的解碼器提供正確的實(shí)體。在這種設(shè)置下,我們提出的模型在WIKI和GEO測(cè)試數(shù)據(jù)集上的精度分別達(dá)到86.34%和79.11%,而CNN的精度分別達(dá)到81.92%和75.82%。
5.總結(jié)
我們?yōu)镵B富集提出了端到端關(guān)系提取模型,該模型集成了提取和規(guī)范化任務(wù)。因此,我們的模型減少了關(guān)系提取和現(xiàn)有方法容易發(fā)生的NED之間的錯(cuò)誤傳播。為了獲得高質(zhì)量的訓(xùn)練數(shù)據(jù),我們采用了遠(yuǎn)程監(jiān)控,并通過共參考分辨率和復(fù)述檢測(cè)對(duì)其進(jìn)行了增強(qiáng)。我們提出了一種基于n元語法的注意力模型,該模型可以更好地捕獲句子中的多詞實(shí)體名稱。此外,我們提出了一種改進(jìn)的波束搜索和三重分類,以幫助模型生成高質(zhì)量的三重。
實(shí)驗(yàn)結(jié)果表明,我們提出的模型在WIKI和GEO測(cè)試數(shù)據(jù)集上的F1評(píng)分分別優(yōu)于現(xiàn)有模型33.39%和34.78%。這些結(jié)果證明我們的模型減少了NED和關(guān)系提取之間的誤差傳播。在兩個(gè)真實(shí)數(shù)據(jù)集上,我們提出的n-gram注意模型在F1得分方面分別優(yōu)于其他編碼器-解碼器模型15.51%和8.38%。這些結(jié)果證明我們的模型可以更好地捕獲句子中的多詞實(shí)體名稱。將來,我們計(jì)劃探索基于上下文的相似性,以補(bǔ)充詞法相似性,以提高整體性能
- 需要的改進(jìn):
- 同名的不同實(shí)體的處理
- 計(jì)劃探索基于上下文的相似性,以補(bǔ)充詞法相似性,以提高整體性能
總結(jié)
以上是生活随笔為你收集整理的文献阅读课10-Neural Relation Extraction for Knowledge Base Enrichment(提取+嵌入+消歧+规范化联合模型,实体已知,仅关系抽取,多词实体)的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 头插法和尾插法创建链表(有无头结点)
- 下一篇: 基于小样本学习的图像分类技术综述