當(dāng)前位置：首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

文献阅读课10-Neural Relation Extraction for Knowledge Base Enrichment(提取+嵌入+消歧+规范化联合模型，实体已知，仅关系抽取，多词实体)

發(fā)布時(shí)間：2024/7/5 编程问答 45 豆豆

生活随笔收集整理的這篇文章主要介紹了文献阅读课10-Neural Relation Extraction for Knowledge Base Enrichment(提取+嵌入+消歧+规范化联合模型，实体已知，仅关系抽取，多词实体) 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

文章目錄

Abstract
1.Introduction
2. 相關(guān)工作
- 2.2 Entity-aware Relation Extraction
3.提出的模型
- 3.1 Solution Framework
- 3.1 data collection module
- 3.3 Joint Learning of Word and Entity Embeddings
- 3.4 N-gram Based Attention Model
- - 訓(xùn)練
- 3.5 Triple Generation
4.實(shí)驗(yàn)
- 4.1 超參數(shù)
- 4.2 models
- 4.3 results
5.總結(jié)

Trisedya, B. D., et al. (2019). Neural Relation Extraction for Knowledge Base Enrichment. Proceedings ofthe 57th Annual Meeting ofthe Association for Computational Linguistics: 229–240.
code

Abstract

我們研究知識(shí)庫(kù)（KB）豐富化的關(guān)系提取。具體來說，我們旨在以三元組的形式從句子中提取實(shí)體及其關(guān)系，并以端到端的方式將提取的三元組的元素映射到現(xiàn)有的知識(shí)庫(kù)。先前的研究集中于提取本身，并依靠命名實(shí)體消歧（NED）將三元組映射到KB空間。這樣，NED錯(cuò)誤可能會(huì)導(dǎo)致提取錯(cuò)誤，從而影響整體精度和召回率。為了解決這個(gè)問題，我們提出了一種基于神經(jīng)編碼器-解碼器模型的知識(shí)庫(kù)豐富的端到端關(guān)系提取模型。我們通過遠(yuǎn)程監(jiān)控與共參考分辨率和復(fù)述檢測(cè)來收集高質(zhì)量的培訓(xùn)數(shù)據(jù)。我們提出了一種基于n元語法的注意力模型，該模型捕獲句子中的多詞實(shí)體名稱。我們的模型采用共同學(xué)習(xí)的單詞和實(shí)體嵌入來支持命名實(shí)體消歧。最后，我們的模型使用改進(jìn)的波束搜索和三重分類器來幫助生成高質(zhì)量的三重。就兩個(gè)真實(shí)數(shù)據(jù)集的F1得分而言，我們的模型分別比最新基準(zhǔn)高出15.51％和8.38％。

豐富KB
- 原先：提取關(guān)系/實(shí)體–>消歧來映射到KB
  - 實(shí)體消歧的錯(cuò)誤會(huì)導(dǎo)致提取錯(cuò)誤，從而影響整體的精度和召回率
- 本文：n-gram based attention model that captures multi-word entity names in a sentence.
  - 提取+嵌入+消歧聯(lián)合模型
  - 改進(jìn)的beam search
  - 三元組 classifier

1.Introduction

知識(shí)庫(kù)（KBs）通常以知識(shí)圖（KGs）的形式出現(xiàn)，已成為許多任務(wù)中必不可少的資源，包括問答系統(tǒng)，推薦系統(tǒng)和自然語言生成。大型KB，例如DBpedia（Auer等，2007），Wikidata（Vrandecic和Krotzsch，2014）和Yago（Suchanek等，2007）包含數(shù)以百萬計(jì)的有關(guān)實(shí)體的事實(shí)，它們以主題的形式表示。謂語-賓語三元組。但是，這些知識(shí)庫(kù)遠(yuǎn)非完整，需要不斷地進(jìn)行豐富和管理。

大型KB
- DBpedia（Auer等，2007），
- Wikidata（Vrandecic和Krotzsch，2014）和
- Yago（Suchanek等，2007）
- 知識(shí)多但不完整，需要不斷地豐富和管理
以前的研究工作–豐富知識(shí)基礎(chǔ)
- 基于嵌入的模型（Nguyen等人，2018; Wang等人，2015）
- 實(shí)體對(duì)齊模型（Chen等人，2017; Sun等人，2017; Trisedya等人，2019）。
- 無監(jiān)督方法
  - 一小組手動(dòng)定義的提取模式開始，以檢測(cè)實(shí)體名稱和有關(guān)輸入文本中關(guān)系的短語。
  - 這種范例被稱為開放信息提取（Open IE）（Banko等，2007; Corro and Gemulla，2013; Gashteovski等，2017）。
  - 在這一系列方法中，實(shí)體和謂詞均以其表面形式捕獲而無需規(guī)范化。
- 監(jiān)督方法：
  - 訓(xùn)練統(tǒng)計(jì)和神經(jīng)模型來推斷句子中兩個(gè)已知實(shí)體之間的關(guān)系
    - （Mintz等，2009;
    - Riedel等，2010,2013;
    - Zeng等，2015;
    - Lin等，2016）。
    - 這些研究大多數(shù)采用預(yù)處理步驟來識(shí)別實(shí)體。
  - 只有很少的研究通過對(duì)現(xiàn)有KB進(jìn)行邏輯推理來消除提取的實(shí)體的歧義，將提取的三元組映射完全整合到唯一標(biāo)識(shí)的KB實(shí)體中
    - （例如（Suchanek等人，2009;
    - Sa等人，2017）。
- 多將實(shí)體消歧NED作為單獨(dú)的一步：
  - 缺點(diǎn)：實(shí)體消歧的錯(cuò)誤傳播，導(dǎo)致錯(cuò)誤的關(guān)系被添加
本文工作
- 繼序列到序列架構(gòu)（Bahdanau et al。，2015）成功用于從結(jié)構(gòu)化數(shù)據(jù)生成句子（Marcheggiani和Perez-Beltrachini，2018; Trisedya et al。，2018）之后，我們采用這種架構(gòu)進(jìn)行相反的工作，也就是從句子中提取三元組。
- 輸入:句子
- 輸出：三元組
- 應(yīng)用情景：h，t為KB中已有實(shí)體，r為關(guān)系列表中的關(guān)系，<h,r,t>不存在于KB中
- 目的：發(fā)現(xiàn)h,t中更多的關(guān)系
- 要求：三元組中的關(guān)系，實(shí)體要規(guī)范，可以映射到KB中對(duì)應(yīng)的ID上
- 提取+嵌入+消歧（規(guī)范化）–從句子到KB的端到端
- 架構(gòu)：encoder-decoder的translation model
  - 標(biāo)準(zhǔn)的encoder-decoder無法處理多詞實(shí)體/謂詞
  - n-gram attention–得到單詞級(jí)的信息
    - 基于n-gram的注意力形式，該形式可以計(jì)算注意力權(quán)重的ngram組合來捕獲語音或名詞短語上下文，從而補(bǔ)充標(biāo)準(zhǔn)注意力模型的單詞級(jí)注意力。
    - 因此，我們的模型可以更好地捕獲實(shí)體和關(guān)系的多詞上下文。
  - pre-train
    - 單詞：skip gram
    - 嵌入：TransE
- 優(yōu)點(diǎn)：
  - 首先，嵌入捕獲可單詞和實(shí)體之間的關(guān)系，這對(duì)于命名實(shí)體消除歧義至關(guān)重要。
  - 其次，實(shí)體嵌入保留了實(shí)體之間的關(guān)系，這有助于建立一個(gè)高度準(zhǔn)確的分類器來過濾無效的提取的三元組。
- 數(shù)據(jù)不足：遠(yuǎn)程監(jiān)督
  - 為了解決缺少完全標(biāo)記的訓(xùn)練數(shù)據(jù)的問題，我們采用了遠(yuǎn)程監(jiān)督來生成對(duì)齊的句子對(duì)和三對(duì)作為訓(xùn)練數(shù)據(jù)。
  - 增強(qiáng)
    - 我們通過co-reference resolution （Clark和Manning，2016）
      - co-reference resolution有助于提取帶有隱式實(shí)體名稱的句子，從而擴(kuò)大候選句子的集合以與KB中現(xiàn)有的三元組對(duì)齊。
    - dictionary-based paraphrase detection（Ganitkevitch等，2013； Grycner和Weikum，2016
      - 有助于過濾不表達(dá)實(shí)體之間任何關(guān)系的句子。
- 貢獻(xiàn)
  - 聯(lián)合關(guān)系抽取+消歧的model：該模型減少了關(guān)系提取和NED之間的錯(cuò)誤傳播，而現(xiàn)有方法則容易發(fā)生這種錯(cuò)誤傳播。
  - 基于n-gram的注意力模型：
    - 以有效地將實(shí)體及其關(guān)系的多詞提及映射到唯一標(biāo)識(shí)的實(shí)體和謂詞中。
    - 我們建議聯(lián)合學(xué)習(xí)單詞和實(shí)體嵌入，以捕獲單詞和實(shí)體之間的關(guān)系，以消除命名實(shí)體的歧義。
    - 我們進(jìn)一步提出一種改進(jìn)的波束搜索和三元組分類器，以生成高質(zhì)量的三元組。
  - 我們?cè)趦蓚€(gè)真實(shí)世界的數(shù)據(jù)集上評(píng)估提出的模型。
    - 我們將遠(yuǎn)程監(jiān)控與co-reference resolution和dictionary-based paraphrase detection相結(jié)合，以獲取高質(zhì)量的訓(xùn)練數(shù)據(jù)。
    - 實(shí)驗(yàn)結(jié)果表明，我們的模型始終優(yōu)于神經(jīng)關(guān)系提取（Lin等人，2016）和最新的NED模型（Hoffart等人，2011; Kolitsas等人，2018）的強(qiáng)大基線。

在本文中，我們研究如何通過文本來源中的關(guān)聯(lián)關(guān)系來豐富知識(shí)庫(kù)。具體來說，我們旨在提取形式為的三元組，其中h是頭實(shí)體，t是尾實(shí)體，r是實(shí)體之間的關(guān)系。重要的是，由于KB在實(shí)體上的覆蓋范圍通常比關(guān)系上的覆蓋范圍要好得多，因此我們假定h和t是KB中的現(xiàn)有實(shí)體，r是屬于我們感興趣的一組預(yù)先定義的謂詞的謂詞，但該關(guān)系沒有存在于KB中。我們旨在發(fā)現(xiàn)h和t之間的更多關(guān)系，并將它們添加到KB中。

KB的豐富要求通過將提取的三元組的實(shí)體和關(guān)系映射到其適當(dāng)?shù)膶?shí)體和KB中的謂詞ID來規(guī)范化它們。表1示出了從句子中提取的三元組的示例。提取的第一個(gè)三元組的實(shí)體和謂詞（包括NYU，實(shí)例大學(xué)和私立大學(xué)）分別映射到其唯一的ID Q49210，P31和Q902104，以符合KB的語義空間。

以前有關(guān)關(guān)系提取的研究都采用了無監(jiān)督和有監(jiān)督的方法。無監(jiān)督方法通常從一小組手動(dòng)定義的提取模式開始，以檢測(cè)實(shí)體名稱和有關(guān)輸入文本中關(guān)系的短語。這種范例被稱為開放信息提取（Open IE）（Banko等，2007; Corro and Gemulla，2013; Gashteovski等，2017）。在這一系列方法中，實(shí)體和謂詞均以其表面形式捕獲而無需規(guī)范化。監(jiān)督方法訓(xùn)練統(tǒng)計(jì)和神經(jīng)模型來推斷句子中兩個(gè)已知實(shí)體之間的關(guān)系（Mintz等，2009; Riedel等，2010,2013; Zeng等，2015; Lin等，2016）。這些研究大多數(shù)采用預(yù)處理步驟來識(shí)別實(shí)體。只有很少的研究通過對(duì)現(xiàn)有KB進(jìn)行邏輯推理來消除提取的實(shí)體的歧義，將提取的三元組映射完全整合到唯一標(biāo)識(shí)的KB實(shí)體中（例如（Suchanek等人，2009; Sa等人，2017）。

因此，大多數(shù)現(xiàn)有方法都需要使用命名實(shí)體消歧（NED）（請(qǐng)參閱Shen等人（2015）的調(diào)查）作為單獨(dú)的處理步驟。另外，將關(guān)系短語映射到KB謂詞上需要另一個(gè)映射步驟，通常需要借助復(fù)述詞典來進(jìn)行。這種兩階段體系結(jié)構(gòu)固有地傾向于在其兩個(gè)階段中傳播錯(cuò)誤：NED錯(cuò)誤可能會(huì)導(dǎo)致提取錯(cuò)誤（反之亦然），從而導(dǎo)致將錯(cuò)誤的關(guān)系添加到KB中。

但是，標(biāo)準(zhǔn)的編碼器-解碼器模型（Bahdanau等，2015）無法捕獲表示謂詞的多詞實(shí)體名稱和口頭或名詞短語。為了解決這個(gè)問題，我們提出了一種新穎的基于n-gram的注意力形式，該形式可以計(jì)算注意力權(quán)重的ngram組合來捕獲語音或名詞短語上下文，從而補(bǔ)充標(biāo)準(zhǔn)注意力模型的單詞級(jí)注意力。因此，我們的模型可以更好地捕獲實(shí)體和關(guān)系的多詞上下文。我們的模型利用了預(yù)訓(xùn)練的單詞和實(shí)體嵌入，它們是通過skip gram（Mikolov等，2013）和TransE（Bordes等，2013）共同學(xué)習(xí)的。我們共同學(xué)習(xí)的嵌入的優(yōu)點(diǎn)是雙重的。首先，嵌入捕獲單詞和實(shí)體之間的關(guān)系，這對(duì)于命名實(shí)體消除歧義至關(guān)重要。其次，實(shí)體嵌入保留了實(shí)體之間的關(guān)系，這有助于建立一個(gè)高度準(zhǔn)確的分類器來過濾無效的提取三元組。為了解決缺少完全標(biāo)記的訓(xùn)練數(shù)據(jù)的問題，我們采用了遠(yuǎn)程監(jiān)督來生成對(duì)齊的句子對(duì)和三對(duì)作為訓(xùn)練數(shù)據(jù)。我們通過共同引用分辨率（Clark和Manning，2016）和基于字典的釋義檢測(cè)（Ganitkevitch等，2013； Grycner和Weikum，2016）來增強(qiáng)該過程。共參考消解有助于提取帶有隱式實(shí)體名稱的句子，從而擴(kuò)大候選句子的集合以與KB中現(xiàn)有的三元組對(duì)齊。復(fù)述檢測(cè)有助于過濾不表達(dá)實(shí)體之間任何關(guān)系的句子。

2. 相關(guān)工作

Open IE:
- Banko等。（2007年）介紹了開放信息提取（Open IE）的范例，并提出了一個(gè)包括三個(gè)階段的管道：學(xué)習(xí)者，提取者和評(píng)估者。
- 學(xué)習(xí)者使用依賴項(xiàng)解析信息以無監(jiān)督的方式學(xué)習(xí)提取模式。
- 提取器通過將名詞短語識(shí)別為自變量并將連接短語識(shí)別為謂詞來生成候選三元組。
- 評(píng)估者根據(jù)統(tǒng)計(jì)證據(jù)為每個(gè)候選三元組分配一個(gè)概率。
- 缺點(diǎn)：這種方法易于提取不正確的，冗長(zhǎng)的和無意義的三元組。
（Fader等人，2011； Mausam等人，2012； Angeli等人，2015； Mausam，2016）
- 通過添加手工模式或使用遠(yuǎn)程監(jiān)督來提高Open IE的準(zhǔn)確性。
ClausIE:
- Corro and Gemulla（2013）開發(fā)了ClausIE，
- 該方法可分析句子中的從句并從該結(jié)構(gòu)中得出三元組。
MinIE:
- Gashteovski等。（2017）開發(fā)了MinIE，
- 通過使生成的三元組更加簡(jiǎn)潔來推進(jìn)ClausIE。
Stanovsky等。（2018）
- 通過將關(guān)系提取轉(zhuǎn)換為序列標(biāo)簽，
- 提出了一個(gè)Open IE的受監(jiān)督學(xué)習(xí)器。
- bi-LSTM模型經(jīng)過訓(xùn)練，可以預(yù)測(cè)輸入的每個(gè)標(biāo)記的標(biāo)簽（實(shí)體，謂詞或其他）。
與我們最相關(guān)的工作是Neural Open IE（Cui等人，2018），
- 它提出了一種具有注意力模型的編碼器/解碼器來提取三元組。
- 但是，這項(xiàng)工作并不適合于提取規(guī)范化實(shí)體的關(guān)系。
另一類研究使用神經(jīng)學(xué)習(xí)進(jìn)行語義角色標(biāo)記（He等人，2018），
- 但此處的目標(biāo)是識(shí)別單個(gè)輸入句子的謂詞-論元結(jié)構(gòu)，而不是從語料庫(kù)中提取關(guān)系。
所有這些方法都會(huì)生成三元組，其中頭和尾實(shí)體以及謂詞保持其表面形式。* 因此，相同實(shí)體的不同名稱和短語會(huì)導(dǎo)致多個(gè)三元組，如果以這種方式添加，將會(huì)污染KG。
將三元組映射到KG中唯一標(biāo)識(shí)的實(shí)體的唯一方法：
- 是通過實(shí)體鏈接（NED）方法進(jìn)行后處理（Shen等，2015）或
- 通過聚類（Gal′arraga等，2014）。

2.2 Entity-aware Relation Extraction

受Brin（1998）的啟發(fā)，最先進(jìn)的方法通過利用來自現(xiàn)有KG的種子事實(shí)來進(jìn)行遠(yuǎn)程監(jiān)督（
- Mintz等，2009；
- Suchanek等，2009；
- Carlson等，2010）。
- 這些方法從種子事實(shí)中學(xué)習(xí)提取模式，將這些模式應(yīng)用于提取新事實(shí)候選者，迭代該原理，最后使用統(tǒng)計(jì)推斷（例如分類器）來減少誤報(bào)率。
- 這些方法中的某些方法基于這樣一個(gè)假設(shè)，即在同一句子中種子事實(shí)的實(shí)體的同時(shí)出現(xiàn)是表達(dá)實(shí)體之間語義關(guān)系的指標(biāo)。這是標(biāo)記錯(cuò)誤的潛在原因。
后續(xù)研究（Hoffmann等人，2010； Riedel等人，2010，2013； Surdeanu等人，2012）通過各種方式克服了這一局限性，包括
- 使用特定于關(guān)系的詞典和潛在因子模型。
- 盡管如此，這些方法仍通過實(shí)體的表面形式來處理實(shí)體，而忽略了它們到KG中現(xiàn)有實(shí)體的映射。
- Suchanek等。（2009）和Sa等。（2017）
  - 使用概率邏輯推論來消除誤報(bào)，分別
  - 基于約束解決方案或
  - 概率圖形模型的蒙特卡洛采樣。
  - 這些方法將實(shí)體鏈接（即NED）集成到其模型中。
  - 但是，:
    - 兩者都具有很高的計(jì)算復(fù)雜度，
    - 并且都依賴于建模約束和適當(dāng)?shù)南闰?yàn)條件。
最近的研究使用神經(jīng)網(wǎng)絡(luò)來學(xué)習(xí)三元組的提取。
- Nguyen和Grish man（2015）提出了具有多尺寸窗口內(nèi)核的卷積網(wǎng)絡(luò)。
- Zeng等。（2015年）提出了分段卷積神經(jīng)網(wǎng)絡(luò)（PCNN）。
- Lin等。（2016，2017）通過提出PCNN并在句子層面給予ATTENTION來改進(jìn)這種方法。
  - 這種方法在實(shí)驗(yàn)研究中效果最好；
  - 因此，我們選擇它作為我們比較方法的主要基準(zhǔn)。后
- 續(xù)研究考慮了進(jìn)一步的變化：
- Zhou等。（2018）提出了層次注意，
- Ji等。（2017）合并了實(shí)體描述，
- Miwa和Bansal（2016）合并了語法功能，
- Sorokin和Gurevych（2017）使用了背景知識(shí)進(jìn)行語境化。
這些模型都不適合于KG enrichment，因?yàn)槎紱]有實(shí)體規(guī)范化

3.提出的模型

3.1 Solution Framework

三個(gè)模塊
- data collection module,
  - 在數(shù)據(jù)收集模塊中（在第3.2節(jié)中詳細(xì)介紹），
  - 我們將現(xiàn)有知識(shí)庫(kù)中的已知三元組與包含文本語料庫(kù)中此類三元組的句子對(duì)齊。
    - 對(duì)齊的句子和三元組對(duì)將在以后的神經(jīng)關(guān)系提取模塊中用作訓(xùn)練數(shù)據(jù)。
  - 這種協(xié)調(diào)是通過遠(yuǎn)程監(jiān)督來完成的。
  - 為了獲得大量高質(zhì)量的比對(duì)，
    - 我們使用共指消解擴(kuò)展了處理過程，
      - 以提取具有隱式實(shí)體名稱的句子，
      - 從而擴(kuò)大了要對(duì)齊的候選句子的集合。
    - 我們進(jìn)一步使用基于字典的釋義檢測(cè)來過濾不表達(dá)實(shí)體之間任何關(guān)系的句子。
- embedding module
  - 在嵌入模塊（在第3.3節(jié)中有詳細(xì)介紹）中，
  - 我們提出了一種結(jié)合詞skip-gram和實(shí)體嵌入的聯(lián)合學(xué)習(xí)方法（Mikolov等，2013）
    - 以skip-gram計(jì)算詞嵌入
    - 以TransE（Bordes等，2013），計(jì)算實(shí)體嵌入。
  - 聯(lián)合學(xué)習(xí)的目的是捕獲單詞和實(shí)體的相似性，以幫助將實(shí)體名稱映射到相關(guān)的實(shí)體ID。
  - 此外，結(jié)果實(shí)體嵌入用于訓(xùn)練三元組分類器，
    - 以幫助過濾由我們的神經(jīng)關(guān)系提取模型生成的無效三元組。
- neural relation extraction module.
  - 在神經(jīng)關(guān)系提取模塊（在第3.4節(jié)中有詳細(xì)介紹）中，
    - 我們通過將注意力機(jī)制擴(kuò)展到句子的n-gram標(biāo)記，
    - 提出了一個(gè)基于n-gram的注意力模型。
      - ngram注意會(huì)計(jì)算注意權(quán)重的n-gram組合，以捕獲補(bǔ)充標(biāo)準(zhǔn)注意模型的單詞級(jí)別注意的語言或名詞短語上下文。
      - 這種擴(kuò)展有助于我們的模型更好地捕獲實(shí)體和關(guān)系的多詞上下文。
    - 編碼器-解碼器模型的輸出是實(shí)體和謂詞ID的序列，其中每三個(gè)ID表示一個(gè)三元組。
      - 為了生成高質(zhì)量的三元組，我們提出了兩種策略。
        第一種策略使用改進(jìn)的波束搜索，
        該算法計(jì)算提取的實(shí)體與輸入句子中實(shí)體名稱的表面形式的詞匯相似度，以確保正確的實(shí)體預(yù)測(cè)。
        
        第二種策略使用三元分類器，該分類器使用來自聯(lián)合學(xué)習(xí)的實(shí)體嵌入進(jìn)行訓(xùn)練，以過濾無效的三元組。第3.5節(jié)詳細(xì)介紹了三重生成過程

3.1 data collection module

我們的目的：通過提出監(jiān)督關(guān)系提取模型，從句子中提取三元組以豐富知識(shí)庫(kù)。
* 為了訓(xùn)練這樣的模型，我們需要大量的帶有完整標(biāo)簽的訓(xùn)練數(shù)據(jù)，這些數(shù)據(jù)以句子-三元組對(duì)的形式出現(xiàn)。
* 根據(jù)Sorokin和Gurevych（2017）的研究，我們使用遠(yuǎn)距離監(jiān)督（Mintz等，2009）將Wikipedia中的句子與Wikidata中的三元組對(duì)齊（Vrandecic和Kr?otzsch，2014）。
將實(shí)體-KB條目對(duì)應(yīng)
- 我們通過與實(shí)體提及相關(guān)聯(lián)的超鏈接將句子中的實(shí)體提及映射到Wikidata中的相應(yīng)實(shí)體條目（即Wikidata ID），
  * 該超鏈接記錄在Wikidata中作為實(shí)體條目的url屬性。
- 每對(duì)可能包含一個(gè)句子和多個(gè)三元組。
- 我們根據(jù)表示句子中實(shí)體之間關(guān)系的謂詞復(fù)述順序?qū)θM的順序進(jìn)行排序。
- 我們通過提取包含Wikidata三元組的頭和尾實(shí)體的句子來收集句子三對(duì)。
- 為了生成高質(zhì)量的句子三元組對(duì)，我們提出了兩個(gè)附加步驟：
  * （1）使用共指消解來提取包含隱式實(shí)體名稱的句子，以及
  * （2）使用 paraphrase detection過濾不表達(dá)任何關(guān)系的句子。

實(shí)體與知識(shí)庫(kù)對(duì)應(yīng)
- 方法：遠(yuǎn)程監(jiān)督
- 連接：超鏈接
- 增強(qiáng)：
  - 共指消解：提取包含隱式實(shí)體名的句子
    - 可以增加候選句子數(shù)量
    - 將提取的mention換成適當(dāng)?shù)膶?shí)體名稱
    - 啟發(fā)式：
      - wikipedia中，文章段落第一句可能包含代詞
      - 將代詞–>wikipedia的對(duì)應(yīng)主要是替名稱
        直覺，他應(yīng)該與主要實(shí)體有關(guān)。
  - a dictionary based paraphrase detection：去除不表達(dá)任何關(guān)系的句子。
    - 一個(gè)關(guān)系，可能有多種表達(dá)，將這些表達(dá)放入到字典中，
    - 如果句子中包含這些表達(dá)，則保留；否則移除。
    - 但移除的句子，也可能包含其他關(guān)系的表達(dá)—在其他包中保留。

在將句子與三元組對(duì)齊之前，在步驟（1）中，我們發(fā)現(xiàn)隱式實(shí)體名稱以增加要對(duì)齊的候選句子的數(shù)量。我們將共同引用解析（Clark和Manning，2016）應(yīng)用于維基百科文章中的每個(gè)段落，并將提取的共同引用替換為適當(dāng)?shù)膶?shí)體名稱。我們觀察到，維基百科文章中段落的第一句可能包含代名詞，指代主要實(shí)體。例如，巴拉克·奧巴馬（Barack Obama）文章中有一個(gè)段落以一個(gè)句子"He was reelected to the Illinois Senate in 1998".開頭。這可能會(huì)導(dǎo)致標(biāo)準(zhǔn)的共同引用解析丟失該段落其余部分的隱式實(shí)體名稱。為了解決此問題，如果未提及Wikipedia頁(yè)面的主要實(shí)體名稱，我們會(huì)試探性地替換段落第一句中的代詞。對(duì)于前面示例中的句子，我們將"He"–>“Barack Obama”。直覺是，Wikipedia文章包含單個(gè)感興趣實(shí)體的內(nèi)容，并且段落第一句中提到的代詞大多與主要實(shí)體有關(guān)。

在步驟（2）中，我們使用基于字典的復(fù)述檢測(cè)來捕獲句子中實(shí)體之間的關(guān)系。首先，我們通過填充三個(gè)來源的謂詞復(fù)述來創(chuàng)建字典，包括PATTY（Nakashole等，2012），POLY（Grycner和Weikum，2016）和PPDB（Ganitkevitch等，2013），產(chǎn)生540個(gè)謂詞和24013個(gè)獨(dú)特的釋義。
eg:“出生地” {出生于，出生于……}。然后，我們使用該詞典過濾不表達(dá)實(shí)體之間任何關(guān)系的句子。我們使用精確的字符串匹配來查找句子中的語言或名詞短語，這是三元組謂詞的復(fù)述。例如，對(duì)于三胞胎“巴拉克·奧巴馬（Barack Obama）出生地檀香山”，句子“巴拉克·奧巴馬（Barack Obama）1961年出生于夏威夷檀香山Honolulu”將保留，而句子“巴拉克·奧巴馬（Barack Obama）在2010年訪問檀香山Honolulu”將被刪除（如果還有另一個(gè)有效的三元組<Barack Obama, visited, Honolulu>，可以保留該句子。這有助于過濾噪聲以使句子三重對(duì)齊。

3.3 Joint Learning of Word and Entity Embeddings

我們的關(guān)系提取模型基于編碼器-解碼器框架，該框架已在神經(jīng)機(jī)器翻譯中廣泛用于將文本從一種語言翻譯為另一種語言。在我們的設(shè)置中，我們旨在將一個(gè)句子翻譯成三元組，因此源輸入的詞匯是一組英語單詞，而目標(biāo)輸出的詞匯是現(xiàn)有KG中的一組實(shí)體和謂詞ID。為了計(jì)算源詞匯表和目標(biāo)詞匯表的嵌入，我們提出了單詞和實(shí)體嵌入的聯(lián)合學(xué)習(xí)方法，該方法可有效捕獲單詞和實(shí)體之間的相似性，以消除命名實(shí)體的歧義（Yamada et al。，2016）。請(qǐng)注意，我們的方法不同于Yamada等人的方法。（2016）。我們使用聯(lián)合學(xué)習(xí)的方法是結(jié)合skip-gram（Mikolov等人，2013）來計(jì)算單詞嵌入和使用TransE（Bordes等人，2013）來計(jì)算實(shí)體嵌入（包括關(guān)系嵌入），而Yamada等人（2016）使用不考慮關(guān)系嵌入的基于維基百科基于鏈接的度量（WLM）（Milne and Witten，2008）。

目的：句子–>三元組
框架：encoder-decoder的翻譯框架
輸入詞表：英語單詞
輸出詞表：KG中的一組實(shí)體和謂詞ID
提出的方法：Joint Learning of Word and Entity Embeddings
- 效果:捕獲單詞和實(shí)體之間的相似性，可以消除命名實(shí)體的歧義
- 做法：
  - skip-gram：計(jì)算單詞嵌入
    - Anchor Context Model
      - 輸入：
        原始文本
        經(jīng)過修改的wikipeidia錨文本
        將句子中的實(shí)體名稱用相關(guān)的實(shí)體或謂詞ID替換
        “New York University is a private university in Manhattan”
        “Q49210 is a Q902104 in Q11299”
        
        結(jié)合生成文本語料庫(kù)
      - 方法：用skip-gram計(jì)算（把ID一起當(dāng)做單詞計(jì)算）
  - TransE：計(jì)算實(shí)體嵌入（包含關(guān)系嵌入
- 區(qū)別：
  - （Yamada et al。，2016）:WLM方法，不考慮關(guān)系嵌入
- 目標(biāo)函數(shù):
  - $JE=Σtr∈TrΣtr′∈Tr′max(0,[γ+f(tr)?f(tr′)])Tr={<h,r,t>∣<h,r,t>∈G}??有效的Tr′={<h′,r,t>∣h′∈E}∪{<h,r,t′>∣t′∈E}??反例f(tr)=∣∣h+r?t∣∣??l1?normJ_E=\Sigma_{t_r\in T_r}\Sigma_{t'_r\in T'_r} max(0,[\gamma+f(t_r)-f(t_r')])\\ T_r=\{<h,r,t>|<h,r,t>\in G\}--有效的\\ T_r'=\{<h',r,t>|h'\in E\} \cup \{<h,r,t'>|t'\in E\}--反例\\ f(t_r)=||h+r-t||--l1-norm$
    - 趨向于是正例和反例的差別增大
  - $JW=1TΣt=1nΣ?c≤j≤c,j≠0logP(wt+j∣wt)P(wt+j∣wt)=exp(vwt+j′Tvwt)Σi=1W(vi′Tvwt)c?上下文窗口尺寸wt目標(biāo)詞wt+j上下文vwt輸入向量vi′輸出向量W?vocabularysizeJ_W=\frac{1}{T}\Sigma_{t=1}^n\Sigma_{-c\leq j\leq c,j\neq 0} logP(w_{t+j}|w_t)\\ P(w_{t+j}|w_t)=\frac{exp(v_{w_{t+j}}^{'T }v_{w_t})}{\Sigma_{i=1}^W(v_i^{'T}v_{w_t})}\\ c-上下文窗口尺寸\\w_t目標(biāo)詞\\w_{t+j}上下文\\v_{w_t}輸入向量\\v_i'輸出向量\\W-vocabulary size$
  - 整體的目標(biāo)函數(shù): $J=J_E+J_W$

為了建立實(shí)體和單詞嵌入之間的交互作用，我們遵循Yamada等人提出的Anchor Context Model。（2016）。首先，我們通過結(jié)合原始文本和經(jīng)過修改的Wikipedia錨文本來生成文本語料庫(kù)。這是通過用相關(guān)的實(shí)體或謂詞ID替換句子中的實(shí)體名稱來完成的。例如，將該句子修改為。然后，我們使用skip-gram方法從生成的語料庫(kù)中計(jì)算單詞嵌入（修改后的錨文本中的實(shí)體ID在skip-gram模型中被視為單詞）。給定一個(gè)n個(gè)單詞的序列，該模型通過最小化以下目標(biāo)函數(shù)來學(xué)習(xí)單詞嵌入：

3.4 N-gram Based Attention Model

encoder-decoder
- 輸入：句子
- 輸出：三元組序列（實(shí)體ID,關(guān)系ID的序列，每三個(gè)是一個(gè)三元組）
- encoder:
  - 輸入:句子
  - 輸出：向量
  - 使用：LSTM
- decoder:
  - 輸入：向量–作為上下文
  - 輸出：三元組序列
  - 使用：LSTM
- attention：
  - 用于re任務(wù)，無法捕捉多字實(shí)體名稱
  - 原因：實(shí)體和單詞不對(duì)齊（初步調(diào)查）
    - 即使前文以ID代替實(shí)體也不可消除
  - 解決：N-gram Based Attention Model
    - 根據(jù)詞嵌入的n元語法組合計(jì)算注意權(quán)重
    - $ctd=[he;Σn=1∣N∣Wn(Σi=1∣Xn∣αinxin)]???上下文向量he:encoder的隱層輸出αin=exp(heTVnxin)Σj=1∣Xn∣exp(heTVnxjn)∣Xn∣:?gram的令牌組合總數(shù)W,V??參數(shù)矩陣c_t^d=[h^e;\Sigma_{n=1}^{|N|}W^n(\Sigma_{i=1}^{|X^n|}\alpha_i^nx_i^n)]---上下文向量\\ h^e:encoder的隱層輸出\\ \alpha_i^n=\frac{exp(h^{eT}V^nx_i^n)}{\Sigma_{j=1}^{|X^n|}exp(h^{eT}V^nx_j^n)}\\ |X^n|:-gram的令牌組合總數(shù)\\ W,V--參數(shù)矩陣$

訓(xùn)練

在訓(xùn)練階段
- 使用句子-三元組對(duì)輸入
- 還用<實(shí)體名，實(shí)體id>對(duì)輸入
  - 這允許模型學(xué)習(xí)實(shí)體名稱和實(shí)體ID之間的映射，尤其是對(duì)于看不見的實(shí)體。

我們提出的關(guān)系提取模型以端到端的方式集成了KB富集的提取和規(guī)范化任務(wù)。為了構(gòu)建這樣的模型，我們采用編碼器-解碼器模型（Cho等人，2014）將句子翻譯成三元組序列。編碼器將句子編碼為向量，解碼器將其用作上下文以生成三元組序列。因?yàn)槲覀儗⑤斎牒洼敵鲆暈橐粋€(gè)序列，所以我們?cè)诰幋a器和解碼器中使用LSTM網(wǎng)絡(luò)（Hochreiter和Schmidhuber，1997）。
具有注意力模型的編碼器/解碼器（Bahdanau等人，2015）已??用于機(jī)器翻譯中。但是，在關(guān)系提取任務(wù)中，注意力模型無法捕獲多字實(shí)體名稱。在我們的初步調(diào)查中，我們發(fā)現(xiàn)注意模型在單詞和實(shí)體之間產(chǎn)生了不對(duì)齊的情況。
上面的問題是由于不同實(shí)體的名稱中的單詞相同（例如，紐約大學(xué)，華盛頓大學(xué)等不同大學(xué)名稱中的單詞大學(xué)）。在訓(xùn)練期間，模型會(huì)更加注意“大學(xué)”一詞，以區(qū)分名稱相似的不同類型的實(shí)體，例如，紐約大學(xué)，紐約時(shí)報(bào)大樓或紐約人壽大廈，但不會(huì)區(qū)分名稱不同的相同類型的實(shí)體（例如，紐約大學(xué)和華盛頓大學(xué)）。這可能會(huì)導(dǎo)致實(shí)體對(duì)齊出錯(cuò)，尤其是在預(yù)測(cè)不在訓(xùn)練數(shù)據(jù)中的實(shí)體的ID時(shí)。即使我們將<Entity-name, Entity-ID>對(duì)添加為訓(xùn)練數(shù)據(jù)（請(qǐng)參閱“訓(xùn)練”部分），仍然會(huì)發(fā)生對(duì)齊錯(cuò)誤。
我們通過提出一個(gè)基于n-gram的注意力模型來解決上述問題。此模型計(jì)算句子輸入的所有可能n-gram的注意力。注意權(quán)重是根據(jù)詞嵌入的n元語法組合計(jì)算的，因此，解碼器的上下文向量的計(jì)算如下。

3.5 Triple Generation

編碼器-解碼器模型的輸出是實(shí)體和謂詞ID的序列，其中每三個(gè)標(biāo)記表示一個(gè)三元組。因此，要提取一個(gè)三元組，我們只需將生成的輸出的每三個(gè)標(biāo)記分組即可。但是，由于實(shí)體嵌入（例如，紐約市和芝加哥的嵌入）之間的相似性，貪婪方法（即，選擇解碼器的最后一個(gè)softmax層中概率最高的實(shí)體）可能導(dǎo)致模型提取錯(cuò)誤的實(shí)體可能相似，因?yàn)閮烧叨际敲绹?guó)的城市）。為了解決這個(gè)問題，我們提出了兩種策略：使用經(jīng)過改進(jìn)的波束搜索對(duì)預(yù)測(cè)實(shí)體進(jìn)行重新排序，以及使用三元分類器過濾無效的三元組。
修改后的波束搜索重新排名top-k（在我們的實(shí)驗(yàn)中為10）實(shí)體ID，這些ID由解碼器通過計(jì)算實(shí)體名稱（從KB中獲得）與輸入句子的每個(gè)n-gram標(biāo)記之間的編輯距離來預(yù)測(cè)。直覺是應(yīng)在句子中提及實(shí)體名稱，以便選擇相似度最高的實(shí)體作為輸出

encoder-decoder的輸出–>三元組
- 貪婪策略
  - 策略：選softmax中概率最高的
  - 缺點(diǎn)：提取錯(cuò)誤的實(shí)體
  - 原因：實(shí)體嵌入的相似性
- 解決
  - 改進(jìn)的beam search
    - 對(duì)預(yù)測(cè)實(shí)體沖排序（對(duì)top-k)
    - 實(shí)體ID:
      - encoder計(jì)算實(shí)體名稱（KB的）與輸入句子的每個(gè)n-gram之間的編輯距離來預(yù)測(cè)
      - 直覺：句子中的entity mention，則輸出對(duì)應(yīng)的entity(相似度也應(yīng)是最高的）
  - 三元組分類器
    - 過濾掉無效的三元組
      - 我們的三元組分類器接受了來自聯(lián)合學(xué)習(xí)的實(shí)體嵌入訓(xùn)練（請(qǐng)參見第3.3節(jié)）。
      - 三元組分類是評(píng)估實(shí)體嵌入質(zhì)量的指標(biāo)之一（Socher等，2013）。
        我們建立一個(gè)分類器來確定三元組的有效性。
      - 我們根據(jù)合理性分?jǐn)?shù)（計(jì)算實(shí)體嵌入的分?jǐn)?shù)）訓(xùn)練二元分類器。
      - 我們通過破壞有效的三元組（即用隨機(jī)實(shí)體替換首尾實(shí)體）來創(chuàng)建否定樣本。
      - 因而，三元組分類器可有效過濾無效的三元組，例如<New York University, capital of, Manhattan>

4.實(shí)驗(yàn)

數(shù)據(jù)集
- WIKI
- GEO

4.1 超參數(shù)

尋找超參數(shù)：grid search
- lstm unit:512
- embedding-dim:64
- dropout:0.5
- adam,lr=0.0002

4.2 models

對(duì)比
- CNN (the state-of-theart supervised approach by Lin et al. (2016)),
- MiniE (the state-of-the-art unsupervised approach by Gashteovski et al. (2017)),
- ClausIE by Corro and Gemulla (2013).
- NED:
  - AIDA (Hoffart et al., 2011)
  - NeuralEL (Kolitsas et al., 2018)
- the dictionary based paraphrase detection:
  - 映射謂詞–>關(guān)系
  - 和之前說的一樣的詞典
  - 如果正確謂詞的釋義之一出現(xiàn)在抽取的謂詞中，則用id替換它。
  - 否則，記為NA
- 注意力的比較
  - he Single Attention model (Bahdanau et al., 2015)
  - Transformer model (Vaswani et al., 2017).

我們將我們提出的模型3與三個(gè)現(xiàn)有模型進(jìn)行了比較，包括CNN（Lin等人（2016）的最新監(jiān)督方法），MiniE（Gashteovski等人的最新的無監(jiān)督方法（2017））。），以及Corro和Gemulla（2013）的ClausIE。為了通過這些模型映射提取的實(shí)體，我們使用了兩個(gè)最新的NED系統(tǒng)，包括AIDA（Hoffart等，2011）和NeuralEL（Kolitsas等，2018）。 AIDA和NeuralEL的精度（在我們的測(cè)試數(shù)據(jù)集中測(cè)試）分別為70％和61％。為了映射無監(jiān)督方法輸出的提取謂詞（關(guān)系），我們使用基于字典的釋義檢測(cè)。我們使用用于收集數(shù)據(jù)集的同一詞典（即，三個(gè)釋義詞典的組合，包括PATTY（Nakashole等，2012），POLY（Grycner和Weikum，2016）和PPDB（Ganitkevitch等，2013）。））。如果正確謂詞的釋義之一（即黃金標(biāo)準(zhǔn)）出現(xiàn)在抽取謂詞中，則我們用正確謂詞ID替換抽取謂詞。否則，我們將提取的謂詞替換為表示無法識(shí)別的謂詞。我們還將N-gram注意模型與兩個(gè)基于編碼器/解碼器的模型進(jìn)行比較，包括單注意模型（Bahdanau等，2015）和變形模型（Vaswani等，2017）。

4.3 results

本文模型效果最好
已經(jīng)存在的模型+NED
- NED效果好的就好
- 證明它受NED錯(cuò)誤傳播的影響大
無規(guī)范化任務(wù)的情況下：
- 已經(jīng)存在的模型的精度挺好
可以捕獲多詞實(shí)體名稱
- 因?yàn)楸萻ingle-attention和transformer好
三元組分類器可以提升precision
改進(jìn)的beam search可以提升recall
無法做到：識(shí)別來自不同實(shí)體的相同名稱

為了進(jìn)一步顯示錯(cuò)誤傳播的影響，我們建立了一個(gè)沒有規(guī)范化任務(wù)的實(shí)驗(yàn)（即目標(biāo)是預(yù)測(cè)已知實(shí)體之間的關(guān)系）。通過允許CNN模型訪問正確的實(shí)體，我們刪除了NED預(yù)處理步驟。同時(shí)，我們向我們提出的模型的解碼器提供正確的實(shí)體。在這種設(shè)置下，我們提出的模型在WIKI和GEO測(cè)試數(shù)據(jù)集上的精度分別達(dá)到86.34％和79.11％，而CNN的精度分別達(dá)到81.92％和75.82％。

5.總結(jié)

我們?yōu)镵B富集提出了端到端關(guān)系提取模型，該模型集成了提取和規(guī)范化任務(wù)。因此，我們的模型減少了關(guān)系提取和現(xiàn)有方法容易發(fā)生的NED之間的錯(cuò)誤傳播。為了獲得高質(zhì)量的訓(xùn)練數(shù)據(jù)，我們采用了遠(yuǎn)程監(jiān)控，并通過共參考分辨率和復(fù)述檢測(cè)對(duì)其進(jìn)行了增強(qiáng)。我們提出了一種基于n元語法的注意力模型，該模型可以更好地捕獲句子中的多詞實(shí)體名稱。此外，我們提出了一種改進(jìn)的波束搜索和三重分類，以幫助模型生成高質(zhì)量的三重。
實(shí)驗(yàn)結(jié)果表明，我們提出的模型在WIKI和GEO測(cè)試數(shù)據(jù)集上的F1評(píng)分分別優(yōu)于現(xiàn)有模型33.39％和34.78％。這些結(jié)果證明我們的模型減少了NED和關(guān)系提取之間的誤差傳播。在兩個(gè)真實(shí)數(shù)據(jù)集上，我們提出的n-gram注意模型在F1得分方面分別優(yōu)于其他編碼器-解碼器模型15.51％和8.38％。這些結(jié)果證明我們的模型可以更好地捕獲句子中的多詞實(shí)體名稱。將來，我們計(jì)劃探索基于上下文的相似性，以補(bǔ)充詞法相似性，以提高整體性能

需要的改進(jìn)：
- 同名的不同實(shí)體的處理
- 計(jì)劃探索基于上下文的相似性，以補(bǔ)充詞法相似性，以提高整體性能

總結(jié)

以上是生活随笔為你收集整理的文献阅读课10-Neural Relation Extraction for Knowledge Base Enrichment(提取+嵌入+消歧+规范化联合模型，实体已知，仅关系抽取，多词实体)的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：头插法和尾插法创建链表（有无头结点）
下一篇：基于小样本学习的图像分类技术综述