當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

论文浅尝 - ACL2020 | IntKB: 一种交互式知识图谱补全框架

發(fā)布時間：2024/7/5 编程问答 30 豆豆

生活随笔收集整理的這篇文章主要介紹了论文浅尝 - ACL2020 | IntKB: 一种交互式知识图谱补全框架小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

筆記整理 | 譚亦鳴，東南大學博士

來源:? ACL 2020

鏈接：https://www.aclweb.org/anthology/2020.coling-main.490.pdf

資源：https://github.com/bernhard2202/intkb.

概述

知識庫作為許多下游NLP任務的資源基礎(chǔ)，存在的一個普遍缺陷是它的不完整性。目前最好的知識庫補全框架則缺乏足夠的準確性，無法在脫離人工監(jiān)督的情況下完全自動化的完成知識補全。因此，作為彌補方案，本文提出了IntKB，一種基于問答pipeline的交互式圖譜補全框架。該框架的設(shè)計面向“人在回路”范式的特性需求：i. 該系統(tǒng)生成的事實與文本片段一致，可由人類直接驗證。ii. 該系統(tǒng)設(shè)計為可在知識庫補全過程中不斷學習，因此能夠使zero-或者few-shot的初始狀態(tài)隨著時間推移而顯著提升性能。iii. 當且僅當存在足夠信息進行正確預測的情況下，才會出發(fā)與人的交互。因此，作者采用負例和無答案的fold-option來訓練系統(tǒng)。該框架在實驗中取得較好的性能：對于初始狀態(tài)下的未見關(guān)系，它實現(xiàn)了29.7%的Hits@1，并且在此基礎(chǔ)上，這個結(jié)果逐漸提高到46.2%。

方法

圖1描述了本文所提方法的大致框架，主要包含三個過程：

1.Sentence selection：句子篩選模塊的輸入是一個不完整的三元組形如[h, r, _]（同指查詢），針對這個輸入，返回一個經(jīng)過排序的候選句子集（即可能涵蓋尾實體（答案）的文本）。在這里，用于檢索的文檔被約束為與頭實體h相關(guān)的文檔子集，接著作者為每個句子建立基于tf-idf的向量表示（這里只考慮上述文檔子集的idf而不是整個文檔）。對于查詢向量，論文使用關(guān)系類型的semantic names，并將每個關(guān)系類型轉(zhuǎn)換為對應的tf-idf向量，而后計算每個句子和查詢之間的相似性得分。該結(jié)果用于步驟2中的關(guān)系抽取。

2.Relation extraction: 關(guān)系抽取模型的輸入是上一步中排序Top-n的句子，以及原始查詢[h, r, _]，每條句子都被轉(zhuǎn)換成一條查詢，而后輸入BERT-QA模型，用于返回作為候選答案的文本區(qū)間。之后，作者將關(guān)系抽取視作閱讀理解的一個特例（即“問”未知的尾實體），不同于過去需要構(gòu)建問題模板的方式，這里通過關(guān)系類型的semantic names構(gòu)建多個噪聲關(guān)鍵詞查詢。因此，本文的知識庫補全工作是在數(shù)據(jù)缺少的情況下進行的，且只使用知識庫中的信息無需額外的人工監(jiān)督。

3.Answer re-ranking：從BERT-QA獲取到若干候選答案之后，最后一步就是對它們進行重排序。排序前，作者首先匯總所有具有匹配文本的候選答案，例如預測中多次出現(xiàn)了某個關(guān)鍵詞，則合并這些候選答案為一個。而后使用前兩步得到的候選答案的特征信息做排序（使用Kratzwald et al., 2019提出的方法），最終，得到對于[h, r, _]的預測候選。

面向知識庫補全的Continuous Learning

1.冷啟動

作者建議使用以下三步對框架進行初始化，首先是事實對齊，使用遠程監(jiān)督的方式將初始知識庫中的事實與文本語料中的句子進行對齊，其次是對數(shù)據(jù)集中不存在的事實生成負例訓練樣本，再者，知識轉(zhuǎn)移，通過訓練將負樣本和對齊的事實反饋到問答pipeline中。

2.基于用戶反饋的持續(xù)提升

由于對訓練中未見關(guān)系類型的預測是很困難的，因此這里作者通過交互機制，在標注過程中動態(tài)生成關(guān)于zero-shot關(guān)系的訓練數(shù)據(jù)，所有用戶正反饋的事實都會立刻添加到知識庫中。

實驗

本文針對其框架機制，構(gòu)建了一個數(shù)據(jù)集，包括一個不完整知識庫，一個文本語料（都是來自Wikidata的子集），知識庫中的關(guān)系被分為已知關(guān)系（訓練可見），和未知關(guān)系（訓練中看不見，zero-shot）等兩類。作者首先評估了模型在可見知識子集上的性能，而后評估了zero-shot子集上的性能，論文構(gòu)建了兩套baseline，分別為BERT-Sentence 與Na¨?ve QA pipeline，實驗結(jié)果如以下兩張表所示

：

OpenKG

開放知識圖譜（簡稱 OpenKG）旨在促進中文知識圖譜數(shù)據(jù)的開放與互聯(lián)，促進知識圖譜和語義技術(shù)的普及和廣泛應用。

點擊閱讀原文，進入 OpenKG 網(wǎng)站。

總結(jié)

以上是生活随笔為你收集整理的论文浅尝 - ACL2020 | IntKB: 一种交互式知识图谱补全框架的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇：论文浅尝 - ICLR 2020 | 用
下一篇：开源开放 | 中文相对复杂词汇识别数据集