日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

论文浅尝 - ACL2020 | IntKB: 一种交互式知识图谱补全框架

發(fā)布時間:2024/7/5 编程问答 30 豆豆
生活随笔 收集整理的這篇文章主要介紹了 论文浅尝 - ACL2020 | IntKB: 一种交互式知识图谱补全框架 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

筆記整理 | 譚亦鳴,東南大學博士


來源:? ACL 2020

鏈接:https://www.aclweb.org/anthology/2020.coling-main.490.pdf

資源:https://github.com/bernhard2202/intkb.

概述

知識庫作為許多下游NLP任務的資源基礎(chǔ),存在的一個普遍缺陷是它的不完整性。目前最好的知識庫補全框架則缺乏足夠的準確性,無法在脫離人工監(jiān)督的情況下完全自動化的完成知識補全。因此,作為彌補方案,本文提出了IntKB,一種基于問答pipeline的交互式圖譜補全框架。該框架的設(shè)計面向“人在回路”范式的特性需求:i. 該系統(tǒng)生成的事實與文本片段一致,可由人類直接驗證。ii. 該系統(tǒng)設(shè)計為可在知識庫補全過程中不斷學習,因此能夠使zero-或者few-shot的初始狀態(tài)隨著時間推移而顯著提升性能。iii. 當且僅當存在足夠信息進行正確預測的情況下,才會出發(fā)與人的交互。因此,作者采用負例和無答案的fold-option來訓練系統(tǒng)。該框架在實驗中取得較好的性能:對于初始狀態(tài)下的未見關(guān)系,它實現(xiàn)了29.7%的Hits@1,并且在此基礎(chǔ)上,這個結(jié)果逐漸提高到46.2%。

方法

圖1描述了本文所提方法的大致框架,主要包含三個過程:

1.Sentence selection:句子篩選模塊的輸入是一個不完整的三元組形如[h, r, _](同指查詢),針對這個輸入,返回一個經(jīng)過排序的候選句子集(即可能涵蓋尾實體(答案)的文本)。在這里,用于檢索的文檔被約束為與頭實體h相關(guān)的文檔子集,接著作者為每個句子建立基于tf-idf的向量表示(這里只考慮上述文檔子集的idf而不是整個文檔)。對于查詢向量,論文使用關(guān)系類型的semantic names,并將每個關(guān)系類型轉(zhuǎn)換為對應的tf-idf向量,而后計算每個句子和查詢之間的相似性得分。該結(jié)果用于步驟2中的關(guān)系抽取。

2.Relation extraction: 關(guān)系抽取模型的輸入是上一步中排序Top-n的句子,以及原始查詢[h, r, _],每條句子都被轉(zhuǎn)換成一條查詢,而后輸入BERT-QA模型,用于返回作為候選答案的文本區(qū)間。之后,作者將關(guān)系抽取視作閱讀理解的一個特例(即“問”未知的尾實體),不同于過去需要構(gòu)建問題模板的方式,這里通過關(guān)系類型的semantic names構(gòu)建多個噪聲關(guān)鍵詞查詢。因此,本文的知識庫補全工作是在數(shù)據(jù)缺少的情況下進行的,且只使用知識庫中的信息無需額外的人工監(jiān)督。

3.Answer re-ranking:從BERT-QA獲取到若干候選答案之后,最后一步就是對它們進行重排序。排序前,作者首先匯總所有具有匹配文本的候選答案,例如預測中多次出現(xiàn)了某個關(guān)鍵詞,則合并這些候選答案為一個。而后使用前兩步得到的候選答案的特征信息做排序(使用Kratzwald et al., 2019提出的方法),最終,得到對于[h, r, _]的預測候選。

面向知識庫補全的Continuous Learning

1.冷啟動

作者建議使用以下三步對框架進行初始化,首先是事實對齊,使用遠程監(jiān)督的方式將初始知識庫中的事實與文本語料中的句子進行對齊,其次是對數(shù)據(jù)集中不存在的事實生成負例訓練樣本,再者,知識轉(zhuǎn)移,通過訓練將負樣本和對齊的事實反饋到問答pipeline中。

2.基于用戶反饋的持續(xù)提升

由于對訓練中未見關(guān)系類型的預測是很困難的,因此這里作者通過交互機制,在標注過程中動態(tài)生成關(guān)于zero-shot關(guān)系的訓練數(shù)據(jù),所有用戶正反饋的事實都會立刻添加到知識庫中。

實驗

本文針對其框架機制,構(gòu)建了一個數(shù)據(jù)集,包括一個不完整知識庫,一個文本語料(都是來自Wikidata的子集),知識庫中的關(guān)系被分為已知關(guān)系(訓練可見),和未知關(guān)系(訓練中看不見,zero-shot)等兩類。作者首先評估了模型在可見知識子集上的性能,而后評估了zero-shot子集上的性能,論文構(gòu)建了兩套baseline,分別為BERT-Sentence 與Na¨?ve QA pipeline,實驗結(jié)果如以下兩張表所示


?

OpenKG

開放知識圖譜(簡稱 OpenKG)旨在促進中文知識圖譜數(shù)據(jù)的開放與互聯(lián),促進知識圖譜和語義技術(shù)的普及和廣泛應用。

點擊閱讀原文,進入 OpenKG 網(wǎng)站。

總結(jié)

以上是生活随笔為你收集整理的论文浅尝 - ACL2020 | IntKB: 一种交互式知识图谱补全框架的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。