當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

论文浅尝 - ACL2020 | 通过集成知识转换进行多语言知识图谱补全

發布時間：2024/7/5 编程问答 48 豆豆

生活随笔收集整理的這篇文章主要介紹了论文浅尝 - ACL2020 | 通过集成知识转换进行多语言知识图谱补全小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

筆記整理 | 譚亦鳴，東南大學博士生

概述

預測圖譜中缺失的事實(fact)是知識圖譜構建與推理中的一個重要任務，近年來也被許多KG embedding研究的關注對象。雖然目前的KG embedding方法主要學習和預測的是單個圖譜中的事實，但是考慮到KG之間不同規模，不同質量和覆蓋面的差異，一個更加合理的解決方案是將其應用于多語言知識上。由于知識在不同KG之間的傳遞往往收到描述不一致和對齊信息缺失的問題，因此（多語言知識圖譜上的補全）這是一個具有挑戰性的任務。本文提出了KEnS，一個新的框架，可以用于embedding學習以及在多個特定語言KG上集成知識并相互轉換。KEnS將所有的KG embed進一個共享空間，通過self-learning捕獲關聯實體，之后執行集成推理從而將多語言KG embedding上的預測結果聯合起來。作者探究了多種聯合的模式，在五個真實多語言KG上的實驗表明，通過有效識別和利用補充的知識，KEnS在補全任務上進一步提升了SOTA方法的性能。

方法

圖1描述了KEnS的集成推理過程，該模型首先聯合多語言KG embedding模型的預測結果，然后從那些結果中找出可能性最大的答案，從而提升圖譜補全的性能。KEnS包括兩個主要過程：1. Embedding學習；2. 集成推理。前者將每個KG的實體和關系編碼進一個共享的embedding空間（類似于對齊模型的做法），這使得模型支持跨不同KG的查詢。集成推理過程聯合來自不同KG的預測結果，并且為了進一步提高每個KG上預測的可靠性，作者引入了一種增強方法來學習知識模型的實體特定權重。

下面分別對KG embedding及集成推理的細節進行說明：

在embedding方面，包含知識模型與對齊模型兩個部分，其中知識模型的學習目標可以通過公式1表示：

其中[·]+=max(·, 0)，f是一個三元組打分函數，越高的得分表明該三元組描述的事實越可靠，是一個超參數，則表示通過隨機替換生成的的負例，在f函數方面，作者考慮了TransE以及RotatE兩種方式：

在對齊模型方面，其學習目標如公式4（通過訓練使對齊實體之間的向量距離盡可能小）：

兩者整合的目標函數為：

集成推理部分，首先KEnS通過對齊模型預測多語言圖譜之間的實體對齊，基于對齊實體，將query轉換到其他KG上，獲取結果之后再通過對齊轉換回初始KG，接著對于獲取的候選結果，利用公式6對其進行加權：

其中，e表示目標KG上的一個實體，wi(e)表示一個實體特定模型權重，當e在KGi的embedding模型fi上排在Top-K, 則Ni(e)為1，否則Ni(e)為0。這里在w的計算上，作者構建了三種變體，其一是利用boosting方法對每個實體學習特定權重，其二是對所有實體和embedding模型修正權重為1，其三則是使用embedding模型f在驗證集上的mean reciprocal rank（MRR）作為權重。

實驗

數據方面，由于目前還沒有一個面向多語言補全的數據集，因此他們收集了一個涵蓋英語，法語，西班牙語，日語以及希臘語等語言的DBpedia子集，并命名為DBP-5L，其上的預測結果如標2所示：

OpenKG

開放知識圖譜（簡稱 OpenKG）旨在促進中文知識圖譜數據的開放與互聯，促進知識圖譜和語義技術的普及和廣泛應用。

點擊閱讀原文，進入 OpenKG 網站。

總結

以上是生活随笔為你收集整理的论文浅尝 - ACL2020 | 通过集成知识转换进行多语言知识图谱补全的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：论文浅尝 | 基于未知谓词与实体类型知识
下一篇：论文浅尝 | 用于嵌套命名实体识别的二部