當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

论文浅尝 | 基于知识图谱嵌入的 Bootstrapping 实体对齐方法

發布時間：2024/7/5 编程问答 25 豆豆

生活随笔收集整理的這篇文章主要介紹了论文浅尝 | 基于知识图谱嵌入的 Bootstrapping 实体对齐方法小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

來源: IJCAI 2018

鏈接: https://www.ijcai.org/proceedings/2018/0611.pdf

本文關注基于知識圖譜嵌入(后文全部簡稱為知識嵌入)的實體對齊工作，針對知識嵌入訓練數據有限這一情況，作者提出一種 bootstrapping 策略，迭代標注出可能的實體對齊，生成新數據加入知識嵌入模型的訓練中。但是，當模型生產了錯誤的實體對齊時，這種錯誤將會隨著迭代次數的增加而累積的越來越多。為了控制錯誤累積，作者設計了一種對齊樣本編輯方法，對每次迭代生成的對齊數據加以約束。

動機

目前面向知識庫的實體對齊研究中，基于知識嵌入的方法取得了比傳統策略更好的實驗效果。但是對于知識嵌入的實體對齊，仍然存在著一些挑戰。

其一：雖然近年單知識庫知識嵌入研究成果頗豐，但面向知識對齊的嵌入工作仍有很多待研究的空間。

其二：基于知識嵌入的實體對齊往往依賴已有對齊作為訓練數據，雖然有研究表示僅需少量對齊樣本即可完成模型訓練[Chen et al. 2017]，但有限的訓練數據依然會影響知識嵌入的質量以及實體對齊準確性。

方法

1.對齊引導的知識嵌入

作者將實體對齊視為分類問題，目標就是從基于知識嵌入的實體表示中(包括有標注對齊實體，及無標注實體)，找到最有可能的實體對齊(最大對齊似然)。

對于知識嵌入，在translation-based的基礎上，針對對齊問題，作者對目標函數做出如下改進：

由基本知識嵌入目標函數

引入正負例樣本集T⁺與T^-，將目標函數改寫為：

其中[ f(x) ]₊表示max(f(x), 0)，gamma_1, gamma_2 >0是兩個超參，mu_1 是個平衡參數，這里使用的負例通過隨機替換正例中的部分得到。

2.Bootstrpping實體對齊方法

本方法的目的是最大化對齊似然，并符合1對1的對齊約束，在這種設定下，對于一組實體對齊(x, y)，y被視為是x的標簽(我個人是這樣理解的)。故該問題建模為以下形式：

其中表示第t次迭代得到的實體嵌入，Y’ 表示對于x存在的候選對齊樣本集合。

???? 是一個標記函數，當(x, y)構成一組對齊的時候其函數值為1，否則為0。當得到新的對齊實體時，將其作為增量添加到訓練集中用于下一次迭代。

考慮到新生成的對齊樣本可能引起矛盾，這里作者使用的策略是對比出現矛盾的對齊實體，取對齊似然更高的樣本保留，計算形式為：

結果>0時保留(x, y) ，反之選擇(x, y’ )。

3.利用全局信息

這里的全局信息指全部實體樣本存在對齊(有標注)的概率分布情況，作者將其定義為以下表示：

以此為基礎，作者構建了一個負對數似然函數，用于強化原始樣本中對齊實體對知識嵌入的優化。

添加全局信息函數后，整體目標函數擴充為以下形式：

實驗

作者列出了自己的實驗配置，并開源代碼供讀者研究使用

開源地址：https://github.com/nju-websoft/BootEA

數據方面使用DBP15K，DWY100K兩個數據集

最后，綜合實驗結果看來，這確實是目前最好的對齊模型。

論文筆記整理：譚亦鳴，東南大學博士生，研究興趣：知識問答，自然語言處理，機器翻譯。

OpenKG.CN

中文開放知識圖譜（簡稱OpenKG.CN）旨在促進中文知識圖譜數據的開放與互聯，促進知識圖譜和語義技術的普及和廣泛應用。

點擊閱讀原文，進入 OpenKG 博客。

總結

以上是生活随笔為你收集整理的论文浅尝 | 基于知识图谱嵌入的 Bootstrapping 实体对齐方法的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：征稿 | Call for papers
下一篇：论文浅尝 | 基于图注意力的常识对话生成