日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

论文浅尝 | 基于知识图谱嵌入的 Bootstrapping 实体对齐方法

發布時間:2024/7/5 编程问答 25 豆豆
生活随笔 收集整理的這篇文章主要介紹了 论文浅尝 | 基于知识图谱嵌入的 Bootstrapping 实体对齐方法 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

來源: IJCAI 2018

鏈接: https://www.ijcai.org/proceedings/2018/0611.pdf

?

本文關注基于知識圖譜嵌入(后文全部簡稱為知識嵌入)的實體對齊工作,針對知識嵌入訓練數據有限這一情況,作者提出一種 bootstrapping 策略,迭代標注出可能的實體對齊,生成新數據加入知識嵌入模型的訓練中。但是,當模型生產了錯誤的實體對齊時,這種錯誤將會隨著迭代次數的增加而累積的越來越多。為了控制錯誤累積,作者設計了一種對齊樣本編輯方法,對每次迭代生成的對齊數據加以約束。

?

動機

目前面向知識庫的實體對齊研究中,基于知識嵌入的方法取得了比傳統策略更好的實驗效果。但是對于知識嵌入的實體對齊,仍然存在著一些挑戰。

其一:雖然近年單知識庫知識嵌入研究成果頗豐,但面向知識對齊的嵌入工作仍有很多待研究的空間。

其二:基于知識嵌入的實體對齊往往依賴已有對齊作為訓練數據,雖然有研究表示僅需少量對齊樣本即可完成模型訓練[Chen et al. 2017],但有限的訓練數據依然會影響知識嵌入的質量以及實體對齊準確性。

?

方法

1.對齊引導的知識嵌入

作者將實體對齊視為分類問題,目標就是從基于知識嵌入的實體表示中(包括有標注對齊實體,及無標注實體),找到最有可能的實體對齊(最大對齊似然)

對于知識嵌入,在translation-based的基礎上,針對對齊問題,作者對目標函數做出如下改進:

由基本知識嵌入目標函數

引入正負例樣本集T+T-,將目標函數改寫為:

其中[ f(x) ]+表示max(f(x), 0)gamma_1, gamma_2 >0是兩個超參,mu_1 是個平衡參數,這里使用的負例通過隨機替換正例中的部分得到。

?

2.Bootstrpping實體對齊方法

本方法的目的是最大化對齊似然,并符合11的對齊約束,在這種設定下,對于一組實體對齊(x, y)y被視為是x的標簽(我個人是這樣理解的)。故該問題建模為以下形式:

其中 表示第t次迭代得到的實體嵌入,Y’ 表示對于x存在的候選對齊樣本集合。

???? 是一個標記函數,當(x, y)構成一組對齊的時候其函數值為1,否則為0。當得到新的對齊實體時,將其作為增量添加到訓練集中用于下一次迭代。

?

考慮到新生成的對齊樣本可能引起矛盾,這里作者使用的策略是對比出現矛盾的對齊實體,取對齊似然更高的樣本保留,計算形式為:

結果>0時保留(x, y) ,反之選擇(x, y’ )

?

3.利用全局信息

這里的全局信息指全部實體樣本存在對齊(有標注)的概率分布情況,作者將其定義為以下表示:

以此為基礎,作者構建了一個負對數似然函數,用于強化原始樣本中對齊實體對知識嵌入的優化。

添加全局信息函數后,整體目標函數擴充為以下形式:

實驗

作者列出了自己的實驗配置,并開源代碼供讀者研究使用

開源地址:https://github.com/nju-websoft/BootEA

數據方面使用DBP15KDWY100K兩個數據集

最后,綜合實驗結果看來,這確實是目前最好的對齊模型。

?

論文筆記整理:譚亦鳴,東南大學博士生,研究興趣:知識問答,自然語言處理,機器翻譯。



OpenKG.CN


中文開放知識圖譜(簡稱OpenKG.CN)旨在促進中文知識圖譜數據的開放與互聯,促進知識圖譜和語義技術的普及和廣泛應用。

點擊閱讀原文,進入 OpenKG 博客。

總結

以上是生活随笔為你收集整理的论文浅尝 | 基于知识图谱嵌入的 Bootstrapping 实体对齐方法的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。