论文浅尝 | 动态知识图谱对齐
論文筆記整理:譚亦鳴,東南大學博士生
來源:AAAI‘21
鏈接:https://ojs.aaai.org/index.php/AAAI/article/view/16585
概述
本文提出了一種動態圖譜(KG)對齊方法,在“動態”(即圖譜可能隨時間更新)的設定下,作者認為該任務的難點在于實體embedding的更新,因為KG更新后拓撲結構也會隨之變化,而實體embedding與圖譜結構高度相關。所提方法DINGAL-系列的核心思路是將KG表示學習使用的GCN參數矩陣視作特征轉換操作,從而減少轉換和聚合過程間的耦合。在與現有的14個方法在DBP15K數據集上的對比結果表明,論文方法取得不錯性能,且提升了對齊速度。
背景與動機
這篇論文定義的實體對齊任務目標是將不完整的KG之間通過建立鏈接,獲得一個完整KG的過程(如圖1)。作者表示,現有對齊方法普遍假定KG是靜態的,而事實上KG應該是處于一個更新和發展的過程中。基于此,論文提出了一個擴展的對齊任務:動態圖譜對齊。
貢獻
作者總結其貢獻如下:
1.定義了動態圖譜對齊問題,并第一個展開研究2.提出了新的算法,DINGAL系列,包括DINGAL-B(靜態對齊)和GINGAL-O以及GINGAL-U面向動態對齊3.實驗對比現有14種對齊模型取得了性能超越,并且系列算法取得了更快的運行速度
方法
圖2給出了本文算法的描述,B算法用最初KG得到embedding,O和U的主要區別在于O沿用了B算法預訓練參數對圖譜更新后受到影響的節點作表示學習。而U則使用了一個全新的錨鏈接來更新參數。
圖3給出了傳統GCN過程,一個聚合-再-轉換的函數。節點首先聚合它的鄰居特征,然后這些特征通過一個線性轉換矩陣投影到隱空間。
在傳統方式下隨KG結構變化來動態更新圖譜embedding要求變化最好只發生在受影響的一小部分節點上。解決方向在于切斷圖譜拓撲結構與GCN參數矩陣之間的耦合。
作者首先將節點嵌入矩陣通過線性轉換投影到一個隱空間,然后基于L聚合鄰居節點的特征。DINGAL-B的流程如圖4所示,對于任一實體的輸入特征X,首先進入一個拓撲不變mask門M(公式2),該公式表示Hadamard乘積,用于確定特征不同維度的重要性(類似注意力機制)。
接著mask門的輸出被輸入到一個GCN層(公式3)
同時這個GCN層輸出和mask門的輸出一同輸入到highway門(公式4)
最終網絡的輸出為:
接著使用以下的公式來衡量兩個節點的距離:
對于DINGAL-O,首先保留了B方法的所有參數,在動態更新中更新那些受到影響的實體embedding。單跳受影響實體被定義為新實體(新增實體)和老實體(增加刪除邊操作),不考慮刪除的實體,因為它們不參與動態對齊。圖5給出了一個受影響節點劃定的例子。
在O方法中,受影響更新的實體embedding的獲取方式如公式8:
La表示局部拉普拉斯矩陣,來自全局L矩陣,La的范圍由受影響的一跳鄰居的size決定。
實驗
實驗使用的數據集是DBP15K,包含三種語言對,覆蓋15K預對齊實體。
靜態實驗還是沿用DBP15K的常規切分測試集
動態實驗,作者隨機將DBP15K里的對齊對切分為三個動態時間步。在對于開始時間t0,KG移除3000個對齊的實體對以及鏈接到它們的邊。對于任何不屬于ground-truth的實體,如果它由于時間的變化而成為一個孤立的實體,它就會被刪除。在時間步t1,1500個對齊的對以及與其鏈接的孤立實體將在t0被添加到KG對,這將在時間步t1形成新的KG對。
數據集評價指標為Hits@1和Hits@10
主要實驗結果如下:(表1消融分析,w/o highway門,mask門,以及單層網絡的效果),從結果看起來highway門是性能提升的主要原因
表2和3是動態對齊實驗結果
作者也給出了結果,論述實驗時間效率上所提方法相比已有方法有明顯效率提升。
OpenKG
OpenKG(中文開放知識圖譜)旨在推動以中文為核心的知識圖譜數據的開放、互聯及眾包,并促進知識圖譜算法、工具及平臺的開源開放。
點擊閱讀原文,進入 OpenKG 網站。
總結
以上是生活随笔為你收集整理的论文浅尝 | 动态知识图谱对齐的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 论文浅尝 | LightRNN:存储和计
- 下一篇: 论文浅尝 | 解决知识图谱补全中的长尾关