论文浅尝 - COLING2020 | 一种用于跨语言实体对齐的上下文对齐强化跨图谱注意力网络...
筆記整理 | 譚亦鳴,東南大學(xué)博士生
來(lái)源:COLING 2020
鏈接:https://www.aclweb.org/anthology/2020.coling-main.520.pdf
本文發(fā)現(xiàn),目前基于GCN的對(duì)齊方法都是分別考慮兩個(gè)KG,然后分別學(xué)習(xí)它們的embedding,并認(rèn)為這種做法忽視了KG預(yù)對(duì)齊鏈接的使用。因此,作者提出了一種新的上下文對(duì)齊強(qiáng)化跨圖譜注意力網(wǎng)絡(luò)(Contextual Alignment Enhanced Cross Graph Attention Network, CAECGAT),用于跨語(yǔ)言實(shí)體對(duì)齊任務(wù)。該模型能夠利用來(lái)自預(yù)對(duì)齊種子的跨圖譜信息聯(lián)合學(xué)習(xí)不同圖譜的embedding。論文在三個(gè)benchmark實(shí)體鏈接數(shù)據(jù)集上做了充分的實(shí)驗(yàn),論證了該方法性能上的優(yōu)勢(shì)。
方法
圖1(a) 描述了使用預(yù)對(duì)齊實(shí)體的上下文信息,能夠?yàn)閷?duì)齊構(gòu)建提供更加充分的證據(jù)。
例如:中文圖譜中的“哥威迅語(yǔ)“是的譯文可以匹配上英文圖譜中的”Gothic language“,但是事實(shí)上正確的英文實(shí)體對(duì)齊是”Gwich’ in language“,利用預(yù)對(duì)齊的上下文信息則可清晰判斷出這種情況。
圖1(b) 則描述了考慮預(yù)對(duì)齊上下文的模型與常規(guī)GCN-based模型之間的區(qū)別。
圖2是CAECGAT的方法示意圖,其中的核心是CGAT(Cross-KG Attention)層,該部分包含Aggregation和 Attention-based Cross-KG Propagation兩個(gè)主要部分,前者利用預(yù)對(duì)齊種子上下文,轉(zhuǎn)換雙語(yǔ)圖譜得到跨圖譜信息。后者則用于擴(kuò)展這些跨圖譜信息。進(jìn)一步利用Stacking multiple CGAT層,能夠擴(kuò)展單跳鄰居信息為多跳鄰居。
對(duì)于每組預(yù)對(duì)齊實(shí)體組合,組合它們?cè)谄渌鸎G中的對(duì)應(yīng)實(shí)體的embedding,并使用一個(gè)門單元更新它們。其形式如公式1:
其中,el表示第l層的向量表示,gl表示門單元,用于控制跨圖譜信息流,如公式2,對(duì)于沒(méi)有預(yù)對(duì)齊的實(shí)體在aggregation層則沒(méi)有變化。
通過(guò)應(yīng)用這種aggregation方法,可以獲得帶有共享實(shí)體表示的跨圖譜embedding,形式上如公式3,4所示:
接著,利用收集的鄰居信息,繼續(xù)使用attention機(jī)制對(duì)entity embeding進(jìn)行更新,形式如公式5和6:
形式上,上述aggregation與propagation兩層可以一起表示為:
作者描述CAECGAT模型的算法如下:
實(shí)驗(yàn)
本文實(shí)驗(yàn)使用的是DBP15K數(shù)據(jù)的三個(gè)子集,統(tǒng)計(jì)信息如下所示:
實(shí)驗(yàn)結(jié)果如表3所示:
?
?
OpenKG
開放知識(shí)圖譜(簡(jiǎn)稱 OpenKG)旨在促進(jìn)中文知識(shí)圖譜數(shù)據(jù)的開放與互聯(lián),促進(jìn)知識(shí)圖譜和語(yǔ)義技術(shù)的普及和廣泛應(yīng)用。
點(diǎn)擊閱讀原文,進(jìn)入 OpenKG 網(wǎng)站。
總結(jié)
以上是生活随笔為你收集整理的论文浅尝 - COLING2020 | 一种用于跨语言实体对齐的上下文对齐强化跨图谱注意力网络...的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 设计模式实践及总结
- 下一篇: 论文浅尝 | 图神经网络的对抗攻击和防御