论文浅尝 - ACL2020 | 通过集成知识转换进行多语言知识图谱补全
筆記整理 | 譚亦鳴,東南大學(xué)博士生
概述
預(yù)測(cè)圖譜中缺失的事實(shí)(fact)是知識(shí)圖譜構(gòu)建與推理中的一個(gè)重要任務(wù),近年來也被許多KG embedding研究的關(guān)注對(duì)象。雖然目前的KG embedding方法主要學(xué)習(xí)和預(yù)測(cè)的是單個(gè)圖譜中的事實(shí),但是考慮到KG之間不同規(guī)模,不同質(zhì)量和覆蓋面的差異,一個(gè)更加合理的解決方案是將其應(yīng)用于多語言知識(shí)上。由于知識(shí)在不同KG之間的傳遞往往收到描述不一致和對(duì)齊信息缺失的問題,因此(多語言知識(shí)圖譜上的補(bǔ)全)這是一個(gè)具有挑戰(zhàn)性的任務(wù)。本文提出了KEnS,一個(gè)新的框架,可以用于embedding學(xué)習(xí)以及在多個(gè)特定語言KG上集成知識(shí)并相互轉(zhuǎn)換。KEnS將所有的KG embed進(jìn)一個(gè)共享空間,通過self-learning捕獲關(guān)聯(lián)實(shí)體,之后執(zhí)行集成推理從而將多語言KG embedding上的預(yù)測(cè)結(jié)果聯(lián)合起來。作者探究了多種聯(lián)合的模式,在五個(gè)真實(shí)多語言KG上的實(shí)驗(yàn)表明,通過有效識(shí)別和利用補(bǔ)充的知識(shí),KEnS在補(bǔ)全任務(wù)上進(jìn)一步提升了SOTA方法的性能。
方法
圖1描述了KEnS的集成推理過程,該模型首先聯(lián)合多語言KG embedding模型的預(yù)測(cè)結(jié)果,然后從那些結(jié)果中找出可能性最大的答案,從而提升圖譜補(bǔ)全的性能。KEnS包括兩個(gè)主要過程:1. Embedding學(xué)習(xí);2. 集成推理。前者將每個(gè)KG的實(shí)體和關(guān)系編碼進(jìn)一個(gè)共享的embedding空間(類似于對(duì)齊模型的做法),這使得模型支持跨不同KG的查詢。集成推理過程聯(lián)合來自不同KG的預(yù)測(cè)結(jié)果,并且為了進(jìn)一步提高每個(gè)KG上預(yù)測(cè)的可靠性,作者引入了一種增強(qiáng)方法來學(xué)習(xí)知識(shí)模型的實(shí)體特定權(quán)重。
下面分別對(duì)KG embedding及集成推理的細(xì)節(jié)進(jìn)行說明:
在embedding方面,包含知識(shí)模型與對(duì)齊模型兩個(gè)部分,其中知識(shí)模型的學(xué)習(xí)目標(biāo)可以通過公式1表示:
其中[·]+=max(·, 0),f是一個(gè)三元組打分函數(shù),越高的得分表明該三元組描述的事實(shí)越可靠,是一個(gè)超參數(shù),則表示通過隨機(jī)替換生成的的負(fù)例,在f函數(shù)方面,作者考慮了TransE以及RotatE兩種方式:
在對(duì)齊模型方面,其學(xué)習(xí)目標(biāo)如公式4(通過訓(xùn)練使對(duì)齊實(shí)體之間的向量距離盡可能小):
兩者整合的目標(biāo)函數(shù)為:
集成推理部分,首先KEnS通過對(duì)齊模型預(yù)測(cè)多語言圖譜之間的實(shí)體對(duì)齊,基于對(duì)齊實(shí)體,將query轉(zhuǎn)換到其他KG上,獲取結(jié)果之后再通過對(duì)齊轉(zhuǎn)換回初始KG,接著對(duì)于獲取的候選結(jié)果,利用公式6對(duì)其進(jìn)行加權(quán):
其中,e表示目標(biāo)KG上的一個(gè)實(shí)體,wi(e)表示一個(gè)實(shí)體特定模型權(quán)重,當(dāng)e在KGi的embedding模型fi上排在Top-K, 則Ni(e)為1,否則Ni(e)為0。這里在w的計(jì)算上,作者構(gòu)建了三種變體,其一是利用boosting方法對(duì)每個(gè)實(shí)體學(xué)習(xí)特定權(quán)重,其二是對(duì)所有實(shí)體和embedding模型修正權(quán)重為1,其三則是使用embedding模型f在驗(yàn)證集上的mean reciprocal rank(MRR)作為權(quán)重。
實(shí)驗(yàn)
數(shù)據(jù)方面,由于目前還沒有一個(gè)面向多語言補(bǔ)全的數(shù)據(jù)集,因此他們收集了一個(gè)涵蓋英語,法語,西班牙語,日語以及希臘語等語言的DBpedia子集,并命名為DBP-5L,其上的預(yù)測(cè)結(jié)果如標(biāo)2所示:
?
OpenKG
開放知識(shí)圖譜(簡(jiǎn)稱 OpenKG)旨在促進(jìn)中文知識(shí)圖譜數(shù)據(jù)的開放與互聯(lián),促進(jìn)知識(shí)圖譜和語義技術(shù)的普及和廣泛應(yīng)用。
點(diǎn)擊閱讀原文,進(jìn)入 OpenKG 網(wǎng)站。
總結(jié)
以上是生活随笔為你收集整理的论文浅尝 - ACL2020 | 通过集成知识转换进行多语言知识图谱补全的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 论文浅尝 | 基于未知谓词与实体类型知识
- 下一篇: 论文浅尝 | 用于嵌套命名实体识别的二部