论文浅尝 | 基于属性embeddings的跨图谱实体对齐
論文筆記整理:譚亦鳴,東南大學(xué)博士生,研究方向?yàn)橹R(shí)庫問答。
來源:AAAI 2019
鏈接:https://aaai.org/ojs/index.php/AAAI/article/view/3798
?
???? 跨圖譜實(shí)體對(duì)齊任務(wù)的目標(biāo)是從兩個(gè)不同知識(shí)圖譜中找出同一 real-world 實(shí)體,對(duì)于這一任務(wù),目前主流的方法多是利用已有的小規(guī)模實(shí)體對(duì)齊作為橋梁,通過 KG embedding 捕獲圖譜中與之相近的實(shí)體,構(gòu)建新的對(duì)齊。作者發(fā)現(xiàn)不同知識(shí)圖譜的謂詞(或者說關(guān)系)設(shè)定往往具有一定規(guī)律性,和表達(dá)的相似性,利用這一點(diǎn),可以初步構(gòu)建不同圖譜之間的謂詞對(duì)齊。知識(shí)圖譜中的三元組可以分為“關(guān)系三元組(實(shí)體-謂詞-實(shí)體)”和“屬性三元組(實(shí)體-謂詞-屬性)”,而不同圖譜中對(duì)于同一屬性的表達(dá)往往差異較小。以此為基礎(chǔ),便可以將不同圖譜embedding至同一空間,實(shí)現(xiàn)同一空間中的實(shí)體相似性匹配(對(duì)齊)。
?
貢獻(xiàn)
作者認(rèn)為本文的主要貢獻(xiàn)包括以下幾點(diǎn):
提出了一種跨圖譜實(shí)體對(duì)齊框架,有謂詞對(duì)齊,embedding學(xué)習(xí),實(shí)體對(duì)齊三個(gè)模塊組成;
提出一種新的embedding方法,利用實(shí)體embedding和屬性embedding之間的關(guān)聯(lián),將兩個(gè)不同知識(shí)圖譜學(xué)習(xí)到同一的embedding空間中;
在真實(shí)的數(shù)據(jù)集上評(píng)估了本方法的性能為目前最優(yōu),在對(duì)齊任務(wù)上達(dá)到了50% 的hits@1(在top1的對(duì)齊結(jié)果中,命中了50%的正確實(shí)體)
?
方法
??????????? 圖1是本文方法的框架概述,包含以下幾個(gè)過程:
1.????謂詞對(duì)齊(predicate alignment):目標(biāo)是將兩個(gè)圖譜的謂詞對(duì)應(yīng),并改寫為統(tǒng)一命名,作者發(fā)現(xiàn)對(duì)于不同的圖譜,其謂詞的命名存在慣例,比如rdfs:label, geo:wgs84pos#lat, and geo:wgs84 pos#long等等。除此之外,還有一些謂詞的描述是局部匹配的,例如:dbp:diedIn vs.yago:diedIn, and dbp:bornIn vs. yago:wasBornIn。因此,作者將這些描述統(tǒng)一(即去除其不相同的部分,比如dbp/yago…),從而構(gòu)建起圖譜之間的謂詞對(duì)齊。
2.????Embedding學(xué)習(xí):通過謂詞對(duì)齊,兩個(gè)知識(shí)圖譜的三元組便共享了統(tǒng)一的謂詞空間,因此可以聯(lián)合學(xué)習(xí)兩者的結(jié)構(gòu)embedding和屬性字符embedding,從而生成一個(gè)統(tǒng)一的實(shí)體向量空間。
結(jié)構(gòu)embedding
這里使用TransE學(xué)習(xí)知識(shí)圖譜的結(jié)構(gòu)embedding,其目標(biāo)函數(shù)形式如下:
其中,,t’表示負(fù)樣本,α為控制embedding學(xué)習(xí)的權(quán)值,由以下公式得到:
其中,|T| 為總?cè)M樣本數(shù),r 為當(dāng)前謂詞,count(r) 為當(dāng)前謂詞的出現(xiàn)次數(shù),這一做法增強(qiáng)了“已對(duì)齊謂詞”的樣本權(quán)值。
屬性 embedding
在TransE模型中,屬性可以看作頭實(shí)體(head entity)向量與謂詞向量轉(zhuǎn)換得到。對(duì)于不同知識(shí)圖譜的同一屬性,其描述存在一些差異,但大體相同,例如:50.9989 vs.50.9988888889;"BarackObama" vs. "Barack Hussein Obama"。為了使同一屬性的不同描述歸一化,作者提出將屬性識(shí)別為字符串,而后投影到同一個(gè)空間中,具有相似字符描述的屬性將具有更短的向量距離(這一步作者分別使用SUM/LSTM/N-gram等方法實(shí)現(xiàn),這里不過多贅述,簡(jiǎn)寫為fa(t))。
因此屬性embedding的損失函數(shù)中, 屬性embedding損失函數(shù)為:
Joint learning
在獲取上述兩個(gè)embedding后,作者聯(lián)合兩者的實(shí)體向量,構(gòu)建目標(biāo)函數(shù)將兩者實(shí)體投影到同一個(gè)空間中:
并整合上述三個(gè)目標(biāo)函數(shù)構(gòu)成embedding整體目標(biāo)函數(shù)為:
3.????實(shí)體對(duì)齊
在完成上述embedding學(xué)習(xí)后,實(shí)體對(duì)齊的目標(biāo)就是獲取向量距離較小的實(shí)體對(duì),即:
實(shí)驗(yàn)
數(shù)據(jù)集
? 本文在四個(gè) KG 上測(cè)試了框架的性能,包括:DBpedia,LinkedGeoData,Geonames 以及 YAGO;圖譜對(duì)齊實(shí)驗(yàn)的匹配組合為(DBpedia- LinkedGeoData),(DBpedia-Geonames),(DBpedia-YAGO),詳細(xì)統(tǒng)計(jì)信息如下表:
實(shí)驗(yàn)結(jié)果
???? 模型性能實(shí)驗(yàn)結(jié)果如下表所示,
???? 值得注意的是,當(dāng)屬性 embedding 采用 N-gram 策略時(shí),性能尤其突出。
?
OpenKG
開放知識(shí)圖譜(簡(jiǎn)稱 OpenKG)旨在促進(jìn)中文知識(shí)圖譜數(shù)據(jù)的開放與互聯(lián),促進(jìn)知識(shí)圖譜和語義技術(shù)的普及和廣泛應(yīng)用。
點(diǎn)擊閱讀原文,進(jìn)入 OpenKG 博客。
創(chuàng)作挑戰(zhàn)賽新人創(chuàng)作獎(jiǎng)勵(lì)來咯,堅(jiān)持創(chuàng)作打卡瓜分現(xiàn)金大獎(jiǎng)總結(jié)
以上是生活随笔為你收集整理的论文浅尝 | 基于属性embeddings的跨图谱实体对齐的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 会议 | CCKS 2019 全国知识图
- 下一篇: 阿里P8架构师谈:深入探讨HashMap