當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

论文浅尝 | 基于属性embeddings的跨图谱实体对齐

發(fā)布時(shí)間：2024/7/5 编程问答 27 豆豆

生活随笔收集整理的這篇文章主要介紹了论文浅尝 | 基于属性embeddings的跨图谱实体对齐小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

論文筆記整理：譚亦鳴，東南大學(xué)博士生，研究方向?yàn)橹R(shí)庫問答。

來源：AAAI 2019

鏈接：https://aaai.org/ojs/index.php/AAAI/article/view/3798

???? 跨圖譜實(shí)體對(duì)齊任務(wù)的目標(biāo)是從兩個(gè)不同知識(shí)圖譜中找出同一 real-world 實(shí)體，對(duì)于這一任務(wù)，目前主流的方法多是利用已有的小規(guī)模實(shí)體對(duì)齊作為橋梁，通過 KG embedding 捕獲圖譜中與之相近的實(shí)體，構(gòu)建新的對(duì)齊。作者發(fā)現(xiàn)不同知識(shí)圖譜的謂詞（或者說關(guān)系）設(shè)定往往具有一定規(guī)律性，和表達(dá)的相似性，利用這一點(diǎn)，可以初步構(gòu)建不同圖譜之間的謂詞對(duì)齊。知識(shí)圖譜中的三元組可以分為“關(guān)系三元組（實(shí)體-謂詞-實(shí)體）”和“屬性三元組（實(shí)體-謂詞-屬性）”，而不同圖譜中對(duì)于同一屬性的表達(dá)往往差異較小。以此為基礎(chǔ)，便可以將不同圖譜embedding至同一空間，實(shí)現(xiàn)同一空間中的實(shí)體相似性匹配（對(duì)齊）。

貢獻(xiàn)

作者認(rèn)為本文的主要貢獻(xiàn)包括以下幾點(diǎn)：

提出了一種跨圖譜實(shí)體對(duì)齊框架，有謂詞對(duì)齊，embedding學(xué)習(xí)，實(shí)體對(duì)齊三個(gè)模塊組成；

提出一種新的embedding方法，利用實(shí)體embedding和屬性embedding之間的關(guān)聯(lián)，將兩個(gè)不同知識(shí)圖譜學(xué)習(xí)到同一的embedding空間中；

在真實(shí)的數(shù)據(jù)集上評(píng)估了本方法的性能為目前最優(yōu)，在對(duì)齊任務(wù)上達(dá)到了50% 的hits@1（在top1的對(duì)齊結(jié)果中，命中了50%的正確實(shí)體）

方法

??????????? 圖1是本文方法的框架概述，包含以下幾個(gè)過程：

1.????謂詞對(duì)齊（predicate alignment）：目標(biāo)是將兩個(gè)圖譜的謂詞對(duì)應(yīng)，并改寫為統(tǒng)一命名，作者發(fā)現(xiàn)對(duì)于不同的圖譜，其謂詞的命名存在慣例，比如rdfs:label, geo:wgs84pos#lat, and geo:wgs84 pos#long等等。除此之外，還有一些謂詞的描述是局部匹配的，例如：dbp:diedIn vs.yago:diedIn, and dbp:bornIn vs. yago:wasBornIn。因此，作者將這些描述統(tǒng)一（即去除其不相同的部分，比如dbp/yago…），從而構(gòu)建起圖譜之間的謂詞對(duì)齊。

2.????Embedding學(xué)習(xí)：通過謂詞對(duì)齊，兩個(gè)知識(shí)圖譜的三元組便共享了統(tǒng)一的謂詞空間，因此可以聯(lián)合學(xué)習(xí)兩者的結(jié)構(gòu)embedding和屬性字符embedding，從而生成一個(gè)統(tǒng)一的實(shí)體向量空間。

結(jié)構(gòu)embedding

這里使用TransE學(xué)習(xí)知識(shí)圖譜的結(jié)構(gòu)embedding，其目標(biāo)函數(shù)形式如下：

其中，，t’表示負(fù)樣本，α為控制embedding學(xué)習(xí)的權(quán)值，由以下公式得到:

其中，|T| 為總?cè)M樣本數(shù)，r 為當(dāng)前謂詞，count(r) 為當(dāng)前謂詞的出現(xiàn)次數(shù)，這一做法增強(qiáng)了“已對(duì)齊謂詞”的樣本權(quán)值。

屬性 embedding

在TransE模型中，屬性可以看作頭實(shí)體（head entity）向量與謂詞向量轉(zhuǎn)換得到。對(duì)于不同知識(shí)圖譜的同一屬性，其描述存在一些差異，但大體相同，例如：50.9989 vs.50.9988888889；"BarackObama" vs. "Barack Hussein Obama"。為了使同一屬性的不同描述歸一化，作者提出將屬性識(shí)別為字符串，而后投影到同一個(gè)空間中，具有相似字符描述的屬性將具有更短的向量距離（這一步作者分別使用SUM/LSTM/N-gram等方法實(shí)現(xiàn)，這里不過多贅述，簡(jiǎn)寫為f_a(t)）。

因此屬性embedding的損失函數(shù)中，屬性embedding損失函數(shù)為：

Joint learning

在獲取上述兩個(gè)embedding后，作者聯(lián)合兩者的實(shí)體向量，構(gòu)建目標(biāo)函數(shù)將兩者實(shí)體投影到同一個(gè)空間中：

并整合上述三個(gè)目標(biāo)函數(shù)構(gòu)成embedding整體目標(biāo)函數(shù)為：

3.????實(shí)體對(duì)齊

在完成上述embedding學(xué)習(xí)后，實(shí)體對(duì)齊的目標(biāo)就是獲取向量距離較小的實(shí)體對(duì)，即：

實(shí)驗(yàn)

數(shù)據(jù)集

? 本文在四個(gè) KG 上測(cè)試了框架的性能，包括：DBpedia，LinkedGeoData，Geonames 以及 YAGO；圖譜對(duì)齊實(shí)驗(yàn)的匹配組合為（DBpedia- LinkedGeoData）,（DBpedia-Geonames），（DBpedia-YAGO），詳細(xì)統(tǒng)計(jì)信息如下表：

實(shí)驗(yàn)結(jié)果

???? 模型性能實(shí)驗(yàn)結(jié)果如下表所示，

???? 值得注意的是，當(dāng)屬性 embedding 采用 N-gram 策略時(shí)，性能尤其突出。

OpenKG

開放知識(shí)圖譜（簡(jiǎn)稱 OpenKG）旨在促進(jìn)中文知識(shí)圖譜數(shù)據(jù)的開放與互聯(lián)，促進(jìn)知識(shí)圖譜和語義技術(shù)的普及和廣泛應(yīng)用。

點(diǎn)擊閱讀原文，進(jìn)入 OpenKG 博客。

創(chuàng)作挑戰(zhàn)賽新人創(chuàng)作獎(jiǎng)勵(lì)來咯，堅(jiān)持創(chuàng)作打卡瓜分現(xiàn)金大獎(jiǎng)

總結(jié)

以上是生活随笔為你收集整理的论文浅尝 | 基于属性embeddings的跨图谱实体对齐的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：会议 | CCKS 2019 全国知识图
下一篇：阿里P8架构师谈：深入探讨HashMap