日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

论文浅尝 | 基于属性embeddings的跨图谱实体对齐

發(fā)布時(shí)間:2024/7/5 编程问答 27 豆豆
生活随笔 收集整理的這篇文章主要介紹了 论文浅尝 | 基于属性embeddings的跨图谱实体对齐 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

論文筆記整理:譚亦鳴,東南大學(xué)博士生,研究方向?yàn)橹R(shí)庫問答。


來源:AAAI 2019

鏈接:https://aaai.org/ojs/index.php/AAAI/article/view/3798

?

???? 跨圖譜實(shí)體對(duì)齊任務(wù)的目標(biāo)是從兩個(gè)不同知識(shí)圖譜中找出同一 real-world 實(shí)體,對(duì)于這一任務(wù),目前主流的方法多是利用已有的小規(guī)模實(shí)體對(duì)齊作為橋梁,通過 KG embedding 捕獲圖譜中與之相近的實(shí)體,構(gòu)建新的對(duì)齊。作者發(fā)現(xiàn)不同知識(shí)圖譜的謂詞(或者說關(guān)系)設(shè)定往往具有一定規(guī)律性,和表達(dá)的相似性,利用這一點(diǎn),可以初步構(gòu)建不同圖譜之間的謂詞對(duì)齊。知識(shí)圖譜中的三元組可以分為“關(guān)系三元組(實(shí)體-謂詞-實(shí)體)”和“屬性三元組(實(shí)體-謂詞-屬性)”,而不同圖譜中對(duì)于同一屬性的表達(dá)往往差異較小。以此為基礎(chǔ),便可以將不同圖譜embedding至同一空間,實(shí)現(xiàn)同一空間中的實(shí)體相似性匹配(對(duì)齊)。

?

貢獻(xiàn)

作者認(rèn)為本文的主要貢獻(xiàn)包括以下幾點(diǎn):

  • 提出了一種跨圖譜實(shí)體對(duì)齊框架,有謂詞對(duì)齊,embedding學(xué)習(xí),實(shí)體對(duì)齊三個(gè)模塊組成;

  • 提出一種新的embedding方法,利用實(shí)體embedding和屬性embedding之間的關(guān)聯(lián),將兩個(gè)不同知識(shí)圖譜學(xué)習(xí)到同一的embedding空間中;

  • 在真實(shí)的數(shù)據(jù)集上評(píng)估了本方法的性能為目前最優(yōu),在對(duì)齊任務(wù)上達(dá)到了50% 的hits@1(在top1的對(duì)齊結(jié)果中,命中了50%的正確實(shí)體)

  • ?

    方法

    ??????????? 圖1是本文方法的框架概述,包含以下幾個(gè)過程:

    1.????謂詞對(duì)齊(predicate alignment):目標(biāo)是將兩個(gè)圖譜的謂詞對(duì)應(yīng),并改寫為統(tǒng)一命名,作者發(fā)現(xiàn)對(duì)于不同的圖譜,其謂詞的命名存在慣例,比如rdfs:label, geo:wgs84pos#lat, and geo:wgs84 pos#long等等。除此之外,還有一些謂詞的描述是局部匹配的,例如:dbp:diedIn vs.yago:diedIn, and dbp:bornIn vs. yago:wasBornIn。因此,作者將這些描述統(tǒng)一(即去除其不相同的部分,比如dbp/yago…),從而構(gòu)建起圖譜之間的謂詞對(duì)齊。

    2.????Embedding學(xué)習(xí):通過謂詞對(duì)齊,兩個(gè)知識(shí)圖譜的三元組便共享了統(tǒng)一的謂詞空間,因此可以聯(lián)合學(xué)習(xí)兩者的結(jié)構(gòu)embedding和屬性字符embedding,從而生成一個(gè)統(tǒng)一的實(shí)體向量空間。

    結(jié)構(gòu)embedding

    這里使用TransE學(xué)習(xí)知識(shí)圖譜的結(jié)構(gòu)embedding,其目標(biāo)函數(shù)形式如下:

    其中,,t’表示負(fù)樣本,α為控制embedding學(xué)習(xí)的權(quán)值,由以下公式得到:

    其中,|T| 為總?cè)M樣本數(shù),r 為當(dāng)前謂詞,count(r) 為當(dāng)前謂詞的出現(xiàn)次數(shù),這一做法增強(qiáng)了“已對(duì)齊謂詞”的樣本權(quán)值。

    屬性 embedding

    在TransE模型中,屬性可以看作頭實(shí)體(head entity)向量與謂詞向量轉(zhuǎn)換得到。對(duì)于不同知識(shí)圖譜的同一屬性,其描述存在一些差異,但大體相同,例如:50.9989 vs.50.9988888889;"BarackObama" vs. "Barack Hussein Obama"。為了使同一屬性的不同描述歸一化,作者提出將屬性識(shí)別為字符串,而后投影到同一個(gè)空間中,具有相似字符描述的屬性將具有更短的向量距離(這一步作者分別使用SUM/LSTM/N-gram等方法實(shí)現(xiàn),這里不過多贅述,簡(jiǎn)寫為fa(t))。

    因此屬性embedding的損失函數(shù)中, 屬性embedding損失函數(shù)為:

    Joint learning

    在獲取上述兩個(gè)embedding后,作者聯(lián)合兩者的實(shí)體向量,構(gòu)建目標(biāo)函數(shù)將兩者實(shí)體投影到同一個(gè)空間中:

    并整合上述三個(gè)目標(biāo)函數(shù)構(gòu)成embedding整體目標(biāo)函數(shù)為:

    3.????實(shí)體對(duì)齊

    在完成上述embedding學(xué)習(xí)后,實(shí)體對(duì)齊的目標(biāo)就是獲取向量距離較小的實(shí)體對(duì),即:

    實(shí)驗(yàn)

    數(shù)據(jù)集

    ? 本文在四個(gè) KG 上測(cè)試了框架的性能,包括:DBpedia,LinkedGeoData,Geonames 以及 YAGO;圖譜對(duì)齊實(shí)驗(yàn)的匹配組合為(DBpedia- LinkedGeoData),(DBpedia-Geonames),(DBpedia-YAGO),詳細(xì)統(tǒng)計(jì)信息如下表:

    實(shí)驗(yàn)結(jié)果

    ???? 模型性能實(shí)驗(yàn)結(jié)果如下表所示,

    ???? 值得注意的是,當(dāng)屬性 embedding 采用 N-gram 策略時(shí),性能尤其突出。

    ?


    OpenKG

    開放知識(shí)圖譜(簡(jiǎn)稱 OpenKG)旨在促進(jìn)中文知識(shí)圖譜數(shù)據(jù)的開放與互聯(lián),促進(jìn)知識(shí)圖譜和語義技術(shù)的普及和廣泛應(yīng)用。

    點(diǎn)擊閱讀原文,進(jìn)入 OpenKG 博客。

    創(chuàng)作挑戰(zhàn)賽新人創(chuàng)作獎(jiǎng)勵(lì)來咯,堅(jiān)持創(chuàng)作打卡瓜分現(xiàn)金大獎(jiǎng)

    總結(jié)

    以上是生活随笔為你收集整理的论文浅尝 | 基于属性embeddings的跨图谱实体对齐的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。