當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

论文浅尝 - ECIR2021 | 两种实体对齐方法的严格评估

發(fā)布時間：2024/7/5 编程问答 57 豆豆

生活随笔收集整理的這篇文章主要介紹了论文浅尝 - ECIR2021 | 两种实体对齐方法的严格评估小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

筆記整理 |?譚亦鳴，東南大學(xué)博士生

來源: ECIR 2021

在這篇工作中，作者對兩種SOTA實體對齊方法做了廣泛的研究：首先仔細(xì)分析了現(xiàn)有benchmark的過程，并論證了其中存在一些缺陷，使得原始方法給出的實驗結(jié)果之間可能存在不可對比的情況；另一方面，作者懷疑存在一種普遍的直接對測試集做超參數(shù)優(yōu)化的處理，這種情況將會導(dǎo)致論文發(fā)表的實驗性能的可靠性（價值）不那么高。因此，本文篩選了一種具有代表性的benchmark數(shù)據(jù)集樣本，分析它的特征，同時，考慮到實體的表示對于系統(tǒng)性能的決定性影響，作者對實體表示的不同初始化方案也進(jìn)行了測試。進(jìn)一步的，作者使用共同的訓(xùn)練/驗證/測試集在所有數(shù)據(jù)集和所有方法上進(jìn)行了實驗評估，從結(jié)果上看，雖然大多數(shù)情況下，SOTA方法都優(yōu)于baseline，但是當(dāng)數(shù)據(jù)集包含噪聲時，則出現(xiàn)明顯性能下降。

首先作者對現(xiàn)有方法的共性做了說明：

1.大多數(shù)方法基于GNN

2.使用基于表示學(xué)習(xí)的實體名特征

3.考慮了KG中不同類型的關(guān)系（在預(yù)處理過程中聚合不同類型的關(guān)系）

基于這些共性，作者選擇了在近期工作中效果較好的關(guān)系感知-雙圖卷積網(wǎng)絡(luò)（RDGCN），此外，也引入了深度圖匹配共識（DGMC）出于以下兩個因素：i.前面提到的工作未提到該方法 ; ii.在該方法沒有使用關(guān)系類型信息的條件下，取得了非常好的性能。

實體對齊數(shù)據(jù)集分析：

表1列舉了目前實體對齊任務(wù)所使用的公開數(shù)據(jù)集：

DBP15K：目前最流行的對齊評價數(shù)據(jù)集，包含來自DBpedia的三個子集（語言對），數(shù)據(jù)集存在多個涵蓋共享對齊實體的變體，所有的對齊均為1->1的情況，從數(shù)據(jù)集的構(gòu)建方法來看，除共享實體之外的其他實體（排他實體？exclusive entity）之間不存在關(guān)系，導(dǎo)致這些實體的匹配過程復(fù)雜化，在實際應(yīng)用中，它們也難以被確定。因此作者認(rèn)為該數(shù)據(jù)集僅在一定程度上反映了部分真實用例。此外，作為PyTorch Geometric資源的一部分，DBP15k的另一個變體具有不同的對齊實體集，這就導(dǎo)致了這些已發(fā)布的方法之間并不能直接的對比它們之間的性能。因此，為了解決這個問題，作者使用了一個更小的JAPE變體，每個圖譜包含19-20k實體。

OpenEA由基于度分布的采樣方法從DBpedia，YAGO以及Wikidata中獲取的KG pairs，其對齊也是1->1匹配，其中不包括exclusive entity，本文使用所有的KG pairs包含15k的實體。

WK3l15k是從維基百科提取的多語言KG pairs，作者也額外從平行三元組中抽取了對齊實體，圖譜包含補充的exclusive entity，并且存在m->n的匹配情況。作者也是使用了15k規(guī)模的樣本，每個KG包含15k左右的實體，語言對為英-德和英-法。

基于標(biāo)注的初始化方法

Prepared translations：DBP15k數(shù)據(jù)集中命名實體一般先翻譯為英語，然后使用Glove進(jìn)行向量化處理；

Prepared RDGCN embeddings：OpenEA考慮到DBpedia與YAGO來自相似的數(shù)據(jù)源，它們的label往往是對等的。對于這類KG pairs，作者的做法是將這些label刪去。然而RDGCN需要基于label的初始化，因此作者通過預(yù)定義的命名屬性給出屬性三元組，從而獲取label。當(dāng)無法通過屬性找到label的時候則會選擇使用實體的url替代。

Multilingual-BERT：WK3l15K上并沒有實體嵌入相關(guān)的工作，因此這里作者使用M-BERT預(yù)訓(xùn)練模型處理這個部分，并使用最后四層之和為字符表示，并研究了總和，均值以及最大聚合作為超參數(shù)的情況。

實體對齊方法

本文主要評估了兩種對齊方法：RDGCN以及DGMC。

與所有GNN方法類似，兩個模型均采用了Siamese體系，因此對于所有的KG都使用了相同的模型以及相同的權(quán)重處理實體向量表示。得到實體表示之后，對齊方法計算一個affinity矩陣用于描述兩個圖譜上的實體之間的相似度。

RDGCN

RDGCN模型包括：

1.relation-aware message passing;

模型學(xué)習(xí)關(guān)系的重要性，并對由這些關(guān)系連接的對應(yīng)實體的信息進(jìn)行加權(quán)。

包含四個步驟（：

a.從實體表示獲取關(guān)系文本，對于每個關(guān)系提取其上下文用于連接頭尾實體平均表示；

b.DA表示對偶圖注意機(jī)制，通過ReLU激活函數(shù)計算其注意力得分；

c.更新實體的表示；

d.應(yīng)用一個從初始化表示到當(dāng)前實體表示的跳躍連接；

2.standard message passing

利用一個鄰接矩陣反映兩個實體之間是否存在關(guān)系。

該部分由一系列的GCN層以及highway層構(gòu)成，每層都通過以下方式運算：

DGMC

DGMC也包含兩個部分：

1.enrichment

通過一系列GNN層利用鄰居信息強(qiáng)化實體表示：

每層的計算方式為：

2.correspondence refinement

該部分首先針對每個實體計算其他子圖中最接近的匹配，通過稀疏對應(yīng)關(guān)系矩陣表示，而后對每個實體隨機(jī)生成向量，并將它們發(fā)送到可能的匹配項。

實驗

實驗設(shè)置

評價的標(biāo)準(zhǔn)使用Hits@1，衡量匹配實體top-1的準(zhǔn)確性

考慮到過去的工作中沒有一個統(tǒng)一的訓(xùn)練-驗證劃分，因此這里作者建立了一個標(biāo)準(zhǔn)訓(xùn)練驗證測試的子集劃分（70%用于測試，24%用于訓(xùn)練，6%用于驗證），從而進(jìn)行一個公平對比。

作者繼續(xù)調(diào)整了每個數(shù)據(jù)集上各模型的參數(shù)設(shè)置，并采用了上述初始化方案（超參設(shè)置如表3）

模型訓(xùn)練的early stop條件基于Hits@1確定，并最終選出驗證集上最好的模型進(jìn)行測試比對（實驗結(jié)果見表4）

首先從zero-shot的結(jié)果看，即使是最弱的環(huán)境(openEA 39.15%)，單純使用實體命名表示也是能夠具有一定的準(zhǔn)確性，因此與不使用該信息的模型進(jìn)行對比是不公平的。在DBP15k上，可以看到Wu的初始化策略比Xu要強(qiáng)7%-9%。

模型性能對比

可以看到兩者在三個數(shù)據(jù)集上均優(yōu)于基線模型，但兩者之間卻沒有明顯的優(yōu)劣差異。雖然DGMC與預(yù)期結(jié)果相比有所降低，但是在幾乎所有的DBP15K子集上，均有一定性能優(yōu)勢，這論證了較小的測試集可能導(dǎo)致更好的實驗結(jié)果。

此外，不同的初始化也回影響模型的性能，尤其反映在DGMC（ja-en）以及GCN-Align(fr-en)。RDGCN在OpenEA子集上具有明顯優(yōu)勢。

WK3L15k數(shù)據(jù)集的結(jié)果是值得關(guān)注的例外，DGMC方法的性能因其對應(yīng)關(guān)系的細(xì)化而被認(rèn)為對噪聲具有魯棒性，但它的性能并不優(yōu)于zero-shot結(jié)果。

可以得到結(jié)論，對于基于GNN的實體對齊方法來說，其性能的主要影響還是來自超參數(shù)。

表5給出了OpenEA上對于RDGCN模型參數(shù)的消融實驗結(jié)果：

OpenKG

開放知識圖譜（簡稱 OpenKG）旨在促進(jìn)中文知識圖譜數(shù)據(jù)的開放與互聯(lián)，促進(jìn)知識圖譜和語義技術(shù)的普及和廣泛應(yīng)用。

點擊閱讀原文，進(jìn)入 OpenKG 網(wǎng)站。

總結(jié)

以上是生活随笔為你收集整理的论文浅尝 - ECIR2021 | 两种实体对齐方法的严格评估的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇：论文浅尝 | 通过阅读实体描述进行零样本
下一篇：论文浅尝 | CoRR - 面向复杂知识

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

编程问答

论文浅尝 - ECIR2021 | 两种实体对齐方法的严格评估

總結(jié)