论文浅尝 - ECIR2021 | 两种实体对齐方法的严格评估
筆記整理 |?譚亦鳴,東南大學(xué)博士生
來源: ECIR 2021
在這篇工作中,作者對兩種SOTA實體對齊方法做了廣泛的研究:首先仔細(xì)分析了現(xiàn)有benchmark的過程,并論證了其中存在一些缺陷,使得原始方法給出的實驗結(jié)果之間可能存在不可對比的情況;另一方面,作者懷疑存在一種普遍的直接對測試集做超參數(shù)優(yōu)化的處理,這種情況將會導(dǎo)致論文發(fā)表的實驗性能的可靠性(價值)不那么高。因此,本文篩選了一種具有代表性的benchmark數(shù)據(jù)集樣本,分析它的特征,同時,考慮到實體的表示對于系統(tǒng)性能的決定性影響,作者對實體表示的不同初始化方案也進(jìn)行了測試。進(jìn)一步的,作者使用共同的訓(xùn)練/驗證/測試集在所有數(shù)據(jù)集和所有方法上進(jìn)行了實驗評估,從結(jié)果上看,雖然大多數(shù)情況下,SOTA方法都優(yōu)于baseline,但是當(dāng)數(shù)據(jù)集包含噪聲時,則出現(xiàn)明顯性能下降。
首先作者對現(xiàn)有方法的共性做了說明:
1.大多數(shù)方法基于GNN
2.使用基于表示學(xué)習(xí)的實體名特征
3.考慮了KG中不同類型的關(guān)系(在預(yù)處理過程中聚合不同類型的關(guān)系)
基于這些共性,作者選擇了在近期工作中效果較好的關(guān)系感知-雙圖卷積網(wǎng)絡(luò)(RDGCN),此外,也引入了深度圖匹配共識(DGMC)出于以下兩個因素:i.前面提到的工作未提到該方法 ; ii.在該方法沒有使用關(guān)系類型信息的條件下,取得了非常好的性能。
實體對齊數(shù)據(jù)集分析:
表1列舉了目前實體對齊任務(wù)所使用的公開數(shù)據(jù)集:
DBP15K:目前最流行的對齊評價數(shù)據(jù)集,包含來自DBpedia的三個子集(語言對),數(shù)據(jù)集存在多個涵蓋共享對齊實體的變體,所有的對齊均為1->1的情況,從數(shù)據(jù)集的構(gòu)建方法來看,除共享實體之外的其他實體(排他實體?exclusive entity)之間不存在關(guān)系,導(dǎo)致這些實體的匹配過程復(fù)雜化,在實際應(yīng)用中,它們也難以被確定。因此作者認(rèn)為該數(shù)據(jù)集僅在一定程度上反映了部分真實用例。此外,作為PyTorch Geometric資源的一部分,DBP15k的另一個變體具有不同的對齊實體集,這就導(dǎo)致了這些已發(fā)布的方法之間并不能直接的對比它們之間的性能。因此,為了解決這個問題,作者使用了一個更小的JAPE變體,每個圖譜包含19-20k實體。
OpenEA由基于度分布的采樣方法從DBpedia,YAGO以及Wikidata中獲取的KG pairs,其對齊也是1->1匹配,其中不包括exclusive entity,本文使用所有的KG pairs包含15k的實體。
WK3l15k是從維基百科提取的多語言KG pairs,作者也額外從平行三元組中抽取了對齊實體,圖譜包含補充的exclusive entity,并且存在m->n的匹配情況。作者也是使用了15k規(guī)模的樣本,每個KG包含15k左右的實體,語言對為英-德和英-法。
基于標(biāo)注的初始化方法
Prepared translations:DBP15k數(shù)據(jù)集中命名實體一般先翻譯為英語,然后使用Glove進(jìn)行向量化處理;
Prepared RDGCN embeddings:OpenEA考慮到DBpedia與YAGO來自相似的數(shù)據(jù)源,它們的label往往是對等的。對于這類KG pairs,作者的做法是將這些label刪去。然而RDGCN需要基于label的初始化,因此作者通過預(yù)定義的命名屬性給出屬性三元組,從而獲取label。當(dāng)無法通過屬性找到label的時候則會選擇使用實體的url替代。
Multilingual-BERT:WK3l15K上并沒有實體嵌入相關(guān)的工作,因此這里作者使用M-BERT預(yù)訓(xùn)練模型處理這個部分,并使用最后四層之和為字符表示,并研究了總和,均值以及最大聚合作為超參數(shù)的情況。
實體對齊方法
本文主要評估了兩種對齊方法:RDGCN以及DGMC。
與所有GNN方法類似,兩個模型均采用了Siamese體系,因此對于所有的KG都使用了相同的模型以及相同的權(quán)重處理實體向量表示。得到實體表示之后,對齊方法計算一個affinity矩陣用于描述兩個圖譜上的實體之間的相似度。
RDGCN
RDGCN模型包括:
1.relation-aware message passing;
模型學(xué)習(xí)關(guān)系的重要性,并對由這些關(guān)系連接的對應(yīng)實體的信息進(jìn)行加權(quán)。
包含四個步驟(:
a.從實體表示獲取關(guān)系文本,對于每個關(guān)系提取其上下文用于連接頭尾實體平均表示;
b.DA表示對偶圖注意機(jī)制,通過ReLU激活函數(shù)計算其注意力得分;
c.更新實體的表示;
d.應(yīng)用一個從初始化表示到當(dāng)前實體表示的跳躍連接;
2.standard message passing
利用一個鄰接矩陣反映兩個實體之間是否存在關(guān)系。
該部分由一系列的GCN層以及highway層構(gòu)成,每層都通過以下方式運算:
DGMC
DGMC也包含兩個部分:
1.enrichment
通過一系列GNN層利用鄰居信息強(qiáng)化實體表示:
每層的計算方式為:
2.correspondence refinement
該部分首先針對每個實體計算其他子圖中最接近的匹配,通過稀疏對應(yīng)關(guān)系矩陣表示,而后對每個實體隨機(jī)生成向量,并將它們發(fā)送到可能的匹配項。
實驗
實驗設(shè)置
評價的標(biāo)準(zhǔn)使用Hits@1,衡量匹配實體top-1的準(zhǔn)確性
考慮到過去的工作中沒有一個統(tǒng)一的訓(xùn)練-驗證劃分,因此這里作者建立了一個標(biāo)準(zhǔn)訓(xùn)練驗證測試的子集劃分(70%用于測試,24%用于訓(xùn)練,6%用于驗證),從而進(jìn)行一個公平對比。
作者繼續(xù)調(diào)整了每個數(shù)據(jù)集上各模型的參數(shù)設(shè)置,并采用了上述初始化方案(超參設(shè)置如表3)
模型訓(xùn)練的early stop條件基于Hits@1確定,并最終選出驗證集上最好的模型進(jìn)行測試比對(實驗結(jié)果見表4)
首先從zero-shot的結(jié)果看,即使是最弱的環(huán)境(openEA 39.15%),單純使用實體命名表示也是能夠具有一定的準(zhǔn)確性,因此與不使用該信息的模型進(jìn)行對比是不公平的。在DBP15k上,可以看到Wu的初始化策略比Xu要強(qiáng)7%-9%。
模型性能對比
可以看到兩者在三個數(shù)據(jù)集上均優(yōu)于基線模型,但兩者之間卻沒有明顯的優(yōu)劣差異。雖然DGMC與預(yù)期結(jié)果相比有所降低,但是在幾乎所有的DBP15K子集上,均有一定性能優(yōu)勢,這論證了較小的測試集可能導(dǎo)致更好的實驗結(jié)果。
此外,不同的初始化也回影響模型的性能,尤其反映在DGMC(ja-en)以及GCN-Align(fr-en)。RDGCN在OpenEA子集上具有明顯優(yōu)勢。
WK3L15k數(shù)據(jù)集的結(jié)果是值得關(guān)注的例外,DGMC方法的性能因其對應(yīng)關(guān)系的細(xì)化而被認(rèn)為對噪聲具有魯棒性,但它的性能并不優(yōu)于zero-shot結(jié)果。
可以得到結(jié)論,對于基于GNN的實體對齊方法來說,其性能的主要影響還是來自超參數(shù)。
表5給出了OpenEA上對于RDGCN模型參數(shù)的消融實驗結(jié)果:
?
OpenKG
開放知識圖譜(簡稱 OpenKG)旨在促進(jìn)中文知識圖譜數(shù)據(jù)的開放與互聯(lián),促進(jìn)知識圖譜和語義技術(shù)的普及和廣泛應(yīng)用。
點擊閱讀原文,進(jìn)入 OpenKG 網(wǎng)站。
總結(jié)
以上是生活随笔為你收集整理的论文浅尝 - ECIR2021 | 两种实体对齐方法的严格评估的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 论文浅尝 | 通过阅读实体描述进行零样本
- 下一篇: 论文浅尝 | CoRR - 面向复杂知识