【实体对齐·综述】An Experimental Study of State-of-the-Art Entity Alignment Approaches
文章目錄
- 0.總結(jié)
- 1.Introduction
- 2.Preliminaries
- 2.2 Scope and Related work
- 2.2.1 Entity Linking=entity disambiguation
- 2.2.2 Entity resolution=entity matching=deduplication=record linkage
- 2.2.3 Entity resolution on KGs
- 2.2.4 EA
- 3.general框架
- 3.1 Embedding Learning Module
- 3.2 Alignment Module
- 3.3 Prediction Module
- 3.4 Extra Information Module
- 4 實驗分析
- 4.1分類
- 4.2數(shù)據(jù)集
- 4.2.1 Metric
- 4.2.2 比較的方法
- 4.3 DBP15K
- 4.4 SRPRS
- 4.5 DWY100k
- 4.6 速度分析
- 4.7 無監(jiān)督方法比較
- 4.8 Module-Level Evaluation
- 4.9總結(jié)
- 4.10 指導(dǎo)和建議
- 5. 新的數(shù)據(jù)集和未來的實驗?
- 5.1 數(shù)據(jù)集的構(gòu)建DBP-FB
- 5.2 實驗
- 5.3 unmatchable entities
0.總結(jié)
Xiang Zhao, Weixin Zeng, Jiuyang Tang, Wei Wang, Fabian Suchanek. TKDE, 2020 [paper][筆記]
- 推薦結(jié)論:
- 詳盡的實驗分析
- 各種組件的功能性分析(各種技術(shù)排列組合)
- 具有unmatch實體的數(shù)據(jù)集:DBP-FR
- 對模型的選擇提出了建議
- 短評
- 優(yōu)點:實驗分析好
- 缺點:模型架構(gòu)分類不清晰(不知道他指的是什么)
- 類別:
- 實體對齊
- 基于embedding的實體對齊
- 綜述
- DBP-FR
- 數(shù)據(jù)集:
- 自己提出的:DBP-FR
- DWY100k:稠密,單語言,大
- DBP15k:稠密,跨語言
- SRPRS:稀疏
- 圖譜
- wikidata/DBpedia/yago3/Freebase
- 規(guī)模:15K/100K–候選實體也差不多這么多
- 底層模型:
- 監(jiān)督、半監(jiān)督、無監(jiān)督
- 關(guān)系嵌入
- transE系列
- GCN系列
- 額外信息:屬性嵌入(文本嵌入)/entity name
- bootstrapping
- ER用作EA
- 速度
- GCN可擴(kuò)展性好:不會在大數(shù)據(jù)集上變得特別慢
- 開源軟件情況:無
- 評估質(zhì)量:-
- P/R/F1
- Hits@1,Hits@10,MRR
1.Introduction
動機(jī)
- 比較:
- 不公平
- 經(jīng)驗估計
- 設(shè)置不同
- 只 用KG/用額外信息
- 一次對齊/迭代訓(xùn)練
- datasets
- 完整的實驗評估:沒有在所有數(shù)據(jù)集上評測的方法,難以比較
- 使用場景
- 單語言/多語言
- 稀疏/稠密
- 大規(guī)模/中等規(guī)模
- 使用場景
- 完整的實驗評估:沒有在所有數(shù)據(jù)集上評測的方法,難以比較
- 與真實世界數(shù)據(jù)存在差異
- 1v1:
- dataset:1v1
- 實際:1v0占大多數(shù)
- 單語言名字歧義
- dataset:同名同實體
- 實際:同名不同實體/同實體不同名
- 1v1:
- 不公平
貢獻(xiàn)
- a general EA framwork
- 將方法分組,組內(nèi)+組間評估
- 在不同場景下評估
- 新的數(shù)據(jù)集:
- 單語言
- unmatchable entity
- ambiguous entity
2.Preliminaries
2.2 Scope and Related work
- 實體對齊entity alignment
- entity resolution
- entity matching
- record linkage
- deduplication
- instance/ontology matching
- link discovery
- entity linking/entity disambigution
- 相關(guān)工作
2.2.1 Entity Linking=entity disambiguation
- mention(自然語言)->實體(KG)
- 所用信息
- words:mention附近的
- 目標(biāo)實體的先驗概率
- 已經(jīng)消歧的實體mentions
- 背景知識(wikipedia)
- entity alignment缺失上述信息
- 實體描述的embedding(我們有)
- 給定mention的entity linking的先驗分布
- 所用信息
2.2.2 Entity resolution=entity matching=deduplication=record linkage
- 輸入:relational data
- 每個data有許多屬性(文本信息) (我們也有)
- 相似度
- object間的
- 用distance/similarity
- names:Jaro-winkler distance
- dates:numerical distance
- 方法
- 規(guī)則
- 機(jī)器學(xué)習(xí)
- 分類:匹配與否
- 具體
- 對齊屬性
- 計算屬性值之間的相似度
- 聚合屬性的相似度->records的相似度
2.2.3 Entity resolution on KGs
- ER
- KG+二元關(guān)系:如graph-shaped data
- 也用于instance/ontology matching methods
- graph-shaped data:
- 困難:
- textual descriptive information:文本描述中實體很少出現(xiàn)或僅僅只有實體名
- Open World Assumption:在KG中可能不存在實體的屬性在現(xiàn)實中也可能存在(不完備)
- 這是和數(shù)據(jù)庫的差別
- additional predefined semantics:
- 最簡單:有分類
- 復(fù)雜:具備邏輯公理的本體論
- 困難:
- KG+二元關(guān)系:如graph-shaped data
2.2.4 EA
-
分類:
- Scope:
- entity alignment<-本文只考慮這個
- relation
- 類別對齊:class of taxonomies of two KGs
- 方法:有一次性執(zhí)行三種任務(wù)的joint model
- Background knowledge
- OAEI:使用ontology(T-box)作為背景信息
- 本文:不適用ontology的方法
- Training
- 無監(jiān)督:PARIS,SIGMa
- 有監(jiān)督:基于pre-defined mappings的
- 半監(jiān)督
- Scope:
-
EA with deep leaning:
- 基于graph representation learning technologies
- 建模KG結(jié)構(gòu)
- 生成實體嵌入
- 基于graph representation learning technologies
-
比較
- 無監(jiān)督
- PARIS
- Agreement-MakerLight(AML):使用背景信息
- ER方法
- goal相同:EA=ER–因為相同所以比較ER方法
- 無監(jiān)督
-
Bechmarks:
- 語言內(nèi)+DBPedia
- DBP15K
- DWY15
- 問題:現(xiàn)有的Bechmarks,只包含schema和instance信息。對不假設(shè)有可用的本體的EA方法來說。–所以本文不介紹本體?
- 語言內(nèi)+DBPedia
-
PS:
- OAEI:推廣了KG track
- 不公平
3.general框架
- Embedding
- transE
- GCN
- Alignment
- 2個向量映射到一個空間
- 訓(xùn)練一個相同的向量
- Transition
- Corpus-fusion
- Margin-based
- Graph matching
- Attribution refined
- Prediction:
- 相似度計算:
- cosine
- euclidean
- Manhattan distance
- 相似度計算:
- Extra information Module
- 用以增強(qiáng)EA
- 方法
- bootstrapping(or self-learning:
- 利用置信度高的對齊結(jié)果加入訓(xùn)練數(shù)據(jù)(下個iteration)
- multi-type literal information
- 屬性
- 實體描述
- 實體名
- 完善KG的結(jié)構(gòu)
- bootstrapping(or self-learning:
- 模塊級別的比較
- 在個模塊下介紹各方法如何實現(xiàn)該模塊
- 在個模塊下介紹各方法如何實現(xiàn)該模塊
3.1 Embedding Learning Module
- TransE
- 有實體結(jié)構(gòu)信息
- 有相似鄰居的實體距離更接近‘
- 改變:
- MTransE:
- 訓(xùn)練:刪除負(fù)的三元組,
- 容易過擬合
- BootEA,NAEA
- loss:margin-based loss->a limit-based objective function
- MTransE:
- GCN
- 直接在圖結(jié)構(gòu)上操作
- 節(jié)點級嵌入:包含鄰居信息
- 可以獲得幾跳的實體信息
- !!:GCN忽略關(guān)系
- MuGNN:logistic loss
- 基于attention的GCN
- 給不同的鄰居分不同的權(quán)重
- KECG:
- Graph attention network(GAT)+TransE獲得圖內(nèi)結(jié)構(gòu)和圖內(nèi)對齊信息
- RDGCN:使用DPGCNN
- loss:
- BootEA,NAEA:a limit-based objective function
- MuGNN:logistic loss
- JAPE:design new loss?
- 設(shè)計新的embedding models:
- RSNs:使用RNN建模長期關(guān)系依賴,在實體間傳遞語義信息
- RNN+residual learning
- Trans Edge
- new energy function:
- 目的:測量實體嵌入之間邊的錯誤傳遞(embedding學(xué)習(xí)中)
- 邊的嵌入:通過context compression 和projection建模
- new energy function:
- RSNs:使用RNN建模長期關(guān)系依賴,在實體間傳遞語義信息
3.2 Alignment Module
- 同一多個KG的embeddings
- 方法
-
margin-based function
- pos:seed entity pairs
- neg:替換pos的實體
- 作用:讓兩個KG的embedding–>一個向量空間
- 特例:
- GM-Align:通過最大化seed之間的匹配概率–匹配框架
- 特例:
- 使用:GNN的方法
-
corpus fusion
- 利用seed建立語料間的bridge
- eg
- BootEA and NAEA:交換seed entity pairs的實體產(chǎn)生新的三元組,來校準(zhǔn)embedding到同一個空間
- Others:
- 將seed entity pairs的實體當(dāng)做同一個實體對待,以此建立一個overlay 圖,鏈接兩個KG
-
transition functions:
- 設(shè)計一種transition,將KG1=M KG2,map
- 使用額外的信息:
- 實體的屬性
- ->同一個空間
-
3.3 Prediction Module
- 相似度計算:
- 歐幾里得
- Manh
- cos
- GM-Align:
- 對齊到原實體的目標(biāo)實體具有更高的匹配概率
- CEA:
- 問題:不同的EA決策中有額外的相互依賴,導(dǎo)致錯誤的對齊
- 解決:建模collective signal,形式化為穩(wěn)定匹配問題(distance measure)
3.4 Extra Information Module
- bootstrapping
- (self-learning,Iterative training)
- 上一步的預(yù)測,放入下一步的訓(xùn)練中
- 可信實體對的選擇策略不同
- ITransE:
- threshold-based strategy
- 可以多對多
- BootEA ,NAEA,TransEdge
- a maxmum likelihood matching
- 約束:1vs 1
- ITransE:
- multi-type literal information
- statistical characteristics of attribute names:JAPE,GCN-Align,HMAN
- generate attribute embeddings:AttrE ,MultiKE
- entity names
- 作為學(xué)習(xí)實體嵌入的輸入特征:GM-Align,RDGCN,HGCN
- CEA:利用實體名的語義級別和字符串級別的信息,作為individual features(個別特征?)
- KDCoE:HMAN+描述增強(qiáng):編碼實體描述,作為實體對齊的特征
- 問題:
- 數(shù)據(jù)集缺乏textual information,對KDCoE,MultiKE,AttrE不利
4 實驗分析
4.1分類
- 組1:僅用KG結(jié)構(gòu)
- 組2:+bootstrapping
- 組3:+額外信息
4.2數(shù)據(jù)集
-
Embedding數(shù)據(jù)集
- FBK15
- FBK15-237
- WN18
- WN18RR
-
傳統(tǒng)實體對齊數(shù)據(jù)集:
- OAEI(since 2004)
-
embedding實體對齊數(shù)據(jù)集
-
DBP15K:
- 跨語言:
- zh-en,
- zh:關(guān)系三元組數(shù):70414,關(guān)系數(shù)1701,屬性三元組數(shù):248035
- en: 關(guān)系三元組數(shù):95142,關(guān)系數(shù)1323,屬性三元組數(shù):343218
- ja-en,
- ja:關(guān)系三元組數(shù):77214,關(guān)系數(shù)1299,屬性三元組數(shù):248991
- en: 關(guān)系三元組數(shù):93484,關(guān)系數(shù)1153,屬性三元組數(shù):320616
- fr-en
- fr:關(guān)系三元組數(shù):105998,關(guān)系數(shù)903,屬性三元組數(shù):273825
- en: 關(guān)系三元組數(shù):115722,關(guān)系數(shù)1208,屬性三元組數(shù):351094
- zh-en,
- 實體對齊連接數(shù):15k(每對語言間)
- 度的分布:大多在1,從2-10,度越大,實體數(shù)量下降
- DBPedia
- 跨語言:
-
WK3L
-
DWY100K:
- 每個KG實體數(shù):100k
- 單語言:
- DBP-WD,
- DBP:關(guān)系三元組數(shù):463294,關(guān)系數(shù)330,屬性三元組數(shù):341770
- WD:關(guān)系三元組數(shù):448774,關(guān)系數(shù)220,屬性三元組數(shù):779402
- DBP-YG
- DBP:關(guān)系三元組數(shù):428952,關(guān)系數(shù)302,屬性三元組數(shù):383757
- YG:關(guān)系三元組數(shù):502563,關(guān)系數(shù)31,屬性三元組數(shù):98028
- (DBP:DBPedia,YG:Yago3,WD:wikidata)
- DBP-WD,
- 每對有100k個實體對齊連接
- 度的分布:沒有度為1or2的,峰值在4,之后遞減
-
SRPRS
- 認(rèn)為以前的數(shù)據(jù)集太稠密了(DBP,DWY),度的分布偏離現(xiàn)實
- 跨語言:
- EN-FR,
- EN:關(guān)系三元組數(shù):36508,關(guān)系數(shù)221,屬性三元組數(shù):60800
- FR:關(guān)系三元組數(shù):33532,關(guān)系數(shù)177,屬性三元組數(shù):53045
- EN-DE
- EN:關(guān)系三元組數(shù):38363,關(guān)系數(shù)220,屬性三元組數(shù):55580
- DE:關(guān)系三元組數(shù):37377,關(guān)系數(shù)120,屬性三元組數(shù):73753
- EN-FR,
- 單語言:
- DBP-WD,
- DBP:關(guān)系三元組數(shù):33421,關(guān)系數(shù)253,屬性三元組數(shù):64021
- WD:關(guān)系三元組數(shù):40159,關(guān)系數(shù)144,屬性三元組數(shù):133371
- DBP-YG
- DBP:關(guān)系三元組數(shù):33748,關(guān)系數(shù)223,屬性三元組數(shù):58853
- YG:關(guān)系三元組數(shù):36569,關(guān)系數(shù)30,屬性三元組數(shù):18241
- DBP-WD,
- 每種有15k個實體對齊連接
- 度的分布:很現(xiàn)實
- 度小的實體多(精心取樣)
-
EN-FR
-
DBP-FB(An Experimental Study of State-of-the-Art Entity Alignment Approaches)
- DBP: 關(guān)系三元組數(shù):96414,關(guān)系數(shù)407,屬性三元組數(shù):127614
- FB:關(guān)系三元組數(shù):111974,關(guān)系數(shù)882,屬性三元組數(shù):78740
-
-
度的分布
-
EN-FR的統(tǒng)計
4.2.1 Metric
- 對齊質(zhì)量:準(zhǔn)確性和全面性
- MR
- MRR
- Hits@m:m=1為precision
- precision/recall/f1
- 傳統(tǒng)方法再用
- 對齊效率:分區(qū)索引技術(shù)對候選匹配對的篩選能力和準(zhǔn)確性
- 縮減率
- 候選對完整性
- 候選對質(zhì)量
4.2.2 比較的方法
JAPE -> JAPE-Stru
GCN-Align -> GCN
- ER的方法
- Lev:Levenshtein distance
- Embed:name embedding 的cos
- embedding:用fasttext (預(yù)訓(xùn)練的)
- 多語言:MUSE word embedding
4.3 DBP15K
- CEA
- 輸出實體對,而非排名
- 僅使用KG結(jié)構(gòu)
- RSNs最好:長關(guān)系路徑信息的獲取–結(jié)構(gòu)信息活動取得好
- MuGNN==KECG
- 共享的目標(biāo):their shared objective of completing KG
- 協(xié)調(diào)差異性
- Completing的實現(xiàn)
- MuGNN:
- 利用AMIE+引入規(guī)則
- KECG:
- harnesses transE
- MuGNN:
- 其他三種較差:
- MTransE和JAPE-Stru:使用TransE
- JAPE-Stru好一點:因為MTransE在不同的空間中建模KG的結(jié)構(gòu),在轉(zhuǎn)移時丟失了信息
- GCN好于上面兩個
- MTransE和JAPE-Stru:使用TransE
- +bootstrapping
- 最差:
- ITransE:
- 原因1:兩種embedding之間的translation 造成了信息丟失
- 原因2:bootstrapping 太簡單了,缺乏有效的抑制錯誤積累的方式
- ITransE:
- NAEA<BootEA<TransEdge
- bootstrapping策略相同
- NAEA<BootEA:使用attention–獲得了鄰居信息,理論上更好,但并沒有
- TransEdge:最好
- edge-centric embedding:獲得結(jié)構(gòu)信息
- 產(chǎn)生了更多精確的實體embedding–>更準(zhǔn)確地alignment
- edge-centric embedding:獲得結(jié)構(gòu)信息
- 最差:
- +額外信息
- 屬性信息:超過了僅用結(jié)構(gòu)的方法
- JAPE
- GCN-Align
- HMAN>GCN-Align>JAPE:
- HMAN考慮了關(guān)系類型(input)
- entity name information:比用屬性的效果好
- RDGCN約等于HGCN>GM-Align:
- 前二者用關(guān)系去優(yōu)化entity-embedding 的學(xué)習(xí)–這個在GNN模型中被忽視
- CEA:最好,有效利用和融合了可用的特征
- RDGCN約等于HGCN>GM-Align:
- 屬性信息:超過了僅用結(jié)構(gòu)的方法
- name-based heuristics:ER
- Embed:支持跨語言(好不了,但也不差,和基于結(jié)構(gòu)的方法差不多)
- Lev:支持相近語言和單語言
- 類間比較
- CEA最好的Hits@1
- 其他的指標(biāo)比較好的模型:
- TransEdge
- RDGCN
- HGCN
- 外加信息的勝利–>使用bootstraping和textual information有效
- ER:
- Embed:超過了大多沒有用entity name的方法–precision上
- ER對EA有效
- 比不過其他使用entity name的方法(因為entity name有效所以Embed有效
- Embed:超過了大多沒有用entity name的方法–precision上
- 語言屏障
- 組1/2:支持跨語言,egTransEdge
- 使用實體名稱的方法對跨語言支持弱
- 支持相近/單語言
- eg:Lev,HGCN
4.4 SRPRS
-
稀疏的數(shù)據(jù)集
-
僅KG結(jié)構(gòu)
- RSNs最好
- KECG:第二,但很接近RSNs了
- 和DBP15k不同:MuGNN效果差,因為SRPRS沒有對齊的關(guān)系,因為rule transfering失效
-
+bootstrapping:TransEdge依然最好
-
+額外
- 屬性:
- GCN-Align:最好:因為他合并了屬性
- GCN/JAPE:
- JAPE:合并屬性信息對他沒有貢獻(xiàn)?
- SRPRS中屬性太少了
- entity name:效果更好
- CEA:100%,
- 屬性:
-
ER:在單語言中entity name相同,所以效果都很好
- Embed:單語言、跨語言都可
- Lev :單語言/相近語言
-
單語言KG間:相同的實體有相同的名字,僅比名字就效果不錯—這在相近語言中也適用
- 不一定,但大多
- 電影電視劇之類的第幾季還是有區(qū)別的
-
類間
- 和DBP15k不同:實體名稱的方法
- 原因
- KG 結(jié)構(gòu)不怎么有效在這個數(shù)據(jù)集上。
- 實體名在單語言數(shù)據(jù)集和相近語言對的跨語言數(shù)據(jù)集上很重要(很有用)
- 原因
- 和DBP15k不同:實體名稱的方法
4.5 DWY100k
- RDGCN,NAEA:占內(nèi)存大
- 實驗環(huán)境下跑不出來:n Intel Core i7-4790 CPU, an NVIDIA GeForce GTX TITAN X GPU and 128 GB memory
- DWY100k:
- 更豐富的KG結(jié)構(gòu)信息:MuGNN和KECG效果好
- Bootstrapping:
- 進(jìn)一步改進(jìn)了結(jié)果
- BootEA、TransEdge:效果略低于論文
- +其他信息
- CEA:100%ground-truth
- ER
- 類似SRPRS:LEv,Embed:ground-truth–100%
4.6 速度分析
- DBP15k,SRPRS:GCN>
- GCN:快,且結(jié)果一致(不同版本間)
- ITransE,JAPE-Stru
- Others:1000-10000s
- NAEA<GM-Align:>10000s
- DWY100k:
- MuGNN,KECG,HMAN:由于內(nèi)存所限不能用gpu,所以用了cpu
- 1ws內(nèi):GCN-Align,GCN,ITransE
- GM-Align:5天
- 大多10000s-100,000s
- 可伸縮性差:NAEA,RDGCN,GM-Align
4.7 無監(jiān)督方法比較
-
無監(jiān)督的方法
- PARIS:literal sim
- AML:ontology+KG背景信息
-
指標(biāo)F1
-
PARIS/AML<CEA
- CEA:效果好,但依賴于訓(xùn)練數(shù)據(jù)
- 無監(jiān)督雖然不用訓(xùn)練數(shù)據(jù),但效果也不錯
- AML>PARIS:ontology information提升了對齊的結(jié)果
- AML需要本體信息, 所以挖掘了本體信息,但只成功在 SRPRSEN-FR and SRPRSEN-DE上運行
- AML>PARIS:ontology information提升了對齊的結(jié)果
4.8 Module-Level Evaluation
-
組合不同的模塊
-
embedding:
- TransE
- GCN
-
alignment:
- margin-based loss(mgn)
- corpus fusion strategy(cps)?(swap? )
-
相似度
- cos
- manh
- Euc
-
額外的信息
- ItransE的bootstrapping
- 多種信息Mul
- 語義
- 實體名稱
-
組合
- GCN+mgn
- TransE+cps
-
效果
- bootstrapping:提升性能
- Embedding:GCN+MGn>TransE+Cps
- 距離:cos在TransE上好,在GCN上差
- 引入entity name后,cos都好
- 所有都用上,得到最好的效果
4.9總結(jié)
- EA vs ER
- EA:使用KG結(jié)構(gòu),圖
- 只依賴于KG結(jié)構(gòu)的方法
- 不擅長處理的實體類型:
- 長尾
- 鄰居相似,但不是相同的實體(結(jié)構(gòu)相似)
- 解決:
- +文本信息—可以用ER的方法
- 不擅長處理的實體類型:
- 只依賴于KG結(jié)構(gòu)的方法
- ER用于EA:
- 很大程度依賴于文本相似性
- 僅用結(jié)構(gòu)<ER<結(jié)構(gòu)+entity name
- 文字相似性->實體等價性:這個可以用于EA
- EA:使用KG結(jié)構(gòu),圖
- 不同數(shù)據(jù)集的影響
- EA在不同數(shù)據(jù)集上差異巨大
- 密集數(shù)據(jù):普遍好
- 語言:單語>k跨語言
- 單語最好CEA,Lev,Embed
- 100%
- 等價實體=名字同
- 單語最好CEA,Lev,Embed
4.10 指導(dǎo)和建議
- 模型選擇指南
- 輸入信息
- 只有結(jié)構(gòu)信息:從第一組和第二組中選擇
- 額外信息多:第三種方法中選
- 數(shù)據(jù)規(guī)模
- 一些效果好的方法,可伸縮性差(小數(shù)據(jù)可以,大了就掛了)
- 大規(guī)模數(shù)據(jù):簡單卻有效的方法:GCN-Align
- 對齊的目的
- 只關(guān)注對齊的實體:
- GNN的模型:健壯+可擴(kuò)展性強(qiáng)(容易擴(kuò)展到大數(shù)據(jù)集上)
- 還有其他任務(wù):關(guān)系的對齊
- KG表示的方法:TransE,本質(zhì)上可以學(xué)習(xí)實體和關(guān)系的表示,而且關(guān)系對齊可以幫助實體對齊
- 只關(guān)注對齊的實體:
- bootstrapping的權(quán)衡
- 有效,可以逐步增強(qiáng)數(shù)據(jù)集
- 問題:錯誤累積,耗時
- 是否用bootstrapping?依據(jù)數(shù)據(jù)集
- 數(shù)據(jù)集簡單:有豐富的文字信息且密度大(多大?)
- 可以用bootstrapping
- 很難的話就算了,錯誤會不斷積累的
- 數(shù)據(jù)集簡單:有豐富的文字信息且密度大(多大?)
- 未來研究的建議
- 長尾 :
- 有研究用額外的信息
- [66] W. Zeng, X. Zhao, W. Wang, J. Tang, and Z. Tan. Degree-aware alignment for entities in tail. In SIGIR, 2020.
- 多模態(tài)EA
- 一個實體可以與多種形式的信息關(guān)聯(lián)
- [39] Y. Liu, H. Li, A. Garc′?a-Dur′an, M. Niepert, D. O?noro-Rubio, and D. S.
Rosenblum. MMKG: multi-modal knowledge graphs. In P. Hitzler,
M. Fern′andez, K. Janowicz, A. Zaveri, A. J. G. Gray, V. L′opez, A. Haller,
and K. Hammar, editors, ESWC, volume 11503 of Lecture Notes in
Computer Science, pages 459–474. Springer, 2019.
- 開放世界
- 現(xiàn)在大多EA的假設(shè):源KG的實體總能在目標(biāo)KG找到一個對齊的實體
- 需要標(biāo)注數(shù)據(jù)
- 長尾 :
5. 新的數(shù)據(jù)集和未來的實驗?
- 新的數(shù)據(jù)集
- 目的:
- 單語言數(shù)據(jù)集中同名同實體,但實際是有歧義的
- 一個id對應(yīng)一個或多個mention,但是是互相匹配的
- 現(xiàn)實:同名的實體但可能不是一個實體
- 在YAGO3中,34%的實體有一個由多個實體共享的名稱。
- 現(xiàn)有的數(shù)據(jù)集中沒有這種情況(不然也做不到100%)
- 現(xiàn)實:同名的實體但可能不是一個實體
- 一定會有對齊的實體
- 實際不一定啊
- 總之,數(shù)據(jù)集都太簡單了
- 目的:
5.1 數(shù)據(jù)集的構(gòu)建DBP-FB
- 實體名稱的id表示–實體名稱的困難
- 目標(biāo) 用Freebase:id,且有同名實體
- 源:DBPedia,包含F(xiàn)reebase的外部鏈接(有答案)
- 構(gòu)建
- 包含參與三元組但不參與對齊
5.2 實驗
- 不存在不對齊實體的性能
- 存在無對齊實體的EA性能
- 現(xiàn)在的模型效果都比SRPRS差:因為結(jié)構(gòu)的異構(gòu)性更高
- 實體分布也差異很大,難以用結(jié)構(gòu)信息
- 實體名稱仍然會產(chǎn)生最好的結(jié)果,但比單語言數(shù)據(jù)集差
- 實體名稱模糊的挑戰(zhàn)
- 現(xiàn)在的模型效果都比SRPRS差:因為結(jié)構(gòu)的異構(gòu)性更高
5.3 unmatchable entities
- CombEA
- 召回高,精度低:因為給每一個源實體都匹配了一個目標(biāo)實體
- 現(xiàn)在的EA都有這個問題
- 解決必有答案的問題d的策略:NIL閾值θ\thetaθ
- 距離大于 θ\thetaθ就舍棄,不能對齊
總結(jié)
以上是生活随笔為你收集整理的【实体对齐·综述】An Experimental Study of State-of-the-Art Entity Alignment Approaches的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 知识图谱最新权威综述论文解读:知识表示学
- 下一篇: “知识图谱+”系列:知识图谱+强化学习