當(dāng)前位置：首頁 >

【实体对齐·综述】An Experimental Study of State-of-the-Art Entity Alignment Approaches

發(fā)布時間：2024/7/5 55 豆豆

生活随笔收集整理的這篇文章主要介紹了【实体对齐·综述】An Experimental Study of State-of-the-Art Entity Alignment Approaches 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

文章目錄

0.總結(jié)
1.Introduction
2.Preliminaries
- 2.2 Scope and Related work
- - 2.2.1 Entity Linking=entity disambiguation
  - 2.2.2 Entity resolution=entity matching=deduplication=record linkage
  - 2.2.3 Entity resolution on KGs
  - 2.2.4 EA
3.general框架
- 3.1 Embedding Learning Module
- 3.2 Alignment Module
- 3.3 Prediction Module
- 3.4 Extra Information Module
4 實驗分析
- 4.1分類
- 4.2數(shù)據(jù)集
- - 4.2.1 Metric
  - - 4.2.2 比較的方法
- 4.3 DBP15K
- 4.4 SRPRS
- 4.5 DWY100k
4.6 速度分析
- 4.7 無監(jiān)督方法比較
- 4.8 Module-Level Evaluation
- 4.9總結(jié)
- 4.10 指導(dǎo)和建議
5. 新的數(shù)據(jù)集和未來的實驗？
- 5.1 數(shù)據(jù)集的構(gòu)建DBP-FB
- 5.2 實驗
- 5.3 unmatchable entities

0.總結(jié)

"An Experimental Study of State-of-the-Art Entity Alignment Approaches".
Xiang Zhao, Weixin Zeng, Jiuyang Tang, Wei Wang, Fabian Suchanek. TKDE, 2020 [paper][筆記]

推薦結(jié)論：
- 詳盡的實驗分析
- 各種組件的功能性分析（各種技術(shù)排列組合）
- 具有unmatch實體的數(shù)據(jù)集：DBP-FR
- 對模型的選擇提出了建議
短評
- 優(yōu)點：實驗分析好
- 缺點：模型架構(gòu)分類不清晰（不知道他指的是什么）
類別：
- 實體對齊
- 基于embedding的實體對齊
- 綜述
- DBP-FR
數(shù)據(jù)集：
- 自己提出的：DBP-FR
- DWY100k：稠密，單語言，大
- DBP15k：稠密，跨語言
- SRPRS：稀疏
圖譜
- wikidata/DBpedia/yago3/Freebase
- 規(guī)模：15K/100K–候選實體也差不多這么多
底層模型：
- 監(jiān)督、半監(jiān)督、無監(jiān)督
- 關(guān)系嵌入
  - transE系列
  - GCN系列
- 額外信息：屬性嵌入（文本嵌入）/entity name
- bootstrapping
- ER用作EA
速度
- GCN可擴(kuò)展性好：不會在大數(shù)據(jù)集上變得特別慢
開源軟件情況：無
評估質(zhì)量：-
- P/R/F1
- Hits@1,Hits@10,MRR

1.Introduction

動機(jī)

比較：
- 不公平
  - 經(jīng)驗估計
  - 設(shè)置不同
    - 只用KG/用額外信息
    - 一次對齊/迭代訓(xùn)練
- datasets
  - 完整的實驗評估：沒有在所有數(shù)據(jù)集上評測的方法，難以比較
    - 使用場景
      - 單語言/多語言
      - 稀疏/稠密
      - 大規(guī)模/中等規(guī)模
- 與真實世界數(shù)據(jù)存在差異
  - 1v1:
    - dataset：1v1
    - 實際：1v0占大多數(shù)
  - 單語言名字歧義
    - dataset:同名同實體
    - 實際：同名不同實體/同實體不同名

貢獻(xiàn)

a general EA framwork
將方法分組，組內(nèi)+組間評估
在不同場景下評估
新的數(shù)據(jù)集：
- 單語言
- unmatchable entity
- ambiguous entity

2.Preliminaries

2.2 Scope and Related work

實體對齊entity alignment
- entity resolution
- entity matching
- record linkage
- deduplication
- instance/ontology matching
- link discovery
- entity linking/entity disambigution
- 相關(guān)工作

2.2.1 Entity Linking=entity disambiguation

mention（自然語言）->實體（KG）
- 所用信息
  - words:mention附近的
  - 目標(biāo)實體的先驗概率
  - 已經(jīng)消歧的實體mentions
  - 背景知識（wikipedia）
- entity alignment缺失上述信息
  - 實體描述的embedding（我們有）
  - 給定mention的entity linking的先驗分布

2.2.2 Entity resolution=entity matching=deduplication=record linkage

輸入：relational data
- 每個data有許多屬性（文本信息）（我們也有）
相似度
- object間的
- 用distance/similarity
  - names:Jaro-winkler distance
  - dates:numerical distance
方法
- 規(guī)則
- 機(jī)器學(xué)習(xí)
- 分類：匹配與否
- 具體
  - 對齊屬性
  - 計算屬性值之間的相似度
  - 聚合屬性的相似度->records的相似度

2.2.3 Entity resolution on KGs

ER
- KG+二元關(guān)系：如graph-shaped data
  - 也用于instance/ontology matching methods
  - graph-shaped data：
    - 困難：
      - textual descriptive information:文本描述中實體很少出現(xiàn)或僅僅只有實體名
      - Open World Assumption:在KG中可能不存在實體的屬性在現(xiàn)實中也可能存在（不完備）
        這是和數(shù)據(jù)庫的差別
      - additional predefined semantics:
        最簡單：有分類
        復(fù)雜：具備邏輯公理的本體論

2.2.4 EA

分類：
- Scope:
  - entity alignment<-本文只考慮這個
  - relation
  - 類別對齊：class of taxonomies of two KGs
  - 方法：有一次性執(zhí)行三種任務(wù)的joint model
- Background knowledge
  - OAEI:使用ontology(T-box)作為背景信息
  - 本文：不適用ontology的方法
- Training
  - 無監(jiān)督：PARIS，SIGMa
  - 有監(jiān)督：基于pre-defined mappings的
  - 半監(jiān)督
EA with deep leaning:
- 基于graph representation learning technologies
  - 建模KG結(jié)構(gòu)
  - 生成實體嵌入
比較
- 無監(jiān)督
  - PARIS
  - Agreement-MakerLight(AML):使用背景信息
- ER方法
  - goal相同：EA=ER–因為相同所以比較ER方法
Bechmarks:
- 語言內(nèi)+DBPedia
  - DBP15K
  - DWY15
  - 問題：現(xiàn)有的Bechmarks，只包含schema和instance信息。對不假設(shè)有可用的本體的EA方法來說。–所以本文不介紹本體？
PS:
- OAEI:推廣了KG track
- 不公平

3.general框架

Embedding
- transE
- GCN
Alignment
- 2個向量映射到一個空間
- 訓(xùn)練一個相同的向量
- Transition
- Corpus-fusion
- Margin-based
- Graph matching
- Attribution refined
Prediction：
- 相似度計算：
  - cosine
  - euclidean
  - Manhattan distance
Extra information Module
- 用以增強(qiáng)EA
- 方法
  - bootstrapping(or self-learning:
    - 利用置信度高的對齊結(jié)果加入訓(xùn)練數(shù)據(jù)（下個iteration）
  - multi-type literal information
    - 屬性
    - 實體描述
    - 實體名
    - 完善KG的結(jié)構(gòu)
模塊級別的比較
- 在個模塊下介紹各方法如何實現(xiàn)該模塊

3.1 Embedding Learning Module

TransE
- 有實體結(jié)構(gòu)信息
- 有相似鄰居的實體距離更接近‘
- 改變：
  - MTransE:
    - 訓(xùn)練：刪除負(fù)的三元組，
    - 容易過擬合
  - BootEA,NAEA
    - loss：margin-based loss->a limit-based objective function
GCN
- 直接在圖結(jié)構(gòu)上操作
- 節(jié)點級嵌入：包含鄰居信息
- 可以獲得幾跳的實體信息
- !!:GCN忽略關(guān)系
- MuGNN:logistic loss
  - 基于attention的GCN
  - 給不同的鄰居分不同的權(quán)重
- KECG:
  - Graph attention network(GAT)+TransE獲得圖內(nèi)結(jié)構(gòu)和圖內(nèi)對齊信息
- RDGCN:使用DPGCNN
loss:
- BootEA,NAEA:a limit-based objective function
- MuGNN:logistic loss
- JAPE:design new loss?
設(shè)計新的embedding models:
- RSNs:使用RNN建模長期關(guān)系依賴，在實體間傳遞語義信息
  - RNN+residual learning
- Trans Edge
  - new energy function:
    - 目的：測量實體嵌入之間邊的錯誤傳遞（embedding學(xué)習(xí)中）
    - 邊的嵌入：通過context compression 和projection建模

3.2 Alignment Module

同一多個KG的embeddings
方法
- margin-based function
  - pos:seed entity pairs
  - neg:替換pos的實體
  - 作用：讓兩個KG的embedding–>一個向量空間
    - 特例：
      - GM-Align:通過最大化seed之間的匹配概率–匹配框架
  - 使用：GNN的方法
- corpus fusion
  - 利用seed建立語料間的bridge
  - eg
    - BootEA and NAEA:交換seed entity pairs的實體產(chǎn)生新的三元組,來校準(zhǔn)embedding到同一個空間
    - Others：
      - 將seed entity pairs的實體當(dāng)做同一個實體對待，以此建立一個overlay 圖，鏈接兩個KG
- transition functions:
  - 設(shè)計一種transition,將KG1=M KG2,map
  - 使用額外的信息：
    - 實體的屬性
  - ->同一個空間

3.3 Prediction Module

相似度計算：
- 歐幾里得
- Manh
- cos
GM-Align:
- 對齊到原實體的目標(biāo)實體具有更高的匹配概率
CEA:
- 問題：不同的EA決策中有額外的相互依賴，導(dǎo)致錯誤的對齊
- 解決：建模collective signal,形式化為穩(wěn)定匹配問題（distance measure)

3.4 Extra Information Module

bootstrapping
- (self-learning,Iterative training)
- 上一步的預(yù)測，放入下一步的訓(xùn)練中
- 可信實體對的選擇策略不同
  - ITransE:
    - threshold-based strategy
    - 可以多對多
  - BootEA ，NAEA,TransEdge
    - a maxmum likelihood matching
    - 約束：1vs 1
multi-type literal information
- statistical characteristics of attribute names:JAPE,GCN-Align,HMAN
- generate attribute embeddings:AttrE ,MultiKE
entity names
- 作為學(xué)習(xí)實體嵌入的輸入特征：GM-Align,RDGCN,HGCN
- CEA:利用實體名的語義級別和字符串級別的信息，作為individual features(個別特征？）
- KDCoE:HMAN+描述增強(qiáng)：編碼實體描述，作為實體對齊的特征
問題：
- 數(shù)據(jù)集缺乏textual information，對KDCoE,MultiKE,AttrE不利

4 實驗分析

4.1分類

組1：僅用KG結(jié)構(gòu)
組2：+bootstrapping
組3：+額外信息

4.2數(shù)據(jù)集

Embedding數(shù)據(jù)集
- FBK15
- FBK15-237
- WN18
- WN18RR
傳統(tǒng)實體對齊數(shù)據(jù)集：
- OAEI(since 2004）
embedding實體對齊數(shù)據(jù)集
- DBP15K：
  - 跨語言:
    - zh-en,
      - zh:關(guān)系三元組數(shù)：70414，關(guān)系數(shù)1701，屬性三元組數(shù)：248035
      - en: 關(guān)系三元組數(shù)：95142，關(guān)系數(shù)1323，屬性三元組數(shù)：343218
    - ja-en,
      - ja:關(guān)系三元組數(shù)：77214，關(guān)系數(shù)1299，屬性三元組數(shù)：248991
      - en: 關(guān)系三元組數(shù)：93484，關(guān)系數(shù)1153，屬性三元組數(shù)：320616
    - fr-en
      - fr:關(guān)系三元組數(shù)：105998，關(guān)系數(shù)903，屬性三元組數(shù)：273825
      - en: 關(guān)系三元組數(shù)：115722，關(guān)系數(shù)1208，屬性三元組數(shù)：351094
  - 實體對齊連接數(shù)：15k（每對語言間）
  - 度的分布：大多在1，從2-10,度越大，實體數(shù)量下降
  - DBPedia
- WK3L
- DWY100K：
  - 每個KG實體數(shù)：100k
  - 單語言：
    - DBP-WD,
      - DBP:關(guān)系三元組數(shù)：463294，關(guān)系數(shù)330，屬性三元組數(shù)：341770
      - WD:關(guān)系三元組數(shù)：448774，關(guān)系數(shù)220，屬性三元組數(shù)：779402
    - DBP-YG
      - DBP:關(guān)系三元組數(shù)：428952，關(guān)系數(shù)302，屬性三元組數(shù)：383757
      - YG:關(guān)系三元組數(shù)：502563，關(guān)系數(shù)31，屬性三元組數(shù)：98028
    - (DBP:DBPedia,YG:Yago3,WD:wikidata)
  - 每對有100k個實體對齊連接
  - 度的分布：沒有度為1or2的，峰值在4，之后遞減
- SRPRS
  - 認(rèn)為以前的數(shù)據(jù)集太稠密了（DBP,DWY),度的分布偏離現(xiàn)實
  - 跨語言：
    - EN-FR,
      - EN:關(guān)系三元組數(shù)：36508，關(guān)系數(shù)221，屬性三元組數(shù)：60800
      - FR:關(guān)系三元組數(shù)：33532，關(guān)系數(shù)177，屬性三元組數(shù)：53045
    - EN-DE
      - EN:關(guān)系三元組數(shù)：38363，關(guān)系數(shù)220，屬性三元組數(shù)：55580
      - DE:關(guān)系三元組數(shù)：37377，關(guān)系數(shù)120，屬性三元組數(shù)：73753
  - 單語言：
    - DBP-WD,
      - DBP:關(guān)系三元組數(shù)：33421，關(guān)系數(shù)253，屬性三元組數(shù)：64021
      - WD:關(guān)系三元組數(shù)：40159，關(guān)系數(shù)144，屬性三元組數(shù)：133371
    - DBP-YG
      - DBP:關(guān)系三元組數(shù)：33748，關(guān)系數(shù)223，屬性三元組數(shù)：58853
      - YG:關(guān)系三元組數(shù)：36569，關(guān)系數(shù)30，屬性三元組數(shù)：18241
  - 每種有15k個實體對齊連接
  - 度的分布：很現(xiàn)實
    - 度小的實體多（精心取樣）
- EN-FR
- DBP-FB（An Experimental Study of State-of-the-Art Entity Alignment Approaches）
  - DBP: 關(guān)系三元組數(shù)：96414，關(guān)系數(shù)407，屬性三元組數(shù)：127614
  - FB:關(guān)系三元組數(shù)：111974，關(guān)系數(shù)882，屬性三元組數(shù)：78740
度的分布
EN-FR的統(tǒng)計

4.2.1 Metric

對齊質(zhì)量：準(zhǔn)確性和全面性
- MR
- MRR
- Hits@m:m=1為precision
- precision/recall/f1
  - 傳統(tǒng)方法再用
對齊效率：分區(qū)索引技術(shù)對候選匹配對的篩選能力和準(zhǔn)確性
- 縮減率
- 候選對完整性
- 候選對質(zhì)量

4.2.2 比較的方法

JAPE -> JAPE-Stru
GCN-Align -> GCN

ER的方法
- Lev:Levenshtein distance
- Embed:name embedding 的cos
- embedding:用fasttext (預(yù)訓(xùn)練的）
- 多語言：MUSE word embedding

4.3 DBP15K

CEA
- 輸出實體對，而非排名
僅使用KG結(jié)構(gòu)
- RSNs最好：長關(guān)系路徑信息的獲取–結(jié)構(gòu)信息活動取得好
- MuGNN==KECG
  - 共享的目標(biāo)：their shared objective of completing KG
  - 協(xié)調(diào)差異性
  - Completing的實現(xiàn)
    - MuGNN:
      - 利用AMIE+引入規(guī)則
    - KECG:
      - harnesses transE
- 其他三種較差：
  - MTransE和JAPE-Stru：使用TransE
    - JAPE-Stru好一點：因為MTransE在不同的空間中建模KG的結(jié)構(gòu)，在轉(zhuǎn)移時丟失了信息
  - GCN好于上面兩個
+bootstrapping
- 最差：
  - ITransE:
    - 原因1：兩種embedding之間的translation 造成了信息丟失
    - 原因2：bootstrapping 太簡單了，缺乏有效的抑制錯誤積累的方式
- NAEA<BootEA<TransEdge
  - bootstrapping策略相同
  - NAEA<BootEA:使用attention–獲得了鄰居信息,理論上更好，但并沒有
  - TransEdge：最好
    - edge-centric embedding：獲得結(jié)構(gòu)信息
      - 產(chǎn)生了更多精確的實體embedding–>更準(zhǔn)確地alignment
+額外信息
- 屬性信息:超過了僅用結(jié)構(gòu)的方法
  - JAPE
  - GCN-Align
  - HMAN>GCN-Align>JAPE:
    - HMAN考慮了關(guān)系類型（input)
- entity name information：比用屬性的效果好
  - RDGCN約等于HGCN>GM-Align:
    - 前二者用關(guān)系去優(yōu)化entity-embedding 的學(xué)習(xí)–這個在GNN模型中被忽視
  - CEA:最好，有效利用和融合了可用的特征
name-based heuristics:ER
- Embed:支持跨語言（好不了，但也不差，和基于結(jié)構(gòu)的方法差不多）
- Lev:支持相近語言和單語言
類間比較
- CEA最好的Hits@1
- 其他的指標(biāo)比較好的模型：
  - TransEdge
  - RDGCN
  - HGCN
  - 外加信息的勝利–>使用bootstraping和textual information有效
- ER:
  - Embed：超過了大多沒有用entity name的方法–precision上
    - ER對EA有效
    - 比不過其他使用entity name的方法（因為entity name有效所以Embed有效
- 語言屏障
  - 組1/2：支持跨語言,egTransEdge
  - 使用實體名稱的方法對跨語言支持弱
    - 支持相近/單語言
    - eg:Lev,HGCN

4.4 SRPRS

稀疏的數(shù)據(jù)集
僅KG結(jié)構(gòu)
- RSNs最好
- KECG:第二，但很接近RSNs了
- 和DBP15k不同：MuGNN效果差，因為SRPRS沒有對齊的關(guān)系，因為rule transfering失效
+bootstrapping:TransEdge依然最好
+額外
- 屬性：
  - GCN-Align:最好：因為他合并了屬性
  - GCN/JAPE：
    - JAPE:合并屬性信息對他沒有貢獻(xiàn)？
    - SRPRS中屬性太少了
- entity name:效果更好
  - CEA:100%，
ER:在單語言中entity name相同，所以效果都很好
- Embed:單語言、跨語言都可
- Lev ：單語言/相近語言
單語言KG間：相同的實體有相同的名字，僅比名字就效果不錯—這在相近語言中也適用
- 不一定，但大多
- 電影電視劇之類的第幾季還是有區(qū)別的
類間
- 和DBP15k不同：實體名稱的方法
  - 原因
    - KG 結(jié)構(gòu)不怎么有效在這個數(shù)據(jù)集上。
    - 實體名在單語言數(shù)據(jù)集和相近語言對的跨語言數(shù)據(jù)集上很重要（很有用）

4.5 DWY100k

RDGCN,NAEA：占內(nèi)存大
- 實驗環(huán)境下跑不出來：n Intel Core i7-4790 CPU, an NVIDIA GeForce GTX TITAN X GPU and 128 GB memory
DWY100k：
- 更豐富的KG結(jié)構(gòu)信息：MuGNN和KECG效果好
- Bootstrapping:
  - 進(jìn)一步改進(jìn)了結(jié)果
  - BootEA、TransEdge：效果略低于論文
- +其他信息
  - CEA:100%ground-truth
- ER
  - 類似SRPRS:LEv,Embed：ground-truth–100%

4.6 速度分析

DBP15k,SRPRS:GCN>
- GCN:快，且結(jié)果一致（不同版本間）
- ITransE,JAPE-Stru
- Others:1000-10000s
- NAEA<GM-Align：>10000s
DWY100k：
- MuGNN,KECG,HMAN：由于內(nèi)存所限不能用gpu，所以用了cpu
- 1ws內(nèi)：GCN-Align,GCN,ITransE
- GM-Align:5天
- 大多10000s-100,000s
- 可伸縮性差：NAEA,RDGCN,GM-Align

4.7 無監(jiān)督方法比較

無監(jiān)督的方法
- PARIS:literal sim
- AML:ontology+KG背景信息
指標(biāo)F1
PARIS/AML<CEA
- CEA：效果好，但依賴于訓(xùn)練數(shù)據(jù)
- 無監(jiān)督雖然不用訓(xùn)練數(shù)據(jù)，但效果也不錯
  - AML>PARIS：ontology information提升了對齊的結(jié)果
    - AML需要本體信息，所以挖掘了本體信息，但只成功在 SRPRSEN-FR and SRPRSEN-DE上運行

4.8 Module-Level Evaluation

組合不同的模塊
embedding：
- TransE
- GCN
alignment:
- margin-based loss(mgn）
- corpus fusion strategy(cps)?(swap? )
相似度
- cos
- manh
- Euc
額外的信息
- ItransE的bootstrapping
- 多種信息Mul
  - 語義
  - 實體名稱
組合
- GCN+mgn
- TransE+cps
效果
- bootstrapping：提升性能
- Embedding:GCN+MGn>TransE+Cps
- 距離：cos在TransE上好，在GCN上差
  - 引入entity name后，cos都好
- 所有都用上，得到最好的效果

4.9總結(jié)

EA vs ER
- EA：使用KG結(jié)構(gòu)，圖
  - 只依賴于KG結(jié)構(gòu)的方法
    - 不擅長處理的實體類型：
      - 長尾
      - 鄰居相似，但不是相同的實體（結(jié)構(gòu)相似）
    - 解決：
      - +文本信息—可以用ER的方法
- ER用于EA:
  - 很大程度依賴于文本相似性
  - 僅用結(jié)構(gòu)<ER<結(jié)構(gòu)+entity name
  - 文字相似性->實體等價性：這個可以用于EA
不同數(shù)據(jù)集的影響
- EA在不同數(shù)據(jù)集上差異巨大
- 密集數(shù)據(jù)：普遍好
- 語言：單語>k跨語言
  - 單語最好CEA,Lev,Embed
    - 100%
    - 等價實體=名字同

4.10 指導(dǎo)和建議

模型選擇指南
輸入信息
- 只有結(jié)構(gòu)信息：從第一組和第二組中選擇
- 額外信息多：第三種方法中選
數(shù)據(jù)規(guī)模
- 一些效果好的方法，可伸縮性差（小數(shù)據(jù)可以，大了就掛了）
- 大規(guī)模數(shù)據(jù)：簡單卻有效的方法：GCN-Align
對齊的目的
- 只關(guān)注對齊的實體：
  - GNN的模型：健壯+可擴(kuò)展性強(qiáng)（容易擴(kuò)展到大數(shù)據(jù)集上）
- 還有其他任務(wù)：關(guān)系的對齊
  - KG表示的方法：TransE,本質(zhì)上可以學(xué)習(xí)實體和關(guān)系的表示，而且關(guān)系對齊可以幫助實體對齊
bootstrapping的權(quán)衡
- 有效，可以逐步增強(qiáng)數(shù)據(jù)集
- 問題：錯誤累積，耗時
- 是否用bootstrapping?依據(jù)數(shù)據(jù)集
  - 數(shù)據(jù)集簡單：有豐富的文字信息且密度大（多大？）
    - 可以用bootstrapping
  - 很難的話就算了，錯誤會不斷積累的
未來研究的建議
- 長尾：
  - 有研究用額外的信息
  - [66] W. Zeng, X. Zhao, W. Wang, J. Tang, and Z. Tan. Degree-aware alignment for entities in tail. In SIGIR, 2020.
- 多模態(tài)EA
  - 一個實體可以與多種形式的信息關(guān)聯(lián)
  - [39] Y. Liu, H. Li, A. Garc′?a-Dur′an, M. Niepert, D. O?noro-Rubio, and D. S.
    Rosenblum. MMKG: multi-modal knowledge graphs. In P. Hitzler,
    M. Fern′andez, K. Janowicz, A. Zaveri, A. J. G. Gray, V. L′opez, A. Haller,
    and K. Hammar, editors, ESWC, volume 11503 of Lecture Notes in
    Computer Science, pages 459–474. Springer, 2019.
- 開放世界
  - 現(xiàn)在大多EA的假設(shè)：源KG的實體總能在目標(biāo)KG找到一個對齊的實體
  - 需要標(biāo)注數(shù)據(jù)

5. 新的數(shù)據(jù)集和未來的實驗？

新的數(shù)據(jù)集
- 目的：
  - 單語言數(shù)據(jù)集中同名同實體，但實際是有歧義的
  - 一個id對應(yīng)一個或多個mention，但是是互相匹配的
    - 現(xiàn)實：同名的實體但可能不是一個實體
      - 在YAGO3中，34%的實體有一個由多個實體共享的名稱。
    - 現(xiàn)有的數(shù)據(jù)集中沒有這種情況(不然也做不到100%）
  - 一定會有對齊的實體
    - 實際不一定啊
  - 總之，數(shù)據(jù)集都太簡單了

5.1 數(shù)據(jù)集的構(gòu)建DBP-FB

實體名稱的id表示–實體名稱的困難
- 目標(biāo) 用Freebase：id,且有同名實體
- 源：DBPedia，包含F(xiàn)reebase的外部鏈接（有答案）
構(gòu)建
- 包含參與三元組但不參與對齊

5.2 實驗

不存在不對齊實體的性能
存在無對齊實體的EA性能
- 現(xiàn)在的模型效果都比SRPRS差：因為結(jié)構(gòu)的異構(gòu)性更高
  - 實體分布也差異很大，難以用結(jié)構(gòu)信息
- 實體名稱仍然會產(chǎn)生最好的結(jié)果，但比單語言數(shù)據(jù)集差
  - 實體名稱模糊的挑戰(zhàn)

5.3 unmatchable entities

CombEA
- 召回高，精度低：因為給每一個源實體都匹配了一個目標(biāo)實體
- 現(xiàn)在的EA都有這個問題
解決必有答案的問題d的策略：NIL閾值 $θ\theta$
- 距離大于 $θ\theta$ 就舍棄，不能對齊

創(chuàng)作挑戰(zhàn)賽新人創(chuàng)作獎勵來咯，堅持創(chuàng)作打卡瓜分現(xiàn)金大獎

總結(jié)

以上是生活随笔為你收集整理的【实体对齐·综述】An Experimental Study of State-of-the-Art Entity Alignment Approaches的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇：知识图谱最新权威综述论文解读：知识表示学
下一篇： “知识图谱+”系列：知识图谱+强化学习