知识图谱(五)——实体消歧
一、任務概述
多樣性——同一實體在文本中會有不同的指稱。eg:飛人、幫主、老大和MJ都指美國籃球運動員邁克爾·喬丹
歧義性——相同的實體指稱在不同的上下文中可以指不同的實體。eg:邁克爾·喬丹指美國籃球運動員、愛爾蘭政治家等
1、任務定義
實體消歧,定義為六元組。此處實體指的是命名實體。
M=N,E,D,O,K,δM=N,E,D,O,K,\deltaM=N,E,D,O,K,δ
- N=n1,n2,...,nlN=n_1,n_2,...,n_lN=n1?,n2?,...,nl? 表示待消歧的實體名集合。eg:李娜、邁克爾·喬丹等
- E=e1,e2,...,ekE=e_1,e_2,...,e_kE=e1?,e2?,...,ek? 表示待消歧實體名的目標實體列表,包括了所有待消歧實體名可能指向的實體。eg:李娜(網球運動員)、李娜(跳水運動員)、邁克爾·喬丹(NBA巨星)、邁克爾·喬丹(足球運動員)等。實際應用中,目標實體列表通常以知識庫的形式給出,eg:Wikipedia、Freebase
- D=d1,d2,...,dnD=d_1,d_2,...,d_nD=d1?,d2?,...,dn? 表示一個包含待消歧實體名的文檔集,eg:“邁克爾·喬丹”的前100個Google搜索結果的網頁集合。
- O=o1,o2,...,omO=o_1,o_2,...,o_mO=o1?,o2?,...,om? 表示 DDD 中所有待消歧的實體指稱項集合。
- 實體指稱項:在具體上下文中出現的待消歧實體名,是實體消歧任務的基本單位。
- eg:“邁克爾·喬丹是NBA最偉大的球星”中的“邁克爾·喬丹”是實體邁克爾·喬丹(NBA巨星)
的一個指稱項。
- KKK 表示命名實體消歧任務所使用的背景知識,最常用的是關于目標實體的文本描述。
- 發展:從實體描述文本=》社會化網絡中蘊含的實體社會化關聯知識=》概念之間的語義關聯知識等
- δ:O×K→E\delta:O\times K \to Eδ:O×K→E 表示命名實體消歧函數,用于將待消歧的是實體指稱項映射到目標實體列表(若EEE是顯示給定的)或按照其指向的目標實體進行聚類(若EEE沒有顯示給定,是隱藏變量)
2、任務分類
按照目標實體列表是否給出,實體消歧系統可分為:
- 基于聚類的實體消歧系統:目標實體列表未給定,以聚類方式對實體指稱項進行消歧。所有指向同一個目標實體的指稱項被消歧系統聚類到同一類別下,聚類的結果中每一個類別對應一個目標實體。
- 基于實體鏈接的實體消歧系統:目標實體列表給定,將實體指稱項與目標實體列表中的對應實體進行鏈接實現消歧
按照實體消歧任務領域不同,實體消歧系統可分為:(區別在于實體指稱項的文本表示)
-
結構化文本實體消歧系統:
- 實體指稱項被表示為一個結構化的文本記錄,eg:list列表、知識庫等
- 缺少上下文,主要依賴字符串比較和實體關系信息完成消歧;
-
非結構化文本實體消歧系統
- 實體指稱項被表示為一段非結構化文本
- 存在大量上下文,主要利用指稱項上下文和背景知識完成消歧。
- 常用方法:基于聚類的實體消歧、基于實體鏈接的實體消歧
3、相關測評
主流的命名實體消歧測評平臺:
- WePS(Web Person Search Clustering Task)測評,主要針對基于聚類的命名實體消歧
- TAC KBP的Entity Linking測評,主要針對基于實體鏈接的命名實體消歧
二、基于聚類的實體消歧方法
在未給定目標實體的情況下,對于給定待消歧的實體指稱集合 O=o1,o2,...,okO=o_1,o_2,...,o_kO=o1?,o2?,...,ok?,以聚類方式實現消歧的系統按以下步驟進行消歧:
- 對每一個實體指稱項 ooo,抽取其特征(eg:上下文中的詞、實體、概念),并將其表示稱特征向量 o=w1,w2,...,wno=w_1,w_2,...,w_no=w1?,w2?,...,wn?
- 計算實體指稱項之間的相似度(關鍵)。
- 基于表層特征的實體指稱項相似度計算;
- 基于擴展特征的實體指稱項相似度計算;
- 基于社會化網絡的實體指稱項相似度計算;
- 采用某種聚類算法對實體指稱項聚類,使得聚類結果中每一個類別都對應于一個目標實體上。
1、基于表層特征的實體指稱項相似度計算
傳統方法多利用表層特征計算相似度,這些方法通常是詞袋模型(Bag of Words,BoW)模型的延伸,性能不好。
步驟:
- 特征表示:將實體指稱項表示為 Term 向量形式,其中每個 Trem 的權重通常采用 TF-IDF 算法進行計算。
- 其他表示方法:上下文詞向量、Bi-gram表示、句法和語義特征。。。
- 相似度計算:采用Cosine計算相似度
這類方法都是基于上下文表層特征的關聯來計算它們之間的相似度,而沒有考慮到上下文特征的內在關聯,因此影響聚類效果。
2、基于擴展特征的實體指稱項相似度計算
利用知識資源提升實體消歧的性能。
最直接的方法:使用知識資源來擴展實體指稱項的特征表示。
- 通過抽取屬性信息擴展指稱項
- 通過上下文詞和Wikipedia中的類別信息
- 層次化分類體系
- 結構化關聯語義
- …
3、基于社會化網絡的實體指稱項相似度計算
基于社會化網絡的實體指稱項相似度通常使用基于圖的算法,能夠充分利用社會化關系的傳遞性,從而考慮隱藏的關系知識,在某些情況下(特別是結構化數據,eg:論文記錄、電影記錄等)能夠更為準確的實體指稱項相似度計算結果。
缺點:只用到上下文中的實體信息,不能完全利用實體指稱項的其他上下文信息,因此不能在文本消歧領域取得有競爭力的性能。
過程:
- 表示成社會化關系圖 G=(V,E)G=(V,E)G=(V,E) ,其中實體指稱項和實體均被表示為節點,節點之間的邊表示它們之間的社會化關系。
- 相似度計算:通常采用圖算法中的隨機游走算法來計算.
三、基于實體鏈接的實體消歧方法
基于實體鏈接的實體消歧方法:將實體指稱項鏈接到知識庫中特定的實體,也稱實體鏈接(Entity Linking)。
實體鏈接:將一個命名實體的文本指稱項(Textual Mention)鏈接到知識庫中對應實體的過程(若不存在對應實體,則將實體指稱項鏈接到空實體NIL)
實體鏈接的輸入包括兩部分:
- 目標實體知識庫:最常用Wikipedia,或特定領域知識庫。
- 知識庫通常包括:實體表、實體的文本描述、實體的結構化信息(eg:屬性/屬性值對)、實體的輔助性信息(eg:實體類別);也經常提供額外的結構化語義信息,eg:實體之間的關聯
- 待消歧實體指稱項及其上下文信息
步驟:
- 鏈接候選過濾(Blocking):根據規則或知識過濾大部分指稱項不可能指向的實體,僅僅保留少量鏈接實體候選。
- 實體鏈接(Linking):給定指稱項及其鏈接候選,確定該實體指稱項最終指向的目標實體。(重點研究)
1、鏈接候選過濾方法
大部分是基于實體指稱項詞典:通過在字典中記錄一個指稱項所有可能指向的目標實體來進行鏈接候選過濾。
例如:實體指稱項字典實例,AI
| AI | Artificial Intelligent Game Artificial Intelligent Ai(singer) Strong AI<br… |
傳統實體鏈接方法:使用Wikipedia等知識資源構建指稱項詞典,包括Wikipedia Entity Name、Wikipedia Redirection Page等。
為了匹配模糊或拼錯的指稱項,一些基于構詞法的模糊匹配也在TAC評測中使用,eg:Metaphone算法和Soft TFIDF算法
2、實體鏈接方法(重點)
給定一個指稱項 mmm 及其鏈接實體候選 E=e1,e2,...,enE=e_1,e_2,...,e_nE=e1?,e2?,...,en?,實體鏈接方法選擇與指稱項具有最高一致性打分的實體作為其目標實體。
e=arg?max?eScore(e,m)e=\mathop{\arg\max_{e}}Score(e,m)e=argemax?Score(e,m)
如何計算Score(e,m)Score(e,m)Score(e,m)是關鍵,現有方法可分為:
- 向量空間模型
- 主題一致模型
- 協同實體鏈接模型
- 基于神經網絡的模型
(1)向量空間模型
相似度計算依據:實體指稱項上下文與目標實體上下文特征的共現信息來確定。
過程:實體概念和實體指稱項都被表示為上下文中Term組成的向量(Term通常為詞,還可能包括概念、類別等)。基于Term向量表示,向量空間模型通過計算兩個向量之間的相似度對實體概念和指稱項之間的一致性進行打分。
研究重點:
- 如何抽取有效的特征表示:上下文中的詞、上下文抽取的概念和實體、從知識源獲取實體指稱項的額外信息
- 如何更有效地計算向量之間的相似度:Cosine相似度、上下文詞重合度、分類器等機器學習方法
(2)主題一致模型
一致性依據:實體指稱項的候選實體概念與指稱項上下文中的其他實體概念的一致性程度。
計算一致性打分時,通常考慮如下兩方面因素:
- 上下文實體的重要程度:與主題的相關程度。傳統方法使用實體與文本內其他實體的語義關聯的平均值作為重要程度的打分。
w(e,o)=∑ei∈Osr(e,ei)∣O∣w(e,o)=\frac{\sum_{e_i\in{O}}sr(e,e_i)}{|O|}w(e,o)=∣O∣∑ei?∈O?sr(e,ei?)?
其中,OOO是實體指稱項上下文中所有實體的結合,sr(e,ei)sr(e,e_i)sr(e,ei?)是實體eee和實體eie_iei?之間的語義關聯值,通常基于知識資源計算。 - 如何計算一致性:大部分使用目標實體與上下文中其他實體的加權語義關聯平均作為一致性打分。
Coherence(e,o)=∑ei∈Ow(e,o)sr(e,ei)∑ei∈Ow(e,o)Coherence(e,o)=\frac{\sum_{e_i\in{O}}w(e,o)sr(e,e_i)}{\sum_{e_i\in O}w(e,o)}Coherence(e,o)=∑ei?∈O?w(e,o)∑ei?∈O?w(e,o)sr(e,ei?)?
其中,ooo是實體指稱項,w(e,o)w(e,o)w(e,o)是實體eee的權重,而sr(e,ei)sr(e,e_i)sr(e,ei?)是實體之間的語義關聯度。
(3)協同實體鏈接
上述兩方法忽略了單篇文檔內所有實體指稱項的目標實體之間的關系。
方法:可將單篇文檔的協同實體鏈接看成一個優化任務,其優化任務的目標函數由以下公式決定:
1(∣So∣2)∑s≠s′∈Sor(ys,ys′)+1(∣So∣)wTfs(ys)\frac{1}{ \begin{pmatrix} |S_o| \\ 2 \\ \end{pmatrix} }\sum_{s \neq{s'}\in S_o}r(y_s,y'_s)+\frac{1}{(|S_o|)}w^Tf_s(y_s)(∣So?∣2?)1?s??=s′∈So?∑?r(ys?,ys′?)+(∣So?∣)1?wTfs?(ys?)
其中 ysy_sys? 指的是實體指稱項 sss 的目標實體,SoS_oSo? 是單篇文檔內所有實體指稱項的集合,r(ys,ys′)r(y_s,y'_s)r(ys?,ys′?) 是目標實體之間的語義關聯,fs(ys)f_s(y_s)fs?(ys?) 是實體指稱項 sss 與其目標實體 ysy_sys? 的一致性打分。
- 第一部分:對單篇文檔內所有實體指稱項的目標實體之間的關系進行建模。
- 第二部分:對單篇文檔內實體指稱項與其目標實體之間的一致性進行建模。
(4)基于神經網絡的實體消歧方法
卷積網絡等
四、面向結構化文本的實體消歧方法
列表型數據沒有上下文描述信息,需要利用實體的類別信息,實體的流行度和列表中的其他信息進行消歧。
總結
以上是生活随笔為你收集整理的知识图谱(五)——实体消歧的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 知识图谱(四)——实体识别和扩展
- 下一篇: 知识图谱(六)——关系抽取