论文浅尝 | 通过多原型实体指称向量关联文本和实体
Cao Y,Huang L, Ji H, et al. Bridge Text and Knowledge by Learning Multi-Prototype Entity Mention Embedding[C]// Meeting of the Association for Computational Linguistics. 2017:1623-1633.
導(dǎo)讀:學(xué)術(shù)界近兩年來十分關(guān)注如何將文本等非結(jié)構(gòu)化數(shù)據(jù)和知識庫等結(jié)構(gòu)化數(shù)據(jù)映射到相同的語義空間中,然而在相同的語義空間中建模的過程會受到文本中實體指稱(mention)歧義的影響,即文本中的同一個姓名如邁克爾·喬丹可能指的是著名的籃球運動員喬丹也可能是我們敬仰的教授喬丹,那么在語義空間中,因為他們的字面表達相同而將其建模成為統(tǒng)一的向量顯然是不合理的。因此,文中提出了一種新的mention向量表示的學(xué)習(xí)框架Multi-Prototype Entity Mention Embedding (MPME),它可以根據(jù)實體指稱所對應(yīng)的詞義的不同而聯(lián)合文本和知識庫學(xué)習(xí)到不同的表示。此外,文中提出了一種類似于語言模型的方法解決了實體指稱的語義消歧問題。最后,實驗部分利用實體鏈接任務(wù)作為MPME的應(yīng)用場景,取得了當(dāng)前最優(yōu)的實驗效果。
?
研究動機
當(dāng)前有相當(dāng)多的工作研究如何將文本和知識庫進行關(guān)聯(lián)建模,顯然這樣會為自然語言處理及知識庫相關(guān)的研究任務(wù)帶來比較大的性能提升。當(dāng)前的研究思路可以粗略地分為兩類,其一是利用深度神經(jīng)網(wǎng)絡(luò)將實體和詞語直接在統(tǒng)一的語義空間中進行建模,但這類方法比較受限于計算復(fù)雜度以及語料的規(guī)模。其二是分別對知識庫中的實體以及文本中的實體指稱進行建模,并且利用 wiki 百科中的外鏈獲取 mention 和 entity 之間的關(guān)聯(lián),相當(dāng)于在各自訓(xùn)練的過程中加入了一層約束用于確保他們在各自的語義空間中有相似的表達。上述兩類方法都會面對同一個實體指稱可能對應(yīng)到多個實體的歧義問題,即文本中提到的邁克爾喬丹可能是教授也可能是運動員或其他不甚知名的人,也會面臨多個實體指稱對應(yīng)同一個實體的歧義問題,即文本中出現(xiàn)的姚明和小巨人可能指的同一個人。因此本文著手解決實體指稱的語義歧義問題,類似于傳統(tǒng)的實體鏈接任務(wù)。
?
創(chuàng)新點
本文提出了一種新型的實體指稱表示學(xué)習(xí)方法 MPME,結(jié)合文本信息以及知識庫信息學(xué)習(xí)實體指稱的表示;此外,文中還提出了一種基于語言模型的決策方法來進行實體指稱的語義消歧。
?
模型
MPME 框架結(jié)構(gòu)示意圖
如圖所示,模型可以大致分成兩個部分。
其一是表示學(xué)習(xí)部分,通過 Word Embedding 和 Knowledge Graph Embedding 對文本和知識庫分別進行建模,其中每個實體指稱都對應(yīng)著一個實體集合,也就是它們潛在的語義。在Entity Representation Learning中,訓(xùn)練的目標(biāo)是有相似的關(guān)聯(lián)實體的實體之間更相似。在Text Representation Learning中,實體指稱將和其他詞匯一起通過 Skip-Gram 模型進行訓(xùn)練,在Mention Representation Learning中,實體指稱被替換為相應(yīng)的詞義(sense),上下文的表示來自文本表示學(xué)習(xí)部分,實體的表示來自知識庫表示學(xué)習(xí)部分,目標(biāo)是得到更好的實體指稱的表達sj*,使得根據(jù)上下文信息,能夠確定實體指稱所對應(yīng)的語義(對應(yīng)哪個實體)。
其二是測試場景下的消歧部分,模型會綜合考慮實體指稱對應(yīng)的上下文信息,以及實體指稱對應(yīng)各個語義的統(tǒng)計概率分布進行計算。
?
實驗結(jié)果
文章的目標(biāo)是訓(xùn)練得到一組高質(zhì)量的實體指稱向量,仍然沒有跳出表示學(xué)習(xí)的框架,因此實驗部分首先比較了采用$MPME$之后,訓(xùn)練得到的向量的相似實體指稱都有哪些,以及從 mention embedding 和相應(yīng)的 entity embedding余弦距離的角度進行了分析,各項指標(biāo)相對對比模型SPME提高了1%左右,這一部分就不做贅述了。
同時,文章利用 mention embedding 在實體鏈接任務(wù)上進行了驗證,在AIDA數(shù)據(jù)集上,不管是有監(jiān)督的實體鏈接任務(wù)還是無監(jiān)督的實體鏈接任務(wù),利用 MPME 均取得了相較于之前最好結(jié)果3%左右的提升。
啟發(fā)
mention 之間的信息
本文中把文本和知識庫分別單獨進行建模,mention 的建模過程中比較多的考慮 mention 和 entity 之間的關(guān)聯(lián),所謂的上下文更多的是以詞窗口內(nèi)詞匯的形式出現(xiàn)的,而不是上下文中其他的mention,因此有可能會忽略一些關(guān)鍵的信息。傳統(tǒng)的實體鏈接方法中比較多使用的一類是基于圖的算法,其優(yōu)勢便在于能夠更充分的發(fā)掘 mention 和 mention 之間,mention 和 entity 以及 entity 和 entity 直接的結(jié)構(gòu)關(guān)聯(lián)信息,利用這些信息進行消歧已經(jīng)足夠有效(體現(xiàn)在實體鏈接任務(wù)的準(zhǔn)確率上),那么也可以嘗試?yán)脠D結(jié)構(gòu)更好地學(xué)習(xí) mention 的表示。
潛在的問題在于,假設(shè) mention 所對應(yīng)的兩個歧義實體屬于同一個 category,那么它們會共享十分相似的上下文,通過本文所題出的方法將不能很好的解決這個問題。比如兩只都叫做旺財?shù)墓?#xff0c;它們的日常表現(xiàn)應(yīng)該會比較相似,唯一不同的可能就只有它們的主人不同,這一點需要上下文中 mention 的參與,共同建模。
?
未登錄詞的處理
實際的應(yīng)用場景中,未登錄mention的數(shù)目理應(yīng)遠多于已經(jīng)訓(xùn)練的 mention 的數(shù)目,這樣才能體現(xiàn)出模型或方法的泛化能力,這也為我們提出更加 general 的 framework 提出的新的需求,或者說,訓(xùn)練的過程盡可能簡單,所需的額外信息盡可能的少,對未登錄詞的發(fā)現(xiàn)更加友好的框架。
?
論文筆記整理:吳桐桐,東南大學(xué)博士生,研究方向為自然語言問答。
OpenKG.CN
中文開放知識圖譜(簡稱OpenKG.CN)旨在促進中文知識圖譜數(shù)據(jù)的開放與互聯(lián),促進知識圖譜和語義技術(shù)的普及和廣泛應(yīng)用。
轉(zhuǎn)載須知:轉(zhuǎn)載需注明來源“OpenKG.CN”、作者及原文鏈接。如需修改標(biāo)題,請注明原標(biāo)題。
?
點擊閱讀原文,進入 OpenKG 博客。
總結(jié)
以上是生活随笔為你收集整理的论文浅尝 | 通过多原型实体指称向量关联文本和实体的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: pkuseg:一个多领域中文分词工具包
- 下一篇: 肖仰华 | 基于知识图谱的可解释人工智能