论文浅尝 | 基于多原型mention向量的文本-实体联合学习
鏈接:http://anthology.aclweb.org/P/P17/P17-1149.pdf
?
概述
在知識庫和文本的聯合表示中,歧義是個困擾的難題。同一個 mention 可能在不同的語境下表述不同實體,同一個實體又有多種 mention 表示,如下圖。本文提出了一個新的表示方法,可以在一個聯合空間學習 mention 和實體的表示,同時解決歧義問題。
模型
作者提出了一個 mention sense 的概念,每一個 mention 對應一個 mention_sense,以表示當前的mention的真正含義。可以看出,mention_sense 是和實體一一對應的。作者從 wikipedia 的超鏈接里提取出 <m_l, e_j> 的組合,即mention超鏈接到某一實體。對于每一個這種組合,作者把它映射到一個 mention_sense 上:
這樣同一實體的 mention 會共享 mention_sense,而同一 mention 對應不同實體也會映射到不同的 mention_sense。作者把文本中的 mention 用 mention_sense 代替,來進行聯合訓練。
像大圖的最右側部分描述的一樣,mention_sense 可以看成是文本空間和實體空間的一個鏈接。聯合訓練的似然函數由三部分組成,均采用 CBOW/skip-gram 的語言模型來得到向量:
1、實體空間
這個方法讓共享鄰居實體的實體詞盡可能相似。
2、mention空間
這個方法使得指向同一實體,且共享上下文的mention_sense盡可能相似。
3、文本空間
共現的詞之間應盡可能相似,類似于 word2vec,只不過用 mention_sense 代替 mention。
?
實體鏈接
用上述學出的向量可以進行實體鏈接的工作。對于每一個實體,對所有 mention_sense 做如上計算,選出概率值最大的 mention_sense,再連接到對應的實體。因為一個句子可能包含多個實體,而全局優化代價過大,為了方便,作者假設實體和實體間獨立,提出了 L2R(從左至右)和 S2C(從簡至繁)的逐實體預測的方法。
?
實驗
作者進行了自身對比,可以看出多實體比單一實體的效果好很多。
在實體相關預測和詞語相關預測上,實體和詞語聯合學習的方法,也比單一學習提升了一些性能。
最后是上述實體鏈接的嘗試:
筆記整理:王冠穎,浙江大學碩士,研究方向為關系抽取、知識圖譜。
OpenKG.CN
中文開放知識圖譜(簡稱OpenKG.CN)旨在促進中文知識圖譜數據的開放與互聯,促進知識圖譜和語義技術的普及和廣泛應用。
轉載須知:轉載需注明來源“OpenKG.CN”、作者及原文鏈接。如需修改標題,請注明原標題。
點擊閱讀原文,進入 OpenKG 博客。
總結
以上是生活随笔為你收集整理的论文浅尝 | 基于多原型mention向量的文本-实体联合学习的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 机器翻译小记
- 下一篇: svn中文语言包安装(最详细步骤)+La