论文浅尝 | 知识图谱问答中的层次类型约束主题实体识别
Citation:Qiu, Y., Li, M., Wang, Y., Jia, Y., & Jin, X.(2018). Hierarchical Type Constrained Topic Entity Detection for Knowledge Base Question Answering. Companion of? the Web Conference (pp.35-36).
動機
對于 KBQA 任務,有兩個最為重要的部分:其一是問題實體識別,即將問題中的主題實體識別出來,并與 KB 做實體鏈接;其二是謂詞映射。對于主題實體識別任務,之前的做法多為依靠字符串相似度,再輔以人工抽取的特征和規則來完成的。但是這樣的做法并沒有將問題的語義與實體類型、實體關系這樣的實體信息考慮進來。實體類型和實體關系,很大程度上,是與問題的上下文語義相關的。當只考慮實體關系時,會遇到 zero-shot 的問題,即測試集中某實體的關系,是在訓練集中沒有遇到過的,這樣的實體關系就沒法準確地用向量表達。
因此,為了解決上述問題,本文首先利用 entity type(實體類型)的層次結構(主要為實體類型之間的父子關系),來解決 zero-shot 的問題。如同利用 wordnet 計算 word 相似度的做法一般,文章將父類型的“語義”視為所有子類型的“語義”之和。一個實體總是能夠與粗顆粒的父類型相關,例如一個實體至少能夠與最粗顆粒的 person、location 等類型相連。這樣,利用實體所述的類型,在考慮實體上下文時,就可以一定程度上彌補實體關系的zero-shot問題。此外,本文建立了一個神經網絡模型 Hierarchical Type constrained Topic Entity Detection (HTTED),利用問題上下文、實體類型、實體關系的語義,來計算候選實體與問題上下文的相似度,選取最相似的實體,來解決 NER 問題。經過實驗證明,HTTED 系統對比傳統的系統來說,達到了目前最優的實體識別效果。
貢獻
文章的貢獻有:
(1)利用父子類型的層次結構來解決稀疏類型訓練不充分的問題;
(2)設計了基于 LSTM 的 HTTED 模型,進行主題實體識別任務;
(3)提出的模型通過實驗驗證取得了 state-of-art 的效果。
方法
⒈本文首先對于父子類型的層次結構進行解釋和論述,也是HTTED的核心思想。
本文認為,父類型的語義視為接近于所有子類型的語義之和。例如父類型 organization 的語義,就相當于子類型 company、enterprise 等語義之和。如果類型是由定維向量表示,那么父類型的向量就是子類型的向量之和。此外,由于在數據集中,屬于子類型的實體比較稀疏,而父類型的實體稠密,如果不采用文中的方法,那么稀疏的子類型將會得不到充分的訓練。若將父類型以子類型表示,那么父子類型都可以得到充分地訓練。
圖1 HTTED模型圖
⒉其次是對文中模型的解釋。如上圖1所示,HTTED 使用了三個編碼器來對不同成分編碼。
其一,是問答上下文編碼器,即將問題經過分詞后得到的 tokens,以預訓練得到的詞向量來表示,并依次輸入雙向 LSTM 進行第一層的編碼;此后,將雙向 LSTM 得到的輸出拼接,再輸入第二層的 LSTM 進行編碼,即得到表示問題上下文的 d 維向量 q。
其二,是實體類型編碼器,即對于某個候選實體e,得到其連接的類型,并將父類型以所有子類型向量之和表示,再將這些類型對應的向量輸入一個 LSTM 中進行編碼,得到實體類型的 d 維向量 et。
其三,是實體關系編碼器,即對于某個候選實體 e,得到其所有實體關系,并表示成向量。此外,對于實體關系,將其關系名切割為 tokens,并以詞向量表示。然后將實體關系和實體關系名這兩種向量,輸入一個 LSTM 中進行編碼,得到實體關系的d維向量 er。
得到三個向量后,文章認為實體的語義可以由實體類型、實體關系近似表達,所以有
而在訓練時,設置一個 margin,則 ranking loss 為:
其中γ為超參數。
實驗
文章使用單關系問答數據集 SimpleQuestions 和知識圖譜 FB2M,并有 112 個具有層次父子關系的實體類型。HTTED 的詞向量為經過預訓練的,關系向量是初始隨機的,而類型向量中,葉子類型初始隨機,父類型的向量由子類型的向量累加得到。如下圖2所示,為 HTTED 與其他系統的效果對比,其中 -Hierarchy表示 HTTED 去除了實體類型的層次結構表示。
圖2 主題實體識別效果對比圖
由圖2可見,HTTED 為 state-of-art 的效果。并且,將實體類型的層次結構去除,HTTED 的準確性下降很多。可見層次類型約束對于該模型的重要性。
由下圖3可見,由于使用了層次結構的類型,同名的實體被識別出來,但是與問題上下文更相關的實體都被挑選出來,所以能夠正確識別到主題實體。
圖3 主題實體識別示例圖
總結
這篇文章,主要有兩個主要工作:其一,是引入了層次結構的實體類型約束,來表達實體的語義,使得與問題上下文相關的實體,更容易被找到;其二,是建立了基于 LSTM 的 HTTED 模型,提高了主題實體識別的效果。
?
?
論文筆記整理:花云程,東南大學博士,研究方向為自然語言處理、知識圖譜問答。
OpenKG.CN
中文開放知識圖譜(簡稱OpenKG.CN)旨在促進中文知識圖譜數據的開放與互聯,促進知識圖譜和語義技術的普及和廣泛應用。
轉載須知:轉載需注明來源“OpenKG.CN”、作者及原文鏈接。如需修改標題,請注明原標題。
?
點擊閱讀原文,進入 OpenKG 博客。
創作挑戰賽新人創作獎勵來咯,堅持創作打卡瓜分現金大獎總結
以上是生活随笔為你收集整理的论文浅尝 | 知识图谱问答中的层次类型约束主题实体识别的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 领域应用 | 推荐算法不够精准?让知识图
- 下一篇: 中文摘要生成 综述