论文浅尝 | 基于知识图谱 Embedding 的问答
論文筆記整理:譚亦鳴,東南大學博士生,研究方向為知識圖譜問答。
來源:WSDM 2019
鏈接:https://dl.acm.org/citation.cfm?doid=3289600.3290956
?
目前知識圖譜問答(本文簡寫為QA-KG,question answering over knowledge graph)存在的一個主要問題在于圖譜與自然語言之間的gap,具體表現為:命名實體再自然語言問句中的模糊描述及不完整描述,謂詞具有多種自然語言表述形式等,從而使得圖譜中搜索的候選答案規模較大,影響問答系統的性能。為了解決該問題,本文作者提出了一種基于知識圖譜Embedding的問答框架(KEQA),該框架關注了大部分常見的問題類型,以簡單問題為例(該問題的答案可由一個頭實體及一個謂詞定義得到),不同于直接從頭實體和謂詞進行推理的過程,該方法的目標是在圖譜Embedding空間中聯合得找到問題的頭實體,謂詞及尾實體。基于一個精心設計的聯合距離評價方法,圖譜中與上述三個向量最接近的fact作為問題的答案返回。
?
貢獻
作者認為本文主要研究貢獻如下:
正式的定義了基于問答的知識圖譜embedding問題
建立了一個有效的KEQA框架,通過從圖譜embedding空間聯合地找到頭實體,謂詞和尾實體,實現自然語言問題的回答
設計了一個聯合距離評價方法,該方法在embedding表示中保留了圖譜的結構和關系信息
在SimpleQuestion上進行的測試取得了非常優質的性能表現
?
方法
KEQA的框架的整體思路如圖1所示:
圖譜被embedding到兩個低維空間中(實體空間和謂詞空間),每個事實(即圖譜中的三元組)可由三個潛在的向量表示(即兩個實體向量和一個謂詞向量)。對于一個給定的問題,模型首先預測它所對應事實的頭實體和謂詞,接下來就可以準確給出該問題的答案。
因此,上述框架的過程可以描述為三步:
基于問題庫及其問題對應的謂詞embedding表示,學習一個謂詞學習模型,以問題為輸入,輸出其對應的謂詞向量表示(對應到圖譜的Embedding空間中)
考慮到圖譜中的實體規模較大,KEQA提供了一個頭實體識別模型,用于減少候選頭實體的數量。主要的目標是找到問題中的一個/多個token預測頭實體命名,從而通過找到相同或相似的命名減少候選規模。
給定一個relation函數(由KG embedding算法定義),KEQA利用頭實體和謂詞的表示預測計算尾實體,構成事實三元組,而后將圖譜中與之最近的事實輸出為問題的答案
?
圖譜 embedding 方法
本文使用現有的圖譜 embedding 算法 TransE 學習 entity embedding 及 predicatee mbedding,
?
頭實體/謂詞學習模型
圖2描述了謂詞和頭實體的學習模型,可以看到,經過word embedding之后,問題中的token以向量的形式輸入到雙向LSTM中,而后將兩個方向LSTM的輸出直接拼接合并,通過一個Attention層對原始詞向量,變換之后的文本向量等進行加權,而后用于預測對應到圖譜實體/謂詞embedding的向量表示。
?
頭實體識別模型
圖3描述了本文提出的頭實體識別模型,本模型的目標是從問題中選出一個或多個tokens作為頭實體的命名,從而減少獲取頭實體的搜索空間。網絡構成不再贅述,相對謂詞學習模型減少了attention層,模型的訓練數據由問題及其頭實體構成,輸出結果表示當前word是否是頭實體。
Embedding 空間的聯合搜索
對于每個新的樣本問題,模型已經預測它的謂詞和頭實體表示,接下來的目標是從圖譜中找到與之最為匹配的事實。
作者提出了一種聯合距離評價機制用于完成上述匹配,其定義如公式9所示:
C表示候選事實集合,函數n(·)返回實體命名或者謂詞,HED表示token是否是頭實體(由Detection模型給定),sim[·,·]表示衡量兩個字符串的相似性,β表示平衡權值,用以調整函數各部分的貢獻程度。
?
整合上述模塊,得到KEQA框架的整體算法如下:
?
實驗部分
數據集
本文實驗使用的數據集及統計信息如表2所示:
主要包含FB2M/FB5M知識庫,問答語料來自SimpleQuestion
?
實驗結果
相關實驗模型參數在論文中均有明確說明,這里不再贅述,表三給出了模型的實驗結果如下:
?
?
OpenKG
開放知識圖譜(簡稱 OpenKG)旨在促進中文知識圖譜數據的開放與互聯,促進知識圖譜和語義技術的普及和廣泛應用。
點擊閱讀原文,進入 OpenKG 博客。
總結
以上是生活随笔為你收集整理的论文浅尝 | 基于知识图谱 Embedding 的问答的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 论文浅尝 | 解决知识图谱补全中的长尾关
- 下一篇: 论文浅尝 | XQA:一个跨语言开放域问