當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

论文浅尝 | 基于知识图谱 Embedding 的问答

發布時間：2024/7/5 编程问答 45 豆豆

生活随笔收集整理的這篇文章主要介紹了论文浅尝 | 基于知识图谱 Embedding 的问答小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

論文筆記整理：譚亦鳴，東南大學博士生，研究方向為知識圖譜問答。

來源：WSDM 2019

鏈接：https://dl.acm.org/citation.cfm?doid=3289600.3290956

目前知識圖譜問答（本文簡寫為QA-KG，question answering over knowledge graph）存在的一個主要問題在于圖譜與自然語言之間的gap，具體表現為：命名實體再自然語言問句中的模糊描述及不完整描述，謂詞具有多種自然語言表述形式等，從而使得圖譜中搜索的候選答案規模較大，影響問答系統的性能。為了解決該問題，本文作者提出了一種基于知識圖譜Embedding的問答框架（KEQA），該框架關注了大部分常見的問題類型，以簡單問題為例（該問題的答案可由一個頭實體及一個謂詞定義得到），不同于直接從頭實體和謂詞進行推理的過程，該方法的目標是在圖譜Embedding空間中聯合得找到問題的頭實體，謂詞及尾實體。基于一個精心設計的聯合距離評價方法，圖譜中與上述三個向量最接近的fact作為問題的答案返回。

貢獻

作者認為本文主要研究貢獻如下：

正式的定義了基于問答的知識圖譜embedding問題

建立了一個有效的KEQA框架，通過從圖譜embedding空間聯合地找到頭實體，謂詞和尾實體，實現自然語言問題的回答

設計了一個聯合距離評價方法，該方法在embedding表示中保留了圖譜的結構和關系信息

在SimpleQuestion上進行的測試取得了非常優質的性能表現

方法

KEQA的框架的整體思路如圖1所示：

圖譜被embedding到兩個低維空間中（實體空間和謂詞空間），每個事實（即圖譜中的三元組）可由三個潛在的向量表示（即兩個實體向量和一個謂詞向量）。對于一個給定的問題，模型首先預測它所對應事實的頭實體和謂詞，接下來就可以準確給出該問題的答案。

因此，上述框架的過程可以描述為三步：

基于問題庫及其問題對應的謂詞embedding表示，學習一個謂詞學習模型，以問題為輸入，輸出其對應的謂詞向量表示（對應到圖譜的Embedding空間中）

考慮到圖譜中的實體規模較大，KEQA提供了一個頭實體識別模型，用于減少候選頭實體的數量。主要的目標是找到問題中的一個/多個token預測頭實體命名，從而通過找到相同或相似的命名減少候選規模。

給定一個relation函數（由KG embedding算法定義），KEQA利用頭實體和謂詞的表示預測計算尾實體，構成事實三元組，而后將圖譜中與之最近的事實輸出為問題的答案

圖譜 embedding 方法

本文使用現有的圖譜 embedding 算法 TransE 學習 entity embedding 及 predicatee mbedding，

頭實體/謂詞學習模型

圖2描述了謂詞和頭實體的學習模型，可以看到，經過word embedding之后，問題中的token以向量的形式輸入到雙向LSTM中，而后將兩個方向LSTM的輸出直接拼接合并，通過一個Attention層對原始詞向量，變換之后的文本向量等進行加權，而后用于預測對應到圖譜實體/謂詞embedding的向量表示。

頭實體識別模型

圖3描述了本文提出的頭實體識別模型，本模型的目標是從問題中選出一個或多個tokens作為頭實體的命名，從而減少獲取頭實體的搜索空間。網絡構成不再贅述，相對謂詞學習模型減少了attention層，模型的訓練數據由問題及其頭實體構成，輸出結果表示當前word是否是頭實體。

Embedding 空間的聯合搜索

對于每個新的樣本問題，模型已經預測它的謂詞和頭實體表示，接下來的目標是從圖譜中找到與之最為匹配的事實。

作者提出了一種聯合距離評價機制用于完成上述匹配，其定義如公式9所示：

C表示候選事實集合，函數n(·)返回實體命名或者謂詞，HED表示token是否是頭實體（由Detection模型給定），sim[·,·]表示衡量兩個字符串的相似性，β表示平衡權值，用以調整函數各部分的貢獻程度。

整合上述模塊，得到KEQA框架的整體算法如下：

實驗部分

數據集

本文實驗使用的數據集及統計信息如表2所示：

主要包含FB2M/FB5M知識庫，問答語料來自SimpleQuestion

實驗結果

相關實驗模型參數在論文中均有明確說明，這里不再贅述，表三給出了模型的實驗結果如下：

OpenKG

開放知識圖譜（簡稱 OpenKG）旨在促進中文知識圖譜數據的開放與互聯，促進知識圖譜和語義技術的普及和廣泛應用。

點擊閱讀原文，進入 OpenKG 博客。

總結

以上是生活随笔為你收集整理的论文浅尝 | 基于知识图谱 Embedding 的问答的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：论文浅尝 | 解决知识图谱补全中的长尾关
下一篇：论文浅尝 | XQA：一个跨语言开放域问