當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

论文浅尝 | 利用问题生成提升知识图谱问答

發布時間：2024/7/5 编程问答 54 豆豆

生活随笔收集整理的這篇文章主要介紹了论文浅尝 | 利用问题生成提升知识图谱问答小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

論文筆記整理：譚亦鳴，東南大學博士生，研究方向為知識庫問答。

來源：NLPCC2019

鏈接：http://tcci.ccf.org.cn/conference/2019/papers/183.pdf

???????????

??? 本文提出了一種利用問題生成提升知識圖譜問答模型性能的方法（一個框架），動機主要有兩個，其一是問答模型訓練基于大量有標注問答數據集（人工成本高，且規模有限），其二是當問答模型面對訓練過程中沒見過的謂詞（predicate）時，性能將會受到嚴重影響。因此作者提出基于現有知識圖譜和文本語料，聯合問答（QA）和問題生成（QG），將問題生成的結果用于問答模型的微調（fine-tune）中。

???????????

方法

1.????聯合策略

作者提出使用對偶學習（dual-learning）聯合QA和QG模型，訓練的目標符合以下約束，其中 θ_qg 表示訓練得到的 QG 模型，θ_qa 表示 QA 模型，QG 模型對于給定答案 a 生成的問題 q 需要對應 QA 模型對于問題 q 給出的答案 a：

即對于給定的問答對 <q, a>，QA 和 QG 模型均需要最小化他們的初始損失函數，規則化后如下：

作者給出了基于對偶學習的fine tuning過程如下圖，初始訓練數據集被分別用于QA和QG模型，而后QG模型將文本語料和其內容對應知識庫的三元組（triple）作為輸入生成<q, a>對，用于QA模型的fine tune：

2.????問答模型

為了實驗方便，本文的簡化問答模型為一個關系分類模型（relation classification model），作者表示在現有高質量 Entity Linking的基礎上，實際影響問答性能的主要因素依賴于關系/謂詞的識別精度。

作者構建了一個簡單的RNN關系抽取模型，為了更好的支持模型對未識別謂詞的處理能力，關系名被分解為詞序列，因此關系抽取實質上是一種序列匹配+排序的過程。

問題的表示也使用了相同的RNN完成，且為得到更 general 的表示形式，問題中的實體均用<e>標記替換，得到類似于“where is <e> from”這樣的形式，同時對于<e>的類型添加了約束，以避免模型訓練中可能存在的樣本沖突。

3.????問題生成模型

?????? 作者基于 Seq2Seq 翻譯模型（基于 GRU）設計并構建了本文的 QG 過程，該模型包含圖譜和文本兩個編碼器：

圖譜編碼將給定的事實三元組中的頭實體，謂詞，尾實體分別進行編碼，而后融合三者的編碼結果，作為解碼輸入；

另一方面，對應事實三元組的文本信息也從Wiki中抽取獲得，利用文本編碼器編碼，也作為解碼過程的輸入，從而實現基于知識庫的自然語言問題生成。

實驗

數據集

?????? 本文實驗使用的數據集包含以下兩個：

?????? SimpleQuestion：一個包含超過 10 萬標注數據的問題集，每個問題由一個實體和一個關系組成，這里作者使用到了它的子集 FB2M，包含 2M 的實體。

?????? WebQSP：一個中等規模的知識圖譜問答數據集，包含單三元組和多三元組問題，作者使用 S-MART 實現實體鏈接。

實驗結果

為了驗證模型對未知謂詞的處理能力，作者分別取5%~100%訓練集對模型進行評估，結果如表1所示，指標反映的都是關系檢測的準確性。

問題生成的結果如下表所示：

該評估包含BLEU-4自動評價和人工評價。

問答實驗的結果如下：

OpenKG

開放知識圖譜（簡稱 OpenKG）旨在促進中文知識圖譜數據的開放與互聯，促進知識圖譜和語義技術的普及和廣泛應用。

點擊閱讀原文，進入 OpenKG 博客。

總結

以上是生活随笔為你收集整理的论文浅尝 | 利用问题生成提升知识图谱问答的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：技术动态 | 北京大学计算机所邹磊教授研
下一篇：征稿 | “健康知识图谱”投稿通道开启