论文浅尝 | 利用问题生成提升知识图谱问答
論文筆記整理:譚亦鳴,東南大學博士生,研究方向為知識庫問答。
來源:NLPCC2019
鏈接:http://tcci.ccf.org.cn/conference/2019/papers/183.pdf
???????????
??? 本文提出了一種利用問題生成提升知識圖譜問答模型性能的方法(一個框架),動機主要有兩個,其一是問答模型訓練基于大量有標注問答數據集(人工成本高,且規模有限),其二是當問答模型面對訓練過程中沒見過的謂詞(predicate)時,性能將會受到嚴重影響。因此作者提出基于現有知識圖譜和文本語料,聯合問答(QA)和問題生成(QG),將問題生成的結果用于問答模型的微調(fine-tune)中。
???????????
方法
1.????聯合策略
作者提出使用對偶學習(dual-learning)聯合QA和QG模型,訓練的目標符合以下約束,其中 θqg 表示訓練得到的 QG 模型,θqa 表示 QA 模型,QG 模型對于給定答案 a 生成的問題 q 需要對應 QA 模型對于問題 q 給出的答案 a:
即對于給定的問答對 <q, a>,QA 和 QG 模型均需要最小化他們的初始損失函數,規則化后如下:
作者給出了基于對偶學習的fine tuning過程如下圖,初始訓練數據集被分別用于QA和QG模型,而后QG模型將文本語料和其內容對應知識庫的三元組(triple)作為輸入生成<q, a>對,用于QA模型的fine tune:
2.????問答模型
為了實驗方便,本文的簡化問答模型為一個關系分類模型(relation classification model),作者表示在現有高質量 Entity Linking的 基礎上,實際影響問答性能的主要因素依賴于關系/謂詞的識別精度。
作者構建了一個簡單的RNN關系抽取模型,為了更好的支持模型對未識別謂詞的處理能力,關系名被分解為詞序列,因此關系抽取實質上是一種序列匹配+排序的過程。
問題的表示也使用了相同的RNN完成,且為得到更 general 的表示形式,問題中的實體均用<e>標記替換,得到類似于“where is <e> from”這樣的形式,同時對于<e>的類型添加了約束,以避免模型訓練中可能存在的樣本沖突。
?
3.????問題生成模型
?????? 作者基于 Seq2Seq 翻譯模型(基于 GRU)設計并構建了本文的 QG 過程,該模型包含圖譜和文本兩個編碼器:
圖譜編碼將給定的事實三元組中的頭實體,謂詞,尾實體分別進行編碼,而后融合三者的編碼結果,作為解碼輸入;
另一方面,對應事實三元組的文本信息也從Wiki中抽取獲得,利用文本編碼器編碼,也作為解碼過程的輸入,從而實現基于知識庫的自然語言問題生成。
?
實驗
數據集
?????? 本文實驗使用的數據集包含以下兩個:
?????? SimpleQuestion:一個包含超過 10 萬標注數據的問題集,每個問題由一個實體和一個關系組成,這里作者使用到了它的子集 FB2M,包含 2M 的實體。
?????? WebQSP:一個中等規模的知識圖譜問答數據集,包含單三元組和多三元組問題,作者使用 S-MART 實現實體鏈接。
?
實驗結果
為了驗證模型對未知謂詞的處理能力,作者分別取5%~100%訓練集對模型進行評估,結果如表1所示,指標反映的都是關系檢測的準確性。
?
問題生成的結果如下表所示:
該評估包含BLEU-4自動評價和人工評價。
?
問答實驗的結果如下:
?
OpenKG
開放知識圖譜(簡稱 OpenKG)旨在促進中文知識圖譜數據的開放與互聯,促進知識圖譜和語義技術的普及和廣泛應用。
點擊閱讀原文,進入 OpenKG 博客。
總結
以上是生活随笔為你收集整理的论文浅尝 | 利用问题生成提升知识图谱问答的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 技术动态 | 北京大学计算机所邹磊教授研
- 下一篇: 征稿 | “健康知识图谱”投稿通道开启