论文浅尝 | 基于复杂查询图编码的知识库问答
論文筆記整理:譚亦鳴,東南大學博士生,研究方向為知識庫問答。
來源:EMNLP 2018
鏈接:https://www.aclweb.org/anthology/D18-1242
?
文章表示,復雜問答所面對的問題往往包含多種實體和關系(來自知識庫),現有的知識庫問答模型在復雜問答表現不足的主要原因在于無法同時表示問題本身以及對應的復雜查詢結構,作者提出將復雜查詢編碼為統一的向量表示,這種方式成功捕捉到復雜問題中各語塊之間的相互作用,實驗表明這種方法在復雜問答上的優異性能以及在簡單問答任務上的有效性。
?
動機
現有神經網絡知識庫問答模型在簡單問答任務一般遵循以下框架:編碼-對比,主要環節包括將問題與謂詞序列編碼為同一空間的語義向量,而后通過相似度計算實現謂詞預測。當面對復雜問題時,直覺上需要將原始問題的復雜查詢圖(多個謂詞序列)切分為子查詢語塊,再進行相似度計算。
作者認為這種方式存在兩個明顯的缺陷:1. 子語塊無法與整個問題進行比較;2. 模型分別對各語塊進行編碼而忽略了查詢圖的整體語義信息
為了解決上述兩個缺陷,作者提出一種改進的神經網絡方法用于提升復雜問答中語義相似計算的準確性。
?
貢獻
1.????提出一種輕量且有效的神經網絡模型用于復雜問題解答
2.????在神經網絡模型中添加問題依存解析結果用于強化問題的表示學習,并證明其有效性
3.????提出一種融合方法強化現有實體鏈接工具
4.????在多個問答數據集上驗證了模型的有效性(包括簡單問答和復雜問答)
?
方法
面向復雜問題的KBQA方法包含以下部分:
1.????候選查詢圖生成
2.????計算查詢圖與問題的語義相似性
3.????強化的實體鏈接
4.????訓練和預測損失函數
?
候選查詢圖生成:
???????????
對于一個復雜問題來說,查詢圖的生成過程包含以下步驟,如圖2所示:
1. Focuslinking(焦點鏈接)包含實體鏈接(S-MART工具實現),類型鏈接(抽取文本的1,2,3元文法,通過詞嵌入相似性得到排名top 10的類型結果),時間鏈接(使用日期格式匹配得到),排序鏈接(構建最高級詞表/序數+最高級模板)等四種;
2. MainPath Generation(主要路徑生成)通過從答案節點出發連接到不同的焦點實體(通過謂詞序列進行1跳或2跳),可以得到多個不同主要路徑;
3. Applying entity constraint(實體約束),將實體鏈接節點添加到路徑上;
4. Applying all constraint(其他約束),添加類型,時間,排序約束節點到路徑中;
?
語義相似度計算:
???????????
基于神經網絡的復雜問答語義匹配模型如圖所示,步驟概括如下:
1.????首先,原始問題中的實體/時間均被替換為標識符<E>/<Tm>,并且得到其依存解析結果序列,分別使用BiGRU編碼并相加融合得到其表示;
2.????為了編碼復雜查詢圖,以答案節點為起始,對不同謂詞路徑進行切分,分別編碼路徑的謂詞id及其自然語言描述,而后相加融合;
3.????計算問題編碼結果與查詢圖編碼結果的相似性,公式如下:
???????????
強化的實體鏈接:
??? 作者發現S-MART工具雖然在實體鏈接上具有非常優秀的準確性,但其召回率較低。為了解決這一問題,作者提出構建一個整合方法進行強化,首先從Wikipedia中收集所有的(mention, entity) pair集,其中每一組pair包含一系列的統計特征(鏈接概率,letter-tri-gram jaccard 相似性,popularity of the entity in Wikipedia等等),對于集合中能被S-MART找到的部分,利用一個兩層的線性回歸模型擬合其鏈接得分,從而訓練模型用于預測每組pair的鏈接概率,提取其得到的Top-K樣本強化S-MART的結果。
?
模型訓練和預測:
????? 為了從候選查詢圖中識別出最優的結果,需要計算問題和每個查詢圖之間的全局聯合得分(overall association score),這個得分由實體鏈接/語義匹配/結構等級等特征得分加權得到,具體特征如下表所示:
??????? 訓練過程考慮正負例共同構成的損失函數如下:
實驗
數據集
問答數據集:
1.? ComplexQuestions (Bao et al., 2016);
2.? WebQuestions (Berant et al., 2013);
3.? SimpleQuestions (Bordes et al., 2015);
知識庫:
Freebase dump (host with Virtuoso engine)
?
實驗結果
對于作者提出的End2End模型,在CompQ與WebQ數據集上的結果如下,評價指標為答案的平均F1值。可以看到,對于復雜問題的解答性能上,該模型相對其他方法有顯著提升,在簡單問答任務上,也展現出較為優秀的性能。
同時,模型在SimpleQ數據上的結果也取得了不錯的性能。
OpenKG
開放知識圖譜(簡稱 OpenKG)旨在促進中文知識圖譜數據的開放與互聯,促進知識圖譜和語義技術的普及和廣泛應用。
點擊閱讀原文,進入 OpenKG 博客。
總結
以上是生活随笔為你收集整理的论文浅尝 | 基于复杂查询图编码的知识库问答的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 论文浅尝 | Global Relati
- 下一篇: 图谱实战 | 京东商品图谱构建与实体对齐