论文浅尝 | 基于复杂查询图编码的知识库问答
論文筆記整理:譚亦鳴,東南大學(xué)博士生,研究方向為知識庫問答。
來源:EMNLP 2018
鏈接:https://www.aclweb.org/anthology/D18-1242
?
文章表示,復(fù)雜問答所面對的問題往往包含多種實體和關(guān)系(來自知識庫),現(xiàn)有的知識庫問答模型在復(fù)雜問答表現(xiàn)不足的主要原因在于無法同時表示問題本身以及對應(yīng)的復(fù)雜查詢結(jié)構(gòu),作者提出將復(fù)雜查詢編碼為統(tǒng)一的向量表示,這種方式成功捕捉到復(fù)雜問題中各語塊之間的相互作用,實驗表明這種方法在復(fù)雜問答上的優(yōu)異性能以及在簡單問答任務(wù)上的有效性。
?
動機
現(xiàn)有神經(jīng)網(wǎng)絡(luò)知識庫問答模型在簡單問答任務(wù)一般遵循以下框架:編碼-對比,主要環(huán)節(jié)包括將問題與謂詞序列編碼為同一空間的語義向量,而后通過相似度計算實現(xiàn)謂詞預(yù)測。當(dāng)面對復(fù)雜問題時,直覺上需要將原始問題的復(fù)雜查詢圖(多個謂詞序列)切分為子查詢語塊,再進行相似度計算。
作者認為這種方式存在兩個明顯的缺陷:1. 子語塊無法與整個問題進行比較;2. 模型分別對各語塊進行編碼而忽略了查詢圖的整體語義信息
為了解決上述兩個缺陷,作者提出一種改進的神經(jīng)網(wǎng)絡(luò)方法用于提升復(fù)雜問答中語義相似計算的準(zhǔn)確性。
?
貢獻
1.????提出一種輕量且有效的神經(jīng)網(wǎng)絡(luò)模型用于復(fù)雜問題解答
2.????在神經(jīng)網(wǎng)絡(luò)模型中添加問題依存解析結(jié)果用于強化問題的表示學(xué)習(xí),并證明其有效性
3.????提出一種融合方法強化現(xiàn)有實體鏈接工具
4.????在多個問答數(shù)據(jù)集上驗證了模型的有效性(包括簡單問答和復(fù)雜問答)
?
方法
面向復(fù)雜問題的KBQA方法包含以下部分:
1.????候選查詢圖生成
2.????計算查詢圖與問題的語義相似性
3.????強化的實體鏈接
4.????訓(xùn)練和預(yù)測損失函數(shù)
?
候選查詢圖生成:
???????????
對于一個復(fù)雜問題來說,查詢圖的生成過程包含以下步驟,如圖2所示:
1. Focuslinking(焦點鏈接)包含實體鏈接(S-MART工具實現(xiàn)),類型鏈接(抽取文本的1,2,3元文法,通過詞嵌入相似性得到排名top 10的類型結(jié)果),時間鏈接(使用日期格式匹配得到),排序鏈接(構(gòu)建最高級詞表/序數(shù)+最高級模板)等四種;
2. MainPath Generation(主要路徑生成)通過從答案節(jié)點出發(fā)連接到不同的焦點實體(通過謂詞序列進行1跳或2跳),可以得到多個不同主要路徑;
3. Applying entity constraint(實體約束),將實體鏈接節(jié)點添加到路徑上;
4. Applying all constraint(其他約束),添加類型,時間,排序約束節(jié)點到路徑中;
?
語義相似度計算:
???????????
基于神經(jīng)網(wǎng)絡(luò)的復(fù)雜問答語義匹配模型如圖所示,步驟概括如下:
1.????首先,原始問題中的實體/時間均被替換為標(biāo)識符<E>/<Tm>,并且得到其依存解析結(jié)果序列,分別使用BiGRU編碼并相加融合得到其表示;
2.????為了編碼復(fù)雜查詢圖,以答案節(jié)點為起始,對不同謂詞路徑進行切分,分別編碼路徑的謂詞id及其自然語言描述,而后相加融合;
3.????計算問題編碼結(jié)果與查詢圖編碼結(jié)果的相似性,公式如下:
???????????
強化的實體鏈接:
??? 作者發(fā)現(xiàn)S-MART工具雖然在實體鏈接上具有非常優(yōu)秀的準(zhǔn)確性,但其召回率較低。為了解決這一問題,作者提出構(gòu)建一個整合方法進行強化,首先從Wikipedia中收集所有的(mention, entity) pair集,其中每一組pair包含一系列的統(tǒng)計特征(鏈接概率,letter-tri-gram jaccard 相似性,popularity of the entity in Wikipedia等等),對于集合中能被S-MART找到的部分,利用一個兩層的線性回歸模型擬合其鏈接得分,從而訓(xùn)練模型用于預(yù)測每組pair的鏈接概率,提取其得到的Top-K樣本強化S-MART的結(jié)果。
?
模型訓(xùn)練和預(yù)測:
????? 為了從候選查詢圖中識別出最優(yōu)的結(jié)果,需要計算問題和每個查詢圖之間的全局聯(lián)合得分(overall association score),這個得分由實體鏈接/語義匹配/結(jié)構(gòu)等級等特征得分加權(quán)得到,具體特征如下表所示:
??????? 訓(xùn)練過程考慮正負例共同構(gòu)成的損失函數(shù)如下:
實驗
數(shù)據(jù)集
問答數(shù)據(jù)集:
1.? ComplexQuestions (Bao et al., 2016);
2.? WebQuestions (Berant et al., 2013);
3.? SimpleQuestions (Bordes et al., 2015);
知識庫:
Freebase dump (host with Virtuoso engine)
?
實驗結(jié)果
對于作者提出的End2End模型,在CompQ與WebQ數(shù)據(jù)集上的結(jié)果如下,評價指標(biāo)為答案的平均F1值??梢钥吹?#xff0c;對于復(fù)雜問題的解答性能上,該模型相對其他方法有顯著提升,在簡單問答任務(wù)上,也展現(xiàn)出較為優(yōu)秀的性能。
同時,模型在SimpleQ數(shù)據(jù)上的結(jié)果也取得了不錯的性能。
OpenKG
開放知識圖譜(簡稱 OpenKG)旨在促進中文知識圖譜數(shù)據(jù)的開放與互聯(lián),促進知識圖譜和語義技術(shù)的普及和廣泛應(yīng)用。
點擊閱讀原文,進入 OpenKG 博客。
總結(jié)
以上是生活随笔為你收集整理的论文浅尝 | 基于复杂查询图编码的知识库问答的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 论文浅尝 | Global Relati
- 下一篇: 图谱实战 | 京东商品图谱构建与实体对齐