论文浅尝 | 面向简单知识库问答的模式修正强化策略
鏈接:http://aclweb.org/anthology/C18-1277
知識(shí)庫(kù)問答研究旨在利用結(jié)構(gòu)化事實(shí)回答自然語言問題,在網(wǎng)絡(luò)中,簡(jiǎn)單問題占據(jù)了相當(dāng)大的比例。本文提出在完成模式抽取和實(shí)體鏈接后,構(gòu)建一個(gè)模式修正機(jī)制,從而緩解錯(cuò)誤積累問題。為了學(xué)習(xí)對(duì)“subject-predicate”(問題的實(shí)體-謂詞)候選集的排序,本文提出將關(guān)系檢測(cè)機(jī)制用于強(qiáng)化聯(lián)合事實(shí)選擇。多級(jí)別編碼和多維信息將被用于強(qiáng)化整個(gè)模型過程。實(shí)驗(yàn)結(jié)果表明,本方法展現(xiàn)出非常強(qiáng)大的性能。
?
Background
簡(jiǎn)單知識(shí)庫(kù)問答,指的是問答中僅需用到知識(shí)庫(kù)中的一個(gè)事實(shí)即可給出答案的過程。
其流程和可以描述為:從自然語言問句中識(shí)別實(shí)體,謂詞,并與知識(shí)庫(kù)中的內(nèi)容構(gòu)成完整三元組的過程。
?
簡(jiǎn)單知識(shí)庫(kù)問答目前存在的主要挑戰(zhàn)包括:
1.同一單詞(詞語)在不同句子中的意義不同
2.不同的自然語言表達(dá)方式具有相同的含義
3.如何利用大規(guī)模知識(shí)庫(kù)中的大量事實(shí)信息
Model
在簡(jiǎn)單問答中,首先要做的是實(shí)體鏈接,常規(guī)的實(shí)體鏈接方法包括n-gram匹配,序列標(biāo)注等等,但是這兩個(gè)方法都有可能導(dǎo)致錯(cuò)誤積累,從而無法找到準(zhǔn)確的“實(shí)體-謂詞”對(duì)。
考慮到這些問題,本文首先使用模式抽取和實(shí)體鏈接,將可能的實(shí)體描述和問題模式提取出來,而后減少知識(shí)庫(kù)中的候選實(shí)體數(shù)量。
在模式抽取過程中,作者發(fā)現(xiàn)由于模型性能問題,抽取結(jié)果中存在一定比例的較差模式。為了應(yīng)對(duì)這個(gè)情況,文章提出添加模式修正機(jī)制以提升模式抽取的質(zhì)量。
?
下一步工作就是找出最可能生成問題答案的“實(shí)體-謂詞”對(duì),對(duì)于這個(gè)問題,前人的工作中主要考慮使用問題模式與候選實(shí)體信息來選擇合適的謂詞。本文則引入了關(guān)系檢測(cè)機(jī)制進(jìn)行改進(jìn),其效果體現(xiàn)在限定了知識(shí)庫(kù)中問題表達(dá)對(duì)應(yīng)的謂詞,從而引導(dǎo)候選實(shí)體的重排序。
?
當(dāng)問題所問實(shí)體在知識(shí)庫(kù)中存在大量不同類型的重名實(shí)體時(shí),先做關(guān)系推理或者實(shí)體鏈接都有可能引發(fā)無召回問題。對(duì)此,本文的策略是采用聯(lián)合事實(shí)篩選,通過利用實(shí)體的名稱信息和類別信息從不同角度描述實(shí)體。
?
在確定謂詞方面,作者采用唯一關(guān)系名與分散詞信息作為限定條件
本文問答模型的示意圖
同時(shí)為了準(zhǔn)確保留原始問句的內(nèi)容,本文將字符級(jí)別與詞級(jí)別的編碼結(jié)果進(jìn)行合并,用于表達(dá)原始問句
?
本文編碼策略的示意圖
????????????????????????????
Experiment
本文實(shí)驗(yàn)使用的數(shù)據(jù)集為SimpleQuestions benchmark提供的問答數(shù)據(jù)集,其中的每個(gè)問題都可以由freebase中的一個(gè)三元組回答。
數(shù)據(jù)集分為三個(gè)部分:訓(xùn)練集規(guī)模為75910,驗(yàn)證集為10845,測(cè)試集為21687
知識(shí)庫(kù)則是從freebase中抽取的子集FB2M(2,150,604entities, 6,701 predicates, 14,180,937 atomic fact triples,FB5M(4,904,397entities, 7,523 predicates, 22,441,880 atomic fact triples)
?
實(shí)驗(yàn)評(píng)價(jià)指標(biāo)為準(zhǔn)確率,僅當(dāng)問題對(duì)應(yīng)的事實(shí)與模型得到的實(shí)體和謂詞兩者都匹配時(shí),才算準(zhǔn)確匹配。
?
從實(shí)驗(yàn)結(jié)果上看,本文方法相對(duì)過去的工作,取得了非常明顯的提升。
?
論文筆記整理:譚亦鳴,東南大學(xué)博士,研究方向?yàn)橹R(shí)圖譜問答,自然語言處理。
OpenKG.CN
中文開放知識(shí)圖譜(簡(jiǎn)稱OpenKG.CN)旨在促進(jìn)中文知識(shí)圖譜數(shù)據(jù)的開放與互聯(lián),促進(jìn)知識(shí)圖譜和語義技術(shù)的普及和廣泛應(yīng)用。
轉(zhuǎn)載須知:轉(zhuǎn)載需注明來源“OpenKG.CN”、作者及原文鏈接。如需修改標(biāo)題,請(qǐng)注明原標(biāo)題。
?
點(diǎn)擊閱讀原文,進(jìn)入 OpenKG 博客。
創(chuàng)作挑戰(zhàn)賽新人創(chuàng)作獎(jiǎng)勵(lì)來咯,堅(jiān)持創(chuàng)作打卡瓜分現(xiàn)金大獎(jiǎng)總結(jié)
以上是生活随笔為你收集整理的论文浅尝 | 面向简单知识库问答的模式修正强化策略的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 领域应用 | 2020 年中国知识图谱行
- 下一篇: 技术动态 | 去中心化知识图谱协作平台建