當(dāng)前位置：首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

论文浅尝 | 面向简单知识库问答的模式修正强化策略

發(fā)布時(shí)間：2024/7/5 编程问答 45 豆豆

生活随笔收集整理的這篇文章主要介紹了论文浅尝 | 面向简单知识库问答的模式修正强化策略小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

鏈接：http://aclweb.org/anthology/C18-1277

知識(shí)庫(kù)問答研究旨在利用結(jié)構(gòu)化事實(shí)回答自然語言問題，在網(wǎng)絡(luò)中，簡(jiǎn)單問題占據(jù)了相當(dāng)大的比例。本文提出在完成模式抽取和實(shí)體鏈接后，構(gòu)建一個(gè)模式修正機(jī)制，從而緩解錯(cuò)誤積累問題。為了學(xué)習(xí)對(duì)“subject-predicate”(問題的實(shí)體-謂詞)候選集的排序，本文提出將關(guān)系檢測(cè)機(jī)制用于強(qiáng)化聯(lián)合事實(shí)選擇。多級(jí)別編碼和多維信息將被用于強(qiáng)化整個(gè)模型過程。實(shí)驗(yàn)結(jié)果表明，本方法展現(xiàn)出非常強(qiáng)大的性能。

Background

簡(jiǎn)單知識(shí)庫(kù)問答，指的是問答中僅需用到知識(shí)庫(kù)中的一個(gè)事實(shí)即可給出答案的過程。

其流程和可以描述為：從自然語言問句中識(shí)別實(shí)體，謂詞，并與知識(shí)庫(kù)中的內(nèi)容構(gòu)成完整三元組的過程。

簡(jiǎn)單知識(shí)庫(kù)問答目前存在的主要挑戰(zhàn)包括：

1.同一單詞(詞語)在不同句子中的意義不同

2.不同的自然語言表達(dá)方式具有相同的含義

3.如何利用大規(guī)模知識(shí)庫(kù)中的大量事實(shí)信息

Model

在簡(jiǎn)單問答中，首先要做的是實(shí)體鏈接，常規(guī)的實(shí)體鏈接方法包括n-gram匹配，序列標(biāo)注等等，但是這兩個(gè)方法都有可能導(dǎo)致錯(cuò)誤積累，從而無法找到準(zhǔn)確的“實(shí)體-謂詞”對(duì)。

考慮到這些問題，本文首先使用模式抽取和實(shí)體鏈接，將可能的實(shí)體描述和問題模式提取出來，而后減少知識(shí)庫(kù)中的候選實(shí)體數(shù)量。

在模式抽取過程中，作者發(fā)現(xiàn)由于模型性能問題，抽取結(jié)果中存在一定比例的較差模式。為了應(yīng)對(duì)這個(gè)情況，文章提出添加模式修正機(jī)制以提升模式抽取的質(zhì)量。

下一步工作就是找出最可能生成問題答案的“實(shí)體-謂詞”對(duì)，對(duì)于這個(gè)問題，前人的工作中主要考慮使用問題模式與候選實(shí)體信息來選擇合適的謂詞。本文則引入了關(guān)系檢測(cè)機(jī)制進(jìn)行改進(jìn)，其效果體現(xiàn)在限定了知識(shí)庫(kù)中問題表達(dá)對(duì)應(yīng)的謂詞，從而引導(dǎo)候選實(shí)體的重排序。

當(dāng)問題所問實(shí)體在知識(shí)庫(kù)中存在大量不同類型的重名實(shí)體時(shí)，先做關(guān)系推理或者實(shí)體鏈接都有可能引發(fā)無召回問題。對(duì)此，本文的策略是采用聯(lián)合事實(shí)篩選，通過利用實(shí)體的名稱信息和類別信息從不同角度描述實(shí)體。

在確定謂詞方面，作者采用唯一關(guān)系名與分散詞信息作為限定條件

本文問答模型的示意圖

同時(shí)為了準(zhǔn)確保留原始問句的內(nèi)容，本文將字符級(jí)別與詞級(jí)別的編碼結(jié)果進(jìn)行合并，用于表達(dá)原始問句

本文編碼策略的示意圖

????????????????????????????

Experiment

本文實(shí)驗(yàn)使用的數(shù)據(jù)集為SimpleQuestions benchmark提供的問答數(shù)據(jù)集，其中的每個(gè)問題都可以由freebase中的一個(gè)三元組回答。

數(shù)據(jù)集分為三個(gè)部分：訓(xùn)練集規(guī)模為75910，驗(yàn)證集為10845，測(cè)試集為21687

知識(shí)庫(kù)則是從freebase中抽取的子集FB2M(2,150,604entities, 6,701 predicates, 14,180,937 atomic fact triples，FB5M(4,904,397entities, 7,523 predicates, 22,441,880 atomic fact triples)

實(shí)驗(yàn)評(píng)價(jià)指標(biāo)為準(zhǔn)確率，僅當(dāng)問題對(duì)應(yīng)的事實(shí)與模型得到的實(shí)體和謂詞兩者都匹配時(shí)，才算準(zhǔn)確匹配。

從實(shí)驗(yàn)結(jié)果上看，本文方法相對(duì)過去的工作，取得了非常明顯的提升。

論文筆記整理：譚亦鳴，東南大學(xué)博士，研究方向?yàn)橹R(shí)圖譜問答，自然語言處理。

OpenKG.CN

中文開放知識(shí)圖譜（簡(jiǎn)稱OpenKG.CN）旨在促進(jìn)中文知識(shí)圖譜數(shù)據(jù)的開放與互聯(lián)，促進(jìn)知識(shí)圖譜和語義技術(shù)的普及和廣泛應(yīng)用。

轉(zhuǎn)載須知：轉(zhuǎn)載需注明來源“OpenKG.CN”、作者及原文鏈接。如需修改標(biāo)題，請(qǐng)注明原標(biāo)題。

點(diǎn)擊閱讀原文，進(jìn)入 OpenKG 博客。

創(chuàng)作挑戰(zhàn)賽新人創(chuàng)作獎(jiǎng)勵(lì)來咯，堅(jiān)持創(chuàng)作打卡瓜分現(xiàn)金大獎(jiǎng)

總結(jié)

以上是生活随笔為你收集整理的论文浅尝 | 面向简单知识库问答的模式修正强化策略的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：领域应用 | 2020 年中国知识图谱行
下一篇：技术动态 | 去中心化知识图谱协作平台建

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

编程问答

论文浅尝 | 面向简单知识库问答的模式修正强化策略

總結(jié)