论文浅尝 | 以知识图谱为基础的开放域对话生成的目标规划
筆記整理 |?韓振峰,天津大學(xué)碩士。
鏈接:https://ojs.aaai.org//index.php/AAAI/article/view/6474
動(dòng)機(jī)
之前有關(guān)開(kāi)放域?qū)υ捝傻纳窠?jīng)模型沒(méi)有有效的機(jī)制來(lái)管理聊天主題,并且往往會(huì)生成不連貫的對(duì)話。受到人與人對(duì)話策略的啟發(fā),本文將多輪開(kāi)放域?qū)υ捝扇蝿?wù)分為兩個(gè)子任務(wù):明確的目標(biāo)(有關(guān)主題的聊天)序列規(guī)劃和通過(guò)主題闡述的目標(biāo)補(bǔ)全。為此,本文提出了一個(gè)三層的基于知識(shí)的分層強(qiáng)化學(xué)習(xí)模型(KnowHRL)。對(duì)于第一個(gè)子任務(wù),上層策略學(xué)習(xí)如何遍歷知識(shí)圖譜,從而規(guī)劃一個(gè)高層次的目標(biāo)序列,以便在對(duì)話連貫性和用戶興趣的主題一致性之間取得良好的平衡。對(duì)于第二個(gè)子任務(wù),中層策略和下層策略協(xié)同工作,使用目標(biāo)驅(qū)動(dòng)的生成機(jī)制就單個(gè)主題進(jìn)行深入的多輪對(duì)話。目標(biāo)序列規(guī)劃的能力使得聊天機(jī)器人可以針對(duì)推薦主題進(jìn)行主動(dòng)的開(kāi)放域?qū)υ?#xff0c;這種類型的對(duì)話具有很多實(shí)際的應(yīng)用。
亮點(diǎn)
KnowHRL的亮點(diǎn)主要包括:
(1)本文首次嘗試將多輪開(kāi)放域?qū)υ捝扇蝿?wù)分為兩個(gè)子任務(wù):目標(biāo)序列規(guī)劃和基于對(duì)話闡述的目標(biāo)補(bǔ)全。
(2)在知識(shí)圖譜的幫助下,本文提出精確、可解釋的對(duì)話狀態(tài)和用于策略學(xué)習(xí)的行為。這有兩種優(yōu)點(diǎn):一是能夠很方便地設(shè)計(jì)與目標(biāo)相關(guān)的獎(jiǎng)勵(lì)來(lái)優(yōu)化目標(biāo)和方面的規(guī)劃;二是使用目標(biāo)和方面的信息來(lái)知道生成更連貫和更具信息的回復(fù)。
(3)實(shí)驗(yàn)表明模型在用戶興趣的一致性、對(duì)話連貫性和知識(shí)準(zhǔn)確性等方面很有效。
概念及模型
KnowHRL有三個(gè)層級(jí)策略,且能夠分為兩個(gè)子任務(wù):目標(biāo)序列規(guī)劃和基于主題闡述的目標(biāo)補(bǔ)全。目標(biāo)序列規(guī)劃:上層策略學(xué)習(xí)如何遍歷知識(shí)圖譜來(lái)規(guī)劃目標(biāo)序列,并且需要在對(duì)話連貫性和用戶興趣一致性之間取得平衡?;谥黝}闡述的目標(biāo)補(bǔ)全:中層策略從當(dāng)前目標(biāo)節(jié)點(diǎn)的一跳鄰居中選擇一個(gè)作為主題方面;下層策略使用給定的目標(biāo)和主題方面中的一個(gè)來(lái)指導(dǎo)下層策略生成一個(gè)深入的多輪對(duì)話。
模型整體框架如下:
State
狀態(tài)S由對(duì)話歷史g、主題方面歷史f、上下文語(yǔ)句u和特殊符號(hào)ut組成。其中ut表示是否在上一個(gè)語(yǔ)句中提到了一個(gè)新的話題,是則ut=1,否則ut=0;u定義為之前對(duì)話中的兩個(gè)語(yǔ)句。
三層策略分別有不同的行為空間,上層使用當(dāng)前目標(biāo)節(jié)點(diǎn)的所有鄰居節(jié)點(diǎn)和用戶提及的所有主題所謂行為空間;中層使用當(dāng)前目標(biāo)節(jié)點(diǎn)的所有鄰居節(jié)點(diǎn)并刪去其中已經(jīng)在之前的對(duì)話中被提到的節(jié)點(diǎn);下層回復(fù)向量的集合作為行為,每一個(gè)向量代表一種生成回復(fù)的方式。
Policy
本文使用分層策略,共分為三層,每層策略的定義如下:
上層策略:
中層策略:
下層策略:
Multi-mapping generator
此模塊使用的現(xiàn)有的模型,如上圖所示,其中:
損失函數(shù):
Rewards
為三層策略分別設(shè)計(jì)了不同的獎(jiǎng)勵(lì)因素,其中上層策略包括:目標(biāo)序列的連貫性、用戶興趣的一致性、多樣性、可持續(xù)性、來(lái)自中層策略的目標(biāo)補(bǔ)全信息。中層策略包括:主題方面連貫性、來(lái)自下層的獎(jiǎng)勵(lì)。下層策略包括:語(yǔ)句相關(guān)性、語(yǔ)句的信息量、主題方面補(bǔ)全。
實(shí)驗(yàn)
本文使用公開(kāi)的知識(shí)驅(qū)動(dòng)的對(duì)話數(shù)據(jù)集DuConv來(lái)預(yù)訓(xùn)練多映射生成器、基準(zhǔn)模型和用戶模擬器,并且此數(shù)據(jù)集提供了一個(gè)電影和名人領(lǐng)域的知識(shí)圖譜。本文使用2個(gè)基線對(duì)比算法,CCM和CCM+LaRL。本文使用人工在Session-level和Turn-level兩個(gè)緯度對(duì)模型進(jìn)行了評(píng)價(jià)。
Session-level
從主題內(nèi)一致性(Intra.)、主題間一致性(Inter.)、獨(dú)特性(Dist-2)、知識(shí)準(zhǔn)確性(K.A.)和用戶興趣一致性(Cons.)等方面對(duì)模型在Session-level的表現(xiàn)進(jìn)行評(píng)價(jià)。表2和表3分別為模型在與用戶模擬器和真實(shí)用戶聊天時(shí)的得分,可以看出KnowHRL在5個(gè)指標(biāo)上均達(dá)到最好的效果。
Turn-level
從合理性(Appr.)、信息量(Info.)量方面對(duì)模型在Turn-level的表現(xiàn)進(jìn)行評(píng)價(jià)。表4可以看出KnowHRL在2個(gè)指標(biāo)上均達(dá)到最好的效果。
總結(jié)
本文將多輪開(kāi)放域?qū)υ捝扇蝿?wù)分為兩個(gè)子任務(wù):目標(biāo)序列規(guī)劃和通過(guò)主題闡述的目標(biāo)補(bǔ)全,并提出了基于知識(shí)的分層強(qiáng)化學(xué)習(xí)模型(KnowHRL)來(lái)展示在知識(shí)圖譜上的層級(jí)目標(biāo)規(guī)劃如何進(jìn)行聊天主題管理和回復(fù)生成。實(shí)驗(yàn)結(jié)果證明了KnowHRL在對(duì)話連貫性、用戶興趣一致性和知識(shí)準(zhǔn)確性等方面達(dá)到最好的效果。
?
?
OpenKG
開(kāi)放知識(shí)圖譜(簡(jiǎn)稱 OpenKG)旨在促進(jìn)中文知識(shí)圖譜數(shù)據(jù)的開(kāi)放與互聯(lián),促進(jìn)知識(shí)圖譜和語(yǔ)義技術(shù)的普及和廣泛應(yīng)用。
點(diǎn)擊閱讀原文,進(jìn)入 OpenKG 網(wǎng)站。
總結(jié)
以上是生活随笔為你收集整理的论文浅尝 | 以知识图谱为基础的开放域对话生成的目标规划的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 论文浅尝 | 基于平行新闻的Bootst
- 下一篇: 论文浅尝 - 计算机工程 | 知识图谱可