當(dāng)前位置：首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

论文浅尝 | 以知识图谱为基础的开放域对话生成的目标规划

發(fā)布時(shí)間：2024/7/5 编程问答 47 豆豆

生活随笔收集整理的這篇文章主要介紹了论文浅尝 | 以知识图谱为基础的开放域对话生成的目标规划小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

筆記整理 |?韓振峰，天津大學(xué)碩士。

鏈接：https://ojs.aaai.org//index.php/AAAI/article/view/6474

動(dòng)機(jī)

之前有關(guān)開(kāi)放域?qū)υ捝傻纳窠?jīng)模型沒(méi)有有效的機(jī)制來(lái)管理聊天主題，并且往往會(huì)生成不連貫的對(duì)話。受到人與人對(duì)話策略的啟發(fā)，本文將多輪開(kāi)放域?qū)υ捝扇蝿?wù)分為兩個(gè)子任務(wù)：明確的目標(biāo)（有關(guān)主題的聊天）序列規(guī)劃和通過(guò)主題闡述的目標(biāo)補(bǔ)全。為此，本文提出了一個(gè)三層的基于知識(shí)的分層強(qiáng)化學(xué)習(xí)模型（KnowHRL）。對(duì)于第一個(gè)子任務(wù)，上層策略學(xué)習(xí)如何遍歷知識(shí)圖譜，從而規(guī)劃一個(gè)高層次的目標(biāo)序列，以便在對(duì)話連貫性和用戶興趣的主題一致性之間取得良好的平衡。對(duì)于第二個(gè)子任務(wù)，中層策略和下層策略協(xié)同工作，使用目標(biāo)驅(qū)動(dòng)的生成機(jī)制就單個(gè)主題進(jìn)行深入的多輪對(duì)話。目標(biāo)序列規(guī)劃的能力使得聊天機(jī)器人可以針對(duì)推薦主題進(jìn)行主動(dòng)的開(kāi)放域?qū)υ?#xff0c;這種類型的對(duì)話具有很多實(shí)際的應(yīng)用。

亮點(diǎn)

KnowHRL的亮點(diǎn)主要包括：

（1）本文首次嘗試將多輪開(kāi)放域?qū)υ捝扇蝿?wù)分為兩個(gè)子任務(wù)：目標(biāo)序列規(guī)劃和基于對(duì)話闡述的目標(biāo)補(bǔ)全。

（2）在知識(shí)圖譜的幫助下，本文提出精確、可解釋的對(duì)話狀態(tài)和用于策略學(xué)習(xí)的行為。這有兩種優(yōu)點(diǎn)：一是能夠很方便地設(shè)計(jì)與目標(biāo)相關(guān)的獎(jiǎng)勵(lì)來(lái)優(yōu)化目標(biāo)和方面的規(guī)劃；二是使用目標(biāo)和方面的信息來(lái)知道生成更連貫和更具信息的回復(fù)。

（3）實(shí)驗(yàn)表明模型在用戶興趣的一致性、對(duì)話連貫性和知識(shí)準(zhǔn)確性等方面很有效。

概念及模型

KnowHRL有三個(gè)層級(jí)策略，且能夠分為兩個(gè)子任務(wù)：目標(biāo)序列規(guī)劃和基于主題闡述的目標(biāo)補(bǔ)全。目標(biāo)序列規(guī)劃：上層策略學(xué)習(xí)如何遍歷知識(shí)圖譜來(lái)規(guī)劃目標(biāo)序列，并且需要在對(duì)話連貫性和用戶興趣一致性之間取得平衡?；谥黝}闡述的目標(biāo)補(bǔ)全：中層策略從當(dāng)前目標(biāo)節(jié)點(diǎn)的一跳鄰居中選擇一個(gè)作為主題方面；下層策略使用給定的目標(biāo)和主題方面中的一個(gè)來(lái)指導(dǎo)下層策略生成一個(gè)深入的多輪對(duì)話。

模型整體框架如下：

State

狀態(tài)S由對(duì)話歷史g、主題方面歷史f、上下文語(yǔ)句u和特殊符號(hào)ut組成。其中ut表示是否在上一個(gè)語(yǔ)句中提到了一個(gè)新的話題，是則ut=1,否則ut=0;u定義為之前對(duì)話中的兩個(gè)語(yǔ)句。

三層策略分別有不同的行為空間，上層使用當(dāng)前目標(biāo)節(jié)點(diǎn)的所有鄰居節(jié)點(diǎn)和用戶提及的所有主題所謂行為空間；中層使用當(dāng)前目標(biāo)節(jié)點(diǎn)的所有鄰居節(jié)點(diǎn)并刪去其中已經(jīng)在之前的對(duì)話中被提到的節(jié)點(diǎn)；下層回復(fù)向量的集合作為行為，每一個(gè)向量代表一種生成回復(fù)的方式。

Policy

本文使用分層策略，共分為三層，每層策略的定義如下：

上層策略：

中層策略：

下層策略：

Multi-mapping generator

此模塊使用的現(xiàn)有的模型，如上圖所示，其中：

損失函數(shù)：

Rewards

為三層策略分別設(shè)計(jì)了不同的獎(jiǎng)勵(lì)因素，其中上層策略包括：目標(biāo)序列的連貫性、用戶興趣的一致性、多樣性、可持續(xù)性、來(lái)自中層策略的目標(biāo)補(bǔ)全信息。中層策略包括：主題方面連貫性、來(lái)自下層的獎(jiǎng)勵(lì)。下層策略包括：語(yǔ)句相關(guān)性、語(yǔ)句的信息量、主題方面補(bǔ)全。

實(shí)驗(yàn)

本文使用公開(kāi)的知識(shí)驅(qū)動(dòng)的對(duì)話數(shù)據(jù)集DuConv來(lái)預(yù)訓(xùn)練多映射生成器、基準(zhǔn)模型和用戶模擬器，并且此數(shù)據(jù)集提供了一個(gè)電影和名人領(lǐng)域的知識(shí)圖譜。本文使用2個(gè)基線對(duì)比算法，CCM和CCM+LaRL。本文使用人工在Session-level和Turn-level兩個(gè)緯度對(duì)模型進(jìn)行了評(píng)價(jià)。

Session-level

從主題內(nèi)一致性（Intra.）、主題間一致性（Inter.）、獨(dú)特性（Dist-2）、知識(shí)準(zhǔn)確性（K.A.）和用戶興趣一致性（Cons.）等方面對(duì)模型在Session-level的表現(xiàn)進(jìn)行評(píng)價(jià)。表2和表3分別為模型在與用戶模擬器和真實(shí)用戶聊天時(shí)的得分，可以看出KnowHRL在5個(gè)指標(biāo)上均達(dá)到最好的效果。

Turn-level

從合理性（Appr.）、信息量（Info.）量方面對(duì)模型在Turn-level的表現(xiàn)進(jìn)行評(píng)價(jià)。表4可以看出KnowHRL在2個(gè)指標(biāo)上均達(dá)到最好的效果。

總結(jié)

本文將多輪開(kāi)放域?qū)υ捝扇蝿?wù)分為兩個(gè)子任務(wù)：目標(biāo)序列規(guī)劃和通過(guò)主題闡述的目標(biāo)補(bǔ)全，并提出了基于知識(shí)的分層強(qiáng)化學(xué)習(xí)模型（KnowHRL）來(lái)展示在知識(shí)圖譜上的層級(jí)目標(biāo)規(guī)劃如何進(jìn)行聊天主題管理和回復(fù)生成。實(shí)驗(yàn)結(jié)果證明了KnowHRL在對(duì)話連貫性、用戶興趣一致性和知識(shí)準(zhǔn)確性等方面達(dá)到最好的效果。

OpenKG

開(kāi)放知識(shí)圖譜（簡(jiǎn)稱 OpenKG）旨在促進(jìn)中文知識(shí)圖譜數(shù)據(jù)的開(kāi)放與互聯(lián)，促進(jìn)知識(shí)圖譜和語(yǔ)義技術(shù)的普及和廣泛應(yīng)用。

點(diǎn)擊閱讀原文，進(jìn)入 OpenKG 網(wǎng)站。

總結(jié)

以上是生活随笔為你收集整理的论文浅尝 | 以知识图谱为基础的开放域对话生成的目标规划的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：论文浅尝 | 基于平行新闻的Bootst
下一篇：论文浅尝 - 计算机工程 | 知识图谱可