日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) >

Transformer落地:使用话语重写器改进多轮人机对话

發(fā)布時(shí)間:2024/10/8 63 豆豆
生活随笔 收集整理的這篇文章主要介紹了 Transformer落地:使用话语重写器改进多轮人机对话 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

作者丨袁一鳴

學(xué)校丨武漢大學(xué)碩士生

研究方向丨對(duì)話系統(tǒng)、目標(biāo)檢測(cè)


概述

本文發(fā)表于自然語(yǔ)言處理頂會(huì) ACL 2019,數(shù)據(jù)集以及 LSTM 版本的模型可在以下鏈接找到(由于 Transformer 版本模型已被線上應(yīng)用,涉及到法律問(wèn)題未進(jìn)行開(kāi)源,但作者歡迎發(fā)郵件進(jìn)行探討)。?

https://github.com/chin-gyou/dialogue-utterance-rewriter


最近的研究在單輪對(duì)話上取得了令人矚目的進(jìn)展。然而在多輪對(duì)話中,當(dāng)前的模型還遠(yuǎn)遠(yuǎn)不能滿足需求。一個(gè)主要的挑戰(zhàn)是我們?nèi)粘?duì)話中經(jīng)常出現(xiàn)的共指關(guān)系以及信息省略,使得機(jī)器很難理解真正的意圖。
這篇論文提出把話語(yǔ)重寫(xiě)作為預(yù)處理,幫助多輪對(duì)話建模。具體來(lái)說(shuō)就是每句話都要先重寫(xiě),以恢復(fù)所有共指的和省略的信息,然后基于重寫(xiě)的話語(yǔ)執(zhí)行下一個(gè)處理步驟。為了正確地訓(xùn)練話語(yǔ)重寫(xiě)器,本文收集一個(gè)新的帶有人工注釋的數(shù)據(jù)集并介紹了一個(gè)基于 Transformer 的使用指針網(wǎng)絡(luò)的話語(yǔ)重寫(xiě)架構(gòu)。本文所提出的架構(gòu)在話語(yǔ)重寫(xiě)的任務(wù)上實(shí)現(xiàn)了極其出色的效果。訓(xùn)練好的話語(yǔ)重寫(xiě)器可以很容易地集成到在線聊天機(jī)器人。

研究背景及主要工作

多輪對(duì)話模型的一個(gè)主要的難點(diǎn)是我們的日常對(duì)話常見(jiàn)的共指關(guān)系和信息遺漏。從本文初步研究的 2000 個(gè)中文的多輪對(duì)話中發(fā)現(xiàn),超過(guò) 70% 的對(duì)話存在這種現(xiàn)象。表 1 展示了兩個(gè)典型的例子,在語(yǔ)境 1 中“他”和梅西存在共指關(guān)系,語(yǔ)境 2 中的“為什么”省略了“最喜歡泰坦尼克號(hào)”這個(gè)信息。缺少共指關(guān)系和省略的信息,機(jī)器人就不知道該如何繼續(xù)對(duì)話。


為了解決這個(gè)問(wèn)題,本文提出通過(guò)對(duì)當(dāng)前話語(yǔ)重寫(xiě),將多輪對(duì)話問(wèn)題簡(jiǎn)化為單輪對(duì)話問(wèn)題。讓話語(yǔ)重寫(xiě)器通過(guò)指代消解和信息補(bǔ)全恢復(fù)所有共指的指稱和省略的信息。在表 1 的兩個(gè)例子中,每個(gè)話語(yǔ) 3 都會(huì)被重寫(xiě)成話語(yǔ) 3’。之后,系統(tǒng)將只考慮話語(yǔ) 3’ 生成一個(gè)回復(fù),而不考慮前一輪的話語(yǔ) 1 和 2。這種簡(jiǎn)化縮短了對(duì)話上下文的長(zhǎng)度,同時(shí)仍然保留了用于提供適當(dāng)?shù)幕貜?fù)所需要的必要的信息。?
為了獲取話語(yǔ)重寫(xiě)器的監(jiān)督訓(xùn)練數(shù)據(jù),本文構(gòu)造了一個(gè)中文對(duì)話數(shù)據(jù)集,下表是數(shù)據(jù)集的統(tǒng)計(jì)信息,該數(shù)據(jù)集中一半是不需要重寫(xiě)的負(fù)樣本,另一半是需要的正樣本,每個(gè)話語(yǔ)都配有相應(yīng)的人工重寫(xiě)注釋。

本文將話語(yǔ)重寫(xiě)問(wèn)題建模為使用指針網(wǎng)絡(luò)的提取生成問(wèn)題。重寫(xiě)的話語(yǔ)是基于 attention 機(jī)制,通過(guò)復(fù)制來(lái)自對(duì)話歷史或當(dāng)前話語(yǔ)來(lái)生成。這個(gè)靈感來(lái)自最近提出的 Transformer [1] 可以更好地捕捉句子內(nèi)的詞之間的依賴關(guān)系,本文修改了 Transformer 體系結(jié)構(gòu)使其包含指針網(wǎng)絡(luò)機(jī)制。在指代消解和信息補(bǔ)全方面,得到的模型優(yōu)于遞歸神經(jīng)網(wǎng)絡(luò) (RNN) 和原始的 Transformer 模型, F1 分?jǐn)?shù)超過(guò)了 0.85。此外,本文整合了訓(xùn)練好的話語(yǔ)重寫(xiě)器到兩個(gè)在線聊天機(jī)器人平臺(tái),發(fā)現(xiàn)它可以實(shí)現(xiàn)更準(zhǔn)確的意圖檢測(cè)并提高了用戶的參與度。

模型


問(wèn)題描述 ?

將每個(gè)訓(xùn)練樣本表示為。代表包含 n – 1 個(gè)話語(yǔ)的對(duì)話歷史。Un 是話語(yǔ)的第 n 個(gè)話語(yǔ),是唯一需要被重寫(xiě)的。R 是恢復(fù)了 Un 中所有指稱和被省略的信息的重寫(xiě)后的話語(yǔ)。如果沒(méi)有檢測(cè)到共指關(guān)系或信息省略(負(fù)樣本),R 可以等于 Un。

本文的目標(biāo)是學(xué)習(xí)一個(gè)映射函數(shù)可以基于 H ?和 Un 自動(dòng)重寫(xiě)。過(guò)程是先將 (H, Un) 編碼,然后使用指針網(wǎng)絡(luò)解碼得到 R。模型結(jié)構(gòu)如下圖所示。

編碼器?

將 (H, Un) 中的所有 token 展開(kāi)成。在每?jī)蓚€(gè)輪次之間插入一個(gè)輪次結(jié)束分隔符。然后用 Transformer 對(duì)展開(kāi)的令牌序列進(jìn)行編碼。將 (H, Un) 中的所有 token 串聯(lián)起來(lái)作為輸入,希望 Transformer 能夠通過(guò) self-attention 機(jī)制在它們內(nèi)部學(xué)習(xí)基本的共指信息。對(duì)于每個(gè) token ,其 input embedding 為其 word embedding, position embedding ?和 turn embedding [2] 之和:


額外添加的 turn embedding?,用來(lái)指明每個(gè) token 屬于哪一輪對(duì)話。來(lái)自同一輪對(duì)話的 token 將共享相同 turn embedding。然后將 input embeddings 轉(zhuǎn)發(fā)到堆疊的 L 層編碼器,得到最終的編碼表示。每個(gè)編碼器包含一個(gè) self-attention 層接著一個(gè)前饋神經(jīng)網(wǎng)絡(luò)。

FNN 是前饋神經(jīng)網(wǎng)絡(luò),MultiHead (Q, K, V) 是以查詢矩陣 Q、鍵矩陣 K、值矩陣 V 為輸入的 multi-head attention 函數(shù)。每個(gè) self-attention 和 feedforward 組件都有一個(gè)殘差連接和層歸一化步驟,具體參考文獻(xiàn) [1]。最終的編碼是第 L 個(gè)編碼器的輸出。

解碼器?

解碼器也包含 L 層,每層由三個(gè)子層組成。第一子層是一個(gè) multi-head attention:

。第二個(gè)子層是編碼器-解碼器 attention,它將集成到解碼器。在本文的任務(wù)中,由于 H 和 Un 的用途不同,本文對(duì)于來(lái)自于對(duì)話歷史 H 和來(lái)自當(dāng)前話語(yǔ) Un 的 tokens 分別使用單獨(dú)的鍵-值矩陣。從上一節(jié)得到的編碼序列被分為(H 中的令牌編碼)和(Un 中的令牌編碼)然后分別處理。編碼器-解碼器向量計(jì)算如下:

第三個(gè)子層為位置全連接前饋神經(jīng)網(wǎng)絡(luò):


其中 ? 表示向量串聯(lián)。輸出分布
在解碼過(guò)程中,本文希望模型在每一步可以做到學(xué)習(xí)是從 H 還是從 Un 中復(fù)制單詞。因此, 本文利用一個(gè)控制權(quán)重 λ 來(lái)決定。解碼概率通過(guò)合并最后一個(gè)解碼層的 attention 分布來(lái)計(jì)算:


a 和 a'分別為 H 和 Un 的 tokens 上的 attention 分布。、和是可學(xué)習(xí)的參數(shù),σ 是 sigmoid 函數(shù),輸出值在 0 和 1 之間。控制權(quán)重 λ 指示解碼器從中對(duì)話歷史 H 中提取信息或直接從 Un 復(fù)制。如果 Un 既不包含共指關(guān)系也不包含信息省略,λ 將總是 1 來(lái)復(fù)制原來(lái)的 Un 作為輸出。否則檢測(cè)到共指關(guān)系或信息省略時(shí),λ 為 0。整個(gè)模型通過(guò)最大化來(lái)實(shí)現(xiàn)端到端的訓(xùn)練。


實(shí)驗(yàn)

對(duì)比實(shí)驗(yàn)
1. (L/T)-Gen:基于生成的模型,單詞是從固定的詞匯表中產(chǎn)生的。
2. (L/T)-Pt-Net:基于指針的模型。話語(yǔ)只能是從輸入中復(fù)制。
3. (L/T) -Ptr-Gen:指針與生成混合模型。單詞可以從輸入復(fù)制,也可以從一個(gè)固定的詞匯中生成。
4. (L/T)-Ptr-λ:本文提出的通過(guò)系數(shù) λ 劃分 attention 的模型。?
(L/T) 表示編解碼器結(jié)構(gòu)為 LSTM 或 Transformer。對(duì)于前三種類型在模型中,對(duì)話的歷史和需要重寫(xiě)的話語(yǔ)之間不做區(qū)分。?
實(shí)驗(yàn)結(jié)果如下表所示:


結(jié)論如下:
1. 與基于 LSTM 的模型相比,基于 Transformer 的模型有顯著的改進(jìn)。這意味著 self-attention 機(jī)制有助于識(shí)別共指和省略的信息。
2. 生成模式不能很好地工作,因?yàn)樗械脑~都可以從 H 或 Un 中檢索出來(lái)。基于指針的模型優(yōu)于更復(fù)雜的指針與生成混合模型。

3. 單獨(dú)處理 H 和 Un 然后把他們的 attention 通過(guò)學(xué)習(xí)到的 λ 合并比直接將整個(gè)對(duì)話 tokens 作為一個(gè)的輸入要好,雖然改進(jìn)與前兩項(xiàng)相比就不那么重要了。?
總體上,本文的模型實(shí)現(xiàn)了極其出色的效果。對(duì)于正樣本,55.84% 的生成完全符合人工注釋參考。對(duì)于負(fù)樣本,在 98.14% 的案例中,本文的模型正確地復(fù)制了原始的話語(yǔ)。這表明本文的模型是已經(jīng)能夠識(shí)別不需要重寫(xiě)的話語(yǔ)。今后的工作應(yīng)致力于提高對(duì)正樣本的重寫(xiě)能力。

集成測(cè)試

這一步是研究如何將提出的話語(yǔ)重寫(xiě)器集成到現(xiàn)成的在線聊天機(jī)器人中來(lái)提高生成響應(yīng)的質(zhì)量。方法是用最好的模型 T-Ptr-λ 根據(jù)對(duì)話上下文重寫(xiě)每個(gè)句子,然后將重寫(xiě)后的話語(yǔ)轉(zhuǎn)發(fā)給系統(tǒng)生成回復(fù)。
本文將其應(yīng)用在了任務(wù)型和閑聊型對(duì)話機(jī)器人。并與原來(lái)沒(méi)有話語(yǔ)重寫(xiě)的系統(tǒng)進(jìn)行了比較。結(jié)合本文提出的重寫(xiě)器,任務(wù)導(dǎo)向?qū)υ捪到y(tǒng)的意圖分類器能夠達(dá)到 89.91% 的精度,表現(xiàn)優(yōu)于原來(lái)的系統(tǒng) 9% 以上。在聊天機(jī)器人中,話語(yǔ)重寫(xiě)器將用戶的平均每次會(huì)話對(duì)話輪數(shù)從 6.3 提高到 7.7,表明用戶對(duì)整合的后的對(duì)話系統(tǒng)參與度更高。效果如下表所示:


總結(jié)

自從 transformer 被提出,研究者們紛紛將目光轉(zhuǎn)向于此。本文的思路很清晰,就是將 transformer 與原來(lái)常應(yīng)用于循環(huán)神經(jīng)網(wǎng)絡(luò)的 pointer 機(jī)制相結(jié)合,利用 transformer 中的 self-attention 機(jī)制以及 pointer 機(jī)制的復(fù)制能力來(lái)對(duì)話語(yǔ)進(jìn)行重寫(xiě),補(bǔ)全了共指關(guān)系和省略的信息,幫助對(duì)話系統(tǒng)產(chǎn)生更適合的回復(fù)。
同時(shí),本文是將 transformer 落地的一個(gè)很好的范例。此方法之所以可以落地主要有這么幾個(gè)原因。一是與其他方法相比,像記憶網(wǎng)絡(luò)或 belief tracking ,訓(xùn)練好的話語(yǔ)重寫(xiě)器是與模型無(wú)關(guān)的,因此可以很容易地集成到其他黑盒對(duì)話系統(tǒng)。二是因?yàn)閷?duì)話的歷史信息都反映在一個(gè)被重寫(xiě)的話語(yǔ)中,更節(jié)省內(nèi)存。

參考文獻(xiàn)


[1]?Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[C]//Advances in neural information processing systems. 2017: 5998-6008.

點(diǎn)擊以下標(biāo)題查看更多往期內(nèi)容:?

  • ACL 2019 | 使用跨領(lǐng)域語(yǔ)言建模的命名實(shí)體識(shí)別

  • IJCAI 2019 | 基于超圖網(wǎng)絡(luò)模型的圖網(wǎng)絡(luò)進(jìn)化算法

  • SIGIR 2019 | 用戶注意力指導(dǎo)的多模態(tài)對(duì)話系統(tǒng)

  • EMNLP 2019 | 針對(duì)短文本分類的異質(zhì)圖注意力網(wǎng)絡(luò)

  • ACL 2019?| 基于Attention的知識(shí)圖譜關(guān)系預(yù)測(cè)

  • 基于膠囊網(wǎng)絡(luò)的知識(shí)圖譜完善和個(gè)性化搜索

#投 稿 通 道#

?讓你的論文被更多人看到?


如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達(dá)讀者群體,縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢?答案就是:你不認(rèn)識(shí)的人。

總有一些你不認(rèn)識(shí)的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學(xué)者和學(xué)術(shù)靈感相互碰撞,迸發(fā)出更多的可能性。?

PaperWeekly 鼓勵(lì)高校實(shí)驗(yàn)室或個(gè)人,在我們的平臺(tái)上分享各類優(yōu)質(zhì)內(nèi)容,可以是最新論文解讀,也可以是學(xué)習(xí)心得技術(shù)干貨。我們的目的只有一個(gè),讓知識(shí)真正流動(dòng)起來(lái)。

?????來(lái)稿標(biāo)準(zhǔn):

? 稿件確系個(gè)人原創(chuàng)作品,來(lái)稿需注明作者個(gè)人信息(姓名+學(xué)校/工作單位+學(xué)歷/職位+研究方向)?

? 如果文章并非首發(fā),請(qǐng)?jiān)谕陡鍟r(shí)提醒并附上所有已發(fā)布鏈接?

? PaperWeekly 默認(rèn)每篇文章都是首發(fā),均會(huì)添加“原創(chuàng)”標(biāo)志

???? 投稿郵箱:

? 投稿郵箱:hr@paperweekly.site?

? 所有文章配圖,請(qǐng)單獨(dú)在附件中發(fā)送?

? 請(qǐng)留下即時(shí)聯(lián)系方式(微信或手機(jī)),以便我們?cè)诰庉嫲l(fā)布時(shí)和作者溝通

????

現(xiàn)在,在「知乎」也能找到我們了

進(jìn)入知乎首頁(yè)搜索「PaperWeekly」

點(diǎn)擊「關(guān)注」訂閱我們的專欄吧

關(guān)于PaperWeekly

PaperWeekly 是一個(gè)推薦、解讀、討論、報(bào)道人工智能前沿論文成果的學(xué)術(shù)平臺(tái)。如果你研究或從事 AI 領(lǐng)域,歡迎在公眾號(hào)后臺(tái)點(diǎn)擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。

▽ 點(diǎn)擊 |?閱讀原文?| 下載論文 & 源碼

總結(jié)

以上是生活随笔為你收集整理的Transformer落地:使用话语重写器改进多轮人机对话的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。