日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

斯坦福李纪为博士毕业论文:让机器像人一样交流

發(fā)布時(shí)間:2024/7/5 编程问答 42 豆豆
生活随笔 收集整理的這篇文章主要介紹了 斯坦福李纪为博士毕业论文:让机器像人一样交流 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

https://cloud.tencent.com/developer/article/1120019

選自GitHub

機(jī)器之心編譯

自然語(yǔ)言處理(NLP)是人工智能領(lǐng)域下的一個(gè)龐大分支,其中面臨很多機(jī)遇與挑戰(zhàn)。斯坦福大學(xué)李紀(jì)為博士在他的畢業(yè)論文《Teaching Machines to Converse》中對(duì) NLP 領(lǐng)域近期的發(fā)展進(jìn)行了解讀。這篇博士論文從多個(gè)方面嘗試解決如今對(duì)話系統(tǒng)面臨的諸多問(wèn)題:(1) 如何產(chǎn)生具體、貼切、有意思的答復(fù);(2) 如何賦予機(jī)器人格情感,從而產(chǎn)生具有一致性的回復(fù);(3) 最早提出使用對(duì)抗性學(xué)習(xí)方法來(lái)生成與人類水平相同的回復(fù)語(yǔ)句——讓生成器與鑒別器不斷進(jìn)行類似「圖靈測(cè)試」的訓(xùn)練;(4) 最后提出了賦予機(jī)器人通過(guò)與人的交流自我更新的自學(xué)習(xí)模型。

李紀(jì)為是第一位在斯坦福大學(xué)僅用三年畢業(yè)的計(jì)算機(jī)科學(xué)博士。在由劍橋大學(xué)研究員 Marek Rei 發(fā)布的一項(xiàng)統(tǒng)計(jì)中,李紀(jì)為博士在最近三年在世界所有人工智能研究者中,以第一作者發(fā)表的頂級(jí)會(huì)議文章數(shù)量高居第一位。李紀(jì)為博士期間實(shí)習(xí)于 facebook 人工智能實(shí)驗(yàn)室以及微軟研究院。截止本報(bào)道,李紀(jì)為博士 google scholar 論文引用量超過(guò) 1,200. H-index 高達(dá) 20.(參見(jiàn):《如何生物轉(zhuǎn) CS,并在斯坦福大學(xué)三年拿到 PhD:獨(dú)家專訪李紀(jì)為博士》)。

論文鏈接:https://github.com/jiweil/Jiwei-Thesis

李紀(jì)為博士個(gè)人主頁(yè):https://web.stanford.edu/~jiweil/

摘要

機(jī)器與人類溝通的能力長(zhǎng)期以來(lái)一直與人工智能發(fā)展水平的標(biāo)桿。這個(gè)想法可以追溯到上世紀(jì) 50 年代初,阿蘭·圖靈提出的圖靈測(cè)試來(lái)檢測(cè)人工智能的水平。圖靈提到,如果一個(gè)機(jī)器可以讓與他對(duì)話的人誤以為它(機(jī)器)是人而不是機(jī)器,那就說(shuō)明人工智能已經(jīng)發(fā)展到了非常高的高度。

在過(guò)去幾十年里,對(duì)話學(xué)習(xí)領(lǐng)域取得了長(zhǎng)足的進(jìn)展。不過(guò)常見(jiàn)的對(duì)話系統(tǒng)仍然面臨著諸如魯棒性、可擴(kuò)展性和域適應(yīng)性等挑戰(zhàn):很多系統(tǒng)是從很小的手寫標(biāo)記/范本數(shù)據(jù)集中學(xué)習(xí)規(guī)則,這樣既昂貴又難以擴(kuò)展到其他領(lǐng)域中。另一方面,對(duì)話系統(tǒng)正在變得越來(lái)越復(fù)雜:它們通常包括很多互相分開(kāi)的復(fù)雜模塊,這意味著它們無(wú)法適應(yīng)我們收集到的越來(lái)越多的數(shù)據(jù)。

最近,隨著神經(jīng)網(wǎng)絡(luò)模型的出現(xiàn),早期系統(tǒng)無(wú)法處理的很多問(wèn)題變得可以解決了:端到端神經(jīng)網(wǎng)絡(luò)提供了可擴(kuò)展和語(yǔ)言獨(dú)立的框架,在語(yǔ)義理解上為自動(dòng)回復(fù)的產(chǎn)生提供了可能性。與此同時(shí),神經(jīng)網(wǎng)絡(luò)模型也帶來(lái)了很多新的挑戰(zhàn),比如它們傾向于無(wú)趣泛泛的回答,如:「我不知道你在說(shuō)什么?!?#xff1b;再有,它們經(jīng)常缺乏像人類一樣的人格特性,導(dǎo)致產(chǎn)生的回復(fù)經(jīng)常是不一致的;他們大多數(shù)情況僅僅是被動(dòng)地回答問(wèn)題,而沒(méi)有能力去主導(dǎo)對(duì)話。

本論文試圖解決這些挑戰(zhàn)。這篇論文主要涉及兩個(gè)方面,第一個(gè)方面是四在開(kāi)放域?qū)υ捝上到y(tǒng)中的幾個(gè)問(wèn)題::(a)使用互信息避免無(wú)趣泛化的回答;(b)賦予機(jī)器人格,解決用戶一致性問(wèn)題;(c)用強(qiáng)化學(xué)習(xí)手段,增加長(zhǎng)期對(duì)話成功率;(d)使用對(duì)抗學(xué)習(xí)方法推動(dòng)機(jī)器生成與人類水平相同的回復(fù)。

第二個(gè)方面,我們嘗試開(kāi)發(fā)交互問(wèn)答系統(tǒng):(a)讓機(jī)器具有提出問(wèn)題的能力。通過(guò)問(wèn)問(wèn)題,擴(kuò)大自己的知識(shí)庫(kù)而完善自己(b)提出交互式的模型,在線與人類進(jìn)行交流,并通過(guò)與人類交流得到的反饋中,提高自己的水平。

第一章 介紹

利用語(yǔ)言進(jìn)行對(duì)話一直是人類智慧的標(biāo)簽之一,也幾乎是人類兒童學(xué)會(huì)的第一種技能——在生命中永遠(yuǎn)不會(huì)停止使用。溝通/對(duì)話的意義超過(guò)了個(gè)人:通過(guò)對(duì)話,人們可以互相傳遞大量信息——其中的內(nèi)容不僅包括周圍環(huán)境(提醒同伴小心森林里的老虎),也包括我們自己(發(fā)出指令,談?wù)搨€(gè)人需求等等)。這種能力是組織有效社會(huì)合作的必要條件。

在人工智能領(lǐng)域,企圖模仿人類語(yǔ)言交流能力的構(gòu)想可以追溯到阿蘭·圖靈在 20 世紀(jì) 50 年代的構(gòu)想(圖靈測(cè)試)。能夠通過(guò)圖靈測(cè)試的計(jì)算機(jī)被認(rèn)為具有接近人類智慧水平。

自圖靈測(cè)試被提出以來(lái),一代代研究者提出了各種方法試圖通過(guò)測(cè)試,但我們目前距離完成任務(wù)還有很長(zhǎng)一段路要走。在本論文中,我們受限簡(jiǎn)要回顧一下過(guò)去幾十年里人們提出的各種系統(tǒng)。具體來(lái)說(shuō),這其中包括三種對(duì)話系統(tǒng):開(kāi)放領(lǐng)域聊天系統(tǒng)、目標(biāo)導(dǎo)向的框架系統(tǒng)以及問(wèn)答交互(QA)對(duì)話系統(tǒng)。我們會(huì)討論它們的成功應(yīng)用、優(yōu)缺點(diǎn)以及為什么它們?nèi)匀粺o(wú)法通過(guò)圖靈測(cè)試。本論文將著重討論如何改進(jìn)聊天系統(tǒng)和交互式問(wèn)答(QA)系統(tǒng)。

圖 1.1 使用 IBM 模型消息與回復(fù)之間的字對(duì)齊。圖片來(lái)自 Michel Galley。

第二章 背景

2.1 序列到序列生成

SEQ2SEQ 模型可以被視為一個(gè)用輸入內(nèi)容生成目標(biāo)句的基礎(chǔ)框架,適用于多種自然語(yǔ)言生成任務(wù),例如利用給定的英文句子生成法語(yǔ)句子的機(jī)器翻譯;通過(guò)生成響應(yīng)功能在接收到源信息時(shí)生成響應(yīng);在問(wèn)答任務(wù)中針對(duì)問(wèn)題做出回答;或是對(duì)一段文檔生成總結(jié)性短句等等。

本段將介紹語(yǔ)言模型基礎(chǔ),循環(huán)神經(jīng)網(wǎng)絡(luò)和長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM),它們被視為 SEQ2SEQ 模型的基礎(chǔ)。隨后,我們將詳細(xì)解讀 SEQ2SEQ 模型的基礎(chǔ)。最后,我們將討論不同 SEQ2SEQ 模型的算法,如注意力 (attention) 機(jī)制。

2.2 記憶網(wǎng)絡(luò)

記憶網(wǎng)絡(luò)(Weston et al., 2015;Sukhbaatar et al., 2015)是一類神經(jīng)網(wǎng)絡(luò)模型,可以通過(guò)操作內(nèi)存中的內(nèi)容(存儲(chǔ)、取回、過(guò)濾和重用)來(lái)進(jìn)行自然語(yǔ)言推理。記憶網(wǎng)絡(luò)中的存儲(chǔ)器部分可以嵌入長(zhǎng)期記憶(例如,關(guān)于真實(shí)世界的常識(shí))和短期上下文(例如,最近的幾段對(duì)話)。記憶網(wǎng)絡(luò)已被成功地應(yīng)用于很多自然語(yǔ)言任務(wù)中了,例如問(wèn)答系統(tǒng)(Bordes et al., 2014;Weston et al., 2016),語(yǔ)言建模(Sukhbaatar et al., 2015;Hill et al., 2016)以及對(duì)話(Doge et al., 2016;Bordes & Weston, 2017)。

2.3 策略梯度方法

策略梯度法(Aleksandrov et al., 1968;Williams, 1992)是一類強(qiáng)化學(xué)習(xí)模型,通過(guò)使用梯度下降預(yù)測(cè)獎(jiǎng)勵(lì)的參數(shù)化策略來(lái)學(xué)習(xí)參數(shù)。與其他強(qiáng)化學(xué)習(xí)模型(如 Q 學(xué)習(xí)模型)比較而言,策略梯度方法不會(huì)受到如缺乏價(jià)值函數(shù)等方面的問(wèn)題(因?yàn)樗恍枰鞔_估算價(jià)值函數(shù)),或由于高維空間連續(xù)狀態(tài)或動(dòng)作導(dǎo)致難以控制。

第三章 用交互信息避免泛化回復(fù)

當(dāng)我們將 SEQ2SEQ 模型應(yīng)用與生成回復(fù)的時(shí)候,一個(gè)嚴(yán)重的問(wèn)題脫穎而出:神經(jīng)對(duì)話模型總是會(huì)傾向于生成無(wú)意義的回復(fù),例如「I don't know」、「I don't know what you are talking about」(Serban et al., 2015;Vinyals & Le, 2015)。從表 3.1 中我們可以看出,很多排名靠前的回復(fù)是泛化的。那些看起來(lái)更加有意義、更有針對(duì)性的回復(fù)可以在非最佳列表中找到,但是排名非??亢?。這種現(xiàn)象是因?yàn)橥ㄓ眯曰貜?fù)如 I don't know 在對(duì)話數(shù)據(jù)集中相對(duì)較高的頻率。MLE(最大似然估計(jì))目標(biāo)函數(shù)對(duì)源到目標(biāo)的單向依賴性進(jìn)行了建模,由于無(wú)意義回復(fù)沒(méi)有意義,有意義回復(fù)多種多樣,系統(tǒng)總會(huì)傾向于生成這些無(wú)意義的回復(fù)。直觀上,似乎不僅要考慮回復(fù)與信息的相關(guān)性,也需要考慮傳遞的信息是否具有意義:如果回答是「I don't know」,我們就難以猜測(cè)對(duì)話者開(kāi)始詢問(wèn)的是什么。

我們建議通過(guò)最大互信息(Maximum Mutual Information,MMI),作為測(cè)量輸入和輸出之間的相互依賴性的優(yōu)化目標(biāo)來(lái)捕獲這種直覺(jué),作為傳統(tǒng) MLE 目標(biāo)函數(shù)中源到目標(biāo)單向依賴性的反向。我們提出了使用 MMI 作為目標(biāo)函數(shù)神經(jīng)生成模型的實(shí)際訓(xùn)練和解碼策略。我們證明了使用 MMI 可以顯著減少泛化回復(fù)產(chǎn)生的幾率,在 BLEU 和人類評(píng)測(cè)的結(jié)果中得出了顯著提升性能的結(jié)果。

表 3.1 從 OpenSubtitles 數(shù)據(jù)集 2000 萬(wàn)對(duì)話配對(duì)中訓(xùn)練的 4 層 SEQ2SEQ 神經(jīng)模型生成的回復(fù)。解碼實(shí)現(xiàn)的 Beam size 被設(shè)為 200。最大概率的回復(fù)選項(xiàng)為 N-best 列表中平均可能性對(duì)數(shù)似然的最高概率。更低的概率回復(fù)是手動(dòng)選擇的。

表 3.4:在 Open-Subtitles 數(shù)據(jù)集上 SEQ2SEQ 基線和 MMI-antiLM 模型的對(duì)比。

第四章 解決說(shuō)話者一致性問(wèn)題

目前聊天系統(tǒng)的一個(gè)嚴(yán)重的問(wèn)題是缺少說(shuō)話者一致性。這是由于訓(xùn)練集中包含了不同的人的談話,而且一個(gè)解碼模型總是選擇最大似然的應(yīng)答,從而使輸出變得非常的混亂且不一致。

在這一章中,我們討論了應(yīng)對(duì)不一致問(wèn)題的方法以及如何為數(shù)據(jù)驅(qū)動(dòng)的系統(tǒng)賦予合乎邏輯的「人格角色」(persona)以模仿類人的行為,無(wú)論是個(gè)人助理,個(gè)性化的「阿凡達(dá)」智能體,亦或是游戲角色。為了這個(gè)目的,我們將把 persona 定義為一個(gè)人工智能體在對(duì)話交流中所扮演或表現(xiàn)出來(lái)的一種特征。persona 可以看成身份要素(背景事實(shí)或用戶外形)、語(yǔ)言行為和交互方式的混合物。persona 是有適應(yīng)性的,由于智能體在面對(duì)不同的人類談話者的時(shí)候需要按交互的需求表現(xiàn)不同的側(cè)面。

表 4.1:由 4 層 SEQ2SEQ 模型經(jīng)過(guò) 2500 萬(wàn)個(gè)推特對(duì)話片段訓(xùn)練而生成的不一致應(yīng)答。m 表示輸入的信息,r 表示生成的應(yīng)答。

我們?cè)?SEQ2SEQ 框架中探索了兩個(gè) persona 模型,一個(gè)是單一說(shuō)話者的「說(shuō)話者模型」(SPEAKER MODEL),另一個(gè)是兩人對(duì)話的「說(shuō)話者-受話者模型」(SPEAKER-ADDRESSEE MODEL)。SPEAKER MODEL 將說(shuō)話者級(jí)別(speaker-level)的向量表示整合到 SEQ2SEQ 模型的目標(biāo)部分中。類似地,SPEAKER-ADDRESSEE MODEL 通過(guò)談話者各自的嵌入構(gòu)建一個(gè)交流的表示編碼兩個(gè)談話者的交流模式,再合并到 SEQ2SEQ 模型中。這些 persona 向量利用人和人對(duì)話數(shù)據(jù)訓(xùn)練,并在測(cè)試時(shí)用于生成個(gè)性化的應(yīng)答。我們?cè)谟呻娨晞∧_本組成的推特對(duì)話數(shù)據(jù)集的開(kāi)域語(yǔ)料庫(kù)上的實(shí)驗(yàn)結(jié)果表明使用 persona 向量可以提升相關(guān)性能,如 BLEU 分?jǐn)?shù)提高最多 20%,困惑度 (perplexity)12%,而相應(yīng)的,由人類標(biāo)注員評(píng)判的一致性也有同樣的提高。

第五章 讓對(duì)話更持久

在前兩節(jié)中,我們討論了聊天系統(tǒng)如何避免一般性的應(yīng)答并對(duì)不同的問(wèn)題生成滿足一致性的應(yīng)答。目前為止,我們談?wù)摰闹皇菃屋?#xff08;single-turn)應(yīng)答的性質(zhì),但這只是對(duì)人類對(duì)話的過(guò)于簡(jiǎn)化的近似。人類對(duì)話通常包含了數(shù)十到數(shù)百輪的交互。這些多輪對(duì)話通常是有結(jié)構(gòu)的,比如以開(kāi)場(chǎng)白啟動(dòng)對(duì)話、設(shè)置語(yǔ)境、抓住對(duì)話重點(diǎn)等等,而且人類很擅長(zhǎng)掌控一場(chǎng)對(duì)話中的信息流動(dòng),從而成功的進(jìn)行長(zhǎng)期的對(duì)話(包括總體一致性、意義性等等)。

目前的模型通過(guò)在給定的對(duì)話語(yǔ)境中使用最大似然度估計(jì)(maximum-likelihood estimation,MLE)目標(biāo)函數(shù)預(yù)測(cè)下一個(gè)對(duì)話輪。由于無(wú)法成功的應(yīng)對(duì)長(zhǎng)期對(duì)話而經(jīng)常陷入很多種困境:首先,SEQ2SEQ 模型傾向生成非常一般化的應(yīng)答,正如第三章中所討論的:諸如「我不知道」這樣的應(yīng)答;其次,如表 5.1 左側(cè)的兩個(gè)對(duì)話樣本所示,系統(tǒng)陷入了重復(fù)應(yīng)答的無(wú)限循環(huán)中。這是由于基于 MLE 的 SEQ2SEQ 模型無(wú)法測(cè)量重復(fù)次數(shù)。在左下方的例子中,經(jīng)過(guò)三輪后對(duì)話進(jìn)入了死循環(huán),兩個(gè)智能體都一直在生成枯燥、一般性的話語(yǔ)如「我不知道你在說(shuō)什么」、「你不知道你在說(shuō)什么」。

表 5.1:左列:使用 SEQ2SEQ 模型和 OpenSubtitles 數(shù)據(jù)集訓(xùn)練的兩個(gè)智能體之間的對(duì)話模擬。第一輪(指標(biāo) 1)是由作者輸入的,然后兩個(gè)智能體輪流應(yīng)答,一個(gè)智能體的輸入將作為另一個(gè)的在前生成輪。右列:使用我們提出的強(qiáng)化學(xué)習(xí)模型的對(duì)話模擬。新的模型擁有更具前瞻性的言辭(諸如「你為什么要問(wèn)這個(gè)問(wèn)題」、「我和你一起去」),在掉入對(duì)話黑洞之前能進(jìn)行更持久的對(duì)話。

為了應(yīng)對(duì)這些挑戰(zhàn),我們需要一個(gè)擁有以下能力的對(duì)話框架:

(1)更好的獎(jiǎng)勵(lì)函數(shù);

(2)對(duì)生成的某一句話的長(zhǎng)期影響進(jìn)行建模。

為了達(dá)到這些目的,我們利用了強(qiáng)化學(xué)習(xí),其在 MDP 和 POMDP 對(duì)話系統(tǒng)中早已被廣泛應(yīng)用。我們提出了神經(jīng)網(wǎng)絡(luò)強(qiáng)化學(xué)習(xí)生成方法,可以優(yōu)化長(zhǎng)期的獎(jiǎng)勵(lì)。我們的模型使用了編碼器-解碼器架構(gòu)作為主干,讓兩個(gè)機(jī)器人模擬對(duì)話。這樣的話,通過(guò)優(yōu)化獎(jiǎng)勵(lì)函數(shù),探索可能行為的空間。我們認(rèn)為針對(duì)對(duì)話好的獎(jiǎng)勵(lì)函數(shù)應(yīng)該有如下特點(diǎn):好的談話是具備前瞻性或交互性(一輪帶動(dòng)下一輪對(duì)話)、提供有用以及合乎邏輯的信息。我們可以通過(guò)這些方面定義獎(jiǎng)勵(lì)函數(shù),從而通過(guò)獎(jiǎng)勵(lì)函數(shù)來(lái)優(yōu)化編碼器-解碼器模型。

在訓(xùn)練過(guò)程中,我們使用隨機(jī)梯度下降的更新策略,借用了 Yoshua Bengio 在 09 年提出的課程學(xué)習(xí)(Curriculum learning)的策略,逐漸增加對(duì)話模擬的輪數(shù)。這樣訓(xùn)練的復(fù)雜度逐漸增加。

實(shí)驗(yàn)結(jié)果(表 5.1 中右側(cè)的樣本結(jié)果)表明我們的方法產(chǎn)生了更持久的對(duì)話,并且相比使用 MLE 目標(biāo)訓(xùn)練的標(biāo)準(zhǔn) SEQ2SEQ 模型,能生成更具交互性的應(yīng)答。

兩個(gè)對(duì)話機(jī)器人之間的對(duì)話模擬

模擬兩個(gè)機(jī)器人輪流對(duì)話的過(guò)程是這樣的,在一開(kāi)始,從訓(xùn)練集中隨意找到一句話作為輸入給第一個(gè)機(jī)器人,這個(gè)代理通過(guò)編碼器網(wǎng)絡(luò)把這個(gè)輸入編碼成一個(gè)隱層向量,然后解碼器來(lái)生成回答。之后,第二個(gè)機(jī)器人把之前那個(gè)機(jī)器人輸出的響應(yīng)和對(duì)話歷史結(jié)合起來(lái),重新通過(guò)編碼器網(wǎng)絡(luò)編碼得到一個(gè)隱層向量(相當(dāng)于更新了對(duì)話的狀態(tài)),然后通過(guò)解碼器網(wǎng)絡(luò)生成一個(gè)新的回復(fù),并傳給第一個(gè)機(jī)器人。這個(gè)過(guò)程不斷被重復(fù)下去:

圖 5.1 描述了兩個(gè)對(duì)話機(jī)器人之間的對(duì)話模擬。

更具體地,我們把之前利用互信息訓(xùn)練過(guò)的模型作為初始模型,然后利用策略梯度方法來(lái)更新參數(shù),以達(dá)到一個(gè)比較大的期待獎(jiǎng)勵(lì)值的。對(duì)于一系列的響應(yīng),其獎(jiǎng)勵(lì)函數(shù)為:

之后用強(qiáng)化學(xué)習(xí)對(duì)梯度進(jìn)行更新。

在最終模型的訓(xùn)練當(dāng)中,課程學(xué)習(xí)的策略又一次被使用了。

模型起初只局限于兩輪,后來(lái)慢慢增加到多輪。因?yàn)槊恳惠喌暮蜻x集合數(shù)目固定,所以每增加一輪,整個(gè)路徑空間就成倍變大,呈現(xiàn)一個(gè)指數(shù)級(jí)別的增長(zhǎng)狀態(tài),所以最終模型最多限定為五輪對(duì)話。

第六章 通過(guò)對(duì)抗學(xué)習(xí)生成對(duì)話

在上一章(第五章)中,我們?nèi)斯ざx了一些理想對(duì)話的特性,即回復(fù)的舒適性、信息性和條理性,然后用這些作為強(qiáng)化學(xué)習(xí)回復(fù)的獎(jiǎng)勵(lì)。然而,眾所周知,人為定義的獎(jiǎng)勵(lì)函數(shù)無(wú)法覆蓋所有重要的方面,這個(gè)會(huì)導(dǎo)致最后得到的結(jié)果是次優(yōu)的。解決這個(gè)涉及到兩個(gè)重要的問(wèn)題:什么是一個(gè)好的對(duì)話應(yīng)該有的特征,以及如何定量地計(jì)算這些特征?

一個(gè)好的的對(duì)話模型應(yīng)該能生成和人類對(duì)話沒(méi)有區(qū)別的話語(yǔ),所以我們可以找一個(gè)類似圖靈測(cè)試的訓(xùn)練目標(biāo)。我們借用了計(jì)算機(jī)視覺(jué)中的對(duì)抗學(xué)習(xí)的想法:我們同時(shí)訓(xùn)練兩個(gè)模型,一個(gè)是生成器(以神經(jīng) SEQ2SEQ 模型的形式),其定義了生成一個(gè)對(duì)話序列的概率,另一個(gè)是判別器,生成模型產(chǎn)生的對(duì)話進(jìn)行標(biāo)注,來(lái)判斷是人類生成還是機(jī)器生成。這個(gè)判別器和圖靈測(cè)試中的評(píng)估器非常類似。我們將這個(gè)任務(wù)作為一個(gè)強(qiáng)化學(xué)習(xí)問(wèn)題處理,其中機(jī)器生成的話語(yǔ)的品質(zhì)由其是否能夠欺騙判別器誤以為是人類生成的來(lái)測(cè)量。判別器的輸出作為對(duì)生成器的獎(jiǎng)勵(lì),促進(jìn)其生成更加擬人化的話語(yǔ)。

圖靈測(cè)試的想法(利用一個(gè)判別器從人類生成的文本中辨別出機(jī)器生成的)不僅可以用于訓(xùn)練,還可以用于測(cè)試,因而可將其命名為對(duì)抗評(píng)估(Adversarial evaluation)。對(duì)抗評(píng)估由 Bowman 等人于 2016 年首次提出用于評(píng)估語(yǔ)句生成的品質(zhì),并在 Kannan 和 Vinyals(2016 年)的「對(duì)話生成的語(yǔ)境」的工作中被初步研究。

實(shí)驗(yàn)結(jié)果表明我們的方法,相比使用 MLE 目標(biāo)函數(shù)訓(xùn)練的標(biāo)準(zhǔn)的 SEQ2SEQ 模型,能生成更加交互性、趣味性和非重復(fù)的應(yīng)答。

表 6.5:不同模型輸出的應(yīng)答樣本

第七章 給機(jī)器人提問(wèn)的能力

在這一章中我們討論了如何訓(xùn)練機(jī)器學(xué)會(huì)提問(wèn)。考慮一下以下的場(chǎng)景:當(dāng)一個(gè)學(xué)生被老師提問(wèn)的時(shí)候,由于對(duì)自己的答案不夠自信,學(xué)生可能會(huì)要求一些提示。一個(gè)好的對(duì)話智能體應(yīng)該要具備這樣的和對(duì)話對(duì)象交互的能力。然而,最近的研究幾乎都集中于用訓(xùn)練集中的固定回答學(xué)習(xí),而不是通過(guò)交互。在這種情況下,當(dāng)遇到令人迷惑的的情況比如一個(gè)未知的表面句子形式(詞組或結(jié)構(gòu))、一個(gè)語(yǔ)義復(fù)雜的句子或一個(gè)未知的詞,智能體要么進(jìn)行猜測(cè)(通常很糟糕),要么將用戶重導(dǎo)向到其它的資源(例如,搜索引擎,正如我們?cè)?Siri 上遇到的)。而人類相反,可以通過(guò)提問(wèn)應(yīng)對(duì)不同的情況。更重要的是,通過(guò)提問(wèn)來(lái)獲取更多的知識(shí)。

第八章 利用人機(jī)回圈(Human-in-the-Loop)的對(duì)話學(xué)習(xí)

在這一章中,我們將探索的方向是讓機(jī)器人跟人進(jìn)行對(duì)話,得到反饋,然后機(jī)器人可以通過(guò)人的反饋來(lái)增強(qiáng)自己。該任務(wù)在的強(qiáng)化學(xué)習(xí)框架下,讓教師跟機(jī)器對(duì)話,從而讓機(jī)器自學(xué)習(xí)。對(duì)話將在問(wèn)答任務(wù)的語(yǔ)境中進(jìn)行,而機(jī)器必須在給定一個(gè)短故事或一系列事實(shí)的前提下,回答教師提出的一系列問(wèn)題。我們考慮了兩種類型的反饋:傳統(tǒng)強(qiáng)化學(xué)習(xí)中的明確的數(shù)值獎(jiǎng)勵(lì),以及在人類對(duì)話中更為自然的文本反饋。我們考慮了兩種在線訓(xùn)練方案:

(i)使用易于分析和重復(fù)實(shí)驗(yàn)的對(duì)話模擬器;

(ii)對(duì)話對(duì)象是真人,使用 Amazon Mechanical Turk 和機(jī)器對(duì)話。

我們探索了在線學(xué)習(xí)中的關(guān)鍵問(wèn)題,比如機(jī)器如何使用最少的教師反饋進(jìn)行最高效的訓(xùn)練,機(jī)器如何處理不同類型的反饋信號(hào),如何通過(guò)平衡數(shù)據(jù)和探索避免隱藏的風(fēng)險(xiǎn)(比如在線學(xué)習(xí)中不同類型的反饋的數(shù)量經(jīng)常差別非常大)。我們的發(fā)現(xiàn)表明可以建立這樣一個(gè)系統(tǒng),使模型從固定的數(shù)據(jù)開(kāi)始訓(xùn)練,與人交互,隨后更新自己的模型,新的模型再與人交互,繼續(xù)得到反饋,然后再一次更新模型。這個(gè)過(guò)程反復(fù)持續(xù)下去。

圖 8.1:我們的模擬器實(shí)現(xiàn)的 10 個(gè)任務(wù),其中評(píng)估了不同類型的應(yīng)答和互反的反饋。每一個(gè)案例中給定 WikiMovies 中的例子,其中左側(cè)學(xué)生(機(jī)器)全部回答正確,而右側(cè)學(xué)生全部回答錯(cuò)誤。學(xué)生的應(yīng)答用紅色文本表示,學(xué)生用 S 表示,教師的反饋用藍(lán)色文本表示,而教師用 T 表示。為了模仿學(xué)習(xí)過(guò)程,教師需要提供學(xué)生(以 S 表示)在任務(wù) 1 和 8 中做出的應(yīng)答。(+)表示一次正面獎(jiǎng)勵(lì)。

第九章 結(jié)論和未來(lái)工作

我們以討論聊天系統(tǒng)目前面臨的挑戰(zhàn)的形式結(jié)束這篇論文,并為未來(lái)研究提供一些有益的啟發(fā)。

對(duì)于本論文中的較大語(yǔ)境 (context),我們使用帶有 attention 機(jī)制的分級(jí) LSTM 模型捕捉語(yǔ)境,其中字詞級(jí) LSTM 用于獲取每一個(gè)語(yǔ)境語(yǔ)句的表征,并且另一級(jí)的 LSTM 把語(yǔ)句級(jí)表征納入一個(gè)語(yǔ)境向量從而表征整個(gè)對(duì)話歷史。(1) 但是該語(yǔ)境向量能捕捉到多少語(yǔ)境信息、以及該分級(jí)注意力模型能分離出多少有效信息并不好說(shuō)。原因有兩個(gè):當(dāng)前神經(jīng)網(wǎng)絡(luò)模型能力的欠缺,其中單一的語(yǔ)境信息沒(méi)有足夠能力編碼所有語(yǔ)境信息?;蛘?(2) 模型無(wú)法弄明白那句之前說(shuō)過(guò)話相比其他更重要。

解決這些問(wèn)題對(duì)于實(shí)際應(yīng)用極其重要,比如用于客服聊天機(jī)器人開(kāi)發(fā)??紤]一下包裹郵寄跟蹤的問(wèn)題,其中聊天機(jī)器人需要在整個(gè)對(duì)話中記住一些重要信息,比如一個(gè)跟蹤號(hào)碼。信息提取方法(或者從對(duì)話歷史中提取重要實(shí)體的時(shí)隙填充策略)與基于表征的神經(jīng)模型的結(jié)合將有潛力解決這一問(wèn)題。直觀講,對(duì)話歷史中只有非常少的關(guān)鍵詞在聊天機(jī)器人要講什么上有非常大的指導(dǎo)意義。基于關(guān)鍵詞的信息提取模型首先提取這些關(guān)鍵詞,接著將其整合進(jìn)語(yǔ)境神經(jīng)模型之中,從而為較大歷史語(yǔ)境中的信息利用提供更多靈活性。

邏輯學(xué)與語(yǔ)用學(xué)

考慮以下兩個(gè)正在進(jìn)行的對(duì)話語(yǔ)境:

A:你要去參加聚會(huì)嗎?B:我明天有考試。從這一語(yǔ)境中,我們知道說(shuō)話者 B 由于要準(zhǔn)備即將到來(lái)的考試而無(wú)法參加聚會(huì),由此后面的對(duì)話才順理成章。這需要一系列的推理步驟,即,明天有一個(gè)考試 ->不得不準(zhǔn)備這一考試->時(shí)間被占用->無(wú)法參加這次聚會(huì)。對(duì)人來(lái)講這直截了當(dāng),但是對(duì)當(dāng)前的機(jī)器學(xué)習(xí)來(lái)講卻異常困難,尤其是在開(kāi)放域中:手動(dòng)標(biāo)注所有的推理鏈?zhǔn)遣磺袑?shí)際的。因此我們需要一個(gè)邏輯演繹模型,從大量訓(xùn)練數(shù)據(jù)中自動(dòng)學(xué)習(xí)這些隱含的推理鏈,并整合進(jìn)對(duì)話生成之中。

背景與先驗(yàn)知識(shí)

人類對(duì)話通常發(fā)生在特定語(yǔ)境或背景之中。它可以小到對(duì)話發(fā)生的具體位置(比如一個(gè)咖啡廳或者一個(gè)劇院)或者大到發(fā)生在戰(zhàn)爭(zhēng)或和平時(shí)期。背景對(duì)會(huì)話的展開(kāi)有巨大影響。語(yǔ)境同樣也包括用戶信息、個(gè)人特征,甚或說(shuō)話人對(duì)對(duì)方的整體感覺(jué)。例如對(duì)方是否負(fù)責(zé)任或誠(chéng)實(shí)。處理背景問(wèn)題的挑戰(zhàn)來(lái)自兩個(gè)方面:(1) 在訓(xùn)練數(shù)據(jù)上,收集對(duì)話發(fā)生于其中的背景的綜合信息比較困難。正如在先前章節(jié)所討論的,最大規(guī)模的可用數(shù)據(jù)集來(lái)自社交媒體推特、在線論壇 reddit 或者電影劇本等,以上通常缺乏關(guān)于背景的詳細(xì)描述,比如搜集推特中參與討論的說(shuō)話者的個(gè)人角色信息就是不可能的。

你也許會(huì)想到第 4 章節(jié)的個(gè)人角色模型,它基于先前生成的對(duì)話構(gòu)建說(shuō)話者信息/人物簡(jiǎn)介。但是只使用數(shù)百或數(shù)千的對(duì)話表明,僅僅通過(guò)用戶發(fā)表在推特上的內(nèi)容還不足以了解他們。(2) 一個(gè)特定語(yǔ)境對(duì)其中對(duì)話的暗示需要大量的先驗(yàn)常識(shí)。當(dāng)人類對(duì)話時(shí),這些常識(shí)很少被提及或描述,因?yàn)閷?duì)話參與者認(rèn)為這是理所當(dāng)然。這意味著即使我們有了關(guān)于對(duì)話的具體語(yǔ)境信息,也無(wú)法清楚知道為什么該對(duì)話會(huì)發(fā)生在該語(yǔ)境中,因?yàn)檎f(shuō)話者忽略掉了大量常識(shí)信息。這對(duì)基于模仿的機(jī)器學(xué)習(xí)系統(tǒng)(比如 SEQ2SEQ 模型)帶來(lái)了巨大挑戰(zhàn),因?yàn)檫@樣的模型只是通過(guò)訓(xùn)練集一味模仿而不知其原因并不是理解人類交流的最優(yōu)路徑。

我希望該論文在對(duì)話理解與生成的研究上有所貢獻(xiàn),推動(dòng)解決上述問(wèn)題的研究進(jìn)展。

總結(jié)

以上是生活随笔為你收集整理的斯坦福李纪为博士毕业论文:让机器像人一样交流的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。