當前位置：首頁 >

什么是人机对话模型？阿里小蜜团队写了1.5万字

發(fā)布時間：2024/9/3 45 豆豆

生活随笔收集整理的這篇文章主要介紹了什么是人机对话模型？阿里小蜜团队写了1.5万字小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

簡介：?從人工智能研究的初期開始，人們就致力于開發(fā)高度智能化的人機對話系統(tǒng)。對話管理模型研究最新進展源于前沿的深度的研究……

作者：戴音培1、虞暉華2、蔣溢軒2、唐呈光1、李永彬1、孫健1 單位：阿里巴巴-達摩院-小蜜Conversational AI團隊1，康奈爾大學2

對話管理模型背景

從人工智能研究的初期開始，人們就致力于開發(fā)高度智能化的人機對話系統(tǒng)。艾倫·圖靈（Alan Turing）在1950年提出圖靈測試[1]，認為如果人類無法區(qū)分和他對話交談的是機器還是人類，那么就可以說機器通過了圖靈測試，擁有高度的智能。第一代對話系統(tǒng)主要是基于規(guī)則的對話系統(tǒng)，例如1966年MIT開發(fā)的ELIZA系統(tǒng)[2]是一個利用模版匹配方法的心理醫(yī)療聊天機器人，再如1970年代開始流行的基于流程圖的對話系統(tǒng)，采用有限狀態(tài)自動機模型建模對話流中的狀態(tài)轉(zhuǎn)移。它們的優(yōu)點是內(nèi)部邏輯透明，易于分析調(diào)試，但是高度依賴專家的人工干預，靈活性和可拓展性很差。

隨著大數(shù)據(jù)技術的興起，出現(xiàn)了基于統(tǒng)計學方法的數(shù)據(jù)驅(qū)動的第二代對話系統(tǒng)（以下簡稱統(tǒng)計對話系統(tǒng)）。在這個階段，增強學習也開始被廣泛研究運用，其中最具代表性的是劍橋大學Steve Young教授于2005年提出的基于部分可見馬爾可夫決策過程(Partially Observable Markov Decision Process , POMDP)的統(tǒng)計對話系統(tǒng)[3]。該系統(tǒng)在魯棒性上顯著地優(yōu)于基于規(guī)則的對話系統(tǒng)，它通過對觀測到的語音識別結果進行貝葉斯推斷，維護每輪對話狀態(tài)，再根據(jù)對話狀態(tài)進行對話策略的選擇，從而生成自然語言回復。POMDP-based 對話系統(tǒng)采用了增強學習的框架，通過不斷和用戶模擬器或者真實用戶進行交互試錯，得到獎勵得分來優(yōu)化對話策略。統(tǒng)計對話系統(tǒng)是一個模塊化系統(tǒng)，它避免了對專家的高度依賴，但是缺點是模型難以維護，可拓展性也比較受限。

近些年，伴隨著深度學習在圖像、語音及文本領域的重大突破，出現(xiàn)了以運用深度學習為主要方法的第三代對話系統(tǒng)，該系統(tǒng)依然延續(xù)了統(tǒng)計對話系統(tǒng)的框架，但各個模塊都采用了神經(jīng)網(wǎng)絡模型。由于神經(jīng)網(wǎng)絡模型表征能力強，語言分類或生成的能力大幅提高，因此一個重要的變化趨勢是自然語言理解的模型從之前的產(chǎn)生式模型（如貝葉斯網(wǎng)絡）演變成為深度鑒別式模型（如CNN、DNN、RNN）[5]，對話狀態(tài)的獲取不再是利用貝葉斯后驗判決得到，而是直接計算最大條件概率。在對話策略的優(yōu)化上大家也開始采用深度增強學習模型[6]。另一方面，由于端到端序列到序列技術在機器翻譯任務上的成功，使得設計端到端對話系統(tǒng)成為可能，Facebook研究者提出了基于記憶網(wǎng)絡的任務對話系統(tǒng)[4]，為研究第三代對話系統(tǒng)中的端到端任務導向型對話系統(tǒng)提出了新的方向。總的來說，第三代對話系統(tǒng)效果優(yōu)于第二代系統(tǒng)，但是需要大量帶標注數(shù)據(jù)才能進行有效訓練，因此提升模型的跨領域的遷移拓展能力成為熱門的研究方向。

常見的對話系統(tǒng)可分為三類：聊天型，任務導向型和問答型。

聊天型對話的目標是要產(chǎn)生有趣且富有信息量的自然回復使得人機對話可以持續(xù)進行下去[7]。
問答型對話多指一問一答，用戶提出一個問題，系統(tǒng)通過對問題進行解析和知識庫查找以返回正確答案[8]。
任務導向型對話（以下簡稱任務型對話）則是指由任務驅(qū)動的多輪對話，機器需要通過理解、主動詢問、澄清等方式來確定用戶的目標，調(diào)用相應的API查詢后，返回正確結果，完成用戶需求。通常，任務型對話可以被理解為一個序列決策過程，機器需要在對話過程中，通過理解用戶語句更新維護內(nèi)部的對話狀態(tài)，再根據(jù)當前的對話狀態(tài)選擇下一步的最優(yōu)動作（例如確認需求，詢問限制條件，提供結果等等），從而完成任務。

任務型對話系統(tǒng)從結構上可分成兩類，一類是 pipeline系統(tǒng)，采用模塊化結構[5]（如圖 1），一般包括四個關鍵模塊：

自然語言理解（Natural Language Understanding, NLU）：對用戶的文本輸入進行識別解析，得到槽值和意圖等計算機可理解的語義標簽。
對話狀態(tài)跟蹤（Dialog State Tracking, DST）：根據(jù)對話歷史，維護當前對話狀態(tài)，對話狀態(tài)是對整個對話歷史的累積語義表示，一般就是槽值對(slot-value pairs)。
對話策略（Dialog Policy）：根據(jù)當前對話狀態(tài)輸出下一步系統(tǒng)動作。一般對話狀態(tài)跟蹤模塊和對話策略模塊統(tǒng)稱為對話管理模塊（Dialog manager, DM）。
自然語言生成（Natural Language Generation, NLG）：將系統(tǒng)動作轉(zhuǎn)換成自然語言輸出。

這種模塊化的系統(tǒng)結構的可解釋性強，易于落地，大部分業(yè)界的實用性任務型對話系統(tǒng)都采用的此結構。但是其缺點是不夠靈活，各個模塊之間相對獨立，難以聯(lián)合調(diào)優(yōu)，適應變化的應用場景。并且由于模塊之間的誤差會層層累積，單一模塊的升級也可能需要整個系統(tǒng)一起調(diào)整。

圖 1. 任務導向型對話系統(tǒng)的模塊化結構[41]

任務型對話系統(tǒng)的另一種實現(xiàn)是端到端系統(tǒng)，也是近年來學界比較熱門的方向9[11]（如圖 2），這類結構希望訓練一個從用戶端自然語言輸入到機器端自然語言輸出的整體映射關系，具有靈活性強、可拓展性高的特點，減少了設計過程中的人工成本，打破了傳統(tǒng)模塊之間的隔離。然而，端到端模型對數(shù)據(jù)的數(shù)量和質(zhì)量要求很高，并且對于填槽、API調(diào)用等過程的建模不夠明確，現(xiàn)階段業(yè)界應用效果有限，仍處在探索中。

圖 2. 任務導向型對話系統(tǒng)的端到端結構[41]

隨著用戶對產(chǎn)品體驗的要求逐漸提高，實際對話場景更加復雜，對話管理模塊也需要更多的改進和創(chuàng)新。傳統(tǒng)的對話管理模型通常是建立在一個明確的話術體系內(nèi)（即先查找再問詢最后結束），一般會預定義好系統(tǒng)動作空間、用戶意圖空間和對話本體，但是實際中用戶的行為變化難測，系統(tǒng)的應答能力十分有限，這就會導致傳統(tǒng)對話系統(tǒng)可拓性差的問題（難以處理預定義之外的情況）。另外，在很多的真實業(yè)界場景，存在大量的冷啟動問題，缺少足量的標注對話數(shù)據(jù)，數(shù)據(jù)的清洗標注成本代價高昂。而在模型訓練上，基于深度增強學習的對話管理模型一般都需要大量的數(shù)據(jù)，大部分論文的實驗都表明，訓練好一個對話模型通常需要幾百個完整的對話session，這樣低下的訓練效率阻礙了實際中對話系統(tǒng)的快速開發(fā)和迭代。

綜上，針對傳統(tǒng)對話管理模型的諸多局限，近幾年學界和業(yè)界的研究者們都開始將焦點放在如何加強對話管理模型的實用性上，具體來說有三大問題：

可拓展性差
標注數(shù)據(jù)少
訓練效率低

我們將按照這三個方向，為大家介紹近期最新的研究成果。

對話管理模型研究前沿介紹

對話管理模型痛點一：可拓展性差

如前文所述，對話管理器由兩部分組成：對話狀態(tài)跟蹤器（DST）和對話策略（dialog policy）。傳統(tǒng)的DST研究中，最具代表的是劍橋大學的學者們在2017年提出的神經(jīng)信度跟蹤模型（neural belief tracker, NBT）[12]，利用神經(jīng)網(wǎng)絡來解決單領域復雜對話的對話狀態(tài)跟蹤問題。NBT 通過表征學習（representation learning）來編碼上輪系統(tǒng)動作、本輪用戶語句和候選槽值對，在高維空間中計算語義的相似性，從而檢測出本輪用戶提到的槽值。因此NBT可以不依賴于人工構建語義詞典，只需借助槽值對的詞向量表示就能識別出訓練集未見但語義上相似的槽值，實現(xiàn)槽值的可拓展。后續(xù)地，劍橋?qū)W者們對NBT進一步改進13，將輸入的槽值對改成領域-槽-值三元組，每輪識別的結果采用模型學習而非人工規(guī)則的方法進行累積，所有數(shù)據(jù)采用同一個模型訓練，從而實現(xiàn)不同領域間的知識共享，模型的總參數(shù)也不隨領域數(shù)目的增加而增加。在傳統(tǒng)的Dialogue Policy研究領域中，最具代表性的是劍橋?qū)W者們6提出的基于ACER方法的策略優(yōu)化。

通過結合 Experience replay 技巧，作者分別嘗試了trust region actor-critic 模型和episodic natural actor-critic 模型，驗證了AC系列的深度增強學習算法在樣本利用效率、算法收斂性和對話成功率上都達到了當時最好的表現(xiàn)。

然而傳統(tǒng)的對話管理模型在可拓展性方面仍需改進，具體在三個方面：

如何處理變化的用戶意圖，
如何變化的槽位和槽值，
如何處理變化的系統(tǒng)動作。

變化的用戶意圖

在實際應用場景中，時常會出現(xiàn)由于用戶意圖未被考慮到，使得對話系統(tǒng)給出不合理回答的情況。如圖 3所示的例子，用戶的“confirm”意圖未被考慮，這時就需要加入新的話術來幫助系統(tǒng)處理這樣的情況。

圖 3. 出現(xiàn)新意圖的對話實例[15]

一旦出現(xiàn)訓練集未見的新用戶意圖時，傳統(tǒng)模型由于輸出的是表示舊意圖類別的固定one-hot向量，若要包含新的意圖類別，向量就需要進行改變，對應的新模型也需要進行完全的重訓練，這種情況會降低模型的可維護性和可拓展性。論文[15]提出了一種“老師-學生”的學習框架來緩解這一問題，他們將舊模型和針對新用戶意圖的邏輯規(guī)則作為“老師”，新模型作為“學生”，構成一個“老師-學生”訓練架構。該架構使用了知識蒸餾技術，具體做法是：對于舊的意圖集合，舊模型的概率輸出直接指導訓練新模型；對于新增的意圖，對應的邏輯規(guī)則作為新的標注數(shù)據(jù)來訓練新模型。這樣就使得在新模型不再需要與環(huán)境進行新的交互重新訓練了。論文在DSTC2數(shù)據(jù)集上進行實驗，首先選擇故意去掉 confirm 這個意圖，然后再將它作為新意圖加入對話本體中，依次驗證新模型是否具有很好的適應能力。圖 4 是實驗結果，論文新模型（即Extended System）、直接在包含所有意圖的數(shù)據(jù)訓練的模型（即 Contrast System）和舊模型進行比較，實驗證明新模型對新意圖的識別正確率在不同噪聲情況下都不錯的擴展識別新意圖的能力。

圖 4. 不同噪聲設置下各種模型的比較

當然這種架構仍然需要對系統(tǒng)進行一定的訓練，[16] 提出一種語義相似性匹配的模型CDSSM能夠在不依賴于標注數(shù)據(jù)以及模型重新訓練的前提下，解決用戶意圖拓展的問題。CDSSM先利用訓練集數(shù)據(jù)中用戶意圖的自然描述直接學習出一個意圖向量（intent embedding）的編碼器，將任意意圖的描述嵌入到一個高維語義空間中，這樣在測試時模型可以直接根據(jù)新意圖的自然描述生成對應的意圖向量，進而再做意圖識別。在后面的內(nèi)容我們可以看到，有很多提高可拓展性的模型均采用了類似的思想，將標簽從模型的輸出端移到輸入端，利用神經(jīng)網(wǎng)絡對標簽 (標簽命名本身或者標簽的自然描述) 進行語義編碼得到某種語義向量再進行語義相似性的匹配。

[43]則給出了另外一種思路，它通過人機協(xié)同的方式，將人工客服的角色引入到系統(tǒng)線上運行的階段來解決訓練集未見的用戶意圖的問題。模型利用一個額外的神經(jīng)判決器根據(jù)當前模型提取出來的對話狀態(tài)向量來判斷是否請求人工，如果請求則將當前對話分發(fā)給線上人工客服來回答，如果不請求則由模型自身進行預測。由于通過數(shù)據(jù)學習出的判決器有能力對當前對話是否包含新意圖作一定的判斷，同時人工的回復默認是正確的，這種人機協(xié)同的方式十分巧妙地解決了線上測試出現(xiàn)未見用戶行為的問題，并可以保持比較高對話準確率。

變化的槽位和槽值

在多領域或復雜領域的對話狀態(tài)跟蹤問題中，如何處理槽位與槽值的變化一直是一個難題。對于有的槽位而言，槽值可能是不可枚舉的，例如，時間、地點和人名，甚至槽值集合是動態(tài)變化的，例如航班、電影院上映的電影。在傳統(tǒng)的對話狀態(tài)跟蹤問題中，通常默認槽位和槽值的集合固定不變，這樣就大大降低了系統(tǒng)的可拓展性。

針對槽值不可枚舉的問題，谷歌研究者[17]提出了一個候選集（candidate set）的思路。對每個槽位，都維護一個有總量上限的候選集，它包含了對話截止目前最多k個可能的槽值，并賦于每個槽值一個分數(shù)以表示用戶在當前對話中對該槽值的偏好程度。系統(tǒng)先利用雙向RNN模型找出本輪用戶語句包含的中某個槽位的槽值，再將它和候選集中已有的槽值進行重新打分排序，這樣每輪的DST就只需在一個有限的槽值集合上進行判決，從而解決不可枚舉槽值的跟蹤問題。針對未見槽值的跟蹤問題，一般可以采用序列標注的模型[18]，或者選擇神經(jīng)信度跟蹤器[12]這樣的語義相似匹配模型。

以上是槽值不固定的情況，如果對話本體中槽位也變化呢？論文[19]采用了槽位描述編碼器（slot description encoder），對任何槽（已見的、未見的）的自然語言描述進行編碼，得到表示該槽的語義向量，和用戶語句一起作為輸入送入Bi-LSTM模型中，采用序列標注的方式輸出識別到的槽值，見圖 5。該論文做了一個可接受的假設，即任何槽的自然語言描述是很容易得到的，因此設計了一個在多個領域具有普適性的概念標注器（Concept Tagger）結構，槽描述編碼器的實現(xiàn)是簡單的詞向量之和。實驗表明，該模型能迅速適應新的槽位，相較于傳統(tǒng)方法，該方法的可拓展性有很大的提升。

圖 5. 概念標注器結構

隨著近幾年序列到序列技術的發(fā)展，直接利用端到端神經(jīng)網(wǎng)絡模型將DST的結果作為一個序列生成出來也是一個很熱門的方向，常見的技巧如注意力機制（attention mechanism）、拷貝機制（copy mechanism）均可以用來提高生成效果。在著名的多領域?qū)υ扢ultiWOZ數(shù)據(jù)集上，來自港科大的Pascale Fung 教授團隊利用了拷貝網(wǎng)絡，顯著提高了不可枚舉槽的識別精度 [20]。他們提出的TRADE 模型如圖 6所示，每次檢測槽值時，模型會將領域和槽位的不同結合進行語義編碼作為RNN解碼器的初始位置輸入，解碼器通過拷貝網(wǎng)絡，直接將對應的槽值生成出來。通過生成的方式，無論是不可枚舉的槽值，還是變化的槽位的槽值，都能使用同一個模型完成，這可以做到領域間槽值信息的共享，也大大地提高了模型的泛化能力。

圖 6. TRADE模型框架

最近一個明顯的趨勢是將多領域DST看作一個機器閱讀理解的任務，將TRADE這種生成式模型改進成鑒別式模型45。不可枚舉槽的追蹤利用類似SQuAD的機器閱讀理解任務[46]，從對話歷史和提問中找到對應的 text span作為槽值，而可枚舉槽的追蹤則轉(zhuǎn)化成一個多項選擇的機器閱讀理解任務，從候選值中選擇正確的值作為預測出的槽值。通過結合ELMO,BERT等深度上下文詞表示，這些新提出的模型最終在MultiWOZ數(shù)據(jù)集上取得目前最好結果。

變化的系統(tǒng)動作

可拓展性問題的最后一個方面在于系統(tǒng)動作空間難以預定義。如圖 7所示，在設計一個電子產(chǎn)品推薦系統(tǒng)時，也許一開始并不會考慮到用戶會問到如何升級產(chǎn)品操作系統(tǒng)這樣的問題，但現(xiàn)實的情況是你無法限定用戶只問系統(tǒng)能解決的問題。如果系統(tǒng)動作空間事先框定，在用戶提出新問題時就會導致一連串的答非所問，導致極差的用戶體驗。

圖 7. 對話系統(tǒng)遇到未考慮的系統(tǒng)動作時的對話案例[22]

對此，我們需要考慮的是，如何設計更好的對話策略網(wǎng)絡，使得系統(tǒng)能夠快速的擴展新的動作。首先的嘗試來自微軟[21]，他們試圖通過改變經(jīng)典的DQN結構來實現(xiàn)系統(tǒng)在不受限動作空間上的增強學習。論文的對話任務是一個文字游戲闖關任務，每輪的動作是一句話，動作數(shù)目不定，選擇不同的動作故事情節(jié)就會有不同的發(fā)展。作者提出了新的模型Deep Reinforcement Relevance Network (DRRN)，通過語義相似性匹配的方式將當前的對話狀態(tài)和各個可選的系統(tǒng)動作一一匹配得到Q函數(shù)。具體來看：某輪對話時，每個長度不定的動作文本會經(jīng)過神經(jīng)網(wǎng)絡編碼得到固定長度的系統(tǒng)動作向量，故事背景文本經(jīng)過另一個神經(jīng)網(wǎng)絡也得到固定長度的的對話狀態(tài)向量，兩個向量通過交互函數(shù)（如點積）生成最后的Q值。圖 8是論文設計模型結構。實驗表明，在“Saving John”和“Machine of Death”兩個文字游戲上DRRN比傳統(tǒng)DQN（使用padding技巧）的表現(xiàn)更加優(yōu)異。

圖 8. DRRN模型。t輪有兩個候選動作，t+1輪有三個候選動作。

論文[22]則希望從對話系統(tǒng)整體的角度來解決這個問題，作者提出了增量學習對話系統(tǒng)（Incremental Dialogue System, IDS），如圖 9所示。首先系統(tǒng)通過Dialogue Embedding 模塊對對話歷史編碼得到上下文向量，再利用一個基于VAE的Uncertainty Estimation模塊根據(jù)上下文向量對當前系統(tǒng)能否給出正確回答進行一個置信度的評估。類似于主動學習的方式，若置信度高于閾值，則由對話管理器對當前所有可選動作一一打分，經(jīng)過softmax函數(shù)預測出概率分布，若置信度低于閾值，則請求標注人員對本輪的回復進行標注（選擇正確回復或創(chuàng)建新的回復），得到了新數(shù)據(jù)并入數(shù)據(jù)池里一起在線更新模型。通過這種人類教學（human-teaching）的方式，IDS系統(tǒng)不僅解決了不受限動作空間的學習問題，還可以快速地收集高質(zhì)量的數(shù)據(jù)，十分貼近實際生產(chǎn)應用。

圖 9. IDS的對話系統(tǒng)整體框架圖

對話管理模型痛點二：標注數(shù)據(jù)少

隨著對話系統(tǒng)應用領域的多樣化，對數(shù)據(jù)的需求也更加多樣化，若想訓好一個任務型對話系統(tǒng)，通常都需要盡可能多的該領域的數(shù)據(jù)，但一般來說，想要獲取高質(zhì)量的有標注數(shù)據(jù)的成本很高。為此學者們進行了各種研究嘗試，主要可分為三種思路：

用機器自動標注數(shù)據(jù)，降低數(shù)據(jù)標注的成本；
對話結構挖掘，盡可能高效利用無標注數(shù)據(jù)；
加強數(shù)據(jù)采集策略，高效獲取優(yōu)質(zhì)的數(shù)據(jù)。

機器自動標注

由于人工標注數(shù)據(jù)的代價大、效率低，學者們希望通過機器輔助人工來標注數(shù)據(jù)，方法大致可分為兩大類：有監(jiān)督方法和無監(jiān)督方法。論文[23]提出一種架構auto-dialabel，用層次聚類的無監(jiān)督學習方法將對話數(shù)據(jù)中的意圖和槽位自動分組，從而實現(xiàn)對話數(shù)據(jù)的自動標注（類別的具體標簽需要人工來定）。該方法是基于一個假設：相同意圖的表達可能會共享相似的背景特征。模型提取的初始特征包括詞向量、POS 標注、名詞詞簇和LDA 四種特征。各個特征經(jīng)由自編碼器轉(zhuǎn)成相同維度的向量后進行拼接，再采用RBF（radial bias function）函數(shù)計算類間距離進行動態(tài)的層次聚類。距離最近的類將會自動合并，直到類間距離大于預設的閾值停止。模型框架如圖 10所示。

圖 10. Auto-dialabel 模型

論文[24]則采用有監(jiān)督聚類的方法來實現(xiàn)機器標注。作者將每條對話數(shù)據(jù)看作是一個個圖節(jié)點，將聚類的過程看作是找出最小生成森林的過程。模型首先采用SVM在問答數(shù)據(jù)集上有監(jiān)督訓練出節(jié)點和節(jié)點之間的距離得分模型，再結合結構化模型和最小子樹生成算法來將對話數(shù)據(jù)對應的類別信息作為隱變量推斷出來，從而輸出最佳的聚類結構表示用戶意圖類別。

對話結構挖掘

由于訓練對話系統(tǒng)的高質(zhì)量帶標注數(shù)據(jù)稀缺，如何充分地挖掘無標注對話數(shù)據(jù)中隱含的對話結構或信息也成為了當今的研究熱點之一，隱含的對話結構或信息在一定程度上有助于對話策略的設計和對話模型的訓練。

論文[25]提出了一種用變分循環(huán)神經(jīng)網(wǎng)絡（variational RNN, VRNN）的無監(jiān)督方法自動學習對話數(shù)據(jù)中的隱藏結構。作者給出兩種模型來獲取對話中的動態(tài)信息：Discrete-VRNN和Direct-Discrete-VRNN。如圖 11所示，x_t是第t輪對話，h_t表示對話歷史隱變量，z_t表示對話結構隱變量（一維one-hot離散變量）。兩種模型的差別在于：對于D-VRNN，隱變量z_t取決于h_(t-1)；而對于DD-VRNN，隱變量z_t取決于z_(t-1)。VRNN通過最大整個對話的似然值，利用VAE的一些常用技巧，估計出隱變量z_t的后驗概率分布。

圖 11. Discrete-VRNN（D-VRNN）與Direct-Discrete-VRNN（DD-VRNN）的示意圖

論文實驗表明VRNN 要優(yōu)于傳統(tǒng)的HMM的方法，同時將對話結構的信息加入到獎勵函數(shù)中，也有助于增強學習模型更快地收斂。圖 12 是經(jīng)過D-VRNN 挖掘出的餐館領域的隱變量z_t轉(zhuǎn)移概率的可視化圖。

圖 12. D-VRNN 對餐館領域的對話數(shù)據(jù)挖掘出的對話流結構

CMU學者[26]也嘗試利用VAE的方法，將系統(tǒng)動作作為隱變量推斷出來直接用于對話策略的選擇，這樣就能減輕預定義系統(tǒng)動作不夠全面帶來的問題。如圖 13所示，為了簡便起見，論文采用端到端的對話系統(tǒng)框架，基線模型是字級別的增強學習模型（即對話動作是詞表中的詞），通過encoder將對話歷史編碼，再利用decoder解碼生成對話回復，獎勵函數(shù)直接通過比對生成的對話回復語句和真實對話回復語句得到。作者提出的隱動作模型和基線模型的區(qū)別是encoder到decoder之間多了離散隱變量的后驗推理，對話動作由離散隱變量表示，沒有任何人為的干預定義。最終實驗證明，基于隱動作的端到端增強學習模型在語句生成的多樣性和任務完成率上均超過了基線模型。

圖 13. 基線模型和隱動作模型

數(shù)據(jù)采集策略

最近，谷歌研究者們提出了一種快速收集對話數(shù)據(jù)的方法[27]（見圖 14）：首先利用兩個基于規(guī)則的模擬器交互生成對話的outline，即用語義標簽表示的對話流骨架；然后利用模板將語義標簽轉(zhuǎn)寫為自然語言對話；最后利用眾包對自然語句進行改寫，使得對話數(shù)據(jù)的語言表達更加豐富多樣。這種反向收集數(shù)據(jù)方法不僅收集效率高，而且數(shù)據(jù)標注完整、可用性強，避免了收集領域數(shù)據(jù)的成本花費和大量的人工處理。

圖 14. 對話outline，模板生成對話以及眾包重寫對話的示例

上述方法屬于機器-機器（machine-to-machine, M2M）的數(shù)據(jù)收集策略：先生成覆蓋面廣的對話數(shù)據(jù)語義標簽，再眾包生成大量對話語料。其缺點在于，生成的對話相對局限，不能涵蓋真實場景的所有可能性，并且效果依賴于模擬器的好壞。
學界還有另外兩種常用于對話系統(tǒng)數(shù)據(jù)收集的方法：人-機對話（human-to-machine,H2M）和人-人對話（human-to-human, H2H）。H2H 方法要求用戶（由眾包人員扮演）和客服（由另一眾包人員扮演）進行多輪對話，用戶負責基于某些指定的對話目標（例如買機票）提需求，客服負責標注對話標簽和創(chuàng)建對話回復。這種模式被稱為 Wizard-of-Oz 框架，對話研究的諸多數(shù)據(jù)集如 WOZ[5], MultiWOZ[28]均采用此方式收集。H2H 方法可以得到最貼近實際業(yè)務場景的對話數(shù)據(jù)，但是需要為了不同的任務需要設計不一樣的互動界面，而且需要耗費大量人力清理錯誤的標注，成本相當昂貴。H2M 的數(shù)據(jù)收集策略則是讓用戶和訓練到一定程度的機器直接進行對話在線收集數(shù)據(jù)，并且利用增強學習不斷改進對話管理模型，著名的 DSTC2&3 數(shù)據(jù)集就是通過這種方法收集得到。H2M 方法的效果總體比較依賴于對話管理模型的初始效果，并且在線收集的數(shù)據(jù)噪聲較大，清理成本也會較高，影響模型優(yōu)化的效率。

對話管理模型痛點三：訓練效率低

隨著深度增強學習在游戲圍棋領域的大獲成功，該方法在任務導向型對話領域也有廣泛應用。例如論文[6]的ACER對話管理方法，使用了model-free 深度增強學習，通過結合Experience Replay、信度域約束、預訓練等技巧，大大提高了增強學習算法在任務型對話領域的訓練效率和穩(wěn)定性。

然而，簡單地套用增強學習算法并不能滿足對話系統(tǒng)的實際應用。這主要是因為對話領域不像游戲圍棋那樣有清晰的規(guī)則、獎勵函數(shù)，動作空間簡單明確，還有完美的環(huán)境模擬器可以生成數(shù)以億計的高質(zhì)量交互數(shù)據(jù)。對話任務中，一般包括了多樣變化的槽位槽值和動作意圖，這使得對話系統(tǒng)的動作空間急劇增大且難以預定義。傳統(tǒng)扁平的增強學習（flat reinforcement learning）方法由于對所有的系統(tǒng)動作進行one-hot編碼，會存在維度災難，因此不再適用于處理動作空間非常大的復雜對話問題，為此學者們進行了諸多研究嘗試，包括model-free RL、model-based RL和human-in-the-loop三個方向。

Model-free 增強學習–分層增強學習

分層增強學習（Hierarchical Reinforcement Learning, HRL）基于“分而治之”的理念，將復雜任務分解成多個子任務（sub-task），解決了傳統(tǒng)扁平的增強學習的維度災難。論文[29]首次將分層增強學習（HRL）應用到任務導向型對話領域，作者利用專家知識把復雜的對話任務在時序維度上拆分成多個子任務，例如一個復雜的旅行問題可以分解為訂機票、訂酒店、租車等子問題。根據(jù)這個拆分，他們設計了兩個層次的對話策略網(wǎng)絡，一個層次負責選擇和安排所有的子任務，另一個層次負責具體子任務的執(zhí)行。

他們提出的對話管理模型（如圖 15 所示）包括：

頂層策略（top-level policy），用于根據(jù)對話狀態(tài)選擇子任務；
底層策略（low-level policy），用于完成子任務的具體的某個對話動作；
全局對話狀態(tài)追蹤，記錄整體對話狀態(tài)。整個對話任務完成之后，頂層策略會收到外部獎勵（external reward）。

除此以外，模型還新增了內(nèi)部評定模塊（internal critic），用于根據(jù)對話狀態(tài)估計子任務完成的可能性（子任務的填槽程度），底層策略會根據(jù)子任務完成程度收到內(nèi)部評定模塊的一個內(nèi)部獎勵（intrinsic reward）。

圖 15. 任務型對話系統(tǒng)的分層增強學習框架

面對復雜的對話問題，傳統(tǒng)的增強學習的每一步?jīng)Q策都在選擇基本系統(tǒng)動作，比如詢問槽值或者確認約束，而分層增強學習的先通過頂層策略選擇一大類基本動作的集合，再通過底層策略選擇當前集合的基本動作，流程如圖 16所示。這種對動作空間的層次劃分，能夠考慮到不同子任務之間的時序約束關系，有助于完成復合對話任務（composite task）。并且論文通過加入內(nèi)部獎勵的方式，有效緩解了獎勵稀疏的問題，加快了增強學習的訓練，也在一定程度上避免了對話在不同子任務之間頻繁切換，提高了動作預測準確率。當然動作的分層設計比較依賴專家知識，需要通過專家來確定子任務的種類，近期相應地出現(xiàn)了一些對話子任務自動發(fā)現(xiàn)的工作30，通過無監(jiān)督的方法，對整個對話歷史的對話狀態(tài)序列進行自動切分，從而避免人工構建對話子任務結構。

圖 16. 分層增強學習的策略選擇流程示意圖

Model-free 增強學習–封疆增強學習!

封疆增強學習（Feudal Reinforcement Learning, FRL）是另一種適用于大維度問題的增強學習方法。分層增強學習是把對話策略按照時間維度上的不同任務階段劃分成子策略，從而降低策略學習的復雜度；而封疆增強學習（FRL）是在空間維度上把策略進行劃分，限制子策略負責的動作范圍，劃分了“管轄疆域”，從而降低子策略的復雜度。封疆增強學習（FRL）不劃分子任務，而是應用了狀態(tài)空間的抽象化函數(shù)，從對話狀態(tài)中提取有用的特征。這種抽象化有利于封疆增強學習（FRL）在大型問題中的應用以及在不同領域之間的遷移，具有較強的擴展性。

劍橋?qū)W者們首次將封疆增強學習[32]運用到任務導向?qū)υ捪到y(tǒng)領域，將動作空間按照是否和槽位相關來進行劃分，這樣只利用了動作空間的自然結構而不需要額外的專家知識。他們提出了如圖 17所示的封疆策略結構，該結構的決策過程分兩步：

決定下一步動作是否需要槽位作為參數(shù)；
根據(jù)第一步的決策，以及對應的不同槽位采用不同的底層策略選擇下一步動作。

圖 17. 封疆增強學習在任務導向型對話系統(tǒng)上的應用

總的來說，分層增強學習（HRL）與封疆增強學習（HRL）都是將高維度的復雜動作空間進行不同方式的拆分，以解決傳統(tǒng) RL 動作空間維度大導致訓練效率低的問題。分層增強學習（HRL）對任務的分割合理，比較符合人類的理解，但是需要專家知識來拆分子任務。封疆增強學習（FRL）對復雜問題的拆分則直接考慮其動作本身的邏輯結構，不考慮不同子任務之間的相互約束。

Model-based 增強學習

以上討論的屬于無模型（model-free）增強學習，它是通過和環(huán)境交互試錯得到大量弱監(jiān)督數(shù)據(jù)，再去訓練一個價值網(wǎng)絡或者策略網(wǎng)絡，而不關心環(huán)境本身。與之相對的是基于模型的（model-based）增強學習，它的學習過程如圖 18。其特點是對環(huán)境直接進行建模，利用和環(huán)境交互得到的數(shù)據(jù)學習出一個狀態(tài)和獎勵的概率轉(zhuǎn)移函數(shù)，即環(huán)境模型，然后系統(tǒng)可以和環(huán)境模型交互產(chǎn)生更多的訓練數(shù)據(jù)，因此model-based增強學習一般比model-free增強學習的訓練效率要高，尤其是在和環(huán)境交互代價昂貴的場景。但其效果取決于環(huán)境建模的好壞。

圖 18. model-based的增強學習的流程

采用 model-based 增強學習來提高訓練效率是最近研究熱點，微軟首先將經(jīng)典的 Deep Dyna-Q（DDQ）算法應用到對話中[33]，如圖 19c 所示，DDQ 訓練開始之前，先利用少量已有的對話數(shù)據(jù)對策略模型和環(huán)境模型（world model）進行預訓練，之后 DDQ的訓練不斷循環(huán)三個步驟：

直接增強學習 - 通過和真實用戶在線對話交互，更新策略模型并且儲存對話數(shù)據(jù)；
訓練環(huán)境模型 - 利用收集到的真實對話數(shù)據(jù)更新環(huán)境模型；
規(guī)劃（planning）- 利用和環(huán)境模型交互得到的對話數(shù)據(jù)來訓練策略模型。

其中環(huán)境模型（如圖 20）是一個神經(jīng)網(wǎng)絡，對環(huán)境的狀態(tài)轉(zhuǎn)換和獎勵進行概率建模，輸入是當前對話狀態(tài)以及系統(tǒng)動作，輸出是下一輪用戶動作、環(huán)境獎勵和對話終止變量。環(huán)境模型使得 DDQ 降低了在線增強學習（如圖 19a）對人機交互數(shù)據(jù)量的需求，也避免了和用戶模擬器交互（如圖 19b）質(zhì)量不高的問題。

圖 19. 三種不同增強學習框架

圖 20. 環(huán)境模型的結構

環(huán)境模型與對話領域中的用戶模擬器比較相似，它們都可以用于模擬真實用戶的動作并和系統(tǒng)的對話管理模塊交互。但兩者不同之處在于用戶模擬器本質(zhì)是系統(tǒng)的外部環(huán)境，用于模擬真實用戶，環(huán)境模型是系統(tǒng)的一部分，屬于系統(tǒng)內(nèi)部模型。

在DDQ的工作基礎上，微軟研究者們做了更多的擴展：為了提高環(huán)境模型產(chǎn)生的對話數(shù)據(jù)的真實性，他們提出[34]采用對抗訓練的思想提高對話數(shù)據(jù)的生成質(zhì)量；針對何時使用和真實環(huán)境交互的數(shù)據(jù)，何時使用和環(huán)境模型交互的數(shù)據(jù)，論文[35]探討了可行方案；為了將真人交互也納入進來，論文[36]給出了一個統(tǒng)一的對話框架。這種人類教學（human-teaching）的思想也是目前業(yè)界構建對話管理模型的關注熱點，我們在下小節(jié)給出更多闡述。

Human-in-the-loop

我們希望能充分引入人的知識經(jīng)驗來生成高質(zhì)量數(shù)據(jù)，提高模型訓練效率。Human-in-the-loop增強學習[37]就是一種將人類引入機器人訓練過程的方法，通過設計好的人機交互方式，人類可以高效地指導訓練增強學習模型。為了進一步提升任務導向?qū)υ捪到y(tǒng)的訓練效率，針對對話問題的特性設計有效的human-in-the-loop方式成為了研究人員新的探索方向。

圖 21. 監(jiān)督式預訓練、模仿學習和在線增強學習結合的復合式學習

谷歌研究者提出了一種人類教學和增強學習結合的復合學習方法[37]（如圖 21），在有監(jiān)督預訓練和在線增強學習之間增加一個人類教學階段，讓人介入進來打標簽，避免了有監(jiān)督預訓練導致的covariate shift 問題[42]。亞馬遜研究者也提出一種類似的人類教學框架[37]：每輪對話中，系統(tǒng)都推薦4條回復供客服專家選擇；然后客服專家決定是選擇4條回復中的一條，還是另外編輯新的回復；最后由客服專家把選擇好或者編輯好的回復發(fā)給用戶。利用這種方式，開發(fā)人員可以快速地更新對話系統(tǒng)能力，適合落地。

以上是系統(tǒng)被動地接受人對數(shù)據(jù)進行標注，但是好的系統(tǒng)也應該學會主動提問、尋求人的幫助。論文[40]提出了陪伴式學習（companion learning）的架構（如圖 22），在傳統(tǒng)的增強學習框架中加入老師的角色（即人），老師可以糾正對話系統(tǒng)（即學生）的回復（圖左側開關），也能以內(nèi)部reward的形式對學生的回復進行評價（圖右側開關）。對于主動學習的實現(xiàn)，作者提出了對話決策確信度（decision certainty）的概念，通過dropout技巧對學生策略網(wǎng)絡進行多次采樣，得到可取動作的最大概率近似估計，再通過計算該最大概率的若干對話輪次的滑動平均值作為學生策略網(wǎng)絡的決策確信度。確信度若低于目標值，則根據(jù)確信度與目標值的差距，決定老師是否參與進來糾正錯誤和提供獎勵函數(shù)，確信度高于目標值，則停止向老師學習，系統(tǒng)自行進行判決。

圖 22. 老師糾正學生的回復（左側開關）或者對學生的回復做出評價（右側開關）
主動學習的關鍵在于估計出對話系統(tǒng)對自身決策的確信度，除了上述對策略網(wǎng)絡進行dropout的方法，還有以隱變量為條件變量，計算策略網(wǎng)絡分布Jensen-Shannon散度的方法[22]、根據(jù)當前系統(tǒng)對話成功率做判斷的方法[36]。

小蜜Conversational AI團隊的對話管理框架

為了保證穩(wěn)定性和可解釋性，目前業(yè)界對話管理模塊多采用基于規(guī)則的方法。阿里巴巴-達摩院-小蜜Conversational AI團隊在去年就開始嘗試對話管理模型化的工作，并進行了深入地探索。在真實的對話系統(tǒng)建設中，我們需要解決兩個問題：

如何獲得特定場景的大量對話數(shù)據(jù)？
怎么利用算法充分發(fā)揮數(shù)據(jù)的價值？

對于整個模型化的框架設計，目前我們規(guī)劃成四步走的路線（如圖 23所示）：

圖 23. 對話管理模型化四步走路線

第一步，先利用小蜜Conversational AI團隊自主研發(fā)的對話工廠（dialog studio）快速構建一個基于規(guī)則對話流的對話引擎（稱為TaskFlow），同時用類似的對話流去構建一個用戶模擬器。在構建好用戶模擬器和對話引擎之后，兩者采用M2M方式持續(xù)交互沉淀出大量的對話數(shù)據(jù)。

第二步，有了一定量的對話數(shù)據(jù)后，我們再利用有監(jiān)督學習訓練一個神經(jīng)網(wǎng)絡，構建和規(guī)則對話引擎能力基本相當?shù)膶υ捁芾砟Ｐ?#xff0c;實現(xiàn)對話管理的初步模型化。模型的設采用語義相似匹配和端到端生成兩種方法結合來實現(xiàn)可拓展性，對于動作空間較大的對話任務采用HRL進行動作劃分。

第三步，有了初步的對話管理模型，在開發(fā)階段，我們讓系統(tǒng)和改進的用戶模擬器或人工智能訓練師進行交互，通過off-policy ACER增強學習算法讓系統(tǒng)的對話能力持續(xù)地增強。

第四步，人機對話體驗達到初步實用之后，就可以上線運行，引入人的因素，收集用戶真實交互數(shù)據(jù)，同時通過一些UI設計方便地引入用戶的反饋，持續(xù)不斷地更新強化模型。沉淀出大量人機對話數(shù)據(jù)也會進一步進行做數(shù)據(jù)分析和挖掘，用于客戶洞察。

目前，我們打造的基于增強學習的對話管理模型，在訂會議室這種中等復雜規(guī)模的對話任務上，和用戶模擬器交互的對話完成率可達80%，如圖24所示。

圖 24. 小蜜Conversational AI團隊的對話管理模型框架和評價指標

總結

本綜述圍繞對話管理（Dialog Management, DM）模型的最新前沿研究做了一個詳細的介紹，針對傳統(tǒng)對話管理的痛點劃分了三個大的方向：

可拓展性差；
標注數(shù)據(jù)少；
訓練效率低。

在可拓展性方面，我們介紹了處理變化的用戶意圖、對話本體、系統(tǒng)動作空間的常用方法，主要有語義相似匹配方法、知識蒸餾方法和序列生成方法；對于標注數(shù)據(jù)稀缺問題，我們介紹了機器自動標注、對話結構有效挖掘和數(shù)據(jù)高效收集策略三部分內(nèi)容；而針對傳統(tǒng)DM中RL模型訓練效率低下的問題，學界有嘗試引入HRL、FRL等方法對動作空間進行層次劃分，也有利用model-based RL對環(huán)境進行建模提高訓練效率，將human-in-the-loop引入對話系統(tǒng)訓練框架亦是當下十分活躍的研究方向。最后我們對阿里巴巴-達摩院-小蜜Conversational AI團隊目前在DM模型化的進展做了一個比較詳細的匯報介紹，希望本綜述能為大家的對話管理研究提供一些啟發(fā)和思考。

參考資料:

[1].TURING A M. I.—COMPUTING MACHINERY AND INTELLIGENCE[J]. Mind, 1950, 59(236): 433-460.
[2].Weizenbaum J. ELIZA---a computer program for the study of natural language communication between man and machine[J]. Communications of the ACM, 1966, 9(1): 36-45.
[3].Young S, Ga?i? M, Thomson B, et al. Pomdp-based statistical spoken dialog systems: A review[J]. Proceedings of the IEEE, 2013, 101(5): 1160-1179.
[4].Bordes A, Boureau Y L, Weston J. Learning end-to-end goal-oriented dialog[J]. arXiv preprint arXiv:1605.07683, 2016.
[5].Wen T H, Vandyke D, Mrksic N, et al. A network-based end-to-end trainable task-oriented dialogue system[J]. arXiv preprint arXiv:1604.04562, 2016.
[6].Su P H, Budzianowski P, Ultes S, et al. Sample-efficient actor-critic reinforcement learning with supervised data for dialogue management[J]. arXiv preprint arXiv:1707.00130, 2017.
[7]. Serban I V, Sordoni A, Lowe R, et al. A hierarchical latent variable encoder-decoder model for generating dialogues[C]//Thirty-First AAAI Conference on Artificial Intelligence. 2017.
[8]. Berant J, Chou A, Frostig R, et al. Semantic parsing on freebase from question-answer pairs[C]//Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing. 2013: 1533-1544.
[9]. Dhingra B, Li L, Li X, et al. Towards end-to-end reinforcement learning of dialogue agents for information access[J]. arXiv preprint arXiv:1609.00777, 2016.
[10]. Lei W, Jin X, Kan M Y, et al. Sequicity: Simplifying task-oriented dialogue systems with single sequence-to-sequence architectures[C]//Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). 2018: 1437-1447.
[11]. Madotto A, Wu C S, Fung P. Mem2seq: Effectively incorporating knowledge bases into end-to-end task-oriented dialog systems[J]. arXiv preprint arXiv:1804.08217, 2018.
[12]. Mrk?i? N, Séaghdha D O, Wen T H, et al. Neural belief tracker: Data-driven dialogue state tracking[J]. arXiv preprint arXiv:1606.03777, 2016.
[13]. ?Ramadan O, Budzianowski P, Ga?i? M. Large-scale multi-domain belief tracking with knowledge sharing[J]. arXiv preprint arXiv:1807.06517, 2018.
[14]. Weisz G, Budzianowski P, Su P H, et al. Sample efficient deep reinforcement learning for dialogue systems with large action spaces[J]. IEEE/ACM Transactions on Audio, Speech and Language Processing (TASLP), 2018, 26(11): 2083-2097.
[15]. Wang W, Zhang J, Zhang H, et al. A Teacher-Student Framework for Maintainable Dialog Manager[C]//Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing. 2018: 3803-3812.
[16]. Yun-Nung Chen, Dilek Hakkani-Tur, and Xiaodong He, "Zero-Shot Learning of Intent Embeddings for Expansion by Convolutional Deep Structured Semantic Models," in Proceedings of The 41st IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP 2016), Shanghai, China, March 20-25, 2016. IEEE.
[17]. Rastogi A, Hakkani-Tür D, Heck L. Scalable multi-domain dialogue state tracking[C]//2017 IEEE Automatic Speech Recognition and Understanding Workshop (ASRU). IEEE, 2017: 561-568.
[18]. Mesnil G, He X, Deng L, et al. Investigation of recurrent-neural-network architectures and learning methods for spoken language understanding[C]//Interspeech. 2013: 3771-3775.
[19]. Bapna A, Tur G, Hakkani-Tur D, et al. Towards zero-shot frame semantic parsing for domain scaling[J]. arXiv preprint arXiv:1707.02363, 2017.
[20]. Wu C S, Madotto A, Hosseini-Asl E, et al. Transferable Multi-Domain State Generator for Task-Oriented Dialogue Systems[J]. arXiv preprint arXiv:1905.08743, 2019.
[21]. He J, Chen J, He X, et al. Deep reinforcement learning with a natural language action space[J]. arXiv preprint arXiv:1511.04636, 2015.
[22]. Wang W, Zhang J, Li Q, et al. Incremental Learning from Scratch for Task-Oriented Dialogue Systems[J].
arXiv preprint arXiv:1906.04991, 2019.
[23]. Shi C, Chen Q, Sha L, et al.
Auto-Dialabel: Labeling Dialogue Data with Unsupervised Learning[C]//Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing. 2018: 684-689.
[24]. Haponchyk I, Uva A, Yu S, et al. Supervised clustering of questions into intents for dialog system applications[C]//Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing. 2018: 2310-2321.
[25]. Shi W, Zhao T, Yu Z. Unsupervised Dialog Structure Learning[J]. arXiv preprint arXiv:1904.03736, 2019.
[26]. Zhao T, Xie K, Eskenazi M. Rethinking action spaces for reinforcement learning in end-to-end dialog agents with latent variable models[J]. arXiv preprint arXiv:1902.08858, 2019.
[27]. Shah P, Hakkani-Tur D, Liu B, et al. Bootstrapping a neural conversational agent with dialogue self-play, crowdsourcing and on-line reinforcement learning[C]//Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 3 (Industry Papers). 2018: 41-51.
[28]. Budzianowski P, Wen T H, Tseng B H, et al. Multiwoz-a large-scale multi-domain wizard-of-oz dataset for task-oriented dialogue modelling[J]. arXiv preprint arXiv:1810.00278, 2018.
[29]. Peng B, Li X, Li L, et al. Composite task-completion dialogue policy learning via hierarchical deep reinforcement learning[J]. arXiv preprint arXiv:1704.03084, 2017.
[30]. Kristianto G Y, Zhang H, Tong B, et al. Autonomous Sub-domain Modeling for Dialogue Policy with Hierarchical Deep Reinforcement Learning[C]//Proceedings of the 2018 EMNLP Workshop SCAI: The 2nd International Workshop on Search-Oriented Conversational AI. 2018: 9-16.
[31]. Tang D, Li X, Gao J, et al. Subgoal discovery for hierarchical dialogue policy learning[J]. arXiv preprint arXiv:1804.07855, 2018.
[32]. Casanueva I, Budzianowski P, Su P H, et al. Feudal reinforcement learning for dialogue management in large domains[J]. arXiv preprint arXiv:1803.03232, 2018.
[33]. Peng B, Li X, Gao J, et al. Deep dyna-q: Integrating planning for task-completion dialogue policy learning[J]. ACL 2018.
[34]. Su S Y, Li X, Gao J, et al. Discriminative deep dyna-q: Robust planning for dialogue policy learning.EMNLP, 2018.
[35]. Wu Y, Li X, Liu J, et al. Switch-based active deep dyna-q: Efficient adaptive planning for task-completion dialogue policy learning.AAAI, 2019.
[36]. Zhang Z, Li X, Gao J, et al. Budgeted Policy Learning for Task-Oriented Dialogue Systems. ACL, 2019.
[37]. Abel D, Salvatier J, Stuhlmüller A, et al. Agent-agnostic human-in-the-loop reinforcement learning[J]. arXiv preprint arXiv:1701.04079, 2017.
[38]. Liu B, Tur G, Hakkani-Tur D, et al. Dialogue learning with human teaching and feedback in end-to-end trainable task-oriented dialogue systems[J]. arXiv preprint arXiv:1804.06512, 2018.
[39]. Lu Y, Srivastava M, Kramer J, et al. Goal-Oriented End-to-End Conversational Models with Profile Features in a Real-World Setting[C]//Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 2 (Industry Papers). 2019: 48-55.
[40]. Chen L, Zhou X, Chang C, et al. Agent-aware dropout dqn for safe and efficient on-line dialogue policy learning[C]//Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing. 2017: 2454-2464.
[41]. Gao J, Galley M, Li L. Neural approaches to conversational AI[J]. Foundations and Trends? in Information Retrieval, 2019, 13(2-3): 127-298.
[42]. Ross S, Gordon G, Bagnell D. A reduction of imitation learning and structured prediction to no-regret online learning[C]//Proceedings of the fourteenth international conference on artificial intelligence and statistics. 2011: 627-635.
[43]. Rajendran J, Ganhotra J, Polymenakos L C. Learning End-to-End Goal-Oriented Dialog with Maximal User Task Success and Minimal Human Agent Use[J]. Transactions of the Association for Computational Linguistics, 2019, 7: 375-386.
[44]. Mrk?i? N, Vuli? I. Fully Statistical Neural Belief Tracking[C]//Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers). 2018: 108-113.
[45]. Zhou L, Small K. Multi-domain Dialogue State Tracking as Dynamic Knowledge Graph Enhanced Question Answering[J]. arXiv preprint arXiv:1911.06192, 2019.
[46]. Rajpurkar P, Jia R, Liang P. Know What You Don't Know: Unanswerable Questions for SQuAD[J]. arXiv preprint arXiv:1806.03822, 2018.
[47]. Zhang J G, Hashimoto K, Wu C S, et al. Find or Classify? Dual Strategy for Slot-Value Predictions on Multi-Domain Dialog State Tracking[J]. arXiv preprint arXiv:1910.03544, 2019.

總結

以上是生活随笔為你收集整理的什么是人机对话模型？阿里小蜜团队写了1.5万字的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇：揭秘！疫情下的阿里员工如何上班？
下一篇：非看不可！飞猪技术专家教你在家高效办公！

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

什么是人机对话模型？阿里小蜜团队写了1.5万字

對話管理模型背景

對話管理模型研究前沿介紹

小蜜Conversational AI團隊的對話管理框架

總結

總結