日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 >

什么是人机对话模型?阿里小蜜团队写了1.5万字

發(fā)布時間:2024/9/3 45 豆豆
生活随笔 收集整理的這篇文章主要介紹了 什么是人机对话模型?阿里小蜜团队写了1.5万字 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

簡介:?從人工智能研究的初期開始,人們就致力于開發(fā)高度智能化的人機對話系統(tǒng)。對話管理模型研究最新進展源于前沿的深度的研究……

作者: 戴音培1、虞暉華2、蔣溢軒2、唐呈光1、李永彬1、孫健1 單位: 阿里巴巴-達摩院-小蜜Conversational AI團隊1,康奈爾大學2

?

對話管理模型背景

從人工智能研究的初期開始,人們就致力于開發(fā)高度智能化的人機對話系統(tǒng)。艾倫·圖靈(Alan Turing)在1950年提出圖靈測試[1],認為如果人類無法區(qū)分和他對話交談的是機器還是人類,那么就可以說機器通過了圖靈測試,擁有高度的智能。第一代對話系統(tǒng)主要是基于規(guī)則的對話系統(tǒng),例如1966年MIT開發(fā)的ELIZA系統(tǒng)[2]是一個利用模版匹配方法的心理醫(yī)療聊天機器人,再如1970年代開始流行的基于流程圖的對話系統(tǒng),采用有限狀態(tài)自動機模型建模對話流中的狀態(tài)轉(zhuǎn)移。它們的優(yōu)點是內(nèi)部邏輯透明,易于分析調(diào)試,但是高度依賴專家的人工干預,靈活性和可拓展性很差。

隨著大數(shù)據(jù)技術的興起,出現(xiàn)了基于統(tǒng)計學方法的數(shù)據(jù)驅(qū)動的第二代對話系統(tǒng)(以下簡稱統(tǒng)計對話系統(tǒng))。在這個階段,增強學習也開始被廣泛研究運用,其中最具代表性的是劍橋大學Steve Young教授于2005年提出的基于部分可見馬爾可夫決策過程(Partially Observable Markov Decision Process , POMDP)的統(tǒng)計對話系統(tǒng)[3]。該系統(tǒng)在魯棒性上顯著地優(yōu)于基于規(guī)則的對話系統(tǒng),它通過對觀測到的語音識別結果進行貝葉斯推斷,維護每輪對話狀態(tài),再根據(jù)對話狀態(tài)進行對話策略的選擇,從而生成自然語言回復。POMDP-based 對話系統(tǒng)采用了增強學習的框架,通過不斷和用戶模擬器或者真實用戶進行交互試錯,得到獎勵得分來優(yōu)化對話策略。統(tǒng)計對話系統(tǒng)是一個模塊化系統(tǒng),它避免了對專家的高度依賴,但是缺點是模型難以維護,可拓展性也比較受限。

近些年,伴隨著深度學習在圖像、語音及文本領域的重大突破,出現(xiàn)了以運用深度學習為主要方法的第三代對話系統(tǒng),該系統(tǒng)依然延續(xù)了統(tǒng)計對話系統(tǒng)的框架,但各個模塊都采用了神經(jīng)網(wǎng)絡模型。由于神經(jīng)網(wǎng)絡模型表征能力強,語言分類或生成的能力大幅提高,因此一個重要的變化趨勢是自然語言理解的模型從之前的產(chǎn)生式模型(如貝葉斯網(wǎng)絡)演變成為深度鑒別式模型(如CNN、DNN、RNN)[5],對話狀態(tài)的獲取不再是利用貝葉斯后驗判決得到,而是直接計算最大條件概率。在對話策略的優(yōu)化上大家也開始采用深度增強學習模型[6]。另一方面,由于端到端序列到序列技術在機器翻譯任務上的成功,使得設計端到端對話系統(tǒng)成為可能,Facebook研究者提出了基于記憶網(wǎng)絡的任務對話系統(tǒng)[4],為研究第三代對話系統(tǒng)中的端到端任務導向型對話系統(tǒng)提出了新的方向。總的來說,第三代對話系統(tǒng)效果優(yōu)于第二代系統(tǒng),但是需要大量帶標注數(shù)據(jù)才能進行有效訓練,因此提升模型的跨領域的遷移拓展能力成為熱門的研究方向。

常見的對話系統(tǒng)可分為三類: 聊天型,任務導向型和問答型。

聊天型對話 的目標是要產(chǎn)生有趣且富有信息量的自然回復使得人機對話可以持續(xù)進行下去[7]。
問答型對話 多指一問一答,用戶提出一個問題,系統(tǒng)通過對問題進行解析和知識庫查找以返回正確答案[8]。
任務導向型對話 (以下簡稱任務型對話)則是指由任務驅(qū)動的多輪對話,機器需要通過理解、主動詢問、澄清等方式來確定用戶的目標,調(diào)用相應的API查詢后,返回正確結果,完成用戶需求。通常,任務型對話可以被理解為一個序列決策過程,機器需要在對話過程中,通過理解用戶語句更新維護內(nèi)部的對話狀態(tài),再根據(jù)當前的對話狀態(tài)選擇下一步的最優(yōu)動作(例如確認需求,詢問限制條件,提供結果等等),從而完成任務。

任務型對話系統(tǒng)從結構上可分成兩類,一類是 pipeline系統(tǒng),采用模塊化結構[5](如圖 1),一般包括四個關鍵模塊:

自然語言理解(Natural Language Understanding, NLU):對用戶的文本輸入進行識別解析,得到槽值和意圖等計算機可理解的語義標簽。
對話狀態(tài)跟蹤(Dialog State Tracking, DST):根據(jù)對話歷史,維護當前對話狀態(tài),對話狀態(tài)是對整個對話歷史的累積語義表示,一般就是槽值對(slot-value pairs)。
對話策略(Dialog Policy):根據(jù)當前對話狀態(tài)輸出下一步系統(tǒng)動作。一般對話狀態(tài)跟蹤模塊和對話策略模塊統(tǒng)稱為對話管理模塊(Dialog manager, DM)。
自然語言生成(Natural Language Generation, NLG):將系統(tǒng)動作轉(zhuǎn)換成自然語言輸出。

這種模塊化的系統(tǒng)結構的可解釋性強,易于落地,大部分業(yè)界的實用性任務型對話系統(tǒng)都采用的此結構。但是其缺點是不夠靈活,各個模塊之間相對獨立,難以聯(lián)合調(diào)優(yōu),適應變化的應用場景。并且由于模塊之間的誤差會層層累積,單一模塊的升級也可能需要整個系統(tǒng)一起調(diào)整。

圖 1. 任務導向型對話系統(tǒng)的模塊化結構[41]

任務型對話系統(tǒng)的另一種實現(xiàn)是端到端系統(tǒng),也是近年來學界比較熱門的方向9[11](如圖 2),這類結構希望訓練一個從用戶端自然語言輸入到機器端自然語言輸出的整體映射關系,具有靈活性強、可拓展性高的特點,減少了設計過程中的人工成本,打破了傳統(tǒng)模塊之間的隔離。然而,端到端模型對數(shù)據(jù)的數(shù)量和質(zhì)量要求很高,并且對于填槽、API調(diào)用等過程的建模不夠明確,現(xiàn)階段業(yè)界應用效果有限,仍處在探索中。

圖 2. 任務導向型對話系統(tǒng)的端到端結構[41]

隨著用戶對產(chǎn)品體驗的要求逐漸提高,實際對話場景更加復雜,對話管理模塊也需要更多的改進和創(chuàng)新。傳統(tǒng)的對話管理模型通常是建立在一個明確的話術體系內(nèi)(即先查找再問詢最后結束),一般會預定義好系統(tǒng)動作空間、用戶意圖空間和對話本體,但是實際中用戶的行為變化難測,系統(tǒng)的應答能力十分有限,這就會導致傳統(tǒng)對話系統(tǒng)可拓性差的問題(難以處理預定義之外的情況)。另外,在很多的真實業(yè)界場景,存在大量的冷啟動問題,缺少足量的標注對話數(shù)據(jù),數(shù)據(jù)的清洗標注成本代價高昂。而在模型訓練上,基于深度增強學習的對話管理模型一般都需要大量的數(shù)據(jù),大部分論文的實驗都表明,訓練好一個對話模型通常需要幾百個完整的對話session,這樣低下的訓練效率阻礙了實際中對話系統(tǒng)的快速開發(fā)和迭代。

綜上,針對傳統(tǒng)對話管理模型的諸多局限,近幾年學界和業(yè)界的研究者們都開始將焦點放在如何加強對話管理模型的實用性上,具體來說有三大問題:

可拓展性差
標注數(shù)據(jù)少
訓練效率低

我們將按照這三個方向,為大家介紹近期最新的研究成果。

對話管理模型研究前沿介紹

對話管理模型痛點一:可拓展性差

如前文所述,對話管理器由兩部分組成:對話狀態(tài)跟蹤器(DST)和對話策略(dialog policy)。傳統(tǒng)的DST研究中,最具代表的是劍橋大學的學者們在2017年提出的神經(jīng)信度跟蹤模型(neural belief tracker, NBT)[12],利用神經(jīng)網(wǎng)絡來解決單領域復雜對話的對話狀態(tài)跟蹤問題。NBT 通過表征學習(representation learning)來編碼上輪系統(tǒng)動作、本輪用戶語句和候選槽值對,在高維空間中計算語義的相似性,從而檢測出本輪用戶提到的槽值。因此NBT可以不依賴于人工構建語義詞典,只需借助槽值對的詞向量表示就能識別出訓練集未見但語義上相似的槽值,實現(xiàn)槽值的可拓展。后續(xù)地,劍橋?qū)W者們對NBT進一步改進13,將輸入的槽值對改成領域-槽-值三元組,每輪識別的結果采用模型學習而非人工規(guī)則的方法進行累積,所有數(shù)據(jù)采用同一個模型訓練,從而實現(xiàn)不同領域間的知識共享,模型的總參數(shù)也不隨領域數(shù)目的增加而增加。在傳統(tǒng)的Dialogue Policy研究領域中,最具代表性的是劍橋?qū)W者們6提出的基于ACER方法的策略優(yōu)化。

通過結合 Experience replay 技巧,作者分別嘗試了trust region actor-critic 模型和episodic natural actor-critic 模型,驗證了AC系列的深度增強學習算法在樣本利用效率、算法收斂性和對話成功率上都達到了當時最好的表現(xiàn)。

然而傳統(tǒng)的對話管理模型在可拓展性方面仍需改進,具體在三個方面:

如何處理變化的用戶意圖,
如何變化的槽位和槽值,
如何處理變化的系統(tǒng)動作。

變化的用戶意圖

在實際應用場景中,時常會出現(xiàn)由于用戶意圖未被考慮到,使得對話系統(tǒng)給出不合理回答的情況。如圖 3所示的例子,用戶的“confirm”意圖未被考慮,這時就需要加入新的話術來幫助系統(tǒng)處理這樣的情況。

圖 3. 出現(xiàn)新意圖的對話實例[15]

一旦出現(xiàn)訓練集未見的新用戶意圖時,傳統(tǒng)模型由于輸出的是表示舊意圖類別的固定one-hot向量,若要包含新的意圖類別,向量就需要進行改變,對應的新模型也需要進行完全的重訓練,這種情況會降低模型的可維護性和可拓展性。論文[15]提出了一種“老師-學生”的學習框架來緩解這一問題,他們將舊模型和針對新用戶意圖的邏輯規(guī)則作為“老師”,新模型作為“學生”,構成一個“老師-學生”訓練架構。該架構使用了知識蒸餾技術,具體做法是:對于舊的意圖集合,舊模型的概率輸出直接指導訓練新模型;對于新增的意圖,對應的邏輯規(guī)則作為新的標注數(shù)據(jù)來訓練新模型。這樣就使得在新模型不再需要與環(huán)境進行新的交互重新訓練了。論文在DSTC2數(shù)據(jù)集上進行實驗,首先選擇故意去掉 confirm 這個意圖,然后再將它作為新意圖加入對話本體中,依次驗證新模型是否具有很好的適應能力。圖 4 是實驗結果,論文新模型(即Extended System)、直接在包含所有意圖的數(shù)據(jù)訓練的模型(即 Contrast System)和舊模型進行比較,實驗證明新模型對新意圖的識別正確率在不同噪聲情況下都不錯的擴展識別新意圖的能力。

圖 4. 不同噪聲設置下各種模型的比較

當然這種架構仍然需要對系統(tǒng)進行一定的訓練,[16] 提出一種語義相似性匹配的模型CDSSM能夠在不依賴于標注數(shù)據(jù)以及模型重新訓練的前提下,解決用戶意圖拓展的問題。CDSSM先利用訓練集數(shù)據(jù)中用戶意圖的自然描述直接學習出一個意圖向量(intent embedding)的編碼器,將任意意圖的描述嵌入到一個高維語義空間中,這樣在測試時模型可以直接根據(jù)新意圖的自然描述生成對應的意圖向量,進而再做意圖識別。在后面的內(nèi)容我們可以看到,有很多提高可拓展性的模型均采用了類似的思想,將標簽從模型的輸出端移到輸入端,利用神經(jīng)網(wǎng)絡對標簽 (標簽命名本身或者標簽的自然描述) 進行語義編碼得到某種語義向量再進行語義相似性的匹配。

[43]則給出了另外一種思路,它通過人機協(xié)同的方式,將人工客服的角色引入到系統(tǒng)線上運行的階段來解決訓練集未見的用戶意圖的問題。模型利用一個額外的神經(jīng)判決器根據(jù)當前模型提取出來的對話狀態(tài)向量來判斷是否請求人工,如果請求則將當前對話分發(fā)給線上人工客服來回答,如果不請求則由模型自身進行預測。由于通過數(shù)據(jù)學習出的判決器有能力對當前對話是否包含新意圖作一定的判斷,同時人工的回復默認是正確的,這種人機協(xié)同的方式十分巧妙地解決了線上測試出現(xiàn)未見用戶行為的問題,并可以保持比較高對話準確率。

變化的槽位和槽值

在多領域或復雜領域的對話狀態(tài)跟蹤問題中,如何處理槽位與槽值的變化一直是一個難題。對于有的槽位而言,槽值可能是不可枚舉 的,例如,時間、地點和人名,甚至槽值集合是動態(tài)變化的,例如航班、電影院上映的電影。在傳統(tǒng)的對話狀態(tài)跟蹤問題中,通常默認槽位和槽值的集合固定不變,這樣就大大降低了系統(tǒng)的可拓展性。

針對槽值不可枚舉的問題,谷歌研究者[17]提出了一個候選集(candidate set)的思路。對每個槽位,都維護一個有總量上限的候選集,它包含了對話截止目前最多k個可能的槽值,并賦于每個槽值一個分數(shù)以表示用戶在當前對話中對該槽值的偏好程度。系統(tǒng)先利用雙向RNN模型找出本輪用戶語句包含的中某個槽位的槽值,再將它和候選集中已有的槽值進行重新打分排序,這樣每輪的DST就只需在一個有限的槽值集合上進行判決,從而解決不可枚舉槽值的跟蹤問題。針對未見槽值的跟蹤問題,一般可以采用序列標注的模型[18],或者選擇神經(jīng)信度跟蹤器[12]這樣的語義相似匹配模型。

以上是槽值不固定的情況,如果對話本體中槽位也變化呢?論文[19]采用了槽位描述編碼器(slot description encoder),對任何槽(已見的、未見的)的自然語言描述進行編碼,得到表示該槽的語義向量,和用戶語句一起作為輸入送入Bi-LSTM模型中,采用序列標注的方式輸出識別到的槽值,見圖 5。該論文做了一個可接受的假設,即任何槽的自然語言描述是很容易得到的,因此設計了一個在多個領域具有普適性的概念標注器(Concept Tagger)結構,槽描述編碼器的實現(xiàn)是簡單的詞向量之和。實驗表明,該模型能迅速適應新的槽位,相較于傳統(tǒng)方法,該方法的可拓展性有很大的提升。

圖 5. 概念標注器結構

隨著近幾年序列到序列技術的發(fā)展,直接利用端到端神經(jīng)網(wǎng)絡模型將DST的結果作為一個序列生成出來也是一個很熱門的方向,常見的技巧如注意力機制(attention mechanism)、拷貝機制(copy mechanism)均可以用來提高生成效果。在著名的多領域?qū)υ扢ultiWOZ數(shù)據(jù)集上,來自港科大的Pascale Fung 教授團隊利用了拷貝網(wǎng)絡,顯著提高了不可枚舉槽的識別精度 [20]。他們提出的TRADE 模型如圖 6所示,每次檢測槽值時,模型會將領域和槽位的不同結合進行語義編碼作為RNN解碼器的初始位置輸入,解碼器通過拷貝網(wǎng)絡,直接將對應的槽值生成出來。通過生成的方式,無論是不可枚舉的槽值,還是變化的槽位的槽值,都能使用同一個模型完成,這可以做到領域間槽值信息的共享,也大大地提高了模型的泛化能力。

圖 6. TRADE模型框架

最近一個明顯的趨勢是將多領域DST看作一個機器閱讀理解的任務,將TRADE這種生成式模型改進成鑒別式模型45。不可枚舉槽的追蹤利用類似SQuAD的機器閱讀理解任務[46],從對話歷史和提問中找到對應的 text span作為槽值,而可枚舉槽的追蹤則轉(zhuǎn)化成一個多項選擇的機器閱讀理解任務,從候選值中選擇正確的值作為預測出的槽值。通過結合ELMO,BERT等深度上下文詞表示,這些新提出的模型最終在MultiWOZ數(shù)據(jù)集上取得目前最好結果。

變化的系統(tǒng)動作

可拓展性問題的最后一個方面在于系統(tǒng)動作空間難以預定義。如圖 7所示,在設計一個電子產(chǎn)品推薦系統(tǒng)時,也許一開始并不會考慮到用戶會問到如何升級產(chǎn)品操作系統(tǒng)這樣的問題,但現(xiàn)實的情況是你無法限定用戶只問系統(tǒng)能解決的問題。如果系統(tǒng)動作空間事先框定,在用戶提出新問題時就會導致一連串的答非所問,導致極差的用戶體驗。

圖 7. 對話系統(tǒng)遇到未考慮的系統(tǒng)動作時的對話案例[22]

對此,我們需要考慮的是,如何設計更好的對話策略網(wǎng)絡,使得系統(tǒng)能夠快速的擴展新的動作。首先的嘗試來自微軟[21],他們試圖通過改變經(jīng)典的DQN結構來實現(xiàn)系統(tǒng)在不受限動作空間上的增強學習。論文的對話任務是一個文字游戲闖關任務,每輪的動作是一句話,動作數(shù)目不定,選擇不同的動作故事情節(jié)就會有不同的發(fā)展。作者提出了新的模型Deep Reinforcement Relevance Network (DRRN),通過語義相似性匹配的方式將當前的對話狀態(tài)和各個可選的系統(tǒng)動作一一匹配得到Q函數(shù)。具體來看:某輪對話時,每個長度不定的動作文本會經(jīng)過神經(jīng)網(wǎng)絡編碼得到固定長度的系統(tǒng)動作向量,故事背景文本經(jīng)過另一個神經(jīng)網(wǎng)絡也得到固定長度的的對話狀態(tài)向量,兩個向量通過交互函數(shù)(如點積)生成最后的Q值。圖 8是論文設計模型結構。實驗表明,在“Saving John”和“Machine of Death”兩個文字游戲上DRRN比傳統(tǒng)DQN(使用padding技巧)的表現(xiàn)更加優(yōu)異。

圖 8. DRRN模型。t輪有兩個候選動作,t+1輪有三個候選動作。

論文[22]則希望從對話系統(tǒng)整體的角度來解決這個問題,作者提出了增量學習對話系統(tǒng)(Incremental Dialogue System, IDS),如圖 9所示。首先系統(tǒng)通過Dialogue Embedding 模塊對對話歷史編碼得到上下文向量,再利用一個基于VAE的Uncertainty Estimation模塊根據(jù)上下文向量對當前系統(tǒng)能否給出正確回答進行一個置信度的評估。類似于主動學習的方式,若置信度高于閾值,則由對話管理器對當前所有可選動作一一打分,經(jīng)過softmax函數(shù)預測出概率分布,若置信度低于閾值,則請求標注人員對本輪的回復進行標注(選擇正確回復或創(chuàng)建新的回復),得到了新數(shù)據(jù)并入數(shù)據(jù)池里一起在線更新模型。通過這種人類教學(human-teaching)的方式,IDS系統(tǒng)不僅解決了不受限動作空間的學習問題,還可以快速地收集高質(zhì)量的數(shù)據(jù),十分貼近實際生產(chǎn)應用。

圖 9. IDS的對話系統(tǒng)整體框架圖

對話管理模型痛點二:標注數(shù)據(jù)少

隨著對話系統(tǒng)應用領域的多樣化,對數(shù)據(jù)的需求也更加多樣化,若想訓好一個任務型對話系統(tǒng),通常都需要盡可能多的該領域的數(shù)據(jù),但一般來說,想要獲取高質(zhì)量的有標注數(shù)據(jù)的成本很高。為此學者們進行了各種研究嘗試,主要可分為三種思路:

用機器自動標注數(shù)據(jù),降低數(shù)據(jù)標注的成本;
對話結構挖掘,盡可能高效利用無標注數(shù)據(jù);
加強數(shù)據(jù)采集策略,高效獲取優(yōu)質(zhì)的數(shù)據(jù)。

機器自動標注

由于人工標注數(shù)據(jù)的代價大、效率低,學者們希望通過機器輔助人工來標注數(shù)據(jù),方法大致可分為兩大類:有監(jiān)督方法和無監(jiān)督方法。論文[23]提出一種架構auto-dialabel,用層次聚類的無監(jiān)督學習方法將對話數(shù)據(jù)中的意圖和槽位自動分組,從而實現(xiàn)對話數(shù)據(jù)的自動標注(類別的具體標簽需要人工來定)。該方法是基于一個假設:相同意圖的表達可能會共享相似的背景特征。模型提取的初始特征包括詞向量、POS 標注、名詞詞簇和LDA 四種特征。各個特征經(jīng)由自編碼器轉(zhuǎn)成相同維度的向量后進行拼接,再采用RBF(radial bias function)函數(shù)計算類間距離進行動態(tài)的層次聚類。距離最近的類將會自動合并,直到類間距離大于預設的閾值停止。模型框架如圖 10所示。

圖 10. Auto-dialabel 模型

論文[24]則采用有監(jiān)督聚類的方法來實現(xiàn)機器標注。作者將每條對話數(shù)據(jù)看作是一個個圖節(jié)點,將聚類的過程看作是找出最小生成森林的過程。模型首先采用SVM在問答數(shù)據(jù)集上有監(jiān)督訓練出節(jié)點和節(jié)點之間的距離得分模型,再結合結構化模型和最小子樹生成算法來將對話數(shù)據(jù)對應的類別信息作為隱變量推斷出來,從而輸出最佳的聚類結構表示用戶意圖類別。

對話結構挖掘

由于訓練對話系統(tǒng)的高質(zhì)量帶標注數(shù)據(jù)稀缺,如何充分地挖掘無標注對話數(shù)據(jù)中隱含的對話結構或信息也成為了當今的研究熱點之一,隱含的對話結構或信息在一定程度上有助于對話策略的設計和對話模型的訓練。

論文[25]提出了一種用變分循環(huán)神經(jīng)網(wǎng)絡(variational RNN, VRNN)的無監(jiān)督方法自動學習對話數(shù)據(jù)中的隱藏結構。作者給出兩種模型來獲取對話中的動態(tài)信息:Discrete-VRNN和Direct-Discrete-VRNN。如圖 11所示,x_t是第t輪對話,h_t表示對話歷史隱變量,z_t表示對話結構隱變量(一維one-hot離散變量)。兩種模型的差別在于:對于D-VRNN,隱變量z_t取決于h_(t-1);而對于DD-VRNN,隱變量z_t取決于z_(t-1)。VRNN通過最大整個對話的似然值,利用VAE的一些常用技巧,估計出隱變量z_t的后驗概率分布。

圖 11. Discrete-VRNN(D-VRNN)與Direct-Discrete-VRNN(DD-VRNN)的示意圖

論文實驗表明VRNN 要優(yōu)于傳統(tǒng)的HMM的方法,同時將對話結構的信息加入到獎勵函數(shù)中,也有助于增強學習模型更快地收斂。圖 12 是經(jīng)過D-VRNN 挖掘出的餐館領域的隱變量z_t轉(zhuǎn)移概率的可視化圖。

圖 12. D-VRNN 對餐館領域的對話數(shù)據(jù)挖掘出的對話流結構

CMU學者[26]也嘗試利用VAE的方法,將系統(tǒng)動作作為隱變量推斷出來直接用于對話策略的選擇,這樣就能減輕預定義系統(tǒng)動作不夠全面帶來的問題。如圖 13所示,為了簡便起見,論文采用端到端的對話系統(tǒng)框架,基線模型是字級別的增強學習模型(即對話動作是詞表中的詞),通過encoder將對話歷史編碼,再利用decoder解碼生成對話回復,獎勵函數(shù)直接通過比對生成的對話回復語句和真實對話回復語句得到。作者提出的隱動作模型和基線模型的區(qū)別是encoder到decoder之間多了離散隱變量的后驗推理,對話動作由離散隱變量表示,沒有任何人為的干預定義。最終實驗證明,基于隱動作的端到端增強學習模型在語句生成的多樣性和任務完成率上均超過了基線模型。

圖 13. 基線模型和隱動作模型

數(shù)據(jù)采集策略

最近,谷歌研究者們提出了一種快速收集對話數(shù)據(jù)的方法[27](見圖 14):首先利用兩個基于規(guī)則的模擬器交互生成對話的outline,即用語義標簽表示的對話流骨架;然后利用模板將語義標簽轉(zhuǎn)寫為自然語言對話;最后利用眾包對自然語句進行改寫,使得對話數(shù)據(jù)的語言表達更加豐富多樣。這種反向收集數(shù)據(jù)方法不僅收集效率高,而且數(shù)據(jù)標注完整、可用性強,避免了收集領域數(shù)據(jù)的成本花費和大量的人工處理。

圖 14. 對話outline,模板生成對話以及眾包重寫對話的示例

上述方法屬于機器-機器(machine-to-machine, M2M)的數(shù)據(jù)收集策略:先生成覆蓋面廣的對話數(shù)據(jù)語義標簽,再眾包生成大量對話語料。其缺點在于,生成的對話相對局限,不能涵蓋真實場景的所有可能性,并且效果依賴于模擬器的好壞。
學界還有另外兩種常用于對話系統(tǒng)數(shù)據(jù)收集的方法:人-機對話(human-to-machine,H2M)和人-人對話(human-to-human, H2H)。H2H 方法要求用戶(由眾包人員扮演)和客服(由另一眾包人員扮演)進行多輪對話,用戶負責基于某些指定的對話目標(例如買機票)提需求,客服負責標注對話標簽和創(chuàng)建對話回復。這種模式被稱為 Wizard-of-Oz 框架,對話研究的諸多數(shù)據(jù)集如 WOZ[5], MultiWOZ[28]均采用此方式收集。H2H 方法可以得到最貼近實際業(yè)務場景的對話數(shù)據(jù),但是需要為了不同的任務需要設計不一樣的互動界面,而且需要耗費大量人力清理錯誤的標注,成本相當昂貴。H2M 的數(shù)據(jù)收集策略則是讓用戶和訓練到一定程度的機器直接進行對話在線收集數(shù)據(jù),并且利用增強學習不斷改進對話管理模型,著名的 DSTC2&3 數(shù)據(jù)集就是通過這種方法收集得到。H2M 方法的效果總體比較依賴于對話管理模型的初始效果,并且在線收集的數(shù)據(jù)噪聲較大,清理成本也會較高,影響模型優(yōu)化的效率。

對話管理模型痛點三:訓練效率低

隨著深度增強學習在游戲圍棋領域的大獲成功,該方法在任務導向型對話領域也有廣泛應用。例如論文[6]的ACER對話管理方法,使用了model-free 深度增強學習,通過結合Experience Replay、信度域約束、預訓練等技巧,大大提高了增強學習算法在任務型對話領域的訓練效率和穩(wěn)定性。

然而,簡單地套用增強學習算法并不能滿足對話系統(tǒng)的實際應用。這主要是因為對話領域不像游戲圍棋那樣有清晰的規(guī)則、獎勵函數(shù),動作空間簡單明確,還有完美的環(huán)境模擬器可以生成數(shù)以億計的高質(zhì)量交互數(shù)據(jù)。對話任務中,一般包括了多樣變化的槽位槽值和動作意圖,這使得對話系統(tǒng)的動作空間急劇增大且難以預定義。傳統(tǒng)扁平的增強學習(flat reinforcement learning)方法由于對所有的系統(tǒng)動作進行one-hot編碼,會存在維度災難,因此不再適用于處理動作空間非常大的復雜對話問題,為此學者們進行了諸多研究嘗試,包括model-free RL、model-based RL和human-in-the-loop三個方向。

Model-free 增強學習–分層增強學習

分層增強學習(Hierarchical Reinforcement Learning, HRL)基于“分而治之”的理念,將復雜任務分解成多個子任務(sub-task),解決了傳統(tǒng)扁平的增強學習的維度災難。論文[29]首次將分層增強學習(HRL)應用到任務導向型對話領域,作者利用專家知識把復雜的對話任務在時序維度上拆分成多個子任務,例如一個復雜的旅行問題可以分解為訂機票、訂酒店、租車等子問題。根據(jù)這個拆分,他們設計了兩個層次的對話策略網(wǎng)絡,一個層次負責選擇和安排所有的子任務,另一個層次負責具體子任務的執(zhí)行。

他們提出的對話管理模型(如圖 15 所示)包括:

頂層策略(top-level policy),用于根據(jù)對話狀態(tài)選擇子任務;
底層策略(low-level policy),用于完成子任務的具體的某個對話動作;
全局對話狀態(tài)追蹤,記錄整體對話狀態(tài)。整個對話任務完成之后,頂層策略會收到外部獎勵(external reward)。

除此以外,模型還新增了內(nèi)部評定模塊(internal critic),用于根據(jù)對話狀態(tài)估計子任務完成的可能性(子任務的填槽程度),底層策略會根據(jù)子任務完成程度收到內(nèi)部評定模塊的一個內(nèi)部獎勵(intrinsic reward)。

圖 15. 任務型對話系統(tǒng)的分層增強學習框架

面對復雜的對話問題,傳統(tǒng)的增強學習的每一步?jīng)Q策都在選擇基本系統(tǒng)動作,比如詢問槽值或者確認約束,而分層增強學習的先通過頂層策略選擇一大類基本動作的集合,再通過底層策略選擇當前集合的基本動作,流程如圖 16所示。這種對動作空間的層次劃分,能夠考慮到不同子任務之間的時序約束關系,有助于完成復合對話任務(composite task)。并且論文通過加入內(nèi)部獎勵的方式,有效緩解了獎勵稀疏的問題,加快了增強學習的訓練,也在一定程度上避免了對話在不同子任務之間頻繁切換,提高了動作預測準確率。當然動作的分層設計比較依賴專家知識,需要通過專家來確定子任務的種類,近期相應地出現(xiàn)了一些對話子任務自動發(fā)現(xiàn)的工作30,通過無監(jiān)督的方法,對整個對話歷史的對話狀態(tài)序列進行自動切分,從而避免人工構建對話子任務結構。

圖 16. 分層增強學習的策略選擇流程示意圖

Model-free 增強學習–封疆增強學習!

封疆增強學習(Feudal Reinforcement Learning, FRL)是另一種適用于大維度問題的增強學習方法。分層增強學習是把對話策略按照時間維度上的不同任務階段劃分成子策略,從而降低策略學習的復雜度;而封疆增強學習(FRL)是在空間維度上把策略進行劃分,限制子策略負責的動作范圍,劃分了“管轄疆域”,從而降低子策略的復雜度。封疆增強學習(FRL)不劃分子任務,而是應用了狀態(tài)空間的抽象化函數(shù),從對話狀態(tài)中提取有用的特征。這種抽象化有利于封疆增強學習(FRL)在大型問題中的應用以及在不同領域之間的遷移,具有較強的擴展性。

劍橋?qū)W者們首次將封疆增強學習[32]運用到任務導向?qū)υ捪到y(tǒng)領域,將動作空間按照是否和槽位相關來進行劃分,這樣只利用了動作空間的自然結構而不需要額外的專家知識。他們提出了如圖 17所示的封疆策略結構,該結構的決策過程分兩步:

決定下一步動作是否需要槽位作為參數(shù);
根據(jù)第一步的決策,以及對應的不同槽位采用不同的底層策略選擇下一步動作。

圖 17. 封疆增強學習在任務導向型對話系統(tǒng)上的應用

總的來說,分層增強學習(HRL)與封疆增強學習(HRL)都是將高維度的復雜動作空間進行不同方式的拆分,以解決傳統(tǒng) RL 動作空間維度大導致訓練效率低的問題。分層增強學習(HRL)對任務的分割合理,比較符合人類的理解,但是需要專家知識來拆分子任務。封疆增強學習(FRL)對復雜問題的拆分則直接考慮其動作本身的邏輯結構,不考慮不同子任務之間的相互約束。

Model-based 增強學習

以上討論的屬于無模型(model-free)增強學習,它是通過和環(huán)境交互試錯得到大量弱監(jiān)督數(shù)據(jù),再去訓練一個價值網(wǎng)絡或者策略網(wǎng)絡,而不關心環(huán)境本身。與之相對的是基于模型的(model-based)增強學習,它的學習過程如圖 18。其特點是對環(huán)境直接進行建模,利用和環(huán)境交互得到的數(shù)據(jù)學習出一個狀態(tài)和獎勵的概率轉(zhuǎn)移函數(shù),即環(huán)境模型,然后系統(tǒng)可以和環(huán)境模型交互產(chǎn)生更多的訓練數(shù)據(jù),因此model-based增強學習一般比model-free增強學習的訓練效率要高,尤其是在和環(huán)境交互代價昂貴的場景。但其效果取決于環(huán)境建模的好壞。

圖 18. model-based的增強學習的流程

采用 model-based 增強學習來提高訓練效率是最近研究熱點,微軟首先將經(jīng)典的 Deep Dyna-Q(DDQ)算法應用到對話中[33],如圖 19c 所示,DDQ 訓練開始之前,先利用少量已有的對話數(shù)據(jù)對策略模型和環(huán)境模型(world model)進行預訓練,之后 DDQ的訓練不斷循環(huán)三個步驟:

直接增強學習 - 通過和真實用戶在線對話交互,更新策略模型并且儲存對話數(shù)據(jù);
訓練環(huán)境模型 - 利用收集到的真實對話數(shù)據(jù)更新環(huán)境模型;
規(guī)劃(planning)- 利用和環(huán)境模型交互得到的對話數(shù)據(jù)來訓練策略模型。

其中環(huán)境模型(如圖 20)是一個神經(jīng)網(wǎng)絡,對環(huán)境的狀態(tài)轉(zhuǎn)換和獎勵進行概率建模,輸入是當前對話狀態(tài)以及系統(tǒng)動作,輸出是下一輪用戶動作、環(huán)境獎勵和對話終止變量。環(huán)境模型使得 DDQ 降低了在線增強學習(如圖 19a)對人機交互數(shù)據(jù)量的需求,也避免了和用戶模擬器交互(如圖 19b)質(zhì)量不高的問題。

圖 19. 三種不同增強學習框架

圖 20. 環(huán)境模型的結構

環(huán)境模型與對話領域中的用戶模擬器比較相似,它們都可以用于模擬真實用戶的動作并和系統(tǒng)的對話管理模塊交互。但兩者不同之處在于用戶模擬器本質(zhì)是系統(tǒng)的外部環(huán)境,用于模擬真實用戶,環(huán)境模型是系統(tǒng)的一部分,屬于系統(tǒng)內(nèi)部模型。

在DDQ的工作基礎上,微軟研究者們做了更多的擴展:為了提高環(huán)境模型產(chǎn)生的對話數(shù)據(jù)的真實性,他們提出[34]采用對抗訓練的思想提高對話數(shù)據(jù)的生成質(zhì)量;針對何時使用和真實環(huán)境交互的數(shù)據(jù),何時使用和環(huán)境模型交互的數(shù)據(jù),論文[35]探討了可行方案;為了將真人交互也納入進來,論文[36]給出了一個統(tǒng)一的對話框架。這種人類教學(human-teaching)的思想也是目前業(yè)界構建對話管理模型的關注熱點,我們在下小節(jié)給出更多闡述。

Human-in-the-loop

我們希望能充分引入人的知識經(jīng)驗來生成高質(zhì)量數(shù)據(jù),提高模型訓練效率。Human-in-the-loop增強學習[37]就是一種將人類引入機器人訓練過程的方法,通過設計好的人機交互方式,人類可以高效地指導訓練增強學習模型。為了進一步提升任務導向?qū)υ捪到y(tǒng)的訓練效率,針對對話問題的特性設計有效的human-in-the-loop方式成為了研究人員新的探索方向。

圖 21. 監(jiān)督式預訓練、模仿學習和在線增強學習結合的復合式學習

谷歌研究者提出了一種人類教學和增強學習結合的復合學習方法[37](如圖 21),在有監(jiān)督預訓練和在線增強學習之間增加一個人類教學階段,讓人介入進來打標簽,避免了有監(jiān)督預訓練導致的covariate shift 問題[42]。亞馬遜研究者也提出一種類似的人類教學框架[37]:每輪對話中,系統(tǒng)都推薦4條回復供客服專家選擇;然后客服專家決定是選擇4條回復中的一條,還是另外編輯新的回復;最后由客服專家把選擇好或者編輯好的回復發(fā)給用戶。利用這種方式,開發(fā)人員可以快速地更新對話系統(tǒng)能力,適合落地。

以上是系統(tǒng)被動地接受人對數(shù)據(jù)進行標注,但是好的系統(tǒng)也應該學會主動提問、尋求人的幫助。論文[40]提出了陪伴式學習(companion learning)的架構(如圖 22),在傳統(tǒng)的增強學習框架中加入老師的角色(即人),老師可以糾正對話系統(tǒng)(即學生)的回復(圖左側開關),也能以內(nèi)部reward的形式對學生的回復進行評價(圖右側開關)。對于主動學習的實現(xiàn),作者提出了對話決策確信度(decision certainty)的概念,通過dropout技巧對學生策略網(wǎng)絡進行多次采樣,得到可取動作的最大概率近似估計,再通過計算該最大概率的若干對話輪次的滑動平均值作為學生策略網(wǎng)絡的決策確信度。確信度若低于目標值,則根據(jù)確信度與目標值的差距,決定老師是否參與進來糾正錯誤和提供獎勵函數(shù),確信度高于目標值,則停止向老師學習,系統(tǒng)自行進行判決。

圖 22. 老師糾正學生的回復(左側開關)或者對學生的回復做出評價(右側開關)
主動學習的關鍵在于估計出對話系統(tǒng)對自身決策的確信度,除了上述對策略網(wǎng)絡進行dropout的方法,還有以隱變量為條件變量,計算策略網(wǎng)絡分布Jensen-Shannon散度的方法[22]、根據(jù)當前系統(tǒng)對話成功率做判斷的方法[36]。

小蜜Conversational AI團隊的對話管理框架

為了保證穩(wěn)定性和可解釋性,目前業(yè)界對話管理模塊多采用基于規(guī)則的方法。阿里巴巴-達摩院-小蜜Conversational AI團隊在去年就開始嘗試對話管理模型化的工作,并進行了深入地探索。在真實的對話系統(tǒng)建設中,我們需要解決兩個問題:

如何獲得特定場景的大量對話數(shù)據(jù)?
怎么利用算法充分發(fā)揮數(shù)據(jù)的價值?

對于整個模型化的框架設計,目前我們規(guī)劃成四步走的路線(如圖 23所示):

圖 23. 對話管理模型化四步走路線

第一步,先利用小蜜Conversational AI團隊自主研發(fā)的對話工廠(dialog studio)快速構建一個基于規(guī)則對話流的對話引擎(稱為TaskFlow),同時用類似的對話流去構建一個用戶模擬器。在構建好用戶模擬器和對話引擎之后,兩者采用M2M方式持續(xù)交互沉淀出大量的對話數(shù)據(jù)。

第二步,有了一定量的對話數(shù)據(jù)后,我們再利用有監(jiān)督學習訓練一個神經(jīng)網(wǎng)絡,構建和規(guī)則對話引擎能力基本相當?shù)膶υ捁芾砟P?#xff0c;實現(xiàn)對話管理的初步模型化。模型的設采用語義相似匹配和端到端生成兩種方法結合來實現(xiàn)可拓展性,對于動作空間較大的對話任務采用HRL進行動作劃分。

第三步,有了初步的對話管理模型,在開發(fā)階段,我們讓系統(tǒng)和改進的用戶模擬器或人工智能訓練師進行交互,通過off-policy ACER增強學習算法讓系統(tǒng)的對話能力持續(xù)地增強。

第四步,人機對話體驗達到初步實用之后,就可以上線運行,引入人的因素,收集用戶真實交互數(shù)據(jù),同時通過一些UI設計方便地引入用戶的反饋,持續(xù)不斷地更新強化模型。沉淀出大量人機對話數(shù)據(jù)也會進一步進行做數(shù)據(jù)分析和挖掘,用于客戶洞察。

目前,我們打造的基于增強學習的對話管理模型,在訂會議室這種中等復雜規(guī)模的對話任務上,和用戶模擬器交互的對話完成率可達80%,如圖24所示。

圖 24. 小蜜Conversational AI團隊的對話管理模型框架和評價指標

總結

本綜述圍繞對話管理(Dialog Management, DM)模型的最新前沿研究做了一個詳細的介紹,針對傳統(tǒng)對話管理的痛點劃分了三個大的方向:

可拓展性差;
標注數(shù)據(jù)少;
訓練效率低。

在可拓展性方面,我們介紹了處理變化的用戶意圖、對話本體、系統(tǒng)動作空間的常用方法,主要有語義相似匹配方法、知識蒸餾方法和序列生成方法;對于標注數(shù)據(jù)稀缺問題,我們介紹了機器自動標注、對話結構有效挖掘和數(shù)據(jù)高效收集策略三部分內(nèi)容;而針對傳統(tǒng)DM中RL模型訓練效率低下的問題,學界有嘗試引入HRL、FRL等方法對動作空間進行層次劃分,也有利用model-based RL對環(huán)境進行建模提高訓練效率,將human-in-the-loop引入對話系統(tǒng)訓練框架亦是當下十分活躍的研究方向。最后我們對阿里巴巴-達摩院-小蜜Conversational AI團隊目前在DM模型化的進展做了一個比較詳細的匯報介紹,希望本綜述能為大家的對話管理研究提供一些啟發(fā)和思考。

參考資料:

[1].TURING A M. I.—COMPUTING MACHINERY AND INTELLIGENCE[J]. Mind, 1950, 59(236): 433-460.
[2].Weizenbaum J. ELIZA---a computer program for the study of natural language communication between man and machine[J]. Communications of the ACM, 1966, 9(1): 36-45.
[3].Young S, Ga?i? M, Thomson B, et al. Pomdp-based statistical spoken dialog systems: A review[J]. Proceedings of the IEEE, 2013, 101(5): 1160-1179.
[4].Bordes A, Boureau Y L, Weston J. Learning end-to-end goal-oriented dialog[J]. arXiv preprint arXiv:1605.07683, 2016.
[5].Wen T H, Vandyke D, Mrksic N, et al. A network-based end-to-end trainable task-oriented dialogue system[J]. arXiv preprint arXiv:1604.04562, 2016.
[6].Su P H, Budzianowski P, Ultes S, et al. Sample-efficient actor-critic reinforcement learning with supervised data for dialogue management[J]. arXiv preprint arXiv:1707.00130, 2017.
[7]. Serban I V, Sordoni A, Lowe R, et al. A hierarchical latent variable encoder-decoder model for generating dialogues[C]//Thirty-First AAAI Conference on Artificial Intelligence. 2017.
[8]. Berant J, Chou A, Frostig R, et al. Semantic parsing on freebase from question-answer pairs[C]//Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing. 2013: 1533-1544.
[9]. Dhingra B, Li L, Li X, et al. Towards end-to-end reinforcement learning of dialogue agents for information access[J]. arXiv preprint arXiv:1609.00777, 2016.
[10]. Lei W, Jin X, Kan M Y, et al. Sequicity: Simplifying task-oriented dialogue systems with single sequence-to-sequence architectures[C]//Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). 2018: 1437-1447.
[11]. Madotto A, Wu C S, Fung P. Mem2seq: Effectively incorporating knowledge bases into end-to-end task-oriented dialog systems[J]. arXiv preprint arXiv:1804.08217, 2018.
[12]. Mrk?i? N, Séaghdha D O, Wen T H, et al. Neural belief tracker: Data-driven dialogue state tracking[J]. arXiv preprint arXiv:1606.03777, 2016.
[13]. ?Ramadan O, Budzianowski P, Ga?i? M. Large-scale multi-domain belief tracking with knowledge sharing[J]. arXiv preprint arXiv:1807.06517, 2018.
[14]. Weisz G, Budzianowski P, Su P H, et al. Sample efficient deep reinforcement learning for dialogue systems with large action spaces[J]. IEEE/ACM Transactions on Audio, Speech and Language Processing (TASLP), 2018, 26(11): 2083-2097.
[15]. Wang W, Zhang J, Zhang H, et al. A Teacher-Student Framework for Maintainable Dialog Manager[C]//Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing. 2018: 3803-3812.
[16]. Yun-Nung Chen, Dilek Hakkani-Tur, and Xiaodong He, "Zero-Shot Learning of Intent Embeddings for Expansion by Convolutional Deep Structured Semantic Models," in Proceedings of The 41st IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP 2016), Shanghai, China, March 20-25, 2016. IEEE.
[17]. Rastogi A, Hakkani-Tür D, Heck L. Scalable multi-domain dialogue state tracking[C]//2017 IEEE Automatic Speech Recognition and Understanding Workshop (ASRU). IEEE, 2017: 561-568.
[18]. Mesnil G, He X, Deng L, et al. Investigation of recurrent-neural-network architectures and learning methods for spoken language understanding[C]//Interspeech. 2013: 3771-3775.
[19]. Bapna A, Tur G, Hakkani-Tur D, et al. Towards zero-shot frame semantic parsing for domain scaling[J]. arXiv preprint arXiv:1707.02363, 2017.
[20]. Wu C S, Madotto A, Hosseini-Asl E, et al. Transferable Multi-Domain State Generator for Task-Oriented Dialogue Systems[J]. arXiv preprint arXiv:1905.08743, 2019.
[21]. He J, Chen J, He X, et al. Deep reinforcement learning with a natural language action space[J]. arXiv preprint arXiv:1511.04636, 2015.
[22]. Wang W, Zhang J, Li Q, et al. Incremental Learning from Scratch for Task-Oriented Dialogue Systems[J].
arXiv preprint arXiv:1906.04991, 2019.
[23]. Shi C, Chen Q, Sha L, et al.
Auto-Dialabel: Labeling Dialogue Data with Unsupervised Learning[C]//Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing. 2018: 684-689.
[24]. Haponchyk I, Uva A, Yu S, et al. Supervised clustering of questions into intents for dialog system applications[C]//Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing. 2018: 2310-2321.
[25]. Shi W, Zhao T, Yu Z. Unsupervised Dialog Structure Learning[J]. arXiv preprint arXiv:1904.03736, 2019.
[26]. Zhao T, Xie K, Eskenazi M. Rethinking action spaces for reinforcement learning in end-to-end dialog agents with latent variable models[J]. arXiv preprint arXiv:1902.08858, 2019.
[27]. Shah P, Hakkani-Tur D, Liu B, et al. Bootstrapping a neural conversational agent with dialogue self-play, crowdsourcing and on-line reinforcement learning[C]//Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 3 (Industry Papers). 2018: 41-51.
[28]. Budzianowski P, Wen T H, Tseng B H, et al. Multiwoz-a large-scale multi-domain wizard-of-oz dataset for task-oriented dialogue modelling[J]. arXiv preprint arXiv:1810.00278, 2018.
[29]. Peng B, Li X, Li L, et al. Composite task-completion dialogue policy learning via hierarchical deep reinforcement learning[J]. arXiv preprint arXiv:1704.03084, 2017.
[30]. Kristianto G Y, Zhang H, Tong B, et al. Autonomous Sub-domain Modeling for Dialogue Policy with Hierarchical Deep Reinforcement Learning[C]//Proceedings of the 2018 EMNLP Workshop SCAI: The 2nd International Workshop on Search-Oriented Conversational AI. 2018: 9-16.
[31]. Tang D, Li X, Gao J, et al. Subgoal discovery for hierarchical dialogue policy learning[J]. arXiv preprint arXiv:1804.07855, 2018.
[32]. Casanueva I, Budzianowski P, Su P H, et al. Feudal reinforcement learning for dialogue management in large domains[J]. arXiv preprint arXiv:1803.03232, 2018.
[33]. Peng B, Li X, Gao J, et al. Deep dyna-q: Integrating planning for task-completion dialogue policy learning[J]. ACL 2018.
[34]. Su S Y, Li X, Gao J, et al. Discriminative deep dyna-q: Robust planning for dialogue policy learning.EMNLP, 2018.
[35]. Wu Y, Li X, Liu J, et al. Switch-based active deep dyna-q: Efficient adaptive planning for task-completion dialogue policy learning.AAAI, 2019.
[36]. Zhang Z, Li X, Gao J, et al. Budgeted Policy Learning for Task-Oriented Dialogue Systems. ACL, 2019.
[37]. Abel D, Salvatier J, Stuhlmüller A, et al. Agent-agnostic human-in-the-loop reinforcement learning[J]. arXiv preprint arXiv:1701.04079, 2017.
[38]. Liu B, Tur G, Hakkani-Tur D, et al. Dialogue learning with human teaching and feedback in end-to-end trainable task-oriented dialogue systems[J]. arXiv preprint arXiv:1804.06512, 2018.
[39]. Lu Y, Srivastava M, Kramer J, et al. Goal-Oriented End-to-End Conversational Models with Profile Features in a Real-World Setting[C]//Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 2 (Industry Papers). 2019: 48-55.
[40]. Chen L, Zhou X, Chang C, et al. Agent-aware dropout dqn for safe and efficient on-line dialogue policy learning[C]//Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing. 2017: 2454-2464.
[41]. Gao J, Galley M, Li L. Neural approaches to conversational AI[J]. Foundations and Trends? in Information Retrieval, 2019, 13(2-3): 127-298.
[42]. Ross S, Gordon G, Bagnell D. A reduction of imitation learning and structured prediction to no-regret online learning[C]//Proceedings of the fourteenth international conference on artificial intelligence and statistics. 2011: 627-635.
[43]. Rajendran J, Ganhotra J, Polymenakos L C. Learning End-to-End Goal-Oriented Dialog with Maximal User Task Success and Minimal Human Agent Use[J]. Transactions of the Association for Computational Linguistics, 2019, 7: 375-386.
[44]. Mrk?i? N, Vuli? I. Fully Statistical Neural Belief Tracking[C]//Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers). 2018: 108-113.
[45]. Zhou L, Small K. Multi-domain Dialogue State Tracking as Dynamic Knowledge Graph Enhanced Question Answering[J]. arXiv preprint arXiv:1911.06192, 2019.
[46]. Rajpurkar P, Jia R, Liang P. Know What You Don't Know: Unanswerable Questions for SQuAD[J]. arXiv preprint arXiv:1806.03822, 2018.
[47]. Zhang J G, Hashimoto K, Wu C S, et al. Find or Classify? Dual Strategy for Slot-Value Predictions on Multi-Domain Dialog State Tracking[J]. arXiv preprint arXiv:1910.03544, 2019.

總結

以上是生活随笔為你收集整理的什么是人机对话模型?阿里小蜜团队写了1.5万字的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。

久草免费在线观看视频 | 精品视频网站 | 国产人成一区二区三区影院 | 久久a国产| 在线观看91精品视频 | 国产无区一区二区三麻豆 | 色偷偷网站视频 | 亚洲精品一区二区精华 | 国产99免费视频 | 开心激情久久 | 少妇bbr搡bbb搡bbb | 久草网站在线观看 | 亚洲三级在线免费观看 | 色五婷婷 | 久久在线观看视频 | 青草视频网 | 中文字幕 二区 | 国产成人黄色av | 国产色视频一区二区三区qq号 | 色综合天天狠天天透天天伊人 | 成年人视频在线免费播放 | 中文字幕中文字幕在线中文字幕三区 | 欧洲色综合 | 国产精品毛片久久久久久久 | 久久 国产一区 | 日韩高清三区 | 99免费观看视频 | 特及黄色片| 欧美成人在线免费 | 日韩精品在线免费观看 | 成人av在线影院 | 在线 日韩 av | h视频在线看 | japanesefreesexvideo高潮 | 丁香综合网 | 亚洲国产小视频在线观看 | 国产一区 在线播放 | 开心婷婷色 | 久久久久久久毛片 | 亚洲成人黄色网址 | 国产精品久久久久久久婷婷 | 亚洲人片在线观看 | 久久综合久久综合久久综合 | 成人影片在线免费观看 | 国产视频中文字幕在线观看 | 国产精品久久久久久久久久久久午 | 一本—道久久a久久精品蜜桃 | 草久热| 激情视频二区 | 婷婷免费视频 | 婷婷五天天在线视频 | 视频一区二区免费 | 亚洲午夜精品在线观看 | 国产福利中文字幕 | 99久久精品国产一区二区成人 | 狠狠操综合| 国产精品久久一区二区三区不卡 | 丁香婷婷综合五月 | 欧美日韩有码 | 国产成人精品一区二区三区在线观看 | 久久久黄色av | 综合色在线观看 | 久久久久免费精品视频 | 国产精品成人久久久久久久 | 五月天久久婷 | 97在线观看免费高清完整版在线观看 | 黄色电影小说 | 欧美老人xxxx18 | 欧美一级性生活视频 | 亚洲一区二区三区四区精品 | 日韩在线视频免费观看 | 久久综合久久综合久久综合 | 中文字幕久久亚洲 | 四虎国产精品免费观看视频优播 | 黄视频网站大全 | 久精品视频在线 | 亚洲视屏在线播放 | 人人射网站| 黄色精品免费 | 国产成人av一区二区三区在线观看 | 久久久久久久99 | 99热国产在线 | 天堂av在线免费观看 | 国内精品久久久久久久久 | av免费在线播放 | 成年人视频在线免费 | 成人一级影视 | 黄网站a | 97精品国自产拍在线观看 | 操操操日日日 | 国产视频一区二区在线观看 | 久久综合九色九九 | 在线日本v二区不卡 | 97国产| 97小视频 | 91亚洲激情 | 国产精品黄色av | 久久久福利 | av片一区二区 | av高清网站在线观看 | 国产一区高清在线观看 | 亚洲成av人电影 | 97色在线观看免费视频 | 成 人 免费 黄 色 视频 | 中文字幕在线观看你懂的 | 欧美性直播| 久久视影 | 成人国产精品免费观看 | 亚洲免费av在线播放 | 99久久国产免费,99久久国产免费大片 | 日韩免费一区二区三区 | 久久 国产一区 | .国产精品成人自产拍在线观看6 | 中文字幕在线播放视频 | 天天操天天摸天天爽 | 久久精品视频一 | 夜夜爱av | 日韩va在线观看 | 久精品视频在线观看 | 欧美日韩在线视频免费 | 久久人人97超碰国产公开结果 | 国产精品午夜8888 | 97国产| 超碰在线最新网址 | 狠狠色噜噜狠狠狠狠2021天天 | 欧美a级成人淫片免费看 | 国产破处在线播放 | 欧亚日韩精品一区二区在线 | 日韩欧美视频在线 | 免费视频一区 | 日韩欧美网址 | 爱爱av网站 | 欧美福利精品 | 日韩av一区二区三区在线观看 | 成人综合婷婷国产精品久久免费 | 中文字幕欧美三区 | 久久久91精品国产一区二区精品 | 激情网五月婷婷 | 国产黄在线 | 美女视频黄免费的 | 日韩中文字幕国产 | 激情综合五月天 | 亚洲aⅴ久久精品 | 亚洲福利精品 | 中文字幕在线视频第一页 | 免费观看的黄色片 | a电影免费看 | 色婷婷综合五月 | 久草在线视频看看 | 免费高清在线视频一区· | 久久免费黄色大片 | 亚洲最新av | 免费在线观看的av网站 | 久草色在线观看 | 日本一区二区免费在线观看 | 欧美日韩另类在线观看 | av在观看| 免费大片黄在线 | 成人免费看片网址 | 99久久精品久久久久久动态片 | 视频在线观看亚洲 | 日韩欧美专区 | 91精品在线观看入口 | 成人污视频在线观看 | 在线观看你懂的网站 | 亚洲日本va午夜在线电影 | 人人插人人费 | 一区中文字幕 | 午夜视频免费在线观看 | 久久精品综合 | 久久桃花网 | 欧美尹人 | 日本久久中文字幕 | 亚洲激情综合网 | 激情丁香月 | 97色婷婷人人爽人人 | 久久久精品国产一区二区三区 | 在线 高清 中文字幕 | 精品你懂的 | 一级黄色免费网站 | 国产精品大全 | 欧美人人 | 三级性生活视频 | 日本不卡一区二区三区在线观看 | 久久久久二区 | 午夜久久精品 | 91精品国产乱码久久桃 | 久久国产高清视频 | jizz999| 在线观看日韩 | 香蕉视频在线看 | 欧美va日韩va | 日韩在线网址 | 免费亚洲一区二区 | 免费观看黄 | 黄色的视频网站 | 91av资源在线 | 黄色的网站免费看 | 欧美日本一二三 | 九九免费精品视频在线观看 | av在线之家电影网站 | 91麻豆网| 在线三级播放 | 91porny九色91啦中文 | 在线www色| 欧美激情精品久久久久久变态 | 亚洲欧美日韩精品一区二区 | 在线精品亚洲 | 国产又粗又猛又爽又黄的视频免费 | 欧美亚洲成人免费 | 欧美激情视频久久 | 五月婷婷开心 | 欧美久久久一区二区三区 | 日本高清dvd | 久草在线免费看视频 | 日韩av看片| av官网| 国产精品久久久久久一区二区 | 激情av网 | 亚洲日本成人网 | 天天做天天爱天天爽综合网 | a级国产片| av黄色免费网站 | 97av免费视频 | 午夜色影院 | 国产综合在线观看视频 | 久草视频在线免费看 | 亚洲国产精品va在线看黑人动漫 | 91麻豆精品国产自产在线游戏 | 在线国产高清 | 国产免费观看av | av高清一区| 久草在线免费看视频 | 中文字幕乱在线伦视频中文字幕乱码在线 | 亚洲我射av | 亚洲国产成人精品在线 | 国产成人黄色在线 | 伊人亚洲精品 | 99热在线国产 | 成人a大片 | 国产黄色一级片在线 | 久久视频这里有久久精品视频11 | 久久精品综合 | 日韩免费观看一区二区 | 欧美日韩在线免费视频 | 黄色一级大片在线免费看国产一 | 天天操天天弄 | 久久久综合九色合综国产精品 | 九九久久电影 | 久久久久久蜜av免费网站 | 国产精品亚洲人在线观看 | 丝袜+亚洲+另类+欧美+变态 | 亚洲女人天堂成人av在线 | 欧美动漫一区二区三区 | 中文字幕频道 | 日黄网站 | 日韩免费视频在线观看 | 激情综合网五月 | 人人干97| 婷婷在线看 | 久草免费在线视频观看 | 国产亚洲精品久久久久久 | 五月综合在线观看 | 四虎在线免费观看视频 | 久久国产视频网站 | 99精品视频一区 | 免费观看国产成人 | 色偷偷av男人天堂 | 98涩涩国产露脸精品国产网 | 五月婷婷.com | 久久久福利 | 国产精品a级 | 亚洲婷婷综合色高清在线 | 天天色天天干天天 | 久草香蕉在线 | av不卡网站| 国产精品99免费看 | av福利超碰网站 | 日韩一区二区免费在线观看 | 成 人 黄 色 视频播放1 | 亚洲日本va在线观看 | 久久精品视频3 | 久久人人爽人人爽人人 | 2021久久 | 国产亚洲成人精品 | 激情欧美一区二区免费视频 | 黄色免费观看视频 | 91精品国产成人观看 | 久久久成人精品 | 超碰官网| 首页av在线 | 国产生活一级片 | 99久久久成人国产精品 | 色播五月激情五月 | 国产精品av免费观看 | 亚洲 欧洲av | 国产特级毛片aaaaaaa高清 | 中文字幕中文字幕在线中文字幕三区 | 国产视频亚洲视频 | 日韩av一区二区在线播放 | 免费91在线观看 | 毛片一区二区 | 国语黄色片 | 九九九视频精品 | 精品成人免费 | 奇米网网址 | 最近中文字幕国语免费高清6 | 欧美老少交 | 国产真实精品久久二三区 | 国产91免费观看 | 69国产在线观看 | 久久精品国产一区 | 在线成人小视频 | 久久国产精品一区二区三区四区 | 97超碰影视| 色婷婷免费 | 色婷婷福利视频 | 999久久久 | 黄毛片在线观看 | 国产精品久久久久国产精品日日 | 亚洲 欧美日韩 国产 中文 | 久久人人艹 | 欧美精品免费视频 | 午夜精品电影 | 日本午夜在线观看 | 美女视频免费精品 | 91在线91拍拍在线91 | 欧美色综合天天久久综合精品 | 成年人av在线播放 | 丝袜美女在线观看 | 在线观看激情av | 在线中文字母电影观看 | 在线免费观看黄色 | 成人在线视频一区 | 天天干天天干天天色 | 久久91久久久久麻豆精品 | 91精品网站在线观看 | www亚洲视频 | 国产一二区精品 | 国产日产精品一区二区三区四区 | 中文字幕制服丝袜av久久 | 91精品久久久久久久久久入口 | 黄色国产区 | 亚洲综合欧美日韩狠狠色 | 免费久久网 | 日韩手机在线观看 | 首页中文字幕 | 久久免费看毛片 | 91高清完整版在线观看 | 91你懂的 | 精品久久久久久亚洲综合网站 | 亚洲激情在线视频 | 欧美日韩在线观看视频 | 国产精品国产三级国产 | 中文字幕免费不卡视频 | 欧美日韩亚洲第一 | 亚洲精品免费在线 | 久久五月婷婷丁香社区 | 国产精品国产亚洲精品看不卡15 | 久久免费99精品久久久久久 | 亚洲无人区小视频 | 亚洲精品美女久久久久网站 | 精品国产福利在线 | www..com黄色片 | zzijzzij亚洲成熟少妇 | 99久久国产免费看 | 国产麻豆视频免费观看 | 日本大尺码专区mv | 狠狠色噜噜狠狠 | 久久精选视频 | 草久热 | 国产在线2020 | 久久免费精品视频 | 国内精品美女在线观看 | 亚洲成人影音 | 丁香婷婷综合激情五月色 | 久久综合视频网 | 久久亚洲精品国产亚洲老地址 | 天天插天天干天天操 | 久久午夜精品影院一区 | www.黄色在线 | 亚洲a免费| 国产黄色在线看 | 国产成人精品久久二区二区 | 天天曰天天爽 | 国产精品自在欧美一区 | 欧美精品久久久久久久免费 | 国产午夜精品在线 | 激情网在线视频 | 精品视频 | 夜夜躁日日躁狠狠久久88av | 中文字幕在线乱 | 在线黄频 | av免费在线看网站 | 日韩精品一区二区三区丰满 | 成人av免费电影 | 永久免费视频国产 | 涩涩成人在线 | 91视频久久久久久 | 欧美日韩一区二区久久 | 国产日韩欧美在线观看视频 | 国产成人精品亚洲精品 | 成人国产精品久久久久久亚洲 | 999超碰| 国产自产在线视频 | 国产视 | 成人黄色小说在线观看 | 丁香综合五月 | av一区在线播放 | 日韩在线视频国产 | 最近日本mv字幕免费观看 | 日韩精品不卡在线 | 男女激情网址 | 亚洲成人精品影院 | 五月天国产 | 国产亚洲午夜高清国产拍精品 | 成人国产网站 | 在线va视频 | 日韩欧美在线观看一区 | 欧美一级免费在线 | 亚洲精品视频二区 | 欧美日韩国产色综合一二三四 | 欧美综合色在线图区 | 国产精品免费大片视频 | 69国产成人综合久久精品欧美 | 亚洲高清免费在线 | 国产成人精品三级 | 精品乱码一区二区三四区 | 一级片黄色片网站 | 国产精品久久久久永久免费看 | 在线观看日韩精品视频 | 精品国产片 | 91视频这里只有精品 | 久久久久久久久久久网 | 91最新国产| 成人av教育 | 国内精品久久久久影院优 | av一级一片| 精品国产成人av在线免 | 午夜国产福利在线观看 | 国产精品久久久久永久免费观看 | 精品一区电影 | 亚洲国内精品在线 | 蜜臀av性久久久久av蜜臀三区 | 99中文在线 | 97看片吧| 久久久久久免费 | 国产精品久久久久久久毛片 | 日韩免费在线播放 | 99色人| 麻豆影视在线免费观看 | 天天艹日日干 | 黄色精品网站 | 国产成人一区二区三区久久精品 | 亚洲资源| 在线观看黄色的网站 | 一性一交视频 | 国产精品午夜久久 | 丰满少妇久久久 | 亚洲激情在线视频 | 国产视频在线观看一区 | 国产精品久久人 | 国产精品高潮呻吟久久av无 | 久久首页 | 国产成人久久av977小说 | 91高清免费观看 | 五月天国产精品 | 中文日韩在线 | 东方av在| 人人涩| 女人18毛片a级毛片一区二区 | 日韩影视在线观看 | 91丨九色丨勾搭 | 国精产品999国精产品岳 | av天天澡天天爽天天av | 日韩久久久久久久久久 | 欧美亚洲一级片 | 国产乱对白刺激视频在线观看女王 | 色偷偷男人的天堂av | 色在线高清 | 色综合久久久网 | 欧美在线视频一区二区三区 | 国产精品男女啪啪 | 99国产精品一区二区 | 欧美成人aa | 日日夜夜天天射 | 婷婷去俺也去六月色 | 成人午夜电影网站 | 天天射射天天 | 久久99热这里只有精品 | 亚州av成人 | 亚洲综合网站在线观看 | 91精品在线观看视频 | 日韩黄色软件 | 国产一区二区高清视频 | 日日日网| 国产美女精品久久久 | 欧美做受高潮电影o | 日本中文字幕久久 | 久久精品99久久 | 精品国内自产拍在线观看视频 | 在线观看黄色 | 久久情网| 色综合天天天天做夜夜夜夜做 | 成人午夜黄色 | 久久久久久片 | 人人射人人爽 | 九九精品久久久 | 国产麻豆精品免费视频 | 日日夜夜免费精品视频 | 在线a亚洲视频播放在线观看 | 91超碰免费在线 | 欧美 日韩 性 | 国内精品久久久久影院男同志 | 国产一区在线免费 | 99免在线观看免费视频高清 | 精品视频免费观看 | 久久99欧美 | 91av在线电影 | 久草在线视频中文 | 国产96精品 | 亚洲欧美国产精品18p | 黄网站免费久久 | 国产亚洲欧美日韩高清 | 久久精品国产亚洲精品2020 | 久久久免费少妇 | 香蕉久草 | 黄色影院在线观看 | 国产va饥渴难耐女保洁员在线观看 | 亚洲在线资源 | 亚洲 综合 国产 精品 | 91人人干 | 狠狠躁日日躁 | 玖玖色在线观看 | 丁香婷婷综合网 | 婷婷丁香色综合狠狠色 | 性色av香蕉一区二区 | 国产中文字幕在线播放 | av在线之家电影网站 | 日韩精品视频第一页 | 中文在线a√在线 | 国产韩国精品一区二区三区 | 欧美日韩视频一区二区三区 | www.com黄| 久久国产精品小视频 | 97小视频| 亚洲自拍偷拍色图 | 黄色亚洲大片免费在线观看 | 国模精品一区二区三区 | 久久欧美精品 | 欧美日韩久久不卡 | 色哟哟国产精品 | 美女啪啪图片 | 日韩精品国产一区 | 久久久久成人免费 | 成人免费毛片aaaaaa片 | 九九99 | 在线综合 亚洲 欧美在线视频 | 免费黄a | a级片韩国 | 久久国产精品小视频 | 国内精品中文字幕 | 亚洲经典视频在线观看 | 色偷偷88888欧美精品久久久 | 日韩精品久久一区二区三区 | av中文在线影视 | 激情综合色综合久久 | 亚洲精品 在线视频 | 337p日本欧洲亚洲大胆裸体艺术 | 国产999精品视频 | 日韩视频免费观看高清 | 中文字幕国语官网在线视频 | 麻豆影视在线免费观看 | 99精品视频免费 | 欧美极品xxxx | 久久久国产精品视频 | 久久99精品国产麻豆婷婷 | 国产成人一级 | 黄色成人av| 国产精品高清av | 欧美在线视频一区二区 | 狠狠色网| 韩日电影在线免费看 | 色欧美88888久久久久久影院 | 激情丁香久久 | 99久久日韩精品免费热麻豆美女 | 久99视频| 91九色蝌蚪国产 | 国产国产人免费人成免费视频 | 天无日天天操天天干 | 欧美日韩另类在线 | aⅴ视频在线 | 东方av免费在线观看 | 狠狠久久伊人 | 日日精品| 国产精品永久免费 | 天天射天天爱天天干 | 亚洲视频中文 | 婷婷色 亚洲 | 亚洲电影黄色 | 2019中文字幕第一页 | 久久精品综合视频 | 欧洲一区二区在线观看 | 在线观看日本高清mv视频 | 欧美日韩视频网站 | 亚洲a色 | 午夜视频亚洲 | 欧美国产亚洲精品久久久8v | 久久精品专区 | 在线观看黄色 | 国产一卡在线 | 亚洲丝袜一区二区 | 国产亚洲亚洲 | 亚洲区色| 成人免费ⅴa | 黄色成人av | 成年人在线播放视频 | 国产精品久久久久av | 免费网站在线观看人 | 九热在线 | 欧美视频在线观看免费网址 | 国产精品久久久久四虎 | 欧美日韩成人一区 | 夜夜摸夜夜爽 | 黄色毛片视频免费 | 人人爱人人舔 | 视频1区2区 | 国产黄免费在线观看 | 欧美午夜剧场 | 日韩在线观看你懂的 | 91精品一区二区三区蜜桃 | 五月婷婷综合久久 | 美女很黄免费网站 | 欧美综合在线视频 | 六月丁香激情综合色啪小说 | 欧美大荫蒂xxx | 久久夜色精品国产欧美乱极品 | 亚洲日本va午夜在线影院 | 色亚洲激情 | 久久草精品 | 久久狠狠亚洲综合 | 久久香蕉一区 | 亚洲精品国偷自产在线99热 | 久久精品国产免费看久久精品 | 亚洲影院天堂 | 亚洲综合在线一区二区三区 | 国产91学生粉嫩喷水 | 欧美精品首页 | 狠狠操狠狠| 区一区二区三在线观看 | 精品国产福利在线 | 在线看毛片网站 | 91福利视频久久久久 | 免费视频二区 | 黄色影院在线免费观看 | 亚洲黄色小说网 | 午夜精品电影 | 久久国产女人 | 爱情影院aqdy鲁丝片二区 | 九草视频在线 | 亚洲精品黄色片 | 国产精品va在线观看入 | 成年人在线观看 | 午夜视频色 | 天天干天天摸 | 黄色在线观看免费 | 久久综合桃花 | 99精彩视频 | 色妞色视频一区二区三区四区 | 国产日韩精品在线观看 | 久久久久久久久久影视 | 久久精品免费观看 | 懂色av一区二区在线播放 | 欧美日韩破处 | 亚洲性视频 | 国产精品精品国产色婷婷 | 亚洲精品在线视频观看 | 青青草在久久免费久久免费 | 黄色免费视频在线观看 | 97久久精品午夜一区二区 | 亚洲欧洲中文日韩久久av乱码 | av久久久久久| 99久久99久久精品国产片 | 久久综合欧美精品亚洲一区 | 日本中文字幕久久 | 欧美 亚洲 另类 激情 另类 | 色之综合网 | 精品久久一区二区三区 | 精品一区二区三区久久久 | 日韩女同av | 亚洲区视频在线观看 | 久久久久久激情 | 91漂亮少妇露脸在线播放 | 五月婷婷激情六月 | 操处女逼 | 久久久精品二区 | 亚洲电影成人 | www久久九 | 欧美一级片在线播放 | av免费网站观看 | 国产美女在线免费观看 | 成年人视频在线观看免费 | 久久国产91 | 欧美日韩亚洲国产一区 | 中文字幕字幕中文 | 91高清免费在线观看 | 九九综合九九综合 | 最近中文字幕完整高清 | 久久久久久久久久电影 | 久久久精品福利视频 | 综合激情av | 波多野结衣视频在线 | 久草在线资源免费 | 久久大视频 | 99视频免费看 | 毛片网在线播放 | 国产片免费在线观看视频 | 最新av免费 | 日韩黄色免费看 | 亚洲国产精品电影在线观看 | 国产成人三级在线播放 | 欧美日韩免费一区二区 | 天天射天天艹 | 丁香六月网 | 丁香色婷 | 欧美三级免费 | 夜夜视频资源 | 美女网站视频色 | 色中射| 黄色小视频在线观看免费 | 激情丁香婷婷 | 久久久久伦理电影 | 美女网站黄免费 | 成人在线视频你懂的 | 天天色天天操综合网 | 国产精品丝袜久久久久久久不卡 | 亚洲国产一区在线观看 | 99久久一区 | 伊人色综合久久天天 | 亚洲91精品在线观看 | 亚洲欧美在线观看视频 | 亚洲精品美女在线观看 | 色综合久久久久久久久五月 | 久久精品一区 | 人人玩人人添人人澡97 | 国产精品久久久久久久久久久久冷 | 国产精品手机在线 | 欧美一区日韩精品 | 欧美日韩国产精品久久 | 粉嫩av一区二区三区四区 | a成人在线| 国内精品久久久久久久97牛牛 | 亚洲激情久久 | 正在播放久久 | 色综合久久88色综合天天 | 99热在线精品观看 | 97视频人人 | 91av片| 色婷婷www | 亚洲精品伦理在线 | 99精品视频网 | 亚洲www天堂com | 欧美日韩xx | 99中文在线 | 超碰国产在线观看 | 亚洲一区久久 | 日韩精品久久久免费观看夜色 | 国产不卡免费视频 | 久草网在线观看 | 国产精品国产亚洲精品看不卡 | 日韩首页 | 国产高清无av久久 | 亚洲第一成网站 | 黄色免费高清视频 | 99久久久国产精品 | 91精品麻豆 | 日韩免费网站 | 久久一区二区三区超碰国产精品 | 99精品免费久久久久久日本 | 91av蜜桃| 六月丁香综合网 | 欧美激情综合五月色丁香 | 久久社区视频 | 久草在线最新 | 中文字幕观看av | 亚洲精品欧美专区 | 99久久久国产精品免费观看 | 91在线视频免费91 | 操久在线 | 四虎国产精品免费 | 欧美日韩p片 | 国产精品手机在线观看 | 免费在线成人av | 在线中文字幕网站 | 在线观看91av | 999国内精品永久免费视频 | 欧美精品亚洲精品日韩精品 | 日本午夜在线观看 | 午夜的福利 | 国产一区视频在线播放 | 91在线视频一区 | 亚洲欧美怡红院 | 色精品视频 | 国产高清av | 一区二区精品在线 | 国产在线观看地址 | 开心丁香婷婷深爱五月 | 五月天色婷婷丁香 | 天天躁日日躁狠狠躁av麻豆 | 国产精品成人久久久久久久 | 欧美黑人xxxx猛性大交 | 国产成人av网站 | 久久你懂的| 国产91精品久久久久 | 最新日韩在线观看 | 蜜臀aⅴ精品一区二区三区 久久视屏网 | 国产91在线观看 | 天堂素人在线 | 午夜性福利 | 久久久久久久久久网站 | 国产精品九九视频 | 天天激情在线 | 天天操狠狠干 | 色视频网站免费观看 | 精品久久久999| 中文字幕一二 | 一级特黄aaa大片在线观看 | 中文字幕91 | 日韩成人邪恶影片 | 国产精品系列在线 | 国产小视频精品 | 国产偷国产偷亚洲清高 | 激情五月婷婷 | 日批网站免费观看 | 缴情综合网五月天 | 在线 视频 一区二区 | 69精品在线观看 | 日韩特黄一级欧美毛片特黄 | 日韩激情片在线观看 | 日韩精品免费在线观看视频 | 日本黄色免费在线观看 | 超碰在线日本 | 91中文字幕 | 日本精品视频在线 | 一区二区三区日韩视频在线观看 | 国产日韩三级 | 国产一区视频在线观看免费 | 久久精品99国产精品酒店日本 | 国产a视频免费观看 | 国产伦理久久精品久久久久_ | 天天做天天射 | 亚洲欧美国产日韩在线观看 | 一区二区三区手机在线观看 | 国产精品伦一区二区三区视频 | 午夜国产一区二区三区四区 | 超碰在线cao| 久久免费毛片视频 | 欧美日韩国产网站 | 深爱激情五月综合 | 91人人澡人人爽 | 欧美在线视频第一页 | 久久久久国产一区二区 | 日韩av影视在线观看 | 欧美综合久久久 | 久久综合久久久 | 亚洲人xxx| 久久精品三级 | 欧美久久久影院 | 亚洲首页 | 五月婷婷操 | 日本一区二区不卡高清 | 天天干夜夜擦 | 国产精品国产三级国产aⅴ无密码 | 国产成人久久av | 精品在线观看一区二区 | 亚洲欧美乱综合图片区小说区 | www.69xx| 国产成人免费在线观看 | 波多野结衣在线观看一区 | 欧美日本高清视频 | 欧美色图一区 | 欧美日韩在线视频观看 | 有码中文字幕 | 伊人黄| 99av国产精品欲麻豆 | 中文字幕高清免费日韩视频在线 | 在线国产片 | 91久久黄色| 色多多在线观看 | 国产一级免费电影 | 免费视频xnxx com | 玖玖玖影院 | 在线免费观看黄色 | 五月天婷婷免费视频 | 日韩美视频 | 高清视频一区 | 婷婷中文在线 | 操操操夜夜操 | 97夜夜澡人人双人人人喊 | 久草在线视频国产 | 亚洲精品国产自产拍在线观看 | 日韩在线观看影院 | 色久天| 亚洲天堂va| 国产高清av免费在线观看 | 国产视频一区在线 | 天天拍天天色 | 国产精品18久久久久久久久 | 久久九九免费 | 国产香蕉97碰碰碰视频在线观看 | 亚洲天堂网在线视频 | 国产精品video爽爽爽爽 | a天堂一码二码专区 | 91丨porny丨九色 | av官网 | 又黄又爽的视频在线观看网站 | 婷婷视频在线播放 | 在线一级片 | 丁香视频免费观看 | 91在线公开视频 | 国产精品一区在线播放 | 国产精品中文 | av免费成人| 黄色午夜网站 | 亚洲精欧美一区二区精品 | 精品国产成人在线影院 | 国产精品完整版 | 制服丝袜一区二区 | 国产99久久久国产精品免费二区 | 亚洲 欧美 成人 | 天天爱天天操天天爽 | 91精品国产九九九久久久亚洲 | 免费观看国产成人 | 久久精品一二三区 | 亚洲日韩中文字幕在线播放 | 亚洲国产最新 | 九九热av | 精品在线看 | 欧美日韩综合在线 | 色香蕉在线 | 超碰人人做 | 成人精品福利 | 欧美精品久久久久久久久久丰满 | 亚洲午夜不卡 | 亚洲在线精品 | 亚洲狠狠婷婷 | 美女福利视频一区二区 | 精品久久精品 | 国产精品欧美一区二区 | 日韩欧美国产激情在线播放 | 视频在线一区二区三区 | 亚洲免费av电影 | 成人福利在线播放 | 久久国产乱| 亚洲尺码电影av久久 | 午夜精品福利一区二区三区蜜桃 | 欧洲黄色片| 在线视频 区 | 五月天激情视频在线观看 | 国产精品视频app | 久久国产免费视频 | 久久免费视频网 | 91在线视频一区 | av直接看| 中文字幕免| 国产精品免费久久久 | 偷拍精偷拍精品欧洲亚洲网站 | 狠狠搞,com| 日本mv大片欧洲mv大片 | 一区二区三区在线免费观看 | 国产呻吟在线 | 911av视频 | 日本二区三区在线 | avwww在线观看| 99久久精品免费看国产 | 久久成人高清 | 日韩a级黄色片 | 国产黄色在线观看 | 在线视频18在线视频4k | 日韩精品专区在线影院重磅 | 超碰在线亚洲 | 在线观看视频一区二区三区 | 天天操天天操天天操天天操 | 三级视频片 | 蜜桃av久久久亚洲精品 | 99久久精品国产免费看不卡 | 操操综合网 | 成人久久18免费网站图片 | 国产区第一页 | 一区二区不卡高清 | av一区二区在线观看中文字幕 | 天海冀一区二区三区 | 国产精品21区 | 国内少妇自拍视频一区 | 就要干b | 岛国精品一区二区 | 国产精品福利视频 | 狠狠色丁香婷婷综合久小说久 |