日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

深度前沿:对话管理模型研究最新进展

發(fā)布時(shí)間:2024/9/3 编程问答 38 豆豆
生活随笔 收集整理的這篇文章主要介紹了 深度前沿:对话管理模型研究最新进展 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

簡(jiǎn)介: 從人工智能研究的初期開始,人們就致力于開發(fā)高度智能化的人機(jī)對(duì)話系統(tǒng)。對(duì)話管理模型研究最新進(jìn)展源于前沿的深度的研究。

作者戴音培1、虞暉華2、蔣溢軒2、唐呈光1、李永彬1、孫健1

單位: 阿里巴巴-達(dá)摩院-小蜜Conversational AI團(tuán)隊(duì)1,康奈爾大學(xué)2

?

對(duì)話管理模型背景

從人工智能研究的初期開始,人們就致力于開發(fā)高度智能化的人機(jī)對(duì)話系統(tǒng)。艾倫·圖靈(Alan Turing)在1950年提出圖靈測(cè)試[1],認(rèn)為如果人類無(wú)法區(qū)分和他對(duì)話交談的是機(jī)器還是人類,那么就可以說機(jī)器通過了圖靈測(cè)試,擁有高度的智能。第一代對(duì)話系統(tǒng)主要是基于規(guī)則的對(duì)話系統(tǒng),例如1966年MIT開發(fā)的ELIZA系統(tǒng)[2]是一個(gè)利用模版匹配方法的心理醫(yī)療聊天機(jī)器人,再如1970年代開始流行的基于流程圖的對(duì)話系統(tǒng),采用有限狀態(tài)自動(dòng)機(jī)模型建模對(duì)話流中的狀態(tài)轉(zhuǎn)移。它們的優(yōu)點(diǎn)是內(nèi)部邏輯透明,易于分析調(diào)試,但是高度依賴專家的人工干預(yù),靈活性和可拓展性很差。

隨著大數(shù)據(jù)技術(shù)的興起,出現(xiàn)了基于統(tǒng)計(jì)學(xué)方法的數(shù)據(jù)驅(qū)動(dòng)的第二代對(duì)話系統(tǒng)(以下簡(jiǎn)稱統(tǒng)計(jì)對(duì)話系統(tǒng))。在這個(gè)階段,增強(qiáng)學(xué)習(xí)也開始被廣泛研究運(yùn)用,其中最具代表性的是劍橋大學(xué)Steve Young教授于2005年提出的基于部分可見馬爾可夫決策過程(Partially Observable Markov Decision Process , POMDP)的統(tǒng)計(jì)對(duì)話系統(tǒng)[3]。該系統(tǒng)在魯棒性上顯著地優(yōu)于基于規(guī)則的對(duì)話系統(tǒng),它通過對(duì)觀測(cè)到的語(yǔ)音識(shí)別結(jié)果進(jìn)行貝葉斯推斷,維護(hù)每輪對(duì)話狀態(tài),再根據(jù)對(duì)話狀態(tài)進(jìn)行對(duì)話策略的選擇,從而生成自然語(yǔ)言回復(fù)。POMDP-based 對(duì)話系統(tǒng)采用了增強(qiáng)學(xué)習(xí)的框架,通過不斷和用戶模擬器或者真實(shí)用戶進(jìn)行交互試錯(cuò),得到獎(jiǎng)勵(lì)得分來(lái)優(yōu)化對(duì)話策略。統(tǒng)計(jì)對(duì)話系統(tǒng)是一個(gè)模塊化系統(tǒng),它避免了對(duì)專家的高度依賴,但是缺點(diǎn)是模型難以維護(hù),可拓展性也比較受限。

近些年,伴隨著深度學(xué)習(xí)在圖像、語(yǔ)音及文本領(lǐng)域的重大突破,出現(xiàn)了以運(yùn)用深度學(xué)習(xí)為主要方法的第三代對(duì)話系統(tǒng),該系統(tǒng)依然延續(xù)了統(tǒng)計(jì)對(duì)話系統(tǒng)的框架,但各個(gè)模塊都采用了神經(jīng)網(wǎng)絡(luò)模型。由于神經(jīng)網(wǎng)絡(luò)模型表征能力強(qiáng),語(yǔ)言分類或生成的能力大幅提高,因此一個(gè)重要的變化趨勢(shì)是自然語(yǔ)言理解的模型從之前的產(chǎn)生式模型(如貝葉斯網(wǎng)絡(luò))演變成為深度鑒別式模型(如CNN、DNN、RNN)[5],對(duì)話狀態(tài)的獲取不再是利用貝葉斯后驗(yàn)判決得到,而是直接計(jì)算最大條件概率。在對(duì)話策略的優(yōu)化上大家也開始采用深度增強(qiáng)學(xué)習(xí)模型[6]。另一方面,由于端到端序列到序列技術(shù)在機(jī)器翻譯任務(wù)上的成功,使得設(shè)計(jì)端到端對(duì)話系統(tǒng)成為可能,Facebook研究者提出了基于記憶網(wǎng)絡(luò)的任務(wù)對(duì)話系統(tǒng)[4],為研究第三代對(duì)話系統(tǒng)中的端到端任務(wù)導(dǎo)向型對(duì)話系統(tǒng)提出了新的方向。總的來(lái)說,第三代對(duì)話系統(tǒng)效果優(yōu)于第二代系統(tǒng),但是需要大量帶標(biāo)注數(shù)據(jù)才能進(jìn)行有效訓(xùn)練,因此提升模型的跨領(lǐng)域的遷移拓展能力成為熱門的研究方向。

?

常見的對(duì)話系統(tǒng)可分為三類:

  • 聊天型,任務(wù)導(dǎo)向型和問答型。聊天型對(duì)話的目標(biāo)是要產(chǎn)生有趣且富有信息量的自然回復(fù)使得人機(jī)對(duì)話可以持續(xù)進(jìn)行下去[7]。問答型對(duì)話多指一問一答,用戶提出一個(gè)問題,系統(tǒng)通過對(duì)問題進(jìn)行解析和知識(shí)庫(kù)查找以返回正確答案[8]。任務(wù)導(dǎo)向型對(duì)話(以下簡(jiǎn)稱任務(wù)型對(duì)話)則是指由任務(wù)驅(qū)動(dòng)的多輪對(duì)話,機(jī)器需要通過理解、主動(dòng)詢問、澄清等方式來(lái)確定用戶的目標(biāo),調(diào)用相應(yīng)的API查詢后,返回正確結(jié)果,完成用戶需求。通常,任務(wù)型對(duì)話可以被理解為一個(gè)序列決策過程,機(jī)器需要在對(duì)話過程中,通過理解用戶語(yǔ)句更新維護(hù)內(nèi)部的對(duì)話狀態(tài),再根據(jù)當(dāng)前的對(duì)話狀態(tài)選擇下一步的最優(yōu)動(dòng)作(例如確認(rèn)需求,詢問限制條件,提供結(jié)果等等),從而完成任務(wù)。
  • 任務(wù)型對(duì)話系統(tǒng)從結(jié)構(gòu)上可分成兩類,一類是 pipeline系統(tǒng),采用模塊化結(jié)構(gòu)[5](如圖 1),一般包括四個(gè)關(guān)鍵模塊:
    ?自然語(yǔ)言理解(Natural Language Understanding, NLU):對(duì)用戶的文本輸入進(jìn)行識(shí)別解析,得到槽值和意圖等計(jì)算機(jī)可理解的語(yǔ)義標(biāo)簽。
  • ?

    ?對(duì)話狀態(tài)跟蹤(Dialog State Tracking, DST):根據(jù)對(duì)話歷史,維護(hù)當(dāng)前對(duì)話狀態(tài),對(duì)話狀態(tài)是對(duì)整個(gè)對(duì)話歷史的累積語(yǔ)義表示,一般就是槽值對(duì)(slot-value pairs)。
    ?對(duì)話策略(Dialog Policy):根據(jù)當(dāng)前對(duì)話狀態(tài)輸出下一步系統(tǒng)動(dòng)作。一般對(duì)話狀態(tài)跟蹤模塊和對(duì)話策略模塊統(tǒng)稱為對(duì)話管理模塊(Dialog manager, DM)。
    ?自然語(yǔ)言生成(Natural Language Generation, NLG):將系統(tǒng)動(dòng)作轉(zhuǎn)換成自然語(yǔ)言輸出。

    這種模塊化的系統(tǒng)結(jié)構(gòu)的可解釋性強(qiáng),易于落地,大部分業(yè)界的實(shí)用性任務(wù)型對(duì)話系統(tǒng)都采用的此結(jié)構(gòu)。但是其缺點(diǎn)是不夠靈活,各個(gè)模塊之間相對(duì)獨(dú)立,難以聯(lián)合調(diào)優(yōu),適應(yīng)變化的應(yīng)用場(chǎng)景。并且由于模塊之間的誤差會(huì)層層累積,單一模塊的升級(jí)也可能需要整個(gè)系統(tǒng)一起調(diào)整。

    ?

    ?

    圖 1. 任務(wù)導(dǎo)向型對(duì)話系統(tǒng)的模塊化結(jié)構(gòu)[41]

    ?

    任務(wù)型對(duì)話系統(tǒng)的另一種實(shí)現(xiàn)是端到端系統(tǒng),也是近年來(lái)學(xué)界比較熱門的方向9[11](如圖 2),這類結(jié)構(gòu)希望訓(xùn)練一個(gè)從用戶端自然語(yǔ)言輸入到機(jī)器端自然語(yǔ)言輸出的整體映射關(guān)系,具有靈活性強(qiáng)、可拓展性高的特點(diǎn),減少了設(shè)計(jì)過程中的人工成本,打破了傳統(tǒng)模塊之間的隔離。然而,端到端模型對(duì)數(shù)據(jù)的數(shù)量和質(zhì)量要求很高,并且對(duì)于填槽、API調(diào)用等過程的建模不夠明確,現(xiàn)階段業(yè)界應(yīng)用效果有限,仍處在探索中。

    ?

    ?

    圖 2. 任務(wù)導(dǎo)向型對(duì)話系統(tǒng)的端到端結(jié)構(gòu)[41]

    ?

    隨著用戶對(duì)產(chǎn)品體驗(yàn)的要求逐漸提高,實(shí)際對(duì)話場(chǎng)景更加復(fù)雜,對(duì)話管理模塊也需要更多的改進(jìn)和創(chuàng)新。傳統(tǒng)的對(duì)話管理模型通常是建立在一個(gè)明確的話術(shù)體系內(nèi)(即先查找再問詢最后結(jié)束),一般會(huì)預(yù)定義好系統(tǒng)動(dòng)作空間、用戶意圖空間和對(duì)話本體,但是實(shí)際中用戶的行為變化難測(cè),系統(tǒng)的應(yīng)答能力十分有限,這就會(huì)導(dǎo)致傳統(tǒng)對(duì)話系統(tǒng)可拓性差的問題(難以處理預(yù)定義之外的情況)。另外,在很多的真實(shí)業(yè)界場(chǎng)景,存在大量的冷啟動(dòng)問題,缺少足量的標(biāo)注對(duì)話數(shù)據(jù),數(shù)據(jù)的清洗標(biāo)注成本代價(jià)高昂。而在模型訓(xùn)練上,基于深度增強(qiáng)學(xué)習(xí)的對(duì)話管理模型一般都需要大量的數(shù)據(jù),大部分論文的實(shí)驗(yàn)都表明,訓(xùn)練好一個(gè)對(duì)話模型通常需要幾百個(gè)完整的對(duì)話session,這樣低下的訓(xùn)練效率阻礙了實(shí)際中對(duì)話系統(tǒng)的快速開發(fā)和迭代。

    綜上,針對(duì)傳統(tǒng)對(duì)話管理模型的諸多局限,近幾年學(xué)界和業(yè)界的研究者們都開始將焦點(diǎn)放在如何加強(qiáng)對(duì)話管理模型的實(shí)用性上,具體來(lái)說有三大問題:

  • 可拓展性差
  • 標(biāo)注數(shù)據(jù)少
  • 訓(xùn)練效率低
  • 我們將按照這三個(gè)方向,為大家介紹近期最新的研究成果。

    ?

    對(duì)話管理模型研究前沿介紹

    ?

    對(duì)話管理模型痛點(diǎn)一 --- 可拓展性差

    如前文所述,對(duì)話管理器由兩部分組成:對(duì)話狀態(tài)跟蹤器(DST)和對(duì)話策略(dialog policy)。傳統(tǒng)的DST研究中,最具代表的是劍橋大學(xué)的學(xué)者們?cè)?017年提出的神經(jīng)信度跟蹤模型(neural belief tracker, NBT)[12],利用神經(jīng)網(wǎng)絡(luò)來(lái)解決單領(lǐng)域復(fù)雜對(duì)話的對(duì)話狀態(tài)跟蹤問題。NBT 通過表征學(xué)習(xí)(representation learning)來(lái)編碼上輪系統(tǒng)動(dòng)作、本輪用戶語(yǔ)句和候選槽值對(duì),在高維空間中計(jì)算語(yǔ)義的相似性,從而檢測(cè)出本輪用戶提到的槽值。因此NBT可以不依賴于人工構(gòu)建語(yǔ)義詞典,只需借助槽值對(duì)的詞向量表示就能識(shí)別出訓(xùn)練集未見但語(yǔ)義上相似的槽值,實(shí)現(xiàn)槽值的可拓展。后續(xù)地,劍橋?qū)W者們對(duì)NBT進(jìn)一步改進(jìn)13,將輸入的槽值對(duì)改成領(lǐng)域-槽-值三元組,每輪識(shí)別的結(jié)果采用模型學(xué)習(xí)而非人工規(guī)則的方法進(jìn)行累積,所有數(shù)據(jù)采用同一個(gè)模型訓(xùn)練,從而實(shí)現(xiàn)不同領(lǐng)域間的知識(shí)共享,模型的總參數(shù)也不隨領(lǐng)域數(shù)目的增加而增加。在傳統(tǒng)的Dialogue Policy研究領(lǐng)域中,最具代表性的是劍橋?qū)W者們6提出的基于ACER方法的策略優(yōu)化。

    通過結(jié)合 Experience replay 技巧,作者分別嘗試了trust region actor-critic 模型和episodic natural actor-critic 模型,驗(yàn)證了AC系列的深度增強(qiáng)學(xué)習(xí)算法在樣本利用效率、算法收斂性和對(duì)話成功率上都達(dá)到了當(dāng)時(shí)最好的表現(xiàn)。
    然而傳統(tǒng)的對(duì)話管理模型在可拓展性方面仍需改進(jìn),具體在三個(gè)方面:

  • 如何處理變化的用戶意圖,
  • 如何變化的槽位和槽值,
  • 如何處理變化的系統(tǒng)動(dòng)作。
  • ?

    變化的用戶意圖

    在實(shí)際應(yīng)用場(chǎng)景中,時(shí)常會(huì)出現(xiàn)由于用戶意圖未被考慮到,使得對(duì)話系統(tǒng)給出不合理回答的情況。如圖 3所示的例子,用戶的“confirm”意圖未被考慮,這時(shí)就需要加入新的話術(shù)來(lái)幫助系統(tǒng)處理這樣的情況。

    ?

    ?

    圖 3. 出現(xiàn)新意圖的對(duì)話實(shí)例[15]

    ?

    一旦出現(xiàn)訓(xùn)練集未見的新用戶意圖時(shí),傳統(tǒng)模型由于輸出的是表示舊意圖類別的固定one-hot向量,若要包含新的意圖類別,向量就需要進(jìn)行改變,對(duì)應(yīng)的新模型也需要進(jìn)行完全的重訓(xùn)練,這種情況會(huì)降低模型的可維護(hù)性和可拓展性。論文[15]提出了一種“老師-學(xué)生”的學(xué)習(xí)框架來(lái)緩解這一問題,他們將舊模型和針對(duì)新用戶意圖的邏輯規(guī)則作為“老師”,新模型作為“學(xué)生”,構(gòu)成一個(gè)“老師-學(xué)生”訓(xùn)練架構(gòu)。該架構(gòu)使用了知識(shí)蒸餾技術(shù),具體做法是:對(duì)于舊的意圖集合,舊模型的概率輸出直接指導(dǎo)訓(xùn)練新模型;對(duì)于新增的意圖,對(duì)應(yīng)的邏輯規(guī)則作為新的標(biāo)注數(shù)據(jù)來(lái)訓(xùn)練新模型。這樣就使得在新模型不再需要與環(huán)境進(jìn)行新的交互重新訓(xùn)練了。論文在DSTC2數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),首先選擇故意去掉 confirm 這個(gè)意圖,然后再將它作為新意圖加入對(duì)話本體中,依次驗(yàn)證新模型是否具有很好的適應(yīng)能力。圖 4 是實(shí)驗(yàn)結(jié)果,論文新模型(即Extended System)、直接在包含所有意圖的數(shù)據(jù)訓(xùn)練的模型(即 Contrast System)和舊模型進(jìn)行比較,實(shí)驗(yàn)證明新模型對(duì)新意圖的識(shí)別正確率在不同噪聲情況下都不錯(cuò)的擴(kuò)展識(shí)別新意圖的能力。

    ?

    ?

    圖 4. 不同噪聲設(shè)置下各種模型的比較

    ?

    當(dāng)然這種架構(gòu)仍然需要對(duì)系統(tǒng)進(jìn)行一定的訓(xùn)練,[16] 提出一種語(yǔ)義相似性匹配的模型CDSSM能夠在不依賴于標(biāo)注數(shù)據(jù)以及模型重新訓(xùn)練的前提下,解決用戶意圖拓展的問題。CDSSM先利用訓(xùn)練集數(shù)據(jù)中用戶意圖的自然描述直接學(xué)習(xí)出一個(gè)意圖向量(intent embedding)的編碼器,將任意意圖的描述嵌入到一個(gè)高維語(yǔ)義空間中,這樣在測(cè)試時(shí)模型可以直接根據(jù)新意圖的自然描述生成對(duì)應(yīng)的意圖向量,進(jìn)而再做意圖識(shí)別。在后面的內(nèi)容我們可以看到,有很多提高可拓展性的模型均采用了類似的思想,將標(biāo)簽從模型的輸出端移到輸入端,利用神經(jīng)網(wǎng)絡(luò)對(duì)標(biāo)簽 (標(biāo)簽命名本身或者標(biāo)簽的自然描述) 進(jìn)行語(yǔ)義編碼得到某種語(yǔ)義向量再進(jìn)行語(yǔ)義相似性的匹配。

    [43]則給出了另外一種思路,它通過人機(jī)協(xié)同的方式,將人工客服的角色引入到系統(tǒng)線上運(yùn)行的階段來(lái)解決訓(xùn)練集未見的用戶意圖的問題。模型利用一個(gè)額外的神經(jīng)判決器根據(jù)當(dāng)前模型提取出來(lái)的對(duì)話狀態(tài)向量來(lái)判斷是否請(qǐng)求人工,如果請(qǐng)求則將當(dāng)前對(duì)話分發(fā)給線上人工客服來(lái)回答,如果不請(qǐng)求則由模型自身進(jìn)行預(yù)測(cè)。由于通過數(shù)據(jù)學(xué)習(xí)出的判決器有能力對(duì)當(dāng)前對(duì)話是否包含新意圖作一定的判斷,同時(shí)人工的回復(fù)默認(rèn)是正確的,這種人機(jī)協(xié)同的方式十分巧妙地解決了線上測(cè)試出現(xiàn)未見用戶行為的問題,并可以保持比較高對(duì)話準(zhǔn)確率。

    ?

    ?

    變化的槽位和槽值

    在多領(lǐng)域或復(fù)雜領(lǐng)域的對(duì)話狀態(tài)跟蹤問題中,如何處理槽位與槽值的變化一直是一個(gè)難題。對(duì)于有的槽位而言,槽值可能是不可枚舉 的,例如,時(shí)間、地點(diǎn)和人名,甚至槽值集合是動(dòng)態(tài)變化的,例如航班、電影院上映的電影。在傳統(tǒng)的對(duì)話狀態(tài)跟蹤問題中,通常默認(rèn)槽位和槽值的集合固定不變,這樣就大大降低了系統(tǒng)的可拓展性。

    針對(duì)槽值不可枚舉的問題,谷歌研究者[17]提出了一個(gè)候選集(candidate set)的思路。對(duì)每個(gè)槽位,都維護(hù)一個(gè)有總量上限的候選集,它包含了對(duì)話截止目前最多k個(gè)可能的槽值,并賦于每個(gè)槽值一個(gè)分?jǐn)?shù)以表示用戶在當(dāng)前對(duì)話中對(duì)該槽值的偏好程度。系統(tǒng)先利用雙向RNN模型找出本輪用戶語(yǔ)句包含的中某個(gè)槽位的槽值,再將它和候選集中已有的槽值進(jìn)行重新打分排序,這樣每輪的DST就只需在一個(gè)有限的槽值集合上進(jìn)行判決,從而解決不可枚舉槽值的跟蹤問題。針對(duì)未見槽值的跟蹤問題,一般可以采用序列標(biāo)注的模型[18],或者選擇神經(jīng)信度跟蹤器[12]這樣的語(yǔ)義相似匹配模型。

    以上是槽值不固定的情況,如果對(duì)話本體中槽位也變化呢?論文[19]采用了槽位描述編碼器(slot description encoder),對(duì)任何槽(已見的、未見的)的自然語(yǔ)言描述進(jìn)行編碼,得到表示該槽的語(yǔ)義向量,和用戶語(yǔ)句一起作為輸入送入Bi-LSTM模型中,采用序列標(biāo)注的方式輸出識(shí)別到的槽值,見圖 5。該論文做了一個(gè)可接受的假設(shè),即任何槽的自然語(yǔ)言描述是很容易得到的,因此設(shè)計(jì)了一個(gè)在多個(gè)領(lǐng)域具有普適性的概念標(biāo)注器(Concept Tagger)結(jié)構(gòu),槽描述編碼器的實(shí)現(xiàn)是簡(jiǎn)單的詞向量之和。實(shí)驗(yàn)表明,該模型能迅速適應(yīng)新的槽位,相較于傳統(tǒng)方法,該方法的可拓展性有很大的提升。

    ?

    ?

    圖 5. 概念標(biāo)注器結(jié)構(gòu)

    ?

    隨著近幾年序列到序列技術(shù)的發(fā)展,直接利用端到端神經(jīng)網(wǎng)絡(luò)模型將DST的結(jié)果作為一個(gè)序列生成出來(lái)也是一個(gè)很熱門的方向,常見的技巧如注意力機(jī)制(attention mechanism)、拷貝機(jī)制(copy mechanism)均可以用來(lái)提高生成效果。在著名的多領(lǐng)域?qū)υ扢ultiWOZ數(shù)據(jù)集上,來(lái)自港科大的Pascale Fung 教授團(tuán)隊(duì)利用了拷貝網(wǎng)絡(luò),顯著提高了不可枚舉槽的識(shí)別精度 [20]。他們提出的TRADE 模型如圖 6所示,每次檢測(cè)槽值時(shí),模型會(huì)將領(lǐng)域和槽位的不同結(jié)合進(jìn)行語(yǔ)義編碼作為RNN解碼器的初始位置輸入,解碼器通過拷貝網(wǎng)絡(luò),直接將對(duì)應(yīng)的槽值生成出來(lái)。通過生成的方式,無(wú)論是不可枚舉的槽值,還是變化的槽位的槽值,都能使用同一個(gè)模型完成,這可以做到領(lǐng)域間槽值信息的共享,也大大地提高了模型的泛化能力。

    ?

    ?

    圖 6. TRADE模型框架

    ?

    最近一個(gè)明顯的趨勢(shì)是將多領(lǐng)域DST看作一個(gè)機(jī)器閱讀理解的任務(wù),將TRADE這種生成式模型改進(jìn)成鑒別式模型45。不可枚舉槽的追蹤利用類似SQuAD的機(jī)器閱讀理解任務(wù)[46],從對(duì)話歷史和提問中找到對(duì)應(yīng)的 text span作為槽值,而可枚舉槽的追蹤則轉(zhuǎn)化成一個(gè)多項(xiàng)選擇的機(jī)器閱讀理解任務(wù),從候選值中選擇正確的值作為預(yù)測(cè)出的槽值。通過結(jié)合ELMO,BERT等深度上下文詞表示,這些新提出的模型最終在MultiWOZ數(shù)據(jù)集上取得目前最好結(jié)果。

    ?

    變化的系統(tǒng)動(dòng)作

    可拓展性問題的最后一個(gè)方面在于系統(tǒng)動(dòng)作空間難以預(yù)定義。如圖 7所示,在設(shè)計(jì)一個(gè)電子產(chǎn)品推薦系統(tǒng)時(shí),也許一開始并不會(huì)考慮到用戶會(huì)問到如何升級(jí)產(chǎn)品操作系統(tǒng)這樣的問題,但現(xiàn)實(shí)的情況是你無(wú)法限定用戶只問系統(tǒng)能解決的問題。如果系統(tǒng)動(dòng)作空間事先框定,在用戶提出新問題時(shí)就會(huì)導(dǎo)致一連串的答非所問,導(dǎo)致極差的用戶體驗(yàn)。

    ?

    ?

    圖 7. 對(duì)話系統(tǒng)遇到未考慮的系統(tǒng)動(dòng)作時(shí)的對(duì)話案例[22]

    ?

    對(duì)此,我們需要考慮的是,如何設(shè)計(jì)更好的對(duì)話策略網(wǎng)絡(luò),使得系統(tǒng)能夠快速的擴(kuò)展新的動(dòng)作。首先的嘗試來(lái)自微軟[21],他們?cè)噲D通過改變經(jīng)典的DQN結(jié)構(gòu)來(lái)實(shí)現(xiàn)系統(tǒng)在不受限動(dòng)作空間上的增強(qiáng)學(xué)習(xí)。論文的對(duì)話任務(wù)是一個(gè)文字游戲闖關(guān)任務(wù),每輪的動(dòng)作是一句話,動(dòng)作數(shù)目不定,選擇不同的動(dòng)作故事情節(jié)就會(huì)有不同的發(fā)展。作者提出了新的模型Deep Reinforcement Relevance Network (DRRN),通過語(yǔ)義相似性匹配的方式將當(dāng)前的對(duì)話狀態(tài)和各個(gè)可選的系統(tǒng)動(dòng)作一一匹配得到Q函數(shù)。具體來(lái)看:某輪對(duì)話時(shí),每個(gè)長(zhǎng)度不定的動(dòng)作文本會(huì)經(jīng)過神經(jīng)網(wǎng)絡(luò)編碼得到固定長(zhǎng)度的系統(tǒng)動(dòng)作向量,故事背景文本經(jīng)過另一個(gè)神經(jīng)網(wǎng)絡(luò)也得到固定長(zhǎng)度的的對(duì)話狀態(tài)向量,兩個(gè)向量通過交互函數(shù)(如點(diǎn)積)生成最后的Q值。圖 8是論文設(shè)計(jì)模型結(jié)構(gòu)。實(shí)驗(yàn)表明,在“Saving John”和“Machine of Death”兩個(gè)文字游戲上DRRN比傳統(tǒng)DQN(使用padding技巧)的表現(xiàn)更加優(yōu)異。

    ?

    ?

    圖 8. DRRN模型。t輪有兩個(gè)候選動(dòng)作,t+1輪有三個(gè)候選動(dòng)作。

    ?

    論文[22]則希望從對(duì)話系統(tǒng)整體的角度來(lái)解決這個(gè)問題,作者提出了增量學(xué)習(xí)對(duì)話系統(tǒng)(Incremental Dialogue System, IDS),如圖 9所示。首先系統(tǒng)通過Dialogue Embedding 模塊對(duì)對(duì)話歷史編碼得到上下文向量,再利用一個(gè)基于VAE的Uncertainty Estimation模塊根據(jù)上下文向量對(duì)當(dāng)前系統(tǒng)能否給出正確回答進(jìn)行一個(gè)置信度的評(píng)估。類似于主動(dòng)學(xué)習(xí)的方式,若置信度高于閾值,則由對(duì)話管理器對(duì)當(dāng)前所有可選動(dòng)作一一打分,經(jīng)過softmax函數(shù)預(yù)測(cè)出概率分布,若置信度低于閾值,則請(qǐng)求標(biāo)注人員對(duì)本輪的回復(fù)進(jìn)行標(biāo)注(選擇正確回復(fù)或創(chuàng)建新的回復(fù)),得到了新數(shù)據(jù)并入數(shù)據(jù)池里一起在線更新模型。通過這種人類教學(xué)(human-teaching)的方式,IDS系統(tǒng)不僅解決了不受限動(dòng)作空間的學(xué)習(xí)問題,還可以快速地收集高質(zhì)量的數(shù)據(jù),十分貼近實(shí)際生產(chǎn)應(yīng)用。

    ?

    ?

    圖 9. IDS的對(duì)話系統(tǒng)整體框架圖

    ?

    ?

    對(duì)話管理模型痛點(diǎn)二 --- 標(biāo)注數(shù)據(jù)少

    隨著對(duì)話系統(tǒng)應(yīng)用領(lǐng)域的多樣化,對(duì)數(shù)據(jù)的需求也更加多樣化,若想訓(xùn)好一個(gè)任務(wù)型對(duì)話系統(tǒng),通常都需要盡可能多的該領(lǐng)域的數(shù)據(jù),但一般來(lái)說,想要獲取高質(zhì)量的有標(biāo)注數(shù)據(jù)的成本很高。為此學(xué)者們進(jìn)行了各種研究嘗試,主要可分為三種思路:1) 用機(jī)器自動(dòng)標(biāo)注數(shù)據(jù),降低數(shù)據(jù)標(biāo)注的成本;2) 對(duì)話結(jié)構(gòu)挖掘,盡可能高效利用無(wú)標(biāo)注數(shù)據(jù);3) 加強(qiáng)數(shù)據(jù)采集策略,高效獲取優(yōu)質(zhì)的數(shù)據(jù)。

    ?

    機(jī)器自動(dòng)標(biāo)注

    由于人工標(biāo)注數(shù)據(jù)的代價(jià)大、效率低,學(xué)者們希望通過機(jī)器輔助人工來(lái)標(biāo)注數(shù)據(jù),方法大致可分為兩大類:有監(jiān)督方法和無(wú)監(jiān)督方法。論文[23]提出一種架構(gòu)auto-dialabel,用層次聚類的無(wú)監(jiān)督學(xué)習(xí)方法將對(duì)話數(shù)據(jù)中的意圖和槽位自動(dòng)分組,從而實(shí)現(xiàn)對(duì)話數(shù)據(jù)的自動(dòng)標(biāo)注(類別的具體標(biāo)簽需要人工來(lái)定)。該方法是基于一個(gè)假設(shè):相同意圖的表達(dá)可能會(huì)共享相似的背景特征。模型提取的初始特征包括詞向量、POS 標(biāo)注、名詞詞簇和LDA 四種特征。各個(gè)特征經(jīng)由自編碼器轉(zhuǎn)成相同維度的向量后進(jìn)行拼接,再采用RBF(radial bias function)函數(shù)計(jì)算類間距離進(jìn)行動(dòng)態(tài)的層次聚類。距離最近的類將會(huì)自動(dòng)合并,直到類間距離大于預(yù)設(shè)的閾值停止。模型框架如圖 10所示。

    ?

    ?

    圖 10. Auto-dialabel 模型

    ?

    論文[24]則采用有監(jiān)督聚類的方法來(lái)實(shí)現(xiàn)機(jī)器標(biāo)注。作者將每條對(duì)話數(shù)據(jù)看作是一個(gè)個(gè)圖節(jié)點(diǎn),將聚類的過程看作是找出最小生成森林的過程。模型首先采用SVM在問答數(shù)據(jù)集上有監(jiān)督訓(xùn)練出節(jié)點(diǎn)和節(jié)點(diǎn)之間的距離得分模型,再結(jié)合結(jié)構(gòu)化模型和最小子樹生成算法來(lái)將對(duì)話數(shù)據(jù)對(duì)應(yīng)的類別信息作為隱變量推斷出來(lái),從而輸出最佳的聚類結(jié)構(gòu)表示用戶意圖類別。

    對(duì)話結(jié)構(gòu)挖掘
    由于訓(xùn)練對(duì)話系統(tǒng)的高質(zhì)量帶標(biāo)注數(shù)據(jù)稀缺,如何充分地挖掘無(wú)標(biāo)注對(duì)話數(shù)據(jù)中隱含的對(duì)話結(jié)構(gòu)或信息也成為了當(dāng)今的研究熱點(diǎn)之一,隱含的對(duì)話結(jié)構(gòu)或信息在一定程度上有助于對(duì)話策略的設(shè)計(jì)和對(duì)話模型的訓(xùn)練。
    論文[25]提出了一種用變分循環(huán)神經(jīng)網(wǎng)絡(luò)(variational RNN, VRNN)的無(wú)監(jiān)督方法自動(dòng)學(xué)習(xí)對(duì)話數(shù)據(jù)中的隱藏結(jié)構(gòu)。作者給出兩種模型來(lái)獲取對(duì)話中的動(dòng)態(tài)信息:Discrete-VRNN和Direct-Discrete-VRNN。如圖 11所示,x_t是第t輪對(duì)話,h_t表示對(duì)話歷史隱變量,z_t表示對(duì)話結(jié)構(gòu)隱變量(一維one-hot離散變量)。兩種模型的差別在于:對(duì)于D-VRNN,隱變量z_t取決于h_(t-1);而對(duì)于DD-VRNN,隱變量z_t取決于z_(t-1)。VRNN通過最大整個(gè)對(duì)話的似然值,利用VAE的一些常用技巧,估計(jì)出隱變量z_t的后驗(yàn)概率分布。

    ?

    ?

    圖 11. Discrete-VRNN(D-VRNN)與Direct-Discrete-VRNN(DD-VRNN)的示意圖

    ?

    論文實(shí)驗(yàn)表明VRNN 要優(yōu)于傳統(tǒng)的HMM的方法,同時(shí)將對(duì)話結(jié)構(gòu)的信息加入到獎(jiǎng)勵(lì)函數(shù)中,也有助于增強(qiáng)學(xué)習(xí)模型更快地收斂。圖 12 是經(jīng)過D-VRNN 挖掘出的餐館領(lǐng)域的隱變量z_t轉(zhuǎn)移概率的可視化圖。

    ?

    ?

    圖 12. D-VRNN 對(duì)餐館領(lǐng)域的對(duì)話數(shù)據(jù)挖掘出的對(duì)話流結(jié)構(gòu)

    ?

    CMU學(xué)者[26]也嘗試?yán)肰AE的方法,將系統(tǒng)動(dòng)作作為隱變量推斷出來(lái)直接用于對(duì)話策略的選擇,這樣就能減輕預(yù)定義系統(tǒng)動(dòng)作不夠全面帶來(lái)的問題。如圖 13所示,為了簡(jiǎn)便起見,論文采用端到端的對(duì)話系統(tǒng)框架,基線模型是字級(jí)別的增強(qiáng)學(xué)習(xí)模型(即對(duì)話動(dòng)作是詞表中的詞),通過encoder將對(duì)話歷史編碼,再利用decoder解碼生成對(duì)話回復(fù),獎(jiǎng)勵(lì)函數(shù)直接通過比對(duì)生成的對(duì)話回復(fù)語(yǔ)句和真實(shí)對(duì)話回復(fù)語(yǔ)句得到。作者提出的隱動(dòng)作模型和基線模型的區(qū)別是encoder到decoder之間多了離散隱變量的后驗(yàn)推理,對(duì)話動(dòng)作由離散隱變量表示,沒有任何人為的干預(yù)定義。最終實(shí)驗(yàn)證明,基于隱動(dòng)作的端到端增強(qiáng)學(xué)習(xí)模型在語(yǔ)句生成的多樣性和任務(wù)完成率上均超過了基線模型。

    ?

    ?

    圖 13. 基線模型和隱動(dòng)作模型

    ?

    ?

    數(shù)據(jù)采集策略

    最近,谷歌研究者們提出了一種快速收集對(duì)話數(shù)據(jù)的方法[27](見圖 14):首先利用兩個(gè)基于規(guī)則的模擬器交互生成對(duì)話的outline,即用語(yǔ)義標(biāo)簽表示的對(duì)話流骨架;然后利用模板將語(yǔ)義標(biāo)簽轉(zhuǎn)寫為自然語(yǔ)言對(duì)話;最后利用眾包對(duì)自然語(yǔ)句進(jìn)行改寫,使得對(duì)話數(shù)據(jù)的語(yǔ)言表達(dá)更加豐富多樣。這種反向收集數(shù)據(jù)方法不僅收集效率高,而且數(shù)據(jù)標(biāo)注完整、可用性強(qiáng),避免了收集領(lǐng)域數(shù)據(jù)的成本花費(fèi)和大量的人工處理。

    ?

    ?

    圖 14. 對(duì)話outline,模板生成對(duì)話以及眾包重寫對(duì)話的示例

    ?

    上述方法屬于機(jī)器-機(jī)器(machine-to-machine, M2M)的數(shù)據(jù)收集策略:先生成覆蓋面廣的對(duì)話數(shù)據(jù)語(yǔ)義標(biāo)簽,再眾包生成大量對(duì)話語(yǔ)料。其缺點(diǎn)在于,生成的對(duì)話相對(duì)局限,不能涵蓋真實(shí)場(chǎng)景的所有可能性,并且效果依賴于模擬器的好壞。

    學(xué)界還有另外兩種常用于對(duì)話系統(tǒng)數(shù)據(jù)收集的方法:人-機(jī)對(duì)話(human-to-machine,H2M)和人-人對(duì)話(human-to-human, H2H)。H2H 方法要求用戶(由眾包人員扮演)和客服(由另一眾包人員扮演)進(jìn)行多輪對(duì)話,用戶負(fù)責(zé)基于某些指定的對(duì)話目標(biāo)(例如買機(jī)票)提需求,客服負(fù)責(zé)標(biāo)注對(duì)話標(biāo)簽和創(chuàng)建對(duì)話回復(fù)。這種模式被稱為 Wizard-of-Oz 框架,對(duì)話研究的諸多數(shù)據(jù)集如 WOZ[5], MultiWOZ[28]均采用此方式收集。H2H 方法可以得到最貼近實(shí)際業(yè)務(wù)場(chǎng)景的對(duì)話數(shù)據(jù),但是需要為了不同的任務(wù)需要設(shè)計(jì)不一樣的互動(dòng)界面,而且需要耗費(fèi)大量人力清理錯(cuò)誤的標(biāo)注,成本相當(dāng)昂貴。H2M 的數(shù)據(jù)收集策略則是讓用戶和訓(xùn)練到一定程度的機(jī)器直接進(jìn)行對(duì)話在線收集數(shù)據(jù),并且利用增強(qiáng)學(xué)習(xí)不斷改進(jìn)對(duì)話管理模型,著名的 DSTC2&3 數(shù)據(jù)集就是通過這種方法收集得到。H2M 方法的效果總體比較依賴于對(duì)話管理模型的初始效果,并且在線收集的數(shù)據(jù)噪聲較大,清理成本也會(huì)較高,影響模型優(yōu)化的效率。

    對(duì)話管理模型痛點(diǎn)三 --- 訓(xùn)練效率低
    隨著深度增強(qiáng)學(xué)習(xí)在游戲圍棋領(lǐng)域的大獲成功,該方法在任務(wù)導(dǎo)向型對(duì)話領(lǐng)域也有廣泛應(yīng)用。例如論文[6]的ACER對(duì)話管理方法,使用了model-free 深度增強(qiáng)學(xué)習(xí),通過結(jié)合Experience Replay、信度域約束、預(yù)訓(xùn)練等技巧,大大提高了增強(qiáng)學(xué)習(xí)算法在任務(wù)型對(duì)話領(lǐng)域的訓(xùn)練效率和穩(wěn)定性。

    然而,簡(jiǎn)單地套用增強(qiáng)學(xué)習(xí)算法并不能滿足對(duì)話系統(tǒng)的實(shí)際應(yīng)用。這主要是因?yàn)閷?duì)話領(lǐng)域不像游戲圍棋那樣有清晰的規(guī)則、獎(jiǎng)勵(lì)函數(shù),動(dòng)作空間簡(jiǎn)單明確,還有完美的環(huán)境模擬器可以生成數(shù)以億計(jì)的高質(zhì)量交互數(shù)據(jù)。對(duì)話任務(wù)中,一般包括了多樣變化的槽位槽值和動(dòng)作意圖,這使得對(duì)話系統(tǒng)的動(dòng)作空間急劇增大且難以預(yù)定義。傳統(tǒng)扁平的增強(qiáng)學(xué)習(xí)(flat reinforcement learning)方法由于對(duì)所有的系統(tǒng)動(dòng)作進(jìn)行one-hot編碼,會(huì)存在維度災(zāi)難,因此不再適用于處理動(dòng)作空間非常大的復(fù)雜對(duì)話問題,為此學(xué)者們進(jìn)行了諸多研究嘗試,包括model-free RL、model-based RL和human-in-the-loop三個(gè)方向。

    ?

    Model-free 增強(qiáng)學(xué)習(xí)–分層增強(qiáng)學(xué)習(xí)

    分層增強(qiáng)學(xué)習(xí)(Hierarchical Reinforcement Learning, HRL)基于“分而治之”的理念,將復(fù)雜任務(wù)分解成多個(gè)子任務(wù)(sub-task),解決了傳統(tǒng)扁平的增強(qiáng)學(xué)習(xí)的維度災(zāi)難。論文[29]首次將分層增強(qiáng)學(xué)習(xí)(HRL)應(yīng)用到任務(wù)導(dǎo)向型對(duì)話領(lǐng)域,作者利用專家知識(shí)把復(fù)雜的對(duì)話任務(wù)在時(shí)序維度上拆分成多個(gè)子任務(wù),例如一個(gè)復(fù)雜的旅行問題可以分解為訂機(jī)票、訂酒店、租車等子問題。根據(jù)這個(gè)拆分,他們?cè)O(shè)計(jì)了兩個(gè)層次的對(duì)話策略網(wǎng)絡(luò),一個(gè)層次負(fù)責(zé)選擇和安排所有的子任務(wù),另一個(gè)層次負(fù)責(zé)具體子任務(wù)的執(zhí)行。
    他們提出的對(duì)話管理模型(如圖 15 所示)包括:

    • 頂層策略(top-level policy),用于根據(jù)對(duì)話狀態(tài)選擇子任務(wù);
    • 底層策略(low-level policy),用于完成子任務(wù)的具體的某個(gè)對(duì)話動(dòng)作;
    • 全局對(duì)話狀態(tài)追蹤,記錄整體對(duì)話狀態(tài)。整個(gè)對(duì)話任務(wù)完成之后,頂層策略會(huì)收到外部獎(jiǎng)勵(lì)(external reward)。

    除此以外,模型還新增了內(nèi)部評(píng)定模塊(internal critic),用于根據(jù)對(duì)話狀態(tài)估計(jì)子任務(wù)完成的可能性(子任務(wù)的填槽程度),底層策略會(huì)根據(jù)子任務(wù)完成程度收到內(nèi)部評(píng)定模塊的一個(gè)內(nèi)部獎(jiǎng)勵(lì)(intrinsic reward)。

    ?

    ?

    圖 15. 任務(wù)型對(duì)話系統(tǒng)的分層增強(qiáng)學(xué)習(xí)框架

    ?

    面對(duì)復(fù)雜的對(duì)話問題,傳統(tǒng)的增強(qiáng)學(xué)習(xí)的每一步?jīng)Q策都在選擇基本系統(tǒng)動(dòng)作,比如詢問槽值或者確認(rèn)約束,而分層增強(qiáng)學(xué)習(xí)的先通過頂層策略選擇一大類基本動(dòng)作的集合,再通過底層策略選擇當(dāng)前集合的基本動(dòng)作,流程如圖 16所示。這種對(duì)動(dòng)作空間的層次劃分,能夠考慮到不同子任務(wù)之間的時(shí)序約束關(guān)系,有助于完成復(fù)合對(duì)話任務(wù)(composite task)。并且論文通過加入內(nèi)部獎(jiǎng)勵(lì)的方式,有效緩解了獎(jiǎng)勵(lì)稀疏的問題,加快了增強(qiáng)學(xué)習(xí)的訓(xùn)練,也在一定程度上避免了對(duì)話在不同子任務(wù)之間頻繁切換,提高了動(dòng)作預(yù)測(cè)準(zhǔn)確率。當(dāng)然動(dòng)作的分層設(shè)計(jì)比較依賴專家知識(shí),需要通過專家來(lái)確定子任務(wù)的種類,近期相應(yīng)地出現(xiàn)了一些對(duì)話子任務(wù)自動(dòng)發(fā)現(xiàn)的工作30,通過無(wú)監(jiān)督的方法,對(duì)整個(gè)對(duì)話歷史的對(duì)話狀態(tài)序列進(jìn)行自動(dòng)切分,從而避免人工構(gòu)建對(duì)話子任務(wù)結(jié)構(gòu)。

    ?

    ?

    圖 16. 分層增強(qiáng)學(xué)習(xí)的策略選擇流程示意圖

    ?

    Model-free 增強(qiáng)學(xué)習(xí)–封疆增強(qiáng)學(xué)習(xí)!

    封疆增強(qiáng)學(xué)習(xí)(Feudal Reinforcement Learning, FRL)是另一種適用于大維度問題的增強(qiáng)學(xué)習(xí)方法。分層增強(qiáng)學(xué)習(xí)是把對(duì)話策略按照時(shí)間維度上的不同任務(wù)階段劃分成子策略,從而降低策略學(xué)習(xí)的復(fù)雜度;而封疆增強(qiáng)學(xué)習(xí)(FRL)是在空間維度上把策略進(jìn)行劃分,限制子策略負(fù)責(zé)的動(dòng)作范圍,劃分了“管轄疆域”,從而降低子策略的復(fù)雜度。封疆增強(qiáng)學(xué)習(xí)(FRL)不劃分子任務(wù),而是應(yīng)用了狀態(tài)空間的抽象化函數(shù),從對(duì)話狀態(tài)中提取有用的特征。這種抽象化有利于封疆增強(qiáng)學(xué)習(xí)(FRL)在大型問題中的應(yīng)用以及在不同領(lǐng)域之間的遷移,具有較強(qiáng)的擴(kuò)展性。
    劍橋?qū)W者們首次將封疆增強(qiáng)學(xué)習(xí)[32]運(yùn)用到任務(wù)導(dǎo)向?qū)υ捪到y(tǒng)領(lǐng)域,將動(dòng)作空間按照是否和槽位相關(guān)來(lái)進(jìn)行劃分,這樣只利用了動(dòng)作空間的自然結(jié)構(gòu)而不需要額外的專家知識(shí)。他們提出了如圖 17所示的封疆策略結(jié)構(gòu),該結(jié)構(gòu)的決策過程分兩步:1)決定下一步動(dòng)作是否需要槽位作為參數(shù);2)根據(jù)第一步的決策,以及對(duì)應(yīng)的不同槽位采用不同的底層策略選擇下一步動(dòng)作。

    ?

    ?

    圖 17. 封疆增強(qiáng)學(xué)習(xí)在任務(wù)導(dǎo)向型對(duì)話系統(tǒng)上的應(yīng)用

    ?

    總的來(lái)說,分層增強(qiáng)學(xué)習(xí)(HRL)與封疆增強(qiáng)學(xué)習(xí)(HRL)都是將高維度的復(fù)雜動(dòng)作空間進(jìn)行不同方式的拆分,以解決傳統(tǒng) RL 動(dòng)作空間維度大導(dǎo)致訓(xùn)練效率低的問題。分層增強(qiáng)學(xué)習(xí)(HRL)對(duì)任務(wù)的分割合理,比較符合人類的理解,但是需要專家知識(shí)來(lái)拆分子任務(wù)。封疆增強(qiáng)學(xué)習(xí)(FRL)對(duì)復(fù)雜問題的拆分則直接考慮其動(dòng)作本身的邏輯結(jié)構(gòu),不考慮不同子任務(wù)之間的相互約束。

    ?

    Model-based 增強(qiáng)學(xué)習(xí)

    以上討論的屬于無(wú)模型(model-free)增強(qiáng)學(xué)習(xí),它是通過和環(huán)境交互試錯(cuò)得到大量弱監(jiān)督數(shù)據(jù),再去訓(xùn)練一個(gè)價(jià)值網(wǎng)絡(luò)或者策略網(wǎng)絡(luò),而不關(guān)心環(huán)境本身。與之相對(duì)的是基于模型的(model-based)增強(qiáng)學(xué)習(xí),它的學(xué)習(xí)過程如圖 18。其特點(diǎn)是對(duì)環(huán)境直接進(jìn)行建模,利用和環(huán)境交互得到的數(shù)據(jù)學(xué)習(xí)出一個(gè)狀態(tài)和獎(jiǎng)勵(lì)的概率轉(zhuǎn)移函數(shù),即環(huán)境模型,然后系統(tǒng)可以和環(huán)境模型交互產(chǎn)生更多的訓(xùn)練數(shù)據(jù),因此model-based增強(qiáng)學(xué)習(xí)一般比model-free增強(qiáng)學(xué)習(xí)的訓(xùn)練效率要高,尤其是在和環(huán)境交互代價(jià)昂貴的場(chǎng)景。但其效果取決于環(huán)境建模的好壞。

    ?

    ?

    圖 18. model-based的增強(qiáng)學(xué)習(xí)的流程

    ?

    采用 model-based 增強(qiáng)學(xué)習(xí)來(lái)提高訓(xùn)練效率是最近研究熱點(diǎn),微軟首先將經(jīng)典的 Deep Dyna-Q(DDQ)算法應(yīng)用到對(duì)話中[33],如圖 19c 所示,DDQ 訓(xùn)練開始之前,先利用少量已有的對(duì)話數(shù)據(jù)對(duì)策略模型和環(huán)境模型(world model)進(jìn)行預(yù)訓(xùn)練,之后 DDQ的訓(xùn)練不斷循環(huán)三個(gè)步驟:1)直接增強(qiáng)學(xué)習(xí) --- 通過和真實(shí)用戶在線對(duì)話交互,更新策略模型并且儲(chǔ)存對(duì)話數(shù)據(jù);2)訓(xùn)練環(huán)境模型 --- 利用收集到的真實(shí)對(duì)話數(shù)據(jù)更新環(huán)境模型;3)規(guī)劃(planning)--- 利用和環(huán)境模型交互得到的對(duì)話數(shù)據(jù)來(lái)訓(xùn)練策略模型。其中環(huán)境模型(如圖 20)是一個(gè)神經(jīng)網(wǎng)絡(luò),對(duì)環(huán)境的狀態(tài)轉(zhuǎn)換和獎(jiǎng)勵(lì)進(jìn)行概率建模,輸入是當(dāng)前對(duì)話狀態(tài)以及系統(tǒng)動(dòng)作,輸出是下一輪用戶動(dòng)作、環(huán)境獎(jiǎng)勵(lì)和對(duì)話終止變量。環(huán)境模型使得 DDQ 降低了在線增強(qiáng)學(xué)習(xí)(如圖 19a)對(duì)人機(jī)交互數(shù)據(jù)量的需求,也避免了和用戶模擬器交互(如圖 19b)質(zhì)量不高的問題。

    ?

    ?

    圖 19. 三種不同增強(qiáng)學(xué)習(xí)框架

    ?

    ?

    ?

    圖 20. 環(huán)境模型的結(jié)構(gòu)

    ?

    環(huán)境模型與對(duì)話領(lǐng)域中的用戶模擬器比較相似,它們都可以用于模擬真實(shí)用戶的動(dòng)作并和系統(tǒng)的對(duì)話管理模塊交互。但兩者不同之處在于用戶模擬器本質(zhì)是系統(tǒng)的外部環(huán)境,用于模擬真實(shí)用戶,環(huán)境模型是系統(tǒng)的一部分,屬于系統(tǒng)內(nèi)部模型。

    在DDQ的工作基礎(chǔ)上,微軟研究者們做了更多的擴(kuò)展:為了提高環(huán)境模型產(chǎn)生的對(duì)話數(shù)據(jù)的真實(shí)性,他們提出[34]采用對(duì)抗訓(xùn)練的思想提高對(duì)話數(shù)據(jù)的生成質(zhì)量;針對(duì)何時(shí)使用和真實(shí)環(huán)境交互的數(shù)據(jù),何時(shí)使用和環(huán)境模型交互的數(shù)據(jù),論文[35]探討了可行方案;為了將真人交互也納入進(jìn)來(lái),論文[36]給出了一個(gè)統(tǒng)一的對(duì)話框架。這種人類教學(xué)(human-teaching)的思想也是目前業(yè)界構(gòu)建對(duì)話管理模型的關(guān)注熱點(diǎn),我們?cè)谙滦」?jié)給出更多闡述。

    Human-in-the-loop

    我們希望能充分引入人的知識(shí)經(jīng)驗(yàn)來(lái)生成高質(zhì)量數(shù)據(jù),提高模型訓(xùn)練效率。Human-in-the-loop增強(qiáng)學(xué)習(xí)[37]就是一種將人類引入機(jī)器人訓(xùn)練過程的方法,通過設(shè)計(jì)好的人機(jī)交互方式,人類可以高效地指導(dǎo)訓(xùn)練增強(qiáng)學(xué)習(xí)模型。為了進(jìn)一步提升任務(wù)導(dǎo)向?qū)υ捪到y(tǒng)的訓(xùn)練效率,針對(duì)對(duì)話問題的特性設(shè)計(jì)有效的human-in-the-loop方式成為了研究人員新的探索方向。

    ?

    ?

    圖 21. 監(jiān)督式預(yù)訓(xùn)練、模仿學(xué)習(xí)和在線增強(qiáng)學(xué)習(xí)結(jié)合的復(fù)合式學(xué)習(xí)

    ?

    谷歌研究者提出了一種人類教學(xué)和增強(qiáng)學(xué)習(xí)結(jié)合的復(fù)合學(xué)習(xí)方法[37](如圖 21),在有監(jiān)督預(yù)訓(xùn)練和在線增強(qiáng)學(xué)習(xí)之間增加一個(gè)人類教學(xué)階段,讓人介入進(jìn)來(lái)打標(biāo)簽,避免了有監(jiān)督預(yù)訓(xùn)練導(dǎo)致的covariate shift 問題[42]。亞馬遜研究者也提出一種類似的人類教學(xué)框架[37]:每輪對(duì)話中,系統(tǒng)都推薦4條回復(fù)供客服專家選擇;然后客服專家決定是選擇4條回復(fù)中的一條,還是另外編輯新的回復(fù);最后由客服專家把選擇好或者編輯好的回復(fù)發(fā)給用戶。利用這種方式,開發(fā)人員可以快速地更新對(duì)話系統(tǒng)能力,適合落地。

    以上是系統(tǒng)被動(dòng)地接受人對(duì)數(shù)據(jù)進(jìn)行標(biāo)注,但是好的系統(tǒng)也應(yīng)該學(xué)會(huì)主動(dòng)提問、尋求人的幫助。論文[40]提出了陪伴式學(xué)習(xí)(companion learning)的架構(gòu)(如圖 22),在傳統(tǒng)的增強(qiáng)學(xué)習(xí)框架中加入老師的角色(即人),老師可以糾正對(duì)話系統(tǒng)(即學(xué)生)的回復(fù)(圖左側(cè)開關(guān)),也能以內(nèi)部reward的形式對(duì)學(xué)生的回復(fù)進(jìn)行評(píng)價(jià)(圖右側(cè)開關(guān))。對(duì)于主動(dòng)學(xué)習(xí)的實(shí)現(xiàn),作者提出了對(duì)話決策確信度(decision certainty)的概念,通過dropout技巧對(duì)學(xué)生策略網(wǎng)絡(luò)進(jìn)行多次采樣,得到可取動(dòng)作的最大概率近似估計(jì),再通過計(jì)算該最大概率的若干對(duì)話輪次的滑動(dòng)平均值作為學(xué)生策略網(wǎng)絡(luò)的決策確信度。確信度若低于目標(biāo)值,則根據(jù)確信度與目標(biāo)值的差距,決定老師是否參與進(jìn)來(lái)糾正錯(cuò)誤和提供獎(jiǎng)勵(lì)函數(shù),確信度高于目標(biāo)值,則停止向老師學(xué)習(xí),系統(tǒng)自行進(jìn)行判決。

    ?

    ?

    圖 22. 老師糾正學(xué)生的回復(fù)(左側(cè)開關(guān))或者對(duì)學(xué)生的回復(fù)做出評(píng)價(jià)(右側(cè)開關(guān))

    ?

    主動(dòng)學(xué)習(xí)的關(guān)鍵在于估計(jì)出對(duì)話系統(tǒng)對(duì)自身決策的確信度,除了上述對(duì)策略網(wǎng)絡(luò)進(jìn)行dropout的方法,還有以隱變量為條件變量,計(jì)算策略網(wǎng)絡(luò)分布Jensen-Shannon散度的方法[22]、根據(jù)當(dāng)前系統(tǒng)對(duì)話成功率做判斷的方法[36]。

    ?

    小蜜Conversational AI團(tuán)隊(duì)的對(duì)話管理框架

    為了保證穩(wěn)定性和可解釋性,目前業(yè)界對(duì)話管理模塊多采用基于規(guī)則的方法。阿里巴巴-達(dá)摩院-小蜜Conversational AI團(tuán)隊(duì)在去年就開始嘗試對(duì)話管理模型化的工作,并進(jìn)行了深入地探索。在真實(shí)的對(duì)話系統(tǒng)建設(shè)中,我們需要解決兩個(gè)問題:1)如何獲得特定場(chǎng)景的大量對(duì)話數(shù)據(jù),2)怎么利用算法充分發(fā)揮數(shù)據(jù)的價(jià)值?

    對(duì)于整個(gè)模型化的框架設(shè)計(jì),目前我們規(guī)劃成四步走的路線(如圖 23所示):

    ?

    ?

    圖 23. 對(duì)話管理模型化四步走路線

    ?

    第一步,先利用小蜜Conversational AI團(tuán)隊(duì)自主研發(fā)的對(duì)話工廠(dialog studio)快速構(gòu)建一個(gè)基于規(guī)則對(duì)話流的對(duì)話引擎(稱為TaskFlow),同時(shí)用類似的對(duì)話流去構(gòu)建一個(gè)用戶模擬器。在構(gòu)建好用戶模擬器和對(duì)話引擎之后,兩者采用M2M方式持續(xù)交互沉淀出大量的對(duì)話數(shù)據(jù)。

    第二步,有了一定量的對(duì)話數(shù)據(jù)后,我們?cè)倮糜斜O(jiān)督學(xué)習(xí)訓(xùn)練一個(gè)神經(jīng)網(wǎng)絡(luò),構(gòu)建和規(guī)則對(duì)話引擎能力基本相當(dāng)?shù)膶?duì)話管理模型,實(shí)現(xiàn)對(duì)話管理的初步模型化。模型的設(shè)采用語(yǔ)義相似匹配和端到端生成兩種方法結(jié)合來(lái)實(shí)現(xiàn)可拓展性,對(duì)于動(dòng)作空間較大的對(duì)話任務(wù)采用HRL進(jìn)行動(dòng)作劃分。

    第三步,有了初步的對(duì)話管理模型,在開發(fā)階段,我們讓系統(tǒng)和改進(jìn)的用戶模擬器或人工智能訓(xùn)練師進(jìn)行交互,通過off-policy ACER增強(qiáng)學(xué)習(xí)算法讓系統(tǒng)的對(duì)話能力持續(xù)地增強(qiáng)。

    第四步,人機(jī)對(duì)話體驗(yàn)達(dá)到初步實(shí)用之后,就可以上線運(yùn)行,引入人的因素,收集用戶真實(shí)交互數(shù)據(jù),同時(shí)通過一些UI設(shè)計(jì)方便地引入用戶的反饋,持續(xù)不斷地更新強(qiáng)化模型。沉淀出大量人機(jī)對(duì)話數(shù)據(jù)也會(huì)進(jìn)一步進(jìn)行做數(shù)據(jù)分析和挖掘,用于客戶洞察。

    目前,我們打造的基于增強(qiáng)學(xué)習(xí)的對(duì)話管理模型,在訂會(huì)議室這種中等復(fù)雜規(guī)模的對(duì)話任務(wù)上,和用戶模擬器交互的對(duì)話完成率可達(dá)80%,如圖24所示。

    ?

    ?

    圖 24. 小蜜Conversational AI團(tuán)隊(duì)的對(duì)話管理模型框架和評(píng)價(jià)指標(biāo)

    ?

    總結(jié)

    本綜述圍繞對(duì)話管理(Dialog Management, DM)模型的最新前沿研究做了一個(gè)詳細(xì)的介紹,針對(duì)傳統(tǒng)對(duì)話管理的痛點(diǎn)劃分了三個(gè)大的方向:1)可拓展性差 2)標(biāo)注數(shù)據(jù)少 3)訓(xùn)練效率低。在可拓展性方面,我們介紹了處理變化的用戶意圖、對(duì)話本體、系統(tǒng)動(dòng)作空間的常用方法,主要有語(yǔ)義相似匹配方法、知識(shí)蒸餾方法和序列生成方法;對(duì)于標(biāo)注數(shù)據(jù)稀缺問題,我們介紹了機(jī)器自動(dòng)標(biāo)注、對(duì)話結(jié)構(gòu)有效挖掘和數(shù)據(jù)高效收集策略三部分內(nèi)容;而針對(duì)傳統(tǒng)DM中RL模型訓(xùn)練效率低下的問題,學(xué)界有嘗試引入HRL、FRL等方法對(duì)動(dòng)作空間進(jìn)行層次劃分,也有利用model-based RL對(duì)環(huán)境進(jìn)行建模提高訓(xùn)練效率,將human-in-the-loop引入對(duì)話系統(tǒng)訓(xùn)練框架亦是當(dāng)下十分活躍的研究方向。最后我們對(duì)阿里巴巴-達(dá)摩院-小蜜Conversational AI團(tuán)隊(duì)目前在DM模型化的進(jìn)展做了一個(gè)比較詳細(xì)的匯報(bào)介紹,希望本綜述能為大家的對(duì)話管理研究提供一些啟發(fā)和思考。

    總結(jié)

    以上是生活随笔為你收集整理的深度前沿:对话管理模型研究最新进展的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。

    中文字幕在线播放一区二区 | 午夜手机电影 | 国产乱视频 | 欧美a√在线 | 丁香网婷婷 | 黄色av一区二区三区 | 国产一级电影免费观看 | 中文字幕精品三区 | 成人在线播放av | 亚洲 欧美 综合 在线 精品 | 欧美午夜久久久 | 国产精品1区2区在线观看 | 91av手机在线观看 | 免费看黄色小说的网站 | 亚洲二区精品 | 国产高清成人在线 | 亚洲精品乱码久久久久久按摩 | 91免费日韩 | 亚洲精品小区久久久久久 | 国产一区在线视频观看 | 色狠狠综合天天综合综合 | www.久久免费视频 | 69视频国产 | 国产h片在线观看 | 毛片网站观看 | 国产精品mv在线观看 | 天天综合网久久综合网 | 国产.精品.日韩.另类.中文.在线.播放 | 久久综合色影院 | 国产1区2区3区精品美女 | 国产精品美女久久久久久久网站 | 亚洲精品伦理在线 | 国产日韩中文字幕在线 | 五月婷婷视频在线观看 | 日本一区二区三区视频在线播放 | 在线不卡视频 | 久久成人一区二区 | 蜜桃视频精品 | 国产一区二区三区黄 | 国产成人免费观看久久久 | 国产精品永久在线 | 美女网站黄在线观看 | 狠狠色丁香婷婷综合久小说久 | 看v片 | 天天插天天操天天干 | 在线91网| 久久婷五月 | 99久精品 | 精品自拍av| 最近日本中文字幕a | 日韩高清在线一区二区 | 在线免费观看国产精品 | 日本不卡一区二区三区在线观看 | 97国产超碰| 超碰99在线 | 18+视频网站链接 | 91亚洲在线 | 美女视频黄免费网站 | 国产精品亚洲a | 99亚洲精品视频 | 久久99国产综合精品 | 国产精品99久久久久久大便 | 国产青青青| 欧美日韩在线看 | 911精品视频 | 日韩视频免费播放 | avove黑丝 | 黄色av电影 | 成年人免费在线观看网站 | 99热99re6国产在线播放 | 亚洲精品乱码久久久久久久久久 | 久久免费黄色 | 久久理论电影网 | 日韩av一卡二卡三卡 | av网站免费看 | 91漂亮少妇露脸在线播放 | 天天干国产 | 69av国产 | 婷婷伊人五月天 | 99久久精品无码一区二区毛片 | 日日精品| 亚洲高清精品在线 | 美女网站视频色 | 国产精品久久久久久久久久尿 | 成年美女黄网站色大片免费看 | 国产精品丝袜 | 激情av五月婷婷 | 国产精品免费久久久久久 | 久久av一区二区三区亚洲 | 在线观看日本高清mv视频 | 在线国产能看的 | 九九久 | av官网| 国产日韩精品欧美 | 久久久观看 | 973理论片235影院9 | 天天干天天拍天天操天天拍 | 中文字幕日韩电影 | 粉嫩av一区二区三区四区在线观看 | 一区二区三区在线观看 | 五月精品 | 天天躁日日躁狠狠 | 国产999精品 | 久久免费激情视频 | 麻豆av一区二区三区在线观看 | 国产成人精品亚洲 | 国产成人三级在线 | 国产一线天在线观看 | 99精品视频99 | 欧美日韩国产一区二区在线观看 | 亚洲精品中文在线资源 | 国产精品大片在线观看 | 亚洲最大在线视频 | 中中文字幕av在线 | 国产精品久久久久久69 | av电影av在线 | 久久亚洲国产精品 | 超碰精品在线 | 伊人久久五月天 | 99精品视频在线观看播放 | 国产视频手机在线 | 国产成人精品亚洲日本在线观看 | 精品福利视频在线观看 | 激情综合国产 | 黄色电影小说 | 国产成人福利片 | 国产特级毛片aaaaaa毛片 | 久久久毛片| 91精品爽啪蜜夜国产在线播放 | 日b黄色片| 国产色 在线 | 亚洲涩涩涩涩涩涩 | 久久综合成人网 | 日日躁天天躁 | 成人av电影免费观看 | 色综合天天视频在线观看 | 99热精品国产 | 久久国产精品一区二区三区 | 国产精品激情在线观看 | 成人久久18免费网站图片 | 亚洲欧美视频网站 | 韩国在线一区二区 | 在线精品观看 | 国产毛片aaa | 国产美女精品视频 | 国产 日韩 欧美 自拍 | 久99久精品视频免费观看 | 国产最新视频在线 | 午夜在线免费观看 | h网站免费在线观看 | 欧美日韩免费一区 | 中文字幕在线观看第二页 | 久久国产精品影视 | 色综合天天做天天爱 | 国产精品久久久久永久免费看 | 国产手机精品视频 | 激情久久网 | 超碰97在线资源站 | 欧美视频xxx| 免费av免费观看 | 亚洲国产中文字幕 | 超碰97人人在线 | 久久精品亚洲综合专区 | 精品在线不卡 | 一区 二区 精品 | 精品一区二区在线免费观看 | 在线观看黄网站 | 日韩视频免费看 | 久久一区国产 | 成人中文字幕+乱码+中文字幕 | 国产精品久久久久久一区二区三区 | 日韩影视在线观看 | 三级黄色理论片 | 国模视频一区二区 | 在线观看日本韩国电影 | 国产精品久久久久久久久久久久 | 日日操操操 | 在线观看香蕉视频 | 中文字幕色婷婷在线视频 | av在线播放一区二区三区 | 久久国产品 | 欧美激情精品久久 | 在线只有精品 | 国产一二区视频 | 亚洲精品久久久久久久不卡四虎 | 欧美一二三区在线观看 | 91香蕉视频好色先生 | 久久久福利影院 | 久久午夜免费视频 | 日韩欧美一区二区三区视频 | 久久精品欧美一区二区三区麻豆 | 国产小视频免费在线观看 | 亚洲精品五月 | 99久久精品国产毛片 | 在线观看视频97 | 91| 日本最新中文字幕 | 欧美 高跟鞋交 xxxxhd | 国产精品理论片在线观看 | 欧美日韩亚洲在线观看 | 国产精品日韩在线 | 91精品欧美一区二区三区 | 丁香花在线观看免费完整版视频 | 国产精品丝袜 | 手机av看片 | 成年人网站免费在线观看 | 亚洲天堂精品视频 | 高清日韩一区二区 | 蜜桃av人人夜夜澡人人爽 | av无限看| 国产123区在线观看 国产精品麻豆91 | 99久久99久久精品免费 | 成人在线视| 久久99热精品 | 精品国产乱码久久久久久天美 | 国产91精品久久久久 | 亚洲精品乱码久久久久久蜜桃动漫 | 国产午夜三级一区二区三桃花影视 | 欧美日韩不卡一区二区三区 | 久久老司机精品视频 | 美女视频a美女大全免费下载蜜臀 | 激情婷婷在线 | 久久久香蕉视频 | 国产日韩精品一区二区 | 六月丁香婷婷在线 | 国产无遮挡又黄又爽在线观看 | 人人澡人人爱 | 国产99视频在线观看 | 日本激情中文字幕 | 伊人五月天.com | 九九在线国产视频 | 日本精品视频一区 | 视频成人永久免费视频 | 日韩在线免费高清视频 | 国产精品美女视频网站 | 毛片永久新网址首页 | 欧美有色 | 91在线看视频免费 | 69xxxx欧美 | 国产一卡二卡四卡国 | 久日精品| 视频在线观看日韩 | 人成在线免费视频 | 网站在线观看日韩 | 国产在线p | 亚洲三级av | 亚洲麻豆精品 | 久久久久久久久国产 | 日日天天干| 成人黄色电影在线 | 中文字幕乱视频 | 超碰在线91 | 中文一区在线观看 | 欧美性色xo影院 | 日韩视频一区二区 | 中文字幕在线免费观看视频 | 黄色一级免费网站 | 色com | 香蕉在线视频观看 | 黄色日本免费 | 国产欧美三级 | 天天操天天操天天操天天 | 一本色道久久精品 | 亚州精品视频 | 成人毛片在线观看 | 国产精品欧美久久久久久 | 亚洲一二三久久 | 西西大胆啪啪 | 精选久久| 久久免费播放视频 | 国产精品男女啪啪 | 久久久影视 | 91在线视频观看免费 | 麻豆视频免费在线 | www.久久成人 | 亚洲黄在线观看 | 九九视频在线观看视频6 | 久久精品超碰 | 日本性久久 | 91麻豆视频| 首页av在线 | 国产精品毛片一区视频播不卡 | 国产精品久久久久久久久毛片 | 国产免费av一区二区三区 | 国产精品第十页 | 精品美女国产在线 | 91夜夜夜| 天天在线视频色 | 久久精品国产一区二区 | 天堂va欧美va亚洲va老司机 | 久久不卡免费视频 | 天天干 天天摸 天天操 | 色的网站在线观看 | 日日天天狠狠 | 92精品国产成人观看免费 | 久久精品网站视频 | 91九色视频在线播放 | 国产又粗又猛又色又黄视频 | 黄色在线观看网站 | 日本爽妇网 | 免费观看高清 | 国产成人不卡 | 探花视频免费观看 | 国产一级二级三级在线观看 | 丁香综合网| 在线一区二区三区 | 久久久高清视频 | 一区二区中文字幕在线 | 日韩v在线 | 免费在线看成人av | 国产精品视频地址 | 97av视频| 欧美日韩国产一二三区 | 成人黄色av网站 | 最近中文字幕mv | 亚洲精品动漫在线 | 国产精品久久久久一区 | 97国产大学生情侣白嫩酒店 | 国产精品麻豆三级一区视频 | 999电影免费在线观看2020 | 天天干天天搞天天射 | 人人爽人人爽人人爽人人爽 | 国产 在线 日韩 | 免费看的黄网站 | 男女拍拍免费视频 | 成人午夜av电影 | 久久久久久高潮国产精品视 | 国产污视频在线观看 | 久久精品久久99 | 五月丁色 | 久久久久免费网站 | 天天爱天天干天天爽 | 国产超碰在线观看 | 97在线观看视频免费 | 在线天堂v | 91在线视频导航 | 夜夜骑天天操 | 亚洲粉嫩av | 啪啪肉肉污av国网站 | 国产 一区二区三区 在线 | 免费一级日韩欧美性大片 | 久草在线视频首页 | 日韩伦理片一区二区三区 | 四虎成人精品在永久免费 | 中文字幕一区二区三区在线观看 | 久久国产亚洲 | 久久久久五月 | 在线成人av| 日韩中文在线观看 | 久久久福利 | 好看的国产精品视频 | 午夜精品久久久久久久久久久久 | 日韩精品在线看 | 亚洲综合欧美日韩狠狠色 | 97精品国产97久久久久久免费 | 国产成人三级三级三级97 | 久久社区视频 | 99国产精品一区二区 | 久久人人爽人人爽人人片av免费 | 欧美午夜剧场 | 欧美日韩69| 午夜黄色影院 | 人人精品| 国内99视频 | 国产专区在线视频 | 国产成人av | 久射网 | 欧美一区二区在线看 | 亚洲丝袜中文 | 五月天激情视频 | 狠狠躁夜夜躁人人爽超碰97香蕉 | 久久99热精品这里久久精品 | 久久久久久久久免费视频 | 亚洲视频 中文字幕 | 国产原创中文在线 | 在线观看视频h | 国产高清专区 | 国产区精品 | 亚洲国产视频在线 | 国产精国产精品 | 免费国产在线视频 | 超碰在线网 | 探花国产在线 | av黄色av | 日韩午夜av电影 | 亚洲欧美经典 | 91高清不卡 | 激情久久综合网 | 中文字幕一区二区在线播放 | 国产男男gay做爰 | 国产日韩精品一区二区在线观看播放 | 中文字幕高清视频 | 一区二区 不卡 | 国产精品高清在线观看 | 国产小视频国产精品 | 天天干,狠狠干 | 欧美成年黄网站色视频 | 亚洲国内精品视频 | 中午字幕在线观看 | 91在线免费视频观看 | 九九视频精品免费 | 国产高清黄色 | 久久免费国产精品1 | 久久精品播放 | 国产亚洲视频系列 | 超碰在线1| 在线观看91久久久久久 | 国内综合精品午夜久久资源 | 国内精品免费久久影院 | 97中文字幕 | 精品一区二区免费 | 综合网av | 国内精品久久久久影院男同志 | 91中文在线视频 | 97超级碰碰碰视频在线观看 | 日日碰夜夜爽 | a天堂最新版中文在线地址 久久99久久精品国产 | 超碰夜夜 | 天天色天天爱天天射综合 | 午夜精品福利一区二区三区蜜桃 | 99热精品在线观看 | 午夜国产一区二区 | 国产伦理一区二区 | 91视频在线 | 日韩a级免费视频 | 麻豆av一区二区三区在线观看 | 久久综合狠狠狠色97 | 日韩v欧美v日本v亚洲v国产v | 国产精品欧美日韩在线观看 | 毛片基地黄久久久久久天堂 | 8x8x在线观看视频 | 久久国产区 | 五月婷社区 | 91亚洲欧美 | 极品嫩模被强到高潮呻吟91 | 色综合久久88色综合天天免费 | 久久优 | 成人va视频| 深夜成人av | 激情综合网五月 | 午夜视频在线网站 | 精品高清视频 | 亚洲成人av在线播放 | 亚洲精品国 | 国产v视频 | 久久99亚洲精品久久久久 | 国产福利在线免费观看 | 久久综合给合久久狠狠色 | 午夜的福利 | 国产成人av在线 | 久久久资源网 | 免费www视频 | 91精品天码美女少妇 | 国产免费午夜 | 国产欧美最新羞羞视频在线观看 | 国产精品青草综合久久久久99 | 激情视频免费在线观看 | 亚州欧美视频 | 91福利视频一区 | 免费亚洲精品视频 | 日韩免费视频网站 | 麻豆精品传媒视频 | 欧美精品一区二区在线播放 | 黄色网址中文字幕 | 成 人 免费 黄 色 视频 | 日韩高清一二区 | 欧美精品一二三 | 国产视频资源 | 亚洲黄色免费网站 | 久久久久 免费视频 | 久久精品中文字幕一区二区三区 | av成人免费在线看 | av电影在线播放 | 亚洲激情综合 | 超碰97公开 | 日韩中文字幕免费 | 欧美成人黄色 | 在线成人免费电影 | 欧美成年人在线观看 | 久久久久久久久免费 | 久久综合导航 | 一区二区三区精品在线 | 久草成人在线 | 色视频在线 | 国产日韩在线一区 | 精品 一区 在线 | 婷婷在线不卡 | 成人在线免费视频观看 | 成片免费观看视频 | 天天干天天操天天爱 | 日韩久久久久久久久 | 麻豆国产精品一区二区三区 | 国产精品免费观看网站 | av在线电影免费观看 | 国产一区二区观看 | 日韩在线观看影院 | 国产免费黄视频在线观看 | 制服丝袜在线91 | 欧日韩在线视频 | 免费看污在线观看 | 在线色视频小说 | 欧美精品亚洲精品日韩精品 | 日本中文字幕网站 | 91亚洲精| 久久中文字幕视频 | 九色在线视频 | 国产不卡视频在线播放 | 美女视频黄频大全免费 | 亚洲精品美女久久久 | 在线最新av| 片黄色毛片黄色毛片 | 日本精油按摩3 | 91理论电影| 国产99久久九九精品免费 | 国产精品久久久久久久久久久久冷 | 亚洲高清视频在线观看 | 久久久免费看片 | 少妇av网| 一级特黄aaa大片在线观看 | 久久久免费在线观看 | 亚洲综合在线视频 | 久久精品—区二区三区 | 一区中文字幕 | 亚洲成人资源在线观看 | 国产色在线 | 国产精品免费人成网站 | 精品久久久久久亚洲综合网站 | 亚洲午夜精品一区二区三区电影院 | 久久96国产精品久久99软件 | 天天色天天操天天爽 | 激情一区二区三区欧美 | 日本黄色免费大片 | 日本性高潮视频 | 国产精品99久久免费黑人 | 日日骑 | 国产精品美女网站 | 天天做天天爱天天爽综合网 | 国内精品一区二区 | 国产黄色片一级三级 | 91污污视频在线观看 | 国内精品一区二区 | 久草a在线| 日韩中文在线播放 | 欧美在线aa| 不卡视频国产 | 国产精品人人做人人爽人人添 | 97国产| 麻豆视频在线观看免费 | 国产一区二区在线影院 | 国产成人精品一区二三区 | www.99av| 亚洲视频在线播放 | 亚洲视频免费在线观看 | 91精品国产91热久久久做人人 | 黄毛片在线观看 | 国产经典av| 免费日韩视频 | 黄色官网在线观看 | 97成人在线视频 | 欧美日韩啪啪 | 欧美大码xxxx | 91亚洲精品国产 | 欧美在线视频一区二区三区 | 91丨九色丨高潮丰满 | 国产精品久久久久国产精品日日 | 91九色porny蝌蚪主页 | 久久久国产99久久国产一 | 欧美一级片免费观看 | 亚洲最大色 | 久久与婷婷 | 66av99精品福利视频在线 | 中文字幕免费高 | 黄色亚洲片 | 中国一级特黄毛片大片久久 | 欧美国产日韩在线观看 | 日韩在线欧美在线 | 成人黄色片免费看 | 一区 二区电影免费在线观看 | www.亚洲精品视频 | 九九免费精品视频在线观看 | 国产成人中文字幕 | 999久久国产精品免费观看网站 | 国产精品免费观看在线 | 91传媒91久久久 | 亚洲精品理论片 | 亚洲第五色综合网 | 久久老司机精品视频 | 久久久免费| 91久久精品一区二区二区 | 久久综合操 | 99色| 日韩高清不卡在线 | 啪啪小视频网站 | 色av婷婷| 成人免费网视频 | 在线日本看片免费人成视久网 | av电影一区二区 | 伊甸园永久入口www 99热 精品在线 | 二区三区视频 | 国产午夜精品久久久久久久久久 | 亚洲精品视频 | 中文字幕在线不卡国产视频 | 午夜久久成人 | 亚洲一区欧美激情 | 精品一区电影国产 | a级国产乱理伦片在线观看 亚洲3级 | 97超碰在线免费 | 国产剧情一区二区在线观看 | 在线观看午夜 | a黄色| 欧美性色黄大片在线观看 | 欧美一级欧美一级 | av中文字幕电影 | 99热9| 91传媒91久久久 | av一二三区 | 欧美最猛性xxx | 亚洲一区黄色 | 一级久久久| 免费久久精品视频 | 国产视频首页 | 超碰在线免费97 | 中文字幕免费在线 | 国产黄色精品网站 | 久久96| 精品一区二区在线看 | 97国产精品亚洲精品 | 亚洲成a人片在线观看中文 中文字幕在线视频第一页 狠狠色丁香婷婷综合 | 国产一级黄色片免费看 | 欧美久久九九 | 深爱开心激情网 | 久草精品在线观看 | av+在线播放在线播放 | 在线观看91网站 | 日本在线观看中文字幕 | japanesexxxhd奶水 91在线精品一区二区 | 色网站黄| 99久久www | 亚洲美女免费精品视频在线观看 | 最新影院| 国产成人免费av电影 | 色五月成人| 狠狠操狠狠操 | 国产一区二区在线播放视频 | 国产永久免费观看 | 97av影院| 99综合电影在线视频 | 日日操操操 | 午夜国产福利视频 | 亚洲国产成人精品在线观看 | 岛国av在线 | 黄网站免费大全入口 | 亚洲三级视频 | 色天天 | 久久综合视频网 | 免费视频一二三区 | 蜜臀av免费一区二区三区 | 久久免费99 | 色爱区综合激月婷婷 | 91精品啪在线观看国产线免费 | 91免费看片黄 | 国产成人精品一区二区三区在线观看 | 国产精品免费久久久久影院仙踪林 | 在线观看视频精品 | 在线视频中文字幕一区 | 日韩在线第一 | 日本精品久久久久中文字幕5 | 国产一级a毛片视频爆浆 | 成人app在线播放 | 在线色亚洲| 国产精品一区久久久久 | 免费看的黄色 | 国产成人精品免费在线观看 | 午夜精品久久久久久久久久 | 久久99在线 | 久久在线免费视频 | 国产免费又粗又猛又爽 | 日韩欧美亚洲 | 成人在线视频你懂的 | 久久成人麻豆午夜电影 | www久久精品 | 成人在线视频观看 | 久久久久久久国产精品 | 人人澡人人舔 | 欧美精品一区在线发布 | 片网站| 中文av免费 | av一本久道久久波多野结衣 | 丁香激情婷婷 | 99精品视频在线观看播放 | 国产成人精品999 | 精品免费久久久久 | 欧美另类调教 | 97视频在线观看成人 | 久久久久久久久久久影院 | 在线日本v二区不卡 | 精品国精品自拍自在线 | 欧美专区亚洲专区 | 国产精品久久久久久五月尺 | 玖玖玖国产精品 | 欧美日韩一区二区在线观看 | 日韩网站免费观看 | 国产精品一区二区白浆 | 日本久久视频 | 国产69精品久久99不卡的观看体验 | 欧美精品一级视频 | 国产美女在线免费观看 | 色综合天天射 | 黄色软件视频大全免费下载 | 精品在线播放视频 | 亚洲三级网站 | 国产理伦在线 | 亚洲精品av中文字幕在线在线 | 日韩在线观看高清 | 99爱国产精品 | 成人四虎影院 | 99热只有精品在线观看 | 在线观看一区二区视频 | 久久视频精品在线 | 中文字幕在线不卡国产视频 | 亚洲国产精彩中文乱码av | 黄色毛片在线看 | 成人在线观看av | 一本一本久久a久久精品综合 | 久久精品一区二区三区视频 | 人人cao| 中文字幕在线不卡国产视频 | 精品影院一区二区久久久 | 欧美一级性视频 | 婷婷婷国产在线视频 | 五月激情片 | 欧美日本日韩aⅴ在线视频 插插插色综合 | 免费看黄色大全 | 久久综合狠狠综合久久激情 | 伊人日日干 | 97国产大学生情侣白嫩酒店 | 国产一级电影 | 999久久久免费视频 午夜国产在线观看 | 亚州av成人| 视频在线观看一区 | 亚洲欧美成人网 | 在线观看中文字幕 | 午夜精品久久久久久久久久久久久久 | 国产 日韩 在线 亚洲 字幕 中文 | 麻豆免费视频观看 | 麻花豆传媒mv在线观看网站 | 久久午夜国产 | 日韩中文字幕免费视频 | 久久久国产一区二区 | 国产一级性生活视频 | 中文字幕123区 | 久久久999精品视频 国产美女免费观看 | 中文字幕在线播放av | 日韩中文久久 | 中文在线字幕观看电影 | 久久久久久黄色 | 国产在线观看 | 91九色精品女同系列 | 久久综合九色综合久久久精品综合 | 欧美日韩在线精品一区二区 | 一区二区三区 中文字幕 | 欧美精品日韩 | 国产中文字幕在线免费观看 | 欧美日韩视频网站 | 久久成年人网站 | 亚洲精品视频在线观看免费视频 | 五月天色网站 | 国产又粗又猛又黄 | 欧美精品中文在线免费观看 | 久久久久9999亚洲精品 | 久久夜视频 | 99久久精品久久久久久动态片 | 成人av.com| 97看片| 婷婷六月久久 | 探花视频网站 | 96av在线 | 欧洲精品亚洲精品 | 亚洲精品无| 91精品国产乱码在线观看 | 亚洲欧洲日韩 | 精品免费观看 | 人人狠| 久热电影| 人人舔人人| 国产精品久久一区二区三区, | 亚洲视频一区二区三区在线观看 | 亚洲另类视频 | av网站在线免费观看 | 日韩精品一区二区三区中文字幕 | 国产一区二区久久久 | 91精品视频观看 | 久久在草 | 亚洲国产美女精品久久久久∴ | 97精品国产一二三产区 | 青青草国产精品 | 久精品视频 | 激情丁香 | 国产一区国产二区在线观看 | 午夜 久久 tv | 色九九在线 | 99热在线这里只有精品 | 亚洲国产成人精品久久 | 亚洲高清视频在线观看 | 久久深夜福利免费观看 | 在线免费视频a | 夜夜操夜夜干 | 黄色aaa毛片 | 久久久免费看片 | 国产精品自产拍在线观看蜜 | 女人18片| 精品久久久久久久久中文字幕 | 久久av影视| 草久草久 | 亚洲精品国产自产拍在线观看 | wwxxx日本| 99精品国产99久久久久久福利 | 狠狠狠色丁香婷婷综合久久88 | 狠狠色丁香婷婷综合欧美 | 99久久视频| 人人澡人人爱 | 片黄色毛片黄色毛片 | 一级黄色片在线免费看 | 亚洲国内在线 | 99精品乱码国产在线观看 | 天天操天天干天天操天天干 | 在线观看中文字幕2021 | 成人h视频| 亚洲精品综合一二三区在线观看 | 日韩精品亚洲专区在线观看 | 又黄又爽又无遮挡免费的网站 | 丁香花中文字幕 | 中国一级片免费看 | 国产黄色免费电影 | 成人高清av在线 | 91久久爱热色涩涩 | 国产视频日本 | 中文字幕国产在线 | 免费看一及片 | 精品99999 | 九七视频在线 | 国产福利精品在线观看 | 少妇高潮流白浆在线观看 | 久久视频6 | 亚洲日本在线视频观看 | 日本在线h | 久草在线免费播放 | 97精品国自产拍在线观看 | 日本久久久久久 | 日韩在线国产精品 | 国产大尺度视频 | av中文天堂在线 | 久影院| 99久久综合狠狠综合久久 | 亚洲综合狠狠干 | 97视频在线免费 | 在线观看亚洲免费视频 | 欧美日韩国产一区二 | 日本黄色a级大片 | 97超碰免费 | 久久99国产精品久久99 | 久久综合九色99 | 日本精品久久久久 | 国产在线视频一区二区 | 亚洲免费激情 | 国产精品国产三级国产aⅴ入口 | 月下香电影 | 中文字幕在线观看第二页 | 免费看的黄色 | 久久激情视频 | 精品999在线| 国产98色在线 | 日韩 | 在线黄色国产电影 | 最近中文字幕免费观看 | 天天干亚洲 | 国产精品美女久久久久久2018 | 亚洲精品在线免费 | av免费看在线 | 成人亚洲精品久久久久 | 色偷偷人人澡久久超碰69 | 三级av免费观看 | 国产999精品久久久影片官网 | 欧美日韩三级在线观看 | 免费观看www视频 | 日韩在线观看中文字幕 | 免费看片网站91 | 又爽又黄又刺激的视频 | 激情五月婷婷综合 | 欧美国产精品久久久久久免费 | 中文字幕一区三区 | www.夜夜操.com | 久久国产精品影片 | 911国产 | 久久影院一区 | 中文字幕123区 | 91中文字幕在线播放 | 一本—道久久a久久精品蜜桃 | 日韩视频a | 欧洲精品视频一区二区 | 在线 视频 一区二区 | 在线激情影院一区 | 色资源网在线观看 | 丁香五月网久久综合 | 亚洲va天堂va欧美ⅴa在线 | 97精品一区 | 91久久精品一区二区三区 | 麻豆成人精品视频 | 91九色蝌蚪视频网站 | 91av小视频 | 日韩三级视频 | 一级黄色毛片 | 中文字幕高清有码 | av大全在线观看 | 国产91精品高清一区二区三区 | 91亚洲精品国产 | 成人在线观看免费视频 | 成人在线免费视频 | 免费中文字幕视频 | 精品久久精品久久 | 国产精品久久久久久久久久免费 | av在线免费观看不卡 | 亚洲国产精品999 | 丁香六月婷婷开心婷婷网 | 精品国产99国产精品 | 国产精品自产拍在线观看网站 | 91精品国产麻豆 | ,午夜性刺激免费看视频 | 欧美乱淫视频 | 久在线 | 欧美日韩一区二区三区免费视频 | 午夜精品电影 | 久久成视频 | 波多野结衣视频一区二区 | 国产精品99久久久久久久久久久久 | 久久国产女人 | 五月天婷亚洲天综合网精品偷 | 亚洲激情婷婷 | 亚洲乱亚洲乱亚洲 | 国产精品美女在线观看 | 久久久久国产成人精品亚洲午夜 | 九九热视频在线播放 | 久久久国产毛片 | 国产在线精品视频 | 国产成人一区二区三区免费看 | 免费视频a | 日本黄色免费电影网站 | 91天堂在线观看 | 亚洲一区精品人人爽人人躁 | 久久黄色片 | 亚洲精品美女久久 | 久草在线视频在线观看 | 99精品欧美一区二区蜜桃免费 | 日韩在线播放av | 99久久精品国产免费看不卡 | 天天干天天玩天天操 | 日b黄色片| 夜又临在线观看 | 久久综合影音 | 精品人妖videos欧美人妖 | 青青河边草免费视频 | 精品国产aⅴ一区二区三区 在线直播av | 国产最顶级的黄色片在线免费观看 | 91香蕉视频黄色 | 最新色站| 久久99精品久久久久久清纯直播 | 欧美精品亚州精品 | 国产精品一区二区免费视频 | 国产成人资源 | 天天摸夜夜操 | 成人avav| 69国产精品成人在线播放 | 日韩一级电影在线观看 | 亚洲乱码一区 | 蜜臀久久99静品久久久久久 | 天天干天天碰 | 激情丁香5月| 国产在线视频一区二区三区 | 色夜影院 | 精品中文字幕在线观看 | 国内小视频在线观看 | 中文乱码视频在线观看 | 国产麻豆精品95视频 | 一区二区国产精品 | 日本99精品 | 十八岁以下禁止观看的1000个网站 | 成片免费观看视频 | 日韩电影一区二区在线 | 91一区啪爱嗯打偷拍欧美 | 久久69av| 丁香六月网 | 国产综合福利在线 | 天天射天天射天天射 | 国产色视频网站 | 成人一级在线观看 | 久久久亚洲麻豆日韩精品一区三区 | 一区二区视频在线播放 | 在线欧美小视频 | 黄色三级网站 |