日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

【17】 强化学习 17章 前沿技术

發(fā)布時間:2023/12/20 编程问答 39 豆豆
生活随笔 收集整理的這篇文章主要介紹了 【17】 强化学习 17章 前沿技术 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

文章目錄

  • 名詞
        • 離軌策略
        • 折扣過程
        • 折扣系數(shù)
        • 價值函數(shù)
        • 廣義策略迭代(4.6節(jié))或者“行動器一評判器”算法
  • 正文
  • 17.1 廣義價值函數(shù)和輔助任務(wù)
    • 1、廣義價值函數(shù)是什么?
    • 2、輔助任務(wù)是什么?
      • 定義: 預(yù)測和控制不同種類的信號特征
    • 作用
  • 17.2、基于選項(xiàng)理論的時序摘要
    • 人類可以無縫地在各個時間層次上切換,而沒有一點(diǎn)轉(zhuǎn)換的痕跡。那么MDP框架可不可以被拉伸,從而同步地覆蓋所有這些時間層次呢?
  • 17.3 觀測量和狀態(tài)
  • 17.4 設(shè)計(jì)收益信號
  • 5 遺留問題
  • 6、
  • 參考文獻(xiàn) 歷史評注

名詞

離軌策略

允許函數(shù)以任意的目標(biāo)策略作為條件

折扣過程

12.8節(jié)中, 折扣過程 推廣為 一個終止函數(shù), 使得可以在每個時刻采用不同的折扣系數(shù)來作為回報。

折扣系數(shù)

價值函數(shù)

廣義策略迭代(4.6節(jié))或者“行動器一評判器”算法

正文

17.1 廣義價值函數(shù)和輔助任務(wù)

1、廣義價值函數(shù)是什么?

離軌策略允許函數(shù)以任意的目標(biāo)策略作為條件,終止函數(shù)的引入,使得可以在每個時刻采用不同的折扣系數(shù)來作為回報。
允許我們在一個任意的、狀態(tài)相關(guān)的視界,可以預(yù)測未來能得到多少收益。

下一步:將收益推廣, 允許對任意信號的預(yù)測。

比如,聲音、顏色等信號未來的值之和進(jìn)行預(yù)測, 而不止對未來的收益值之和進(jìn)行預(yù)測。

不管我沒累加的是什么信號, 我們都稱其為 預(yù)測的累積量 : 累計(jì)信號:

廣義價值函數(shù)GVF:

像傳統(tǒng)的價值函數(shù)(例如v或者q)一樣,這是一個可以用參數(shù)化的形式逼近的理想函數(shù),我們可以繼續(xù)用v(s,w)來標(biāo)記它,盡管對于每一種π、γ、Ct 的選擇,在每次預(yù)測過程中都會有一個不同的參數(shù)w。因?yàn)橐粋€GVF并不必然與收益有聯(lián)系,因此將其稱為值函數(shù)可能有些用詞不當(dāng)。我們可以簡單地稱之為“預(yù)測",或者用更獨(dú)特的方式說:預(yù)報(由Ring提出,準(zhǔn)備發(fā)表)。不管如何稱呼它,它的形式都和價值函數(shù)一樣,因此可以用本書中提出的學(xué)習(xí)近似價值函數(shù)的方法學(xué)出來。在學(xué)習(xí)預(yù)測值的同時,我們也可以采用廣義策略迭代(4.6節(jié))或者“行動器一評判器”算法,通過最大化預(yù)測值來學(xué)習(xí)策略。用這種方式,一個智能體可以學(xué)習(xí)如何預(yù)測和控制大量不同類型的信號,而不僅僅是長期收益。

為什么預(yù)測和控制長期收益之外的信號可能有用呢?這類信號控制任務(wù)是在最大化收益的主任務(wù)之外額外添加的輔助任務(wù)。一個答案是,預(yù)測和控制許多不同種類的信號可以構(gòu)建一種強(qiáng)大的環(huán)境模型。正如我們在第8章所述,一個好的環(huán)境模型可以讓智能體更高效地得到收益。清楚地回答這個問題需要一些其他的概念,我們將在下一節(jié)中介紹。首先我們考慮兩個相對簡單的方法,在這些方法中,多個不同種類的預(yù)測問題會對強(qiáng)化學(xué)習(xí)智能體的學(xué)習(xí)有所幫助。

2、輔助任務(wù)是什么?

輔助任務(wù)幫助主任務(wù)的一個簡單情形是它們可能需要一些相同的表征。有些輔助任務(wù)可能更簡單,延遲更小,動作和結(jié)果之間的關(guān)聯(lián)關(guān)系更加明晰。如果在簡單的輔助任務(wù)中,可以很早發(fā)現(xiàn)好的特征,那么這些特征可能會顯著地加速主任務(wù)的學(xué)習(xí)。沒有什么理由可以解釋為什么這是對的,但是在很多情況下這看起來很有道理。例如,如果你學(xué)習(xí)在很短的時間內(nèi)(例如幾秒鐘)預(yù)測和控制你的傳感器,那么你可能會想出這個目標(biāo)物體的部分特點(diǎn),這將對預(yù)測和控制長期收益有很大的幫助。

  • 如果在簡單的輔助任務(wù)中,可以很早發(fā)現(xiàn)好的特征,那么這些特征可能會顯著地加速主任務(wù)的學(xué)習(xí)。
  • 如果你學(xué)習(xí)在很短的時間內(nèi)(例如幾秒鐘)預(yù)測和控制你的傳感器,那么你可能會想出這個目標(biāo)物體的部分特點(diǎn),這將對預(yù)測和控制長期收益有很大的幫助。

我們可能會想象一個人工神經(jīng)網(wǎng)絡(luò)(ANN),其中的最后一層被分為好幾個部分,我們稱它們?yōu)轭^部,每一個都在處理不同的任務(wù)。一個頭部可能產(chǎn)生主任務(wù)的價值函數(shù)預(yù)測(將收益作為其累計(jì)量),而其他的頭部可能產(chǎn)生很多輔助任務(wù)的解。所有的頭部都可以通過隨機(jī)梯度下降法反向傳播誤差到同一個“身體”里一即它們前面所共享的網(wǎng)絡(luò)部分一從第二層到最后一層都在嘗試構(gòu)建表示以提供必要的信息給頭部。研究人員們嘗試了各種各樣的輔助任務(wù),例如預(yù)測像素的變化,預(yù)測下一時間點(diǎn)的收益,以及預(yù)測回報的概率分布。在很多種情況下這個方法都顯示出了對主任務(wù)學(xué)習(xí)的加速效果( Jaderbergetal.,2017)。類似地,作為一種有助于狀態(tài)預(yù)測的方法,多預(yù)測的方法也被反復(fù)地提出過(見17.3節(jié))。

另一個理解為何學(xué)習(xí)輔助任務(wù)可以提升表現(xiàn)的簡單的方法是類比于經(jīng)典條件反射這心理學(xué)現(xiàn)象(14.2節(jié))。一種理解經(jīng)典條件反射的方法是,進(jìn)化使我們內(nèi)置(非學(xué)習(xí)式的)了一個從特定信號的預(yù)測值到特定動作之間的反射關(guān)聯(lián)。例如,人和許多其他動物看起來有一種內(nèi)置的眨眼反射機(jī)制,當(dāng)對于眼球?qū)⑹盏酱翐舻念A(yù)測值超過某個閾值的時候,就會閉眼。這個預(yù)測是學(xué)出來的,但是預(yù)測和閉眼之間的關(guān)聯(lián)是內(nèi)置的,因此動物可以避免眼球受到突然的戳擊。類似地,恐懼和心率加快或者愣住之間的關(guān)聯(lián)、也可以是內(nèi)置的,智能體的設(shè)計(jì)者們可以做一些類似的事情,例如,自動駕駛汽車可以學(xué)習(xí)“向前開車不會導(dǎo)致碰撞”,然后將其“停車/避開”的行為建立一個內(nèi)置反射,當(dāng)預(yù)測值超過一定閾值時觸發(fā)。或者考慮一個真空清潔機(jī)器人,其可以學(xué)習(xí)預(yù)測是否會在返回充電裝置前用盡電量,并且在該預(yù)測值變?yōu)榉橇銜r,條件反射一樣地掉頭移動到充電站。準(zhǔn)確的預(yù)測取決于房間的大小、機(jī)器人所在的房間、電池的年齡,機(jī)器人的設(shè)計(jì)者很難了解所有這些細(xì)節(jié),讓設(shè)計(jì)者使用傳感器的手段設(shè)計(jì)一個有效的算法來決定是否回頭是很困難的,但是使學(xué)習(xí)到的預(yù)測則很容易做到這一點(diǎn)。我們預(yù)見到很多方法都會像這樣將學(xué)習(xí)到的預(yù)測和內(nèi)置控制行為的算法有效結(jié)合在一起。
最后,也許輔助任務(wù)最重要的作用,是改進(jìn)了我們本書之前所做的假設(shè):即狀態(tài)的表不是固定的,而且智能體知道這些表示。為了解釋這個重要作用,我們首先要回過頭來了本書所做的假設(shè)的重要性以及去除它所帶來的影響。這將在17.3中介紹。

定義: 預(yù)測和控制不同種類的信號特征

作用

17.2、基于選項(xiàng)理論的時序摘要

馬爾可夫決策過程形式上的一個吸引人的地方是,它可以有效地用在不同時間尺度的任務(wù)上。我們可以用它來形式化許多任務(wù),例如決定收縮哪一塊肌肉來抓取一個目標(biāo),乘坐哪一架航班方便地到達(dá)一個遙遠(yuǎn)的城市,選擇哪一種工作來過上滿意的生活。這些任務(wù)在時間尺度上差異很大,然而每一個都可以表達(dá)成馬爾可夫決策過程(MDP),然后用本書中講述的規(guī)劃和學(xué)習(xí)過程完成。所有這些任務(wù)都涉及由與環(huán)境的相互作用、序貫決策以及一個隨時間累積的收益構(gòu)成的目標(biāo),因此它們都可以被形式化成馬爾可夫決策過程。

盡管所有這些任務(wù)都可以被形式化為MDP,但是我們可能認(rèn)為它們不能被形式化為單一的MDP,因?yàn)檫@些過程涉及的時間尺度都不同,例如選擇的種類和動作都截然不同。例如,把預(yù)定跨洲的航班和肌肉收縮放在同一時間尺度上是不合適的。但是對于其他任務(wù)而言,例如抓取、擲標(biāo)槍、擊打棒球,用肌肉收縮的層次來刻畫可能剛剛好。人類可以無縫地在各個時間層次上切換,而沒有一點(diǎn)轉(zhuǎn)換的痕跡。那么MDP框架可不可以被拉伸,從而同步地覆蓋所有這些時間層次呢?

人類可以無縫地在各個時間層次上切換,而沒有一點(diǎn)轉(zhuǎn)換的痕跡。那么MDP框架可不可以被拉伸,從而同步地覆蓋所有這些時間層次呢?

也許是可以的,一種流行的觀點(diǎn)是:先形式化一個非常小的時間尺度上的MDP,從而許在更高的層次上使用擴(kuò)展動作(毎個時刻對應(yīng)于更低層次上的多個時刻)的規(guī)劃。為了能到這一點(diǎn),我們需要使用一個展開到多個時刻的“動作方針”的概念,井引人一個“終止”的概念。對這兩個概念的通用的形式化方式是將它們用一個策略和一個狀態(tài)相關(guān)的終止函數(shù)γ來表達(dá),就像在GVF中定義的那樣。我們將這樣的一個“策略終止函數(shù)”二元組定義為一種廣義的動作,稱之為“選項(xiàng)"。在t時刻執(zhí)行一個選項(xiàng) ω=<πω,γω>ω=<π_ω,γ_ω>ω=<πω?γω?> 就表示從 πω(?∣St)π_ω(·|S_t)πω?(?St?) 中獲得一個動作AtA_tAt?,然后在t+1時刻以1?γω(S(t+1))1-γ_ω(S_(t+1))1?γω?(S(?t+1))的概率終止。如果選項(xiàng)不在t+1t+1t+1時刻停止,那么A(t+1)A_(t+1)A(?t+1)從 $ π_ω(· |S_(t+1))$ 中選擇,而且選項(xiàng)在t+2時刻以1?γω(S(t+2))1-γ_ω(S_(t+2))1?γω?(S(?t+2))的概率終止。很容易就可以把低層次的動作看作選項(xiàng)的一種特例一每一個動作a都對應(yīng)于一個選項(xiàng)(π_ω,γ_ω),這個選項(xiàng)的策略會選出一個動作(對于每個s∈S,πω(s)=as∈S,π_ω(s)=asS,πω?(s)=a),并且其終止函數(shù)是零(對于個s∈S+,γω(s)=0s∈S+,γ_ω(s)=0sS+,γω?(s)=0)。選項(xiàng)有效地擴(kuò)展了動作空間。智能體可以選擇一個低層次的動作/選項(xiàng),在單步之后終止,或者選一個擴(kuò)展的選項(xiàng),它可能在執(zhí)行多步之后才終止。

"選項(xiàng)”的架構(gòu)設(shè)計(jì)允許它與低級別的動作進(jìn)行角色互換。例如,一個動作價值函數(shù)的記號qπq_πqπ?可以被自然地推廣為選項(xiàng)值函數(shù),它以狀態(tài)和選項(xiàng)作為輸人,仍然返回期望回報,只是產(chǎn)生這個期望回報的過程包括了從輸入狀態(tài)開始,執(zhí)行輸人的選項(xiàng)直到它終止,并在之后繼續(xù)遵循策略π的整個過程。我們也可以把策略的概念推廣到層次化策略,它選擇的是選項(xiàng)而不是動作,其中每個選項(xiàng)被選中之后,都會一直運(yùn)行到終止。在這些思想下,本書中的許多算法都可以推廣到學(xué)習(xí)近似的選項(xiàng)值函數(shù)和層次化的策略。在最簡單的情況下,學(xué)到的策略從選項(xiàng)開始直接跳到選項(xiàng)結(jié)柬,更新只在選項(xiàng)結(jié)束的時候出現(xiàn)。更精細(xì)一些的做法是,更新可以在每一個時刻進(jìn)行,使用一種“選項(xiàng)內(nèi)部”的學(xué)習(xí)算法,這通常需要離軌策略算法。

選項(xiàng)的思想帶來的最重要的推廣也許是第3、4和8章中所提出的環(huán)境模型。關(guān)于“動作”的傳統(tǒng)模型是狀態(tài)轉(zhuǎn)移概率和采取這個動作的即時收益的期望。那么傳統(tǒng)的動作模型如何推廣到選項(xiàng)模型呢?對于選項(xiàng)而言,合適的模型也應(yīng)該包含有兩部分:一個部分對應(yīng)于執(zhí)行選項(xiàng)后產(chǎn)生的狀態(tài)轉(zhuǎn)移結(jié)果;另一個對應(yīng)于執(zhí)行選項(xiàng)過程中的累積收益的期望。選項(xiàng)模型的收益部分,類比于“狀態(tài)-動作”二元組的期望收益式(35),對于所有的
選項(xiàng)和所有的狀態(tài)s∈S,定義為:

其中,τ是一個隨機(jī)時刻,代表選項(xiàng)的終止時刻,它由參數(shù)γωγ_ωγω?決定。在這個等式中,需
要注意總體折扣系數(shù) γ 所扮演的角色一一折扣是由γ決定的,但是選項(xiàng)的終止是由γωγ_ωγω?
決定的。一個選項(xiàng)模型的狀態(tài)轉(zhuǎn)移部分則更為精巧。這部分模型刻畫了每一個可能的選項(xiàng)結(jié)果狀態(tài)的概率(像在式3.4中一樣),但是在這里,可能在多個時刻之后才能到達(dá)這個選項(xiàng)結(jié)果的狀態(tài),其中的每個狀態(tài)都有不同程度的折扣。選項(xiàng)ω的這部分模型在如下公式中指定了ω的每個可能的起始狀態(tài)s,以及ω的每個可能的終止?fàn)顟B(tài)s‘s`s


注意,由于存在折扣系數(shù)項(xiàng)γkγ~kγ?k,這里的
不再是一個轉(zhuǎn)移概率,并且不再對于有可能的s‘s`s求和為1(無論如何,我們會繼續(xù)在P中使用記號∣|
上面關(guān)于選項(xiàng)模型的狀態(tài)轉(zhuǎn)移部分的定義使得我們可以為所有的選項(xiàng)定義形式化的貝爾曼方程和動態(tài)規(guī)劃算法,其中也包括作為選項(xiàng)特例的低級別的動作。例如,對于層次化策略π來說,通用的貝爾曼方程是:


其中,Ω(s)Ω_(s)Ω(?s)表示狀態(tài)s中所有可行的選項(xiàng)的集合。如果Ω(s)Ω_(s)Ω(?s)僅僅包含低級別的動作,那這個方程退化為通常的貝爾曼方程(式3.14),唯一不同的是γ被包含在新定義的p中,即式17.3,因此在此處沒有出現(xiàn)。類似地,相應(yīng)的選項(xiàng)的規(guī)劃算法中也沒有γ。例如,作為式(4.10)的推廣,帶選項(xiàng)的價值送代算法是:


如果Ω(s)包含了每個狀態(tài)s下所有可行的低級別動作,那么這個算法會收斂到通常意義上的v?v*v?,從中我們可以計(jì)算出最優(yōu)的策略。然而,如果我們能夠在每一個狀態(tài)下,只考慮所有可能選項(xiàng)Ω(s)的某個子集進(jìn)行規(guī)劃,則可能更有用。這樣的話價值送代將會收斂到限制在給定的選項(xiàng)子集下的最優(yōu)的層次化策略。盡管這個策略從全局看可能是次優(yōu)的,但收斂可能會更快,因?yàn)槲覀冎豢紤]較少的選項(xiàng),而且每個選項(xiàng)都可以在時間上跳躍多步。

為了在有選項(xiàng)的情況下做規(guī)劃,我們必須已知選項(xiàng)模型,或者學(xué)出選項(xiàng)模型。一個學(xué)出選項(xiàng)模型的自然方法是使用一系列的GVF(我們在上一節(jié)中定義過)來對它進(jìn)行表示長后使用本書中提到的方法來學(xué)習(xí)GVF。對于選項(xiàng)模型的收益部分,不難看出如何做到這一點(diǎn)。我們僅僅需要把GVF的累計(jì)量選為收益(Ct:=Rt),把它的策略設(shè)為選項(xiàng)的策略(π=πωπ=π_ωπ=πω?),把它的終止函數(shù)設(shè)為折扣系數(shù)乘以選項(xiàng)的終止函數(shù)
。如此一來,真實(shí)的GVF將等同于選項(xiàng)模型的收益部分,
并且本書中介紹的各種學(xué)習(xí)方法都可以用來近似它。選項(xiàng)模型的狀態(tài)轉(zhuǎn)移部分會更復(fù)雜一些。我們需要對選項(xiàng)對應(yīng)的每一個可能的終止?fàn)顟B(tài)分配一個GVF。除了在選項(xiàng)終止且終止于相應(yīng)的狀態(tài)時, 我們不希望這些GVF積累任何量。

這可以通過如下設(shè)定來實(shí)現(xiàn):把預(yù)測轉(zhuǎn)移到s’的GVF的累計(jì)量寫為
。該GVF的策略和終止函數(shù)都和選項(xiàng)模型的收益部分一樣設(shè)置。那么真實(shí)的GVF就等同于選項(xiàng)的狀態(tài)轉(zhuǎn)移模型的s` 部分:
,這樣本書中介紹的方法也就可以用來學(xué)習(xí)它。盡管這其中的每一步看起來都很自然,但是把它們整合在一起(包括函數(shù)通近和其他關(guān)鍵部分)是很有挑戰(zhàn)性的,而且超出了現(xiàn)有最先進(jìn)的技術(shù)水平。

練習(xí)17.1 在本節(jié)中展示了折扣情況下的選項(xiàng),但是在使用函數(shù)通近的時候,折扣對于控制問題是否合適是有爭議的(參見10.4節(jié))。那么層次化策略的自然的貝爾曼方程形式應(yīng)該是什么樣的呢?它應(yīng)當(dāng)與式(17.4)中的類似,但需要在平均收益設(shè)置(10.3節(jié))下進(jìn)行定義。類比于式(172)和式(17.3),在平均收益設(shè)置下,選項(xiàng)模型的兩個部分分別是什么樣子的呢?

17.3 觀測量和狀態(tài)

在本書中,我們都把學(xué)到的近似價值函數(shù)(還有第13章中的策略)寫成關(guān)于狀態(tài)的函數(shù)。這是本書的第工部分中介紹的方法的重大局限,在這些方法中,學(xué)習(xí)得到的價值函數(shù)用一張表格來表示,因此任意的價值函數(shù)都能被精確近似。這種情況等同于假設(shè)環(huán)境的狀態(tài)完全可以被智能體感知。但是在很多情況下,傳感器輸入只會告訴你這個世界狀態(tài)的部分信息。有些對象可能被其他的東西遮擋住了,或者在智能體的身后,亦或是在幾里之外。在這些情況下,關(guān)于環(huán)境的很重要的一部分信息可能并不能直接觀察到。而且,把學(xué)習(xí)到的價值函數(shù)實(shí)現(xiàn)為一個關(guān)于環(huán)境狀態(tài)空間的表格,是一種過強(qiáng)的、不現(xiàn)實(shí)而且局限性很大的假設(shè)。

在本書第Ⅱ部分提出的參數(shù)化函數(shù)逼近框架則限制要少得多,甚至可以說它是沒有局限性的(雖然這種說法是有爭議的)。在第Ⅱ部分中,我們保留了學(xué)習(xí)到的價值函數(shù)(和策略)是關(guān)于環(huán)境的狀態(tài)的函數(shù)這一假設(shè),但是允許這些函數(shù)在參數(shù)化的框架下自由變化。
一個有些令人吃驚而且并不被廣泛認(rèn)可的觀點(diǎn)是,函數(shù)逼近包含了“部分可觀測性”的很多方面。例如,如果有一個不可觀測的狀態(tài)變量,那么我們通過選擇參數(shù)化的方式使得近似價值函數(shù)與這個變量無關(guān)。這樣做的效果就如同這個狀態(tài)變量是不可觀測的。正因?yàn)槿绱?#xff0c;在所有參數(shù)化的情況下獲得的結(jié)果都可以被應(yīng)用在部分可觀測的情況下,而不需要做任何改變。從這個意義上說,參數(shù)化函數(shù)逼近的情況包含了部分可觀測性的情況。

然而,如果不顯式地、明確地為部分可觀測性建模,仍然有很多問題無法被深入研究,盡管我們在這里不能給出一個完整的處理部分可觀測性的方法,但是我們可以大致列出需要做出的一些改變,以下是具體的四個步驟:
1、我們需要改變問題:環(huán)境所提供的不是其狀態(tài)的精確信息,而僅僅是觀測量,一這是一個依賴于于狀態(tài)的變量,就像機(jī)器人的傳感器那樣,提供關(guān)于狀態(tài)的部分信息。與了簡化問題,我們假設(shè)收益是一個關(guān)于狀態(tài)的直接的、已知的函數(shù)(觀測量可能是一個,收益可能是它的某一個分量)。那么環(huán)境交互將沒有明確的狀態(tài)或者收益,而僅僅出一個簡單的動作A_t∈A和觀測量O∈O的交互序列:5

永遠(yuǎn)這樣持續(xù)下去(與式3.1對比)或者形成“幕”,每幕都以一個特殊的終止觀測量來結(jié)束。

2、然后我們可以用觀測量和動作的序列來恢復(fù)本書中提到的狀態(tài)的概念。我們使用術(shù)語"歷史"以及記號Ht表示一個軌跡從初始部分一直到當(dāng)前的觀測量:0。

歷史代表了我們在不看數(shù)據(jù)流外部信息的情況下,對過去所能了解的最多信息(因?yàn)闅v史是整個過去的數(shù)據(jù)流)。當(dāng)然歷史會隨著t增長,從而變大而且笨重,狀態(tài)的想法就是歷史的某種“緊湊”的總結(jié),對于預(yù)測未來而言,它和真實(shí)的歷史同等有用。我們看看這到底意味著什么:為了成為歷史的總結(jié),狀態(tài)必須是一個歷史的函數(shù)S=f(Ht),為了能夠像歷史一樣對預(yù)測未來有用,它必須有我們所知道的馬爾可夫性。更正式的說法是,這是函數(shù)f的性質(zhì)。對于所有的觀測量o∈O和動作a∈A,一個個函數(shù)f有馬爾可夫性,當(dāng)且僅當(dāng)任意被預(yù)測到同一個狀態(tài)(f(h)=f(h`))的兩個歷史h和h· 都對于它們的下一個觀測量有相同的概率。

馬爾可夫狀態(tài)是預(yù)測下一個觀測量(式17.6)的良好基礎(chǔ),但更重要的是,它是預(yù)測控制任何事情的良好基礎(chǔ)。例如,令一個測試序列為任何特定的在未來可能發(fā)生的交替出現(xiàn)的“動作-觀測量”序列。比如一個三步的測試序列可以記為:

給定歷史h,這個測試序列的概率被定義為:


如果f是馬爾可夫的,而且h和h`是在f下會被映射到相同的狀態(tài)的兩個不同的歷史,那么對于任意長度的任意測試序列τττ,給定這兩個歷史時它們的概率一定是相同的:


換句話說,一個馬爾可夫狀態(tài)總結(jié)了對于預(yù)測測試序列的概率有用的所有歷史信息。事實(shí)上,它總結(jié)了做任何預(yù)測所需要的全部信息,包括預(yù)測任意的GVF以及最優(yōu)的行為(如果f是馬爾可夫的,那么總會存在一個確定的函數(shù)π,使得選擇A:÷π(f(Ht)是最優(yōu)的)。

將強(qiáng)化學(xué)習(xí)的概念擴(kuò)展到部分可觀測的情況的第三步是需要考慮一些計(jì)算上的問題。
特別是,我們希望狀態(tài)是歷史的緊湊的總結(jié)。例如,對于一個馬爾可夫的函數(shù)f,映射到自己的函數(shù)完全滿足這個條件,然而并沒有什么用,因?yàn)檎缥覀冎八岬降?#xff0c;對應(yīng)的S1=H1會隨著時間增長而變得笨重。但是更本質(zhì)的原因是,這個歷史再也不會在未來出現(xiàn)了。智能體永遠(yuǎn)不會兩次進(jìn)入同一個狀態(tài)(在一個持續(xù)性的任務(wù)中),因此永遠(yuǎn)不會從表格型學(xué)習(xí)方法中獲益。我們希望我們的狀態(tài)是“緊湊”的,而且是馬爾可夫的。在如何獲得和更新狀態(tài)的問題上,我們也有類似的需求。我們并不真的想要一個包括“所有歷史”的函數(shù)f。相反地,出于計(jì)算上的考慮,我們偏向于通過相對簡單的增量式遞歸計(jì)算獲得與f一樣的效果,這個計(jì)算過程使用下一個時刻的增量At 和 Ot+1 :

其中,初始狀態(tài)S0是給定的。函數(shù)u又被稱作狀態(tài)更新函數(shù)。例如,如果f是映射到自身的函數(shù)(St=Ht),那么u僅僅是在St 的后面加上了一個At和Ot+1.給定f,構(gòu)造個相應(yīng)的u總是可行的,但是可能在計(jì)算上并不方便,而且正如上面映射到自身的函數(shù)的例子,它可能不能產(chǎn)生一個“緊湊”的狀態(tài)。狀態(tài)更新函數(shù)在任何智能體的架構(gòu)中都是解決部分可觀測性問題的核心部分。它必須在計(jì)算上是高效的,因?yàn)樵诳吹綘顟B(tài)之前,我們不能采取任何動作或者做任何預(yù)測。

一個通過狀態(tài)更新函數(shù)獲得馬爾可夫狀態(tài)的典型例子采用了流行的貝葉斯方法,被
稱作“部分可觀測MDP"( Partially Observable MDP, POMDP)。在這個方法中,假定
存在一個完備定義的隱變量Xt,它真實(shí)反應(yīng)環(huán)境的變化并產(chǎn)生可見的環(huán)境觀測量,但它們對于智能體而言從來都是不可觀測的(不要將它與智能體用于預(yù)測和決策的狀態(tài)S相混淆)。對于 POMDP而言,一種自然的馬爾可夫狀態(tài)S,就是給定歷史時在隱變量上的一個概率分布,這個“概率分布”被稱作置信狀態(tài)( (belief state)。為了更具體一些,假設(shè)在通常情況下,存在有限個隱變量:

那么置信狀態(tài)則是一個向量

無論t如何增長,置信狀態(tài)都保持相同的大小(相同數(shù)量的成員)。假設(shè)我們有足夠多的關(guān)于環(huán)境內(nèi)部如何工作的知識,它也可以由貝葉斯公式增量式地更新。特別地,置信狀態(tài)更新函數(shù)的第i個成員是


其中,a∈Ao∈O,置信狀態(tài)s∈Ra,其元素為s。這里有4個變量的p函數(shù)與MDP
中(滲見第3章)通常使用的并不一樣,而是在 POMDP情況下的基于隱狀態(tài)的推廣形
式:r,o?x,a)=Pr{X1=,O2=0IX1-1=a,A4-1=}。這個方法在理論研究中非常流
行、并且有非常重要的應(yīng)用,但是其假設(shè)和計(jì)算復(fù)雜性的可擴(kuò)展性太差,我們不推薦在人工智能中使用該方法。

另ー個馬爾可夫狀態(tài)的例子是預(yù)測狀態(tài)表示( Predictive State Representations,PSR).
PSR解決了 POMDP方法的弱點(diǎn):在 POMDP中,智能體的狀態(tài)S,的語義是以環(huán)境的隱狀態(tài)X為基礎(chǔ)的。由于隱狀態(tài)無法被觀測,其學(xué)習(xí)也就比較困難。在PSR和相關(guān)方法中,智能體狀態(tài)的語義是以未來的觀測量和動作的預(yù)測值為基礎(chǔ)的,因而是可以觀測到的。在PSR中,一個馬爾可夫狀態(tài)被定義為一個d維的概率向量,由d個“核心”測試序列的概率組成,測試序列則由前面介紹的式(17.7)所定義。這個向量之后由狀態(tài)更新函數(shù)u更新,它是貝葉斯公式的一種擴(kuò)展,但以可觀測的數(shù)據(jù)為基礎(chǔ),這就讓它的學(xué)習(xí)變得更容易了。這個方法已經(jīng)在很多方面得到了擴(kuò)展,包括終端測試、組合測試、強(qiáng)有力的“譜”方法,還有從TD方法中學(xué)到的閉環(huán)和時序摘要測試。最好的理論進(jìn)展有些是針對被稱為可觀測的操作模型( Observable Operator Models,OOM)和序列系統(tǒng)(Thom,2017)的。

在我們簡短的概要介紹中,處理強(qiáng)化學(xué)習(xí)中的部分可觀測性的第四步是重新引入近似的念。正如我們在第二部分中所討論的,想要達(dá)到人工智能必須得接受近似方法。不僅于價值函數(shù)是這樣,對于狀態(tài)也是這樣。我們必須接受并且在“近似狀態(tài)”的概念下開展我們的工作。近似狀態(tài)將會在我們的算法中扮演和原來一樣的角色,因此我們繼續(xù)對智款用的狀態(tài)使用記號S,盡管它可能不是馬爾可夫的。

也許近似狀態(tài)的最簡單的例子就是最近的觀測量S=O。當(dāng)然這種方法不能夠處理變量信息的情況。可能更好的表達(dá)方式是,對于某個k>1,使用最近的k個觀測量和動作來表達(dá)狀態(tài):S:=On,A4-1O2-1…,Ar-k,這可以通過引入一個特殊的狀態(tài)更新函數(shù)來實(shí)現(xiàn):每次加人新數(shù)據(jù)并平移,同時把最舊的數(shù)據(jù)刪除。k階歷史的方法仍然非常
簡單,但是相比于直接使用單個觀測量作為狀態(tài),它可以大大增加智能體的能力。

當(dāng)馬爾可夫性質(zhì)(式17.6)只是被近似滿足的時候會發(fā)生什么呢?不幸的是,當(dāng)單步預(yù)測所定義的馬爾可夫性變得哪怕有一點(diǎn)不準(zhǔn)確的時候,長期預(yù)測的表現(xiàn)就可能會遭遇急劇的下滑。長期的測試序列、GVF,還有狀態(tài)更新函數(shù)都有可能近似得很糟糕。短期和長期的近似目標(biāo)就是不一樣的。當(dāng)前也沒有這個方面的有效的理論保證。

然而,仍然有理由認(rèn)為在本節(jié)中描述的通用思想可以用到近似的情況下。這個通用的思想就是:一個對于某些預(yù)測而言好的狀態(tài),對其他的情況也會是好的(特別是,對于一個馬爾可夫狀態(tài),如果它足夠做單步預(yù)測,則對其他的情況也是足夠的)。如果我們退步,不考慮馬爾可夫情況下的特定結(jié)果,則前面的通用思想與我們在17.1節(jié)中討論的多頭部學(xué)習(xí)和輔助任務(wù)是相似的。在17.1節(jié),我們討論了對于輔助任務(wù)來說好的表示為什么對于主任務(wù)來說往往也是好的。這些思想合在一起就揭示了一個可以同時對部分可觀測性和表征進(jìn)行學(xué)習(xí)的方法:采用多重預(yù)測并以此來指導(dǎo)狀態(tài)特征的構(gòu)建。這樣一來,完美但并不可行的馬爾可夫性帶來的理論保證就被一個啟發(fā)式原則所替代,這個原則就是:對某些預(yù)測有益的信息對于其他預(yù)測而言也會是好的。這種方法可以很好地與計(jì)算資源的規(guī)模相匹配。在大型機(jī)器上,人們可以嘗試大量的不同的預(yù)測:可能會傾向于那些接近于最感興趣的目標(biāo)、最容易可靠地學(xué)習(xí)的預(yù)測。在這里很重要的一點(diǎn)是,不要手動選擇預(yù)測目標(biāo),而智能體應(yīng)該做到這一點(diǎn)。而這可能需要一個通用的表達(dá)“預(yù)測”的語言,使得智能體可以系統(tǒng)地試探一個廣大的可行預(yù)測的空間,從中發(fā)現(xiàn)最有用的內(nèi)容。

特別地, POMDP和PSR方法都可以應(yīng)用于近似狀態(tài)。狀態(tài)的語義在形成狀態(tài)更新
函數(shù)的時候非常有用,就像在這兩種方法和k階的方法中那樣。但對保持狀態(tài)內(nèi)信息的
有用性而言,語義正確的需求并沒有那么強(qiáng)烈。有些狀態(tài)擴(kuò)充的算法,例如回聲狀態(tài)網(wǎng)
絡(luò)( Jaeger,2002),幾乎保留了關(guān)于歷史的任何信息,但是依然表現(xiàn)很好。這個領(lǐng)域依然
有很多的可能性,因此我們期待更多的工作和新的思想。針對近似狀態(tài),學(xué)習(xí)狀態(tài)更新函數(shù)是強(qiáng)化學(xué)習(xí)中的表示學(xué)習(xí)問題的一個重要組成部分。

17.4 設(shè)計(jì)收益信號

強(qiáng)化學(xué)習(xí)相較于有監(jiān)督學(xué)習(xí)的一個主要優(yōu)勢是,強(qiáng)化學(xué)習(xí)并不依賴于細(xì)節(jié)性的監(jiān)督信息:生成一個收益信號并不依賴于“智能體的哪個動作才是正確的”這一先驗(yàn)知識細(xì)節(jié)。

但是強(qiáng)化學(xué)習(xí)的成功應(yīng)用很大程度上依賴于我們的收益信號在多大程度上符合了設(shè)計(jì)者制定的目標(biāo),以及這些信號能夠多好地衡量在達(dá)到目標(biāo)過程中的進(jìn)步。出于這些原因,設(shè)計(jì)收益信號是任何一個強(qiáng)化學(xué)習(xí)應(yīng)用的重要部分。

設(shè)計(jì)收益信號指的是設(shè)計(jì)智能體所在的環(huán)境的一個部分,這部分負(fù)責(zé)在t時刻產(chǎn)生一
個標(biāo)量收益R送回到智能體。在第14章末尾討論術(shù)語的時候,我們提到,稱B更像一個在動物大腦內(nèi)部產(chǎn)生的信號,而不是在動物的外部環(huán)境中的一個對象或者事件。大腦中產(chǎn)生這些信號的部分已經(jīng)進(jìn)化了數(shù)百萬年,因此非常適應(yīng)我們的祖先在將他們的基因傳遞下去的時候所面臨的各種挑戰(zhàn)。我們因此不應(yīng)該認(rèn)為設(shè)計(jì)收益信號是一件容易的事情。

設(shè)計(jì)收益信號的一個挑戰(zhàn)來自于,智能體需要學(xué)習(xí),在行為上接近并在最終達(dá)到設(shè)計(jì)者所希望的目標(biāo)。如果設(shè)計(jì)者的目標(biāo)很容易辨別,那么這個任務(wù)可能很簡單,例如尋找個良好定義的問題的解,或者在一個良好定義的游戲中取得高分。在這些例子中,我們通常可以通過“問題是否解決”和“游戲分?jǐn)?shù)是否提高”來定義收益函數(shù)。但是在有些問題中,目標(biāo)并不容易被翻譯成收益函數(shù),尤其是當(dāng)這些問題需要智能體做非常有技巧性的動作來完成復(fù)雜任務(wù)或者一系列任務(wù)的時候就更是如此,例如家務(wù)機(jī)器人助理所需要解決的問題。更進(jìn)一步,強(qiáng)化學(xué)習(xí)智能體可能會發(fā)現(xiàn)一些意想不到的方法使得環(huán)境可以給出收益信號,但其中有一些可能是我們并不想要的,甚至有時是很危險的方法。這對于任何像強(qiáng)化學(xué)習(xí)這樣依賴于優(yōu)化的算法而言,都是一個長期存在并且非常關(guān)鍵的挑戰(zhàn)。我們將在17.6節(jié),也就是本書的最后一節(jié)中詳細(xì)討論這個問題。

即使有一個簡單且易于辨識的目標(biāo),收益稀的問題仍然時常出現(xiàn)。足夠緊地提供非零收益讓智能體實(shí)現(xiàn)一次目標(biāo),本身就已經(jīng)是一個今人畏懼的挑戰(zhàn),更不要說讓它高效地從各種各樣的初始狀態(tài)下進(jìn)行學(xué)習(xí)了。那些可以明確地觸發(fā)收益的“狀態(tài)動作”二元組可能很少,而且相互之間隔得很遠(yuǎn):且代表著向目標(biāo)前進(jìn)的收益也可能并不常見,因?yàn)槌?br /> 向目標(biāo)的進(jìn)步總是很難甚至是無法衡量的。智能體可能會長期沒有目的地漫游( Minsky
1961所稱的“高原問題”)。

在實(shí)踐中,設(shè)計(jì)收益信號通常會歸到一個反復(fù)試驗(yàn)的搜索過程,直到找到一個可以產(chǎn)生合理結(jié)果的信號。如果智能體沒有成功學(xué)習(xí),學(xué)得太慢,或者學(xué)習(xí)到了錯誤的東西,那么這個應(yīng)用的設(shè)計(jì)者會調(diào)整收益信號并且再試一次。為了做到這一點(diǎn),設(shè)計(jì)者會對智能體的表現(xiàn)用某種評估標(biāo)準(zhǔn)來衡量,而他會把這種評估標(biāo)準(zhǔn)翻譯成一個收益信號,使得智能體的目標(biāo)和設(shè)計(jì)者自己的目標(biāo)相匹配。如果學(xué)習(xí)的進(jìn)程大慢了,那么設(shè)計(jì)者可能會嘗試設(shè)計(jì)個非稀硫的信號,其可以在智能體與環(huán)境交互的過程中更有效地指導(dǎo)學(xué)習(xí)。解決稀硫收益問題的一個非常誘人的手段是,以設(shè)計(jì)者認(rèn)為達(dá)到最終目標(biāo)所經(jīng)歷的重要的幾個階段作為子目標(biāo),對這些子目標(biāo)提供收益函數(shù)。但是,當(dāng)使用這些有明確目的性的補(bǔ)充收益來擴(kuò)充原來的收益函數(shù)時,也可能會使智能體的行為與我們的預(yù)期大相徑庭智能體可能最終根本不會達(dá)到總的目標(biāo)。一個更好的提供這樣的指導(dǎo)的方法是,把收益函數(shù)放在一邊而對價值函數(shù)的逼近過程進(jìn)行擴(kuò)充,給它擴(kuò)充一個描述最終目標(biāo)的初始猜測,或描述部分目標(biāo)的初始猜測。例如,假設(shè)我們想把:S→R作為真實(shí)的最優(yōu)價值函數(shù)
U。的一個初始猜測,并且我們使用關(guān)于特征x:S→Rd的線性函數(shù)逼近,那么我們可以
把初始的價值函數(shù)逼近形式定義為:


然后按照慣例更新權(quán)重w,如果初始的權(quán)重向量是0,那么初始的價值函數(shù)則是t,
但是漸近解的質(zhì)量會像往常一樣由特征向量決定。可以針對任意的非線性函數(shù)通近器和任
意形式的u來做這種初始化,盡管這并不保證能加速學(xué)習(xí)。

一個處理稀疏收益問題的非常有效的方式是塑造技術(shù),它由心理學(xué)家B.F. Skinne
提出,并在本書的14.3節(jié)中有所介紹。這種技術(shù)的有效性依賴于一個事實(shí):稀疏收益問題并不只是收益信號本身的問題,它們也是智能體策略的問題,有些策略會阻礙智能體頻繁達(dá)到可以產(chǎn)生收益的狀態(tài)。塑造技術(shù)會在學(xué)習(xí)過程中不斷改變收益信號:給定智能體的初始行為,從一個不那么稀疏的收益信號開始,漸漸地把它調(diào)整到適合最初感興趣的問題的收益信號。智能體面臨一系列難度逐漸増加的強(qiáng)化學(xué)習(xí)問題,其中在每個階段學(xué)習(xí)到的東西,可以讓下一個更難的問題變得相對簡單一些。這是因?yàn)橹悄荏w通過學(xué)習(xí)簡單問題得到了先驗(yàn)知識,這些知識使得它能夠更加頻繁地獲得復(fù)雜問題下的收益;而如果不學(xué)習(xí)先驗(yàn)知識就直接優(yōu)化復(fù)雜問題的收益,則收益會非常稀疏。“塑造”是訓(xùn)練動物過程中的個基礎(chǔ)技術(shù),它在計(jì)算強(qiáng)化學(xué)習(xí)中非常有效。

如果我們對于收益信號如何設(shè)計(jì)一籌莫展,但是有另外一個智能體,它可能是一個人類,已經(jīng)是該領(lǐng)域的專家,并且它的行為可以被我們觀察到,那么我們可以如何利用這點(diǎn)呢?在這種情況下,我們可以使用被稱為“模仿學(xué)習(xí)”“從示范中學(xué)習(xí)”和“學(xué)徒學(xué)習(xí)”的算法。這里的思想是從專家智能體中獲得收益,同時保留進(jìn)一步提升的可能性。從專家的行為中學(xué)習(xí)可以通過直接的有監(jiān)督學(xué)習(xí),或者通過被稱作“逆強(qiáng)化學(xué)習(xí)”的技術(shù)抽取收
益函數(shù),然后使用強(qiáng)化學(xué)習(xí)算法從這個收益函數(shù)學(xué)出一個策略。Ng和Rusl(200研
究了逆強(qiáng)化學(xué)習(xí)的任務(wù),他們嘗試僅僅從專家的行為中恢復(fù)出專家的收益信號。但這種做法無法找到精確解,因?yàn)橐粋€策略可能對很多個不同的收益信號而言都是最優(yōu)的(例如,任何對所有狀態(tài)和動作給予相同收益的信號)。但是,我們?nèi)匀豢赡苷业胶侠淼暮蜻x收益信號。只不過這個過程需要很強(qiáng)的假設(shè),包括對環(huán)境動態(tài)特性的先驗(yàn)知識,以及與收益信號成線性關(guān)系的特征向量。同時,這個方法也要求對問題做多次完全求解(例如通過動態(tài)
規(guī)劃)。雖然有這些困難,但是 Abbeel 7和Ng(2004)稱逆強(qiáng)化學(xué)習(xí)有時會比有監(jiān)督學(xué)習(xí)更
有效
另一個找到好的收益信號的方法,是將試錯搜索過程自動化以找到好的信號。從應(yīng)用角度來說,收益信號是學(xué)習(xí)算法的一個參數(shù)。正如我們可以對算法的其他參數(shù)所做的那樣,我們可以自定義可行的搜索空間,然后用優(yōu)化算法自動優(yōu)化這些收益信號。優(yōu)化算法是這樣評估每一個候選收益信號的:以該收益信號運(yùn)行強(qiáng)化學(xué)習(xí)算法若干步,然后用一個包含設(shè)計(jì)者真實(shí)目標(biāo)的“高級”目標(biāo)函數(shù)來計(jì)算評分,不需要考慮該智能體的局限。甚至
可以通過在線梯度上升來提升收益信號,其中梯度來自于高級的目標(biāo)函數(shù)(Sorg、 Lewis和 Singh,2010)。把這個算法與真實(shí)世界相聯(lián)系的話,優(yōu)化高級目標(biāo)函數(shù)可以類比為進(jìn)
化,其中高級優(yōu)化函數(shù)代表動物的進(jìn)化適應(yīng)程度,這通過能活到繁殖年齡的后代數(shù)量來衡量。

這種具有上下兩層優(yōu)化算法(一層類似于進(jìn)化,另一層是智能體個體的強(qiáng)化學(xué)習(xí))
的計(jì)算實(shí)驗(yàn)已經(jīng)證實(shí),直覺本身并不總足以用來設(shè)計(jì)一個好的收益信號( Singh、 Lewis和 Barto,200)。利用高級目標(biāo)函數(shù)所衡量的強(qiáng)化學(xué)習(xí)智能體的性能表現(xiàn),可能會對智能
體收益信號的某些細(xì)節(jié)方面特別敏感,這些敏感性來源于智能體本身的局限以及它在其活動和學(xué)習(xí)的環(huán)境。這些實(shí)驗(yàn)也表明一個智能體的目標(biāo)不應(yīng)該總是與智能體設(shè)計(jì)者的目標(biāo)一致。

最初這件事情顯得很反直覺,但是對于一個智能體而言,它不可能不管收益信號是么就達(dá)到設(shè)計(jì)者的目標(biāo)。智能體需要在很多限制下學(xué)習(xí),例如有限的計(jì)算能耗、有限的環(huán)境信息或者有限的學(xué)習(xí)時間。當(dāng)有這樣那樣的限制的時候,學(xué)習(xí)去達(dá)成一個與設(shè)計(jì)者目標(biāo)
不同的目標(biāo),而不是直接去追求設(shè)計(jì)者的目標(biāo)(Sorg、 Singh和Lewi,2010:Sorg,201)
這可能有時會更加接近于設(shè)計(jì)者的初衷。在自然界中很容易找到這樣的例子,因?yàn)槲覀儾荒苤苯咏佑|到大多數(shù)食物的營養(yǎng)值,我們的收益信號的設(shè)計(jì)者一一進(jìn)化一一給予我們
一個收益信號讓我們?nèi)フ夷承┨囟ㄎ兜馈1M管這當(dāng)然并不絕對可靠(事實(shí)上,在某些與祖先環(huán)境不同的環(huán)境中可能是有害的),但這個信號補(bǔ)償了我們之前許多的限制:有限的感官功能,有限的學(xué)習(xí)時間,以及在尋找健康飲食的過程中進(jìn)行個體嘗試實(shí)驗(yàn)所冒的風(fēng)險。類似地,因?yàn)閯游锊⒉荒軐?shí)際觀察到它的進(jìn)化適應(yīng)性,所以進(jìn)化適應(yīng)性的目標(biāo)函數(shù)本身并不能作為收益信號。相反,進(jìn)化過程所提供的一系列收益信號都是可以觀測的,并且是對進(jìn)化適應(yīng)性敏感的。

最我們要記住,強(qiáng)化學(xué)習(xí)智能體并不一定是一個完整的有機(jī)物或者機(jī)器人。它可能是一個更大的行為系統(tǒng)的一部分。這意味著收益信號可能被更大的行動智能體內(nèi)部的事情所影響,例如動機(jī)、記憶、想法甚至幻覺。收益信號可能也依賴于學(xué)習(xí)過程本身的一些性質(zhì),比如衡量學(xué)習(xí)中進(jìn)步了多少。讓收益信號對這樣的內(nèi)部信息敏感,可以使智能體作為“認(rèn)知架構(gòu)”的一部分,學(xué)習(xí)如何控制認(rèn)知架構(gòu),同時也可以獲取一些特定的知識和技能。這些技能很難只依賴于外部的收益信號學(xué)習(xí)到。這種可能性導(dǎo)致了“內(nèi)在激勵的強(qiáng)化學(xué)習(xí)”這個思想,稍后我們會簡要地討論這個問題。

5 遺留問題

在本書中,我們介紹了通向人工智能的強(qiáng)化學(xué)習(xí)方法的基礎(chǔ)知識。粗略地說,這個方
法依賴于模型無關(guān)和模型相關(guān)的方法的結(jié)合(如第8章中的Dyma框架所示),并利用第Ⅱ
部分中介紹的函數(shù)通近技術(shù)。其中的關(guān)注焦點(diǎn)是“在線”和“增量式”的算法(我們甚至認(rèn)為這些方法比基于模型的方法更為基本),以及如何在離軌策略訓(xùn)練的情形中使用這些算法。后者的完整應(yīng)用只在這最后一章中有所闡述。也就是說,我們之前一直將離軌策略學(xué)習(xí)視為解決試探和開發(fā)之間矛盾的一種吸引人的方式,但是只有在這一章中,我們才真正完整地討論了依賴于離軌策略學(xué)習(xí)的應(yīng)用,包括學(xué)習(xí)GVF的同時也學(xué)習(xí)多個不同的輔助任務(wù),還有通過時序摘要的選項(xiàng)模型來對世界進(jìn)行層次化的學(xué)習(xí)。正如我們不斷在本書中指出的,并且本章中所討論的未來潛在研究方向也表明,目前仍有很多工作有待完成。但是,假設(shè)我們認(rèn)可本書中全部的內(nèi)容以及本章到現(xiàn)在為止所概括的全部方向,那么還剩下的是什么呢?當(dāng)然我們不能確切地知道什么是需要的,但是我們可以做一些猜測。在這
?節(jié)中我們強(qiáng)調(diào)6個更長遠(yuǎn)的問題,有待未來的研究去解決。

第一個問題是,我們?nèi)匀恍枰鼜?qiáng)大的參數(shù)化函數(shù)逼近方法,它應(yīng)當(dāng)可以在完全增量式和在線式的設(shè)置下很好地工作。基于深度學(xué)習(xí)和人工神經(jīng)網(wǎng)絡(luò)的方法是這個方向上的重要一步,但是它們?nèi)匀恢皇窃跇O大的數(shù)據(jù)集上批量訓(xùn)練才能得到很好的效果,要么是大量離線地自我對局博弈,要么是通過多個智能體在同一個任務(wù)上交錯地采集經(jīng)驗(yàn)來學(xué)習(xí)。這些以及其他的一些設(shè)置都是為了解決當(dāng)下的深度學(xué)習(xí)方法的局限,即深度學(xué)習(xí)方法在增量式、在線式學(xué)習(xí)的設(shè)定下會陷人掙扎,而增量式和在線式學(xué)習(xí)又恰恰是本書中強(qiáng)調(diào)的最自然的強(qiáng)化學(xué)習(xí)方法的特質(zhì)。這個問題又被稱作“災(zāi)難性的干找”,或者“相關(guān)的數(shù)據(jù)”。每當(dāng)學(xué)習(xí)到一些新的東西時,它都傾向于忘記之前學(xué)的東西,而不是將新知識作為補(bǔ)充,這會導(dǎo)致之前學(xué)習(xí)到的那些優(yōu)點(diǎn)都丟失。例如“回放緩存”之類的技術(shù)經(jīng)常被用于儲存和重新導(dǎo)出舊的數(shù)據(jù),使得之前學(xué)到的優(yōu)點(diǎn)不至于永久丟失。我們必須誠實(shí)地說,目前的深度學(xué)習(xí)方法并不完全適合在線學(xué)習(xí)。我們找不到這種限制無法解決的理由,但是迄今為止,在保持深度學(xué)習(xí)優(yōu)勢的同時解決這個問題的算法仍然還沒有被設(shè)計(jì)出來。大部分當(dāng)下的深度學(xué)習(xí)研究的導(dǎo)向是在這個限制下工作而不是去掉這個限制。

第二點(diǎn)(也許是緊密相連的),我們?nèi)匀恍枰恍┓椒▉韺W(xué)習(xí)特征表示,使得后續(xù)的學(xué)習(xí)能夠很好地推廣。這個題是一個更廣義的問題(被稱為“表征學(xué)習(xí)”“構(gòu)造型歸納”和“元學(xué)習(xí)”)的例子。我們?nèi)绾问褂媒?jīng)驗(yàn)去學(xué)習(xí)歸納各種偏差,使得未來的學(xué)習(xí)能夠得到更好的推廣也因此學(xué)得更快,而不只是學(xué)習(xí)一個想要的函數(shù)。這是一個很老的問題,可以道潮到20世紀(jì)50年代和60年代的人工智能和模式識別的起源。這樣的年代可能會止人感到猶豫,也許這個問題沒有好的解決方案。但是同樣也有可能是我們尚未到達(dá)找出解決方案并展示它的有效性的階段。如今的機(jī)器學(xué)習(xí)是在一個遠(yuǎn)大于過去的規(guī)模上進(jìn)行的。一個好的表征學(xué)習(xí)方法可能帶來的收益越來越清晰。我們注意到,在一個新的機(jī)器學(xué)
習(xí)年會一一國際表征學(xué)習(xí)會議( International Conference on Learning Representations
ICLR)上,自2013年起每年都有人採討這個問題。但在強(qiáng)化學(xué)習(xí)的語境下探索表征學(xué)習(xí)則不是那么常見。強(qiáng)化學(xué)習(xí)給這個舊間題帶來了許多新的可能性,例如17.1節(jié)中提到的軸助任務(wù)。在強(qiáng)化學(xué)習(xí)中,表征學(xué)習(xí)的問題與173節(jié)中討論的學(xué)習(xí)狀態(tài)更新函數(shù)的問題是一致的。

第三點(diǎn),我們?nèi)匀恍枰褂每蓴U(kuò)展的方法在學(xué)習(xí)到的環(huán)境模型中進(jìn)行規(guī)劃。規(guī)劃方
法已經(jīng)被證明在某些應(yīng)用上極為有效,如 Alphago Zero和計(jì)算機(jī)國際象棋等,這些問題
中的環(huán)境模型可以從游戲的規(guī)則或者人類設(shè)計(jì)者的知識中完整地得到。但是在完全基于模型的強(qiáng)化學(xué)習(xí)任務(wù)中,需要從數(shù)據(jù)中學(xué)習(xí)環(huán)境模型,然后再用于規(guī)劃,可很少有成功的例
子。第8章中介紹的Dyna系統(tǒng)是一個例子,但是正如我們當(dāng)時所討論并且也在大部分
隨后的工作中被人提及的,它使用了一個不帶函數(shù)通近的表格型模型,這在很大程度上限了它的應(yīng)用范國。只有少部分的研究探討了線性模型的使用、更少的研究同時了在172節(jié)中討論的基于選項(xiàng)的時序摘要方法。

為了使規(guī)劃方法可以在學(xué)習(xí)得到的環(huán)境模型上有效地使用,我們還需要做很多工作。例如,模型的學(xué)習(xí)過程應(yīng)該是選擇式的,因?yàn)槟P偷姆秶鴷?yán)重影響規(guī)劃的效率。如果一個模型注重于最重要的選項(xiàng)的關(guān)鍵結(jié)果,則規(guī)劃可能是快速和高效的;但是如果一個模型包含了不太可能被選到的選項(xiàng)的非主要后果的詳細(xì)信息,則規(guī)劃可能幾乎沒有什么用。環(huán)境模型應(yīng)該以優(yōu)化規(guī)劃過程為目標(biāo),謹(jǐn)值而明智地構(gòu)建其狀態(tài)和動態(tài)特性。應(yīng)該持續(xù)地監(jiān)測模型的各個方面,以了解它們對規(guī)劃效率貢獻(xiàn)或者減損的程度。本領(lǐng)域尚未解決這個復(fù)雜的問題或者設(shè)計(jì)出考慮其影響的模型學(xué)習(xí)算法。

第四個在未來的研究中需要重點(diǎn)解決的問題,是自動化智能體的任務(wù)選擇過程,智能體在這些任務(wù)上工作并且使用這些任務(wù)提升自己的競爭力。在機(jī)器學(xué)習(xí)中,人類設(shè)計(jì)者為智能體設(shè)計(jì)學(xué)習(xí)的目標(biāo)是一件很常見的事情。因?yàn)檫@些任務(wù)是提前已知而且固定的,因此它們可以被內(nèi)嵌在學(xué)習(xí)算法的代碼中。然而如果我們看得更遠(yuǎn)一些,則我們可能希望智能體對于將來想掌握什么技能做出自己的選擇。這可能是某個特定的已知的大任務(wù)中的一個子任務(wù),或者它們可能意圖創(chuàng)造一些積木式的模塊,允許智能體在一些尚未見過但是將來可能面臨的問題上更加高效地學(xué)習(xí)。

這些任務(wù)可能像17.1節(jié)中討論的輔助任務(wù)或者GVF,或者是用17.2節(jié)中討論的基于選項(xiàng)的方法解決的任務(wù)。例如在構(gòu)建一個GVF的過程中,累積量、策略、終止函數(shù)分別應(yīng)該是什么樣子的?當(dāng)前的最優(yōu)方法是手動選擇它們,但是如果我們可以把這些任務(wù)選擇變得自動化,那么它可能會更強(qiáng)大并且推廣性也更強(qiáng),尤其是當(dāng)任務(wù)選擇來自于智能體已經(jīng)構(gòu)建的一些“積木”的時候就更是如此,這些“積木”可能是之前在表征學(xué)習(xí)或者在子問題的經(jīng)驗(yàn)學(xué)習(xí)中產(chǎn)生的結(jié)果。如果GVF的設(shè)計(jì)是自動化的,那么設(shè)計(jì)的選擇本身將會被顯式地表達(dá)出來:它們將會在計(jì)算機(jī)中以一種可以設(shè)置、改變、操控、篩選和搜索的方式自動組織起來,而不是在設(shè)計(jì)者的大腦中,隨后寫進(jìn)代碼里。之后任務(wù)可以一個接著
一個地被層次化組織起來,就像人工神經(jīng)網(wǎng)絡(luò)中的特征一樣。任務(wù)就是一個一個的問題,而人工神經(jīng)網(wǎng)絡(luò)的內(nèi)容就是這些問題的答案。我們期望將來有一個完整的層次化的問題與現(xiàn)代深度學(xué)習(xí)方法提供的層次化的答案相匹配。

第五個我們認(rèn)為對未來研究至關(guān)重要的問題是,通過實(shí)現(xiàn)某種可計(jì)算的好奇心來推動行為和學(xué)習(xí)之間的相互作用。在本章中我們想象過一個場景:從一個經(jīng)驗(yàn)流中,通過離軌策略的方法,同時學(xué)習(xí)多個任務(wù)。采取的動作當(dāng)然會影響經(jīng)驗(yàn)流,而經(jīng)驗(yàn)流反過來也會決定學(xué)習(xí)會出現(xiàn)多少次,什么任務(wù)將會被學(xué)習(xí)。當(dāng)收益信號不可用,或者不被智能體行為強(qiáng)烈影響的時候,智能體可以自由選擇動作,在某種意義上最優(yōu)化這些任務(wù)上的學(xué)習(xí),也就是說使用某些衡量學(xué)習(xí)進(jìn)度的指標(biāo)作為內(nèi)在的收益,來實(shí)現(xiàn)一種“好奇心”的計(jì)算形式。除了衡量學(xué)習(xí)進(jìn)度之外,內(nèi)在的收益函數(shù)可以以其他的可能性,找到最出人意料、新奇或者有趣的輸人,或者評價智能體對環(huán)境造成影響的能力。用這些方式產(chǎn)生的內(nèi)在收益信號,可以被智能體用來給自己提出任務(wù),任務(wù)的提出可以通過定義輔助任務(wù)、GVF或者選項(xiàng)等方式實(shí)現(xiàn),以使得學(xué)到的技能可以提升智能體掌握未來任務(wù)的能力。從結(jié)果上看,這很像計(jì)算意義上的玩要。現(xiàn)在已經(jīng)有了很多關(guān)于使用內(nèi)在收益信號的研究,在這個大的方向上還有很多激動人心的話題,等待未來的研究去揭示。

最后一個在將來的研究中需要注意的問題是開發(fā)足夠安全(達(dá)到可以接受的程度)的方法將強(qiáng)化學(xué)習(xí)智能體嵌入真實(shí)物理環(huán)境中,從而保證強(qiáng)化學(xué)習(xí)帶來的好處超過其帶來的危害。這是未來研究最重要的一個方向之一,我們將在下一節(jié)中討論它。

6、

我們在20世紀(jì)90年代中期撰寫本書第1版的時候,人工智能取得了顯著的進(jìn)展,而且產(chǎn)生了一定的社會效應(yīng),盡管這個時期大多數(shù)激動人心的進(jìn)展只是品示出人工智能可能的前景而已。機(jī)器學(xué)習(xí)就是這個前景中的一部分,但是對于人工智能而言還不能算是不可或缺的。如今人工智能的前景已經(jīng)落地為應(yīng)用,而且正在改變百萬人的生活。機(jī)器學(xué)習(xí)本身也成為了一項(xiàng)關(guān)鍵技術(shù)。在我們寫本書第2版的時候,一些人工智能方面最卓越的成就已經(jīng)包括了強(qiáng)化學(xué)習(xí)技術(shù),比如著名的“深度強(qiáng)化學(xué)習(xí)”一一強(qiáng)化學(xué)習(xí)與深度人工神經(jīng)網(wǎng)絡(luò)結(jié)合。我們正處在一波人工智能真實(shí)場景應(yīng)用的浪潮之中,它們中將會有很多都使用深度或者非深度的強(qiáng)化學(xué)習(xí),我們很難預(yù)料它們將以什么樣的方式影響我們的生活。

但是大量真實(shí)世界中的成功案例并不代表真正的人工智能已經(jīng)實(shí)現(xiàn)了。盡管人工智在很多領(lǐng)域都取得了很大的進(jìn)展,但是人工智能與人類智能,甚至與動物智能之間的鴻海都是很大的。人工智能在某些領(lǐng)域能有超過人類的表現(xiàn),甚至是圍棋這種非常難的游戲然而開發(fā)像人類這樣完整地?fù)碛型ㄓ眠m應(yīng)性和解決問題的能力、復(fù)雜的情感系統(tǒng)和創(chuàng)造力,以及從經(jīng)驗(yàn)中快速學(xué)習(xí)的能力的可交互式的智能體仍然任重道遠(yuǎn)。強(qiáng)化學(xué)習(xí)作為一關(guān)注于動態(tài)環(huán)境交互式學(xué)習(xí)的技術(shù),在將來會發(fā)展為這種智能體的不可或缺的部分。強(qiáng)化學(xué)習(xí)與心理學(xué)及神經(jīng)科學(xué)的聯(lián)系(第14和15章)弱化了其與人工智能其他的出期目標(biāo)之間的關(guān)聯(lián),即掲示關(guān)于心智的一些關(guān)鍵問題,以及心智如何從大腦中產(chǎn)生。強(qiáng)化學(xué)習(xí)已經(jīng)幫助我們理解了大腦的收益機(jī)制、動機(jī)和做決策的過程。因此有理由相信,在計(jì)算精神疾病學(xué)相結(jié)合之后,強(qiáng)化學(xué)習(xí)將會幫助我們研發(fā)治療精神親亂,包括藥物濫用和藥物成的方法。

強(qiáng)化學(xué)習(xí)在未來將會取得的另一個成就是輔助人類決策。在模擬仿真環(huán)境中進(jìn)行強(qiáng)化學(xué)習(xí),從中得到的決策函數(shù)可以指導(dǎo)人類做決策,比如教育、醫(yī)療、交通、能源、公共部門的資源調(diào)度。與其密切相關(guān)的一個強(qiáng)化學(xué)習(xí)的特征是,它總是考慮決策的長期效應(yīng)。這在圍棋和西洋雙陸棋中是非常明顯的,這些也正是強(qiáng)化學(xué)習(xí)給人留下最深刻印象的案例同時這也是收關(guān)我們?nèi)祟惡托乔蛎\(yùn)的諸多高風(fēng)險決策的特征。在過去的很多領(lǐng)域中策分析人員已經(jīng)使用了強(qiáng)化學(xué)習(xí),并將其決策用于指導(dǎo)人類。使用高級的函數(shù)通近方法和大量的計(jì)算資源,強(qiáng)化學(xué)習(xí)方法已經(jīng)展現(xiàn)出了一些潛力,期望攻克將傳統(tǒng)決策輔助方法推廣到更大規(guī)模、更復(fù)雜問題的難題。
人工智能的快速發(fā)展讓我們開始擔(dān)心它可能對社會甚至人類本身造成嚴(yán)重的威脅。著
名的科學(xué)家和人工智能先驅(qū) Herbert Simon早在2000年( Simon,2000手CMIU舉辦的地球研討會( Earthware Symposium)上的一個演講中,就預(yù)言了這一點(diǎn)。他指出在任何
新形式的知識中,前景和危險都存在著永恒的沖突。他用古希臘神話中普羅米修斯和潘多拉之盒的例子打比方,現(xiàn)代科學(xué)的英雄普羅米修斯,為了人類的福社,從諸神那里盜取火
種;而開啟潘多拉之盒,只是一個小小的無意之舉,卻給人類帶來了災(zāi)難。 Simon認(rèn)為我
們需要承認(rèn)這樣的沖突是不可避免的,同時應(yīng)該把自己當(dāng)作未來的設(shè)計(jì)者而不是觀眾,我們更傾向于做普羅米修斯那樣的決策。這對于強(qiáng)化學(xué)習(xí)來說非常正確,如果不就地部署強(qiáng)化學(xué)習(xí),它在給社會帶來福利的同時,也有可能造成我們不希望看到的后果。因此,包括強(qiáng)化學(xué)習(xí)在內(nèi)的人工智能應(yīng)用,其安全性是一個需要重視的課題。

一個強(qiáng)化學(xué)習(xí)智能體可以通過與真實(shí)世界環(huán)境、模擬環(huán)境(模擬真實(shí)世界的一部分)或者這兩者的結(jié)合環(huán)境進(jìn)行交互而學(xué)習(xí)。模擬器提供安全的環(huán)境,以供智能體自由試探,而不需要考慮對自己/環(huán)境帶來的危害。在大多數(shù)現(xiàn)有的應(yīng)用中,決策是通過與模擬環(huán)境交互,而不是直接與真實(shí)世界交互學(xué)習(xí)到的。除了避免在真實(shí)世界中造成不希望看到的后果之外,在模擬環(huán)境中學(xué)習(xí),可以得到模擬的無窮無盡的數(shù)據(jù),這比在真實(shí)環(huán)境中得到這些數(shù)據(jù)要容易得多。而且由于在模擬環(huán)境下,因此交互的速度通常比在真實(shí)環(huán)境中快,般在模擬環(huán)境中的學(xué)習(xí)也要快于在真實(shí)世界環(huán)境中的學(xué)習(xí)。

一個強(qiáng)化學(xué)習(xí)智能體可以通過與真實(shí)世界環(huán)境、模擬環(huán)境(模擬真實(shí)世界的一部分)或者這兩者的結(jié)合環(huán)境進(jìn)行交互而學(xué)習(xí)。模擬器提供安全的環(huán)境,以供智能體自由試探,而不需要考慮對自己/環(huán)境帶來的危害。在大多數(shù)現(xiàn)有的應(yīng)用中,決策是通過與模擬環(huán)境交互,而不是直接與真實(shí)世界交互學(xué)習(xí)到的。除了避免在真實(shí)世界中造成不希望看到的后果之外,在模擬環(huán)境中學(xué)習(xí),可以得到模擬的無窮無盡的數(shù)據(jù),這比在真實(shí)環(huán)境中得到這些數(shù)據(jù)要容易得多。而且由于在模擬環(huán)境下,因此交互的速度通常比在真實(shí)環(huán)境中快,般在模擬環(huán)境中的學(xué)習(xí)也要快于在真實(shí)世界環(huán)境中的學(xué)習(xí)。

然而,展現(xiàn)強(qiáng)化學(xué)習(xí)的全部潛力需要將智能體置于真實(shí)世界的經(jīng)驗(yàn)流中,在我們的真實(shí)世界中行動、試探、學(xué)習(xí),而不是僅僅在它們的虛擬世界中。總而言之,強(qiáng)化學(xué)習(xí)算法(至少在本書中關(guān)注的那些)被設(shè)計(jì)成在線式的,并且它們在很多方面都在效仿動物如何在不穩(wěn)定和有敵人的環(huán)境下存活。嵌入真實(shí)世界中的強(qiáng)化學(xué)習(xí)智能體可以在實(shí)現(xiàn)人工智能放大、擴(kuò)充人類能力的過程中起到變革性的作用。

希望我們的強(qiáng)化學(xué)習(xí)智能體在真實(shí)環(huán)境中學(xué)習(xí)的一個主要原因是:以極高的保真度模擬真實(shí)世界的經(jīng)驗(yàn)通常是很困難甚至是不可能的,因而很難保證在模擬世界學(xué)習(xí)到的策略,無論是通過強(qiáng)化學(xué)習(xí)還是其他別的方法學(xué)到的,其可以安全并良好地指導(dǎo)真實(shí)的動作。這對于某些依賴于人類行為的動態(tài)環(huán)境而言尤其明顯,例如,教育、醫(yī)療、交通、公共政策,在這些環(huán)境中,提升決策力可以帶來切實(shí)的收益。然而部署這些智能體到真實(shí)世界中,需要考慮人工智能可能造成的危險。
其中有些危險是與強(qiáng)化學(xué)習(xí)密切相關(guān)的。因?yàn)閺?qiáng)化學(xué)習(xí)依賴于優(yōu)化,因此它繼承所有優(yōu)化方法的優(yōu)點(diǎn)和缺點(diǎn)。其中一個缺點(diǎn)是設(shè)計(jì)目標(biāo)函數(shù)的問題,在強(qiáng)化學(xué)習(xí)中這被稱作收益信號,它幫助智能體學(xué)到我們想要的行為,同時規(guī)避那些我們不想要的行為。我們在17.4節(jié)中提到,強(qiáng)化學(xué)習(xí)智能體可能會試探到意想不到的方式,通過這種方式使它們的環(huán)境傳遞收益,而有些方式并不是我們想要的,甚至是危險的。當(dāng)我們只是非直接地制定我們想要系統(tǒng)學(xué)習(xí)的東西時,正如我們設(shè)計(jì)強(qiáng)化學(xué)習(xí)的收益信號那樣,在學(xué)習(xí)結(jié)東之前,我們不會知道我們的智能體距離完成我們的期望有多近。這并不是強(qiáng)化學(xué)習(xí)所帶來的新問題,在文學(xué)和工程實(shí)踐中這個問題的提出已經(jīng)很久了,例如在歌德的詩歌
“魔法師的學(xué)徒”( Goethe1878)中,學(xué)徒對掃帚施法,以幫助他取水,但結(jié)果卻造成了出人意料的洪水,這是因?yàn)閷W(xué)徒對魔法的掌握不到家。在工程中, Norbert Wiener,控制論( cybernetics)的莫基人,早在半個世紀(jì)以前就指出了這個題。他把這個問題聯(lián)系到了一個超自然的故事“猴子的爪子”( Wiener,19640):“它滿足了你向他要的,但并不是你應(yīng)該向他要的,或者不是你本來的意圖。”這個問題也在現(xiàn)代的文獻(xiàn)中有長篇討論(Nd
Bostrom2014)。任何在強(qiáng)化學(xué)習(xí)方面有經(jīng)驗(yàn)的人都可能發(fā)現(xiàn)他們的系統(tǒng)找到了一些出人
意料的方式來提高收益。有些時候意想不到的行為是很好的,它以一種全新的方式解決了問題。但是在其他情況下,智能體學(xué)習(xí)到的東西違背了系統(tǒng)設(shè)計(jì)者的初衷,因?yàn)樵O(shè)計(jì)者完全沒有考慮到某些情況。仔細(xì)設(shè)計(jì)收益函數(shù)是非常重要的,它幫助智能體在真實(shí)世界中行動,且不會給人類以觀察其行為和動機(jī)并輕易干擾它的行為的機(jī)會。

盡管優(yōu)化可能帶來非預(yù)期的負(fù)面效果,但數(shù)百年來,優(yōu)化一直在被工程師、架構(gòu)師還有潛在的可能造福人類的設(shè)計(jì)者們廣泛使用。我們生活中很多好的方面都依賴于優(yōu)化算法的應(yīng)用。另一方面,也有很多方法被提出來解決優(yōu)化潛在的風(fēng)險,例如增加硬或軟的約束,使用魯棒和風(fēng)險低的策略來限制優(yōu)化,使用多目標(biāo)函數(shù)優(yōu)化等。這些方法中有些已經(jīng)用到了強(qiáng)化學(xué)習(xí)中,而且更多這方面的研究還有待進(jìn)行。如何把強(qiáng)化學(xué)習(xí)智能體的目標(biāo)調(diào)整成我們?nèi)祟惖哪繕?biāo),仍然是個難題。

另一個強(qiáng)化學(xué)習(xí)在真實(shí)世界中行動和學(xué)習(xí)帶來的挑戰(zhàn)是,我們不僅僅關(guān)注智能體學(xué)習(xí)的最終效果,而且關(guān)注其在學(xué)習(xí)時的行為方式。如何保證智能體可以得到足夠多的經(jīng)驗(yàn)以學(xué)習(xí)一個高性能的決策,同時又能保證不損害環(huán)境、其他智能體或者它本身(更現(xiàn)實(shí)地說如何把傷害的可能性降得盡可能低)?這個問題并不新鮮,也不只在強(qiáng)化學(xué)習(xí)中存在。對于嵌入式強(qiáng)化學(xué)習(xí),風(fēng)險控制和減輕問題與控制工程師們在最初使用自動化控制時所面臨的同題是一樣的。那時控制器的行為并不可控,很多時候還可能有災(zāi)難性后果,例如對飛機(jī)和精密化學(xué)過程的控制。控制的應(yīng)用依賴于精細(xì)的系統(tǒng)建模、模型驗(yàn)證和大量的測試。關(guān)于讓事先完全不了解的動態(tài)系統(tǒng)保證收斂和適配控制器的穩(wěn)定性,已經(jīng)有大量的理論。理論的保證從來不是萬能的,因?yàn)樗鼈円蕾囉跀?shù)學(xué)上的假設(shè)成立。但是如果沒有這些理論與風(fēng)險控制和減輕的實(shí)踐相結(jié)合,自適應(yīng)或者其他類型的自動控制就不會像今天我們看到的那樣,可以有效地提升質(zhì)量、效率和成本收益。未來強(qiáng)化學(xué)習(xí)研究最重要的方向之一是適應(yīng)和改善現(xiàn)有方法,以控制嵌入式的智能體在可接受的程度上足夠安全地在真實(shí)物理環(huán)境中工作。
在最后,我們回到 Simon的號召:我們要意識到我們是未來的設(shè)計(jì)者,而不僅僅是
觀眾。通過我們作為個體所做的決策,以及我們對于社會如何治理所施加的影響,我們可以共同努力以保證新科技帶來的好處大于其帶來的危害。在強(qiáng)化學(xué)習(xí)領(lǐng)域里有充足的機(jī)會來做這件事情,因?yàn)樗瓤梢詭椭嵘@個星球上生命的質(zhì)量,促進(jìn)公平和可持續(xù)發(fā)展也有可能帶來新的危機(jī)。現(xiàn)在已經(jīng)存在的一個威脅就是人工智能應(yīng)用造成了許多人的失業(yè)。當(dāng)然我們也有充分的理由去相信,人工智能帶來的好處將遠(yuǎn)大于其造成的危害。關(guān)于安全問題,強(qiáng)化學(xué)習(xí)帶來的危害并沒有和當(dāng)下已經(jīng)被廣泛采用的相關(guān)領(lǐng)域的控制優(yōu)化算法帶來的危害有本質(zhì)的區(qū)別。強(qiáng)化學(xué)習(xí)未來的應(yīng)用涉足真實(shí)世界時,開發(fā)者們有義務(wù)遵循同類技術(shù)中成熟的實(shí)踐經(jīng)驗(yàn),同時拓展它們,以保證普羅米修斯一直占據(jù)上風(fēng)。

參考文獻(xiàn) 歷史評注

17.1廣義的價值函數(shù)最早是 Sutton和他的同事( Sutton,195a; Sutton et al,201; Modayil、
White和Sutn,2013)提出的。Ring提出了(正在準(zhǔn)備中)一種使用GVF(“預(yù)報”)的
延伸思想實(shí)驗(yàn),已經(jīng)有一定的影響力,不過尚未發(fā)表。
使用多個頭部的強(qiáng)化學(xué)習(xí)是由 Jaderberg et al.(2017)首次展示的, Bellemare、 Dabney和 Munos(2017)等人證實(shí)了預(yù)測收益分布的更多信息可以顯著提升學(xué)習(xí)速度來實(shí)現(xiàn)對其期望
的優(yōu)化(這也是輔助任務(wù)的一個例子)。在這之后,很多研究者都開始在這個方向開展研究工作
就我們所知,經(jīng)典條件反射作為學(xué)習(xí)預(yù)測的一般理論以及對預(yù)測的內(nèi)在反射性反應(yīng)并沒有在
心理學(xué)的文獻(xiàn)中得到過明確闡述。 Modayil和Sutn(2014)將其描述為一種控制機(jī)器人和其
他智能體的方法,稱為“巴甫洛夫控制”,暗示其根源為條件反射。

172將動作的時序摘要過程形式化為“選項(xiàng)”的過程是 Sutton、 Precup和 Singh(199等人提出
的,這也基于前人的工作,包括Par(199和Sutt(1995a)以及半MIDP的經(jīng)典工作(例如,見 Puterman,1994). Precup(200的博士論文完整地提出了選項(xiàng)的思想。這些早期工
作一個很大的局限是它們沒有處理離軌策略情況下的函數(shù)逼近。選項(xiàng)內(nèi)部的學(xué)習(xí)通常來說需要離軌策略方法,那時還不能通過函數(shù)通近來可靠地完成。盡管現(xiàn)在我們有了一系列使用函數(shù)通近的穩(wěn)定離軌策略算法,但它們與選項(xiàng)的結(jié)合并沒有在本書出版的時候被真正地發(fā)掘出
來。 Barto和 Mahadevan(200還有 Hengst(2012)回顧了形式化的選項(xiàng),還有其他的時序
摘要算法。
使用GVF實(shí)現(xiàn)帶選項(xiàng)的模型在前文中沒有提到。我們的介紹中使用了 Modayil、 White和 Sutton(2014)等人提出的技巧,在策略結(jié)束的時候預(yù)測信號。
第17章前沿技術(shù)
使用函數(shù)通近來學(xué)習(xí)帶選項(xiàng)的模型的部分工作由 Bacon、Harb和 Precup(2017)等人提出。
目前的文獻(xiàn)中還沒有人提出把選項(xiàng)和帶選項(xiàng)的模型拓展到平均收益的情形。
173 Monahan(1982)給出了一個關(guān)于 POMDP方法的很好的展示。PSR和測試序列的概念由 Littman、 Sutton和 Singh(2002)等人提出。OOM由 Jaeger(1997,1908,2000提出。統(tǒng)一PSR、OOM和很多其他工作的序列系統(tǒng),由 Michael Thon(2017;Thon和3 Beger
2015)在博土論文中提出。
強(qiáng)化學(xué)習(xí)與非馬爾可夫狀態(tài)表示的理論由 Singh、 Jaakkola和 Jordan(194; Jaakkola, Singh和 Jordan,1995)明確提出,早期的處理部分可觀測性的強(qiáng)化學(xué)習(xí)方法由 Chrisman(192)
Mccallum(1993, 1995). Parr i Russell(1995). Littman Cassandra M Kaelbling(1995)
還有 by Lin和 Mitchell(1992)提出
17.4早期關(guān)于強(qiáng)化學(xué)習(xí)的建議和教學(xué)參考包括Lin(1992), Maclin和 Shavlik(199), Clouse(1996),還有 Clouse和 Utgoff(192)
不應(yīng)該將 Skinner的塑造技術(shù)與Ng、 Harada和Rusl(190提出的"基于的造”技術(shù)相混酒。 Wiewiora(2003)說明了該技術(shù)實(shí)際上與一個更簡單的思想等價:給價值函數(shù)提供
初始近似,如式(17.11)所示。

17.5我們推薦由 Goodfellow、 Bengio和 Courville(20160)所著的討論當(dāng)下深度學(xué)習(xí)技術(shù)的書ANN中的災(zāi)難性干找問題由 Mccloskey和 Cohen(1989), Ratcliff(1990),還有 French(1999提出。回放緩存的技術(shù)由1in(1992)提出,其著名應(yīng)用是Atan游戲系統(tǒng)(165節(jié)
Mnih et al.,2013,2015).
Minsky(1961)是第一個認(rèn)識到表征學(xué)習(xí)問題的人。
為數(shù)不多的使用學(xué)習(xí)到的近似模型做規(guī)劃的研究由 Kuvayev和 Sutton(1996), Sutton
Szepesvari、 Geramifard和 Bowling(2008), Nouri和 Littman(2009),還有 Hester和 Stone
(2012)等人做
在人工智能中,模型的設(shè)計(jì)需要仔細(xì)選擇以避免過慢的規(guī)劃,這是人們熟知的。一些經(jīng)典的工
作包括 Minton(1990和 Tambe、 Newell,還有 Rosenbloom(199 Hauskrecht、 Meulear
Kaelbling、Dean和 Boutilier(1998)在帶確定性的選項(xiàng)的MDP中展示了相應(yīng)的效果
Schmidhuber(1991a,b)指出,如果收益信號是關(guān)于智能體的環(huán)境改普得有多快的一個函數(shù)那么像好奇心那樣的事情會導(dǎo)致怎樣的后果。由 Klyubin、 Polan和 Nehaniv(200提出的
授權(quán)函數(shù)是一個信息理論的度量,衡量智能體控制環(huán)境的能力,它也可以作為一種內(nèi)在的收益
信號。 Baldassarre和 Mirolli(2013)的文章研究生物學(xué)和計(jì)算角度上的內(nèi)在收益和動機(jī),包括一種“內(nèi)在激勵的強(qiáng)化學(xué)習(xí)”的觀點(diǎn),使用了由 Singh、 Barto和 Chentenez(2004)提出的術(shù)語。同時可以參考 Oudeyer和 Kaplan(2007), Oudeyer、 Kaplan和 Hafner(200),還有 Barto(2013)的工作。

總結(jié)

以上是生活随笔為你收集整理的【17】 强化学习 17章 前沿技术的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。

狠狠色丁香婷婷综合久小说久 | 在线视频区| 黄色成人免费电影 | 国产三级av在线 | 亚洲成人黄色在线观看 | 99视频在线免费观看 | 高清中文字幕av | 欧美日韩国产一二三区 | 视频在线一区 | 一区二区激情视频 | av一区在线 | 久久久午夜精品福利内容 | 久久综合狠狠 | 国产黄在线 | 九九热只有这里有精品 | 黄色精品视频 | 久久精品欧美一区二区三区麻豆 | 国产99久久精品一区二区300 | 久99久在线视频 | 国产午夜免费视频 | 精品主播网红福利资源观看 | 夜夜躁日日躁狠狠久久av | 日韩专区在线播放 | 久久久在线观看 | 成年人在线看片 | 亚洲精品久久久久久中文传媒 | 中文字幕在线网 | 色综合久久综合中文综合网 | 国产高清区 | 黄色毛片视频免费观看中文 | 欧美另类xxx| 久热色超碰 | 在线观看中文字幕一区二区 | 国产精品中文字幕在线播放 | 黄网站色欧美视频 | 久久久午夜精品福利内容 | 黄色国产在线 | 欧美日在线观看 | 久久综合婷婷国产二区高清 | 1000部国产精品成人观看 | 亚洲婷婷综合色高清在线 | 久久99久久99久久 | 一区二区三区四区免费视频 | 欧美天天干| 国产乱对白刺激视频不卡 | 久久午夜免费观看 | 亚洲女在线 | 欧美激情综合五月色丁香 | 9992tv成人免费看片 | 亚洲免费专区 | 国产黄a三级 | 亚洲精品在线观 | 亚洲欧美va | 成年人电影免费看 | 黄色一级免费电影 | 国产午夜精品一区二区三区在线观看 | 亚洲国产合集 | 国产高清视频免费最新在线 | 在线观看91| 国产黄a三级| 亚洲久久视频 | av永久网址| 日本精品午夜 | 99视频精品全部免费 在线 | 久久久久成人免费 | av电影一区二区三区 | a黄色片 | 成人中文字幕在线观看 | 国产一级二级在线播放 | 视频在线99re | 91热| 在线成人中文字幕 | 色久天| 精品v亚洲v欧美v高清v | 国产黑丝一区二区 | 黄色com| 成人免费在线观看av | 天天添夜夜操 | 色偷偷av男人天堂 | 在线观看av免费 | 久久精品视频一 | 韩国av三级 | 日日操天天操狠狠操 | 国产无遮挡又黄又爽在线观看 | 91亚洲国产成人久久精品网站 | 精品久久精品久久 | av不卡免费看 | 亚洲精品国产成人av在线 | 久久国产一区二区三区 | 久久国产精品电影 | 欧美一级免费高清 | 天天操天天干天天摸 | 四虎影视精品 | 久久99精品久久久久久秒播蜜臀 | 成人激情开心网 | 精品乱码一区二区三四区 | 午夜影院先 | 99热国内精品 | 国产中文字幕第一页 | 亚洲激情 在线 | 久久99热这里只有精品国产 | 三级免费黄 | 天天鲁天天干天天射 | 日韩免费电影在线观看 | 深爱激情五月综合 | 鲁一鲁影院| 中文有码在线视频 | 天天在线操| 亚洲视频在线观看 | 日韩免费av在线 | 成年人网站免费观看 | 国产精品成人aaaaa网站 | 亚洲日韩中文字幕在线播放 | 国产精品久久久久999 | 日韩在线免费看 | 在线视频你懂 | 免费看亚洲毛片 | 91在线在线观看 | 美女网站一区 | 国产区第一页 | 中文在线a∨在线 | 99色免费| 69久久99精品久久久久婷婷 | 黄色软件视频大全免费下载 | 在线亚洲天堂网 | 国产视频久久久 | 性色av一区二区三区在线观看 | 国产永久免费高清在线观看视频 | 激情欧美一区二区三区 | 国产一区在线免费 | 五月婷婷丁香在线观看 | 成人国产网站 | 国产福利91精品一区二区三区 | 国产成在线观看免费视频 | av在线激情 | 去干成人网 | 天天操天天添 | 天堂网av 在线 | 园产精品久久久久久久7电影 | 五月天激情视频 | 亚洲精品午夜久久久久久久 | 国产 日韩 在线 亚洲 字幕 中文 | 在线观看岛国 | 草久在线播放 | 中文国产在线观看 | 久久第四色 | 天天操天天添天天吹 | 久久免费成人精品视频 | 81精品国产乱码久久久久久 | 色播五月激情综合网 | 97超视频| 成人一区二区三区中文字幕 | 久久福利剧场 | 久热免费在线观看 | 久久黄色小说视频 | 国产日韩欧美视频在线观看 | 日本精品va在线观看 | 亚洲涩涩网 | 日韩欧美电影在线 | 日韩xxx视频 | 久久视频99 | 日日夜夜91| 久久久免费精品 | 国产精品一区二区三区视频免费 | 超碰精品在线观看 | 久久久综合精品 | 成人观看| 久久免费视频3 | 午夜体验区 | 国产自产在线视频 | 日韩一区视频在线 | 91麻豆精品国产91久久久久久久久 | 天天激情综合 | 在线亚洲高清视频 | 国产精品 中文字幕 亚洲 欧美 | 久草在线免费看视频 | 国产毛片aaa | 久久国产精品99精国产 | 国产在线观看一区 | 狠狠干狠狠色 | 性日韩欧美在线视频 | av综合在线观看 | 免费观看性生活大片 | 激情五月亚洲 | 久久婷亚洲五月一区天天躁 | 亚洲黄色一级大片 | 国产精品久久久久久久久久新婚 | 日日日日| 中文字幕一区二区三区四区视频 | 色偷偷888欧美精品久久久 | 久久免费在线观看视频 | 久久久久久久久久久网站 | 久久涩涩网站 | 激情亚洲综合在线 | 亚洲六月丁香色婷婷综合久久 | 午夜av剧场 | 久久爽久久爽久久av东京爽 | 亚洲一区二区三区毛片 | 久久久久中文 | 狠狠躁天天躁综合网 | 狠狠躁日日躁夜夜躁av | 噜噜色官网| 黄色官网在线观看 | 色激情五月 | 久久久久亚洲最大xxxx | 五月婷婷丁香激情 | 久草视频免费看 | 美国av大片 | 欧美成年人在线视频 | 国产剧在线观看片 | 日韩av中文字幕在线免费观看 | 天天射射天天 | 国产精品久久久久高潮 | 欧美精品中文字幕亚洲专区 | 国产麻豆视频免费观看 | 国产专区在线播放 | 337p日本大胆噜噜噜噜 | 亚洲精品国产自产拍在线观看 | 永久免费视频国产 | 国产一区在线不卡 | 久久久国产99久久国产一 | 网站免费黄 | 中文字幕美女免费在线 | 97在线影视 | 国产成人免费精品 | 亚洲天堂网在线视频观看 | 成人av免费在线 | 日本精品久久久一区二区三区 | 久久精品美女视频网站 | 国产91综合一区在线观看 | 九草视频在线 | 日本精品中文字幕 | 色婷婷综合久久久 | 这里只有精品视频在线观看 | 国产亚洲精品久久久久动 | 激情五月婷婷激情 | 欧美激情xxxx| 成人久久影院 | 午夜精品一区二区三区视频免费看 | 天天操天天摸天天射 | 国产精品美女久久久久久久网站 | 成人av免费播放 | 亚洲经典中文字幕 | 国内精品久久久久久久久久清纯 | 免费国产黄线在线观看视频 | 亚洲理论在线观看电影 | 亚洲视频精选 | 丁香激情综合国产 | 操操爽| 国产精品原创av片国产免费 | 二区三区毛片 | 国产亚洲精品免费 | 成人毛片在线观看 | 丁香婷婷色综合亚洲电影 | 国产91勾搭技师精品 | 波多野结衣在线视频一区 | 日日夜夜精品免费视频 | 国产做a爱一级久久 | 久久国产精品第一页 | 黄色在线免费观看网站 | 最新国产在线视频 | 国产在线观看二区 | 亚州性色 | 天天综合网~永久入口 | 97超碰人人模人人人爽人人爱 | 少妇性bbb搡bbb爽爽爽欧美 | 一区二区欧美在线观看 | www成人av| 欧美做受高潮 | 超碰个人在线 | 亚洲永久精品一区 | 精品国产视频在线 | 天天色棕合合合合合合 | 国产精品孕妇 | 久久精品视频国产 | 五月天婷婷在线观看视频 | 国产精品福利久久久 | 亚洲国产精品日韩 | 在线视频欧美日韩 | 亚洲精选视频在线 | 射射色 | 久久综合色一综合色88 | 亚洲精品一区二区三区高潮 | 国产精品资源 | 日韩欧美精品在线观看 | 午夜婷婷网 | 夜夜天天干 | 久久99电影 | 午夜久久影视 | 女人魂免费观看 | 亚洲经典在线 | 久人人| .国产精品成人自产拍在线观看6 | 伊色综合久久之综合久久 | 狠狠狠狠狠狠狠 | 日夜夜精品视频 | 国产不卡在线播放 | 亚洲色影爱久久精品 | 天天色天天操综合 | 中文在线免费视频 | 99久久精品午夜一区二区小说 | 国产伦精品一区二区三区照片91 | 日韩免费一级电影 | 日韩专区在线播放 | 日韩极品视频在线观看 | 中文字幕在线字幕中文 | 日韩免费看的电影 | 91精品系列| 97av色 | 开心激情五月婷婷 | 日韩在线字幕 | 婷婷丁香久久五月婷婷 | 婷婷久月 | 成片免费观看视频 | 亚洲一区日韩在线 | 亚洲一区日韩 | 91福利在线导航 | 亚洲综合视频在线播放 | 欧美成人精品欧美一级乱 | www天天干 | 99在线观看视频 | 日韩一二三 | 成人免费xxx在线观看 | 国产午夜精品视频 | 亚洲精品在线视频 | 国产精品爽爽久久久久久蜜臀 | 香蕉在线视频播放网站 | 在线国产一区 | 丁香花中文在线免费观看 | 中文字幕一区二区三区四区在线视频 | 亚洲女人天堂成人av在线 | 91精品视频一区 | 亚洲午夜久久久久久久久久久 | 亚洲一区视频免费观看 | 成人一级免费视频 | 97成人在线免费视频 | 亚洲精品影院在线观看 | 欧美国产高清 | 国产精品小视频网站 | 麻豆91精品视频 | a特级毛片 | 国产一区二区视频在线 | 成人av.com| 波多野结衣视频一区二区 | 亚洲小视频在线 | 天天操偷偷干 | 国产精品一级在线 | 4p变态网欧美系列 | 精品免费国产一区二区三区四区 | 亚洲色图美腿丝袜 | 日韩有码在线播放 | 精品麻豆| 在线天堂视频 | 日韩精品免费在线观看视频 | 91精品1区 | 欧美久久久久久久久中文字幕 | 日本中文一区二区 | 亚洲一区二区天堂 | 国产精品18久久久久久首页狼 | 国产女人18毛片水真多18精品 | 天天色视频 | 99在线观看视频网站 | 天天操天天干天天操天天干 | 婷婷激情综合五月天 | 最近乱久中文字幕 | 香蕉久久久久久久 | 中文字幕在线视频精品 | 日韩在线观看视频网站 | 综合色中文 | 国产精品久久久网站 | 亚洲永久精品视频 | 在线最新av | 丁香激情综合国产 | 天天操天天摸天天爽 | 国产区免费 | 99精品福利视频 | 亚洲国内精品 | 亚洲精品福利视频 | 成人免费观看视频大全 | 黄色a在线观看 | av资源在线看 | 五月激情六月丁香 | 最近中文字幕高清字幕在线视频 | 国产91免费在线观看 | 六月激情网 | 蜜臀久久99精品久久久酒店新书 | 黄色资源在线观看 | 在线电影 一区 | 亚洲电影成人 | 国产日韩高清在线 | 手机看片国产日韩 | 国产中文字幕三区 | 国产96在线观看 | 国产精品国产三级在线专区 | 韩日三级av | av中文字幕网站 | 久久r精品 | 一区二区亚洲精品 | 久久国产影院 | 天天艹天天操 | 成人一级视频在线观看 | 亚洲欧美偷拍另类 | 欧美淫aaa免费观看 日韩激情免费视频 | 久久国产精品免费一区二区三区 | 亚洲精品婷婷 | 久草国产精品 | 日韩av综合网站 | 99精品乱码国产在线观看 | 97视频在线观看视频免费视频 | 国产日韩av在线 | 国产手机免费视频 | 玖玖玖国产精品 | 午夜一级免费电影 | 国产精品毛片久久久 | 亚洲精品综合欧美二区变态 | 国产中文字幕视频在线观看 | 99精品免费观看 | 亚洲理论片在线观看 | 久草在线视频首页 | 国产精品福利久久久 | 久久久五月婷婷 | 中文字幕精品一区久久久久 | 久久视频国产 | 成人毛片一区 | 91精品伦理| 国产免费av一区二区三区 | 久久久久久黄色 | 免费看在线看www777 | 国产精品一区二区三区视频免费 | 欧美精品一区二区性色 | 999久久久免费精品国产 | 在线观看精品黄av片免费 | 香蕉免费 | 成人啪啪18免费游戏链接 | 蜜臀久久99精品久久久无需会员 | 日韩中文在线观看 | 国产91免费看 | av一区二区在线观看中文字幕 | 视频在线观看91 | 久精品在线观看 | 99精品视频免费看 | 五月综合在线观看 | 特级毛片aaa | 亚洲aaa毛片 | 欧美精品二区 | 99r在线视频 | 色爱成人网 | 久久久精品 一区二区三区 国产99视频在线观看 | 久久久久久国产精品免费 | 99久久爱 | 91网站免费观看 | 国产欧美精品一区二区三区四区 | 在线黄色观看 | 欧美激情综合五月色丁香小说 | 久久免费99 | 国产午夜精品久久久久久久久久 | 天堂av在线 | 亚洲一区二区三区四区在线视频 | 久久精品首页 | 狠狠网 | 亚洲涩涩涩 | 99国产视频在线 | 国产麻豆成人传媒免费观看 | 在线你懂| 色综合天天天天做夜夜夜夜做 | 日本激情动作片免费看 | 欧美一区二区三区不卡 | 成年人视频在线观看免费 | 亚洲精品午夜久久久久久久久久久 | 久久午夜视频 | 亚洲天堂视频在线 | 日韩欧美国产激情在线播放 | 人人干人人模 | 亚洲精品国产视频 | 日本精品一区二区三区在线播放视频 | 国产精品99久久久久久小说 | 成人av电影在线观看 | 中文字幕在线观看免费高清完整版 | va视频在线观看 | 六月婷婷久香在线视频 | 日本一区二区不卡高清 | 国产97视频在线 | 婷婷久久综合九色综合 | 亚洲不卡在线 | 午夜精品av| 久久综合久久综合久久 | 在线免费观看麻豆视频 | 色婷婷综合激情 | 韩国一区视频 | 亚洲国产三级 | 国产精品一区二区三区久久久 | 午夜在线看 | 国产黄在线免费观看 | 欧美在线久久 | 精品久久久成人 | 中文字幕在线观看你懂的 | 少妇视频在线播放 | 久久久99精品免费观看 | 久久免费视频一区 | 81精品国产乱码久久久久久 | 国产精品久久久久久模特 | 国产一级片观看 | 中文字幕亚洲不卡 | 精品视频区 | 最近最新最好看中文视频 | 91综合久久一区二区 | 国产91在线免费视频 | 国产片网站 | 五月天com| 午夜久久久精品 | 成人亚洲欧美 | 国产一级做a爱片久久毛片a | 欧美精品久久 | 久产久精国产品 | 欧美在线观看视频免费 | 欧美国产日韩在线视频 | 久久久久久美女 | 91在线中字| 久久成人精品 | 国产成人a亚洲精品v | 特级西西444www大精品视频免费看 | av大全在线免费观看 | 国产一区二区在线播放视频 | 亚洲理论影院 | 久久免费国产电影 | 最新av电影网址 | 日本成址在线观看 | 精品视频一区在线观看 | 国产高清中文字幕 | 五月婷婷丁香综合 | 日韩一级黄色片 | 这里只有精品视频在线 | 国产在线专区 | 不卡的av电影在线观看 | 精品福利网 | 国产精品久久久毛片 | 久久久久电影网站 | 特黄免费av | 97福利视频 | 国产一二三四在线观看视频 | 日韩最新在线 | 欧美一级片在线 | 在线观看小视频 | 手机av资源 | 国产群p | 顶级bbw搡bbbb搡bbbb | 国产亚洲视频系列 | av福利超碰网站 | 国产午夜精品理论片在线 | 韩日精品中文字幕 | 2018亚洲男人天堂 | 久久人人爽人人爽人人 | 久草免费在线观看 | 日韩av影片在线观看 | 国产精品观看视频 | 九九久久久久久久久激情 | 黄色小说网站在线 | 在线观看亚洲视频 | 久草免费福利在线观看 | 日韩午夜大片 | 91福利视频久久久久 | 午夜视频免费在线观看 | 久久综合狠狠综合久久综合88 | 99视频久久 | a成人在线| 国产精品男女 | 国产精品美女 | 狠狠干干 | 中文字幕免费一区二区 | 狠狠黄| 国产精品手机在线 | 中文字幕 国产视频 | 久黄色| 亚洲最大激情中文字幕 | 日韩电影在线观看中文字幕 | 色婷婷视频在线观看 | 免费成人在线观看视频 | 亚洲精品视频在线播放 | 伊人久久av | 97视频免费在线看 | 亚洲黄色片 | av免费看av| 91高清视频在线 | avove黑丝 | 热re99久久精品国产99热 | 亚洲一区二区三区在线看 | 一二三区高清 | 国产玖玖精品视频 | 久久精品久久精品久久精品 | 欧美极品一区二区三区 | freejavvideo日本免费 | 狠狠色综合网站久久久久久久 | 日日干夜夜骑 | 日韩欧美亚州 | 午夜 久久 tv | 免费黄色小网站 | 国产r级在线观看 | 亚洲午夜电影网 | avhd高清在线谜片 | 久久精品国产一区二区电影 | 婷婷国产在线观看 | 色欧美88888久久久久久影院 | 午夜国产福利在线 | 91在线中文| 亚洲精品在线免费观看视频 | 日韩视频一区二区三区在线播放免费观看 | 国产精品高潮久久av | 久久久久久麻豆 | 最新av免费| 国产aaa大片 | 男女全黄一级一级高潮免费看 | 日韩一区视频在线 | 成人午夜电影在线观看 | 久草在线精品观看 | 中文字幕在线观看完整版 | 人人爽人人av | 国产精品久久片 | 日韩在线不卡视频 | 欧美日韩中 | 97国产超碰| 99精品在线直播 | 天天狠狠干 | 欧美极品一区二区三区 | 亚洲欧美日韩中文在线 | 久草在线资源免费 | 国内精品在线一区 | av在线日韩 | 欧美激情精品久久久久久 | 亚洲年轻女教师毛茸茸 | 久久超 | 在线观看aaa | 97夜夜澡人人爽人人免费 | 国产精品综合av一区二区国产馆 | 国产精品久久久999 国产91九色视频 | 免费看一级一片 | 色婷婷久久 | 亚在线播放中文视频 | 亚洲精品动漫成人3d无尽在线 | 美女视频黄免费的久久 | 久久精品看片 | 精品a级片| 国产美女精品视频免费观看 | 在线免费观看国产黄色 | 国产成人av网站 | 久久综合导航 | 在线视频你懂得 | 日韩视频在线不卡 | 在线观看亚洲a | 激情片av | 国产免费影院 | 五月天久久久久 | 国产精品视频地址 | 久久成视频 | 精品视频123区在线观看 | 韩国一区二区三区在线观看 | 久久久久女人精品毛片九一 | 日韩精品一区二区三区在线视频 | 日韩a在线看 | 国产精品原创 | 狠狠干五月天 | 日韩av三区| 国产色女| 国产在线观看91 | 亚洲免费av观看 | 欧美日韩另类在线 | 久久精品国产v日韩v亚洲 | www.色婷婷.com | 高清av影院 | 久久在线观看 | 国产精品久久久一区二区 | 97看片吧 | 亚洲精品乱码久久久久久蜜桃不爽 | 色午夜| 亚洲国产精品女人久久久 | 国产精品高潮呻吟久久av无 | 国产精品视频专区 | 精品国产1区 | 成人97视频| 午夜视频在线观看欧美 | 91成年人视频 | 视频在线99| 日本巨乳在线 | 91伊人影院| 成年人视频在线 | 天天综合天天做天天综合 | 一区二区三区手机在线观看 | 精品久久久久一区二区国产 | 精品国产福利在线 | 亚洲国产av精品毛片鲁大师 | 欧美激情视频三区 | 亚洲国产日韩欧美 | 欧美性粗大hdvideo | 亚洲永久精品视频 | 又黄又爽又湿又无遮挡的在线视频 | 久久成人国产精品 | 日本中文字幕在线电影 | 欧美999| 五月天免费网站 | 免费污片 | 在线观看av片 | 在线视频麻豆 | av在线电影免费观看 | 国产精品igao视频网网址 | 国产二区av | 精品国精品自拍自在线 | 91在线文字幕 | 99久久精品无码一区二区毛片 | 国产精品自产拍在线观看网站 | 色欧美日韩 | www.色在线| 99视频一区二区 | 亚洲欧洲视频 | 欧美a视频| 免费黄色看片 | 国产精品亚洲片夜色在线 | 欧美日韩国内在线 | 婷婷草 | 丁香花在线视频观看免费 | 国产精品久久久久一区 | 怡春院av | 夜夜干夜夜 | av在线播放免费 | 丝袜美女在线观看 | 亚洲精品免费在线观看视频 | 999热线在线观看 | 亚洲国产精品va在线看黑人 | 欧美精品一区二区蜜臀亚洲 | 久久免费视频精品 | 国产在线国偷精品产拍免费yy | 国产黄大片 | 91爱爱免费观看 | 国产精品久久久久久久久蜜臀 | 日韩精品一区二区三区免费观看 | 久久这里只有精品1 | 日韩理论在线视频 | 少妇bbw揉bbb欧美 | 天天干天天干天天色 | 十八岁以下禁止观看的1000个网站 | 69精品在线观看 | 精品久久一区二区三区 | 精品久久片 | 国产色视频一区 | 97超碰免费在线观看 | 国产成人av福利 | 91九色国产 | 午夜a区 | 精品久久久久久久久久久久久久久久 | 欧美激情精品久久久久久免费印度 | 中文字幕一区二区三区乱码在线 | 国产专区第一页 | 国产二区精品 | 久久综合视频网 | 亚洲美女视频在线 | 国产精品永久久久久久久久久 | 91最新视频在线观看 | 久久精品视频网 | 国产又粗又猛又色 | 992tv又爽又黄的免费视频 | 91av电影在线观看 | 国产视频18| 欧美性生活小视频 | 国产人成在线视频 | 99热最新地址 | 日本精品在线 | 伊色综合久久之综合久久 | 国产91aaa | 日本少妇视频 | 亚洲精品国产成人av在线 | 有码中文在线 | 91九色蝌蚪视频在线 | 91免费视频国产 | 国产视频一区在线播放 | 免费福利片2019潦草影视午夜 | 天天躁天天操 | 亚洲激情视频在线观看 | 色资源网在线观看 | 成人欧美一区二区三区黑人麻豆 | 国产又粗又猛又爽又黄的视频免费 | 欧美天堂久久 | 中文字幕免费高清在线 | 欧美视频在线观看免费网址 | www日韩在线观看 | 亚洲干 | 狠狠色网 | 狠狠躁日日躁 | 激情五月婷婷综合网 | 99视频免费观看 | 91在线成人 | 在线观看成人福利 | 日韩精品专区在线影院重磅 | 婷婷五天天在线视频 | 久久久一本精品99久久精品66 | 少妇bbw搡bbbb搡bbbb | 亚洲干视频在线观看 | 国内精品久久久久久久久久 | 国产精品白丝jk白祙 | 日韩av在线免费播放 | 激情综合色综合久久综合 | 日韩网页 | 久久免费成人网 | 国产精品综合久久久久久 | 免费色av| 成人资源网 | 欧美一二三区在线观看 | 午夜在线免费观看视频 | 一区二区三区中文字幕在线观看 | 日韩欧美视频 | 91精品福利在线 | 色婷婷www | 日韩大片免费在线观看 | 97**国产露脸精品国产 | 国产中文字幕视频在线观看 | 久久午夜色播影院免费高清 | 国产精品久久久久久久久蜜臀 | 国产精品av一区二区 | 天天插天天射 | 91精品国产麻豆 | 免费在线激情电影 | 国产精品区免费视频 | 五月婷婷开心中文字幕 | 麻豆首页 | 国产又黄又爽又猛视频日本 | 日韩欧美一区二区三区在线 | 日本在线观看一区 | 91av视频在线播放 | 亚洲成av人片在线观看 | 一区二区精品在线观看 | 亚洲视频网站在线观看 | 最新精品视频在线 | 天天操天天干天天 | 成人国产精品免费 | 9999在线观看 | 亚洲天堂网站视频 | 五月天六月丁香 | 香蕉久久久久久av成人 | 国产 日韩 在线 亚洲 字幕 中文 | 日本xxxxav | av在线一级| 亚洲精品视频在线免费播放 | 91中文在线 | 亚洲精品日韩在线观看 | 中文字幕在线播放日韩 | 一区二区三区高清在线 | www久久久久 | 国产在线欧美日韩 | 开心激情网五月天 | 五月天婷婷在线播放 | 黄色一级网 | 国产不卡在线视频 | 又长又大又黑又粗欧美 | 日韩黄在线观看 | 高清av免费观看 | 欧美 日韩 视频 | 精品主播网红福利资源观看 | 五月在线视频 | 久久久麻豆精品一区二区 | 成片人卡1卡2卡3手机免费看 | 一区二区三区视频网站 | 欧美激情精品 | 国产免费一区二区三区最新 | 国产精品一区二区电影 | 免费观看久久久 | 久久高清国产视频 | www.com黄| 成人av电影网址 | 日日夜夜天天 | 精品久久影院 | 九九热中文字幕 | 麻豆系列在线观看 | 国产免费高清视频 | 婷婷激情在线观看 | 国产精品久久久久久久久久新婚 | www久久com | 久久综合网色—综合色88 | 97精品欧美91久久久久久 | 99久久精品无免国产免费 | 亚洲春色综合另类校园电影 | 亚洲精品午夜视频 | 黄色大片中国 | 精品一二三四五区 | 日韩久久精品一区二区三区下载 | 亚洲精品国产拍在线 | 日韩av五月天| 射射射av | 美女久久99 | 国产精品久久久久久久久久久不卡 | 日日夜夜天天久久 | 日本高清xxxx | 99久久超碰中文字幕伊人 | 中文字幕免费国产精品 | 激情久久久久久久久久久久久久久久 | 亚洲精品成人av在线 | 男女男视频 | 麻豆视频免费在线 | 久久精品在线 | 久久人操| 欧美日韩破处 | 日本成人免费在线观看 | 日日夜夜91| 91麻豆精品久久久久久 | 欧美小视频在线 | 在线视频一二区 | 激情综合站 | 久久国产日韩 | 亚洲人成精品久久久久 | 伊在线视频| 91精品国产自产在线观看 | 国产免费视频在线 | 黄色av电影免费观看 | 九色激情网 | av中文字幕在线观看网站 | av五月婷婷 | www国产精品com | 色婷婷综合五月 | 午夜精品中文字幕 | 久草网站在线 | 日日日天天天 | 国产你懂的在线 | 欧美性精品 | 久久久久麻豆v国产 | 久久新视频| 五月激情久久久 | 欧美日韩国产精品爽爽 | 精品婷婷| www.五月婷婷.com | 国产手机在线观看 | 91在线免费看片 | 丝袜美腿av | japanesefreesexvideo高潮| 亚洲精品一区二区三区四区高清 | 最近更新中文字幕 | 中文字幕高清av | 久久一区二区三区日韩 | 亚洲人成免费网站 | 人人澡超碰碰 | 日韩sese| 91在线看 | 三级av中文字幕 | 日日天天狠狠 | 99热日本 | 精品在线观看一区二区 | 精品国产黄色片 | 免费成人av | 亚洲综合色视频在线观看 | 国产精品亚洲片在线播放 | 亚洲 欧美 变态 国产 另类 | 91av视频网站 | 97韩国电影 | 在线有码中文 | 久久久综合九色合综国产精品 | 日韩欧美在线第一页 | 国产成人av综合色 | 国产美女网站在线观看 | 99精品久久久久久久久久综合 | 精品嫩模福利一区二区蜜臀 | 久久亚洲福利视频 | 日韩电影在线一区二区 | 亚洲综合导航 | 成年人国产在线观看 | 91av在线视频免费观看 | 久久国产电影院 | 久久久网址 | 波多野结衣视频一区 | 蜜臀av性久久久久蜜臀av | 精品免费视频. | 国产 视频 久久 | 国产手机精品视频 | 国产麻豆果冻传媒在线观看 | 成人片在线播放 | 欧美一区二区在线免费观看 | 免费在线观看一级片 | 久久新视频 | 欧美怡红院视频 | 色婷婷福利| 九九免费观看全部免费视频 | 亚洲在线黄色 | 国产剧情一区 | 黄色软件在线观看免费 | 天天操天天爱天天干 | 91九色蝌蚪视频在线 | 日日碰狠狠添天天爽超碰97久久 | 在线精品一区二区 | 日日碰夜夜爽 | 永久免费精品视频网站 | 成人性生爱a∨ | 久草成人在线 | 日韩在线播放欧美字幕 | 成人黄色大片在线免费观看 | 91精品国产自产91精品 | 色网站视频 | 国产精品欧美久久久久无广告 | 日韩在线观看视频中文字幕 | 久久久久免费精品 | 日韩高清不卡在线 | 欧美日韩高清一区二区 | 超碰在线人人艹 | 这里只有精品视频在线观看 | 在线黄色免费av |