當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

【17】强化学习 17章前沿技术

發(fā)布時間：2023/12/20 编程问答 39 豆豆

生活随笔收集整理的這篇文章主要介紹了【17】强化学习 17章前沿技术小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

文章目錄

名詞
- - - 離軌策略
    - 折扣過程
    - 折扣系數(shù)
    - 價值函數(shù)
    - 廣義策略迭代（4.6節(jié)）或者“行動器一評判器”算法
正文
17.1 廣義價值函數(shù)和輔助任務(wù)
- 1、廣義價值函數(shù)是什么？
- 2、輔助任務(wù)是什么？
- - 定義：預(yù)測和控制不同種類的信號特征
- 作用
17.2、基于選項(xiàng)理論的時序摘要
- 人類可以無縫地在各個時間層次上切換，而沒有一點(diǎn)轉(zhuǎn)換的痕跡。那么MDP框架可不可以被拉伸，從而同步地覆蓋所有這些時間層次呢？
17.3 觀測量和狀態(tài)
17.4 設(shè)計(jì)收益信號
5 遺留問題
6、
參考文獻(xiàn) 歷史評注

名詞

離軌策略

允許函數(shù)以任意的目標(biāo)策略作為條件

折扣過程

12.8節(jié)中，折扣過程推廣為一個終止函數(shù)，使得可以在每個時刻采用不同的折扣系數(shù)來作為回報。

折扣系數(shù)

價值函數(shù)

廣義策略迭代（4.6節(jié)）或者“行動器一評判器”算法

正文

17.1 廣義價值函數(shù)和輔助任務(wù)

1、廣義價值函數(shù)是什么？

離軌策略允許函數(shù)以任意的目標(biāo)策略作為條件，終止函數(shù)的引入，使得可以在每個時刻采用不同的折扣系數(shù)來作為回報。
允許我們在一個任意的、狀態(tài)相關(guān)的視界，可以預(yù)測未來能得到多少收益。

下一步：將收益推廣，允許對任意信號的預(yù)測。

比如，聲音、顏色等信號未來的值之和進(jìn)行預(yù)測，而不止對未來的收益值之和進(jìn)行預(yù)測。

不管我沒累加的是什么信號，我們都稱其為預(yù)測的累積量：累計(jì)信號：

廣義價值函數(shù)GVF:

像傳統(tǒng)的價值函數(shù)（例如v或者q）一樣，這是一個可以用參數(shù)化的形式逼近的理想函數(shù)，我們可以繼續(xù)用v（s,w）來標(biāo)記它，盡管對于每一種π、γ、Ct 的選擇，在每次預(yù)測過程中都會有一個不同的參數(shù)w。因?yàn)橐粋€GVF并不必然與收益有聯(lián)系，因此將其稱為值函數(shù)可能有些用詞不當(dāng)。我們可以簡單地稱之為“預(yù)測",或者用更獨(dú)特的方式說：預(yù)報（由Ring提出，準(zhǔn)備發(fā)表）。不管如何稱呼它，它的形式都和價值函數(shù)一樣，因此可以用本書中提出的學(xué)習(xí)近似價值函數(shù)的方法學(xué)出來。在學(xué)習(xí)預(yù)測值的同時，我們也可以采用廣義策略迭代（4.6節(jié)）或者“行動器一評判器”算法，通過最大化預(yù)測值來學(xué)習(xí)策略。用這種方式，一個智能體可以學(xué)習(xí)如何預(yù)測和控制大量不同類型的信號，而不僅僅是長期收益。

為什么預(yù)測和控制長期收益之外的信號可能有用呢？這類信號控制任務(wù)是在最大化收益的主任務(wù)之外額外添加的輔助任務(wù)。一個答案是，預(yù)測和控制許多不同種類的信號可以構(gòu)建一種強(qiáng)大的環(huán)境模型。正如我們在第8章所述，一個好的環(huán)境模型可以讓智能體更高效地得到收益。清楚地回答這個問題需要一些其他的概念，我們將在下一節(jié)中介紹。首先我們考慮兩個相對簡單的方法，在這些方法中，多個不同種類的預(yù)測問題會對強(qiáng)化學(xué)習(xí)智能體的學(xué)習(xí)有所幫助。

2、輔助任務(wù)是什么？

輔助任務(wù)幫助主任務(wù)的一個簡單情形是它們可能需要一些相同的表征。有些輔助任務(wù)可能更簡單，延遲更小，動作和結(jié)果之間的關(guān)聯(lián)關(guān)系更加明晰。如果在簡單的輔助任務(wù)中，可以很早發(fā)現(xiàn)好的特征，那么這些特征可能會顯著地加速主任務(wù)的學(xué)習(xí)。沒有什么理由可以解釋為什么這是對的，但是在很多情況下這看起來很有道理。例如，如果你學(xué)習(xí)在很短的時間內(nèi)（例如幾秒鐘）預(yù)測和控制你的傳感器，那么你可能會想出這個目標(biāo)物體的部分特點(diǎn)，這將對預(yù)測和控制長期收益有很大的幫助。

如果在簡單的輔助任務(wù)中，可以很早發(fā)現(xiàn)好的特征，那么這些特征可能會顯著地加速主任務(wù)的學(xué)習(xí)。
如果你學(xué)習(xí)在很短的時間內(nèi)（例如幾秒鐘）預(yù)測和控制你的傳感器，那么你可能會想出這個目標(biāo)物體的部分特點(diǎn)，這將對預(yù)測和控制長期收益有很大的幫助。

我們可能會想象一個人工神經(jīng)網(wǎng)絡(luò)（ANN),其中的最后一層被分為好幾個部分，我們稱它們?yōu)轭^部，每一個都在處理不同的任務(wù)。一個頭部可能產(chǎn)生主任務(wù)的價值函數(shù)預(yù)測（將收益作為其累計(jì)量），而其他的頭部可能產(chǎn)生很多輔助任務(wù)的解。所有的頭部都可以通過隨機(jī)梯度下降法反向傳播誤差到同一個“身體”里一即它們前面所共享的網(wǎng)絡(luò)部分一從第二層到最后一層都在嘗試構(gòu)建表示以提供必要的信息給頭部。研究人員們嘗試了各種各樣的輔助任務(wù)，例如預(yù)測像素的變化，預(yù)測下一時間點(diǎn)的收益，以及預(yù)測回報的概率分布。在很多種情況下這個方法都顯示出了對主任務(wù)學(xué)習(xí)的加速效果（ Jaderbergetal.,2017)。類似地，作為一種有助于狀態(tài)預(yù)測的方法，多預(yù)測的方法也被反復(fù)地提出過（見17.3節(jié)）。

另一個理解為何學(xué)習(xí)輔助任務(wù)可以提升表現(xiàn)的簡單的方法是類比于經(jīng)典條件反射這心理學(xué)現(xiàn)象（14.2節(jié)）。一種理解經(jīng)典條件反射的方法是，進(jìn)化使我們內(nèi)置（非學(xué)習(xí)式的）了一個從特定信號的預(yù)測值到特定動作之間的反射關(guān)聯(lián)。例如，人和許多其他動物看起來有一種內(nèi)置的眨眼反射機(jī)制，當(dāng)對于眼球?qū)⑹盏酱翐舻念A(yù)測值超過某個閾值的時候，就會閉眼。這個預(yù)測是學(xué)出來的，但是預(yù)測和閉眼之間的關(guān)聯(lián)是內(nèi)置的，因此動物可以避免眼球受到突然的戳擊。類似地，恐懼和心率加快或者愣住之間的關(guān)聯(lián)、也可以是內(nèi)置的，智能體的設(shè)計(jì)者們可以做一些類似的事情，例如，自動駕駛汽車可以學(xué)習(xí)“向前開車不會導(dǎo)致碰撞”，然后將其“停車/避開”的行為建立一個內(nèi)置反射，當(dāng)預(yù)測值超過一定閾值時觸發(fā)。或者考慮一個真空清潔機(jī)器人，其可以學(xué)習(xí)預(yù)測是否會在返回充電裝置前用盡電量，并且在該預(yù)測值變?yōu)榉橇銜r，條件反射一樣地掉頭移動到充電站。準(zhǔn)確的預(yù)測取決于房間的大小、機(jī)器人所在的房間、電池的年齡，機(jī)器人的設(shè)計(jì)者很難了解所有這些細(xì)節(jié)，讓設(shè)計(jì)者使用傳感器的手段設(shè)計(jì)一個有效的算法來決定是否回頭是很困難的，但是使學(xué)習(xí)到的預(yù)測則很容易做到這一點(diǎn)。我們預(yù)見到很多方法都會像這樣將學(xué)習(xí)到的預(yù)測和內(nèi)置控制行為的算法有效結(jié)合在一起。
最后，也許輔助任務(wù)最重要的作用，是改進(jìn)了我們本書之前所做的假設(shè)：即狀態(tài)的表不是固定的，而且智能體知道這些表示。為了解釋這個重要作用，我們首先要回過頭來了本書所做的假設(shè)的重要性以及去除它所帶來的影響。這將在17.3中介紹。

定義：預(yù)測和控制不同種類的信號特征

作用

17.2、基于選項(xiàng)理論的時序摘要

馬爾可夫決策過程形式上的一個吸引人的地方是，它可以有效地用在不同時間尺度的任務(wù)上。我們可以用它來形式化許多任務(wù)，例如決定收縮哪一塊肌肉來抓取一個目標(biāo)，乘坐哪一架航班方便地到達(dá)一個遙遠(yuǎn)的城市，選擇哪一種工作來過上滿意的生活。這些任務(wù)在時間尺度上差異很大，然而每一個都可以表達(dá)成馬爾可夫決策過程（MDP),然后用本書中講述的規(guī)劃和學(xué)習(xí)過程完成。所有這些任務(wù)都涉及由與環(huán)境的相互作用、序貫決策以及一個隨時間累積的收益構(gòu)成的目標(biāo)，因此它們都可以被形式化成馬爾可夫決策過程。

盡管所有這些任務(wù)都可以被形式化為MDP，但是我們可能認(rèn)為它們不能被形式化為單一的MDP，因?yàn)檫@些過程涉及的時間尺度都不同，例如選擇的種類和動作都截然不同。例如，把預(yù)定跨洲的航班和肌肉收縮放在同一時間尺度上是不合適的。但是對于其他任務(wù)而言，例如抓取、擲標(biāo)槍、擊打棒球，用肌肉收縮的層次來刻畫可能剛剛好。人類可以無縫地在各個時間層次上切換，而沒有一點(diǎn)轉(zhuǎn)換的痕跡。那么MDP框架可不可以被拉伸，從而同步地覆蓋所有這些時間層次呢？

人類可以無縫地在各個時間層次上切換，而沒有一點(diǎn)轉(zhuǎn)換的痕跡。那么MDP框架可不可以被拉伸，從而同步地覆蓋所有這些時間層次呢？

也許是可以的，一種流行的觀點(diǎn)是：先形式化一個非常小的時間尺度上的MDP，從而許在更高的層次上使用擴(kuò)展動作（毎個時刻對應(yīng)于更低層次上的多個時刻）的規(guī)劃。為了能到這一點(diǎn)，我們需要使用一個展開到多個時刻的“動作方針”的概念，井引人一個“終止”的概念。對這兩個概念的通用的形式化方式是將它們用一個策略和一個狀態(tài)相關(guān)的終止函數(shù)γ來表達(dá)，就像在GVF中定義的那樣。我們將這樣的一個“策略終止函數(shù)”二元組定義為一種廣義的動作，稱之為“選項(xiàng)"。在t時刻執(zhí)行一個選項(xiàng) $ω=<π_ω，γ_ω>$ 就表示從 $π_ω(·|S_t)$ 中獲得一個動作 $A_t$ ，然后在t+1時刻以 $1-γ_ω(S_(t+1))$ 的概率終止。如果選項(xiàng)不在 $t + 1$ 時刻停止，那么 $A_(t+1)$ 從 $ π_ω(· |S_(t+1))$ 中選擇，而且選項(xiàng)在t+2時刻以 $1-γ_ω(S_(t+2))$ 的概率終止。很容易就可以把低層次的動作看作選項(xiàng)的一種特例一每一個動作a都對應(yīng)于一個選項(xiàng)（π_ω,γ_ω),這個選項(xiàng)的策略會選出一個動作（對于每個 $s∈S,π_ω(s)=a$ ),并且其終止函數(shù)是零（對于個 $s∈S+,γ_ω(s)=0$ )。選項(xiàng)有效地擴(kuò)展了動作空間。智能體可以選擇一個低層次的動作/選項(xiàng)，在單步之后終止，或者選一個擴(kuò)展的選項(xiàng)，它可能在執(zhí)行多步之后才終止。

"選項(xiàng)”的架構(gòu)設(shè)計(jì)允許它與低級別的動作進(jìn)行角色互換。例如，一個動作價值函數(shù)的記號 $q_π$ 可以被自然地推廣為選項(xiàng)值函數(shù)，它以狀態(tài)和選項(xiàng)作為輸人，仍然返回期望回報，只是產(chǎn)生這個期望回報的過程包括了從輸入狀態(tài)開始，執(zhí)行輸人的選項(xiàng)直到它終止，并在之后繼續(xù)遵循策略π的整個過程。我們也可以把策略的概念推廣到層次化策略，它選擇的是選項(xiàng)而不是動作，其中每個選項(xiàng)被選中之后，都會一直運(yùn)行到終止。在這些思想下，本書中的許多算法都可以推廣到學(xué)習(xí)近似的選項(xiàng)值函數(shù)和層次化的策略。在最簡單的情況下，學(xué)到的策略從選項(xiàng)開始直接跳到選項(xiàng)結(jié)柬，更新只在選項(xiàng)結(jié)束的時候出現(xiàn)。更精細(xì)一些的做法是，更新可以在每一個時刻進(jìn)行，使用一種“選項(xiàng)內(nèi)部”的學(xué)習(xí)算法，這通常需要離軌策略算法。

選項(xiàng)的思想帶來的最重要的推廣也許是第3、4和8章中所提出的環(huán)境模型。關(guān)于“動作”的傳統(tǒng)模型是狀態(tài)轉(zhuǎn)移概率和采取這個動作的即時收益的期望。那么傳統(tǒng)的動作模型如何推廣到選項(xiàng)模型呢？對于選項(xiàng)而言，合適的模型也應(yīng)該包含有兩部分：一個部分對應(yīng)于執(zhí)行選項(xiàng)后產(chǎn)生的狀態(tài)轉(zhuǎn)移結(jié)果；另一個對應(yīng)于執(zhí)行選項(xiàng)過程中的累積收益的期望。選項(xiàng)模型的收益部分，類比于“狀態(tài)-動作”二元組的期望收益式（35),對于所有的
選項(xiàng)和所有的狀態(tài)s∈S，定義為：

其中，τ是一個隨機(jī)時刻，代表選項(xiàng)的終止時刻，它由參數(shù) $γ_ω$ 決定。在這個等式中，需
要注意總體折扣系數(shù) γ 所扮演的角色一一折扣是由γ決定的，但是選項(xiàng)的終止是由 $γ_ω$
決定的。一個選項(xiàng)模型的狀態(tài)轉(zhuǎn)移部分則更為精巧。這部分模型刻畫了每一個可能的選項(xiàng)結(jié)果狀態(tài)的概率（像在式3.4中一樣），但是在這里，可能在多個時刻之后才能到達(dá)這個選項(xiàng)結(jié)果的狀態(tài)，其中的每個狀態(tài)都有不同程度的折扣。選項(xiàng)ω的這部分模型在如下公式中指定了ω的每個可能的起始狀態(tài)s，以及ω的每個可能的終止?fàn)顟B(tài) $s ‘$

注意，由于存在折扣系數(shù)項(xiàng) $γ k$ ，這里的
不再是一個轉(zhuǎn)移概率，并且不再對于有可能的 $s ‘$ 求和為1(無論如何，我們會繼續(xù)在P中使用記號 $∣$ ）
上面關(guān)于選項(xiàng)模型的狀態(tài)轉(zhuǎn)移部分的定義使得我們可以為所有的選項(xiàng)定義形式化的貝爾曼方程和動態(tài)規(guī)劃算法，其中也包括作為選項(xiàng)特例的低級別的動作。例如，對于層次化策略π來說，通用的貝爾曼方程是：

其中， $Ω_(s)$ 表示狀態(tài)s中所有可行的選項(xiàng)的集合。如果 $Ω_(s)$ 僅僅包含低級別的動作，那這個方程退化為通常的貝爾曼方程（式3.14),唯一不同的是γ被包含在新定義的p中，即式17.3,因此在此處沒有出現(xiàn)。類似地，相應(yīng)的選項(xiàng)的規(guī)劃算法中也沒有γ。例如，作為式（4.10)的推廣，帶選項(xiàng)的價值送代算法是：

如果Ω(s）包含了每個狀態(tài)s下所有可行的低級別動作，那么這個算法會收斂到通常意義上的 $v ?$ ，從中我們可以計(jì)算出最優(yōu)的策略。然而，如果我們能夠在每一個狀態(tài)下，只考慮所有可能選項(xiàng)Ω(s）的某個子集進(jìn)行規(guī)劃，則可能更有用。這樣的話價值送代將會收斂到限制在給定的選項(xiàng)子集下的最優(yōu)的層次化策略。盡管這個策略從全局看可能是次優(yōu)的，但收斂可能會更快，因?yàn)槲覀冎豢紤]較少的選項(xiàng)，而且每個選項(xiàng)都可以在時間上跳躍多步。

為了在有選項(xiàng)的情況下做規(guī)劃，我們必須已知選項(xiàng)模型，或者學(xué)出選項(xiàng)模型。一個學(xué)出選項(xiàng)模型的自然方法是使用一系列的GVF（我們在上一節(jié)中定義過）來對它進(jìn)行表示長后使用本書中提到的方法來學(xué)習(xí)GVF。對于選項(xiàng)模型的收益部分，不難看出如何做到這一點(diǎn)。我們僅僅需要把GVF的累計(jì)量選為收益（Ct：=Rt),把它的策略設(shè)為選項(xiàng)的策略（ $π=π_ω$ ），把它的終止函數(shù)設(shè)為折扣系數(shù)乘以選項(xiàng)的終止函數(shù)
。如此一來，真實(shí)的GVF將等同于選項(xiàng)模型的收益部分，
并且本書中介紹的各種學(xué)習(xí)方法都可以用來近似它。選項(xiàng)模型的狀態(tài)轉(zhuǎn)移部分會更復(fù)雜一些。我們需要對選項(xiàng)對應(yīng)的每一個可能的終止?fàn)顟B(tài)分配一個GVF。除了在選項(xiàng)終止且終止于相應(yīng)的狀態(tài)時，我們不希望這些GVF積累任何量。

這可以通過如下設(shè)定來實(shí)現(xiàn)：把預(yù)測轉(zhuǎn)移到s’的GVF的累計(jì)量寫為
。該GVF的策略和終止函數(shù)都和選項(xiàng)模型的收益部分一樣設(shè)置。那么真實(shí)的GVF就等同于選項(xiàng)的狀態(tài)轉(zhuǎn)移模型的s` 部分：
,這樣本書中介紹的方法也就可以用來學(xué)習(xí)它。盡管這其中的每一步看起來都很自然，但是把它們整合在一起（包括函數(shù)通近和其他關(guān)鍵部分）是很有挑戰(zhàn)性的，而且超出了現(xiàn)有最先進(jìn)的技術(shù)水平。

練習(xí)17.1 在本節(jié)中展示了折扣情況下的選項(xiàng)，但是在使用函數(shù)通近的時候，折扣對于控制問題是否合適是有爭議的（參見10.4節(jié)）。那么層次化策略的自然的貝爾曼方程形式應(yīng)該是什么樣的呢？它應(yīng)當(dāng)與式（17.4)中的類似，但需要在平均收益設(shè)置（10.3節(jié)）下進(jìn)行定義。類比于式（172)和式（17.3),在平均收益設(shè)置下，選項(xiàng)模型的兩個部分分別是什么樣子的呢？

17.3 觀測量和狀態(tài)

在本書中，我們都把學(xué)到的近似價值函數(shù)（還有第13章中的策略）寫成關(guān)于狀態(tài)的函數(shù)。這是本書的第工部分中介紹的方法的重大局限，在這些方法中，學(xué)習(xí)得到的價值函數(shù)用一張表格來表示，因此任意的價值函數(shù)都能被精確近似。這種情況等同于假設(shè)環(huán)境的狀態(tài)完全可以被智能體感知。但是在很多情況下，傳感器輸入只會告訴你這個世界狀態(tài)的部分信息。有些對象可能被其他的東西遮擋住了，或者在智能體的身后，亦或是在幾里之外。在這些情況下，關(guān)于環(huán)境的很重要的一部分信息可能并不能直接觀察到。而且，把學(xué)習(xí)到的價值函數(shù)實(shí)現(xiàn)為一個關(guān)于環(huán)境狀態(tài)空間的表格，是一種過強(qiáng)的、不現(xiàn)實(shí)而且局限性很大的假設(shè)。

在本書第Ⅱ部分提出的參數(shù)化函數(shù)逼近框架則限制要少得多，甚至可以說它是沒有局限性的（雖然這種說法是有爭議的）。在第Ⅱ部分中，我們保留了學(xué)習(xí)到的價值函數(shù)（和策略）是關(guān)于環(huán)境的狀態(tài)的函數(shù)這一假設(shè)，但是允許這些函數(shù)在參數(shù)化的框架下自由變化。
一個有些令人吃驚而且并不被廣泛認(rèn)可的觀點(diǎn)是，函數(shù)逼近包含了“部分可觀測性”的很多方面。例如，如果有一個不可觀測的狀態(tài)變量，那么我們通過選擇參數(shù)化的方式使得近似價值函數(shù)與這個變量無關(guān)。這樣做的效果就如同這個狀態(tài)變量是不可觀測的。正因?yàn)槿绱?#xff0c;在所有參數(shù)化的情況下獲得的結(jié)果都可以被應(yīng)用在部分可觀測的情況下，而不需要做任何改變。從這個意義上說，參數(shù)化函數(shù)逼近的情況包含了部分可觀測性的情況。

然而，如果不顯式地、明確地為部分可觀測性建模，仍然有很多問題無法被深入研究，盡管我們在這里不能給出一個完整的處理部分可觀測性的方法，但是我們可以大致列出需要做出的一些改變，以下是具體的四個步驟：
1、我們需要改變問題：環(huán)境所提供的不是其狀態(tài)的精確信息，而僅僅是觀測量，一這是一個依賴于于狀態(tài)的變量，就像機(jī)器人的傳感器那樣，提供關(guān)于狀態(tài)的部分信息。與了簡化問題，我們假設(shè)收益是一個關(guān)于狀態(tài)的直接的、已知的函數(shù)（觀測量可能是一個，收益可能是它的某一個分量）。那么環(huán)境交互將沒有明確的狀態(tài)或者收益，而僅僅出一個簡單的動作A_t∈A和觀測量O∈O的交互序列：5

永遠(yuǎn)這樣持續(xù)下去（與式3.1對比）或者形成“幕”，每幕都以一個特殊的終止觀測量來結(jié)束。

2、然后我們可以用觀測量和動作的序列來恢復(fù)本書中提到的狀態(tài)的概念。我們使用術(shù)語"歷史"以及記號Ht表示一個軌跡從初始部分一直到當(dāng)前的觀測量：0。

歷史代表了我們在不看數(shù)據(jù)流外部信息的情況下，對過去所能了解的最多信息（因?yàn)闅v史是整個過去的數(shù)據(jù)流）。當(dāng)然歷史會隨著t增長，從而變大而且笨重，狀態(tài)的想法就是歷史的某種“緊湊”的總結(jié)，對于預(yù)測未來而言，它和真實(shí)的歷史同等有用。我們看看這到底意味著什么：為了成為歷史的總結(jié)，狀態(tài)必須是一個歷史的函數(shù)S=f(Ht),為了能夠像歷史一樣對預(yù)測未來有用，它必須有我們所知道的馬爾可夫性。更正式的說法是，這是函數(shù)f的性質(zhì)。對于所有的觀測量o∈O和動作a∈A，一個個函數(shù)f有馬爾可夫性，當(dāng)且僅當(dāng)任意被預(yù)測到同一個狀態(tài)（f(h)=f(h`))的兩個歷史h和h· 都對于它們的下一個觀測量有相同的概率。

馬爾可夫狀態(tài)是預(yù)測下一個觀測量（式17.6)的良好基礎(chǔ)，但更重要的是，它是預(yù)測控制任何事情的良好基礎(chǔ)。例如，令一個測試序列為任何特定的在未來可能發(fā)生的交替出現(xiàn)的“動作-觀測量”序列。比如一個三步的測試序列可以記為：

給定歷史h，這個測試序列的概率被定義為：

如果f是馬爾可夫的，而且h和h`是在f下會被映射到相同的狀態(tài)的兩個不同的歷史，那么對于任意長度的任意測試序列 $τ$ ，給定這兩個歷史時它們的概率一定是相同的：

換句話說，一個馬爾可夫狀態(tài)總結(jié)了對于預(yù)測測試序列的概率有用的所有歷史信息。事實(shí)上，它總結(jié)了做任何預(yù)測所需要的全部信息，包括預(yù)測任意的GVF以及最優(yōu)的行為（如果f是馬爾可夫的，那么總會存在一個確定的函數(shù)π,使得選擇A：÷π(f(Ht)是最優(yōu)的）。

將強(qiáng)化學(xué)習(xí)的概念擴(kuò)展到部分可觀測的情況的第三步是需要考慮一些計(jì)算上的問題。
特別是，我們希望狀態(tài)是歷史的緊湊的總結(jié)。例如，對于一個馬爾可夫的函數(shù)f，映射到自己的函數(shù)完全滿足這個條件，然而并沒有什么用，因?yàn)檎缥覀冎八岬降?#xff0c;對應(yīng)的S1=H1會隨著時間增長而變得笨重。但是更本質(zhì)的原因是，這個歷史再也不會在未來出現(xiàn)了。智能體永遠(yuǎn)不會兩次進(jìn)入同一個狀態(tài)（在一個持續(xù)性的任務(wù)中），因此永遠(yuǎn)不會從表格型學(xué)習(xí)方法中獲益。我們希望我們的狀態(tài)是“緊湊”的，而且是馬爾可夫的。在如何獲得和更新狀態(tài)的問題上，我們也有類似的需求。我們并不真的想要一個包括“所有歷史”的函數(shù)f。相反地，出于計(jì)算上的考慮，我們偏向于通過相對簡單的增量式遞歸計(jì)算獲得與f一樣的效果，這個計(jì)算過程使用下一個時刻的增量At 和 Ot+1 ：

其中，初始狀態(tài)S0是給定的。函數(shù)u又被稱作狀態(tài)更新函數(shù)。例如，如果f是映射到自身的函數(shù)（St=Ht),那么u僅僅是在St 的后面加上了一個At和Ot+1.給定f，構(gòu)造個相應(yīng)的u總是可行的，但是可能在計(jì)算上并不方便，而且正如上面映射到自身的函數(shù)的例子，它可能不能產(chǎn)生一個“緊湊”的狀態(tài)。狀態(tài)更新函數(shù)在任何智能體的架構(gòu)中都是解決部分可觀測性問題的核心部分。它必須在計(jì)算上是高效的，因?yàn)樵诳吹綘顟B(tài)之前，我們不能采取任何動作或者做任何預(yù)測。

一個通過狀態(tài)更新函數(shù)獲得馬爾可夫狀態(tài)的典型例子采用了流行的貝葉斯方法，被
稱作“部分可觀測MDP"( Partially Observable MDP, POMDP)。在這個方法中，假定
存在一個完備定義的隱變量Xt,它真實(shí)反應(yīng)環(huán)境的變化并產(chǎn)生可見的環(huán)境觀測量，但它們對于智能體而言從來都是不可觀測的（不要將它與智能體用于預(yù)測和決策的狀態(tài)S相混淆）。對于 POMDP而言，一種自然的馬爾可夫狀態(tài)S，就是給定歷史時在隱變量上的一個概率分布，這個“概率分布”被稱作置信狀態(tài)（（belief state）。為了更具體一些，假設(shè)在通常情況下，存在有限個隱變量:

那么置信狀態(tài)則是一個向量

無論t如何增長，置信狀態(tài)都保持相同的大小（相同數(shù)量的成員）。假設(shè)我們有足夠多的關(guān)于環(huán)境內(nèi)部如何工作的知識，它也可以由貝葉斯公式增量式地更新。特別地，置信狀態(tài)更新函數(shù)的第i個成員是

其中，a∈Ao∈O，置信狀態(tài)s∈Ra，其元素為s。這里有4個變量的p函數(shù)與MDP
中（滲見第3章）通常使用的并不一樣，而是在 POMDP情況下的基于隱狀態(tài)的推廣形
式：r,o?x,a)=Pr{X1=,O2=0IX1-1=a,A4-1=}。這個方法在理論研究中非常流
行、并且有非常重要的應(yīng)用，但是其假設(shè)和計(jì)算復(fù)雜性的可擴(kuò)展性太差，我們不推薦在人工智能中使用該方法。

另ー個馬爾可夫狀態(tài)的例子是預(yù)測狀態(tài)表示（ Predictive State Representations,PSR).
PSR解決了 POMDP方法的弱點(diǎn)：在 POMDP中，智能體的狀態(tài)S，的語義是以環(huán)境的隱狀態(tài)X為基礎(chǔ)的。由于隱狀態(tài)無法被觀測，其學(xué)習(xí)也就比較困難。在PSR和相關(guān)方法中，智能體狀態(tài)的語義是以未來的觀測量和動作的預(yù)測值為基礎(chǔ)的，因而是可以觀測到的。在PSR中，一個馬爾可夫狀態(tài)被定義為一個d維的概率向量，由d個“核心”測試序列的概率組成，測試序列則由前面介紹的式（17.7)所定義。這個向量之后由狀態(tài)更新函數(shù)u更新，它是貝葉斯公式的一種擴(kuò)展，但以可觀測的數(shù)據(jù)為基礎(chǔ)，這就讓它的學(xué)習(xí)變得更容易了。這個方法已經(jīng)在很多方面得到了擴(kuò)展，包括終端測試、組合測試、強(qiáng)有力的“譜”方法，還有從TD方法中學(xué)到的閉環(huán)和時序摘要測試。最好的理論進(jìn)展有些是針對被稱為可觀測的操作模型（ Observable Operator Models,OOM）和序列系統(tǒng)（Thom,2017）的。

在我們簡短的概要介紹中，處理強(qiáng)化學(xué)習(xí)中的部分可觀測性的第四步是重新引入近似的念。正如我們在第二部分中所討論的，想要達(dá)到人工智能必須得接受近似方法。不僅于價值函數(shù)是這樣，對于狀態(tài)也是這樣。我們必須接受并且在“近似狀態(tài)”的概念下開展我們的工作。近似狀態(tài)將會在我們的算法中扮演和原來一樣的角色，因此我們繼續(xù)對智款用的狀態(tài)使用記號S，盡管它可能不是馬爾可夫的。

也許近似狀態(tài)的最簡單的例子就是最近的觀測量S=O。當(dāng)然這種方法不能夠處理變量信息的情況。可能更好的表達(dá)方式是，對于某個k>1,使用最近的k個觀測量和動作來表達(dá)狀態(tài)：S：=On,A4-1O2-1…,Ar-k，這可以通過引入一個特殊的狀態(tài)更新函數(shù)來實(shí)現(xiàn)：每次加人新數(shù)據(jù)并平移，同時把最舊的數(shù)據(jù)刪除。k階歷史的方法仍然非常
簡單，但是相比于直接使用單個觀測量作為狀態(tài)，它可以大大增加智能體的能力。

當(dāng)馬爾可夫性質(zhì)（式17.6)只是被近似滿足的時候會發(fā)生什么呢？不幸的是，當(dāng)單步預(yù)測所定義的馬爾可夫性變得哪怕有一點(diǎn)不準(zhǔn)確的時候，長期預(yù)測的表現(xiàn)就可能會遭遇急劇的下滑。長期的測試序列、GVF，還有狀態(tài)更新函數(shù)都有可能近似得很糟糕。短期和長期的近似目標(biāo)就是不一樣的。當(dāng)前也沒有這個方面的有效的理論保證。

然而，仍然有理由認(rèn)為在本節(jié)中描述的通用思想可以用到近似的情況下。這個通用的思想就是：一個對于某些預(yù)測而言好的狀態(tài)，對其他的情況也會是好的（特別是，對于一個馬爾可夫狀態(tài)，如果它足夠做單步預(yù)測，則對其他的情況也是足夠的）。如果我們退步，不考慮馬爾可夫情況下的特定結(jié)果，則前面的通用思想與我們在17.1節(jié)中討論的多頭部學(xué)習(xí)和輔助任務(wù)是相似的。在17.1節(jié)，我們討論了對于輔助任務(wù)來說好的表示為什么對于主任務(wù)來說往往也是好的。這些思想合在一起就揭示了一個可以同時對部分可觀測性和表征進(jìn)行學(xué)習(xí)的方法：采用多重預(yù)測并以此來指導(dǎo)狀態(tài)特征的構(gòu)建。這樣一來，完美但并不可行的馬爾可夫性帶來的理論保證就被一個啟發(fā)式原則所替代，這個原則就是：對某些預(yù)測有益的信息對于其他預(yù)測而言也會是好的。這種方法可以很好地與計(jì)算資源的規(guī)模相匹配。在大型機(jī)器上，人們可以嘗試大量的不同的預(yù)測：可能會傾向于那些接近于最感興趣的目標(biāo)、最容易可靠地學(xué)習(xí)的預(yù)測。在這里很重要的一點(diǎn)是，不要手動選擇預(yù)測目標(biāo)，而智能體應(yīng)該做到這一點(diǎn)。而這可能需要一個通用的表達(dá)“預(yù)測”的語言，使得智能體可以系統(tǒng)地試探一個廣大的可行預(yù)測的空間，從中發(fā)現(xiàn)最有用的內(nèi)容。

特別地， POMDP和PSR方法都可以應(yīng)用于近似狀態(tài)。狀態(tài)的語義在形成狀態(tài)更新
函數(shù)的時候非常有用，就像在這兩種方法和k階的方法中那樣。但對保持狀態(tài)內(nèi)信息的
有用性而言，語義正確的需求并沒有那么強(qiáng)烈。有些狀態(tài)擴(kuò)充的算法，例如回聲狀態(tài)網(wǎng)
絡(luò)（ Jaeger,2002),幾乎保留了關(guān)于歷史的任何信息，但是依然表現(xiàn)很好。這個領(lǐng)域依然
有很多的可能性，因此我們期待更多的工作和新的思想。針對近似狀態(tài)，學(xué)習(xí)狀態(tài)更新函數(shù)是強(qiáng)化學(xué)習(xí)中的表示學(xué)習(xí)問題的一個重要組成部分。

17.4 設(shè)計(jì)收益信號

強(qiáng)化學(xué)習(xí)相較于有監(jiān)督學(xué)習(xí)的一個主要優(yōu)勢是，強(qiáng)化學(xué)習(xí)并不依賴于細(xì)節(jié)性的監(jiān)督信息：生成一個收益信號并不依賴于“智能體的哪個動作才是正確的”這一先驗(yàn)知識細(xì)節(jié)。

但是強(qiáng)化學(xué)習(xí)的成功應(yīng)用很大程度上依賴于我們的收益信號在多大程度上符合了設(shè)計(jì)者制定的目標(biāo)，以及這些信號能夠多好地衡量在達(dá)到目標(biāo)過程中的進(jìn)步。出于這些原因，設(shè)計(jì)收益信號是任何一個強(qiáng)化學(xué)習(xí)應(yīng)用的重要部分。

設(shè)計(jì)收益信號指的是設(shè)計(jì)智能體所在的環(huán)境的一個部分，這部分負(fù)責(zé)在t時刻產(chǎn)生一
個標(biāo)量收益R送回到智能體。在第14章末尾討論術(shù)語的時候，我們提到，稱B更像一個在動物大腦內(nèi)部產(chǎn)生的信號，而不是在動物的外部環(huán)境中的一個對象或者事件。大腦中產(chǎn)生這些信號的部分已經(jīng)進(jìn)化了數(shù)百萬年，因此非常適應(yīng)我們的祖先在將他們的基因傳遞下去的時候所面臨的各種挑戰(zhàn)。我們因此不應(yīng)該認(rèn)為設(shè)計(jì)收益信號是一件容易的事情。

設(shè)計(jì)收益信號的一個挑戰(zhàn)來自于，智能體需要學(xué)習(xí)，在行為上接近并在最終達(dá)到設(shè)計(jì)者所希望的目標(biāo)。如果設(shè)計(jì)者的目標(biāo)很容易辨別，那么這個任務(wù)可能很簡單，例如尋找個良好定義的問題的解，或者在一個良好定義的游戲中取得高分。在這些例子中，我們通常可以通過“問題是否解決”和“游戲分?jǐn)?shù)是否提高”來定義收益函數(shù)。但是在有些問題中，目標(biāo)并不容易被翻譯成收益函數(shù)，尤其是當(dāng)這些問題需要智能體做非常有技巧性的動作來完成復(fù)雜任務(wù)或者一系列任務(wù)的時候就更是如此，例如家務(wù)機(jī)器人助理所需要解決的問題。更進(jìn)一步，強(qiáng)化學(xué)習(xí)智能體可能會發(fā)現(xiàn)一些意想不到的方法使得環(huán)境可以給出收益信號，但其中有一些可能是我們并不想要的，甚至有時是很危險的方法。這對于任何像強(qiáng)化學(xué)習(xí)這樣依賴于優(yōu)化的算法而言，都是一個長期存在并且非常關(guān)鍵的挑戰(zhàn)。我們將在17.6節(jié)，也就是本書的最后一節(jié)中詳細(xì)討論這個問題。

即使有一個簡單且易于辨識的目標(biāo)，收益稀的問題仍然時常出現(xiàn)。足夠緊地提供非零收益讓智能體實(shí)現(xiàn)一次目標(biāo)，本身就已經(jīng)是一個今人畏懼的挑戰(zhàn)，更不要說讓它高效地從各種各樣的初始狀態(tài)下進(jìn)行學(xué)習(xí)了。那些可以明確地觸發(fā)收益的“狀態(tài)動作”二元組可能很少，而且相互之間隔得很遠(yuǎn)：且代表著向目標(biāo)前進(jìn)的收益也可能并不常見，因?yàn)槌?br /> 向目標(biāo)的進(jìn)步總是很難甚至是無法衡量的。智能體可能會長期沒有目的地漫游（ Minsky
1961所稱的“高原問題”）。

在實(shí)踐中，設(shè)計(jì)收益信號通常會歸到一個反復(fù)試驗(yàn)的搜索過程，直到找到一個可以產(chǎn)生合理結(jié)果的信號。如果智能體沒有成功學(xué)習(xí)，學(xué)得太慢，或者學(xué)習(xí)到了錯誤的東西，那么這個應(yīng)用的設(shè)計(jì)者會調(diào)整收益信號并且再試一次。為了做到這一點(diǎn)，設(shè)計(jì)者會對智能體的表現(xiàn)用某種評估標(biāo)準(zhǔn)來衡量，而他會把這種評估標(biāo)準(zhǔn)翻譯成一個收益信號，使得智能體的目標(biāo)和設(shè)計(jì)者自己的目標(biāo)相匹配。如果學(xué)習(xí)的進(jìn)程大慢了，那么設(shè)計(jì)者可能會嘗試設(shè)計(jì)個非稀硫的信號，其可以在智能體與環(huán)境交互的過程中更有效地指導(dǎo)學(xué)習(xí)。解決稀硫收益問題的一個非常誘人的手段是，以設(shè)計(jì)者認(rèn)為達(dá)到最終目標(biāo)所經(jīng)歷的重要的幾個階段作為子目標(biāo)，對這些子目標(biāo)提供收益函數(shù)。但是，當(dāng)使用這些有明確目的性的補(bǔ)充收益來擴(kuò)充原來的收益函數(shù)時，也可能會使智能體的行為與我們的預(yù)期大相徑庭智能體可能最終根本不會達(dá)到總的目標(biāo)。一個更好的提供這樣的指導(dǎo)的方法是，把收益函數(shù)放在一邊而對價值函數(shù)的逼近過程進(jìn)行擴(kuò)充，給它擴(kuò)充一個描述最終目標(biāo)的初始猜測，或描述部分目標(biāo)的初始猜測。例如，假設(shè)我們想把：S→R作為真實(shí)的最優(yōu)價值函數(shù)
U。的一個初始猜測，并且我們使用關(guān)于特征x:S→Rd的線性函數(shù)逼近，那么我們可以
把初始的價值函數(shù)逼近形式定義為：

然后按照慣例更新權(quán)重w，如果初始的權(quán)重向量是0,那么初始的價值函數(shù)則是t,
但是漸近解的質(zhì)量會像往常一樣由特征向量決定。可以針對任意的非線性函數(shù)通近器和任
意形式的u來做這種初始化，盡管這并不保證能加速學(xué)習(xí)。

一個處理稀疏收益問題的非常有效的方式是塑造技術(shù)，它由心理學(xué)家B.F. Skinne
提出，并在本書的14.3節(jié)中有所介紹。這種技術(shù)的有效性依賴于一個事實(shí)：稀疏收益問題并不只是收益信號本身的問題，它們也是智能體策略的問題，有些策略會阻礙智能體頻繁達(dá)到可以產(chǎn)生收益的狀態(tài)。塑造技術(shù)會在學(xué)習(xí)過程中不斷改變收益信號：給定智能體的初始行為，從一個不那么稀疏的收益信號開始，漸漸地把它調(diào)整到適合最初感興趣的問題的收益信號。智能體面臨一系列難度逐漸増加的強(qiáng)化學(xué)習(xí)問題，其中在每個階段學(xué)習(xí)到的東西，可以讓下一個更難的問題變得相對簡單一些。這是因?yàn)橹悄荏w通過學(xué)習(xí)簡單問題得到了先驗(yàn)知識，這些知識使得它能夠更加頻繁地獲得復(fù)雜問題下的收益；而如果不學(xué)習(xí)先驗(yàn)知識就直接優(yōu)化復(fù)雜問題的收益，則收益會非常稀疏。“塑造”是訓(xùn)練動物過程中的個基礎(chǔ)技術(shù)，它在計(jì)算強(qiáng)化學(xué)習(xí)中非常有效。

如果我們對于收益信號如何設(shè)計(jì)一籌莫展，但是有另外一個智能體，它可能是一個人類，已經(jīng)是該領(lǐng)域的專家，并且它的行為可以被我們觀察到，那么我們可以如何利用這點(diǎn)呢？在這種情況下，我們可以使用被稱為“模仿學(xué)習(xí)”“從示范中學(xué)習(xí)”和“學(xué)徒學(xué)習(xí)”的算法。這里的思想是從專家智能體中獲得收益，同時保留進(jìn)一步提升的可能性。從專家的行為中學(xué)習(xí)可以通過直接的有監(jiān)督學(xué)習(xí)，或者通過被稱作“逆強(qiáng)化學(xué)習(xí)”的技術(shù)抽取收
益函數(shù)，然后使用強(qiáng)化學(xué)習(xí)算法從這個收益函數(shù)學(xué)出一個策略。Ng和Rusl(200研
究了逆強(qiáng)化學(xué)習(xí)的任務(wù)，他們嘗試僅僅從專家的行為中恢復(fù)出專家的收益信號。但這種做法無法找到精確解，因?yàn)橐粋€策略可能對很多個不同的收益信號而言都是最優(yōu)的（例如，任何對所有狀態(tài)和動作給予相同收益的信號）。但是，我們?nèi)匀豢赡苷业胶侠淼暮蜻x收益信號。只不過這個過程需要很強(qiáng)的假設(shè)，包括對環(huán)境動態(tài)特性的先驗(yàn)知識，以及與收益信號成線性關(guān)系的特征向量。同時，這個方法也要求對問題做多次完全求解（例如通過動態(tài)
規(guī)劃）。雖然有這些困難，但是 Abbeel 7和Ng(2004)稱逆強(qiáng)化學(xué)習(xí)有時會比有監(jiān)督學(xué)習(xí)更
有效
另一個找到好的收益信號的方法，是將試錯搜索過程自動化以找到好的信號。從應(yīng)用角度來說，收益信號是學(xué)習(xí)算法的一個參數(shù)。正如我們可以對算法的其他參數(shù)所做的那樣，我們可以自定義可行的搜索空間，然后用優(yōu)化算法自動優(yōu)化這些收益信號。優(yōu)化算法是這樣評估每一個候選收益信號的：以該收益信號運(yùn)行強(qiáng)化學(xué)習(xí)算法若干步，然后用一個包含設(shè)計(jì)者真實(shí)目標(biāo)的“高級”目標(biāo)函數(shù)來計(jì)算評分，不需要考慮該智能體的局限。甚至
可以通過在線梯度上升來提升收益信號，其中梯度來自于高級的目標(biāo)函數(shù)（Sorg、 Lewis和 Singh,2010)。把這個算法與真實(shí)世界相聯(lián)系的話，優(yōu)化高級目標(biāo)函數(shù)可以類比為進(jìn)
化，其中高級優(yōu)化函數(shù)代表動物的進(jìn)化適應(yīng)程度，這通過能活到繁殖年齡的后代數(shù)量來衡量。

這種具有上下兩層優(yōu)化算法（一層類似于進(jìn)化，另一層是智能體個體的強(qiáng)化學(xué)習(xí)）
的計(jì)算實(shí)驗(yàn)已經(jīng)證實(shí)，直覺本身并不總足以用來設(shè)計(jì)一個好的收益信號（ Singh、 Lewis和 Barto,200)。利用高級目標(biāo)函數(shù)所衡量的強(qiáng)化學(xué)習(xí)智能體的性能表現(xiàn)，可能會對智能
體收益信號的某些細(xì)節(jié)方面特別敏感，這些敏感性來源于智能體本身的局限以及它在其活動和學(xué)習(xí)的環(huán)境。這些實(shí)驗(yàn)也表明一個智能體的目標(biāo)不應(yīng)該總是與智能體設(shè)計(jì)者的目標(biāo)一致。

最初這件事情顯得很反直覺，但是對于一個智能體而言，它不可能不管收益信號是么就達(dá)到設(shè)計(jì)者的目標(biāo)。智能體需要在很多限制下學(xué)習(xí)，例如有限的計(jì)算能耗、有限的環(huán)境信息或者有限的學(xué)習(xí)時間。當(dāng)有這樣那樣的限制的時候，學(xué)習(xí)去達(dá)成一個與設(shè)計(jì)者目標(biāo)
不同的目標(biāo)，而不是直接去追求設(shè)計(jì)者的目標(biāo)（Sorg、 Singh和Lewi,2010:Sorg,201)
這可能有時會更加接近于設(shè)計(jì)者的初衷。在自然界中很容易找到這樣的例子，因?yàn)槲覀儾荒苤苯咏佑|到大多數(shù)食物的營養(yǎng)值，我們的收益信號的設(shè)計(jì)者一一進(jìn)化一一給予我們
一個收益信號讓我們?nèi)フ夷承┨囟ㄎ兜馈１M管這當(dāng)然并不絕對可靠（事實(shí)上，在某些與祖先環(huán)境不同的環(huán)境中可能是有害的），但這個信號補(bǔ)償了我們之前許多的限制：有限的感官功能，有限的學(xué)習(xí)時間，以及在尋找健康飲食的過程中進(jìn)行個體嘗試實(shí)驗(yàn)所冒的風(fēng)險。類似地，因?yàn)閯游锊⒉荒軐?shí)際觀察到它的進(jìn)化適應(yīng)性，所以進(jìn)化適應(yīng)性的目標(biāo)函數(shù)本身并不能作為收益信號。相反，進(jìn)化過程所提供的一系列收益信號都是可以觀測的，并且是對進(jìn)化適應(yīng)性敏感的。

最我們要記住，強(qiáng)化學(xué)習(xí)智能體并不一定是一個完整的有機(jī)物或者機(jī)器人。它可能是一個更大的行為系統(tǒng)的一部分。這意味著收益信號可能被更大的行動智能體內(nèi)部的事情所影響，例如動機(jī)、記憶、想法甚至幻覺。收益信號可能也依賴于學(xué)習(xí)過程本身的一些性質(zhì)，比如衡量學(xué)習(xí)中進(jìn)步了多少。讓收益信號對這樣的內(nèi)部信息敏感，可以使智能體作為“認(rèn)知架構(gòu)”的一部分，學(xué)習(xí)如何控制認(rèn)知架構(gòu)，同時也可以獲取一些特定的知識和技能。這些技能很難只依賴于外部的收益信號學(xué)習(xí)到。這種可能性導(dǎo)致了“內(nèi)在激勵的強(qiáng)化學(xué)習(xí)”這個思想，稍后我們會簡要地討論這個問題。

5 遺留問題

在本書中，我們介紹了通向人工智能的強(qiáng)化學(xué)習(xí)方法的基礎(chǔ)知識。粗略地說，這個方
法依賴于模型無關(guān)和模型相關(guān)的方法的結(jié)合（如第8章中的Dyma框架所示），并利用第Ⅱ
部分中介紹的函數(shù)通近技術(shù)。其中的關(guān)注焦點(diǎn)是“在線”和“增量式”的算法（我們甚至認(rèn)為這些方法比基于模型的方法更為基本），以及如何在離軌策略訓(xùn)練的情形中使用這些算法。后者的完整應(yīng)用只在這最后一章中有所闡述。也就是說，我們之前一直將離軌策略學(xué)習(xí)視為解決試探和開發(fā)之間矛盾的一種吸引人的方式，但是只有在這一章中，我們才真正完整地討論了依賴于離軌策略學(xué)習(xí)的應(yīng)用，包括學(xué)習(xí)GVF的同時也學(xué)習(xí)多個不同的輔助任務(wù)，還有通過時序摘要的選項(xiàng)模型來對世界進(jìn)行層次化的學(xué)習(xí)。正如我們不斷在本書中指出的，并且本章中所討論的未來潛在研究方向也表明，目前仍有很多工作有待完成。但是，假設(shè)我們認(rèn)可本書中全部的內(nèi)容以及本章到現(xiàn)在為止所概括的全部方向，那么還剩下的是什么呢？當(dāng)然我們不能確切地知道什么是需要的，但是我們可以做一些猜測。在這
?節(jié)中我們強(qiáng)調(diào)6個更長遠(yuǎn)的問題，有待未來的研究去解決。

第一個問題是，我們?nèi)匀恍枰鼜?qiáng)大的參數(shù)化函數(shù)逼近方法，它應(yīng)當(dāng)可以在完全增量式和在線式的設(shè)置下很好地工作。基于深度學(xué)習(xí)和人工神經(jīng)網(wǎng)絡(luò)的方法是這個方向上的重要一步，但是它們?nèi)匀恢皇窃跇O大的數(shù)據(jù)集上批量訓(xùn)練才能得到很好的效果，要么是大量離線地自我對局博弈，要么是通過多個智能體在同一個任務(wù)上交錯地采集經(jīng)驗(yàn)來學(xué)習(xí)。這些以及其他的一些設(shè)置都是為了解決當(dāng)下的深度學(xué)習(xí)方法的局限，即深度學(xué)習(xí)方法在增量式、在線式學(xué)習(xí)的設(shè)定下會陷人掙扎，而增量式和在線式學(xué)習(xí)又恰恰是本書中強(qiáng)調(diào)的最自然的強(qiáng)化學(xué)習(xí)方法的特質(zhì)。這個問題又被稱作“災(zāi)難性的干找”，或者“相關(guān)的數(shù)據(jù)”。每當(dāng)學(xué)習(xí)到一些新的東西時，它都傾向于忘記之前學(xué)的東西，而不是將新知識作為補(bǔ)充，這會導(dǎo)致之前學(xué)習(xí)到的那些優(yōu)點(diǎn)都丟失。例如“回放緩存”之類的技術(shù)經(jīng)常被用于儲存和重新導(dǎo)出舊的數(shù)據(jù)，使得之前學(xué)到的優(yōu)點(diǎn)不至于永久丟失。我們必須誠實(shí)地說，目前的深度學(xué)習(xí)方法并不完全適合在線學(xué)習(xí)。我們找不到這種限制無法解決的理由，但是迄今為止，在保持深度學(xué)習(xí)優(yōu)勢的同時解決這個問題的算法仍然還沒有被設(shè)計(jì)出來。大部分當(dāng)下的深度學(xué)習(xí)研究的導(dǎo)向是在這個限制下工作而不是去掉這個限制。

第二點(diǎn)（也許是緊密相連的），我們?nèi)匀恍枰恍┓椒▉韺W(xué)習(xí)特征表示，使得后續(xù)的學(xué)習(xí)能夠很好地推廣。這個題是一個更廣義的問題（被稱為“表征學(xué)習(xí)”“構(gòu)造型歸納”和“元學(xué)習(xí)”）的例子。我們?nèi)绾问褂媒?jīng)驗(yàn)去學(xué)習(xí)歸納各種偏差，使得未來的學(xué)習(xí)能夠得到更好的推廣也因此學(xué)得更快，而不只是學(xué)習(xí)一個想要的函數(shù)。這是一個很老的問題，可以道潮到20世紀(jì)50年代和60年代的人工智能和模式識別的起源。這樣的年代可能會止人感到猶豫，也許這個問題沒有好的解決方案。但是同樣也有可能是我們尚未到達(dá)找出解決方案并展示它的有效性的階段。如今的機(jī)器學(xué)習(xí)是在一個遠(yuǎn)大于過去的規(guī)模上進(jìn)行的。一個好的表征學(xué)習(xí)方法可能帶來的收益越來越清晰。我們注意到，在一個新的機(jī)器學(xué)
習(xí)年會一一國際表征學(xué)習(xí)會議（ International Conference on Learning Representations
ICLR）上，自2013年起每年都有人採討這個問題。但在強(qiáng)化學(xué)習(xí)的語境下探索表征學(xué)習(xí)則不是那么常見。強(qiáng)化學(xué)習(xí)給這個舊間題帶來了許多新的可能性，例如17.1節(jié)中提到的軸助任務(wù)。在強(qiáng)化學(xué)習(xí)中，表征學(xué)習(xí)的問題與173節(jié)中討論的學(xué)習(xí)狀態(tài)更新函數(shù)的問題是一致的。

第三點(diǎn)，我們?nèi)匀恍枰褂每蓴U(kuò)展的方法在學(xué)習(xí)到的環(huán)境模型中進(jìn)行規(guī)劃。規(guī)劃方
法已經(jīng)被證明在某些應(yīng)用上極為有效，如 Alphago Zero和計(jì)算機(jī)國際象棋等，這些問題
中的環(huán)境模型可以從游戲的規(guī)則或者人類設(shè)計(jì)者的知識中完整地得到。但是在完全基于模型的強(qiáng)化學(xué)習(xí)任務(wù)中，需要從數(shù)據(jù)中學(xué)習(xí)環(huán)境模型，然后再用于規(guī)劃，可很少有成功的例
子。第8章中介紹的Dyna系統(tǒng)是一個例子，但是正如我們當(dāng)時所討論并且也在大部分
隨后的工作中被人提及的，它使用了一個不帶函數(shù)通近的表格型模型，這在很大程度上限了它的應(yīng)用范國。只有少部分的研究探討了線性模型的使用、更少的研究同時了在172節(jié)中討論的基于選項(xiàng)的時序摘要方法。

為了使規(guī)劃方法可以在學(xué)習(xí)得到的環(huán)境模型上有效地使用，我們還需要做很多工作。例如，模型的學(xué)習(xí)過程應(yīng)該是選擇式的，因?yàn)槟Ｐ偷姆秶鴷?yán)重影響規(guī)劃的效率。如果一個模型注重于最重要的選項(xiàng)的關(guān)鍵結(jié)果，則規(guī)劃可能是快速和高效的；但是如果一個模型包含了不太可能被選到的選項(xiàng)的非主要后果的詳細(xì)信息，則規(guī)劃可能幾乎沒有什么用。環(huán)境模型應(yīng)該以優(yōu)化規(guī)劃過程為目標(biāo)，謹(jǐn)值而明智地構(gòu)建其狀態(tài)和動態(tài)特性。應(yīng)該持續(xù)地監(jiān)測模型的各個方面，以了解它們對規(guī)劃效率貢獻(xiàn)或者減損的程度。本領(lǐng)域尚未解決這個復(fù)雜的問題或者設(shè)計(jì)出考慮其影響的模型學(xué)習(xí)算法。

第四個在未來的研究中需要重點(diǎn)解決的問題，是自動化智能體的任務(wù)選擇過程，智能體在這些任務(wù)上工作并且使用這些任務(wù)提升自己的競爭力。在機(jī)器學(xué)習(xí)中，人類設(shè)計(jì)者為智能體設(shè)計(jì)學(xué)習(xí)的目標(biāo)是一件很常見的事情。因?yàn)檫@些任務(wù)是提前已知而且固定的，因此它們可以被內(nèi)嵌在學(xué)習(xí)算法的代碼中。然而如果我們看得更遠(yuǎn)一些，則我們可能希望智能體對于將來想掌握什么技能做出自己的選擇。這可能是某個特定的已知的大任務(wù)中的一個子任務(wù)，或者它們可能意圖創(chuàng)造一些積木式的模塊，允許智能體在一些尚未見過但是將來可能面臨的問題上更加高效地學(xué)習(xí)。

這些任務(wù)可能像17.1節(jié)中討論的輔助任務(wù)或者GVF，或者是用17.2節(jié)中討論的基于選項(xiàng)的方法解決的任務(wù)。例如在構(gòu)建一個GVF的過程中，累積量、策略、終止函數(shù)分別應(yīng)該是什么樣子的？當(dāng)前的最優(yōu)方法是手動選擇它們，但是如果我們可以把這些任務(wù)選擇變得自動化，那么它可能會更強(qiáng)大并且推廣性也更強(qiáng)，尤其是當(dāng)任務(wù)選擇來自于智能體已經(jīng)構(gòu)建的一些“積木”的時候就更是如此，這些“積木”可能是之前在表征學(xué)習(xí)或者在子問題的經(jīng)驗(yàn)學(xué)習(xí)中產(chǎn)生的結(jié)果。如果GVF的設(shè)計(jì)是自動化的，那么設(shè)計(jì)的選擇本身將會被顯式地表達(dá)出來：它們將會在計(jì)算機(jī)中以一種可以設(shè)置、改變、操控、篩選和搜索的方式自動組織起來，而不是在設(shè)計(jì)者的大腦中，隨后寫進(jìn)代碼里。之后任務(wù)可以一個接著
一個地被層次化組織起來，就像人工神經(jīng)網(wǎng)絡(luò)中的特征一樣。任務(wù)就是一個一個的問題，而人工神經(jīng)網(wǎng)絡(luò)的內(nèi)容就是這些問題的答案。我們期望將來有一個完整的層次化的問題與現(xiàn)代深度學(xué)習(xí)方法提供的層次化的答案相匹配。

第五個我們認(rèn)為對未來研究至關(guān)重要的問題是，通過實(shí)現(xiàn)某種可計(jì)算的好奇心來推動行為和學(xué)習(xí)之間的相互作用。在本章中我們想象過一個場景：從一個經(jīng)驗(yàn)流中，通過離軌策略的方法，同時學(xué)習(xí)多個任務(wù)。采取的動作當(dāng)然會影響經(jīng)驗(yàn)流，而經(jīng)驗(yàn)流反過來也會決定學(xué)習(xí)會出現(xiàn)多少次，什么任務(wù)將會被學(xué)習(xí)。當(dāng)收益信號不可用，或者不被智能體行為強(qiáng)烈影響的時候，智能體可以自由選擇動作，在某種意義上最優(yōu)化這些任務(wù)上的學(xué)習(xí)，也就是說使用某些衡量學(xué)習(xí)進(jìn)度的指標(biāo)作為內(nèi)在的收益，來實(shí)現(xiàn)一種“好奇心”的計(jì)算形式。除了衡量學(xué)習(xí)進(jìn)度之外，內(nèi)在的收益函數(shù)可以以其他的可能性，找到最出人意料、新奇或者有趣的輸人，或者評價智能體對環(huán)境造成影響的能力。用這些方式產(chǎn)生的內(nèi)在收益信號，可以被智能體用來給自己提出任務(wù)，任務(wù)的提出可以通過定義輔助任務(wù)、GVF或者選項(xiàng)等方式實(shí)現(xiàn)，以使得學(xué)到的技能可以提升智能體掌握未來任務(wù)的能力。從結(jié)果上看，這很像計(jì)算意義上的玩要。現(xiàn)在已經(jīng)有了很多關(guān)于使用內(nèi)在收益信號的研究，在這個大的方向上還有很多激動人心的話題，等待未來的研究去揭示。

最后一個在將來的研究中需要注意的問題是開發(fā)足夠安全（達(dá)到可以接受的程度）的方法將強(qiáng)化學(xué)習(xí)智能體嵌入真實(shí)物理環(huán)境中，從而保證強(qiáng)化學(xué)習(xí)帶來的好處超過其帶來的危害。這是未來研究最重要的一個方向之一，我們將在下一節(jié)中討論它。

6、

我們在20世紀(jì)90年代中期撰寫本書第1版的時候，人工智能取得了顯著的進(jìn)展，而且產(chǎn)生了一定的社會效應(yīng)，盡管這個時期大多數(shù)激動人心的進(jìn)展只是品示出人工智能可能的前景而已。機(jī)器學(xué)習(xí)就是這個前景中的一部分，但是對于人工智能而言還不能算是不可或缺的。如今人工智能的前景已經(jīng)落地為應(yīng)用，而且正在改變百萬人的生活。機(jī)器學(xué)習(xí)本身也成為了一項(xiàng)關(guān)鍵技術(shù)。在我們寫本書第2版的時候，一些人工智能方面最卓越的成就已經(jīng)包括了強(qiáng)化學(xué)習(xí)技術(shù)，比如著名的“深度強(qiáng)化學(xué)習(xí)”一一強(qiáng)化學(xué)習(xí)與深度人工神經(jīng)網(wǎng)絡(luò)結(jié)合。我們正處在一波人工智能真實(shí)場景應(yīng)用的浪潮之中，它們中將會有很多都使用深度或者非深度的強(qiáng)化學(xué)習(xí)，我們很難預(yù)料它們將以什么樣的方式影響我們的生活。

但是大量真實(shí)世界中的成功案例并不代表真正的人工智能已經(jīng)實(shí)現(xiàn)了。盡管人工智在很多領(lǐng)域都取得了很大的進(jìn)展，但是人工智能與人類智能，甚至與動物智能之間的鴻海都是很大的。人工智能在某些領(lǐng)域能有超過人類的表現(xiàn)，甚至是圍棋這種非常難的游戲然而開發(fā)像人類這樣完整地?fù)碛型ㄓ眠m應(yīng)性和解決問題的能力、復(fù)雜的情感系統(tǒng)和創(chuàng)造力，以及從經(jīng)驗(yàn)中快速學(xué)習(xí)的能力的可交互式的智能體仍然任重道遠(yuǎn)。強(qiáng)化學(xué)習(xí)作為一關(guān)注于動態(tài)環(huán)境交互式學(xué)習(xí)的技術(shù)，在將來會發(fā)展為這種智能體的不可或缺的部分。強(qiáng)化學(xué)習(xí)與心理學(xué)及神經(jīng)科學(xué)的聯(lián)系（第14和15章）弱化了其與人工智能其他的出期目標(biāo)之間的關(guān)聯(lián)，即掲示關(guān)于心智的一些關(guān)鍵問題，以及心智如何從大腦中產(chǎn)生。強(qiáng)化學(xué)習(xí)已經(jīng)幫助我們理解了大腦的收益機(jī)制、動機(jī)和做決策的過程。因此有理由相信，在計(jì)算精神疾病學(xué)相結(jié)合之后，強(qiáng)化學(xué)習(xí)將會幫助我們研發(fā)治療精神親亂，包括藥物濫用和藥物成的方法。

強(qiáng)化學(xué)習(xí)在未來將會取得的另一個成就是輔助人類決策。在模擬仿真環(huán)境中進(jìn)行強(qiáng)化學(xué)習(xí)，從中得到的決策函數(shù)可以指導(dǎo)人類做決策，比如教育、醫(yī)療、交通、能源、公共部門的資源調(diào)度。與其密切相關(guān)的一個強(qiáng)化學(xué)習(xí)的特征是，它總是考慮決策的長期效應(yīng)。這在圍棋和西洋雙陸棋中是非常明顯的，這些也正是強(qiáng)化學(xué)習(xí)給人留下最深刻印象的案例同時這也是收關(guān)我們?nèi)祟惡托乔蛎\(yùn)的諸多高風(fēng)險決策的特征。在過去的很多領(lǐng)域中策分析人員已經(jīng)使用了強(qiáng)化學(xué)習(xí)，并將其決策用于指導(dǎo)人類。使用高級的函數(shù)通近方法和大量的計(jì)算資源，強(qiáng)化學(xué)習(xí)方法已經(jīng)展現(xiàn)出了一些潛力，期望攻克將傳統(tǒng)決策輔助方法推廣到更大規(guī)模、更復(fù)雜問題的難題。
人工智能的快速發(fā)展讓我們開始擔(dān)心它可能對社會甚至人類本身造成嚴(yán)重的威脅。著
名的科學(xué)家和人工智能先驅(qū) Herbert Simon早在2000年（ Simon,2000手CMIU舉辦的地球研討會（ Earthware Symposium）上的一個演講中，就預(yù)言了這一點(diǎn)。他指出在任何
新形式的知識中，前景和危險都存在著永恒的沖突。他用古希臘神話中普羅米修斯和潘多拉之盒的例子打比方，現(xiàn)代科學(xué)的英雄普羅米修斯，為了人類的福社，從諸神那里盜取火
種；而開啟潘多拉之盒，只是一個小小的無意之舉，卻給人類帶來了災(zāi)難。 Simon認(rèn)為我
們需要承認(rèn)這樣的沖突是不可避免的，同時應(yīng)該把自己當(dāng)作未來的設(shè)計(jì)者而不是觀眾，我們更傾向于做普羅米修斯那樣的決策。這對于強(qiáng)化學(xué)習(xí)來說非常正確，如果不就地部署強(qiáng)化學(xué)習(xí)，它在給社會帶來福利的同時，也有可能造成我們不希望看到的后果。因此，包括強(qiáng)化學(xué)習(xí)在內(nèi)的人工智能應(yīng)用，其安全性是一個需要重視的課題。

一個強(qiáng)化學(xué)習(xí)智能體可以通過與真實(shí)世界環(huán)境、模擬環(huán)境（模擬真實(shí)世界的一部分）或者這兩者的結(jié)合環(huán)境進(jìn)行交互而學(xué)習(xí)。模擬器提供安全的環(huán)境，以供智能體自由試探，而不需要考慮對自己/環(huán)境帶來的危害。在大多數(shù)現(xiàn)有的應(yīng)用中，決策是通過與模擬環(huán)境交互，而不是直接與真實(shí)世界交互學(xué)習(xí)到的。除了避免在真實(shí)世界中造成不希望看到的后果之外，在模擬環(huán)境中學(xué)習(xí)，可以得到模擬的無窮無盡的數(shù)據(jù)，這比在真實(shí)環(huán)境中得到這些數(shù)據(jù)要容易得多。而且由于在模擬環(huán)境下，因此交互的速度通常比在真實(shí)環(huán)境中快，般在模擬環(huán)境中的學(xué)習(xí)也要快于在真實(shí)世界環(huán)境中的學(xué)習(xí)。

然而，展現(xiàn)強(qiáng)化學(xué)習(xí)的全部潛力需要將智能體置于真實(shí)世界的經(jīng)驗(yàn)流中，在我們的真實(shí)世界中行動、試探、學(xué)習(xí)，而不是僅僅在它們的虛擬世界中。總而言之，強(qiáng)化學(xué)習(xí)算法（至少在本書中關(guān)注的那些）被設(shè)計(jì)成在線式的，并且它們在很多方面都在效仿動物如何在不穩(wěn)定和有敵人的環(huán)境下存活。嵌入真實(shí)世界中的強(qiáng)化學(xué)習(xí)智能體可以在實(shí)現(xiàn)人工智能放大、擴(kuò)充人類能力的過程中起到變革性的作用。

希望我們的強(qiáng)化學(xué)習(xí)智能體在真實(shí)環(huán)境中學(xué)習(xí)的一個主要原因是：以極高的保真度模擬真實(shí)世界的經(jīng)驗(yàn)通常是很困難甚至是不可能的，因而很難保證在模擬世界學(xué)習(xí)到的策略，無論是通過強(qiáng)化學(xué)習(xí)還是其他別的方法學(xué)到的，其可以安全并良好地指導(dǎo)真實(shí)的動作。這對于某些依賴于人類行為的動態(tài)環(huán)境而言尤其明顯，例如，教育、醫(yī)療、交通、公共政策，在這些環(huán)境中，提升決策力可以帶來切實(shí)的收益。然而部署這些智能體到真實(shí)世界中，需要考慮人工智能可能造成的危險。
其中有些危險是與強(qiáng)化學(xué)習(xí)密切相關(guān)的。因?yàn)閺?qiáng)化學(xué)習(xí)依賴于優(yōu)化，因此它繼承所有優(yōu)化方法的優(yōu)點(diǎn)和缺點(diǎn)。其中一個缺點(diǎn)是設(shè)計(jì)目標(biāo)函數(shù)的問題，在強(qiáng)化學(xué)習(xí)中這被稱作收益信號，它幫助智能體學(xué)到我們想要的行為，同時規(guī)避那些我們不想要的行為。我們在17.4節(jié)中提到，強(qiáng)化學(xué)習(xí)智能體可能會試探到意想不到的方式，通過這種方式使它們的環(huán)境傳遞收益，而有些方式并不是我們想要的，甚至是危險的。當(dāng)我們只是非直接地制定我們想要系統(tǒng)學(xué)習(xí)的東西時，正如我們設(shè)計(jì)強(qiáng)化學(xué)習(xí)的收益信號那樣，在學(xué)習(xí)結(jié)東之前，我們不會知道我們的智能體距離完成我們的期望有多近。這并不是強(qiáng)化學(xué)習(xí)所帶來的新問題，在文學(xué)和工程實(shí)踐中這個問題的提出已經(jīng)很久了，例如在歌德的詩歌
“魔法師的學(xué)徒”（ Goethe1878)中，學(xué)徒對掃帚施法，以幫助他取水，但結(jié)果卻造成了出人意料的洪水，這是因?yàn)閷W(xué)徒對魔法的掌握不到家。在工程中， Norbert Wiener，控制論（ cybernetics）的莫基人，早在半個世紀(jì)以前就指出了這個題。他把這個問題聯(lián)系到了一個超自然的故事“猴子的爪子”（ Wiener,19640):“它滿足了你向他要的，但并不是你應(yīng)該向他要的，或者不是你本來的意圖。”這個問題也在現(xiàn)代的文獻(xiàn)中有長篇討論（Nd
Bostrom2014)。任何在強(qiáng)化學(xué)習(xí)方面有經(jīng)驗(yàn)的人都可能發(fā)現(xiàn)他們的系統(tǒng)找到了一些出人
意料的方式來提高收益。有些時候意想不到的行為是很好的，它以一種全新的方式解決了問題。但是在其他情況下，智能體學(xué)習(xí)到的東西違背了系統(tǒng)設(shè)計(jì)者的初衷，因?yàn)樵O(shè)計(jì)者完全沒有考慮到某些情況。仔細(xì)設(shè)計(jì)收益函數(shù)是非常重要的，它幫助智能體在真實(shí)世界中行動，且不會給人類以觀察其行為和動機(jī)并輕易干擾它的行為的機(jī)會。

盡管優(yōu)化可能帶來非預(yù)期的負(fù)面效果，但數(shù)百年來，優(yōu)化一直在被工程師、架構(gòu)師還有潛在的可能造福人類的設(shè)計(jì)者們廣泛使用。我們生活中很多好的方面都依賴于優(yōu)化算法的應(yīng)用。另一方面，也有很多方法被提出來解決優(yōu)化潛在的風(fēng)險，例如增加硬或軟的約束，使用魯棒和風(fēng)險低的策略來限制優(yōu)化，使用多目標(biāo)函數(shù)優(yōu)化等。這些方法中有些已經(jīng)用到了強(qiáng)化學(xué)習(xí)中，而且更多這方面的研究還有待進(jìn)行。如何把強(qiáng)化學(xué)習(xí)智能體的目標(biāo)調(diào)整成我們?nèi)祟惖哪繕?biāo)，仍然是個難題。

另一個強(qiáng)化學(xué)習(xí)在真實(shí)世界中行動和學(xué)習(xí)帶來的挑戰(zhàn)是，我們不僅僅關(guān)注智能體學(xué)習(xí)的最終效果，而且關(guān)注其在學(xué)習(xí)時的行為方式。如何保證智能體可以得到足夠多的經(jīng)驗(yàn)以學(xué)習(xí)一個高性能的決策，同時又能保證不損害環(huán)境、其他智能體或者它本身（更現(xiàn)實(shí)地說如何把傷害的可能性降得盡可能低）？這個問題并不新鮮，也不只在強(qiáng)化學(xué)習(xí)中存在。對于嵌入式強(qiáng)化學(xué)習(xí)，風(fēng)險控制和減輕問題與控制工程師們在最初使用自動化控制時所面臨的同題是一樣的。那時控制器的行為并不可控，很多時候還可能有災(zāi)難性后果，例如對飛機(jī)和精密化學(xué)過程的控制。控制的應(yīng)用依賴于精細(xì)的系統(tǒng)建模、模型驗(yàn)證和大量的測試。關(guān)于讓事先完全不了解的動態(tài)系統(tǒng)保證收斂和適配控制器的穩(wěn)定性，已經(jīng)有大量的理論。理論的保證從來不是萬能的，因?yàn)樗鼈円蕾囉跀?shù)學(xué)上的假設(shè)成立。但是如果沒有這些理論與風(fēng)險控制和減輕的實(shí)踐相結(jié)合，自適應(yīng)或者其他類型的自動控制就不會像今天我們看到的那樣，可以有效地提升質(zhì)量、效率和成本收益。未來強(qiáng)化學(xué)習(xí)研究最重要的方向之一是適應(yīng)和改善現(xiàn)有方法，以控制嵌入式的智能體在可接受的程度上足夠安全地在真實(shí)物理環(huán)境中工作。
在最后，我們回到 Simon的號召：我們要意識到我們是未來的設(shè)計(jì)者，而不僅僅是
觀眾。通過我們作為個體所做的決策，以及我們對于社會如何治理所施加的影響，我們可以共同努力以保證新科技帶來的好處大于其帶來的危害。在強(qiáng)化學(xué)習(xí)領(lǐng)域里有充足的機(jī)會來做這件事情，因?yàn)樗瓤梢詭椭嵘@個星球上生命的質(zhì)量，促進(jìn)公平和可持續(xù)發(fā)展也有可能帶來新的危機(jī)。現(xiàn)在已經(jīng)存在的一個威脅就是人工智能應(yīng)用造成了許多人的失業(yè)。當(dāng)然我們也有充分的理由去相信，人工智能帶來的好處將遠(yuǎn)大于其造成的危害。關(guān)于安全問題，強(qiáng)化學(xué)習(xí)帶來的危害并沒有和當(dāng)下已經(jīng)被廣泛采用的相關(guān)領(lǐng)域的控制優(yōu)化算法帶來的危害有本質(zhì)的區(qū)別。強(qiáng)化學(xué)習(xí)未來的應(yīng)用涉足真實(shí)世界時，開發(fā)者們有義務(wù)遵循同類技術(shù)中成熟的實(shí)踐經(jīng)驗(yàn)，同時拓展它們，以保證普羅米修斯一直占據(jù)上風(fēng)。

參考文獻(xiàn) 歷史評注

17.1廣義的價值函數(shù)最早是 Sutton和他的同事（ Sutton,195a; Sutton et al,201; Modayil、
White和Sutn,2013)提出的。Ring提出了（正在準(zhǔn)備中）一種使用GVF（“預(yù)報”）的
延伸思想實(shí)驗(yàn)，已經(jīng)有一定的影響力，不過尚未發(fā)表。
使用多個頭部的強(qiáng)化學(xué)習(xí)是由 Jaderberg et al.(2017)首次展示的， Bellemare、 Dabney和 Munos(2017)等人證實(shí)了預(yù)測收益分布的更多信息可以顯著提升學(xué)習(xí)速度來實(shí)現(xiàn)對其期望
的優(yōu)化（這也是輔助任務(wù)的一個例子）。在這之后，很多研究者都開始在這個方向開展研究工作
就我們所知，經(jīng)典條件反射作為學(xué)習(xí)預(yù)測的一般理論以及對預(yù)測的內(nèi)在反射性反應(yīng)并沒有在
心理學(xué)的文獻(xiàn)中得到過明確闡述。 Modayil和Sutn(2014)將其描述為一種控制機(jī)器人和其
他智能體的方法，稱為“巴甫洛夫控制”，暗示其根源為條件反射。

172將動作的時序摘要過程形式化為“選項(xiàng)”的過程是 Sutton、 Precup和 Singh(199等人提出
的，這也基于前人的工作，包括Par(199和Sutt(1995a）以及半MIDP的經(jīng)典工作（例如，見 Puterman,1994). Precup(200的博士論文完整地提出了選項(xiàng)的思想。這些早期工
作一個很大的局限是它們沒有處理離軌策略情況下的函數(shù)逼近。選項(xiàng)內(nèi)部的學(xué)習(xí)通常來說需要離軌策略方法，那時還不能通過函數(shù)通近來可靠地完成。盡管現(xiàn)在我們有了一系列使用函數(shù)通近的穩(wěn)定離軌策略算法，但它們與選項(xiàng)的結(jié)合并沒有在本書出版的時候被真正地發(fā)掘出
來。 Barto和 Mahadevan(200還有 Hengst(2012)回顧了形式化的選項(xiàng)，還有其他的時序
摘要算法。
使用GVF實(shí)現(xiàn)帶選項(xiàng)的模型在前文中沒有提到。我們的介紹中使用了 Modayil、 White和 Sutton(2014)等人提出的技巧，在策略結(jié)束的時候預(yù)測信號。
第17章前沿技術(shù)
使用函數(shù)通近來學(xué)習(xí)帶選項(xiàng)的模型的部分工作由 Bacon、Harb和 Precup(2017)等人提出。
目前的文獻(xiàn)中還沒有人提出把選項(xiàng)和帶選項(xiàng)的模型拓展到平均收益的情形。
173 Monahan(1982)給出了一個關(guān)于 POMDP方法的很好的展示。PSR和測試序列的概念由 Littman、 Sutton和 Singh(2002)等人提出。OOM由 Jaeger(1997,1908,2000提出。統(tǒng)一PSR、OOM和很多其他工作的序列系統(tǒng)，由 Michael Thon(2017;Thon和3 Beger
2015)在博土論文中提出。
強(qiáng)化學(xué)習(xí)與非馬爾可夫狀態(tài)表示的理論由 Singh、 Jaakkola和 Jordan(194; Jaakkola, Singh和 Jordan,1995)明確提出，早期的處理部分可觀測性的強(qiáng)化學(xué)習(xí)方法由 Chrisman(192)
Mccallum(1993, 1995). Parr i Russell(1995). Littman Cassandra M Kaelbling(1995)
還有 by Lin和 Mitchell(1992)提出
17.4早期關(guān)于強(qiáng)化學(xué)習(xí)的建議和教學(xué)參考包括Lin(1992), Maclin和 Shavlik(199), Clouse(1996),還有 Clouse和 Utgoff(192)
不應(yīng)該將 Skinner的塑造技術(shù)與Ng、 Harada和Rusl(190提出的"基于的造”技術(shù)相混酒。 Wiewiora(2003)說明了該技術(shù)實(shí)際上與一個更簡單的思想等價：給價值函數(shù)提供
初始近似，如式（17.11)所示。

17.5我們推薦由 Goodfellow、 Bengio和 Courville(20160)所著的討論當(dāng)下深度學(xué)習(xí)技術(shù)的書ANN中的災(zāi)難性干找問題由 Mccloskey和 Cohen(1989), Ratcliff(1990),還有 French(1999提出。回放緩存的技術(shù)由1in(1992)提出，其著名應(yīng)用是Atan游戲系統(tǒng)（165節(jié)
Mnih et al.,2013,2015).
Minsky(1961)是第一個認(rèn)識到表征學(xué)習(xí)問題的人。
為數(shù)不多的使用學(xué)習(xí)到的近似模型做規(guī)劃的研究由 Kuvayev和 Sutton(1996), Sutton
Szepesvari、 Geramifard和 Bowling(2008), Nouri和 Littman(2009),還有 Hester和 Stone
（2012)等人做
在人工智能中，模型的設(shè)計(jì)需要仔細(xì)選擇以避免過慢的規(guī)劃，這是人們熟知的。一些經(jīng)典的工
作包括 Minton(1990和 Tambe、 Newell,還有 Rosenbloom(199 Hauskrecht、 Meulear
Kaelbling、Dean和 Boutilier(1998)在帶確定性的選項(xiàng)的MDP中展示了相應(yīng)的效果
Schmidhuber(1991a,b）指出，如果收益信號是關(guān)于智能體的環(huán)境改普得有多快的一個函數(shù)那么像好奇心那樣的事情會導(dǎo)致怎樣的后果。由 Klyubin、 Polan和 Nehaniv(200提出的
授權(quán)函數(shù)是一個信息理論的度量，衡量智能體控制環(huán)境的能力，它也可以作為一種內(nèi)在的收益
信號。 Baldassarre和 Mirolli(2013)的文章研究生物學(xué)和計(jì)算角度上的內(nèi)在收益和動機(jī)，包括一種“內(nèi)在激勵的強(qiáng)化學(xué)習(xí)”的觀點(diǎn)，使用了由 Singh、 Barto和 Chentenez(2004)提出的術(shù)語。同時可以參考 Oudeyer和 Kaplan(2007), Oudeyer、 Kaplan和 Hafner(200),還有 Barto(2013)的工作。

總結(jié)

以上是生活随笔為你收集整理的【17】强化学习 17章前沿技术的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

前沿技术