當(dāng)前位置：首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

Relational Reinforcement Learning: An Overview

發(fā)布時(shí)間：2023/12/20 编程问答 41 豆豆

生活随笔收集整理的這篇文章主要介紹了 Relational Reinforcement Learning: An Overview 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

Abstract

關(guān)系強(qiáng)化學(xué)習(xí)（RRL）既是一個(gè)年輕的領(lǐng)域，又是一個(gè)古老的領(lǐng)域。在本文中，我們追溯了該領(lǐng)域的歷史和相關(guān)學(xué)科，概述了一些當(dāng)前的工作和有希望的新方向，并調(diào)查了未來(lái)的研究問(wèn)題和機(jī)會(huì)。

Introduction

長(zhǎng)期以來(lái)，將學(xué)習(xí)與解決問(wèn)題相結(jié)合一直是人工智能的夢(mèng)想。盡管這似乎與分而治之的原則背道而馳，但仍有許多充分的理由采用這種綜合方法。解決問(wèn)題通常在計(jì)算上很困難，并且如果不學(xué)習(xí)，agent將無(wú)法利用自身的經(jīng)驗(yàn)來(lái)提高將來(lái)解決問(wèn)題的效率。另一方面，孤立學(xué)習(xí)取決于外部專業(yè)知識(shí)來(lái)決定哪些值得學(xué)習(xí)并提供訓(xùn)練數(shù)據(jù)。這樣的專業(yè)知識(shí)并非總是可用，并且在可用時(shí)通常很昂貴。因此，諸如LEX（Mitchell等，1983），SOAR（Laird等，1986）和Prodigy（Minton等，1989）之類的系統(tǒng)開(kāi)創(chuàng)了將問(wèn)題解決與學(xué)習(xí)相結(jié)合的方法，盡管他們具有完整的知識(shí)和正確的領(lǐng)域模型，并在一個(gè)完全可觀察和確定性的世界中。

基于馬爾可夫決策過(guò)程理論的強(qiáng)化學(xué)習(xí)（RL）放寬了其中的一些假設(shè)，包括確定性和對(duì)領(lǐng)域模型的全面了解（Kaelbling等，1996； Bertsekas＆Tsitsiklis，1997； Sutton＆Barto，1998）。 agent沒(méi)有被提供完整和正確的領(lǐng)域理論，而是處于一種環(huán)境中，可以通過(guò)采取行動(dòng)并接受積極或消極的強(qiáng)化，與agent進(jìn)行交互以收集領(lǐng)域知識(shí)。 agent的主要目標(biāo)是學(xué)習(xí)一種基于其當(dāng)前狀態(tài)選擇其行為的方法，即學(xué)習(xí)一種將狀態(tài)映射到行為的策略，從而優(yōu)化性能指標(biāo)，例如每個(gè)時(shí)間步長(zhǎng)收到的預(yù)期平均獎(jiǎng)勵(lì)。

強(qiáng)化學(xué)習(xí)為構(gòu)建智能agent提供了一個(gè)通用框架和一系列方法，這些智能agent可以在最少的監(jiān)督下優(yōu)化其在隨機(jī)環(huán)境中的行為。但是，不幸的是，目前RL中的大多數(shù)工作都是基于命題表示法，這使其很難將其應(yīng)用于復(fù)雜的現(xiàn)實(shí)世界任務(wù)，例如從Web檢索信息，自然語(yǔ)言處理或在諸如現(xiàn)實(shí)世界這樣豐富的領(lǐng)域中進(jìn)行規(guī)劃，如烹飪。命題RL在此類領(lǐng)域中的成功應(yīng)用通常只有通過(guò)對(duì)命題特征進(jìn)行專業(yè)的人工構(gòu)造才能實(shí)現(xiàn)。這些領(lǐng)域中的狀態(tài)和動(dòng)作更自然地以關(guān)系形式表示，并且人們似乎經(jīng)常在學(xué)習(xí)和泛化中利用豐富的關(guān)系結(jié)構(gòu)。問(wèn)題自然而然地出現(xiàn)了：這是怎么做的？

在本概述文章中，我們激勵(lì)RRL嘗試回答這個(gè)問(wèn)題，將其置于歷史背景下，概述一些有前途的方法和新方向，并討論該領(lǐng)域中的一些開(kāi)放研究問(wèn)題。

Motivation

考慮一個(gè)典型的網(wǎng)絡(luò)問(wèn)題解答任務(wù)（Berners-Lee等，2001； Fensel等，2002），該任務(wù)可能涉及訪問(wèn)和集成來(lái)自網(wǎng)絡(luò)的半結(jié)構(gòu)化信息以回答一個(gè)復(fù)雜的查詢，例如“查找西海岸的一所研究生院，這里有經(jīng)濟(jì)適用房，多個(gè)教職員工，并且資助了人工智能方面的研究?！奔词挂哉降牟樵冋Z(yǔ)言提出查詢，要回答該問(wèn)題，也需要一些技能，例如查詢計(jì)劃，優(yōu)化，信息提取以及以關(guān)系語(yǔ)言進(jìn)行信息集成?；蚩紤]學(xué)習(xí)烹飪一頓飯涉及什么。雖然當(dāng)然不是詳盡無(wú)遺的清單，但需要推理一下人們的口味和喜好，自己對(duì)食譜和技能的了解，配料的可用性，使用地點(diǎn)，使用它們的程序，器皿和炊具的容量以及所產(chǎn)生的影響不同成分的比例，烹飪溫度以及不同類型的烹飪過(guò)程對(duì)最終產(chǎn)品的口味和質(zhì)量的影響。

容易將這兩個(gè)問(wèn)題都視為強(qiáng)化學(xué)習(xí)問(wèn)題。在這兩個(gè)任務(wù)中，我們可能會(huì)因花費(fèi)的時(shí)間和其他費(fèi)用而對(duì)系統(tǒng)進(jìn)行懲罰，并為最終產(chǎn)品的質(zhì)量而給予獎(jiǎng)勵(lì)。然而，問(wèn)題在于，網(wǎng)的結(jié)構(gòu)和烹飪?nèi)蝿?wù)中涉及的推理最自然地使用關(guān)系表示來(lái)表示。這給RL在這些領(lǐng)域的成功提出了若干挑戰(zhàn)。

Function Approximation: 當(dāng)應(yīng)用于關(guān)系域時(shí)，通常在RL（例如神經(jīng)網(wǎng)絡(luò)或回歸樹(shù)）中使用的值函數(shù)近似不能很好地泛化。部分原因是因?yàn)檫@些表示不適合表示關(guān)系知識(shí)的任務(wù)。當(dāng)它們成功時(shí)，他們需要仔細(xì)選擇專門針對(duì)手頭特定任務(wù)手工設(shè)計(jì)的命題特征或基本功能。設(shè)計(jì)在存在時(shí)利用關(guān)系結(jié)構(gòu)的函數(shù)逼近方案是一個(gè)嚴(yán)峻的挑戰(zhàn)。

Generalization Across Objects: RL方法不能明確表示對(duì)象及其之間的關(guān)系，因此從一個(gè)對(duì)象學(xué)習(xí)到相似的相關(guān)對(duì)象的能力從根本上受到限制。這里的關(guān)鍵挑戰(zhàn)是識(shí)別被認(rèn)為是“相似”的對(duì)象的類，在這些類上證明這種泛化是合理的，以及識(shí)別和表示適合傳遞的知識(shí)。

Transfer across Tasks: RL程序通常在單個(gè)任務(wù)上進(jìn)行測(cè)試，并且不會(huì)表現(xiàn)出跨任務(wù)的知識(shí)轉(zhuǎn)移。給定域中的每個(gè)任務(wù)，例如信息檢索中的每個(gè)查詢，在按命題制定時(shí)可能看起來(lái)完全不同，因此可能需要單獨(dú)的訓(xùn)練才能收斂。關(guān)系表示便于將相關(guān)任務(wù)的廣泛集合表述為單個(gè)域，從而在這些相關(guān)任務(wù)之間產(chǎn)生自然的泛化。

Run-time Planning and Reasoning: 在大多數(shù)強(qiáng)化學(xué)習(xí)工作中，運(yùn)行時(shí)沒(méi)有刻意的規(guī)劃和推理。默許地假定所有規(guī)劃都是離線進(jìn)行的，或者系統(tǒng)完全依靠探索和學(xué)習(xí)來(lái)構(gòu)造好的規(guī)劃，從而將運(yùn)行時(shí)執(zhí)行減少為被動(dòng)行為。但是，復(fù)雜的動(dòng)態(tài)域既需要考慮又需要反應(yīng)，正如成功的游戲程序所證明的那樣。似乎值函數(shù)的近似性質(zhì)要求在運(yùn)行時(shí)進(jìn)行更精細(xì)的搜索以補(bǔ)償其誤差。推理在構(gòu)建新功能以改進(jìn)值函數(shù)近似中也可能很重要。

Prior Knowledge: RL不再?gòu)?qiáng)調(diào)先驗(yàn)知識(shí)在學(xué)習(xí)和推理中的作用，因此依賴于嘗試和錯(cuò)誤學(xué)習(xí)，這是非常低效的，并且通常無(wú)法擴(kuò)展到諸如上述的更復(fù)雜的任務(wù)。

關(guān)系強(qiáng)化學(xué)習(xí)（RRL）試圖通過(guò)將RL概括為關(guān)系表示的狀態(tài)和動(dòng)作來(lái)解決所有上述問(wèn)題。實(shí)際上，強(qiáng)化學(xué)習(xí)和關(guān)系學(xué)習(xí)都有悠久的歷史。強(qiáng)化學(xué)習(xí)的研究始于1959年塞繆爾（Samuel）在跳棋方面的開(kāi)創(chuàng)性工作（Samuel，1990）。關(guān)系學(xué)習(xí)的工作始于溫斯頓關(guān)于塊世界學(xué)習(xí)的工作（溫斯頓，1975年）。近年來(lái)，以不同的名稱研究關(guān)系學(xué)習(xí)，包括歸納邏輯規(guī)劃，關(guān)系數(shù)據(jù)挖掘和概率關(guān)系建模。強(qiáng)化學(xué)習(xí)也以多種方式進(jìn)行了研究，其中神經(jīng)動(dòng)態(tài)規(guī)劃和決策理論規(guī)劃最為人所知。

也許不太明顯，并且正如引言中所提到的，強(qiáng)化學(xué)習(xí)也與加速學(xué)習(xí)以及SOAR和Prodigy等系統(tǒng)密切相關(guān)。確實(shí)，經(jīng)典的《機(jī)器學(xué)習(xí)閱讀》（Shavlik＆Dietterich，1990）將塞繆爾的工作歸類于加速學(xué)習(xí)。這是有道理的，因?yàn)樵诩铀賹W(xué)習(xí)中，學(xué)習(xí)任務(wù)被視為通過(guò)學(xué)習(xí)適當(dāng)?shù)目刂浦R(shí)（即，學(xué)習(xí)在什么時(shí)候或某個(gè)策略時(shí)該做什么）來(lái)加速暴力問(wèn)題解決者。盡管遵循經(jīng)典計(jì)劃范式的提速學(xué)習(xí)工作并未考慮動(dòng)態(tài)域和隨機(jī)性，但從一開(kāi)始就采用了關(guān)系表示。加速學(xué)習(xí)與強(qiáng)化學(xué)習(xí)之間的另一個(gè)區(qū)別是，在加速學(xué)習(xí)中，假定給出了領(lǐng)域理論，即動(dòng)作模型和即時(shí)獎(jiǎng)勵(lì)函數(shù)，而在RL中，僅提供了仿真模型。

關(guān)系強(qiáng)化學(xué)習(xí)（RRL）將狀態(tài)和動(dòng)作的關(guān)系表示形式的表現(xiàn)力以及強(qiáng)化學(xué)習(xí)的動(dòng)態(tài)性和隨機(jī)性結(jié)合在一起，從而為學(xué)習(xí)創(chuàng)造了一個(gè)非常籠統(tǒng)且具有挑戰(zhàn)性的環(huán)境。

Reinforcement Learning

強(qiáng)化學(xué)習(xí)（RL）的基礎(chǔ)是一種agent，該agent可以使用傳感器感知周圍世界，并通過(guò)效應(yīng)器對(duì)周圍世界進(jìn)行操作，從而與周圍環(huán)境進(jìn)行交互。除了傳感器和效應(yīng)器外，agent還獲得了增強(qiáng)或獎(jiǎng)勵(lì)。通常，環(huán)境可能是隨機(jī)的，動(dòng)態(tài)的，并且只能部分觀察。對(duì)于不同的操作定義，agent的目標(biāo)是以一種行為來(lái)優(yōu)化其預(yù)期的長(zhǎng)期效用，例如，優(yōu)化每步的預(yù)期平均報(bào)酬或優(yōu)化每一步的幾何折扣的預(yù)期總報(bào)酬（Puterman， 1994）。

鑒于RL的這個(gè)宏偉目標(biāo)，毫不奇怪的是，即使不是全部，大多數(shù)AI問(wèn)題都可以在RL框??架中解決。的確，RL可以看作是AI完整問(wèn)題的集合，或者其解決方案暗示著在該領(lǐng)域的廣泛目標(biāo)上取得成功的問(wèn)題之一。但是，當(dāng)前的方法（接下來(lái)將簡(jiǎn)要回顧）并沒(méi)有處理暗示的環(huán)境豐富性問(wèn)題。 RRL是彌合這一差距的關(guān)鍵步驟，允許RL方法擴(kuò)展到結(jié)構(gòu)豐富的域中。

強(qiáng)化學(xué)習(xí)文獻(xiàn)提供了解決RL問(wèn)題的幾種方法。 “策略梯度”方法在某種語(yǔ)言的指導(dǎo)下，根據(jù)其性能度量相對(duì)于其參數(shù)的梯度估計(jì)來(lái)直接搜索參數(shù)化的策略空間。這些方法的優(yōu)點(diǎn)之一是它們?cè)谀承l件下也適用于部分可觀察的環(huán)境。

另一類方法更強(qiáng)烈地依賴于狀態(tài)的可觀察性，并通過(guò)學(xué)習(xí)狀態(tài)或狀態(tài)-動(dòng)作對(duì)上的適當(dāng)參數(shù)化的實(shí)值函數(shù)來(lái)間接地學(xué)習(xí)最佳策略。值函數(shù)的參數(shù)是局部更新的，將當(dāng)前狀態(tài)的值移至下一個(gè)狀態(tài)的值加上任何即時(shí)獎(jiǎng)勵(lì)。在實(shí)踐中難以滿足的強(qiáng)大假設(shè)下，這些局部更新可以顯示為使值函數(shù)收斂到從給定狀態(tài)（在給定操作下，如果有的話）可以實(shí)現(xiàn)的真實(shí)期望效用，我們稱之為最佳值。如果已知最佳值函數(shù)，則agent可以通過(guò)對(duì)它貪婪地行動(dòng)，在每個(gè)狀態(tài)下選擇使結(jié)果狀態(tài)的期望值最大化的動(dòng)作來(lái)最佳地執(zhí)行。通過(guò)剛剛描述的局部更新的某種變體來(lái)學(xué)習(xí)（近似或啟發(fā)式）正確值函數(shù)的方法的集合，統(tǒng)稱為值迭代方法。當(dāng)要更新的值函數(shù)將值分配給狀態(tài)-動(dòng)作對(duì)時(shí)，它稱為Q函數(shù)，該方法也稱為Q學(xué)習(xí)方法。在這兩種情況下，在每個(gè)狀態(tài)下局部更新值函數(shù)估計(jì)的過(guò)程都稱為值函數(shù)回歸，因?yàn)榭梢詫⑵湟暈橥ㄟ^(guò)環(huán)境的動(dòng)作動(dòng)力學(xué)一步一步使值函數(shù)估計(jì)回歸。

尋找最佳策略的一種相關(guān)方法是策略迭代，它基于一個(gè)簡(jiǎn)單的定理：相對(duì)于次優(yōu)值函數(shù)V貪婪地行動(dòng)，將獲得至少與該值函數(shù)指示的值一樣多的值，并且至少有一個(gè)值獲得更多的值。換句話說(shuō)，只要V低估了最優(yōu)值，相對(duì)于V的貪婪策略所獲得的價(jià)值就大于V。策略迭代以任意的V開(kāi)始，并針對(duì)V的貪婪策略計(jì)算改進(jìn)值函數(shù)V’。然后可以將V’作為V重復(fù)此過(guò)程，直到找到最佳V。實(shí)際上，收斂只需要進(jìn)行幾次迭代，但是在大狀態(tài)空間中，從多項(xiàng)式中找出V的改進(jìn)V’的過(guò)程雖然是多項(xiàng)式的，但卻很昂貴。為了解決這個(gè)問(wèn)題，在大的狀態(tài)空間中，可以通過(guò)對(duì)在多個(gè)給定的樣本軌跡上從s獲得的效用取平均值，根據(jù)V貪婪地進(jìn)行操作，在任意給定的狀態(tài)s下對(duì)V’進(jìn)行采樣。這個(gè)過(guò)程被稱為政策推出（Bertsekas＆Tsitsiklis，1997）。給定足夠的V’這樣的樣本，機(jī)器學(xué)習(xí)技術(shù)可以學(xué)習(xí)V’的近似值，即狀態(tài)空間特征的線性組合，從而提供了一種便宜的方式來(lái)在大狀態(tài)空間中近似地進(jìn)行策略迭代。

Relational Reinforcement Learning: State of the Art

在本節(jié)中，我們概述了一些有關(guān)關(guān)系強(qiáng)化學(xué)習(xí)的有前途的當(dāng)前方法。

Relational Regression and Q-learning

通過(guò)使用關(guān)系回歸，RRL系統(tǒng)（D-zeroski等人，2001）允許將幾乎標(biāo)準(zhǔn)的Q學(xué)習(xí)應(yīng)用于在以關(guān)系性質(zhì)為特征的環(huán)境中強(qiáng)化學(xué)習(xí)問(wèn)題。

通過(guò)將狀態(tài)和動(dòng)作的關(guān)系表示與關(guān)系回歸結(jié)合使用以進(jìn)行Q函數(shù)泛化，可以使用結(jié)構(gòu)信息，例如在Q值的描述中存在具有正確屬性的對(duì)象或?qū)ο笾g的關(guān)系。結(jié)果導(dǎo)致對(duì)派生策略的描述。當(dāng)遇到更復(fù)雜或更簡(jiǎn)單的任務(wù)時(shí)，這可以在較小但相關(guān)的問(wèn)題上重用經(jīng)驗(yàn)。

已經(jīng)開(kāi)發(fā)了三種用于該RRL系統(tǒng)的回歸算法：TG算法（用于逐步構(gòu)建一階回歸樹(shù)），基于實(shí)例的算法（稱為RIB）和基于內(nèi)核的算法KBR（使用高斯過(guò)程作為回歸技術(shù)）。

TG算法（Driessens等，2001）是構(gòu)建一階分類和回歸樹(shù)的Tilde算法（Blockeel和De Raedt，1998）與G算法（Chapman和Kaelbling，1991）的結(jié)合。有關(guān)樹(shù)的每個(gè)葉子中每個(gè)可能擴(kuò)展的性能的大量統(tǒng)計(jì)值，以逐步構(gòu)建樹(shù)。 TG算法使用的關(guān)系回歸樹(shù)使用一階文字的結(jié)合作為內(nèi)部葉子中的測(cè)試。對(duì)應(yīng)于特定葉子的測(cè)試是出現(xiàn)在從樹(shù)的根到葉子的路徑上的測(cè)試的結(jié)合，在其中對(duì)所有出現(xiàn)的變量進(jìn)行存在量化。 TG算法采用了源自Tilde系統(tǒng)的用戶定義的精細(xì)運(yùn)算符，以生成可用于替換葉子的可能的一階測(cè)試。 TG算法算法存儲(chǔ)在樹(shù)的每片葉子中的統(tǒng)計(jì)信息包括通過(guò)每種可能的測(cè)試進(jìn)行正或負(fù)分類的示例數(shù)，以及每種情況下Q值和Q值平方的總和。這允許使用F檢驗(yàn)來(lái)決定選擇哪個(gè)檢驗(yàn)。目前，TG尚未進(jìn)行任何樹(shù)重組。該算法做出的所有決定都是最終決定。

基于實(shí)例的算法RIB（Driessens和Ramon，2003年）使用k最近鄰預(yù)測(cè)作為回歸技術(shù)，即，它計(jì)算存儲(chǔ)在內(nèi)存中的示例的Q值的加權(quán)平均值，其中權(quán)重成反比到示例之間的距離。所使用的距離必須能夠處理狀態(tài)和動(dòng)作的關(guān)系表示，并且可以是通用的一階距離（Sebag，1997； Ramon和Bruynooghe，2001），也可以是特定于應(yīng)用的距離，通?？梢允怯?jì)算效率更高。由于Q學(xué)習(xí)生成連續(xù)的學(xué)習(xí)示例流，因此開(kāi)發(fā)了許多示例選擇方法以減少內(nèi)存和計(jì)算需求。這些選擇標(biāo)準(zhǔn)基于IB2和IB3中使用的選擇標(biāo)準(zhǔn)（Aha等，1991），并研究各個(gè)示例對(duì)整體預(yù)測(cè)誤差的影響。

第三種算法稱為KBR（G·artner等，2003a），并使用高斯過(guò)程作為回歸技術(shù)。高斯過(guò)程（MacKay，1997）要求在示例描述之間定義正定協(xié)方差函數(shù)。由于在RRL系統(tǒng)中使用了關(guān)系表示，因此必須使用結(jié)構(gòu)化數(shù)據(jù)的內(nèi)核來(lái)完成此任務(wù)。這里可能的候選對(duì)象是卷積核（Haussler，1999）或在圖上定義的核（Gartner等，2003b）。由于高斯過(guò)程是貝葉斯技術(shù)，因此KBR算法不僅提供了一個(gè)新的未知示例的Q值的基本預(yù)測(cè)，而且還提供了更多的信息。它還可以指示此估計(jì)的預(yù)期精度，例如，可以通過(guò)Q學(xué)習(xí)算法將其用于指導(dǎo)探索。

降低Q學(xué)習(xí)與關(guān)系函數(shù)抽象的適用性的主要問(wèn)題之一是Q值本身的性質(zhì)，即它們隱式編碼到下一個(gè)獎(jiǎng)勵(lì)的距離和大小。在隨機(jī)和高度混亂的任務(wù)中很難預(yù)測(cè)這些。在這種情況下，優(yōu)勢(shì)學(xué)習(xí)或策略迭代等其他方法似乎更合適。

Approximate Policy Iteration for RRL

如上所述，可以將近似策略迭代視為從值函數(shù)V移至更好的值函數(shù)V’，或者從相應(yīng)的貪婪策略 $π\(zhòng)pi$ 移至更好的貪婪策略 $π′\pi '$ ，然后進(jìn)行迭代。此處， $π\(zhòng)pi$ 關(guān)于V貪婪地行動(dòng)， $π′\pi '$ 關(guān)于V’貪婪地行動(dòng)。

直到最近，幾乎所有近似策略迭代的用法都直接表示值函數(shù)，但僅隱式表示相應(yīng)的策略（作為對(duì)直接表示的值函數(shù)的貪婪行為）。考慮到廣泛的專家-人的特征工程，這種方法對(duì)于命題域可以很好地工作（例如，在TD-gammon中（Tesauro，1995）），但是對(duì)于高度結(jié)構(gòu)化的關(guān)系域卻沒(méi)有成功。由于上述原因，很難為這些高度結(jié)構(gòu)化的域找到良好的近似值函數(shù)表示。

一種替代方法是直接表示所涉及的策略，而僅隱式表示值函數(shù)。給定策略 $π\(zhòng)pi$ 的顯式表示形式，隱式表示的值函數(shù)是通過(guò)從每個(gè)狀態(tài)重復(fù)執(zhí)行 $π\(zhòng)pi$ 所獲得的值。如上所述，通過(guò)在 $π\(zhòng)pi$ 下繪制合適的軌跡（從每個(gè)可能的替代動(dòng)作開(kāi)始），仍然可以使用策略推出來(lái)生成 $π′\pi '$ 的樣本（給定 $π\(zhòng)pi$ ）。注意，在這種方法中，使用監(jiān)督分類學(xué)習(xí)器來(lái)學(xué)習(xí) $π′\pi '$ ，而不是之前使用回歸學(xué)習(xí)器來(lái)近似V’。

這種替代方法的優(yōu)點(diǎn)是，與表示和學(xué)習(xí)準(zhǔn)確的價(jià)值函數(shù)相比，通常更容易表示和學(xué)習(xí)適用于結(jié)構(gòu)化域的策略?？梢允褂猛ㄓ貌呗哉Z(yǔ)言，這些語(yǔ)言利用數(shù)十年來(lái)的知識(shí)表示工作來(lái)對(duì)許多有用的策略進(jìn)行緊湊，易學(xué)的描述（Martin＆Geffner，2000； Khardon，1999； Yoon等，2002）。大量的實(shí)證研究表明（Fern等人，2003； Fern等人，2004），對(duì)于前三屆國(guó)際會(huì)議中使用的基準(zhǔn)規(guī)劃問(wèn)題衍生出的各種困難的，結(jié)構(gòu)化的領(lǐng)域，幾乎不需要人工就可以學(xué)習(xí)策略。規(guī)劃比賽。使用這種近似策略迭代形式的學(xué)習(xí)系統(tǒng)可以學(xué)習(xí)與這些領(lǐng)域中最新的確定性計(jì)劃者競(jìng)爭(zhēng)的策略。但是，與確定性計(jì)劃器不同，這些系統(tǒng)對(duì)于引入不確定性具有魯棒性，并且可以證明在相同問(wèn)題的隨機(jī)變體中表現(xiàn)良好。另外，學(xué)習(xí)系統(tǒng)一次學(xué)習(xí)整個(gè)計(jì)劃領(lǐng)域的策略，然后可以通過(guò)簡(jiǎn)單地執(zhí)行所學(xué)習(xí)的策略來(lái)解決該領(lǐng)域中的任何實(shí)例。相反，確定性計(jì)劃人員對(duì)每個(gè)問(wèn)題實(shí)例使用新搜索，而在實(shí)例之間不傳遞任何知識(shí)。

關(guān)于RRL的近似策略迭代方法，還有許多未解決的研究問(wèn)題。首先，迄今為止探索的策略語(yǔ)言是相當(dāng)有限的。是否可以找到一種良好的，可學(xué)習(xí)的，通用的策略語(yǔ)言來(lái)避免遇到新領(lǐng)域時(shí)需要人工重新設(shè)計(jì)該語(yǔ)言，還有待確定。特別是，僅開(kāi)始探索結(jié)合內(nèi)存而不是簡(jiǎn)單地對(duì)當(dāng)前狀態(tài)做出反應(yīng)的策略語(yǔ)言。而且，當(dāng)前的策略語(yǔ)言缺乏將關(guān)于問(wèn)題域的背景知識(shí)并入策略語(yǔ)言或策略學(xué)習(xí)者的一般能力。最后，盡管有自然的方法，但這些技術(shù)尚未擴(kuò)展到部分可觀察的環(huán)境或多agent環(huán)境中。

Symbolic Dynamic Programming

RRL的誘人方法是利用狀態(tài)轉(zhuǎn)換模型的符號(hào)表示形式來(lái)做“貝爾曼備份”的符號(hào)版本。這種方法的根源可以追溯到基于解釋的學(xué)習(xí)（EBL），其中，在成功解決問(wèn)題的環(huán)節(jié)之后，將建立一個(gè)證明其成功背后原因的證據(jù)。然后，對(duì)證明進(jìn)行一般化，以構(gòu)造可以用相同方法求解的狀態(tài)的描述（Mitchell等，1986； DeJong＆Mooney，1986）。在狀態(tài)空間問(wèn)題和MDP中，證明對(duì)應(yīng)于顯示動(dòng)作序列可以實(shí)現(xiàn)目標(biāo)，而EBL對(duì)應(yīng)于在操作符序列上進(jìn)行目標(biāo)回歸。實(shí)際上，EBL是諸如Prodigy和SOAR（Minton等，1989； Laird等，1986）之類的系統(tǒng)中使用的泛化算法的核心，以從解決問(wèn)題的特定示例中學(xué)習(xí)一般控制規(guī)則。 Dietterich和Flann通過(guò)將這些廣義狀態(tài)描述與從Bellman備份獲得的值相關(guān)聯(lián)，將該思想與強(qiáng)化學(xué)習(xí)相結(jié)合（Dietterich＆Flann，1997）。因此，人們可以學(xué)習(xí)對(duì)導(dǎo)致最多1步，2步，3步等獲勝的狀態(tài)的描述，并使用它們來(lái)選擇任何狀態(tài)下的最佳步法。

Boutilier將所得的基于解釋的強(qiáng)化學(xué)習(xí)（EBRL）推廣到了隨機(jī)域，其獎(jiǎng)勵(lì)模型由結(jié)構(gòu)化的貝葉斯網(wǎng)絡(luò)描述，因此使它們易于進(jìn)行符號(hào)推理（Boutilier等人，2001）。這兩種方法的優(yōu)點(diǎn)是，不是從動(dòng)機(jī)不明確的句法偏見(jiàn)中歸納概括一組示例，而是從符號(hào)域理論開(kāi)始，證明該歸納是正確的。領(lǐng)域理論易于以緊湊的符號(hào)表示形式提供，這是決策理論規(guī)劃中的標(biāo)準(zhǔn)假設(shè)。如果這不是真的，那么首先學(xué)習(xí)對(duì)領(lǐng)域理論的簡(jiǎn)要描述（Pasula等人，2004），并將其用于目標(biāo)回歸中可能比直接學(xué)習(xí)價(jià)值函數(shù)要難得多。這是因?yàn)?#xff0c;即使值函數(shù)不起作用，領(lǐng)域模型也往往會(huì)采用緊湊的表示形式。例如，考慮象棋規(guī)則或PDDL中各種計(jì)劃域的描述。領(lǐng)域模型是緊湊的假設(shè)類似于歸納方法中要學(xué)習(xí)的策略是緊湊的假設(shè)。例如，此假設(shè)奠定了RRL近似策略迭代中使用的語(yǔ)法偏差的基礎(chǔ)。

不幸的是，有時(shí)稱為這種方法的符號(hào)動(dòng)態(tài)編程（SDP）并不是萬(wàn)能藥。共享給定值的狀態(tài)的描述變得越來(lái)越復(fù)雜和分離，因?yàn)檫@些狀態(tài)離目標(biāo)越來(lái)越遠(yuǎn)。每個(gè)連接描述所覆蓋的狀態(tài)數(shù)量急劇減少，從而導(dǎo)致大量的低覆蓋規(guī)則。實(shí)際上，在早期的EBL系統(tǒng)中已經(jīng)觀察到這種情況，導(dǎo)致了所謂的“效用問(wèn)題”（Minton，1988； Dietterich＆Flann，1997）。在某個(gè)時(shí)候，有必要放棄對(duì)值函數(shù)的精確表示，并對(duì)其進(jìn)行緊湊地逼近，否則人們將花費(fèi)更多的時(shí)間來(lái)匹配所有規(guī)則，而不是在原始狀態(tài)空間中尋找解決方案。進(jìn)行這種近似通常涉及歸納學(xué)習(xí)，并導(dǎo)致這種方法本質(zhì)上類似于關(guān)系回歸。

可以通過(guò)狀態(tài)空間聚合將某些問(wèn)題抽象為等效的較小問(wèn)題。以這種方式形成的具有較小等效問(wèn)題的問(wèn)題通常會(huì)很好地產(chǎn)生SDP。這些問(wèn)題也可以通過(guò)使用模型最小化找到相關(guān)的狀態(tài)空間集合來(lái)直接解決（Givan et al。，2003），然后使用任何適用的技術(shù)（例如值迭代）解決由此產(chǎn)生的較小問(wèn)題。

Directly Approximating the Value Function

直到最近，才有任何工作涉及改善我們的價(jià)值函數(shù)表示的方法，從而使所得的近似值可以利用域的關(guān)系結(jié)構(gòu)，而無(wú)需對(duì)狀態(tài)空間特征進(jìn)行大量的人工設(shè)計(jì)（Guestrin等，2003）。這項(xiàng)工作的新穎之處在于它能夠使用一種有效的方法（即線性編程）來(lái)直接逼近值函數(shù)。

不幸的是，這需要做出幾個(gè)假設(shè)，其中一些假設(shè)是非常嚴(yán)格的。最強(qiáng)的假設(shè)之一是對(duì)象之間的關(guān)系屬性不會(huì)隨時(shí)間變化。對(duì)如此強(qiáng)大的假設(shè)的需求突顯了直接逼近價(jià)值函數(shù)的難度。盡管在評(píng)估該作品的Freecraft有限子域中看起來(lái)并不那么嚴(yán)重，但請(qǐng)注意，在國(guó)際競(jìng)賽的每個(gè)規(guī)劃基準(zhǔn)中，對(duì)象之間的關(guān)系都會(huì)隨著時(shí)間而變化。

給定此有限的設(shè)置，假定全局值函數(shù)可將每個(gè)對(duì)象的加性分解為局部值函數(shù)。在對(duì)象屬于類（可以自動(dòng)學(xué)習(xí)）的進(jìn)一步假設(shè)下，還允許局部值函數(shù)近似值在類之間變化。結(jié)果方法必須為每個(gè)對(duì)象類找到一個(gè)局部值函數(shù)。在這里，術(shù)語(yǔ)“本地”表示給定對(duì)象貢獻(xiàn)的值只能取決于該對(duì)象的屬性（以及可能與該對(duì)象直接相關(guān)的那些對(duì)象）的屬性；在所報(bào)告的工作中，局部值是局部對(duì)象屬性的線性組合。然后，找到一個(gè)好的價(jià)值函數(shù)就可以減少尋找要用于每一類對(duì)象的線性組合的權(quán)重。

給定該值函數(shù)近似值，可以將找到合適權(quán)重的問(wèn)題轉(zhuǎn)換為指數(shù)級(jí)大的線性程序，并使用約束采樣技術(shù)對(duì)其進(jìn)行近似解決。可以保證選擇權(quán)重接近最佳值的結(jié)果。如果近似值中隱含的關(guān)于值函數(shù)的假設(shè)成立（如果可能確實(shí)很大），則可以保證該方法非常接近真值函數(shù)。

到目前為止，我們描述的所有RRL方法都利用關(guān)系表示將其價(jià)值功能或策略推廣到共享屬性和對(duì)象的相似域。在每種情況下，其知識(shí)表示中固有的歸納偏差決定了歸納的有效性。這一點(diǎn)最重要的是，戲劇化地表明，知識(shí)表示實(shí)際上是RRL中的關(guān)鍵問(wèn)題，因?yàn)樗鼪Q定了要進(jìn)行的泛化。

Research Issues in RRL

對(duì)RRL的研究提供了許多希望，但也帶來(lái)了許多新的問(wèn)題和挑戰(zhàn)。以下是一些顯而易見(jiàn)的緊迫問(wèn)題。

Theory of RRL: 與命題RL文獻(xiàn)不同，RRL理論還不那么成熟，只是在發(fā)展中（Boutilier等，2001； Kersting等，2004）。雖然有限MDP的基本結(jié)果會(huì)延續(xù)到具有有限對(duì)象的關(guān)系域，但這些結(jié)果并沒(méi)有那么有用，因?yàn)樗鼈円蕾囉诿}化并且遭受與命題RL相同的不可泛化性的問(wèn)題。因此，有效函數(shù)逼近所基于的理論和實(shí)踐問(wèn)題對(duì)于RRL而言更為關(guān)鍵。

Hierarchical RRL: 層次結(jié)構(gòu)對(duì)于降低決策的復(fù)雜性以及允許跨不同任務(wù)的轉(zhuǎn)移非常重要。分層RL是命題環(huán)境中的活躍研究主題。關(guān)系設(shè)置允許更豐富的層次結(jié)構(gòu)，其中包括“子任務(wù)”以及任務(wù)之間的“比特定對(duì)象更多”的關(guān)系。這些更豐富的層次結(jié)構(gòu)如何幫助學(xué)習(xí)？如何自動(dòng)學(xué)習(xí)這些層次結(jié)構(gòu)？

Model Learning: 強(qiáng)化學(xué)習(xí)中的問(wèn)題之一是如何表示和學(xué)習(xí)動(dòng)作模型。除了瑣碎的領(lǐng)域之外，不可能在所有領(lǐng)域都明確地列出狀態(tài)。分解模型（例如Dynamic Bayes Networks）可以簡(jiǎn)潔地表示動(dòng)作。關(guān)系設(shè)置需要甚至更豐富的表示，例如，概率關(guān)系模型（PRM）或概率STRIPS樣式的運(yùn)算符。我們?nèi)绾螌W(xué)習(xí)這些更豐富的行動(dòng)模型？我們?nèi)绾卧诓呗缘耐评砗蛯W(xué)習(xí)中使用它們？（Pasula et al，2004）報(bào)道了有關(guān)該主題的早期工作。

Policy Learning: 強(qiáng)化學(xué)習(xí)的核心辯論之一是策略學(xué)習(xí)還是價(jià)值功能學(xué)習(xí)更適合特定領(lǐng)域。當(dāng)前的工作表明，在某些關(guān)系領(lǐng)域中，包括在塊世界中，可以通過(guò)策略學(xué)習(xí)獲得更好的泛化。在什么情況下是這種情況？有可能改善價(jià)值函數(shù)方法，使其與策略學(xué)習(xí)競(jìng)爭(zhēng)嗎？或者將價(jià)值功能學(xué)習(xí)整合到可學(xué)習(xí)的策略語(yǔ)言中，然后在定義策略時(shí)可以參考價(jià)值，是否更合適？這里的一個(gè)相關(guān)問(wèn)題是確定可以支持學(xué)習(xí)并在廣泛領(lǐng)域中代表有用策略的更好/理想的通用策略語(yǔ)言。

Satisficing: 命題強(qiáng)化學(xué)習(xí)與學(xué)習(xí)最佳策略有關(guān)。不幸的是，在許多關(guān)系域中，最優(yōu)策略是NP難或更差的，而存在有用的多項(xiàng)式時(shí)間次優(yōu)策略。如何在策略的最優(yōu)性和效率之間做出權(quán)衡？以上報(bào)告的工作依賴歸納偏見(jiàn)以一種不太了解的方式進(jìn)行此折衷。

Prior Knowledge: 人類似乎在處理大型領(lǐng)域時(shí)會(huì)利用（開(kāi)發(fā)）領(lǐng)域知識(shí)。缺乏處理先驗(yàn)知識(shí)的手段可能是限制RL系統(tǒng)縮放的關(guān)鍵問(wèn)題。 RL系統(tǒng)易于發(fā)現(xiàn)/傳達(dá)和有效利用哪些先驗(yàn)知識(shí)？關(guān)系表示法可以使此操作更容易并且以什么成本進(jìn)行？學(xué)習(xí)和推理如何有效地互補(bǔ)？

Reasoning after Solution: 迄今為止，最成功的RRL方法使用歸納方法來(lái)限制其保證解決方案質(zhì)量的能力。找到解決方案后，能否以任何易于處理的方式部署推理以驗(yàn)證解決方案的質(zhì)量和/或確定需要進(jìn)一步計(jì)劃的問(wèn)題區(qū)域？

A Summary of the Rest of the Proceedings

論文的其余部分描述了針對(duì)上述各種問(wèn)題的正在進(jìn)行的研究工作。

Ramon和Driessens探索將示例選擇技術(shù)添加到Driessens的基于內(nèi)核的回歸算法中，以改善內(nèi)存和計(jì)算要求，但更重要的是，增加計(jì)算的數(shù)值穩(wěn)定性。 Walker，Shavlik和Matwin描述了一種構(gòu)建有用特征的方法，該方法通過(guò)隨機(jī)采樣大量相關(guān)特征并將其用于正則化內(nèi)核回歸中以預(yù)測(cè)手工編碼策略的價(jià)值函數(shù)。他們?cè)赗oboCup域的Keep-Away子任務(wù)中獲得了可喜的結(jié)果。

Fern，Yoon和Givan的摘要總結(jié)了他們?cè)诮撇呗缘矫娴墓ぷ骷捌湓诖笮拖嚓P(guān)結(jié)構(gòu)化決策理論計(jì)劃問(wèn)題中的應(yīng)用。 Itoh和Nakamura描述了一種方法，該方法用于學(xué)習(xí)是否在部分可觀察的域中以有限的內(nèi)存在手動(dòng)編碼的關(guān)系策略中使用每個(gè)規(guī)則。他們?cè)诿詫m般的領(lǐng)域中測(cè)試他們的算法，其中規(guī)劃有時(shí)是有用的，而問(wèn)題是要學(xué)習(xí)何時(shí)有用。 Strens的論文描述了一種在部分可觀察的，二維，多agent追趕者逃避域中搜索參數(shù)化策略空間的方法。他表明，在追求者數(shù)量超過(guò)2個(gè)時(shí)，使用關(guān)系策略的性能要優(yōu)于相同策略或聯(lián)合策略。Croonenborghs，Ramon和Bruynooghe認(rèn)為建立“影響模型”以從狀態(tài)特征開(kāi)始預(yù)測(cè)回報(bào)的方法。這些建立在貝葉斯邏輯程序框架中的模型與Q值結(jié)合使用，可以基于多步預(yù)見(jiàn)選擇動(dòng)作。

Gretton和Thiebaux描述了一種有趣的方法，該方法將符號(hào)動(dòng)態(tài)編程與歸納回歸方法相結(jié)合，以在同時(shí)避開(kāi)SDP的復(fù)雜推理問(wèn)題的同時(shí)獲得兩者的好處。 Nason和Laird展示了如何通過(guò)添加獎(jiǎng)勵(lì)和數(shù)字偏好將強(qiáng)化學(xué)習(xí)整合到SOAR體系結(jié)構(gòu)中。他們討論了SOAR架構(gòu)假設(shè)對(duì)其在關(guān)系域中有效學(xué)習(xí)的能力的影響。 Langley，Arai和Shapiro描述了一種稱為ICARUS的認(rèn)知架構(gòu)，該架構(gòu)結(jié)合了分層技能和反應(yīng)性執(zhí)行，并在有或沒(méi)有顯式動(dòng)作模型的情況下進(jìn)行對(duì)比學(xué)習(xí)。 Roncagliolo和Tadepalli描述了一種采用價(jià)值函數(shù)逼近的關(guān)系強(qiáng)化學(xué)習(xí)的分層方法。

莫拉萊斯提出了一種使用抽象形式的Q學(xué)習(xí)在抽象狀態(tài)空間中學(xué)習(xí)的方法。他還描述了一種從人類專家的痕跡中誘發(fā)相關(guān)行為的方法。威爾遜（Wilson）的摘要指出了對(duì)表達(dá)策略語(yǔ)言的需求，并傾向于采用簡(jiǎn)單的策略。最后，van Otterlo和Kersting指出了關(guān)系強(qiáng)化學(xué)習(xí)的許多挑戰(zhàn)。這些包括發(fā)展融合理論，了解基于策略的方法與基于價(jià)值函數(shù)的方法的相對(duì)優(yōu)點(diǎn)，跨多個(gè)領(lǐng)域的概括以及利用先驗(yàn)知識(shí)。

Conclusions

我們希望我們已經(jīng)說(shuō)服了讀者，關(guān)系強(qiáng)化學(xué)習(xí)提供了各種挑戰(zhàn)和機(jī)遇。我們激勵(lì)了RRL，并概述了許多研究問(wèn)題和一些有希望的方向。隨著人們對(duì)AI中的關(guān)系表示形式的興趣日益濃厚，并且對(duì)強(qiáng)化學(xué)習(xí)的問(wèn)題和前景有了更深入的了解，似乎現(xiàn)在該是一個(gè)成熟的時(shí)機(jī)來(lái)研究包括表達(dá)表示，推理和動(dòng)作執(zhí)行在內(nèi)的綜合框架以嘗試解決實(shí)際感興趣的問(wèn)題。我們邀請(qǐng)讀者成為這次冒險(xiǎn)的完整參與者。

參考資源

[1] Tadepalli, Prasad, Robert Givan, and Kurt Driessens. “Relational reinforcement learning: An overview.” Proceedings of the ICML-2004 workshop on relational reinforcement learning. 2004. [paper]

總結(jié)

以上是生活随笔為你收集整理的Relational Reinforcement Learning: An Overview的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：【Windows】文件批量重命名及后缀批
下一篇：计算机函数汇总,计算机二级EXCEL必考