Relational Reinforcement Learning: An Overview
Abstract
關(guān)系強化學(xué)習(xí)(RRL)既是一個年輕的領(lǐng)域,又是一個古老的領(lǐng)域。 在本文中,我們追溯了該領(lǐng)域的歷史和相關(guān)學(xué)科,概述了一些當前的工作和有希望的新方向,并調(diào)查了未來的研究問題和機會。
Introduction
長期以來,將學(xué)習(xí)與解決問題相結(jié)合一直是人工智能的夢想。 盡管這似乎與分而治之的原則背道而馳,但仍有許多充分的理由采用這種綜合方法。 解決問題通常在計算上很困難,并且如果不學(xué)習(xí),agent將無法利用自身的經(jīng)驗來提高將來解決問題的效率。 另一方面,孤立學(xué)習(xí)取決于外部專業(yè)知識來決定哪些值得學(xué)習(xí)并提供訓(xùn)練數(shù)據(jù)。 這樣的專業(yè)知識并非總是可用,并且在可用時通常很昂貴。 因此,諸如LEX(Mitchell等,1983),SOAR(Laird等,1986)和Prodigy(Minton等,1989)之類的系統(tǒng)開創(chuàng)了將問題解決與學(xué)習(xí)相結(jié)合的方法,盡管他們具有完整的知識和正確的領(lǐng)域模型,并在一個完全可觀察和確定性的世界中。
基于馬爾可夫決策過程理論的強化學(xué)習(xí)(RL)放寬了其中的一些假設(shè),包括確定性和對領(lǐng)域模型的全面了解(Kaelbling等,1996; Bertsekas&Tsitsiklis,1997; Sutton&Barto,1998)。 agent沒有被提供完整和正確的領(lǐng)域理論,而是處于一種環(huán)境中,可以通過采取行動并接受積極或消極的強化,與agent進行交互以收集領(lǐng)域知識。 agent的主要目標是學(xué)習(xí)一種基于其當前狀態(tài)選擇其行為的方法,即學(xué)習(xí)一種將狀態(tài)映射到行為的策略,從而優(yōu)化性能指標,例如每個時間步長收到的預(yù)期平均獎勵。
強化學(xué)習(xí)為構(gòu)建智能agent提供了一個通用框架和一系列方法,這些智能agent可以在最少的監(jiān)督下優(yōu)化其在隨機環(huán)境中的行為。 但是,不幸的是,目前RL中的大多數(shù)工作都是基于命題表示法,這使其很難將其應(yīng)用于復(fù)雜的現(xiàn)實世界任務(wù),例如從Web檢索信息,自然語言處理或在諸如現(xiàn)實世界這樣豐富的領(lǐng)域中進行規(guī)劃,如烹飪。 命題RL在此類領(lǐng)域中的成功應(yīng)用通常只有通過對命題特征進行專業(yè)的人工構(gòu)造才能實現(xiàn)。 這些領(lǐng)域中的狀態(tài)和動作更自然地以關(guān)系形式表示,并且人們似乎經(jīng)常在學(xué)習(xí)和泛化中利用豐富的關(guān)系結(jié)構(gòu)。 問題自然而然地出現(xiàn)了:這是怎么做的?
在本概述文章中,我們激勵RRL嘗試回答這個問題,將其置于歷史背景下,概述一些有前途的方法和新方向,并討論該領(lǐng)域中的一些開放研究問題。
Motivation
考慮一個典型的網(wǎng)絡(luò)問題解答任務(wù)(Berners-Lee等,2001; Fensel等,2002),該任務(wù)可能涉及訪問和集成來自網(wǎng)絡(luò)的半結(jié)構(gòu)化信息以回答一個復(fù)雜的查詢,例如“查找西海岸的一所研究生院,這里有經(jīng)濟適用房,多個教職員工,并且資助了人工智能方面的研究。”即使以正式的查詢語言提出查詢,要回答該問題,也需要一些技能,例如查詢計劃,優(yōu)化,信息提取以及以關(guān)系語言進行信息集成。或考慮學(xué)習(xí)烹飪一頓飯涉及什么。雖然當然不是詳盡無遺的清單,但需要推理一下人們的口味和喜好,自己對食譜和技能的了解,配料的可用性,使用地點,使用它們的程序,器皿和炊具的容量以及所產(chǎn)生的影響不同成分的比例,烹飪溫度以及不同類型的烹飪過程對最終產(chǎn)品的口味和質(zhì)量的影響。
容易將這兩個問題都視為強化學(xué)習(xí)問題。 在這兩個任務(wù)中,我們可能會因花費的時間和其他費用而對系統(tǒng)進行懲罰,并為最終產(chǎn)品的質(zhì)量而給予獎勵。 然而,問題在于,網(wǎng)的結(jié)構(gòu)和烹飪?nèi)蝿?wù)中涉及的推理最自然地使用關(guān)系表示來表示。 這給RL在這些領(lǐng)域的成功提出了若干挑戰(zhàn)。
Function Approximation: 當應(yīng)用于關(guān)系域時,通常在RL(例如神經(jīng)網(wǎng)絡(luò)或回歸樹)中使用的值函數(shù)近似不能很好地泛化。 部分原因是因為這些表示不適合表示關(guān)系知識的任務(wù)。 當它們成功時,他們需要仔細選擇專門針對手頭特定任務(wù)手工設(shè)計的命題特征或基本功能。 設(shè)計在存在時利用關(guān)系結(jié)構(gòu)的函數(shù)逼近方案是一個嚴峻的挑戰(zhàn)。
Generalization Across Objects: RL方法不能明確表示對象及其之間的關(guān)系,因此從一個對象學(xué)習(xí)到相似的相關(guān)對象的能力從根本上受到限制。 這里的關(guān)鍵挑戰(zhàn)是識別被認為是“相似”的對象的類,在這些類上證明這種泛化是合理的,以及識別和表示適合傳遞的知識。
Transfer across Tasks: RL程序通常在單個任務(wù)上進行測試,并且不會表現(xiàn)出跨任務(wù)的知識轉(zhuǎn)移。 給定域中的每個任務(wù),例如信息檢索中的每個查詢,在按命題制定時可能看起來完全不同,因此可能需要單獨的訓(xùn)練才能收斂。 關(guān)系表示便于將相關(guān)任務(wù)的廣泛集合表述為單個域,從而在這些相關(guān)任務(wù)之間產(chǎn)生自然的泛化。
Run-time Planning and Reasoning: 在大多數(shù)強化學(xué)習(xí)工作中,運行時沒有刻意的規(guī)劃和推理。 默許地假定所有規(guī)劃都是離線進行的,或者系統(tǒng)完全依靠探索和學(xué)習(xí)來構(gòu)造好的規(guī)劃,從而將運行時執(zhí)行減少為被動行為。 但是,復(fù)雜的動態(tài)域既需要考慮又需要反應(yīng),正如成功的游戲程序所證明的那樣。 似乎值函數(shù)的近似性質(zhì)要求在運行時進行更精細的搜索以補償其誤差。 推理在構(gòu)建新功能以改進值函數(shù)近似中也可能很重要。
Prior Knowledge: RL不再強調(diào)先驗知識在學(xué)習(xí)和推理中的作用,因此依賴于嘗試和錯誤學(xué)習(xí),這是非常低效的,并且通常無法擴展到諸如上述的更復(fù)雜的任務(wù)。
關(guān)系強化學(xué)習(xí)(RRL)試圖通過將RL概括為關(guān)系表示的狀態(tài)和動作來解決所有上述問題。 實際上,強化學(xué)習(xí)和關(guān)系學(xué)習(xí)都有悠久的歷史。 強化學(xué)習(xí)的研究始于1959年塞繆爾(Samuel)在跳棋方面的開創(chuàng)性工作(Samuel,1990)。 關(guān)系學(xué)習(xí)的工作始于溫斯頓關(guān)于塊世界學(xué)習(xí)的工作(溫斯頓,1975年)。 近年來,以不同的名稱研究關(guān)系學(xué)習(xí),包括歸納邏輯規(guī)劃,關(guān)系數(shù)據(jù)挖掘和概率關(guān)系建模。 強化學(xué)習(xí)也以多種方式進行了研究,其中神經(jīng)動態(tài)規(guī)劃和決策理論規(guī)劃最為人所知。
也許不太明顯,并且正如引言中所提到的,強化學(xué)習(xí)也與加速學(xué)習(xí)以及SOAR和Prodigy等系統(tǒng)密切相關(guān)。確實,經(jīng)典的《機器學(xué)習(xí)閱讀》(Shavlik&Dietterich,1990)將塞繆爾的工作歸類于加速學(xué)習(xí)。這是有道理的,因為在加速學(xué)習(xí)中,學(xué)習(xí)任務(wù)被視為通過學(xué)習(xí)適當?shù)目刂浦R(即,學(xué)習(xí)在什么時候或某個策略時該做什么)來加速暴力問題解決者。盡管遵循經(jīng)典計劃范式的提速學(xué)習(xí)工作并未考慮動態(tài)域和隨機性,但從一開始就采用了關(guān)系表示。加速學(xué)習(xí)與強化學(xué)習(xí)之間的另一個區(qū)別是,在加速學(xué)習(xí)中,假定給出了領(lǐng)域理論,即動作模型和即時獎勵函數(shù),而在RL中,僅提供了仿真模型。
關(guān)系強化學(xué)習(xí)(RRL)將狀態(tài)和動作的關(guān)系表示形式的表現(xiàn)力以及強化學(xué)習(xí)的動態(tài)性和隨機性結(jié)合在一起,從而為學(xué)習(xí)創(chuàng)造了一個非常籠統(tǒng)且具有挑戰(zhàn)性的環(huán)境。
Reinforcement Learning
強化學(xué)習(xí)(RL)的基礎(chǔ)是一種agent,該agent可以使用傳感器感知周圍世界,并通過效應(yīng)器對周圍世界進行操作,從而與周圍環(huán)境進行交互。除了傳感器和效應(yīng)器外,agent還獲得了增強或獎勵。通常,環(huán)境可能是隨機的,動態(tài)的,并且只能部分觀察。對于不同的操作定義,agent的目標是以一種行為來優(yōu)化其預(yù)期的長期效用,例如,優(yōu)化每步的預(yù)期平均報酬或優(yōu)化每一步的幾何折扣的預(yù)期總報酬(Puterman, 1994)。
鑒于RL的這個宏偉目標,毫不奇怪的是,即使不是全部,大多數(shù)AI問題都可以在RL框??架中解決。的確,RL可以看作是AI完整問題的集合,或者其解決方案暗示著在該領(lǐng)域的廣泛目標上取得成功的問題之一。但是,當前的方法(接下來將簡要回顧)并沒有處理暗示的環(huán)境豐富性問題。 RRL是彌合這一差距的關(guān)鍵步驟,允許RL方法擴展到結(jié)構(gòu)豐富的域中。
強化學(xué)習(xí)文獻提供了解決RL問題的幾種方法。 “策略梯度”方法在某種語言的指導(dǎo)下,根據(jù)其性能度量相對于其參數(shù)的梯度估計來直接搜索參數(shù)化的策略空間。這些方法的優(yōu)點之一是它們在某些條件下也適用于部分可觀察的環(huán)境。
另一類方法更強烈地依賴于狀態(tài)的可觀察性,并通過學(xué)習(xí)狀態(tài)或狀態(tài)-動作對上的適當參數(shù)化的實值函數(shù)來間接地學(xué)習(xí)最佳策略。值函數(shù)的參數(shù)是局部更新的,將當前狀態(tài)的值移至下一個狀態(tài)的值加上任何即時獎勵。在實踐中難以滿足的強大假設(shè)下,這些局部更新可以顯示為使值函數(shù)收斂到從給定狀態(tài)(在給定操作下,如果有的話)可以實現(xiàn)的真實期望效用,我們稱之為最佳值。如果已知最佳值函數(shù),則agent可以通過對它貪婪地行動,在每個狀態(tài)下選擇使結(jié)果狀態(tài)的期望值最大化的動作來最佳地執(zhí)行。通過剛剛描述的局部更新的某種變體來學(xué)習(xí)(近似或啟發(fā)式)正確值函數(shù)的方法的集合,統(tǒng)稱為值迭代方法。當要更新的值函數(shù)將值分配給狀態(tài)-動作對時,它稱為Q函數(shù),該方法也稱為Q學(xué)習(xí)方法。在這兩種情況下,在每個狀態(tài)下局部更新值函數(shù)估計的過程都稱為值函數(shù)回歸,因為可以將其視為通過環(huán)境的動作動力學(xué)一步一步使值函數(shù)估計回歸。
尋找最佳策略的一種相關(guān)方法是策略迭代,它基于一個簡單的定理:相對于次優(yōu)值函數(shù)V貪婪地行動,將獲得至少與該值函數(shù)指示的值一樣多的值,并且至少有一個值獲得更多的值。換句話說,只要V低估了最優(yōu)值,相對于V的貪婪策略所獲得的價值就大于V。策略迭代以任意的V開始,并針對V的貪婪策略計算改進值函數(shù)V’。然后可以將V’作為V重復(fù)此過程,直到找到最佳V。實際上,收斂只需要進行幾次迭代,但是在大狀態(tài)空間中,從多項式中找出V的改進V’的過程雖然是多項式的,但卻很昂貴。為了解決這個問題,在大的狀態(tài)空間中,可以通過對在多個給定的樣本軌跡上從s獲得的效用取平均值,根據(jù)V貪婪地進行操作,在任意給定的狀態(tài)s下對V’進行采樣。這個過程被稱為政策推出(Bertsekas&Tsitsiklis,1997)。給定足夠的V’這樣的樣本,機器學(xué)習(xí)技術(shù)可以學(xué)習(xí)V’的近似值,即狀態(tài)空間特征的線性組合,從而提供了一種便宜的方式來在大狀態(tài)空間中近似地進行策略迭代。
Relational Reinforcement Learning: State of the Art
在本節(jié)中,我們概述了一些有關(guān)關(guān)系強化學(xué)習(xí)的有前途的當前方法。
Relational Regression and Q-learning
通過使用關(guān)系回歸,RRL系統(tǒng)(D-zeroski等人,2001)允許將幾乎標準的Q學(xué)習(xí)應(yīng)用于在以關(guān)系性質(zhì)為特征的環(huán)境中強化學(xué)習(xí)問題。
通過將狀態(tài)和動作的關(guān)系表示與關(guān)系回歸結(jié)合使用以進行Q函數(shù)泛化,可以使用結(jié)構(gòu)信息,例如在Q值的描述中存在具有正確屬性的對象或?qū)ο笾g的關(guān)系。結(jié)果導(dǎo)致對派生策略的描述。當遇到更復(fù)雜或更簡單的任務(wù)時,這可以在較小但相關(guān)的問題上重用經(jīng)驗。
已經(jīng)開發(fā)了三種用于該RRL系統(tǒng)的回歸算法:TG算法(用于逐步構(gòu)建一階回歸樹),基于實例的算法(稱為RIB)和基于內(nèi)核的算法KBR(使用高斯過程作為回歸技術(shù))。
TG算法(Driessens等,2001)是構(gòu)建一階分類和回歸樹的Tilde算法(Blockeel和De Raedt,1998)與G算法(Chapman和Kaelbling,1991)的結(jié)合。有關(guān)樹的每個葉子中每個可能擴展的性能的大量統(tǒng)計值,以逐步構(gòu)建樹。 TG算法使用的關(guān)系回歸樹使用一階文字的結(jié)合作為內(nèi)部葉子中的測試。對應(yīng)于特定葉子的測試是出現(xiàn)在從樹的根到葉子的路徑上的測試的結(jié)合,在其中對所有出現(xiàn)的變量進行存在量化。 TG算法采用了源自Tilde系統(tǒng)的用戶定義的精細運算符,以生成可用于替換葉子的可能的一階測試。 TG算法算法存儲在樹的每片葉子中的統(tǒng)計信息包括通過每種可能的測試進行正或負分類的示例數(shù),以及每種情況下Q值和Q值平方的總和。這允許使用F檢驗來決定選擇哪個檢驗。目前,TG尚未進行任何樹重組。該算法做出的所有決定都是最終決定。
基于實例的算法RIB(Driessens和Ramon,2003年)使用k最近鄰預(yù)測作為回歸技術(shù),即,它計算存儲在內(nèi)存中的示例的Q值的加權(quán)平均值,其中權(quán)重成反比到示例之間的距離。所使用的距離必須能夠處理狀態(tài)和動作的關(guān)系表示,并且可以是通用的一階距離(Sebag,1997; Ramon和Bruynooghe,2001),也可以是特定于應(yīng)用的距離,通常可以是計算效率更高。由于Q學(xué)習(xí)生成連續(xù)的學(xué)習(xí)示例流,因此開發(fā)了許多示例選擇方法以減少內(nèi)存和計算需求。這些選擇標準基于IB2和IB3中使用的選擇標準(Aha等,1991),并研究各個示例對整體預(yù)測誤差的影響。
第三種算法稱為KBR(G·artner等,2003a),并使用高斯過程作為回歸技術(shù)。高斯過程(MacKay,1997)要求在示例描述之間定義正定協(xié)方差函數(shù)。由于在RRL系統(tǒng)中使用了關(guān)系表示,因此必須使用結(jié)構(gòu)化數(shù)據(jù)的內(nèi)核來完成此任務(wù)。這里可能的候選對象是卷積核(Haussler,1999)或在圖上定義的核(Gartner等,2003b)。由于高斯過程是貝葉斯技術(shù),因此KBR算法不僅提供了一個新的未知示例的Q值的基本預(yù)測,而且還提供了更多的信息。它還可以指示此估計的預(yù)期精度,例如,可以通過Q學(xué)習(xí)算法將其用于指導(dǎo)探索。
降低Q學(xué)習(xí)與關(guān)系函數(shù)抽象的適用性的主要問題之一是Q值本身的性質(zhì),即它們隱式編碼到下一個獎勵的距離和大小。 在隨機和高度混亂的任務(wù)中很難預(yù)測這些。 在這種情況下,優(yōu)勢學(xué)習(xí)或策略迭代等其他方法似乎更合適。
Approximate Policy Iteration for RRL
如上所述,可以將近似策略迭代視為從值函數(shù)V移至更好的值函數(shù)V’,或者從相應(yīng)的貪婪策略π\(zhòng)piπ移至更好的貪婪策略π′\pi 'π′,然后進行迭代。此處,π\(zhòng)piπ關(guān)于V貪婪地行動,π′\pi 'π′關(guān)于V’貪婪地行動。
直到最近,幾乎所有近似策略迭代的用法都直接表示值函數(shù),但僅隱式表示相應(yīng)的策略(作為對直接表示的值函數(shù)的貪婪行為)。考慮到廣泛的專家-人的特征工程,這種方法對于命題域可以很好地工作(例如,在TD-gammon中(Tesauro,1995)),但是對于高度結(jié)構(gòu)化的關(guān)系域卻沒有成功。由于上述原因,很難為這些高度結(jié)構(gòu)化的域找到良好的近似值函數(shù)表示。
一種替代方法是直接表示所涉及的策略,而僅隱式表示值函數(shù)。給定策略π\(zhòng)piπ的顯式表示形式,隱式表示的值函數(shù)是通過從每個狀態(tài)重復(fù)執(zhí)行π\(zhòng)piπ所獲得的值。如上所述,通過在π\(zhòng)piπ下繪制合適的軌跡(從每個可能的替代動作開始),仍然可以使用策略推出來生成π′\pi 'π′的樣本(給定π\(zhòng)piπ)。注意,在這種方法中,使用監(jiān)督分類學(xué)習(xí)器來學(xué)習(xí)π′\pi 'π′,而不是之前使用回歸學(xué)習(xí)器來近似V’。
這種替代方法的優(yōu)點是,與表示和學(xué)習(xí)準確的價值函數(shù)相比,通常更容易表示和學(xué)習(xí)適用于結(jié)構(gòu)化域的策略。可以使用通用策略語言,這些語言利用數(shù)十年來的知識表示工作來對許多有用的策略進行緊湊,易學(xué)的描述(Martin&Geffner,2000; Khardon,1999; Yoon等,2002)。大量的實證研究表明(Fern等人,2003; Fern等人,2004),對于前三屆國際會議中使用的基準規(guī)劃問題衍生出的各種困難的,結(jié)構(gòu)化的領(lǐng)域,幾乎不需要人工就可以學(xué)習(xí)策略。規(guī)劃比賽。使用這種近似策略迭代形式的學(xué)習(xí)系統(tǒng)可以學(xué)習(xí)與這些領(lǐng)域中最新的確定性計劃者競爭的策略。但是,與確定性計劃器不同,這些系統(tǒng)對于引入不確定性具有魯棒性,并且可以證明在相同問題的隨機變體中表現(xiàn)良好。另外,學(xué)習(xí)系統(tǒng)一次學(xué)習(xí)整個計劃領(lǐng)域的策略,然后可以通過簡單地執(zhí)行所學(xué)習(xí)的策略來解決該領(lǐng)域中的任何實例。相反,確定性計劃人員對每個問題實例使用新搜索,而在實例之間不傳遞任何知識。
關(guān)于RRL的近似策略迭代方法,還有許多未解決的研究問題。 首先,迄今為止探索的策略語言是相當有限的。 是否可以找到一種良好的,可學(xué)習(xí)的,通用的策略語言來避免遇到新領(lǐng)域時需要人工重新設(shè)計該語言,還有待確定。 特別是,僅開始探索結(jié)合內(nèi)存而不是簡單地對當前狀態(tài)做出反應(yīng)的策略語言。 而且,當前的策略語言缺乏將關(guān)于問題域的背景知識并入策略語言或策略學(xué)習(xí)者的一般能力。 最后,盡管有自然的方法,但這些技術(shù)尚未擴展到部分可觀察的環(huán)境或多agent環(huán)境中。
Symbolic Dynamic Programming
RRL的誘人方法是利用狀態(tài)轉(zhuǎn)換模型的符號表示形式來做“貝爾曼備份”的符號版本。這種方法的根源可以追溯到基于解釋的學(xué)習(xí)(EBL),其中,在成功解決問題的環(huán)節(jié)之后,將建立一個證明其成功背后原因的證據(jù)。然后,對證明進行一般化,以構(gòu)造可以用相同方法求解的狀態(tài)的描述(Mitchell等,1986; DeJong&Mooney,1986)。在狀態(tài)空間問題和MDP中,證明對應(yīng)于顯示動作序列可以實現(xiàn)目標,而EBL對應(yīng)于在操作符序列上進行目標回歸。實際上,EBL是諸如Prodigy和SOAR(Minton等,1989; Laird等,1986)之類的系統(tǒng)中使用的泛化算法的核心,以從解決問題的特定示例中學(xué)習(xí)一般控制規(guī)則。 Dietterich和Flann通過將這些廣義狀態(tài)描述與從Bellman備份獲得的值相關(guān)聯(lián),將該思想與強化學(xué)習(xí)相結(jié)合(Dietterich&Flann,1997)。因此,人們可以學(xué)習(xí)對導(dǎo)致最多1步,2步,3步等獲勝的狀態(tài)的描述,并使用它們來選擇任何狀態(tài)下的最佳步法。
Boutilier將所得的基于解釋的強化學(xué)習(xí)(EBRL)推廣到了隨機域,其獎勵模型由結(jié)構(gòu)化的貝葉斯網(wǎng)絡(luò)描述,因此使它們易于進行符號推理(Boutilier等人,2001)。這兩種方法的優(yōu)點是,不是從動機不明確的句法偏見中歸納概括一組示例,而是從符號域理論開始,證明該歸納是正確的。領(lǐng)域理論易于以緊湊的符號表示形式提供,這是決策理論規(guī)劃中的標準假設(shè)。如果這不是真的,那么首先學(xué)習(xí)對領(lǐng)域理論的簡要描述(Pasula等人,2004),并將其用于目標回歸中可能比直接學(xué)習(xí)價值函數(shù)要難得多。這是因為,即使值函數(shù)不起作用,領(lǐng)域模型也往往會采用緊湊的表示形式。例如,考慮象棋規(guī)則或PDDL中各種計劃域的描述。領(lǐng)域模型是緊湊的假設(shè)類似于歸納方法中要學(xué)習(xí)的策略是緊湊的假設(shè)。例如,此假設(shè)奠定了RRL近似策略迭代中使用的語法偏差的基礎(chǔ)。
不幸的是,有時稱為這種方法的符號動態(tài)編程(SDP)并不是萬能藥。共享給定值的狀態(tài)的描述變得越來越復(fù)雜和分離,因為這些狀態(tài)離目標越來越遠。每個連接描述所覆蓋的狀態(tài)數(shù)量急劇減少,從而導(dǎo)致大量的低覆蓋規(guī)則。實際上,在早期的EBL系統(tǒng)中已經(jīng)觀察到這種情況,導(dǎo)致了所謂的“效用問題”(Minton,1988; Dietterich&Flann,1997)。在某個時候,有必要放棄對值函數(shù)的精確表示,并對其進行緊湊地逼近,否則人們將花費更多的時間來匹配所有規(guī)則,而不是在原始狀態(tài)空間中尋找解決方案。進行這種近似通常涉及歸納學(xué)習(xí),并導(dǎo)致這種方法本質(zhì)上類似于關(guān)系回歸。
可以通過狀態(tài)空間聚合將某些問題抽象為等效的較小問題。以這種方式形成的具有較小等效問題的問題通常會很好地產(chǎn)生SDP。這些問題也可以通過使用模型最小化找到相關(guān)的狀態(tài)空間集合來直接解決(Givan et al。,2003),然后使用任何適用的技術(shù)(例如值迭代)解決由此產(chǎn)生的較小問題。
Directly Approximating the Value Function
直到最近,才有任何工作涉及改善我們的價值函數(shù)表示的方法,從而使所得的近似值可以利用域的關(guān)系結(jié)構(gòu),而無需對狀態(tài)空間特征進行大量的人工設(shè)計(Guestrin等,2003)。這項工作的新穎之處在于它能夠使用一種有效的方法(即線性編程)來直接逼近值函數(shù)。
不幸的是,這需要做出幾個假設(shè),其中一些假設(shè)是非常嚴格的。最強的假設(shè)之一是對象之間的關(guān)系屬性不會隨時間變化。對如此強大的假設(shè)的需求突顯了直接逼近價值函數(shù)的難度。盡管在評估該作品的Freecraft有限子域中看起來并不那么嚴重,但請注意,在國際競賽的每個規(guī)劃基準中,對象之間的關(guān)系都會隨著時間而變化。
給定此有限的設(shè)置,假定全局值函數(shù)可將每個對象的加性分解為局部值函數(shù)。在對象屬于類(可以自動學(xué)習(xí))的進一步假設(shè)下,還允許局部值函數(shù)近似值在類之間變化。結(jié)果方法必須為每個對象類找到一個局部值函數(shù)。在這里,術(shù)語“本地”表示給定對象貢獻的值只能取決于該對象的屬性(以及可能與該對象直接相關(guān)的那些對象)的屬性;在所報告的工作中,局部值是局部對象屬性的線性組合。然后,找到一個好的價值函數(shù)就可以減少尋找要用于每一類對象的線性組合的權(quán)重。
給定該值函數(shù)近似值,可以將找到合適權(quán)重的問題轉(zhuǎn)換為指數(shù)級大的線性程序,并使用約束采樣技術(shù)對其進行近似解決。 可以保證選擇權(quán)重接近最佳值的結(jié)果。 如果近似值中隱含的關(guān)于值函數(shù)的假設(shè)成立(如果可能確實很大),則可以保證該方法非常接近真值函數(shù)。
到目前為止,我們描述的所有RRL方法都利用關(guān)系表示將其價值功能或策略推廣到共享屬性和對象的相似域。 在每種情況下,其知識表示中固有的歸納偏差決定了歸納的有效性。 這一點最重要的是,戲劇化地表明,知識表示實際上是RRL中的關(guān)鍵問題,因為它決定了要進行的泛化。
Research Issues in RRL
對RRL的研究提供了許多希望,但也帶來了許多新的問題和挑戰(zhàn)。 以下是一些顯而易見的緊迫問題。
Theory of RRL: 與命題RL文獻不同,RRL理論還不那么成熟,只是在發(fā)展中(Boutilier等,2001; Kersting等,2004)。 雖然有限MDP的基本結(jié)果會延續(xù)到具有有限對象的關(guān)系域,但這些結(jié)果并沒有那么有用,因為它們依賴于命題化并且遭受與命題RL相同的不可泛化性的問題。 因此,有效函數(shù)逼近所基于的理論和實踐問題對于RRL而言更為關(guān)鍵。
Hierarchical RRL: 層次結(jié)構(gòu)對于降低決策的復(fù)雜性以及允許跨不同任務(wù)的轉(zhuǎn)移非常重要。 分層RL是命題環(huán)境中的活躍研究主題。 關(guān)系設(shè)置允許更豐富的層次結(jié)構(gòu),其中包括“子任務(wù)”以及任務(wù)之間的“比特定對象更多”的關(guān)系。 這些更豐富的層次結(jié)構(gòu)如何幫助學(xué)習(xí)? 如何自動學(xué)習(xí)這些層次結(jié)構(gòu)?
Model Learning: 強化學(xué)習(xí)中的問題之一是如何表示和學(xué)習(xí)動作模型。除了瑣碎的領(lǐng)域之外,不可能在所有領(lǐng)域都明確地列出狀態(tài)。分解模型(例如Dynamic Bayes Networks)可以簡潔地表示動作。關(guān)系設(shè)置需要甚至更豐富的表示,例如,概率關(guān)系模型(PRM)或概率STRIPS樣式的運算符。我們?nèi)绾螌W(xué)習(xí)這些更豐富的行動模型?我們?nèi)绾卧诓呗缘耐评砗蛯W(xué)習(xí)中使用它們? (Pasula et al,2004)報道了有關(guān)該主題的早期工作。
Policy Learning: 強化學(xué)習(xí)的核心辯論之一是策略學(xué)習(xí)還是價值功能學(xué)習(xí)更適合特定領(lǐng)域。當前的工作表明,在某些關(guān)系領(lǐng)域中,包括在塊世界中,可以通過策略學(xué)習(xí)獲得更好的泛化。在什么情況下是這種情況?有可能改善價值函數(shù)方法,使其與策略學(xué)習(xí)競爭嗎?或者將價值功能學(xué)習(xí)整合到可學(xué)習(xí)的策略語言中,然后在定義策略時可以參考價值,是否更合適?這里的一個相關(guān)問題是確定可以支持學(xué)習(xí)并在廣泛領(lǐng)域中代表有用策略的更好/理想的通用策略語言。
Satisficing: 命題強化學(xué)習(xí)與學(xué)習(xí)最佳策略有關(guān)。不幸的是,在許多關(guān)系域中,最優(yōu)策略是NP難或更差的,而存在有用的多項式時間次優(yōu)策略。如何在策略的最優(yōu)性和效率之間做出權(quán)衡?以上報告的工作依賴歸納偏見以一種不太了解的方式進行此折衷。
Prior Knowledge: 人類似乎在處理大型領(lǐng)域時會利用(開發(fā))領(lǐng)域知識。 缺乏處理先驗知識的手段可能是限制RL系統(tǒng)縮放的關(guān)鍵問題。 RL系統(tǒng)易于發(fā)現(xiàn)/傳達和有效利用哪些先驗知識? 關(guān)系表示法可以使此操作更容易并且以什么成本進行? 學(xué)習(xí)和推理如何有效地互補?
Reasoning after Solution: 迄今為止,最成功的RRL方法使用歸納方法來限制其保證解決方案質(zhì)量的能力。 找到解決方案后,能否以任何易于處理的方式部署推理以驗證解決方案的質(zhì)量和/或確定需要進一步計劃的問題區(qū)域?
A Summary of the Rest of the Proceedings
論文的其余部分描述了針對上述各種問題的正在進行的研究工作。
Ramon和Driessens探索將示例選擇技術(shù)添加到Driessens的基于內(nèi)核的回歸算法中,以改善內(nèi)存和計算要求,但更重要的是,增加計算的數(shù)值穩(wěn)定性。 Walker,Shavlik和Matwin描述了一種構(gòu)建有用特征的方法,該方法通過隨機采樣大量相關(guān)特征并將其用于正則化內(nèi)核回歸中以預(yù)測手工編碼策略的價值函數(shù)。他們在RoboCup域的Keep-Away子任務(wù)中獲得了可喜的結(jié)果。
Fern,Yoon和Givan的摘要總結(jié)了他們在近似策略迭代方面的工作及其在大型相關(guān)結(jié)構(gòu)化決策理論計劃問題中的應(yīng)用。 Itoh和Nakamura描述了一種方法,該方法用于學(xué)習(xí)是否在部分可觀察的域中以有限的內(nèi)存在手動編碼的關(guān)系策略中使用每個規(guī)則。他們在迷宮般的領(lǐng)域中測試他們的算法,其中規(guī)劃有時是有用的,而問題是要學(xué)習(xí)何時有用。 Strens的論文描述了一種在部分可觀察的,二維,多agent追趕者逃避域中搜索參數(shù)化策略空間的方法。他表明,在追求者數(shù)量超過2個時,使用關(guān)系策略的性能要優(yōu)于相同策略或聯(lián)合策略。Croonenborghs,Ramon和Bruynooghe認為建立“影響模型”以從狀態(tài)特征開始預(yù)測回報的方法。這些建立在貝葉斯邏輯程序框架中的模型與Q值結(jié)合使用,可以基于多步預(yù)見選擇動作。
Gretton和Thiebaux描述了一種有趣的方法,該方法將符號動態(tài)編程與歸納回歸方法相結(jié)合,以在同時避開SDP的復(fù)雜推理問題的同時獲得兩者的好處。 Nason和Laird展示了如何通過添加獎勵和數(shù)字偏好將強化學(xué)習(xí)整合到SOAR體系結(jié)構(gòu)中。他們討論了SOAR架構(gòu)假設(shè)對其在關(guān)系域中有效學(xué)習(xí)的能力的影響。 Langley,Arai和Shapiro描述了一種稱為ICARUS的認知架構(gòu),該架構(gòu)結(jié)合了分層技能和反應(yīng)性執(zhí)行,并在有或沒有顯式動作模型的情況下進行對比學(xué)習(xí)。 Roncagliolo和Tadepalli描述了一種采用價值函數(shù)逼近的關(guān)系強化學(xué)習(xí)的分層方法。
莫拉萊斯提出了一種使用抽象形式的Q學(xué)習(xí)在抽象狀態(tài)空間中學(xué)習(xí)的方法。他還描述了一種從人類專家的痕跡中誘發(fā)相關(guān)行為的方法。威爾遜(Wilson)的摘要指出了對表達策略語言的需求,并傾向于采用簡單的策略。最后,van Otterlo和Kersting指出了關(guān)系強化學(xué)習(xí)的許多挑戰(zhàn)。這些包括發(fā)展融合理論,了解基于策略的方法與基于價值函數(shù)的方法的相對優(yōu)點,跨多個領(lǐng)域的概括以及利用先驗知識。
Conclusions
我們希望我們已經(jīng)說服了讀者,關(guān)系強化學(xué)習(xí)提供了各種挑戰(zhàn)和機遇。 我們激勵了RRL,并概述了許多研究問題和一些有希望的方向。 隨著人們對AI中的關(guān)系表示形式的興趣日益濃厚,并且對強化學(xué)習(xí)的問題和前景有了更深入的了解,似乎現(xiàn)在該是一個成熟的時機來研究包括表達表示,推理和動作執(zhí)行在內(nèi)的綜合框架以嘗試解決實際感興趣的問題。 我們邀請讀者成為這次冒險的完整參與者。
參考資源
[1] Tadepalli, Prasad, Robert Givan, and Kurt Driessens. “Relational reinforcement learning: An overview.” Proceedings of the ICML-2004 workshop on relational reinforcement learning. 2004. [paper]
總結(jié)
以上是生活随笔為你收集整理的Relational Reinforcement Learning: An Overview的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【Windows】文件批量重命名及后缀批
- 下一篇: 计算机函数汇总,计算机二级EXCEL必考