日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

Relational Reinforcement Learning: An Overview

發(fā)布時(shí)間:2023/12/20 编程问答 41 豆豆
生活随笔 收集整理的這篇文章主要介紹了 Relational Reinforcement Learning: An Overview 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

Abstract

關(guān)系強(qiáng)化學(xué)習(xí)(RRL)既是一個(gè)年輕的領(lǐng)域,又是一個(gè)古老的領(lǐng)域。 在本文中,我們追溯了該領(lǐng)域的歷史和相關(guān)學(xué)科,概述了一些當(dāng)前的工作和有希望的新方向,并調(diào)查了未來(lái)的研究問(wèn)題和機(jī)會(huì)。

Introduction

長(zhǎng)期以來(lái),將學(xué)習(xí)與解決問(wèn)題相結(jié)合一直是人工智能的夢(mèng)想。 盡管這似乎與分而治之的原則背道而馳,但仍有許多充分的理由采用這種綜合方法。 解決問(wèn)題通常在計(jì)算上很困難,并且如果不學(xué)習(xí),agent將無(wú)法利用自身的經(jīng)驗(yàn)來(lái)提高將來(lái)解決問(wèn)題的效率。 另一方面,孤立學(xué)習(xí)取決于外部專業(yè)知識(shí)來(lái)決定哪些值得學(xué)習(xí)并提供訓(xùn)練數(shù)據(jù)。 這樣的專業(yè)知識(shí)并非總是可用,并且在可用時(shí)通常很昂貴。 因此,諸如LEX(Mitchell等,1983),SOAR(Laird等,1986)和Prodigy(Minton等,1989)之類的系統(tǒng)開(kāi)創(chuàng)了將問(wèn)題解決與學(xué)習(xí)相結(jié)合的方法,盡管他們具有完整的知識(shí)和正確的領(lǐng)域模型,并在一個(gè)完全可觀察和確定性的世界中。

基于馬爾可夫決策過(guò)程理論的強(qiáng)化學(xué)習(xí)(RL)放寬了其中的一些假設(shè),包括確定性和對(duì)領(lǐng)域模型的全面了解(Kaelbling等,1996; Bertsekas&Tsitsiklis,1997; Sutton&Barto,1998)。 agent沒(méi)有被提供完整和正確的領(lǐng)域理論,而是處于一種環(huán)境中,可以通過(guò)采取行動(dòng)并接受積極或消極的強(qiáng)化,與agent進(jìn)行交互以收集領(lǐng)域知識(shí)。 agent的主要目標(biāo)是學(xué)習(xí)一種基于其當(dāng)前狀態(tài)選擇其行為的方法,即學(xué)習(xí)一種將狀態(tài)映射到行為的策略,從而優(yōu)化性能指標(biāo),例如每個(gè)時(shí)間步長(zhǎng)收到的預(yù)期平均獎(jiǎng)勵(lì)。

強(qiáng)化學(xué)習(xí)為構(gòu)建智能agent提供了一個(gè)通用框架和一系列方法,這些智能agent可以在最少的監(jiān)督下優(yōu)化其在隨機(jī)環(huán)境中的行為。 但是,不幸的是,目前RL中的大多數(shù)工作都是基于命題表示法,這使其很難將其應(yīng)用于復(fù)雜的現(xiàn)實(shí)世界任務(wù),例如從Web檢索信息,自然語(yǔ)言處理或在諸如現(xiàn)實(shí)世界這樣豐富的領(lǐng)域中進(jìn)行規(guī)劃,如烹飪。 命題RL在此類領(lǐng)域中的成功應(yīng)用通常只有通過(guò)對(duì)命題特征進(jìn)行專業(yè)的人工構(gòu)造才能實(shí)現(xiàn)。 這些領(lǐng)域中的狀態(tài)和動(dòng)作更自然地以關(guān)系形式表示,并且人們似乎經(jīng)常在學(xué)習(xí)和泛化中利用豐富的關(guān)系結(jié)構(gòu)。 問(wèn)題自然而然地出現(xiàn)了:這是怎么做的?

在本概述文章中,我們激勵(lì)RRL嘗試回答這個(gè)問(wèn)題,將其置于歷史背景下,概述一些有前途的方法和新方向,并討論該領(lǐng)域中的一些開(kāi)放研究問(wèn)題。

Motivation

考慮一個(gè)典型的網(wǎng)絡(luò)問(wèn)題解答任務(wù)(Berners-Lee等,2001; Fensel等,2002),該任務(wù)可能涉及訪問(wèn)和集成來(lái)自網(wǎng)絡(luò)的半結(jié)構(gòu)化信息以回答一個(gè)復(fù)雜的查詢,例如“查找西海岸的一所研究生院,這里有經(jīng)濟(jì)適用房,多個(gè)教職員工,并且資助了人工智能方面的研究?!奔词挂哉降牟樵冋Z(yǔ)言提出查詢,要回答該問(wèn)題,也需要一些技能,例如查詢計(jì)劃,優(yōu)化,信息提取以及以關(guān)系語(yǔ)言進(jìn)行信息集成?;蚩紤]學(xué)習(xí)烹飪一頓飯涉及什么。雖然當(dāng)然不是詳盡無(wú)遺的清單,但需要推理一下人們的口味和喜好,自己對(duì)食譜和技能的了解,配料的可用性,使用地點(diǎn),使用它們的程序,器皿和炊具的容量以及所產(chǎn)生的影響不同成分的比例,烹飪溫度以及不同類型的烹飪過(guò)程對(duì)最終產(chǎn)品的口味和質(zhì)量的影響。

容易將這兩個(gè)問(wèn)題都視為強(qiáng)化學(xué)習(xí)問(wèn)題。 在這兩個(gè)任務(wù)中,我們可能會(huì)因花費(fèi)的時(shí)間和其他費(fèi)用而對(duì)系統(tǒng)進(jìn)行懲罰,并為最終產(chǎn)品的質(zhì)量而給予獎(jiǎng)勵(lì)。 然而,問(wèn)題在于,網(wǎng)的結(jié)構(gòu)和烹飪?nèi)蝿?wù)中涉及的推理最自然地使用關(guān)系表示來(lái)表示。 這給RL在這些領(lǐng)域的成功提出了若干挑戰(zhàn)。

Function Approximation: 當(dāng)應(yīng)用于關(guān)系域時(shí),通常在RL(例如神經(jīng)網(wǎng)絡(luò)或回歸樹(shù))中使用的值函數(shù)近似不能很好地泛化。 部分原因是因?yàn)檫@些表示不適合表示關(guān)系知識(shí)的任務(wù)。 當(dāng)它們成功時(shí),他們需要仔細(xì)選擇專門針對(duì)手頭特定任務(wù)手工設(shè)計(jì)的命題特征或基本功能。 設(shè)計(jì)在存在時(shí)利用關(guān)系結(jié)構(gòu)的函數(shù)逼近方案是一個(gè)嚴(yán)峻的挑戰(zhàn)。

Generalization Across Objects: RL方法不能明確表示對(duì)象及其之間的關(guān)系,因此從一個(gè)對(duì)象學(xué)習(xí)到相似的相關(guān)對(duì)象的能力從根本上受到限制。 這里的關(guān)鍵挑戰(zhàn)是識(shí)別被認(rèn)為是“相似”的對(duì)象的類,在這些類上證明這種泛化是合理的,以及識(shí)別和表示適合傳遞的知識(shí)。

Transfer across Tasks: RL程序通常在單個(gè)任務(wù)上進(jìn)行測(cè)試,并且不會(huì)表現(xiàn)出跨任務(wù)的知識(shí)轉(zhuǎn)移。 給定域中的每個(gè)任務(wù),例如信息檢索中的每個(gè)查詢,在按命題制定時(shí)可能看起來(lái)完全不同,因此可能需要單獨(dú)的訓(xùn)練才能收斂。 關(guān)系表示便于將相關(guān)任務(wù)的廣泛集合表述為單個(gè)域,從而在這些相關(guān)任務(wù)之間產(chǎn)生自然的泛化。

Run-time Planning and Reasoning: 在大多數(shù)強(qiáng)化學(xué)習(xí)工作中,運(yùn)行時(shí)沒(méi)有刻意的規(guī)劃和推理。 默許地假定所有規(guī)劃都是離線進(jìn)行的,或者系統(tǒng)完全依靠探索和學(xué)習(xí)來(lái)構(gòu)造好的規(guī)劃,從而將運(yùn)行時(shí)執(zhí)行減少為被動(dòng)行為。 但是,復(fù)雜的動(dòng)態(tài)域既需要考慮又需要反應(yīng),正如成功的游戲程序所證明的那樣。 似乎值函數(shù)的近似性質(zhì)要求在運(yùn)行時(shí)進(jìn)行更精細(xì)的搜索以補(bǔ)償其誤差。 推理在構(gòu)建新功能以改進(jìn)值函數(shù)近似中也可能很重要。

Prior Knowledge: RL不再?gòu)?qiáng)調(diào)先驗(yàn)知識(shí)在學(xué)習(xí)和推理中的作用,因此依賴于嘗試和錯(cuò)誤學(xué)習(xí),這是非常低效的,并且通常無(wú)法擴(kuò)展到諸如上述的更復(fù)雜的任務(wù)。

關(guān)系強(qiáng)化學(xué)習(xí)(RRL)試圖通過(guò)將RL概括為關(guān)系表示的狀態(tài)和動(dòng)作來(lái)解決所有上述問(wèn)題。 實(shí)際上,強(qiáng)化學(xué)習(xí)和關(guān)系學(xué)習(xí)都有悠久的歷史。 強(qiáng)化學(xué)習(xí)的研究始于1959年塞繆爾(Samuel)在跳棋方面的開(kāi)創(chuàng)性工作(Samuel,1990)。 關(guān)系學(xué)習(xí)的工作始于溫斯頓關(guān)于塊世界學(xué)習(xí)的工作(溫斯頓,1975年)。 近年來(lái),以不同的名稱研究關(guān)系學(xué)習(xí),包括歸納邏輯規(guī)劃,關(guān)系數(shù)據(jù)挖掘和概率關(guān)系建模。 強(qiáng)化學(xué)習(xí)也以多種方式進(jìn)行了研究,其中神經(jīng)動(dòng)態(tài)規(guī)劃和決策理論規(guī)劃最為人所知。

也許不太明顯,并且正如引言中所提到的,強(qiáng)化學(xué)習(xí)也與加速學(xué)習(xí)以及SOAR和Prodigy等系統(tǒng)密切相關(guān)。確實(shí),經(jīng)典的《機(jī)器學(xué)習(xí)閱讀》(Shavlik&Dietterich,1990)將塞繆爾的工作歸類于加速學(xué)習(xí)。這是有道理的,因?yàn)樵诩铀賹W(xué)習(xí)中,學(xué)習(xí)任務(wù)被視為通過(guò)學(xué)習(xí)適當(dāng)?shù)目刂浦R(shí)(即,學(xué)習(xí)在什么時(shí)候或某個(gè)策略時(shí)該做什么)來(lái)加速暴力問(wèn)題解決者。盡管遵循經(jīng)典計(jì)劃范式的提速學(xué)習(xí)工作并未考慮動(dòng)態(tài)域和隨機(jī)性,但從一開(kāi)始就采用了關(guān)系表示。加速學(xué)習(xí)與強(qiáng)化學(xué)習(xí)之間的另一個(gè)區(qū)別是,在加速學(xué)習(xí)中,假定給出了領(lǐng)域理論,即動(dòng)作模型和即時(shí)獎(jiǎng)勵(lì)函數(shù),而在RL中,僅提供了仿真模型。

關(guān)系強(qiáng)化學(xué)習(xí)(RRL)將狀態(tài)和動(dòng)作的關(guān)系表示形式的表現(xiàn)力以及強(qiáng)化學(xué)習(xí)的動(dòng)態(tài)性和隨機(jī)性結(jié)合在一起,從而為學(xué)習(xí)創(chuàng)造了一個(gè)非常籠統(tǒng)且具有挑戰(zhàn)性的環(huán)境。

Reinforcement Learning

強(qiáng)化學(xué)習(xí)(RL)的基礎(chǔ)是一種agent,該agent可以使用傳感器感知周圍世界,并通過(guò)效應(yīng)器對(duì)周圍世界進(jìn)行操作,從而與周圍環(huán)境進(jìn)行交互。除了傳感器和效應(yīng)器外,agent還獲得了增強(qiáng)或獎(jiǎng)勵(lì)。通常,環(huán)境可能是隨機(jī)的,動(dòng)態(tài)的,并且只能部分觀察。對(duì)于不同的操作定義,agent的目標(biāo)是以一種行為來(lái)優(yōu)化其預(yù)期的長(zhǎng)期效用,例如,優(yōu)化每步的預(yù)期平均報(bào)酬或優(yōu)化每一步的幾何折扣的預(yù)期總報(bào)酬(Puterman, 1994)。

鑒于RL的這個(gè)宏偉目標(biāo),毫不奇怪的是,即使不是全部,大多數(shù)AI問(wèn)題都可以在RL框??架中解決。的確,RL可以看作是AI完整問(wèn)題的集合,或者其解決方案暗示著在該領(lǐng)域的廣泛目標(biāo)上取得成功的問(wèn)題之一。但是,當(dāng)前的方法(接下來(lái)將簡(jiǎn)要回顧)并沒(méi)有處理暗示的環(huán)境豐富性問(wèn)題。 RRL是彌合這一差距的關(guān)鍵步驟,允許RL方法擴(kuò)展到結(jié)構(gòu)豐富的域中。

強(qiáng)化學(xué)習(xí)文獻(xiàn)提供了解決RL問(wèn)題的幾種方法。 “策略梯度”方法在某種語(yǔ)言的指導(dǎo)下,根據(jù)其性能度量相對(duì)于其參數(shù)的梯度估計(jì)來(lái)直接搜索參數(shù)化的策略空間。這些方法的優(yōu)點(diǎn)之一是它們?cè)谀承l件下也適用于部分可觀察的環(huán)境。

另一類方法更強(qiáng)烈地依賴于狀態(tài)的可觀察性,并通過(guò)學(xué)習(xí)狀態(tài)或狀態(tài)-動(dòng)作對(duì)上的適當(dāng)參數(shù)化的實(shí)值函數(shù)來(lái)間接地學(xué)習(xí)最佳策略。值函數(shù)的參數(shù)是局部更新的,將當(dāng)前狀態(tài)的值移至下一個(gè)狀態(tài)的值加上任何即時(shí)獎(jiǎng)勵(lì)。在實(shí)踐中難以滿足的強(qiáng)大假設(shè)下,這些局部更新可以顯示為使值函數(shù)收斂到從給定狀態(tài)(在給定操作下,如果有的話)可以實(shí)現(xiàn)的真實(shí)期望效用,我們稱之為最佳值。如果已知最佳值函數(shù),則agent可以通過(guò)對(duì)它貪婪地行動(dòng),在每個(gè)狀態(tài)下選擇使結(jié)果狀態(tài)的期望值最大化的動(dòng)作來(lái)最佳地執(zhí)行。通過(guò)剛剛描述的局部更新的某種變體來(lái)學(xué)習(xí)(近似或啟發(fā)式)正確值函數(shù)的方法的集合,統(tǒng)稱為值迭代方法。當(dāng)要更新的值函數(shù)將值分配給狀態(tài)-動(dòng)作對(duì)時(shí),它稱為Q函數(shù),該方法也稱為Q學(xué)習(xí)方法。在這兩種情況下,在每個(gè)狀態(tài)下局部更新值函數(shù)估計(jì)的過(guò)程都稱為值函數(shù)回歸,因?yàn)榭梢詫⑵湟暈橥ㄟ^(guò)環(huán)境的動(dòng)作動(dòng)力學(xué)一步一步使值函數(shù)估計(jì)回歸。

尋找最佳策略的一種相關(guān)方法是策略迭代,它基于一個(gè)簡(jiǎn)單的定理:相對(duì)于次優(yōu)值函數(shù)V貪婪地行動(dòng),將獲得至少與該值函數(shù)指示的值一樣多的值,并且至少有一個(gè)值獲得更多的值。換句話說(shuō),只要V低估了最優(yōu)值,相對(duì)于V的貪婪策略所獲得的價(jià)值就大于V。策略迭代以任意的V開(kāi)始,并針對(duì)V的貪婪策略計(jì)算改進(jìn)值函數(shù)V’。然后可以將V’作為V重復(fù)此過(guò)程,直到找到最佳V。實(shí)際上,收斂只需要進(jìn)行幾次迭代,但是在大狀態(tài)空間中,從多項(xiàng)式中找出V的改進(jìn)V’的過(guò)程雖然是多項(xiàng)式的,但卻很昂貴。為了解決這個(gè)問(wèn)題,在大的狀態(tài)空間中,可以通過(guò)對(duì)在多個(gè)給定的樣本軌跡上從s獲得的效用取平均值,根據(jù)V貪婪地進(jìn)行操作,在任意給定的狀態(tài)s下對(duì)V’進(jìn)行采樣。這個(gè)過(guò)程被稱為政策推出(Bertsekas&Tsitsiklis,1997)。給定足夠的V’這樣的樣本,機(jī)器學(xué)習(xí)技術(shù)可以學(xué)習(xí)V’的近似值,即狀態(tài)空間特征的線性組合,從而提供了一種便宜的方式來(lái)在大狀態(tài)空間中近似地進(jìn)行策略迭代。

Relational Reinforcement Learning: State of the Art

在本節(jié)中,我們概述了一些有關(guān)關(guān)系強(qiáng)化學(xué)習(xí)的有前途的當(dāng)前方法。

Relational Regression and Q-learning

通過(guò)使用關(guān)系回歸,RRL系統(tǒng)(D-zeroski等人,2001)允許將幾乎標(biāo)準(zhǔn)的Q學(xué)習(xí)應(yīng)用于在以關(guān)系性質(zhì)為特征的環(huán)境中強(qiáng)化學(xué)習(xí)問(wèn)題。

通過(guò)將狀態(tài)和動(dòng)作的關(guān)系表示與關(guān)系回歸結(jié)合使用以進(jìn)行Q函數(shù)泛化,可以使用結(jié)構(gòu)信息,例如在Q值的描述中存在具有正確屬性的對(duì)象或?qū)ο笾g的關(guān)系。結(jié)果導(dǎo)致對(duì)派生策略的描述。當(dāng)遇到更復(fù)雜或更簡(jiǎn)單的任務(wù)時(shí),這可以在較小但相關(guān)的問(wèn)題上重用經(jīng)驗(yàn)。

已經(jīng)開(kāi)發(fā)了三種用于該RRL系統(tǒng)的回歸算法:TG算法(用于逐步構(gòu)建一階回歸樹(shù)),基于實(shí)例的算法(稱為RIB)和基于內(nèi)核的算法KBR(使用高斯過(guò)程作為回歸技術(shù))。

TG算法(Driessens等,2001)是構(gòu)建一階分類和回歸樹(shù)的Tilde算法(Blockeel和De Raedt,1998)與G算法(Chapman和Kaelbling,1991)的結(jié)合。有關(guān)樹(shù)的每個(gè)葉子中每個(gè)可能擴(kuò)展的性能的大量統(tǒng)計(jì)值,以逐步構(gòu)建樹(shù)。 TG算法使用的關(guān)系回歸樹(shù)使用一階文字的結(jié)合作為內(nèi)部葉子中的測(cè)試。對(duì)應(yīng)于特定葉子的測(cè)試是出現(xiàn)在從樹(shù)的根到葉子的路徑上的測(cè)試的結(jié)合,在其中對(duì)所有出現(xiàn)的變量進(jìn)行存在量化。 TG算法采用了源自Tilde系統(tǒng)的用戶定義的精細(xì)運(yùn)算符,以生成可用于替換葉子的可能的一階測(cè)試。 TG算法算法存儲(chǔ)在樹(shù)的每片葉子中的統(tǒng)計(jì)信息包括通過(guò)每種可能的測(cè)試進(jìn)行正或負(fù)分類的示例數(shù),以及每種情況下Q值和Q值平方的總和。這允許使用F檢驗(yàn)來(lái)決定選擇哪個(gè)檢驗(yàn)。目前,TG尚未進(jìn)行任何樹(shù)重組。該算法做出的所有決定都是最終決定。

基于實(shí)例的算法RIB(Driessens和Ramon,2003年)使用k最近鄰預(yù)測(cè)作為回歸技術(shù),即,它計(jì)算存儲(chǔ)在內(nèi)存中的示例的Q值的加權(quán)平均值,其中權(quán)重成反比到示例之間的距離。所使用的距離必須能夠處理狀態(tài)和動(dòng)作的關(guān)系表示,并且可以是通用的一階距離(Sebag,1997; Ramon和Bruynooghe,2001),也可以是特定于應(yīng)用的距離,通??梢允怯?jì)算效率更高。由于Q學(xué)習(xí)生成連續(xù)的學(xué)習(xí)示例流,因此開(kāi)發(fā)了許多示例選擇方法以減少內(nèi)存和計(jì)算需求。這些選擇標(biāo)準(zhǔn)基于IB2和IB3中使用的選擇標(biāo)準(zhǔn)(Aha等,1991),并研究各個(gè)示例對(duì)整體預(yù)測(cè)誤差的影響。

第三種算法稱為KBR(G·artner等,2003a),并使用高斯過(guò)程作為回歸技術(shù)。高斯過(guò)程(MacKay,1997)要求在示例描述之間定義正定協(xié)方差函數(shù)。由于在RRL系統(tǒng)中使用了關(guān)系表示,因此必須使用結(jié)構(gòu)化數(shù)據(jù)的內(nèi)核來(lái)完成此任務(wù)。這里可能的候選對(duì)象是卷積核(Haussler,1999)或在圖上定義的核(Gartner等,2003b)。由于高斯過(guò)程是貝葉斯技術(shù),因此KBR算法不僅提供了一個(gè)新的未知示例的Q值的基本預(yù)測(cè),而且還提供了更多的信息。它還可以指示此估計(jì)的預(yù)期精度,例如,可以通過(guò)Q學(xué)習(xí)算法將其用于指導(dǎo)探索。

降低Q學(xué)習(xí)與關(guān)系函數(shù)抽象的適用性的主要問(wèn)題之一是Q值本身的性質(zhì),即它們隱式編碼到下一個(gè)獎(jiǎng)勵(lì)的距離和大小。 在隨機(jī)和高度混亂的任務(wù)中很難預(yù)測(cè)這些。 在這種情況下,優(yōu)勢(shì)學(xué)習(xí)或策略迭代等其他方法似乎更合適。

Approximate Policy Iteration for RRL

如上所述,可以將近似策略迭代視為從值函數(shù)V移至更好的值函數(shù)V’,或者從相應(yīng)的貪婪策略π\(zhòng)piπ移至更好的貪婪策略π′\pi 'π,然后進(jìn)行迭代。此處,π\(zhòng)piπ關(guān)于V貪婪地行動(dòng),π′\pi 'π關(guān)于V’貪婪地行動(dòng)。

直到最近,幾乎所有近似策略迭代的用法都直接表示值函數(shù),但僅隱式表示相應(yīng)的策略(作為對(duì)直接表示的值函數(shù)的貪婪行為)。考慮到廣泛的專家-人的特征工程,這種方法對(duì)于命題域可以很好地工作(例如,在TD-gammon中(Tesauro,1995)),但是對(duì)于高度結(jié)構(gòu)化的關(guān)系域卻沒(méi)有成功。由于上述原因,很難為這些高度結(jié)構(gòu)化的域找到良好的近似值函數(shù)表示。

一種替代方法是直接表示所涉及的策略,而僅隱式表示值函數(shù)。給定策略π\(zhòng)piπ的顯式表示形式,隱式表示的值函數(shù)是通過(guò)從每個(gè)狀態(tài)重復(fù)執(zhí)行π\(zhòng)piπ所獲得的值。如上所述,通過(guò)在π\(zhòng)piπ下繪制合適的軌跡(從每個(gè)可能的替代動(dòng)作開(kāi)始),仍然可以使用策略推出來(lái)生成π′\pi 'π的樣本(給定π\(zhòng)piπ)。注意,在這種方法中,使用監(jiān)督分類學(xué)習(xí)器來(lái)學(xué)習(xí)π′\pi 'π,而不是之前使用回歸學(xué)習(xí)器來(lái)近似V’。

這種替代方法的優(yōu)點(diǎn)是,與表示和學(xué)習(xí)準(zhǔn)確的價(jià)值函數(shù)相比,通常更容易表示和學(xué)習(xí)適用于結(jié)構(gòu)化域的策略??梢允褂猛ㄓ貌呗哉Z(yǔ)言,這些語(yǔ)言利用數(shù)十年來(lái)的知識(shí)表示工作來(lái)對(duì)許多有用的策略進(jìn)行緊湊,易學(xué)的描述(Martin&Geffner,2000; Khardon,1999; Yoon等,2002)。大量的實(shí)證研究表明(Fern等人,2003; Fern等人,2004),對(duì)于前三屆國(guó)際會(huì)議中使用的基準(zhǔn)規(guī)劃問(wèn)題衍生出的各種困難的,結(jié)構(gòu)化的領(lǐng)域,幾乎不需要人工就可以學(xué)習(xí)策略。規(guī)劃比賽。使用這種近似策略迭代形式的學(xué)習(xí)系統(tǒng)可以學(xué)習(xí)與這些領(lǐng)域中最新的確定性計(jì)劃者競(jìng)爭(zhēng)的策略。但是,與確定性計(jì)劃器不同,這些系統(tǒng)對(duì)于引入不確定性具有魯棒性,并且可以證明在相同問(wèn)題的隨機(jī)變體中表現(xiàn)良好。另外,學(xué)習(xí)系統(tǒng)一次學(xué)習(xí)整個(gè)計(jì)劃領(lǐng)域的策略,然后可以通過(guò)簡(jiǎn)單地執(zhí)行所學(xué)習(xí)的策略來(lái)解決該領(lǐng)域中的任何實(shí)例。相反,確定性計(jì)劃人員對(duì)每個(gè)問(wèn)題實(shí)例使用新搜索,而在實(shí)例之間不傳遞任何知識(shí)。

關(guān)于RRL的近似策略迭代方法,還有許多未解決的研究問(wèn)題。 首先,迄今為止探索的策略語(yǔ)言是相當(dāng)有限的。 是否可以找到一種良好的,可學(xué)習(xí)的,通用的策略語(yǔ)言來(lái)避免遇到新領(lǐng)域時(shí)需要人工重新設(shè)計(jì)該語(yǔ)言,還有待確定。 特別是,僅開(kāi)始探索結(jié)合內(nèi)存而不是簡(jiǎn)單地對(duì)當(dāng)前狀態(tài)做出反應(yīng)的策略語(yǔ)言。 而且,當(dāng)前的策略語(yǔ)言缺乏將關(guān)于問(wèn)題域的背景知識(shí)并入策略語(yǔ)言或策略學(xué)習(xí)者的一般能力。 最后,盡管有自然的方法,但這些技術(shù)尚未擴(kuò)展到部分可觀察的環(huán)境或多agent環(huán)境中。

Symbolic Dynamic Programming

RRL的誘人方法是利用狀態(tài)轉(zhuǎn)換模型的符號(hào)表示形式來(lái)做“貝爾曼備份”的符號(hào)版本。這種方法的根源可以追溯到基于解釋的學(xué)習(xí)(EBL),其中,在成功解決問(wèn)題的環(huán)節(jié)之后,將建立一個(gè)證明其成功背后原因的證據(jù)。然后,對(duì)證明進(jìn)行一般化,以構(gòu)造可以用相同方法求解的狀態(tài)的描述(Mitchell等,1986; DeJong&Mooney,1986)。在狀態(tài)空間問(wèn)題和MDP中,證明對(duì)應(yīng)于顯示動(dòng)作序列可以實(shí)現(xiàn)目標(biāo),而EBL對(duì)應(yīng)于在操作符序列上進(jìn)行目標(biāo)回歸。實(shí)際上,EBL是諸如Prodigy和SOAR(Minton等,1989; Laird等,1986)之類的系統(tǒng)中使用的泛化算法的核心,以從解決問(wèn)題的特定示例中學(xué)習(xí)一般控制規(guī)則。 Dietterich和Flann通過(guò)將這些廣義狀態(tài)描述與從Bellman備份獲得的值相關(guān)聯(lián),將該思想與強(qiáng)化學(xué)習(xí)相結(jié)合(Dietterich&Flann,1997)。因此,人們可以學(xué)習(xí)對(duì)導(dǎo)致最多1步,2步,3步等獲勝的狀態(tài)的描述,并使用它們來(lái)選擇任何狀態(tài)下的最佳步法。

Boutilier將所得的基于解釋的強(qiáng)化學(xué)習(xí)(EBRL)推廣到了隨機(jī)域,其獎(jiǎng)勵(lì)模型由結(jié)構(gòu)化的貝葉斯網(wǎng)絡(luò)描述,因此使它們易于進(jìn)行符號(hào)推理(Boutilier等人,2001)。這兩種方法的優(yōu)點(diǎn)是,不是從動(dòng)機(jī)不明確的句法偏見(jiàn)中歸納概括一組示例,而是從符號(hào)域理論開(kāi)始,證明該歸納是正確的。領(lǐng)域理論易于以緊湊的符號(hào)表示形式提供,這是決策理論規(guī)劃中的標(biāo)準(zhǔn)假設(shè)。如果這不是真的,那么首先學(xué)習(xí)對(duì)領(lǐng)域理論的簡(jiǎn)要描述(Pasula等人,2004),并將其用于目標(biāo)回歸中可能比直接學(xué)習(xí)價(jià)值函數(shù)要難得多。這是因?yàn)?#xff0c;即使值函數(shù)不起作用,領(lǐng)域模型也往往會(huì)采用緊湊的表示形式。例如,考慮象棋規(guī)則或PDDL中各種計(jì)劃域的描述。領(lǐng)域模型是緊湊的假設(shè)類似于歸納方法中要學(xué)習(xí)的策略是緊湊的假設(shè)。例如,此假設(shè)奠定了RRL近似策略迭代中使用的語(yǔ)法偏差的基礎(chǔ)。

不幸的是,有時(shí)稱為這種方法的符號(hào)動(dòng)態(tài)編程(SDP)并不是萬(wàn)能藥。共享給定值的狀態(tài)的描述變得越來(lái)越復(fù)雜和分離,因?yàn)檫@些狀態(tài)離目標(biāo)越來(lái)越遠(yuǎn)。每個(gè)連接描述所覆蓋的狀態(tài)數(shù)量急劇減少,從而導(dǎo)致大量的低覆蓋規(guī)則。實(shí)際上,在早期的EBL系統(tǒng)中已經(jīng)觀察到這種情況,導(dǎo)致了所謂的“效用問(wèn)題”(Minton,1988; Dietterich&Flann,1997)。在某個(gè)時(shí)候,有必要放棄對(duì)值函數(shù)的精確表示,并對(duì)其進(jìn)行緊湊地逼近,否則人們將花費(fèi)更多的時(shí)間來(lái)匹配所有規(guī)則,而不是在原始狀態(tài)空間中尋找解決方案。進(jìn)行這種近似通常涉及歸納學(xué)習(xí),并導(dǎo)致這種方法本質(zhì)上類似于關(guān)系回歸。

可以通過(guò)狀態(tài)空間聚合將某些問(wèn)題抽象為等效的較小問(wèn)題。以這種方式形成的具有較小等效問(wèn)題的問(wèn)題通常會(huì)很好地產(chǎn)生SDP。這些問(wèn)題也可以通過(guò)使用模型最小化找到相關(guān)的狀態(tài)空間集合來(lái)直接解決(Givan et al。,2003),然后使用任何適用的技術(shù)(例如值迭代)解決由此產(chǎn)生的較小問(wèn)題。

Directly Approximating the Value Function

直到最近,才有任何工作涉及改善我們的價(jià)值函數(shù)表示的方法,從而使所得的近似值可以利用域的關(guān)系結(jié)構(gòu),而無(wú)需對(duì)狀態(tài)空間特征進(jìn)行大量的人工設(shè)計(jì)(Guestrin等,2003)。這項(xiàng)工作的新穎之處在于它能夠使用一種有效的方法(即線性編程)來(lái)直接逼近值函數(shù)。

不幸的是,這需要做出幾個(gè)假設(shè),其中一些假設(shè)是非常嚴(yán)格的。最強(qiáng)的假設(shè)之一是對(duì)象之間的關(guān)系屬性不會(huì)隨時(shí)間變化。對(duì)如此強(qiáng)大的假設(shè)的需求突顯了直接逼近價(jià)值函數(shù)的難度。盡管在評(píng)估該作品的Freecraft有限子域中看起來(lái)并不那么嚴(yán)重,但請(qǐng)注意,在國(guó)際競(jìng)賽的每個(gè)規(guī)劃基準(zhǔn)中,對(duì)象之間的關(guān)系都會(huì)隨著時(shí)間而變化。

給定此有限的設(shè)置,假定全局值函數(shù)可將每個(gè)對(duì)象的加性分解為局部值函數(shù)。在對(duì)象屬于類(可以自動(dòng)學(xué)習(xí))的進(jìn)一步假設(shè)下,還允許局部值函數(shù)近似值在類之間變化。結(jié)果方法必須為每個(gè)對(duì)象類找到一個(gè)局部值函數(shù)。在這里,術(shù)語(yǔ)“本地”表示給定對(duì)象貢獻(xiàn)的值只能取決于該對(duì)象的屬性(以及可能與該對(duì)象直接相關(guān)的那些對(duì)象)的屬性;在所報(bào)告的工作中,局部值是局部對(duì)象屬性的線性組合。然后,找到一個(gè)好的價(jià)值函數(shù)就可以減少尋找要用于每一類對(duì)象的線性組合的權(quán)重。

給定該值函數(shù)近似值,可以將找到合適權(quán)重的問(wèn)題轉(zhuǎn)換為指數(shù)級(jí)大的線性程序,并使用約束采樣技術(shù)對(duì)其進(jìn)行近似解決。 可以保證選擇權(quán)重接近最佳值的結(jié)果。 如果近似值中隱含的關(guān)于值函數(shù)的假設(shè)成立(如果可能確實(shí)很大),則可以保證該方法非常接近真值函數(shù)。

到目前為止,我們描述的所有RRL方法都利用關(guān)系表示將其價(jià)值功能或策略推廣到共享屬性和對(duì)象的相似域。 在每種情況下,其知識(shí)表示中固有的歸納偏差決定了歸納的有效性。 這一點(diǎn)最重要的是,戲劇化地表明,知識(shí)表示實(shí)際上是RRL中的關(guān)鍵問(wèn)題,因?yàn)樗鼪Q定了要進(jìn)行的泛化。

Research Issues in RRL

對(duì)RRL的研究提供了許多希望,但也帶來(lái)了許多新的問(wèn)題和挑戰(zhàn)。 以下是一些顯而易見(jiàn)的緊迫問(wèn)題。

Theory of RRL: 與命題RL文獻(xiàn)不同,RRL理論還不那么成熟,只是在發(fā)展中(Boutilier等,2001; Kersting等,2004)。 雖然有限MDP的基本結(jié)果會(huì)延續(xù)到具有有限對(duì)象的關(guān)系域,但這些結(jié)果并沒(méi)有那么有用,因?yàn)樗鼈円蕾囉诿}化并且遭受與命題RL相同的不可泛化性的問(wèn)題。 因此,有效函數(shù)逼近所基于的理論和實(shí)踐問(wèn)題對(duì)于RRL而言更為關(guān)鍵。

Hierarchical RRL: 層次結(jié)構(gòu)對(duì)于降低決策的復(fù)雜性以及允許跨不同任務(wù)的轉(zhuǎn)移非常重要。 分層RL是命題環(huán)境中的活躍研究主題。 關(guān)系設(shè)置允許更豐富的層次結(jié)構(gòu),其中包括“子任務(wù)”以及任務(wù)之間的“比特定對(duì)象更多”的關(guān)系。 這些更豐富的層次結(jié)構(gòu)如何幫助學(xué)習(xí)? 如何自動(dòng)學(xué)習(xí)這些層次結(jié)構(gòu)?

Model Learning: 強(qiáng)化學(xué)習(xí)中的問(wèn)題之一是如何表示和學(xué)習(xí)動(dòng)作模型。除了瑣碎的領(lǐng)域之外,不可能在所有領(lǐng)域都明確地列出狀態(tài)。分解模型(例如Dynamic Bayes Networks)可以簡(jiǎn)潔地表示動(dòng)作。關(guān)系設(shè)置需要甚至更豐富的表示,例如,概率關(guān)系模型(PRM)或概率STRIPS樣式的運(yùn)算符。我們?nèi)绾螌W(xué)習(xí)這些更豐富的行動(dòng)模型?我們?nèi)绾卧诓呗缘耐评砗蛯W(xué)習(xí)中使用它們? (Pasula et al,2004)報(bào)道了有關(guān)該主題的早期工作。

Policy Learning: 強(qiáng)化學(xué)習(xí)的核心辯論之一是策略學(xué)習(xí)還是價(jià)值功能學(xué)習(xí)更適合特定領(lǐng)域。當(dāng)前的工作表明,在某些關(guān)系領(lǐng)域中,包括在塊世界中,可以通過(guò)策略學(xué)習(xí)獲得更好的泛化。在什么情況下是這種情況?有可能改善價(jià)值函數(shù)方法,使其與策略學(xué)習(xí)競(jìng)爭(zhēng)嗎?或者將價(jià)值功能學(xué)習(xí)整合到可學(xué)習(xí)的策略語(yǔ)言中,然后在定義策略時(shí)可以參考價(jià)值,是否更合適?這里的一個(gè)相關(guān)問(wèn)題是確定可以支持學(xué)習(xí)并在廣泛領(lǐng)域中代表有用策略的更好/理想的通用策略語(yǔ)言。

Satisficing: 命題強(qiáng)化學(xué)習(xí)與學(xué)習(xí)最佳策略有關(guān)。不幸的是,在許多關(guān)系域中,最優(yōu)策略是NP難或更差的,而存在有用的多項(xiàng)式時(shí)間次優(yōu)策略。如何在策略的最優(yōu)性和效率之間做出權(quán)衡?以上報(bào)告的工作依賴歸納偏見(jiàn)以一種不太了解的方式進(jìn)行此折衷。

Prior Knowledge: 人類似乎在處理大型領(lǐng)域時(shí)會(huì)利用(開(kāi)發(fā))領(lǐng)域知識(shí)。 缺乏處理先驗(yàn)知識(shí)的手段可能是限制RL系統(tǒng)縮放的關(guān)鍵問(wèn)題。 RL系統(tǒng)易于發(fā)現(xiàn)/傳達(dá)和有效利用哪些先驗(yàn)知識(shí)? 關(guān)系表示法可以使此操作更容易并且以什么成本進(jìn)行? 學(xué)習(xí)和推理如何有效地互補(bǔ)?

Reasoning after Solution: 迄今為止,最成功的RRL方法使用歸納方法來(lái)限制其保證解決方案質(zhì)量的能力。 找到解決方案后,能否以任何易于處理的方式部署推理以驗(yàn)證解決方案的質(zhì)量和/或確定需要進(jìn)一步計(jì)劃的問(wèn)題區(qū)域?

A Summary of the Rest of the Proceedings

論文的其余部分描述了針對(duì)上述各種問(wèn)題的正在進(jìn)行的研究工作。

Ramon和Driessens探索將示例選擇技術(shù)添加到Driessens的基于內(nèi)核的回歸算法中,以改善內(nèi)存和計(jì)算要求,但更重要的是,增加計(jì)算的數(shù)值穩(wěn)定性。 Walker,Shavlik和Matwin描述了一種構(gòu)建有用特征的方法,該方法通過(guò)隨機(jī)采樣大量相關(guān)特征并將其用于正則化內(nèi)核回歸中以預(yù)測(cè)手工編碼策略的價(jià)值函數(shù)。他們?cè)赗oboCup域的Keep-Away子任務(wù)中獲得了可喜的結(jié)果。

Fern,Yoon和Givan的摘要總結(jié)了他們?cè)诮撇呗缘矫娴墓ぷ骷捌湓诖笮拖嚓P(guān)結(jié)構(gòu)化決策理論計(jì)劃問(wèn)題中的應(yīng)用。 Itoh和Nakamura描述了一種方法,該方法用于學(xué)習(xí)是否在部分可觀察的域中以有限的內(nèi)存在手動(dòng)編碼的關(guān)系策略中使用每個(gè)規(guī)則。他們?cè)诿詫m般的領(lǐng)域中測(cè)試他們的算法,其中規(guī)劃有時(shí)是有用的,而問(wèn)題是要學(xué)習(xí)何時(shí)有用。 Strens的論文描述了一種在部分可觀察的,二維,多agent追趕者逃避域中搜索參數(shù)化策略空間的方法。他表明,在追求者數(shù)量超過(guò)2個(gè)時(shí),使用關(guān)系策略的性能要優(yōu)于相同策略或聯(lián)合策略。Croonenborghs,Ramon和Bruynooghe認(rèn)為建立“影響模型”以從狀態(tài)特征開(kāi)始預(yù)測(cè)回報(bào)的方法。這些建立在貝葉斯邏輯程序框架中的模型與Q值結(jié)合使用,可以基于多步預(yù)見(jiàn)選擇動(dòng)作。

Gretton和Thiebaux描述了一種有趣的方法,該方法將符號(hào)動(dòng)態(tài)編程與歸納回歸方法相結(jié)合,以在同時(shí)避開(kāi)SDP的復(fù)雜推理問(wèn)題的同時(shí)獲得兩者的好處。 Nason和Laird展示了如何通過(guò)添加獎(jiǎng)勵(lì)和數(shù)字偏好將強(qiáng)化學(xué)習(xí)整合到SOAR體系結(jié)構(gòu)中。他們討論了SOAR架構(gòu)假設(shè)對(duì)其在關(guān)系域中有效學(xué)習(xí)的能力的影響。 Langley,Arai和Shapiro描述了一種稱為ICARUS的認(rèn)知架構(gòu),該架構(gòu)結(jié)合了分層技能和反應(yīng)性執(zhí)行,并在有或沒(méi)有顯式動(dòng)作模型的情況下進(jìn)行對(duì)比學(xué)習(xí)。 Roncagliolo和Tadepalli描述了一種采用價(jià)值函數(shù)逼近的關(guān)系強(qiáng)化學(xué)習(xí)的分層方法。

莫拉萊斯提出了一種使用抽象形式的Q學(xué)習(xí)在抽象狀態(tài)空間中學(xué)習(xí)的方法。他還描述了一種從人類專家的痕跡中誘發(fā)相關(guān)行為的方法。威爾遜(Wilson)的摘要指出了對(duì)表達(dá)策略語(yǔ)言的需求,并傾向于采用簡(jiǎn)單的策略。最后,van Otterlo和Kersting指出了關(guān)系強(qiáng)化學(xué)習(xí)的許多挑戰(zhàn)。這些包括發(fā)展融合理論,了解基于策略的方法與基于價(jià)值函數(shù)的方法的相對(duì)優(yōu)點(diǎn),跨多個(gè)領(lǐng)域的概括以及利用先驗(yàn)知識(shí)。

Conclusions

我們希望我們已經(jīng)說(shuō)服了讀者,關(guān)系強(qiáng)化學(xué)習(xí)提供了各種挑戰(zhàn)和機(jī)遇。 我們激勵(lì)了RRL,并概述了許多研究問(wèn)題和一些有希望的方向。 隨著人們對(duì)AI中的關(guān)系表示形式的興趣日益濃厚,并且對(duì)強(qiáng)化學(xué)習(xí)的問(wèn)題和前景有了更深入的了解,似乎現(xiàn)在該是一個(gè)成熟的時(shí)機(jī)來(lái)研究包括表達(dá)表示,推理和動(dòng)作執(zhí)行在內(nèi)的綜合框架以嘗試解決實(shí)際感興趣的問(wèn)題。 我們邀請(qǐng)讀者成為這次冒險(xiǎn)的完整參與者。

參考資源

[1] Tadepalli, Prasad, Robert Givan, and Kurt Driessens. “Relational reinforcement learning: An overview.” Proceedings of the ICML-2004 workshop on relational reinforcement learning. 2004. [paper]

總結(jié)

以上是生活随笔為你收集整理的Relational Reinforcement Learning: An Overview的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。

主站蜘蛛池模板: 欧美日韩亚洲系列 | 寻找身体恐怖电影免费播放 | 韩国三级黄色 | 日本人妻不卡一区二区三区中文字幕 | 国产美女福利视频 | 成人性生活免费视频 | 在线看一区二区 | 久久久久国产综合av天堂 | 看黄色大片 | 岛国av电影在线观看 | 美腿丝袜av | 黄色com| 在线观看涩涩 | www日本黄色 | 丰满人妻熟妇乱偷人无码 | 免费在线a | 学生调教贱奴丨vk | 2019年中文字幕 | 67194成人| 日美毛片| 激情毛片视频 | 国产乱子视频 | 秋霞三区 | 另类图片亚洲色图 | 午夜极品视频 | 久久国产精品无码一区二区 | 秋霞电影一区二区 | 国产精品视频一区在线观看 | 人人草人人干 | 青青草视频污 | 狠狠爱夜夜爱 | 一区二区三区有限公司 | 中文字幕第99页 | 男人的天堂狠狠干 | www.香蕉.com | 亚洲自拍网站 | 中文字幕 欧美日韩 | 日韩成人综合网 | 吊侵犯の奶水授乳羞羞漫画 | 亚洲第一伊人 | 国产黄色小视频在线观看 | 韩国一级一片高清免费观看 | 夜夜涩| 素人av在线 | 成人午夜小视频 | 一区二区三区成人 | 香蕉视频在线看 | 偷拍视频一区二区 | 国产女在线| 黑人与日本少妇 | 久久精品欧美一区 | 精品人妻一区二 | 北条麻妃一区二区三区在线观看 | 日本h在线| 黄色小网站在线观看 | 国产三级福利 | 亚洲成人久久精品 | 福利视频一区二区三区 | 美国一区二区 | 好男人.www| 国产黄色一区二区三区 | 亚洲狠狠| 国产亚洲高清视频 | 男女一级特黄 | 视频国产在线 | 理论片大全免费理伦片 | 国产91免费视频 | 国产精品久久久久久久裸模 | 在线成人看片 | 韩日精品视频 | 91禁蘑菇在线看 | 性生交大片免费看女人按摩 | 最好看的电影2019中文字幕 | 国产v亚洲v天堂无码久久久 | 国产精品免费视频一区二区 | 可以免费观看的av网站 | 黄污视频网站 | 亚洲a人| 久久久久久久久久久久久久国产 | 国产美女诱惑 | 欧美三日本三级少妇三 | 国产成人精品二区三区亚瑟 | a在线播放 | 人妻偷人精品一区二区三区 | 亚洲理论在线 | 免费成人黄色网 | 日韩欧美一区二区视频 | 国产日韩在线观看视频 | 欧美撒尿777hd撒尿 | 东方成人av在线 | 国产精品suv一区二区三区 | 麻豆视频在线 | 中国黄色大片 | 亚洲欧美日韩一区 | 一级性爱视频 | 天天综合影院 | a级大片免费看 | 精品少妇爆乳无码av无码专区 | 黑人精品一区二区三区不 |