High Dimensional Continuous Control Using Generalized Advantage Estimation
策略梯度方法在強(qiáng)化學(xué)習(xí)中是一種很有吸引力的方法,因?yàn)樗鼈兛梢灾苯觾?yōu)化累積獎(jiǎng)勵(lì),并且可以直接與非線性函數(shù)逼近器(如神經(jīng)網(wǎng)絡(luò))一起使用。兩個(gè)主要挑戰(zhàn)是通常需要大量的樣本,以及盡管傳入的數(shù)據(jù)是非平穩(wěn)性,但仍難以獲得穩(wěn)定和穩(wěn)步的改進(jìn)。本文通過(guò)使用價(jià)值函數(shù)來(lái)解決第一個(gè)挑戰(zhàn),以一些偏差為代價(jià),通過(guò)類(lèi)似于TD(λ)的優(yōu)勢(shì)函數(shù)的指數(shù)加權(quán)估計(jì)來(lái)大幅減少策略梯度估計(jì)的方差。本文通過(guò)對(duì)由神經(jīng)網(wǎng)絡(luò)表示的策略和值函數(shù)使用信賴域優(yōu)化過(guò)程來(lái)解決第二個(gè)挑戰(zhàn)。該方法在高度挑戰(zhàn)性的3D運(yùn)動(dòng)任務(wù)、學(xué)習(xí)雙足和四足模擬機(jī)器人的跑步步態(tài),以及學(xué)習(xí)使雙足動(dòng)物從一開(kāi)始躺在地面上站起來(lái)的策略方面產(chǎn)生了強(qiáng)大的經(jīng)驗(yàn)結(jié)果。與之前一大批使用手工策略表示的工作相比,所提出的神經(jīng)網(wǎng)絡(luò)策略直接從原始運(yùn)動(dòng)學(xué)映射到關(guān)節(jié)力矩。所提出算法是完全無(wú)模型的,在3D兩足動(dòng)物上學(xué)習(xí)任務(wù)所需的模擬經(jīng)驗(yàn)量相當(dāng)于1-2周的實(shí)時(shí)時(shí)間
2 PRELIMINARIES?
?
?3 ADVANTAGE FUNCTION ESTIMATION
?
?5 VALUE FUNCTION ESTIMATION
有很多不同的方法可以用來(lái)估計(jì)價(jià)值函數(shù)(參見(jiàn)Bertsekas(2012))。當(dāng)使用非線性函數(shù)逼近器來(lái)表示值函數(shù)時(shí),最簡(jiǎn)單的方法是解決非線性回歸問(wèn)題
?
?對(duì)于本工作中的實(shí)驗(yàn),我們使用信任區(qū)域法來(lái)優(yōu)化分批優(yōu)化過(guò)程的每一次迭代的值函數(shù)。信任區(qū)域可以幫助我們避免對(duì)最近一批數(shù)據(jù)的過(guò)擬合
?
7 DISCUSSION
策略梯度方法通過(guò)提供無(wú)偏梯度估計(jì),提供了一種將強(qiáng)化學(xué)習(xí)減少到隨機(jī)梯度下降的方法。然而,到目前為止,它們?cè)诮鉀Q困難的控制問(wèn)題方面的成功是有限的,主要是由于它們的高樣本復(fù)雜度。我們已經(jīng)討論過(guò),減小方差的關(guān)鍵是獲得對(duì)優(yōu)勢(shì)函數(shù)的良好估計(jì)
本文對(duì)優(yōu)勢(shì)函數(shù)估計(jì)問(wèn)題提供了一個(gè)直觀但非正式的分析,并證明了廣義優(yōu)勢(shì)估計(jì)器,它有兩個(gè)參數(shù)γ和λ,用于調(diào)整偏差-方差權(quán)衡。我們描述了如何將這種思想與信賴域策略優(yōu)化以及優(yōu)化以神經(jīng)網(wǎng)絡(luò)為代表的值函數(shù)的信賴域算法相結(jié)合。結(jié)合這些技術(shù),能夠?qū)W習(xí)解決以前通用強(qiáng)化學(xué)習(xí)方法無(wú)法解決的困難控制任務(wù)
在并行工作中,研究人員一直在開(kāi)發(fā)策略梯度方法,涉及對(duì)連續(xù)值行動(dòng)的微分(Lillicrap等人,2015;Heess et al., 2015)。雖然我們從經(jīng)驗(yàn)上發(fā)現(xiàn)一步回歸(λ = 0)會(huì)導(dǎo)致過(guò)大的偏差和較差的性能,但這些論文表明,在適當(dāng)調(diào)整的情況下,這種方法是可以工作的。然而,請(qǐng)注意,這些論文考慮的控制問(wèn)題的狀態(tài)和動(dòng)作空間比這里考慮的要低得多。兩類(lèi)方法之間的比較將有助于今后的工作?
總結(jié)
以上是生活随笔為你收集整理的High Dimensional Continuous Control Using Generalized Advantage Estimation的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 微型计算机知识做流水灯,微机原理流水灯的
- 下一篇: Redis集群搭建(基于6.2.6版本)