當(dāng)前位置：首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

High Dimensional Continuous Control Using Generalized Advantage Estimation

發(fā)布時(shí)間：2024/1/1 编程问答 41 豆豆

生活随笔收集整理的這篇文章主要介紹了 High Dimensional Continuous Control Using Generalized Advantage Estimation 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

策略梯度方法在強(qiáng)化學(xué)習(xí)中是一種很有吸引力的方法，因?yàn)樗鼈兛梢灾苯觾?yōu)化累積獎(jiǎng)勵(lì)，并且可以直接與非線性函數(shù)逼近器(如神經(jīng)網(wǎng)絡(luò))一起使用。兩個(gè)主要挑戰(zhàn)是通常需要大量的樣本，以及盡管傳入的數(shù)據(jù)是非平穩(wěn)性，但仍難以獲得穩(wěn)定和穩(wěn)步的改進(jìn)。本文通過(guò)使用價(jià)值函數(shù)來(lái)解決第一個(gè)挑戰(zhàn)，以一些偏差為代價(jià)，通過(guò)類(lèi)似于TD(λ)的優(yōu)勢(shì)函數(shù)的指數(shù)加權(quán)估計(jì)來(lái)大幅減少策略梯度估計(jì)的方差。本文通過(guò)對(duì)由神經(jīng)網(wǎng)絡(luò)表示的策略和值函數(shù)使用信賴域優(yōu)化過(guò)程來(lái)解決第二個(gè)挑戰(zhàn)。該方法在高度挑戰(zhàn)性的3D運(yùn)動(dòng)任務(wù)、學(xué)習(xí)雙足和四足模擬機(jī)器人的跑步步態(tài)，以及學(xué)習(xí)使雙足動(dòng)物從一開(kāi)始躺在地面上站起來(lái)的策略方面產(chǎn)生了強(qiáng)大的經(jīng)驗(yàn)結(jié)果。與之前一大批使用手工策略表示的工作相比，所提出的神經(jīng)網(wǎng)絡(luò)策略直接從原始運(yùn)動(dòng)學(xué)映射到關(guān)節(jié)力矩。所提出算法是完全無(wú)模型的，在3D兩足動(dòng)物上學(xué)習(xí)任務(wù)所需的模擬經(jīng)驗(yàn)量相當(dāng)于1-2周的實(shí)時(shí)時(shí)間

2 PRELIMINARIES?

?3 ADVANTAGE FUNCTION ESTIMATION

?5 VALUE FUNCTION ESTIMATION

有很多不同的方法可以用來(lái)估計(jì)價(jià)值函數(shù)(參見(jiàn)Bertsekas(2012))。當(dāng)使用非線性函數(shù)逼近器來(lái)表示值函數(shù)時(shí)，最簡(jiǎn)單的方法是解決非線性回歸問(wèn)題

?對(duì)于本工作中的實(shí)驗(yàn)，我們使用信任區(qū)域法來(lái)優(yōu)化分批優(yōu)化過(guò)程的每一次迭代的值函數(shù)。信任區(qū)域可以幫助我們避免對(duì)最近一批數(shù)據(jù)的過(guò)擬合

7 DISCUSSION

策略梯度方法通過(guò)提供無(wú)偏梯度估計(jì)，提供了一種將強(qiáng)化學(xué)習(xí)減少到隨機(jī)梯度下降的方法。然而，到目前為止，它們?cè)诮鉀Q困難的控制問(wèn)題方面的成功是有限的，主要是由于它們的高樣本復(fù)雜度。我們已經(jīng)討論過(guò)，減小方差的關(guān)鍵是獲得對(duì)優(yōu)勢(shì)函數(shù)的良好估計(jì)

本文對(duì)優(yōu)勢(shì)函數(shù)估計(jì)問(wèn)題提供了一個(gè)直觀但非正式的分析，并證明了廣義優(yōu)勢(shì)估計(jì)器，它有兩個(gè)參數(shù)γ和λ，用于調(diào)整偏差-方差權(quán)衡。我們描述了如何將這種思想與信賴域策略優(yōu)化以及優(yōu)化以神經(jīng)網(wǎng)絡(luò)為代表的值函數(shù)的信賴域算法相結(jié)合。結(jié)合這些技術(shù)，能夠?qū)W習(xí)解決以前通用強(qiáng)化學(xué)習(xí)方法無(wú)法解決的困難控制任務(wù)

在并行工作中，研究人員一直在開(kāi)發(fā)策略梯度方法，涉及對(duì)連續(xù)值行動(dòng)的微分(Lillicrap等人，2015;Heess et al.， 2015)。雖然我們從經(jīng)驗(yàn)上發(fā)現(xiàn)一步回歸(λ = 0)會(huì)導(dǎo)致過(guò)大的偏差和較差的性能，但這些論文表明，在適當(dāng)調(diào)整的情況下，這種方法是可以工作的。然而，請(qǐng)注意，這些論文考慮的控制問(wèn)題的狀態(tài)和動(dòng)作空間比這里考慮的要低得多。兩類(lèi)方法之間的比較將有助于今后的工作?

總結(jié)

以上是生活随笔為你收集整理的High Dimensional Continuous Control Using Generalized Advantage Estimation的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：微型计算机知识做流水灯,微机原理流水灯的
下一篇： Redis集群搭建（基于6.2.6版本）