日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

High Dimensional Continuous Control Using Generalized Advantage Estimation

發(fā)布時(shí)間:2024/1/1 编程问答 41 豆豆
生活随笔 收集整理的這篇文章主要介紹了 High Dimensional Continuous Control Using Generalized Advantage Estimation 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

策略梯度方法在強(qiáng)化學(xué)習(xí)中是一種很有吸引力的方法,因?yàn)樗鼈兛梢灾苯觾?yōu)化累積獎(jiǎng)勵(lì),并且可以直接與非線性函數(shù)逼近器(如神經(jīng)網(wǎng)絡(luò))一起使用。兩個(gè)主要挑戰(zhàn)是通常需要大量的樣本,以及盡管傳入的數(shù)據(jù)是非平穩(wěn)性,但仍難以獲得穩(wěn)定和穩(wěn)步的改進(jìn)。本文通過(guò)使用價(jià)值函數(shù)來(lái)解決第一個(gè)挑戰(zhàn),以一些偏差為代價(jià),通過(guò)類(lèi)似于TD(λ)的優(yōu)勢(shì)函數(shù)的指數(shù)加權(quán)估計(jì)來(lái)大幅減少策略梯度估計(jì)的方差。本文通過(guò)對(duì)由神經(jīng)網(wǎng)絡(luò)表示的策略和值函數(shù)使用信賴域優(yōu)化過(guò)程來(lái)解決第二個(gè)挑戰(zhàn)。該方法在高度挑戰(zhàn)性的3D運(yùn)動(dòng)任務(wù)、學(xué)習(xí)雙足和四足模擬機(jī)器人的跑步步態(tài),以及學(xué)習(xí)使雙足動(dòng)物從一開(kāi)始躺在地面上站起來(lái)的策略方面產(chǎn)生了強(qiáng)大的經(jīng)驗(yàn)結(jié)果。與之前一大批使用手工策略表示的工作相比,所提出的神經(jīng)網(wǎng)絡(luò)策略直接從原始運(yùn)動(dòng)學(xué)映射到關(guān)節(jié)力矩。所提出算法是完全無(wú)模型的,在3D兩足動(dòng)物上學(xué)習(xí)任務(wù)所需的模擬經(jīng)驗(yàn)量相當(dāng)于1-2周的實(shí)時(shí)時(shí)間

2 PRELIMINARIES?

?

?3 ADVANTAGE FUNCTION ESTIMATION

?

?5 VALUE FUNCTION ESTIMATION

有很多不同的方法可以用來(lái)估計(jì)價(jià)值函數(shù)(參見(jiàn)Bertsekas(2012))。當(dāng)使用非線性函數(shù)逼近器來(lái)表示值函數(shù)時(shí),最簡(jiǎn)單的方法是解決非線性回歸問(wèn)題

?

?對(duì)于本工作中的實(shí)驗(yàn),我們使用信任區(qū)域法來(lái)優(yōu)化分批優(yōu)化過(guò)程的每一次迭代的值函數(shù)。信任區(qū)域可以幫助我們避免對(duì)最近一批數(shù)據(jù)的過(guò)擬合

?

7 DISCUSSION

策略梯度方法通過(guò)提供無(wú)偏梯度估計(jì),提供了一種將強(qiáng)化學(xué)習(xí)減少到隨機(jī)梯度下降的方法。然而,到目前為止,它們?cè)诮鉀Q困難的控制問(wèn)題方面的成功是有限的,主要是由于它們的高樣本復(fù)雜度。我們已經(jīng)討論過(guò),減小方差的關(guān)鍵是獲得對(duì)優(yōu)勢(shì)函數(shù)的良好估計(jì)

本文對(duì)優(yōu)勢(shì)函數(shù)估計(jì)問(wèn)題提供了一個(gè)直觀但非正式的分析,并證明了廣義優(yōu)勢(shì)估計(jì)器,它有兩個(gè)參數(shù)γ和λ,用于調(diào)整偏差-方差權(quán)衡。我們描述了如何將這種思想與信賴域策略優(yōu)化以及優(yōu)化以神經(jīng)網(wǎng)絡(luò)為代表的值函數(shù)的信賴域算法相結(jié)合。結(jié)合這些技術(shù),能夠?qū)W習(xí)解決以前通用強(qiáng)化學(xué)習(xí)方法無(wú)法解決的困難控制任務(wù)

在并行工作中,研究人員一直在開(kāi)發(fā)策略梯度方法,涉及對(duì)連續(xù)值行動(dòng)的微分(Lillicrap等人,2015;Heess et al., 2015)。雖然我們從經(jīng)驗(yàn)上發(fā)現(xiàn)一步回歸(λ = 0)會(huì)導(dǎo)致過(guò)大的偏差和較差的性能,但這些論文表明,在適當(dāng)調(diào)整的情況下,這種方法是可以工作的。然而,請(qǐng)注意,這些論文考慮的控制問(wèn)題的狀態(tài)和動(dòng)作空間比這里考慮的要低得多。兩類(lèi)方法之間的比較將有助于今后的工作?

總結(jié)

以上是生活随笔為你收集整理的High Dimensional Continuous Control Using Generalized Advantage Estimation的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。

主站蜘蛛池模板: 国产成人免费视频网站 | 婷婷久| 最新日韩中文字幕 | 喷水视频在线观看 | 日韩性猛交ⅹxxx乱大交 | 欧美浓毛大泬视频 | 欧美高清性 | 美腿丝袜亚洲综合 | 亚洲综合伊人 | 亚洲第一av网站 | 国产精品久久久久9999爆乳 | 国产综合福利 | 国产精品一二 | 福利一区在线观看 | 亚洲第一网址 | 亚洲免费a视频 | 中文字幕视频观看 | 丰满肉嫩西川结衣av | 亚洲影院一区 | 久久精品国产亚洲av香蕉 | 国产高清一区在线 | 天天看天天干 | 久久99日 | 欧美精品一区二区久久婷婷 | 欧美xxxx视频 | 美女二区| 精品无码在线视频 | 国产高清不卡 | 国产一区免费视频 | 日本免费黄色网 | 影音先锋中文字幕第一页 | 婷婷俺去也 | 国产片91| 国产一区二区中文字幕 | 美女一级黄色片 | 五月亚洲综合 | 四虎国产精品永久在线国在线 | 91视频在线免费观看 | av片在线观看免费 | 日韩αv| 操女人视频网站 | 天天摸天天操天天干 | 在线你懂的视频 | 成人免费版 | ,亚洲人成毛片在线播放 | 精品亚洲综合 | 神马午夜91 | 成人中文网 | 久久久久久久久综合 | 在哪看毛片 | 七七久久 | 中国丰满老妇xxxxx交性 | 天天草天天 | 99er在线| 男女激情视频网站 | 亚洲欧洲精品一区 | 亚洲一二区视频 | 在线观看成人黄色 | 欧美日韩午夜爽爽 | 日韩av免费播放 | 蜜臀99久久精品久久久久小说 | 99reav| 国产一区二区在 | 国产精品九九热 | 日屁视频 | 后进极品美女圆润翘臀 | 污黄啪啪网 | 国产免费av网 | 一个色亚洲 | 国产91沙发系列 | 中文字幕欧美另类精品亚洲 | 久久久久久久久久久国产 | 国产三级aaa | 久久久福利 | 99久久精品免费看国产 | 日本黄大片在线观看 | 少妇激情一区二区三区 | 亚洲激情图片区 | av在线资源播放 | 国产成人无遮挡在线视频 | 动漫精品一区 | 在线观看日韩一区二区 | 日本久久综合 | 亚洲成人精品av | 久久两性视频 | 国产精品理论片在线观看 | 黄色激情视频在线观看 | 性色生活片 | 大肉大捧一进一出视频 | 国产精品无码久久久久久电影 | wwwwww在线观看 | 人人妻人人澡人人爽人人精品 | 色婷久久 | 一本色道久久hezyo加勒比 | 91福利一区二区 | 亚洲国产日韩一区二区 | 久久久久久国产精品 | 日本精品免费一区二区三区 | 亚洲在线a |