日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Autonomous Reinforcement Learning via Subgoal Curricula 论文笔记

發布時間:2024/3/26 编程问答 43 豆豆
生活随笔 收集整理的這篇文章主要介紹了 Autonomous Reinforcement Learning via Subgoal Curricula 论文笔记 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

題目:基于子目標課程的自主強化學習
Abstract 無
1 Introduction
強化學習為交互式智能體自主獲取復雜行為提供了很好的契機,但當前強化學習算法的自主性仍面臨挑戰,尤其是在機器人領域:假設每次試驗都從環境中特定狀態分布的初始狀態開始。
傳統地,強化學習算法假設能夠任意采樣并重置為從該分布中提取的狀態,這使得此類算法對于大多數實際設置都不切實際。
許多以前在真實機器人上進行強化學習的例子都依賴于機器人設置和人類監督的儀器,以使環境重置為該初始狀態分布。額外的環境檢測和創建腳本化行為都需要大量的時間,并且通常需要額外的資源,腳本重置行為在應用程序中范圍很窄,通常只針對單個任務或環境設計,其脆弱性要求人類監督學習過程。
消除或最小化對重置機制的算法依賴可以實現更多的自主學習,反過來,它將允許代理擴展到更廣泛和更難的任務集?,F在已有算法最小化依賴。
總結工作:我們提供了一個正式的問題定義,該定義封裝并闡明了這些先前方法所解決的一般設置,我們在這項工作中稱之為持續強化學習persistent reinforcement learning。
在問題設置中,我們將訓練與測試時間設置分開,以便測試時間目標與傳統RL設置相匹配,但訓練時間設置通過提供低頻周期性重置來限制對初始狀態分布的訪問。 在這種設置中,agent在人類干預最少的情況下持續學習并與環境交互。在這種設置下,傳統RL無法完全解決任務。這是因為這些方法依賴于任意采樣初始狀態分布的能力。這個問題的一個解決方法是:另外學習一個重置策略,該策略恢復初始狀態分布,允許代理在練習任務和練習反向之間反復交替。然而,從探索的角度來看,直接從初始狀態分布解決任務不僅很困難,而且(試圖)反復返回初始狀態可能效率低下。在本文中,我們建議讓代理重置自己,并嘗試從不同的初始狀態沿路徑到目標狀態執行任務。特別是,代理可以學習從更接近目標的更容易的開始狀態解決任務,并在此基礎上進行引導,以從距離目標更遠的更難的狀態解決任務。
本文的主要貢獻:
1.V alue-accelerated Persistent Reinforcement Learning (V aPRL),一種以目標為條件的RL方法,為agent創建一個自適應的起始狀態課程,以有效地提高測試時性能,同時大幅減少對外部重置機制的依賴。
2.還提供了持久RL問題設置的正式描述,以概念化我們的工作和先前的方法。
persistent R &&&& persistent RL:

2 Related Work
Robot learning:之前使用強化學習的工作依賴于手動設計控制器或人工監督,以實現當前算法要求的 episodic environmental resets。這可以通過人工協調重置,這需要在機器人訓練中進行高頻率的人工干預,在某些情況下,可以執行腳本行為來重置環境。
//什么是腳本化行為?時間密集型?
Reset-free reinforcement learning自由重置強化學習:無
Curriculum generation for reinforcement learning強化學習課程生成:提出新的課程生成方法,為持續強化學習設計該方法,而不需要像以前的工作那樣將環境重置為任意狀態。
Persistent vs. lifelong reinforcement learning持續強化學習與終身強化學習:持續RL和終身學習框架都超越了the episodic setting for training,促進了強化學習的更多自主性。
持續強化學習區分 training 和 evaluation 的目標, evaluation objective和episodic reinforcement learning的相匹配。While the assumptions of episodic reinforcement learning are hard to realize for real-world training, real-world deployment of policies is often episodic. 這通常適用于機器人技術,在機器人技術中,分配的任務預計是重復的,但很難在培訓環境中協調重置。這使得持續強化學習成為機器人學習任務建模的合適框架。
3 Persistent Reinforcement Learning 持續強化學習
本節將持續強化學習形式化為一個優化問題,關鍵在于將評估和訓練目標分開,用訓練目標使我們獲得行為(同時認識到頻繁調用重置機制是站不住腳的),評估目標衡量期望的這些行為的性能。我們首先提供一個通用的公式,然后將持續強化學習調整為目標條件設置。
Definition:定義一個MDP,目標時找使最大的策略,
however,效果不好,又定義了一個MDP訓練環境,
前后向控制器:在解決與r對應的任務和恢復初始狀態分布ρ之間交替進行,該方法對應的獎勵函數:
,這里在步驟的任務獎勵r和rp之間交替,這種代理獎勵功能允許代理重復練習任務。對于一般的依賴時間的替代獎勵函數。
持續強化學習的目標是在的約束下最大化,目標鼓勵構建一個能夠恢復評估環境最佳策略的訓練環境。在這項工作中,我們將把自己限制在可逆環境中,并將對具有不可逆狀態的環境的持續RL的全面討論推遲到將來的工作中。
Goal-conditioned persistent reinforcement learning. 目標制約的持續強化學習
目標制約的MDP:,加入了
評價目標:
訓練目標:
4 Value-Accelerated Persistent Reinforcement Learning價值加速的
為了解決目標制約下持續強化學習,提出了我們的算法VaPRL,關鍵思想是:The key idea in VaPRL is that the agent does not need to return to the initial state distribution between every attempt at the task.and can instead choose to practice from states that facilitate efficient learning.
智能體不必要在任務中的每次嘗試中返回到初始狀態分布,相反地,可以選擇在有利于學習的狀態進行訓練。
4.1 Generating a Curriculum Using the Value Function 使用價值函數生成課程
如何實現目標g:從狀態s開始學習如何到達目標g更容易接近于g,尤其是當獎勵很少時。知道如何從一個狀態s到達目標g,反過來,可以更容易地從s附近的狀態到達g,使我們在此基礎上逐步遠離g。在一個更容易的問題成功解決一個更難的問題的基礎上,引出課程學習:旨在定義一門越來越難的課程,一遍策略最終能從初始狀態分布ρ開始到達目標g。我們的方案是對任務目標g進行抽樣,以子目標運行策略,再以任務目標運行策略。主要問題:如何選擇子目標來嘗試目標? 設立子目標如下:

值函數的意義:到達g的概率。
通過對值函數的理解,回看上述方程,子目標選擇最接近初始狀態分布的狀態
/對于該初始狀態分布,值函數Vπ(s,g)穿過閾值?。這鼓勵課程在培訓的早期階段更接近目標狀態,因為該政策在實現目標方面效果不佳。隨著政策的改進,更多的州滿足了約束條件,課程逐漸接近初始州分布。最終,課程收斂到初始狀態分布,從而形成一個政策π,該政策π將優化MDP ME中的評估目標。/
得出目標生成器:
Computing the Curriculum Generator C(g).
狀態空間最小化:我們使用策略π在訓練期間收集的數據,并通過枚舉將隨機抽樣子集上的C(g)最小化。
Measuring the Initial State Distribution Distance.測量初始狀態分布距離
4.2 Relabeling Goals
目標重新標記vsHER
Algorithm Summary.算法摘要
不想看了不想看了

總結

以上是生活随笔為你收集整理的Autonomous Reinforcement Learning via Subgoal Curricula 论文笔记的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。