日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 >

DeepMind:所谓SACX学习范式

發布時間:2023/12/31 52 豆豆
生活随笔 收集整理的這篇文章主要介紹了 DeepMind:所谓SACX学习范式 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

?????????? 機器人是否能應用于服務最終還是那兩條腿值多少錢,而與人交互,能真正地做“服務”工作,還是看那兩條胳膊怎么工作。大腦的智能化還是非常遙遠的,還是先把感受器和效應器做好才是王道。

?????????? 關于強化學習,根據Agent對策略的主動性不同劃分為主動強化學習(學習策略:必須自己決定采取什么行動)和被動強化學習(固定的策略決定其行為,為評價學習,即Agent如何從成功與失敗中、回報與懲罰中進行學習,學習效用函數)。

?????????? 被動強化學習:EnforceLearning-被動強化學習

?????????? 主動強化學習:EnforceLearning-主動強化學習

?????????? 文章:SACX新范式,訓練用于機器人抓取任務

???????? ? DeepMind提出調度輔助控制(Scheduled Auxiliary Control,SACX),這是強化學習(RL)上下文中一種新型的學習范式。SAC-X能夠在存在多個稀疏獎勵信號的情況下,從頭開始(from scratch)學習復雜行為。為此,智能體配備了一套通用的輔助任務,它試圖通過off-policy強化學習同時從中進行學習。

????????? 這個長向量的形式化以及優化為論文的亮點。

In this paper, we introduce a new method dubbed Scheduled Auxiliary Control (SAC-X), as a first step towards such an approach. It is based on four main principles: ??? 1. Every state-action pair is paired with a vector of rewards, consisting of ( typically sparse ) externally provided rewards and (typically sparse) internal auxiliary rewards. ???? 2. Each reward entry has an assigned policy, called intention in the following, which is trained to maximize its corresponding cumulative reward. ???? 3. There is a high-level scheduler which selects and executes the individual intentions with the goal of improving performance of the agent on the external tasks. ???? 4. Learning is performed off-policy ( and asynchronouslyfrom policy execution ) and the experience between intentions is shared – to use information effectively. Although the approach proposed in this paper is generally applicable to a wider range of problems, we discuss our method in the light of a typical robotics manipulation applica tion with sparse rewards: stacking various objects and cleaning a table。
??????? 由四個基本準則組成:狀態配備多個稀疏獎懲向量-一個稀疏的長向量;每個獎懲被分配策略-稱為意圖,通過最大化累計獎懲向量反饋;建立一個高層的選擇執行特定意圖的機制用以提高Agent的表現;學習是基于off-policy(新策略,Q值更新使用新策略),且意圖之間的經驗共享增加效率。總體方法可以應用于通用領域,在此我們以典型的機器人任務進行演示。
??????? 基于Off-Play的好處:https://www.zhihu.com/question/57159315
???????

論文:Learning by Playing – Solving Sparse Reward Tasks from Scratch


總結

以上是生活随笔為你收集整理的DeepMind:所谓SACX学习范式的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。