日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 人工智能 > ChatGpt >内容正文

ChatGpt

深度学习(四十二)——深度强化学习(5)PPO, IMPALA, Hierarchical RL, OpenAI

發布時間:2023/12/20 ChatGpt 90 豆豆
生活随笔 收集整理的這篇文章主要介紹了 深度学习(四十二)——深度强化学习(5)PPO, IMPALA, Hierarchical RL, OpenAI 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

PPO(Proximal Policy Optimization)

PPO是2017年由OpenAI提出的一種基于隨機策略的DRL算法,也是當前OpenAI的默認算法。

PPO是一種Actor-Critic算法。它的主要改進在它的Actor部分。

我們知道,Policy Gradient算法的訓練過程中,始終存在著new Policy和old Policy這樣一對矛盾。

一方面,我們需要new Policy和old Policy有一定的差異,防止模型收斂到局部最優。

另一方面,兩者的差異又不能太大,否則,模型的訓練將無法收斂。

那么,如何衡量new Policy和old Policy的差異程度呢?

PPO的答案是:我們可以用兩種Policy得到的動作的概率分布的KL散度,來描述這種差異。

具體的做法是在J(θ)J(\theta)J(θ)上添加一個KL懲罰項:

JPPOθk(θ)=Jθk(θ)?βKL(θ,θk)J^{\theta^k}_{PPO}(\theta)=J^{\theta^k}(\theta)-\beta KL(\theta, \theta^k)JPPOθk?(θ)=Jθk(θ)?βKL(θ,θk)

這里的懲罰系數β\betaβ可以是定值,也可以是一個自適應的值。例如,我們可以在KL值小于最小閾值時,減小β\betaβ,在KL值大于最大閾值時,增大β\betaβ

除了KL懲罰項之外,還可以使用clip來限制Gradient的大小,這就是PPO2的做法。

和A3C類似,PPO也有一個分布式版本,叫做DPPO(Distributed Proximal Policy Optimization)。

參考:

https://www.jianshu.com/p/f4d383b0bd4c

TRPO與PPO實現

https://bluefisher.github.io/2018/07/03/Proximal-Policy-Optimization-Algorithms/

Proximal Policy Optimization Algorithms

https://www.jianshu.com/p/9f113adc0c50

Proximal Policy Optimization(PPO)算法原理及實現!

https://morvanzhou.github.io/tutorials/machine-learning/reinforcement-learning/6-4-DPPO/

Distributed Proximal Policy Optimization(DPPO)

IMPALA

論文:

《IMPALA: Scalable Distributed Deep-RL with Importance Weighted Actor-Learner Architectures》

代碼:

https://github.com/deepmind/lab/tree/master/game_scripts/levels/contributed/dmlab30

IMPALA是DeepMind于2018年提出的。

IMPALA的靈感來自于熱門的A3C架構(上圖左),后者使用多個分布式actor來學習agent的參數。在類似這樣的模型中,每個actor都使用策略參數的一個副本,在環境中操作。actor會周期性地暫停探索,將它們已經計算得出的梯度信息分享至中央參數服務器,而后者會對此進行更新。

與此不同,IMPALA(上圖中)中的actor不會被用來計算梯度信息。它們只是收集經驗,并將這些經驗傳遞至位于中心的learner。learner會計算梯度。因此在這樣的模型中,actor和learner是完全獨立的。

為了利用當代計算系統的規模優勢,IMPALA在配置中可支持單個learner機器,也可支持多個相互之間同步的learner機器(上圖右)。

由于actor只用于環境采樣,而這個任務通常是一個仿真環境(例如游戲模擬器),因此它和learner在計算側重點上有很大差異(例如在游戲領域,actor更側重于仿真、渲染。),所以actor和learner的軟硬件可以是異構的。

其次,由于Actor無須計算梯度,因此就可以一直采樣,而無須等待策略的更新,這也是它和Batched A2C的最大區別。

上圖展示了這種差異,A2C采樣了一個Batch之后,所有的actor都要停下來計算梯度,而IMPALA中的actor可以一直采樣,從而大大提高了采樣效率。

上圖中的Batched A2C(sync step)和Batched A2C(sync traj)的區別在于:前者每次采樣之后都要同步,這對于采樣時間差異較大的例子,顯然效率是很低下的。而后者是采樣一批之后,再同步。

不過這種操作和學習的解耦也導致actor的策略落后于learner。為了彌補這樣的差距,IMPALA還引入了V-trace技術。

參考:

https://zhuanlan.zhihu.com/p/56043646

AlphaStar之IMPALA

https://mp.weixin.qq.com/s/1zJyw67B6DqsHEJ3avbsfQ

DeepMind推出分布式深度強化學習架構IMPALA,讓一個Agent學會多種技能

reward modeling

訓練一個獎勵模型,其中包含來自用戶的反饋,從而捕捉他們的意圖。與此同時,我們通過強化學習訓練一個策略,使獎勵模型的獎勵最大化。換句話說,我們把學習做什么(獎勵模型)和學習怎么做(策略)區分開來。

參考:

https://mp.weixin.qq.com/s/4yGQtHtMqWlaB7MAsr8T_g

DeepMind重磅論文:通過獎勵模型,讓AI按照人類意圖行事

https://mp.weixin.qq.com/s/TIWnnCmVZnFQNH9Fig5aTw

DeepMind發布新獎勵機制:讓智能體不再“碰瓷”

Hierarchical RL

之前已經提到,在DeepMind測試的40多款游戲中,有那么幾款游戲無論怎么訓練,結果都是0,也就是DQN完全無效。上面就是其中最知名的代表游戲《Montezuma’s Revenge》。這是一個解謎游戲,比如圖中要拿到鑰匙,然后去開門。這對我們而言是通過先驗知識得到的。但是很難想象計算機如何僅僅通過圖像感知這些內容。感知不到,那么這種游戲也就無從解決。

論文:

《Hierarchical Deep Reinforcement Learning: Integrating Temporal Abstraction and Intrinsic Motivation》

該論文的主要思路就是,弄一個兩個層級的神經網絡,頂層用于決策,確定下一步的目標,底層用于具體行為。

這里的內在目標是人工確定的,因此智能程度不高,但是比較實用。

其他算法:

FuN (FeUdal Networks for Hierarchical Reinforcement Learning)

HIRO (Data Efficient Hierarchical Reinforcement Learning)

HAC (Learning Multi-Level Hierarchies with Hindsight)

參考:

https://zhuanlan.zhihu.com/p/78098982

Hierarchical IL/RL(ICML 2018)

https://blog.csdn.net/zhkmxx930xperia/article/details/87742722

Integrating Temporal Abstraction and Intrinsic Motivation

https://blog.csdn.net/songrotek/article/details/51384752

DRL前沿之:Hierarchical Deep Reinforcement Learning

https://mp.weixin.qq.com/s/IYyGgnoXZm6YfamLejqoNQ

深度強化學習試金石:DeepMind和OpenAI攻克蒙特祖瑪復仇的真正意義

https://mp.weixin.qq.com/s/iBWjobr9srhB3MTiE_Wwmg

史上最強Atari游戲通關算法:蒙特祖瑪獲分超過200萬!

OpenAI

OpenAI,由諸多硅谷大亨(Elon Musk等)聯合建立的人工智能非營利組織。

官網:

https://openai.com/

github:

https://github.com/openai

Baselines

若干經典RL算法的實現,包括A2C、DQN等。

代碼:

https://github.com/openai/baselines

Gym

Openai gym是一個用于開發和比較強化學習(reinforcement learning,RL)算法的工具包,與其他的數值計算庫兼容,如tensorflow或者theano庫。現在主要支持的是python語言,以后將支持其他語言。

官網:

https://gym.openai.com/

sudo apt install libffi-dev swig git clone https://github.com/openai/gym cd gym pip install -e . # minimal install pip install -e .[all] # all install

這里選擇minimal install就可以了,all install需要安裝MuJoCo,而后者是收費軟件。

和Gym配套的還有一個算法庫:

https://github.com/openai/baselines

當然,看名字也知道這只是一個簡單的算法庫。

參考:

http://tech.163.com/16/0510/09/BMMOPSCR00094OE0.html

馬斯克的AI野心——OpenAI Gym系統深度解析

https://mp.weixin.qq.com/s/KK1gwDW2EyptZOiuFjyAlw

OpenAI發布強化學習環境Gym Retro:支持千種游戲

https://blog.csdn.net/jinzhuojun/article/details/77144590

常用增強學習實驗環境 I (MuJoCo, OpenAI Gym, rllab, DeepMind Lab, TORCS, PySC2)

https://blog.csdn.net/jinzhuojun/article/details/78508203

常用增強學習實驗環境 II (ViZDoom, Roboschool, TensorFlow Agents, ELF, Coach等)

https://mp.weixin.qq.com/s/0oVG7zMi08dzMQrk43T3mw

像訓練Dota2一樣訓練真實機器人?Gibson Environment環境了解一下

https://mp.weixin.qq.com/s/_A0q8DFAsIclaofVgZfjMA

定制股票交易OpenAI Gym強化學習環境

https://blog.csdn.net/gsww404/article/details/80627892

OpenAI-baselines的使用方法

RND

OpenAI最近開發了RND(Random Network Distillation),一種基于預測的強化學習算法,用于鼓勵強化學習代理通過好奇心來探索他們所處環境。在游戲任務Montezuma’s Revenge上首次超過人類的平均表現。

blog:

https://blog.openai.com/reinforcement-learning-with-prediction-based-rewards/

Reinforcement Learning with Prediction-Based Rewards

代碼:

https://github.com/openai/random-network-distillation

總結

以上是生活随笔為你收集整理的深度学习(四十二)——深度强化学习(5)PPO, IMPALA, Hierarchical RL, OpenAI的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。