當(dāng)前位置：首頁 > 人工智能 > pytorch >内容正文

pytorch

深度学习（三十八）——深度强化学习（1）教程

發(fā)布時(shí)間：2023/12/20 pytorch 40 豆豆

生活随笔收集整理的這篇文章主要介紹了深度学习（三十八）——深度强化学习（1）教程小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

教程

http://incompleteideas.net/sutton/book/the-book-2nd.html

《Reinforcement Learning: An Introduction》，Richard S. Sutton和Andrew G. Barto著。

注：Richard S. Sutton，加拿大計(jì)算機(jī)科學(xué)家，麻省大學(xué)阿姆赫斯特分校博士（1984年），阿爾伯塔大學(xué)教授。強(qiáng)化學(xué)習(xí)之父，研究該領(lǐng)域長達(dá)三十余年。

Andrew G. Barto，麻省大學(xué)阿姆赫斯特分校教授。Richard S. Sutton的導(dǎo)師。

http://incompleteideas.net/sutton/609%20dropbox/slides%20(pdf%20and%20keynote)/

Sutton的pdf和keynote

注：資料中的.key文件即為keynote文件。這種格式是蘋果設(shè)備上的專用ppt格式，在其他系統(tǒng)中查看不了。

http://www0.cs.ucl.ac.uk/staff/D.Silver/web/Teaching.html

UCL Course on RL

David Silver，劍橋大學(xué)本科（1997年）+阿爾伯塔大學(xué)博士（2011年）。倫敦大學(xué)學(xué)院講師。現(xiàn)為DeepMind研究員。AlphaGo之父。

Silver的名聲直追他的導(dǎo)師Sutton，這個(gè)教程也流傳很廣。后續(xù)介紹的教程中，多有對(duì)它的抄襲。

http://www.meltycriss.com/2017/09/09/note-reinforcement-learning/

課程筆記《UCL強(qiáng)化學(xué)習(xí)》。這個(gè)blog包含大量的思維導(dǎo)圖。

https://mp.weixin.qq.com/s/_PVe7Gcq7Yk8nOFJFPcUQw

葉強(qiáng)：David Silver《深度強(qiáng)化學(xué)習(xí)》公開課教程學(xué)習(xí)筆記完整版

https://github.com/clamesc/reinforcement-learning-mindmap

另一個(gè)版本的David Silver課程的思維導(dǎo)圖。

http://web.stanford.edu/class/cs234/syllabus.html

CS234: Reinforcement Learning

http://rail.eecs.berkeley.edu/deeprlcourse/

CS 294: Deep Reinforcement Learning

以上1本書+4個(gè)課程，基本就是目前RL領(lǐng)域的黃金搭檔了。Stanford的課程內(nèi)容比較新，但是很淺。UCB的課程通常都是給入門以后的人準(zhǔn)備的，無論DL還是RL，都是這樣。Sutton和Silver的課程內(nèi)容比較老，但是很有深度。和CV領(lǐng)域只需要學(xué)習(xí)DL，而不需要學(xué)習(xí)傳統(tǒng)方法不同，按照Sutton的說法，基本算法原理遠(yuǎn)比神經(jīng)網(wǎng)絡(luò)更重要。

http://www.eecs.wsu.edu/~taylorm/17_580/index.html

CptS 580: Reinforcement Learning

http://www.eecs.wsu.edu/~taylorm/2011_cs420/index.html

Artificial Intelligence。這個(gè)課程名義上叫AI，實(shí)則包括狀態(tài)空間搜索、強(qiáng)化學(xué)習(xí)和貝葉斯網(wǎng)絡(luò)三部分內(nèi)容。

http://www.eecs.wsu.edu/~taylorm/2010_cs414/index.html

Introduction to Machine Learning。Matthew E. Taylor的本行是RL，所以不管什么課程，都有RL的內(nèi)容。

Matthew E. Taylor，安默斯特學(xué)院本科（2001年）+德州大學(xué)奧斯汀分校博士（2008年）。華盛頓州立大學(xué)副教授。

https://katefvision.github.io/

CMU: Deep Reinforcement Learning and Control

https://course.ie.cuhk.edu.hk/~ierg6130/schedule.html

香港中文大學(xué)：Reinforcement Learning

https://github.com/aikorea/awesome-rl

提供了RL方面的資源網(wǎng)頁。aikorea還提供了同類的資源收集網(wǎng)頁：awesome-rnn, awesome-deep-vision, awesome-random-forest。

https://mp.weixin.qq.com/s/dS0oQbGtrdd4rS25cBNyoQ

面向Open AI, TensorFlow, Keras的強(qiáng)化學(xué)習(xí)書籍《Reinforcement Learning》

https://102.alibaba.com/downloadFile.do?file=1517812754285/reinforcement_learning.pdf

《強(qiáng)化學(xué)習(xí)在阿里的技術(shù)演進(jìn)與業(yè)務(wù)創(chuàng)新》，這是阿里出品的RL實(shí)戰(zhàn)類書籍。

https://mp.weixin.qq.com/s/RbUcEOctRm8kX6_Ar4J0CA

446頁簡易Python強(qiáng)化學(xué)習(xí)教程書籍

https://mp.weixin.qq.com/s/7DlbuJI_gARJRABnlZQcxQ

伯克利大學(xué)ICML2018強(qiáng)化學(xué)習(xí)80頁教程

https://mp.weixin.qq.com/s/7WnlNvxk0KKVPYqvSi7fKA

40頁 PPT，BMM夏令營《強(qiáng)化學(xué)習(xí)簡明教程》

https://mp.weixin.qq.com/s/VelM7ndXfevXKfPno-T9jQ

微軟亞研130PPT教程：強(qiáng)化學(xué)習(xí)簡介

https://sites.ualberta.ca/~szepesva/RLBook.html

《Algorithms for Reinforcement Learning》

https://mp.weixin.qq.com/s/tZjIdNSLvIVzho-IlCvm6A

93頁隨機(jī)近似與強(qiáng)化學(xué)習(xí)教程分享

https://mp.weixin.qq.com/s/o1wLREqtIZpzH2NxLl9M7A

深度強(qiáng)化學(xué)習(xí)簡介

https://mp.weixin.qq.com/s/Y9DfxQJ-w23QXxKV0z26ag

MIT科學(xué)家Dimitri P. Bertsekas最新2019出版《強(qiáng)化學(xué)習(xí)與最優(yōu)控制》

https://mp.weixin.qq.com/s/2cEd_FGmj-WVfm4KrQfMMg

《深度學(xué)習(xí)與機(jī)器人學(xué)》大牛Pieter Abbeel 105頁P(yáng)PT下載

https://mp.weixin.qq.com/s/u49cuDV21ITs1aV9tJR85g

Pieter Abbeel：《深度學(xué)習(xí)在機(jī)器人中的應(yīng)用》

https://mp.weixin.qq.com/s/z9MvLuqjY5Xmty18ZP10WQ

UC伯克利Pieter Abbeel教授強(qiáng)化學(xué)習(xí)教程-附59頁slides

https://github.com/enggen/DeepMind-Advanced-Deep-Learning-and-Reinforcement-Learning

DeepMind與UCL合作推出的深度學(xué)習(xí)與強(qiáng)化學(xué)習(xí)進(jìn)階課程

https://mp.weixin.qq.com/s/CnL1uIWef2AjIr_AwL7t-w

DeepMind研究員Tor2019著作《賭博機(jī)算法》，555頁帶你學(xué)習(xí)專治選擇困難癥技術(shù)

https://zhuanlan.zhihu.com/c_168521441

在線學(xué)習(xí)(MAB)與強(qiáng)化學(xué)習(xí)(RL)

https://github.com/p-christ/Deep-Reinforcement-Learning-Algorithms-with-PyTorch

PyTorch實(shí)現(xiàn)多種深度強(qiáng)化學(xué)習(xí)算法

https://mp.weixin.qq.com/s/UrwP9t-Ox4M9QImKDUDcsA

140頁《深度強(qiáng)化學(xué)習(xí)入門》發(fā)布

https://simoninithomas.github.io/Deep_reinforcement_learning_Course/

老外寫的簡易深度強(qiáng)化學(xué)習(xí)入門

https://mp.weixin.qq.com/s/nSfvhr096aTeOHxDHy0NeA

434頁《Python強(qiáng)化學(xué)習(xí)實(shí)用指南》

https://www.starai.io/course/

StarAi的DRL教程

https://mp.weixin.qq.com/s/eMzrktlm93ZEZi-J5sipqA

莫斯科國立大學(xué)56頁《深度強(qiáng)化學(xué)習(xí)綜述》最新論文，帶你全面了解DRL最新方法

https://github.com/dennybritz/reinforcement-learning

GitHub 萬星資源：強(qiáng)化學(xué)習(xí)算法實(shí)現(xiàn)，教程代碼樣樣全，還有詳細(xì)學(xué)習(xí)規(guī)劃

論文

《A Brief Survey of Deep Reinforcement Learning》

《Asynchronous Methods for Deep Reinforcement Learning》

《Deep Reinforcement Learning for Dialogue Generation》

blog

https://zhuanlan.zhihu.com/sharerl

強(qiáng)化學(xué)習(xí)知識(shí)大講堂

https://zhuanlan.zhihu.com/intelligentunit

一個(gè)DL+RL的專欄

https://www.cnblogs.com/pinard/category/1254674.html

一個(gè)DRL的專欄

https://www.cnblogs.com/steven-yang/tag/強(qiáng)化學(xué)習(xí)/

一個(gè)RL的專欄

https://www.cnblogs.com/steven-yang/tag/博弈論/

一個(gè)博弈論的專欄

工具/框架

https://mp.weixin.qq.com/s/5ScRIl2MHNGaUyIEJJKnKw

DeepMind開源強(qiáng)化學(xué)習(xí)研究環(huán)境Control Suite

https://mp.weixin.qq.com/s/GTjNToprM2OO7uzSRQXkHw

DeepMind開源強(qiáng)化學(xué)習(xí)庫TRFL，關(guān)鍵算法可編寫RL智能體

https://mp.weixin.qq.com/s/PLFxehTAXcehzIrIMRfVpA

強(qiáng)化學(xué)習(xí)的基石：DeepMind開源框架TRFL

https://mp.weixin.qq.com/s/ew7vmvskp_q4aM7cJM-CXg

奪魁NeurIPS 2018強(qiáng)化學(xué)習(xí)大賽，百度正式發(fā)布RL模型庫和算法框架PARL

https://github.com/danaugrs/huskarl

基于TF2.0的深度強(qiáng)化學(xué)習(xí)平臺(tái)：Huskarl

https://mp.weixin.qq.com/s/ApP0zNuG5OP_-HzJC1v95Q

谷歌發(fā)布開源Dopamine 2.0，讓強(qiáng)化學(xué)習(xí)變得更靈活

https://mp.weixin.qq.com/s/Hod37LQ-eEe0EVtLfyXLGQ

DeepMind重磅開源強(qiáng)化學(xué)習(xí)框架！覆蓋28款游戲，24多個(gè)算法(OpenSpiel)

https://zhuanlan.zhihu.com/p/68462431

谷歌開源RL足球環(huán)境

https://mp.weixin.qq.com/s/BhTX4KQnLxUQLvPUfY3q6Q

物理實(shí)驗(yàn)成本為零！南大LAMDA開源虛擬RL訓(xùn)練環(huán)境

創(chuàng)作挑戰(zhàn)賽新人創(chuàng)作獎(jiǎng)勵(lì)來咯，堅(jiān)持創(chuàng)作打卡瓜分現(xiàn)金大獎(jiǎng)

總結(jié)

以上是生活随笔為你收集整理的深度学习（三十八）——深度强化学习（1）教程的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：深度学习（三十七）——CenterNet
下一篇：深度学习（三十九）——深度强化学习（2）