當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

（转）谷歌公开dopamine

發布時間：2025/3/15 编程问答 31 豆豆

生活随笔收集整理的這篇文章主要介紹了（转）谷歌公开dopamine 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

上周那個在DOTA2 TI8賽場上“裝逼失敗”的OpenAI Five，背后是強化學習的助推。

其實不僅僅是OpenAI Five，下圍棋的AlphaGo和AlphaGo Zero、玩雅達利街機游戲的DeepMind DQN（deep Q-network），都離不開強化學習（Reinforcement Learning）。

現在，谷歌發布了一個基于TensorFlow的強化學習開源框架，名叫Dopamine。

另外，還有一組Dopamine的教學colab。

和它的名字Dopamine（多巴胺）一樣，新框架聽上去就令人激動。

清晰，簡潔，易用

新框架在設計時就秉承著清晰簡潔的理念，所以代碼相對緊湊，大約是15個Python文件，基于Arcade Learning Environment (ALE)基準，整合了DQN、C51、 Rainbow agent精簡版和ICML 2018上的Implicit Quantile Networks。

可再現

新框架中代碼被完整的測試覆蓋，可作為補充文檔的形式，也可以用ALE來評估。

基準測試

為了讓研究人員能快速比較自己的想法和已有的方法，該框架提供了DQN、C51、 Rainbow agent精簡版和Implicit Quantile Networks的玩ALE基準下的那60個雅達利游戲的完整訓練數據，以Python pickle文件和JSON數據文件的格式存儲，并且放到了一個可視化網頁中。

另外，新框架中還有訓練好的深度網絡、原始統計日志，以及TensorBoard標注好的TensorFlow事件文件。

傳送門開源框架資源

Dopamine谷歌博客：

https://ai.googleblog.com/2018/08/introducing-new-framework-for-flexible.html

Dopamine github下載：

https://github.com/google/dopamine/tree/master/docs#downloads

colabs：

https://github.com/google/dopamine/blob/master/dopamine/colab/README.md

游戲訓練可視化網頁：

https://google.github.io/dopamine/baselines/plots.html

相關資料

ALE基準：

https://arxiv.org/abs/1207.4708

DQN（DeepMind）：

https://storage.googleapis.com/deepmind-media/dqn/DQNNaturePaper.pdf

C51（ICML 2017）：

https://arxiv.org/abs/1707.06887

Rainbow：

https://arxiv.org/abs/1710.02298

Implicit Quantile Networks（ICML 2018）：

https://arxiv.org/abs/1806.06923

總結

以上是生活随笔為你收集整理的（转）谷歌公开dopamine的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

dopamine

上一篇： Matlab画图小结（二）
下一篇：攀升电脑九周年：“9”要追新，捍卫热爱

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

编程问答

（转）谷歌公开dopamine

總結