日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

(转)谷歌公开dopamine

發布時間:2025/3/15 编程问答 25 豆豆
生活随笔 收集整理的這篇文章主要介紹了 (转)谷歌公开dopamine 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

上周那個在DOTA2 TI8賽場上“裝逼失敗”的OpenAI Five,背后是強化學習的助推。

其實不僅僅是OpenAI Five,下圍棋的AlphaGo和AlphaGo Zero、玩雅達利街機游戲的DeepMind DQN(deep Q-network),都離不開強化學習(Reinforcement Learning)。

現在,谷歌發布了一個基于TensorFlow的強化學習開源框架,名叫Dopamine。

另外,還有一組Dopamine的教學colab。

和它的名字Dopamine(多巴胺)一樣,新框架聽上去就令人激動。

清晰,簡潔,易用

新框架在設計時就秉承著清晰簡潔的理念,所以代碼相對緊湊,大約是15個Python文件,基于Arcade Learning Environment (ALE)基準,整合了DQN、C51、 Rainbow agent精簡版和ICML 2018上的Implicit Quantile Networks。

可再現

新框架中代碼被完整的測試覆蓋,可作為補充文檔的形式,也可以用ALE來評估。

基準測試

為了讓研究人員能快速比較自己的想法和已有的方法,該框架提供了DQN、C51、 Rainbow agent精簡版和Implicit Quantile Networks的玩ALE基準下的那60個雅達利游戲的完整訓練數據,以Python pickle文件和JSON數據文件的格式存儲,并且放到了一個可視化網頁中。

另外,新框架中還有訓練好的深度網絡、原始統計日志,以及TensorBoard標注好的TensorFlow事件文件。

傳送門 開源框架資源

Dopamine谷歌博客:

https://ai.googleblog.com/2018/08/introducing-new-framework-for-flexible.html

Dopamine github下載:

https://github.com/google/dopamine/tree/master/docs#downloads

colabs:

https://github.com/google/dopamine/blob/master/dopamine/colab/README.md

游戲訓練可視化網頁:

https://google.github.io/dopamine/baselines/plots.html

相關資料

ALE基準:

https://arxiv.org/abs/1207.4708

DQN(DeepMind):

https://storage.googleapis.com/deepmind-media/dqn/DQNNaturePaper.pdf

C51(ICML 2017):

https://arxiv.org/abs/1707.06887

Rainbow:

https://arxiv.org/abs/1710.02298

Implicit Quantile Networks(ICML 2018):

https://arxiv.org/abs/1806.06923

總結

以上是生活随笔為你收集整理的(转)谷歌公开dopamine的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。