當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

清华大学人工智能研究院开源“天授”强化学习平台

發布時間：2024/10/8 编程问答 56 豆豆

生活随笔收集整理的這篇文章主要介紹了清华大学人工智能研究院开源“天授”强化学习平台小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

深度強化學習（deep RL）近年來取得了令人矚目的進步，在Atari游戲、圍棋等領域戰勝了人類。但是，在面對不確定環境、不完全信息的任務時仍然面臨很大的挑戰。如何求解非完全信息、不確定條件下的決策問題成為當前人工智能面臨的重要挑戰。清華大學人工智能研究院基礎理論研究中心聚焦這一問題，開展了一系列理論和關鍵技術研究，自研了深度強化學習算法平臺“天授”，日前向業界開源：

https://github.com/thu-ml/tianshou

“天授”源自《史記》，意為“取天所授而非學自人類”，刻畫了強化學習通過與環境進行交互自主學習，而不需要像監督學習一樣需要大量人類標注數據。清華大學團隊針對目前多數既有強化學習平臺（如 RLLib 和 BaseLine）等無法支持高效、定制化的訓練場景的問題，繼承了首版 TensorFlow“天授 0.1”版在模塊化等方面的優勢，推出了基于 PyTorch 框架的“天授 0.2”版本。?

相比較目前的幾種 PyTorch 強化學習平臺，多數存在框架結構復雜、二次開發困難、對用戶不友好等問題，在朱軍、蘇航等老師的指導下，由翁家翌牽頭、張鳴昊和閻棟等參與下，在前期課題組閻棟、鄒昊晟、任桐正等“天授 0.1”版本的基礎上，開展“天授 0.2”版本的研制。

“天授”針對現有平臺訓練速度慢的缺點，在并行采樣基礎上提高數據收集能力，采用了 cache_buffer 配合 trainer 聯動即可達到每秒 5000-6000fps 的速度；同時注重代碼模塊化設計，通過避免不必要的額外運算，將 reward normalization 等現有各類實現中被證明行之有效的各種改進吸納進“天授 0.2”版本。通過 PyTorch 重寫底層機制，“天授 0.2”主要特點包括：?

1. 代碼實現簡潔：目前整個框架代碼量約為 1500 行左右，但已經可以完整支持 PG，DQN，DDQN，A2C，DDPG，PPO，TD3，SAC 等主流強化學習算法；

2. 模塊化：所有策略實現都被拆解成 4 個模塊，只要完善了框架給定的接口就能在 100 行之內完整實現一個強化學習算法；?

3. 可復現性：天授 0.2 利用 Github Actions 進行單元測試。每一次單元測試除了基本功能的測試之外，還包括針對所有算法的完整訓練過程，也就是說一旦有一個算法沒辦法 train 出來結果，單元測試不能通過。據我們所知，得益于天授快速的訓練機制，天授是目前唯一一個采用這種標準進行單元測試的強化學習框架；?

4. 接口靈活：用戶可以定制各種各樣的 training 方法。提供示例，方便用戶根據自己的需要進行二次開發；

5. 訓練速度快：目前針對支持的測試場景，天授 0.2 比既有主流強化學習平臺具有更好的性能，尤其在訓練復雜度方面。如下圖所示：

清華大學人工智能研究院基礎理論研究中心在不完全信息決策方面近年來取得過諸多重要成果。早在 2017 年，首次參賽的該團隊就在基于《毀滅戰士》的? ViZDoom AI 比賽中獲得了亞軍，并于 2018 年獲得該項目的冠軍，這也是該賽事來自中國賽區的首個冠軍。

與此同時，該團隊在不完全信息決策的理論方面也取得了一系列重要成果，多篇工作發表在人工智能領域頂級國際會議 ICML、ICLR 上。其中將博弈論和多智能體結合的新算法被 ICLR 2020 接受為口頭報告（接受率 <1.9%），被評審評價為將博弈論和強化學習之間建立了嶄新的聯系（novel connections between Game Theory and RL）。?

論文標題：Posterior sampling for multi-agent reinforcement learning: solving extensive games with imperfect information

論文來源：ICLR 2020

論文鏈接：https://openreview.net/forum?id=Syg-ET4FPS&noteId=Syg-ET4FPS

關于未來的工作，團隊負責人朱軍教授表示，將在既有工作基礎上，從三個維度拓展“天授”平臺，從算法層面來講，將對目前主流強化學習算法進行更加前面的支持，包括 model-based RL, imitation learning 等；從任務層面來講，將進一步支持包括 Atari、VizDoom 等復雜任務；從性能上來講，將進一步提升平臺在模型性能、訓練速度、魯棒性等方面的核心指標，更好的為學術界服務。朱軍教授強調，不完全信息決策是實驗室未來布局的重點方向，也是清華大學在“魯棒、安全、可拓展、可理解”的第三代人工智能研究方面的重要布局。?

“天授”整體架構如下圖所示：

據悉，清華大學人工智能研究院依托計算機科學與技術系，電子系、自動化系等院系共建，于 2018 年成立，圍繞“一個核心，兩個融合”的宗旨，服務國家和清華大學的人工智能戰略。2019 年 5 月成立基礎理論研究中心，由朱軍教授擔任主任。該中心著眼于目前人工智能發展的瓶頸問題，以建立人工智能的原創性基礎理論為目標，通過和腦科學、認知科學和統計學等學科的大跨度學科交叉融合，發展魯棒、可理解、數據高效和安全的人工智能。“天授”是繼“珠算”可微分概率編程庫（https://github.com/thu-ml/zhusuan）之后，該中心推出的又一個面向復雜決策任務的編程庫。

????

現在，在「知乎」也能找到我們了

進入知乎首頁搜索「PaperWeekly」

點擊「關注」訂閱我們的專欄吧

關于PaperWeekly

PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域，歡迎在公眾號后臺點擊「交流群」，小助手將把你帶入 PaperWeekly 的交流群里。

總結

以上是生活随笔為你收集整理的清华大学人工智能研究院开源“天授”强化学习平台的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：微软 Win10 收复失地，成为 9 月
下一篇：浅谈多目标跟踪中的相机运动