當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

邹伟博士出书啦！——《强化学习》从基础概念、核心原理到应用案例（文末赠书）...

發布時間：2025/3/8 编程问答 13 豆豆

生活随笔收集整理的這篇文章主要介紹了邹伟博士出书啦！——《强化学习》从基础概念、核心原理到应用案例（文末赠书）... 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

強化學習日漸流行，作為當今社會最熱門的研究課題之一，其關注度正與日俱增。強化學習是機器學習的一個分支，通過與環境的交互進行學習，目前廣泛應用于游戲領域，如ATARI游戲、西洋雙陸棋、AlphaZero等。由于它具有自學習的特性，因此在機器人、工業自動化、自然語言處理、醫療保健及在線股票交易等領域受到了廣泛重視，并取得了眾多成果。

強化學習是一門實踐性很強的學科，同時也具有堅實的理論基礎。本書緊扣讀者需求，采用循序漸進的敘述方式，深入淺出地論述了強化學習的背景、算法原理、應用案例等；?此外，本書針對每一章節的算法均提供了對應的案例和程序源代碼，并附有詳細的注釋，有助于讀者加深對強化學習相關知識的理解。

通過本書，讀者可以從零起步了解并掌握強化學習算法，并且能夠快速選擇合適的算法去解決實際問題。更進一步，通過學習本書，讀者能夠豐富對人類自身的認識，并啟發對人機智能之爭更深一層的思考與探索。

圖書介紹視頻

作者簡介

鄒偉? 博士，睿客邦創始人，研究方向為機器學習、數據挖掘、計算幾何，致力于機器學習和深度學習在實際中的應用；主持研發50多個人工智能領域工業級項目，并受邀在中國移動、花旗銀行、中信集團、中航信、烽火科技、京東方、完美世界等公司進行了上百場講座和內部培訓。創立的睿客邦與國內十多所高校建立了AI聯合實驗室或實訓基地；兼任天津大學創業導師、山東交通學院客座教授等。曾在多個在線平臺講授“機器學習”“深度學習”等課程，廣受網友好評，累計學習人數超過百萬。

鬲玲??碩士，資深研發工程師，研究方向為知識工程、語義檢索、強化學習、自然語言處理。作為牽頭單位技術負責人，參與并完成國家科技支撐計劃項目1項，863計劃項目1項。有多年知識管理系統以及自然語言處理項目研發經驗，目前正致力于垂直領域知識圖譜的落地以及強化學習在自然語言處理領域的應用。

劉昱杓??深度學習、強化學習研發工程師，研究方向為計算機視覺。有多年深度學習視覺方向開發經驗，參與了多個圖像識別、目標檢測、目標追蹤等領域的落地項目。目前專注于深度強化學習方向的研究。

本書內容

《強化學習》一書內容系統全面，覆蓋面廣，既有理論闡述、公式推導，又有豐富的典型案例，理論聯系實際。書中全面系統地描述了強化學習的起源、背景和分類，各類強化學習算法的原理、實現方式以及各算法間的關系，為讀者構建了一個完整的強化學習知識體系；同時包含豐富的經典案例，如各類迷宮尋寶、飛翔小鳥、撲克牌、小車爬山、倒立擺、鐘擺、多臂賭博機、五子棋、AlphaGo、AlphaGo Zero、AlphaZero等，通過給出它們對應的詳細案例說明和代碼描述，讓讀者深度理解各類強化學習算法的精髓。《強化學習》案例生動形象，描述深入淺出，代碼簡潔易懂，注釋詳細。

《強化學習》可作為高等院校計算機、自動化及相關專業的本科生或研究生教材，也可供對強化學習感興趣的研究人員和工程技術人員閱讀參考。

涉及主題

馬爾可夫決策過程
動態規劃
蒙特卡羅
時序差分
資格跡
值函數逼近
隨機策略梯度
Actor-Critic及變種
確定性策略梯度
學習與規劃
探索與利用

圖書目錄

第1章強化學習概述

1.1強化學習的背景

1.2強化學習初探

1.2.1智能體和環境

1.2.2智能體主要組成

1.2.3強化學習、監督學習、非監督學習

1.2.4強化學習分類

1.2.5研究方法

1.2.6發展歷程

1.3強化學習的重點概念

1.3.1學習與規劃

1.3.2探索與利用

1.3.3預測與控制

1.4小結

1.5習題

第2章馬爾可夫決策過程

2.1馬爾可夫基本概念

2.1.1馬爾可夫性

2.1.2馬爾可夫過程

2.1.3馬爾可夫決策過程

2.2貝爾曼方程

2.2.1貝爾曼期望方程

2.2.2貝爾曼最優方程

2.3最優策略

2.3.1最優策略定義

2.3.2求解最優策略

2.4小結

2.5習題

第3章動態規劃

3.1動態規劃簡介

3.2策略評估

3.3策略改進

3.4策略迭代

3.5值迭代

3.6實例講解

3.6.1“找寶藏”環境描述

3.6.2策略迭代

3.6.3值迭代

3.6.4實例小結

3.7小結

3.8習題

第4章蒙特卡羅

4.1蒙特卡羅簡介

4.2蒙特卡羅評估

4.3蒙特卡羅控制

4.4在線策略蒙特卡羅

4.5離線策略蒙特卡羅

4.5.1重要性采樣離線策略蒙特卡羅

4.5.2加權重要性采樣離線策略蒙特卡羅

4.6實例講解

4.6.1“十點半”游戲

4.6.2在線策略蒙特卡羅

4.6.3離線策略蒙特卡羅

4.6.4實例小結

4.7小結

4.8習題

第5章時序差分

5.1時序差分簡介

5.2三種方法的性質對比

5.3Sarsa：在線策略TD

5.4Q-learning：離線策略TD方法

5.5實例講解

5.5.1迷宮尋寶

5.5.2Sarsa方法

5.5.3Q-learning方法

5.5.4實例小結

5.6小結

5.7習題

第6章資格跡

6.1資格跡簡介

6.2多步TD評估

6.3前向算法

6.4后向算法

6.5前向算法與后向算法的統一

6.6Sarsa(λ)方法

6.6.1前向Sarsa(λ)方法

6.6.2后向Sarsa(λ)方法

6.7Q (λ)方法

6.7.1前向Watkinss Q(λ)方法

6.7.2后向Watkinss Q(λ)方法

*6.7.3Pengs Q(λ)方法

6.8實例講解

6.8.1風格子世界

6.8.2后向Sarsa(λ)

6.8.3后向Q(λ)

6.8.4實例小結

6.9小結

6.10習題

第7章值函數逼近

7.1值函數逼近簡介

7.2線性逼近

7.2.1增量法

7.2.2批量法

7.3非線性逼近

7.3.1DQN方法

7.3.2Double DQN方法

7.3.3Dueling DQN方法

7.4實例講解

7.4.1游戲簡介

7.4.2環境描述

7.4.3算法詳情

7.4.4核心代碼

7.5小結

7.6習題

第8章隨機策略梯度

8.1隨機策略梯度簡介

8.1.1策略梯度優缺點

8.1.2策略梯度方法分類

8.2隨機策略梯度定理及證明

8.2.1隨機策略梯度定理

*8.2.2隨機策略梯度定理證明

8.3蒙特卡羅策略梯度

8.3.1REINFORCE方法

8.3.2帶基線的REINFORCE方法

8.4TRPO方法

8.5實例講解

8.5.1游戲簡介及環境描述

8.5.2算法詳情

8.5.3核心代碼

8.6小結

8.7習題

第9章Actor-Critic及變種

9.1AC方法

9.1.1在線策略AC方法

9.1.2離線策略AC方法

9.1.3兼容性近似函數定理

9.2A2C方法

9.3A3C方法

9.3.1簡介

9.3.2異步Q-learning方法

9.3.3異步Sarsa方法

9.3.4異步n步Q-learning方法

9.3.5A3C方法詳述

9.4實例講解

9.4.1AC實例

9.4.2A3C實例

9.5小結

9.6習題

第10章確定性策略梯度

10.1確定性策略梯度及證明

10.1.1確定性策略梯度定理

*10.1.2確定性策略梯度定理證明

10.2DPG方法

10.2.1在線策略確定性AC方法

10.2.2離線策略確定性AC

10.2.3兼容性近似函數定理

10.3DDPG方法

10.3.1DDPG簡介

10.3.2算法要點

10.3.3算法流程

10.4實例講解

10.4.1游戲簡介及環境描述

10.4.2算法詳情

10.4.3核心代碼

10.5小結

10.6習題

第11章學習與規劃

11.1有模型方法和無模型方法

11.2模型擬合

11.2.1模型數學表示

11.2.2監督式學習構建模型

11.2.3利用模型進行規劃

11.3Dyna框架及相關算法

11.3.1Dyna-Q

11.3.2Dyna-Q+

11.3.3優先級掃描的Dyna-Q

11.4Dyna-2

11.5實例講解

11.5.1游戲簡介及環境描述

11.5.2算法詳情

11.5.3核心代碼

11.6小結

11.7習題

第12章探索與利用

12.1探索-利用困境

12.2多臂賭博機問題

12.3樸素探索

12.4樂觀初始值估計

12.5置信區間上界

12.6概率匹配

12.7信息價值

12.8實例講解

12.8.1游戲簡介及環境描述

12.8.2算法詳情

12.8.3核心代碼

12.9小結

12.10習題

第13章博弈強化學習

13.1博弈及博弈樹

13.2極大極小搜索

13.3Alpha-Beta搜索

13.4蒙特卡羅樹搜索

13.5AlphaGo

13.5.1監督學習策略網絡pσ

13.5.2快速走子策略網絡pπ

13.5.3強化學習策略網絡pρ

13.5.4價值網絡vθ

13.5.5蒙特卡羅樹搜索

13.5.6總結

13.6AlphaGo Zero

13.6.1下棋原理

13.6.2網絡結構

13.6.3蒙特卡羅樹搜索

13.6.4總結

13.7AlphaZero

13.8實例講解

13.8.1游戲簡介及環境描述

13.8.2算法流程描述

13.8.3算法細節

13.8.4核心代碼

13.9小結

13.10習題

參考文獻

編輯推薦

內容由淺入深

為了讓讀者快速理解和應用強化學習技術，本書深入分析了相關算法的具體實現，由淺入深，循序漸進，內容豐富，易學實用

作者具有豐富的行業實踐經驗

使得內容兼具理論性與實用性，不僅給出了算法的運行流程，還給出了該類算法的應用案例

強化學習算法案例

書中列舉了近20個強化學習算法案例，可以幫助讀者快速提升能力

配套資源

程序代碼，教學課件，習題答案

教學資源

本書提供配套教學課件等資源，可以關注「人工智能科學與技術」公眾號，在對話框界面輸入“教學大綱”、“教學課件”、“程序代碼”、“學習素材”可以免費獲取對應資源。

圖書贈送

本次為大家帶來5本正版新書。快來發表你的評論，5月31日23點前，評論點贊數前2名的讀者將獲贈正版圖書5本！！！

圖書詳情

掃碼可以觀看《強化學習》京東詳情頁面。

AI學習相伴，你「在看」嗎↓

總結

以上是生活随笔為你收集整理的邹伟博士出书啦！——《强化学习》从基础概念、核心原理到应用案例（文末赠书）...的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：【算法入门】动态图展示 6 个常用的数据
下一篇：【图专题】三篇图神经网络中的图核函数：主