當前位置：首頁 >

增强学习（一） ----- 基本概念

發布時間：2025/4/5 14 豆豆

生活随笔收集整理的這篇文章主要介紹了增强学习（一） ----- 基本概念小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

機器學習算法大致可以分為三種：

1. 監督學習(如回歸，分類)

2. 非監督學習(如聚類，降維)

3. 增強學習

什么是增強學習呢？

增強學習（reinforcementlearning, RL）又叫做強化學習，是近年來機器學習和智能控制領域的主要方法之一。

定義: Reinforcement learning is learning what to do ----how to map situations to actions ---- so as to maximize a numerical reward signal.[1]

也就是說增強學習關注的是智能體如何在環境中采取一系列行為，從而獲得最大的累積回報。

通過增強學習，一個智能體應該知道在什么狀態下應該采取什么行為。RL是從環境狀態到動作的映射的學習，我們把這個映射稱為策略。

那么增強學習具體解決哪些問題呢，我們來舉一些例子：

例1. flappy bird 是現在很流行的一款小游戲，不了解的同學可以點鏈接進去玩一會兒。現在我們讓小鳥自行進行游戲，但是我們卻沒有小鳥的動力學模型，也不打算了解它的動力學。要怎么做呢？這時就可以給它設計一個增強學習算法，然后讓小鳥不斷的進行游戲，如果小鳥撞到柱子了，那就獲得-1的回報，否則獲得0回報。通過這樣的若干次訓練，我們最終可以得到一只飛行技能高超的小鳥，它知道在什么情況下采取什么動作來躲避柱子。

例2. 假設我們要構建一個下國際象棋的機器，這種情況不能使用監督學習

總結

以上是生活随笔為你收集整理的增强学习（一） ----- 基本概念的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

基本概念

上一篇：增强学习（二）----- 马尔可夫决策过
下一篇：快手火爆背后的算法逻辑分析