日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 >

增强学习(一) ----- 基本概念

發布時間:2025/4/5 14 豆豆
生活随笔 收集整理的這篇文章主要介紹了 增强学习(一) ----- 基本概念 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

 

機器學習算法大致可以分為三種:

    1. 監督學習(如回歸,分類)

    2. 非監督學習(如聚類,降維)

    3. 增強學習

什么是增強學習呢?

增強學習(reinforcementlearning, RL)又叫做強化學習,是近年來機器學習和智能控制領域的主要方法之一。

定義: Reinforcement learning is learning what to do ----how to map situations to actions ---- so as to maximize a numerical reward signal.[1]  

也就是說增強學習關注的是智能體如何在環境中采取一系列行為,從而獲得最大的累積回報。

通過增強學習,一個智能體應該知道在什么狀態下應該采取什么行為。RL是從環境狀態到動作的映射的學習,我們把這個映射稱為策略。

那么增強學習具體解決哪些問題呢,我們來舉一些例子:

例1. flappy bird 是現在很流行的一款小游戲,不了解的同學可以點鏈接進去玩一會兒。現在我們讓小鳥自行進行游戲,但是我們卻沒有小鳥的動力學模型,也不打算了解它的動力學。要怎么做呢? 這時就可以給它設計一個增強學習算法,然后讓小鳥不斷的進行游戲,如果小鳥撞到柱子了,那就獲得-1的回報,否則獲得0回報。通過這樣的若干次訓練,我們最終可以得到一只飛行技能高超的小鳥,它知道在什么情況下采取什么動作來躲避柱子。

例2. 假設我們要構建一個下國際象棋的機器,這種情況不能使用監督學習

總結

以上是生活随笔為你收集整理的增强学习(一) ----- 基本概念的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。