日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 人工智能 > ChatGpt >内容正文

ChatGpt

强化学习(一)——专业术语及OpenAI Gym介绍

發布時間:2025/3/21 ChatGpt 33 豆豆
生活随笔 收集整理的這篇文章主要介紹了 强化学习(一)——专业术语及OpenAI Gym介绍 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

強化學習(一)——專業術語及OpenAI Gym介紹

  • 1. 專業術語
    • 1.1 Agent(智能體)
    • 1.2 Environment(環境)
    • 1.3 State *s*(狀態)
    • 1.4 Action *a*(動作)
    • 1.5 Reward *r*(獎勵)
    • 1.6 Policy *π*(策略函數)
    • 1.7 State transition *p*(*s*’ |*s*, *a*)(狀態轉移函數)
    • 1.8 Return *U*(回報)
    • 1.8 Action-value function(動作價值函數)
    • 1.9 Optimal action-value function(最優動作價值函數)
    • 1.10 State-value function(狀態價值函數)
  • 2. OpenAI Gym
    • 2.1 安裝
    • 2.2 簡單使用

1. 專業術語

1.1 Agent(智能體)

強化學習的控制對象。

1.2 Environment(環境)

與智能體交互的對象。

1.3 State s(狀態)

智能體所處狀態。

1.4 Action a(動作)

智能體所能執行的操作。

1.5 Reward r(獎勵)

智能體執行動作后獲得獎勵。

1.6 Policy π(策略函數)

動作的抽樣函數。

1.7 State transition p(s’ |s, a)(狀態轉移函數)

Agent執行動作后獲得的新狀態。

1.8 Return U(回報)

未來的累計折扣獎勵:Ut=Rt+γRt+1+γ2Rt+2+???U_t = R_t+\gamma R_{t+1}+ \gamma ^2R_{t+2} + ··· Ut?=Rt?+γRt+1?+γ2Rt+2?+???

1.8 Action-value function(動作價值函數)

Qπ(st,at)=E[Ut∣at,st]Q_π(s_t,a_t)=E[U_t|a_t,s_t] Qπ?(st?,at?)=E[Ut?at?,st?]

1.9 Optimal action-value function(最優動作價值函數)

Qπ?(st,at)=max?πQπ(st,at)Q_π^*(s_t,a_t)=\displaystyle\max_{π}Q_π(s_t,a_t) Qπ??(st?,at?)=πmax?Qπ?(st?,at?)

1.10 State-value function(狀態價值函數)

Vπ(st)=EA[Qπ(st,A)]V_π(s_t)=E_A[Q_π(s_t,A)] Vπ?(st?)=EA?[Qπ?(st?,A)]

2. OpenAI Gym

2.1 安裝

conda create -n gym python=3.6.0 pip install gym matplotlib -i https://pypi.tuna.tsinghua.edu.cn/simple

2.2 簡單使用

import gym import timeenv = gym.make("CartPole-v0")state = env.reset()for epoch in range(100):env.render()time.sleep(1)action = env.action_space.sample()state,reward,done,info = env.step(action)if done:print("Finish!")break env.close()

本文為參考B站學習視頻書寫的筆記!

by CyrusMay 2022 03 28

青春是挽不回的水
轉眼消失在指尖
——————五月天(瘋狂世界)——————

總結

以上是生活随笔為你收集整理的强化学习(一)——专业术语及OpenAI Gym介绍的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。