日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

强化学习(二)—— 价值学习(Value-Based)及DQN

發布時間:2025/3/21 编程问答 20 豆豆
生活随笔 收集整理的這篇文章主要介紹了 强化学习(二)—— 价值学习(Value-Based)及DQN 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

強化學習(二)—— 價值學習(Value-Based)及DQN

  • 1. DQN介紹
  • 2. TD算法介紹
  • 3. 案例

1. DQN介紹

Deep Q Network

  • 目標:最大化累計獎勵(回報U)
  • 通過神經網絡近似最優動作價值函數:Q(s,a;W)≈Q?(s,a)Q(s,a;W)≈Q^*(s,a) Q(s,a;W)Q?(s,a)
  • Q函數可以幫助獲得最優動作:
    at=arg?max?aQ(st,a;W)a_t = \displaystyle\argmax_aQ(s_t,a;W) at?=aargmax?Q(st?,a;W)
  • 狀態轉移函數p可以獲得下一時刻的狀態:
    st+1=p(?∣st,at)s_{t+1} = p(·|s_t,a_t) st+1?=p(?st?,at?)

2. TD算法介紹

時序差分算法(Temporal Difference)

  • 得到t時刻的狀態和動作
    St=st;At=atS_t = s_t; A_t=a_t St?=st?;At?=at?
  • 計算t時刻的Q函數值
    qt=Q(st,at;Wt)q_t = Q(s_t,a_t;W_t) qt?=Q(st?,at?;Wt?)
  • 計算t時刻的梯度
    dt=?Q(st,at;W)?W∣W=Wtd_t = \frac{\partial Q(s_t,a_t;W)}{\partial W}|_{W=W_t} dt?=?W?Q(st?,at?;W)?W=Wt??
  • 獲得t時刻的獎勵和t+1時刻的狀態
    st+1;rts_{t+1}; r_t st+1?;rt?
  • 計算TD的目標值:
    yt=rt+γmax?aQ(st+1,a;Wt)y_t = r_t+\gamma \displaystyle\max_aQ(s_{t+1},a;W_t) yt?=rt?+γamax?Q(st+1?,a;Wt?)
  • 進行梯度更新
    wt+1=wt?α?(qt?yt)?dtw_{t+1} = w_t-\alpha ·(q_t-y_t)·d_t wt+1?=wt??α?(qt??yt?)?dt?

3. 案例

成功控制錘子保持平衡

# -*- coding: utf-8 -*- # @Time : 2022/3/28 16:39 # @Author : CyrusMay WJ # @FileName: run.py # @Software: PyCharm # @Blog :https://blog.csdn.net/Cyrus_Mayimport gym import time import tensorflow as tf import numpy as npenv = gym.make("CartPole-v0") gamma = 0.9 adam = tf.optimizers.Adam() state = env.reset() act = [1,0] x_before = np.array([list(state)+act])model = tf.keras.Sequential([tf.keras.layers.Dense(128,activation="sigmoid"),tf.keras.layers.Dense(64,activation="sigmoid"),tf.keras.layers.Dense(1), ])model.build(input_shape=[None,6])for epoch in range(2000):with tf.GradientTape() as tape:q = model(x_before)dt = tape.gradient(q,model.trainable_variables)env.render()state,reward,done,info = env.step(act[-1])state = list(state)flag = int(tf.argmax(model(np.array([state+[1,0],state+[0,1]]))[:,0]))act = [0,0]act[flag] = 1x_before = np.array([state + act])y = reward + gamma*model(x_before)dt = [(q[0][0]-y[0][0])*dt[i] for i in range(len(dt))]adam.apply_gradients([(i,j) for i,j in zip(dt,model.trainable_variables)])print(epoch,":",q[0][0]-y[0][0])if done:# time.sleep(1)state = env.reset()act = [1, 0]x_before = np.array([list(state) + act])continueprint("end!")for epoch in range(100):state = env.reset()act = [1, 0]env.render()state,reward,done,info = env.step(act[-1])state = list(state)flag = int(tf.argmax(model(np.array([state+[1,0],state+[0,1]]))[:,0]))act = [0,0]act[flag] = 1if done:print(epoch)break env.close()

本文部分為參考B站學習視頻書寫的筆記!

by CyrusMay 2022 03 28

如果命運是風
什么又是我的弦
——————五月天(一半人生)——————

總結

以上是生活随笔為你收集整理的强化学习(二)—— 价值学习(Value-Based)及DQN的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。

主站蜘蛛池模板: 亚洲少妇xxx | 看看黄色片 | 天堂av在线中文 | 在线视频福利 | 欧美撒尿777hd撒尿 | 黄色精品| 久久免费播放视频 | 影音先锋波多野结衣 | 亚洲成年人网 | 狠狠插av | 亚洲综合激情小说 | 日日狠狠 | 白浆在线 | 性欧美大战久久久久久久 | 5d肉蒲团之性战奶水 | 性史性dvd影片农村毛片 | 高h大肚孕期孕妇play | 久久一区二区三区四区 | 欧美亚洲视频在线观看 | 超碰午夜 | 三上悠亚 在线观看 | 天天插插 | 手机看片福利视频 | av资源站最新av | juliaann第一次和老师 | 69精品在线 | 日韩精品久久久久久久 | 欧美一级在线视频 | 亚洲深夜av | 日本三级网站在线观看 | 17c一起操 | 国产区视频在线观看 | 国产成人av一区二区三区在线观看 | 女人叉开腿让男人桶 | 欧美18一20男同69gay | 少妇高潮一区二区三区69 | 亚洲在线中文字幕 | 放荡闺蜜高h苏桃情事h | 热99这里只有精品 | 一本大道东京热无码 | 精品国产传媒 | 看片地址 | 玉蒲团在线 | 加勒比日韩 | 国产香蕉在线 | av网站天堂 | 毛片毛片毛片毛片毛片毛片毛片毛片毛片毛片 | 欧美日韩电影一区 | 激情第四色 | 精东影业一区二区三区 | 日韩一级片网址 | 国产乱妇乱子 | 色综合久久久久无码专区 | 免费欧美视频 | 久久人人爽人人人人片 | 久久对白 | 一区二区三区日韩欧美 | 最新高清无码专区 | 狠狠爱欧美 | 亚洲成人a v| 黄色资源在线 | 女人舌吻男人茎视频 | 国产老头和老头xxxx× | 成人亚洲| 日韩欧美国产成人精品免费 | 国产在线欧美日韩 | 国产又白又嫩又爽又黄 | www.jizz国产| 丝袜老师扒开让我了一夜漫画 | 久操不卡 | 美国一级黄色大片 | 黄色网炮 | 特级淫片裸体免费看冫 | 精品国产鲁一鲁一区二区张丽 | 天堂8av | 久久女| 日本成人在线播放 | 国产成人在线一区 | 亚洲精品视频在线观看免费视频 | 亚洲自拍天堂 | 性猛交╳xxx乱大交 偷偷操不一样的久久 | 亚洲一级av无码毛片精品 | 欧美性猛交性大交 | 欧美伊人 | 麻豆视频黄色 | 99在线观看免费视频 | 日韩精品成人在线 | 成人免费视频a | 午夜污| 中国少妇无码专区 | 人人爱人人搞 | 久久久天堂国产精品女人 | av成人动漫| 免费成人黄色网 | se在线观看 | 亚洲欧美一区二区三区四区五区 | 香蕉在线观看视频 | 中文字幕日韩人妻在线视频 | 在线观看麻豆av |