日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

强化学习—— 经验回放(Experience Replay)

發布時間:2025/3/21 编程问答 37 豆豆
生活随笔 收集整理的這篇文章主要介紹了 强化学习—— 经验回放(Experience Replay) 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

強化學習—— 經驗回放(Experience Replay)

  • 1、DQN的缺點
    • 1.1 DQN
    • 1.2 DQN的不足
      • 1.2.1 經驗浪費
      • 1.2.2 相關更新(correlated update)
  • 2 經驗回放
    • 2.1 簡介
    • 2.2 計算步驟
    • 2.3 經驗回放的優點
  • 3. 改進的經驗回放(Prioritized experience replay)
    • 3.1 基本思想
    • 3.2 重要性抽樣(importance sampling)
      • 3.2.1 抽樣方式
      • 3.2.2 學習率變換(scaling learning rate)
      • 3.2.3 訓練過程
    • 3.3 總結

1、DQN的缺點

1.1 DQN

  • 近似最優動作價值函數:Q(s,a;W)~Q?(s,a)Q(s,a;W)\sim Q^\star (s,a)Q(s,a;W)Q?(s,a)
  • TD error:δt=qt?yt\delta_t=q_t-y_tδt?=qt??yt?
  • TD Learning:L(W)=1T∑t=1Tδt22L(W)=\frac{1}{T}\sum_{t=1}^{T} \frac{\delta_t^2}{2}L(W)=T1?t=1T?2δt2??

1.2 DQN的不足

1.2.1 經驗浪費

  • 一個 transition為:(st,at,rt,st+1)(s_t,a_t,r_t,s_{t+1})(st?,at?,rt?,st+1?)
  • 經驗(所有的transition)為:{(s1,a1,r1,s2,),...(st,at,rt,st+1),...,sT,aT,rT,sT+1}\{(s1,a1,r1,s2,),...(s_t,a_t,r_t,s_{t+1}),...,s_T,a_T,r_T,s_{T+1}\}{(s1,a1,r1,s2,),...(st?,at?,rt?,st+1?),...,sT?,aT?,rT?,sT+1?}

1.2.2 相關更新(correlated update)

通常t時刻的狀態和t+1時刻的狀態是強相關的。
r(st,st+1)r(s_t,s_{t+1})r(st?,st+1?)

2 經驗回放

2.1 簡介

  • 一個transition為:(st,at,rt,st+1)(s_t,a_t,r_t,s_{t+1})(st?,at?,rt?,st+1?)
  • 回放容器(replay buffer)為:存儲n個transition
  • 如果超過n個transition時,刪除最早進入容器的transition
  • 容器容量(buffer capacity)n為一個超參數:n一般設置為較大的數,如105~106具體大小取決于任務n一般設置為較大的數,如10^5\sim 10^6\\具體大小取決于任務n105106
  • 2.2 計算步驟

  • 最小化目標為:L(W)=1T∑t=1Tδt22L(W)=\frac{1}{T}\sum_{t=1}^{T} \frac{\delta_t^2}{2}L(W)=T1?t=1T?2δt2??
  • 使用隨機梯度下降(SGD)進行更新:
    • 從buffer中隨機抽樣:(si,ai,ri,si+1)(s_i,a_i,r_i,s_{i+1})(si?,ai?,ri?,si+1?)
    • 計算TD Error:δi\delta_iδi?
    • 隨機梯度為:gi=?δi22?W=δi??Q(si,ai;W)?Wg_i=\frac{\partial \frac{\delta_i^2}{2}}{\partial W}= \delta_i \cdot \frac{\partial Q(s_i,a_i;W)}{\partial W}gi?=?W?2δi2???=δi???W?Q(si?,ai?;W)?
    • 梯度更新:W←W?αgiW\gets W-\alpha g_iWW?αgi?

    2.3 經驗回放的優點

  • 打破了序列相關性
  • 重復利用過去的經驗
  • 3. 改進的經驗回放(Prioritized experience replay)

    3.1 基本思想

  • 不是所有transition都同等重要
  • TD error 越大,則transition更重要:∣δt∣|\delta_t|δt?
  • 3.2 重要性抽樣(importance sampling)

    用非均勻抽樣替代均勻抽樣

    3.2.1 抽樣方式

  • pt∝∣δt∣+?p_t \propto |\delta_t|+\epsilonpt?δt?+?
  • transition依據TD error進行降序處理,rank(t)代表第t個transition:pt∝1rank(t)+?p_t \propto \frac{1}{rank(t)}+\epsilonpt?rank(t)1?+?
    總而言之,TD error越大,被抽樣的概率越大,通常按Mini-batch進行抽樣。
  • 3.2.2 學習率變換(scaling learning rate)

    為了抵消不同抽樣概率造成的學習偏差,需要對學習率進行變換

    • SGD:W←W?α?gW\gets W-\alpha \cdot gWW?α?g
    • 均勻抽樣:學習率對于所有transition都一樣(轉換因子為1):p1=p2=...=pnp_1=p_2=...=p_np1?=p2?=...=pn?
    • 非均勻抽樣:高概率對應低學習率:(n?pt)?ββ∈[0,1](n\cdot p_t)^{-\beta}\\ \beta \in [0,1](n?pt?)?ββ[0,1]網絡剛開始訓練時,β設置較小,隨著網絡訓練,逐漸增加β至1。

    3.2.3 訓練過程

  • 如果一個transition最近被收集,還未知其TD Error,將其TD Error設為最大值,即具有最高的優先級。
  • 每次從replay buffer中選取出一個transition,然后更新其TD Error:δt\delta_tδt?
  • 3.3 總結

    transitionsampling probabilitieslearning rates
    (st,at,rt,st+1)(s_t,a_t,r_t,s_{t+1})(st?,at?,rt?,st+1?)pt∝∣δt∣+?p_t \propto |\delta_t|+\epsilonpt?δt?+?α?n?(pt)?β\alpha \cdot n\cdot (p_t)^{-\beta}α?n?(pt?)?β
    (st+1,at+1,rt+1,st+2)(s_{t+1},a_{t+1},r_{t+1},s_{t+2})(st+1?,at+1?,rt+1?,st+2?)pt+1∝∣δt+1∣+?p_{t+1}\propto |\delta_{t+1}|+\epsilonpt+1?δt+1?+?α?n?(pt+1)?β\alpha \cdot n\cdot (p_{t+1})^{-\beta}α?n?(pt+1?)?β
    (st+2,at+2,rt+2,st+3)(s_{t+2},a_{t+2},r_{t+2},s_{t+3})(st+2?,at+2?,rt+2?,st+3?)pt+2∝∣δt+2∣+?p_{t+2}\propto |\delta_{t+2}|+\epsilonpt+2?δt+2?+?α?n?(pt+2)?β\alpha \cdot n\cdot (p_{t+2})^{-\beta}α?n?(pt+2?)?β

    本文內容為參考B站學習視頻書寫的筆記!

    by CyrusMay 2022 04 10

    我們在小孩和大人的轉角
    蓋一座城堡
    ——————五月天(好好)——————

    總結

    以上是生活随笔為你收集整理的强化学习—— 经验回放(Experience Replay)的全部內容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。

    主站蜘蛛池模板: 91精品免费观看 | 夫妻性生活自拍 | 中文字幕无码人妻少妇免费 | 国产一区激情 | 毛片福利 | 日韩视频免费观看高清完整版在线观看 | 黄色三级大片 | 艳妇臀荡乳欲伦交换gif | 日韩欧美一二三四区 | 中国成熟妇女毛茸茸 | 骚虎视频最新网址 | 欧美xxxxx自由摘花 | 亚洲a毛片| 99爱在线视频 | 免费av日韩 | 99久久久精品免费观看国产 | 美女试爆场恐怖电影在线观看 | 日韩欧美国产激情 | 在线播放无码后入内射少妇 | 日日夜夜伊人 | 亚洲国产日韩在线一区 | 国产一区二区三区影视 | 国产又大又黄的视频 | 成年视频在线观看 | 干b视频在线观看 | 国产性久久 | 成人娱乐网| 一级日韩片| 四虎三级 | 成人免费91 | 欧美日韩在线视频免费 | 欧美 日韩 国产一区 | 国产femdom调教7777| 欧美色第一页 | 国产1区2区3区4区 | 91欧美精品 | 国产欧美综合视频 | 亚洲男女视频 | 亚洲成人精品网 | 中文字幕久久久 | 高潮毛片7777777毛片 | 我和公激情中文字幕 | 欧美日一本 | 青青青国产精品一区二区 | 亚洲第一色在线 | 91漂亮少妇露脸在线播放 | 国产一区啪啪 | 麻豆视频网站在线观看 | 欧美www视频 | 亚洲一区和二区 | 精品在线播放视频 | 中文字幕av不卡 | 久久综合99 | 超碰2021| 男人干女人视频 | 激情欧美一区二区三区 | 成人免费看高清电影在线观看 | 欧美巨乳美女 | 蜜桃精品在线观看 | 日本欧美一级 | 岛国一区二区三区 | 国产成人日韩 | 免费一级特黄毛大片 | 色综合天天综合网国产成人网 | 少妇色欲网| 激情综合区 | 艳妇乳肉豪妇荡乳xxx | 国产真人做爰毛片视频直播 | 欧美俄罗斯乱妇 | 91精品啪 | 欧美日韩视频一区二区三区 | 久久久久国产精品国产 | 日本三级精品 | 中文字幕日本一区 | 秋霞欧美一区二区三区视频免费 | 欧美视频一区二区在线观看 | 久久手机免费视频 | 免费看欧美黑人毛片 | 日韩电影一区二区在线观看 | 欧美性免费 | 亚洲综合在线一区二区 | 制服丝袜第二页 | 国产91绿帽单男绿奴 | 欧美日国产 | 黄色三级网站 | 久久99精品久久久久久噜噜 | 99精品视频免费版的特色功能 | 国产又粗又猛又爽又黄的视频在线观看动漫 | 欧美一级色图 | 免费在线播放毛片 | 白嫩初高中害羞小美女 | 国产精品成av人在线视午夜片 | 欧美日韩第一区 | 亚洲国产一区二区a毛片 | 电家庭影院午夜 | 精品亚洲成人 | 在线免费看av | 国产性猛交╳xxx乱大交一区 | 91在线看片 |