日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

如何判断强化学习训练是否在收敛?

發布時間:2025/4/5 编程问答 39 豆豆
生活随笔 收集整理的這篇文章主要介紹了 如何判断强化学习训练是否在收敛? 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

參考鏈接:

1、信息熵 – 針對于策略問題

如果信息熵逐漸降低,表明策略越來越確定,趨于平緩

2、loss指標 – 評價網絡收斂的好壞

雖然不能直觀的說明策略的好壞,但是loss可以看出網絡模型的學習程度。
趨于平緩,訓練的差不多了,不代表策略最優

3、reward

reward大多數是對于狀態之間轉移的即時獎勵,和整個決策規劃的好壞不能直接等價。
在訓練過程中,DRL策略在一個episode下的平均獎賞沒有明顯變化時,可以視為DRL訓練近似收斂。

  • dense reward:也可以換成使用平均reward來表示。
  • sparse reward:使用reward指標很難看出來,因為有很大一部分時候reward都是趨于0 的。

4、其他

  • 結合了具體場景的一些指標,如游戲中agent的血量、存活率等,采用一些可以進行評價的指標
  • 有些場景下設置了學習了隨訓練輪次逐漸減少的trick,也會影響一些收斂判斷。

總結

以上是生活随笔為你收集整理的如何判断强化学习训练是否在收敛?的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。