當前位置:
首頁 >
强化学习(五)---基于模型的强化学习实战
發(fā)布時間:2025/4/5
32
豆豆
生活随笔
收集整理的這篇文章主要介紹了
强化学习(五)---基于模型的强化学习实战
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
有一個4*4的矩陣,0和15代表出口
結果輸出第一個矩陣一共輸出16個向量,每個向量里面的位置代表,在當前狀態(tài)往哪里走比較好,第二個矩陣對第一個矩陣進行統(tǒng)計處理,更加直觀,也是表示在16個狀態(tài),每個位置最好的動作方向
參考資料:唐宇迪視頻
總結
以上是生活随笔為你收集整理的强化学习(五)---基于模型的强化学习实战的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 强化学习(四)---基于模型动态规划问题
- 下一篇: 强化学习(六)---基于无模型强化学习方