强化学习与深度,神经网络的结合随记
生活随笔
收集整理的這篇文章主要介紹了
强化学习与深度,神经网络的结合随记
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
84*84*4表示一個state,4表示4幀圖像。
每個像素點都有0-255種可能取值,256的84*84*4次冪表示4張圖全部像素點的總共可能性取值。說明如果全部像素點都拿來做state,那Q-table就太大了。
可不可以借助神經網絡來做?
改變每個像素點的值,轉換為黑白圖像:0代表黑色,255代表白色。黑色是可以走的區域,白色是不可以走的區域。每4幀圖像為一個state 每個位置都有一個當前最優解,但是不是全局最優解呢?我們之前的解都是根據貪心的選擇做最優的解,如果加上一些探索(比如10%可能性不走當前最優解,在最優解和其他解當中隨機的選一個),嘗試全局最優解。開發:每次按貪心的選擇去走最好的一個方向。但是要讓網絡泛化能力更強,因為神經網絡有時會過擬合,所以要加上一些探索,使得網絡能夠去發現一些新的東西。
例如貪心為10%,那么它有90%按正常去走,10%按隨機去走。
《新程序員》:云原生和全面數字化實踐50位技術專家共同創作,文字、視頻、音頻交互閱讀總結
以上是生活随笔為你收集整理的强化学习与深度,神经网络的结合随记的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: vue源码-对于「计算属性」的理解
- 下一篇: 问题分享:Js引用类型赋值