當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

强化学习与深度,神经网络的结合随记

發布時間：2025/3/21 编程问答 20 豆豆

生活随笔收集整理的這篇文章主要介紹了强化学习与深度,神经网络的结合随记小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

84*84*4表示一個state，4表示4幀圖像。

每個像素點都有0-255種可能取值，256的84*84*4次冪表示4張圖全部像素點的總共可能性取值。說明如果全部像素點都拿來做state，那Q-table就太大了。

可不可以借助神經網絡來做？

改變每個像素點的值，轉換為黑白圖像：0代表黑色，255代表白色。黑色是可以走的區域，白色是不可以走的區域。每4幀圖像為一個state

每個位置都有一個當前最優解，但是不是全局最優解呢？我們之前的解都是根據貪心的選擇做最優的解，如果加上一些探索(比如10%可能性不走當前最優解，在最優解和其他解當中隨機的選一個)，嘗試全局最優解。

開發：每次按貪心的選擇去走最好的一個方向。但是要讓網絡泛化能力更強，因為神經網絡有時會過擬合，所以要加上一些探索，使得網絡能夠去發現一些新的東西。

例如貪心為10%，那么它有90%按正常去走，10%按隨機去走。

《新程序員》：云原生和全面數字化實踐50位技術專家共同創作，文字、視頻、音頻交互閱讀

以上是生活随笔為你收集整理的强化学习与深度,神经网络的结合随记的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。