日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 >

强化学习与深度,神经网络的结合随记

發布時間:2025/3/21 28 豆豆
生活随笔 收集整理的這篇文章主要介紹了 强化学习与深度,神经网络的结合随记 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

84*84*4表示一個state,4表示4幀圖像。

每個像素點都有0-255種可能取值,256的84*84*4次冪表示4張圖全部像素點的總共可能性取值。說明如果全部像素點都拿來做state,那Q-table就太大了。

可不可以借助神經網絡來做?

改變每個像素點的值,轉換為黑白圖像:0代表黑色,255代表白色。黑色是可以走的區域,白色是不可以走的區域。每4幀圖像為一個state

每個位置都有一個當前最優解,但是不是全局最優解呢?我們之前的解都是根據貪心的選擇做最優的解,如果加上一些探索(比如10%可能性不走當前最優解,在最優解和其他解當中隨機的選一個),嘗試全局最優解。

開發:每次按貪心的選擇去走最好的一個方向。但是要讓網絡泛化能力更強,因為神經網絡有時會過擬合,所以要加上一些探索,使得網絡能夠去發現一些新的東西。

例如貪心為10%,那么它有90%按正常去走,10%按隨機去走。

《新程序員》:云原生和全面數字化實踐50位技術專家共同創作,文字、視頻、音頻交互閱讀

總結

以上是生活随笔為你收集整理的强化学习与深度,神经网络的结合随记的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。