日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

强化学习与深度,神经网络的结合随记

發布時間:2025/3/21 编程问答 20 豆豆
生活随笔 收集整理的這篇文章主要介紹了 强化学习与深度,神经网络的结合随记 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

84*84*4表示一個state,4表示4幀圖像。

每個像素點都有0-255種可能取值,256的84*84*4次冪表示4張圖全部像素點的總共可能性取值。說明如果全部像素點都拿來做state,那Q-table就太大了。

可不可以借助神經網絡來做?

改變每個像素點的值,轉換為黑白圖像:0代表黑色,255代表白色。黑色是可以走的區域,白色是不可以走的區域。每4幀圖像為一個state

每個位置都有一個當前最優解,但是不是全局最優解呢?我們之前的解都是根據貪心的選擇做最優的解,如果加上一些探索(比如10%可能性不走當前最優解,在最優解和其他解當中隨機的選一個),嘗試全局最優解。

開發:每次按貪心的選擇去走最好的一個方向。但是要讓網絡泛化能力更強,因為神經網絡有時會過擬合,所以要加上一些探索,使得網絡能夠去發現一些新的東西。

例如貪心為10%,那么它有90%按正常去走,10%按隨機去走。

《新程序員》:云原生和全面數字化實踐50位技術專家共同創作,文字、視頻、音頻交互閱讀

總結

以上是生活随笔為你收集整理的强化学习与深度,神经网络的结合随记的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。