强化学习(十九) AlphaGo Zero强化学习原理
生活随笔
收集整理的這篇文章主要介紹了
强化学习(十九) AlphaGo Zero强化学习原理
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
在強化學習(十八) 基于模擬的搜索與蒙特卡羅樹搜索(MCTS)中,我們討論了MCTS的原理和在棋類中的基本應用。這里我們在前一節MCTS的基礎上,討論下DeepMind的AlphaGo Zero強化學習原理。
本篇主要參考了AlphaGo Zero的論文, AlphaGo Zero綜述和AlphaGo Zero Cheat Sheet。
1. AlphaGo Zero模型基礎
AlphaGo Zero不需要學習人類的棋譜,通過自我對弈完成棋力提高。主要使用了兩個模型,第一個就是我們上一節介紹MCTS樹結構,另一個是一個神經網絡。MCTS上一篇已經有基本介紹了,對于神經網絡,它的輸入是當前的棋局狀態,輸出兩部分,第一部分輸出是在當前棋局狀態下各個可能的落子動作對應的獲勝概率p,可以簡單理解為Actor-Critic策略函數部分。另一部分輸出為獲勝或者失敗的評估[-1,1],可以簡單理解為Actor-Critic價值函數部分。
AlphaGo Zero的行棋主要是由MCTS指導完成的,但是在MCTS搜索的過程中,由于有一些不在樹中的狀態需要仿真,做局面
《新程序員》:云原生和全面數字化實踐50位技術專家共同創作,文字、視頻、音頻交互閱讀總結
以上是生活随笔為你收集整理的强化学习(十九) AlphaGo Zero强化学习原理的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 强化学习(十七) 基于模型的强化学习与D
- 下一篇: 深度神经网络(DNN)模型与前向传播算法