當(dāng)前位置：首頁 > 人工智能 > pytorch >内容正文

pytorch

深度学习（四十三）——深度强化学习（6）AlphaGo全系列

發(fā)布時間：2023/12/20 pytorch 53 豆豆

生活随笔收集整理的這篇文章主要介紹了深度学习（四十三）——深度强化学习（6）AlphaGo全系列小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

AlphaGo全系列

AlphaGo算是這波AI浪潮的里程碑事件了。如果說AlexNet讓學(xué)術(shù)界重新認(rèn)識了DL的話，AlphaGo則讓大眾都認(rèn)識到了DL的威力。我也是在AlphaGo的感召之下，投身ML/DL領(lǐng)域的（2016.7）。因此，了解AlphaGo的原理，就成為了我一直以來的目標(biāo)。豈料直到三年多之后（2019.11），我才能真正看懂AlphaGo。

歷史

我對人工智能的認(rèn)識，始于1997年深藍(lán)大戰(zhàn)卡斯帕羅夫。然而，人工智能的歷史還可追溯到更早的時代。其中，最重要的地方是貝爾實驗室和MIT。

比如，C語言和Unix之父Ken Thompson，就寫過一個叫Belle的國際象棋程序。這也是第一個達(dá)到大師級水平的國際象棋程序。

這個時代，博弈系統(tǒng)的人工智能主要采用窮舉遍歷博弈樹的方式。Ken Thompson針對國際象棋殘局進行了計算機窮舉。他發(fā)現(xiàn)之前一些公認(rèn)和局的殘局，實際上是有勝負(fù)的，只是勝負(fù)要在50步以上，其中的一些走法甚至看不出具體的含義。

窮舉法到深藍(lán)時代，達(dá)到了頂峰。此后的博弈研究逐漸轉(zhuǎn)向其他領(lǐng)域，圍棋就是其中一個熱點。

國內(nèi)的圍棋軟件早期大概算“手談”（作者：陳志行）最為出名。我1996年的時候接觸過，但是它的棋力實在太差。我的一個手下敗將（可讓6子），居然也可讓軟件2子。總之，完全入門級的水平，只適合學(xué)棋4個月以內(nèi)的人。

后來的GNUGo就好的多了，我最多只能讓它2子。

陳志行，1931～2008，廣東番禺人。中山大學(xué)化學(xué)系畢業(yè)（1952），中山大學(xué)教授。1991年退休后，從事電腦圍棋開發(fā)。從1993年起，共10次獲得電腦圍棋世界冠軍。

參考：

https://www.cnblogs.com/wiki3d/p/handtalk.html

陳志行：計算機圍棋程序手談作者

DarkForestGo

DarkForestGo是田淵棟2015年11月的作品，雖然棋力和稍后的AlphaGo相去甚遠(yuǎn)，但畢竟也算是用到了RL和DNN了。

論文：

《Better Computer Go Player with Neural Network and Long-term Prediction》

代碼：

https://github.com/facebookresearch/darkforestGo

DarkForest中的一些規(guī)則借鑒了開源圍棋軟件Pachi：

http://pachi.or.cz/

以下是作者本人的講解：

https://zhuanlan.zhihu.com/p/20607684

AlphaGo的分析

上圖是DarkForest的網(wǎng)絡(luò)結(jié)構(gòu)圖。其中的細(xì)節(jié)，我們將在講解AlphaGo的時候，再細(xì)說。

AlphaGo

論文：

《Mastering the game of Go with deep neural networks and tree search》

AlphaGo主要由幾個部分組成：

走棋網(wǎng)絡(luò)（Policy Network），給定當(dāng)前局面，預(yù)測/采樣下一步的走棋。

快速走子（Fast rollout），目標(biāo)和1一樣，但在適當(dāng)犧牲走棋質(zhì)量的條件下，速度要比1快1000倍。

估值網(wǎng)絡(luò)（Value Network），給定當(dāng)前局面，估計是白勝還是黑勝。

蒙特卡羅樹搜索（Monte Carlo Tree Search，MCTS)，把以上這三個部分連起來，形成一個完整的系統(tǒng)。

以下是詳細(xì)的解說。

Policy Network

上圖是AlphaGo的Policy Network的網(wǎng)絡(luò)結(jié)構(gòu)圖。

從結(jié)構(gòu)來看，它與DarkForestGo是十分類似的：

都是1層5x5的conv+k層3x3的conv。

兩者的input plane都是手工構(gòu)建的特征。

由于棋子的精確位置很重要，這些CNN中都沒有pooling。

它們的差異在于：

1.DarkForestGo訓(xùn)練時，會預(yù)測三步而非一步，提高了策略輸出的質(zhì)量。

Policy Network擺脫了之前的基于規(guī)則的圍棋軟件，長于局部，但大局較差的弱點，它的大局觀非常強，不會陷入局部戰(zhàn)斗中。例如，DarkForestGo的走棋網(wǎng)絡(luò)直接放上KGS就有3d的水平。

它的缺點是：會不顧大小無謂爭劫，會無謂脫先，不顧局部死活，對殺出錯，等等。有點像高手不經(jīng)認(rèn)真思考的隨手棋——只有“棋感”，而沒有計算。（其實更類似于計算力衰退的老棋手，比如聶棋圣。）

Value Network

AlphaGo的Value Network也是一個和Policy Network幾乎一樣的深度卷積網(wǎng)絡(luò)。

Fast rollout

有了走棋網(wǎng)絡(luò)，為什么還要做快速走子呢？

走棋網(wǎng)絡(luò)的運行速度是比較慢的（3毫秒），而快速走子能做到幾微秒級別，差了1000倍。
快速走子可以用來評估盤面。由于天文數(shù)字般的可能局面數(shù)，圍棋的搜索是毫無希望走到底的，搜索到一定程度就要對現(xiàn)有局面做個估分。在沒有估值網(wǎng)絡(luò)的時候，不像國象可以通過算棋子的分?jǐn)?shù)來對盤面做比較精確的估值，圍棋盤面的估計得要通過模擬走子來進行，從當(dāng)前盤面一路走到底，不考慮岔路地算出勝負(fù)，然后把勝負(fù)值作為當(dāng)前盤面價值的一個估計。顯然，如果一步棋在快速走子之后，生成的N個結(jié)果中的勝率較大的話，那它本身是步好棋的概率也較大。

為了速度快，Fast rollout沒有使用神經(jīng)網(wǎng)絡(luò)，而是使用傳統(tǒng)的局部特征匹配（local pattern matching）加線性回歸（logistic regression）的方法。

這種方法雖然沒有NN這么強，但還是比更為傳統(tǒng)的基于規(guī)則的方案適應(yīng)性好。畢竟規(guī)則是死的，而傳統(tǒng)的機器學(xué)習(xí)，再怎么說也是可以自動學(xué)習(xí)規(guī)則的。當(dāng)然了，這更比隨機走子的效率高了。

DarkForestGo的走子基于規(guī)則模板，且沒有快速走子，個人以為這才是它棋力差的主要原因。

由于Fast rollout既可以提供策略，又有一定的價值評估的手段，因此單獨使用它，比單獨使用Policy Network或者Value Network都要好。相當(dāng)于是一個劣化版本的AlphaGo。

MCTS

AlphaGo的MCTS使用的是傳統(tǒng)的UCT算法，沒太多好講的。一個細(xì)節(jié)是Game Tree的結(jié)點并不是立即展開，而是要等到路過該結(jié)點的次數(shù)超過一定閾值，才進行展開，從而大大減小了搜索空間。

其他關(guān)鍵點

AlphaGo不是一個純粹的DRL，它還是使用了人類棋譜的先驗數(shù)據(jù)。

首先，從人類棋譜中學(xué)習(xí)rollout策略，并初始化Policy Network。
然后，使用自我博弈的方式，訓(xùn)練Policy Network和Value Network。

由于很多人類的棋局都是因為中間偶然的失誤導(dǎo)致了全盤覆滅（所謂“一著不慎滿盤皆輸”），其中的偶然性非常大，局部的優(yōu)劣往往和棋局的最終結(jié)果無關(guān)，因此Value Network并沒有用人類棋譜來訓(xùn)練。

AlphaGo每更新一個“小版本”后，都要將這個版本和迄今最好的版本對比，如果新的版本勝率超過55%，才會用來取代以前最好的版本。這樣做的顯然的好處是防止AlphaGo自我博弈得“走火入魔”，陷入局部最優(yōu)。

AlphaGo Zero

論文：

《Mastering the game of Go without human knowledge》

AlphaGo Zero對AlphaGo進行了全面提升：

input plane去掉了手工特征，基本全由歷史信息組成。
Policy Network和Value Network不再是兩個同構(gòu)的獨立網(wǎng)絡(luò)，而是合并成了一個網(wǎng)絡(luò)，只是該網(wǎng)絡(luò)有兩個輸出——Policy Head和Value Head。
骨干結(jié)構(gòu)采用了Resnet，層數(shù)大大增加。
完全采用自我博弈，去掉了人類棋譜。
取消了Fast rollout。AlphaGo Zero的實踐表明，如果有足夠好的Value函數(shù)的話，MCTS的采樣效率要遠(yuǎn)遠(yuǎn)高于傳統(tǒng)的alpha-beta剪枝。因此，rollout也不是必須的。

稍后的AlphaZero的實踐表明：AlphaZero搜索80000個節(jié)點的棋力，已經(jīng)超過了Stockfish搜索70000000個節(jié)點的棋力。

Policy Gradient vs. Policy Iteration

AlphaGo依賴快速走子的結(jié)果，獲得最終的結(jié)果信息。因此，它的獎勵來源比較單一：只有對局的最終結(jié)果。這種做法實際上就是通常說的Policy Gradient。

但正如之前指出的：棋下輸了，不意味著每步棋都是臭棋。因此，只使用最終結(jié)果，既會導(dǎo)致獎勵稀疏，也不利于實時評估走子的價值。

AlphaGo Zero轉(zhuǎn)而采用Policy Iteration方法，實時對盤面進行估計，不再依賴終局結(jié)果。

AlphaZero

論文：

《Mastering Chess and Shogi by Self-Play with aGeneral Reinforcement Learning Algorithm》

AlphaZero相對于AlphaGo Zero的改進不算大，畢竟也就只差2個月。它的貢獻(xiàn)在于，證明了DRL對于很多棋類都是有效的。

MuZero

MuZero是DeepMind 2019年11月的作品。

論文：

《Mastering Atari, Go, Chess and Shogi by Planning with a Learned Model》

參考代碼：

https://github.com/AppliedDataSciencePartners/DeepReinforcementLearning

基本結(jié)構(gòu)

MuZero在不具備任何底層動態(tài)知識的情況下，通過結(jié)合基于樹的搜索和學(xué)得模型，在Atari 2600游戲中達(dá)到了SOTA表現(xiàn)，在國際象棋、日本將棋和圍棋的精確規(guī)劃任務(wù)中可以匹敵AlphaZero，甚至超過了提前得知規(guī)則的圍棋版AlphaZero。

傳統(tǒng)方法的局限：

Model-based RL在Atari 2600游戲上表現(xiàn)不佳。這類游戲的Model很難刻畫，規(guī)則比較抽象。
Model-Free RL在棋類游戲上表現(xiàn)不佳。棋類的規(guī)則十分明確。

上圖是MuZero和AlphaZero的網(wǎng)絡(luò)結(jié)構(gòu)對比圖。從中可以看出：

1.AlphaZero只有一個網(wǎng)絡(luò)。（雖然有兩個用途：Policy和Value）

2.MuZero有三個網(wǎng)絡(luò)：

Prediction Network。這個和AlphaZero相同。
Dynamics Network。
Representation Network。

Representation & Dynamics Network

Representation & Dynamics Network的主要思想來自如下論文：

1.《The Predictron: End-To-End Learning and Planning》

2.《Value Prediction Network》

上文已經(jīng)指出Model-based方法的困難在于：有的時候Model是很難刻畫的，而環(huán)境本身也許并不如模擬器那么純粹、簡單。

一個很自然的思路就是：既然NN能表示Policy和Value，那么能不能表示Model呢？

參考論文1提出了Predictron框架，它的主要思路是：

構(gòu)建一個abstract MDP model。雖然我們并不知道它的state，更不清楚它的transition，但是不要緊，假設(shè)它存在就好。
狀態(tài)表示。(即上圖中的 $s0,s1,…s^0,s^1,\dots$ )

$s?=f(s)\vec{s} = f(s)$

這里用 $s?\vec{s}$ 表示系統(tǒng)的抽象狀態(tài)以區(qū)別其實際狀態(tài)s。也就是說，在系統(tǒng)模型中，預(yù)測的不是實際的狀態(tài)s, 而是抽象的狀態(tài)。即：建立real state space到abstract state space的映射。

模型預(yù)測，不只是狀態(tài)流的預(yù)測，還包括立即回報和折扣因子的預(yù)測。

$s?′,r?,γ=m(s?,β)\vec{s}',\vec{r},\gamma = m(\vec{s}, \beta)$

抽象狀態(tài) $s?\vec{s}$ 處的值函數(shù)：

$v?=v(s)\vec{v} = v(s)$

由回報、折扣因子和值函數(shù)計算得到估計值。這里可以對這個abstract MDP model應(yīng)用TD(n)和TD( $λ\lambda$ )算法，得到如上圖所示的k-step和 $λ\lambda$ -weighted的預(yù)測值。其中的g表示累計獎勵值。

這里的套路其實和DQN非常像，都是讓預(yù)測值（這里是g）盡可能接近真實值。區(qū)別在于：這里既然是Model-based方法，那么自然有利用Model生成模擬樣本的步驟，而DQN沒有這樣的步驟。

參考論文2的做法也是類似的。

$Encodingfθenc:x→s\mathbf{Encoding}\quad f_\theta^{enc}: x\to s$

$Valuefθvalue:s→Vθ(s)\mathbf{Value}\quad f_\theta^{value}: s\to V_\theta(s)$

$Outcomefθout:s,o→r,γ\mathbf{Outcome}\quad f_\theta^{out}: s,o\to r,\gamma$

$Transitionfθtrans:s,o→s′\mathbf{Transition}\quad f_\theta^{trans}: s,o\to s'$

x：觀測值（observation）。

s：abstract state。

o：abstract state上的option。

s’：下一個abstract state。

也是預(yù)測若干步的獎勵值。

實現(xiàn)細(xì)節(jié)

重新回到MuZero，下圖是MuZero的關(guān)鍵步驟圖。

A部分：Representation Network + Dynamics Network + MCTS

B部分：從policy: $πt\pi_t$ 中采樣得到action： $a_{t+1}$ ，環(huán)境根據(jù) $a_{t+1}$ 得到observation： $o_{t+1}$ 、h和reward： $u_{t+1}$ 。這些樣本在用過后，被存入replay buffer。

C部分：訓(xùn)練時，從replay buffer中，采樣得到 $o_t$ ，通過h函數(shù)，得到 $s_t$ ，然后執(zhí)行K-step展開，得到p,v,r。

loss公式為：

$lt(θ)=∑k=0Klr(ut+k,rtk)+lv(zt+k,vtk)+lp(πt+k,ptk)+c∥θ∥2l_t(\theta)=\sum_{k=0}^K l^r(u_{t+k},r_t^k)+l^v(z_{t+k},v_t^k)+l^p(\pi_{t+k},p_t^k)+c\|\theta\|^2$

其中，p,v,r分別是policy、value、reward的預(yù)測值。而 $π\(zhòng)pi$ 、z、u則是對應(yīng)的target值。（參見《深度強化學(xué)習(xí)（2）》中DQN一節(jié)中的current Q-value和target Q-value的定義）

MuZero和VPN一樣，都是在abstract state space中用dynamics model做planning。MuZero的改進在于增加了對每個abstract state上policy的預(yù)測，因此效率比VPN要高一些。

最后需要澄清一點的是：模擬的Model永遠(yuǎn)比不上確定的規(guī)則。MuZero在棋類上的表現(xiàn)并不如AlphaZero。對比數(shù)據(jù)中，圍棋項目的優(yōu)勢，更多的在于MuZero使用了更寬的網(wǎng)絡(luò)。

總結(jié)

以上是生活随笔為你收集整理的深度学习（四十三）——深度强化学习（6）AlphaGo全系列的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇：深度学习（四十二）——深度强化学习（5）
下一篇：深度学习（四十四）——GAN的评估指标,