浙大提出会打德扑的「自我博弈」AI,还会玩射击游戏
選自arXiv,
機器之心編譯
人工智能已在圍棋這樣的完美信息游戲上實現(xiàn)了遠超人類的水平,但在信息未完全披露的多人對戰(zhàn)游戲上還無法戰(zhàn)勝人類。近年來,OpenAI 和 DeepMind 在 DOTA2 和星際爭霸 2 上的嘗試都難言成功。近日,來自浙江大學的研究人員提出了一種新方法,結合蒙特卡洛樹搜索和 NFSP,大大提高了在信息不完整的大規(guī)模零和游戲上的表現(xiàn)。
面對信息不完整的環(huán)境,浙大的研究人員提出了異步神經虛擬自我對弈(ANFSP)方法,讓 AI 學會在多個虛擬環(huán)境中進行「自我博弈」,從而生成最優(yōu)決策。他們的方法在德州撲克和多人 FPS 射擊游戲中均取得了不錯表現(xiàn)。
隨著深度強化學習的快速發(fā)展,AI 已經在圍棋等信息完整的游戲中戰(zhàn)勝了人類專業(yè)玩家。然而,「星際爭霸」等信息不完整游戲的研究還沒有取得同樣的進展。這類研究的一大問題是,它們很少從理論和量化的角度考慮對其訓練和結果進行評估,因此效果難以保證。
博弈論是研究現(xiàn)實世界競賽中人類行為模式的基石。該理論主要研究智能體如何通過競爭與合作實現(xiàn)其利益最大化并度量決策的質量。它已經成為計算機科學中一個頗具吸引力的研究任務。名為「算法博弈論」的交互研究課題已經確立,并隨著人工智能的發(fā)展受到越來越多的關注。對于交易、交通管理等現(xiàn)實世界中的復雜問題,計算維度會急劇增加,因此有必要利用算法和人工智能的思想使其在實踐中發(fā)揮作用,這也是該研究的主要動機之一。
在博弈論中,納什均衡是博弈的一個最優(yōu)解決方案,即沒有人可以通過緩和自己的策略獲得額外收益。虛擬對弈(Fictitious Play)是求解正規(guī)博弈中納什均衡的一種傳統(tǒng)算法。虛擬對弈玩家反復根據(jù)對手的平均策略做出最佳反應。玩家的平均策略將收斂到納什均衡。Heinrich 等人提出了廣泛的虛擬對弈(Extensive Fictitious Play),將虛擬對弈的概念擴展到了擴展式博弈。然而,狀態(tài)在每個樹節(jié)點中都以查找表的形式表示,因此(類似狀態(tài)的)泛化訓練是不切實際的,而且平均策略的更新需要遍歷整個游戲樹,這就給大型游戲帶來了維數(shù)災難。
虛擬自我對弈(Fictitious Self-Play,FSP)通過引入基于樣本的機器學習方法解決這些問題。對最佳反應的逼近是通過強化學習學到的,平均策略的更新是通過基于樣本的監(jiān)督學習進行的。但為了提高采樣效率,智能體之間的交互由元控制器協(xié)調,并且與學習是異步的。
Heinrich 和 Silver 介紹了神經虛擬自我對弈(NFSP),將 FSP 與神經網絡函數(shù)近似結合起來。一個玩家由 Q-學習網絡和監(jiān)督式學習網絡組成。該算法通過貪婪深度Q學習(greedy deep Q-learning)計算一個「最佳反應」,通過對智能體歷史行為的監(jiān)督學習計算平均策略。它通過引入預期動態(tài)來解決協(xié)調問題——玩家根據(jù)它們的平均策略和最佳反應展開行動。這是第一個在不完全博弈中不需要任何先驗知識就能學習近似納什均衡的端到端強化學習方法。
然而,由于對手策略的復雜性和深度 Q 網絡在離線模式下學習的特點,NFSP 在搜索空間和搜索深度規(guī)模較大的游戲中表現(xiàn)較差。本文提出了蒙特卡洛神經虛擬自我對弈(Monte Carlo Neural Fictitious Self Play,MC-NFSP),該算法結合了 NFSP 與蒙特卡洛樹搜索(Monte Carlo Tree Search)。研究人員在雙方零和的棋牌游戲中評估了該方法。實驗表明,在奧賽羅棋中,MC-NFSP 將收斂到近似納什均衡,但 NFSP 無法做到。
另一個缺點是在 NFSP 中,最佳反應依賴于深度 Q-學習的計算,這需要很長時間的計算直到收斂。在本文中,研究人員提出了異步神經虛擬自我對弈(ANFSP)方法,使用并行的 actor learner 來穩(wěn)定和加速訓練。多個玩家并行進行決策。玩家分享 Q 學習網絡和監(jiān)督學習網絡,在 Q 學習中累積多個步驟的梯度,并在監(jiān)督學習中計算小批量的梯度。與 NFSP 相比,這減少了數(shù)據(jù)存儲所需的內存。研究人員在雙人零和撲克游戲中評估了其方法。實驗表明,與 NFSP 相比,ANFSP 可以更加穩(wěn)定和快速地接近近似納什均衡。
為了展示 MC-NFSP 和 ANFSP 技術在復雜游戲中的優(yōu)勢,浙大研究人員還評估了算法在多人 FPS 對戰(zhàn)游戲的有效性,其中 AI 智能體隊伍和人類組成的隊伍進行了比賽,新提出的系統(tǒng)提供了良好的策略和控制,幫助 AI 戰(zhàn)勝了人類。
神經虛擬自我對弈
虛擬對弈(FP)是根據(jù)自我對弈學習納什均衡的經典博弈論模型。在每次迭代的時候,玩家隊伍根據(jù)對方的平均策略做出最佳回應,并更新其平均策略。在特定的游戲場景(如零和游戲)中,玩家在虛擬對弈中的平均策略可以達到納什均衡。因為 FP 主要是針對正規(guī)博弈,Heinrish 等人將 FP 擴展為虛擬自我對弈,FSP 致力于遍歷游戲擴展形式的游戲樹,有可能在更大規(guī)模的游戲中找到納什均衡。但是 FSP 方法需要玩家和對手遵循動作順序,因此它不適合信息不完整的游戲。
玩家和對手需要遵循動作順序的要求使得 FSP 不適用于信息不完整的游戲。神經虛擬自我對弈(NFSP)是一個在信息不完整的游戲上學習近似納什均衡的模型。該模型結合了虛擬博弈和深度學習。在每一步,玩家會選擇混合使用最佳反應和平均策略。玩家通過深度 Q 學習接近最佳反應,并通過監(jiān)督學習更新平均策略。只有當玩家根據(jù)最佳反應決定動作時,狀態(tài)-動作對(St, at)會被存儲在監(jiān)督學習記憶中。
圖 1:FSP 和 NFSP 的訓練效率
蒙特卡洛神經虛擬自我對弈(MC-NFSP)
該算法利用兩種神經網絡:蒙特卡洛樹搜索的策略-估值網絡(policy-value network)(如最佳反應網絡,bestresponse network)和監(jiān)督學習的策略網絡(如平均策略網絡)。最佳反應網絡如圖 2 所示。神經網絡的輸入是邊界狀態(tài)。策略-估值網絡有兩種輸出:策略 p(當前狀態(tài)到動作概率的映射)和估值 v(指定狀態(tài)的預測值)。估值范圍為「0,1」,其中輸?shù)舯荣惖膶乐?0,贏得比賽的對應估值 1。在浙大研究人員提出的網絡中,relu 激活函數(shù)用于卷積層;dropout 用于全連接層以減少過擬合;softmax 用于策略概率。策略網絡幾乎與最佳反應網絡相同,但前者僅輸出策略 p 0(不會輸出估值),而這也是玩家的平均策略。
圖 2:MCTS 的最佳反應網絡
實驗
浙大研究人員在改進版無限制州撲克(Leduc Hold』em)中對 ANFSP 和 NFSP 進行比較。為了簡化計算,浙大研究人員在無限制德州撲克中將每輪的最大賭注大小限制為 2。實驗研究了改進版無限制德州撲克中 ANFSP 對納什均衡的收斂性,并以學得策略的可利用性作為比較標準。
圖 5 顯示在改進版無限制德州撲克中 ANFSP 接近納什均衡。可利用性持續(xù)降低,并在 140w 個游戲片段后穩(wěn)定在 0.64 左右。訓練時間約 2 小時。
圖 5:ANFSP 在改進版無限制德?lián)渲械目衫眯?/span>
在第一人稱射擊游戲(FPS)中的評估
為了在信息不完整的復雜游戲中評估本文算法的有效性,研究人員在一個 FPS 游戲上訓練了該算法,并且讓它與人類對戰(zhàn)。本次實驗中使用的 FPS 平臺是由浙大研究人員設計的。游戲場景是兩個隊伍(10 VS 10)的攻防對抗。在訓練過程中,一方是 MC-NFSP,另一方是由上千場人類游戲(SL-Human)訓練的記憶。該實驗在固定的封閉式 255 x 255 正方形地圖上進行。整個地圖被分為 12 x 12 個區(qū)域,每個區(qū)域有一個 20 x 20 的正方形。
圖 7:FPS 游戲環(huán)境
與本文之前的研究不同,這兩個網絡是同時為外部隊伍和內部隊伍構建和訓練的。圖 8 顯示了外部隊伍的訓練結果(內部隊伍的訓練結果與此類似)。從圖中不難看出,訓練收斂得非常快(少于 150 個片段,每個片段有 5 場游戲)。外部隊伍對戰(zhàn) SL-Human 的勝率提高了 80%,而訓練損失接近 0。
圖 8:在 FPS 游戲上的評估結果
論文:Monte Carlo Neural Fictitious Self-Play: Achieve Approximate Nash equilibrium of Imperfect-Information Games
論文地址:https://arxiv.org/abs/1903.09569
摘要:人工智能領域的研究人員已經用 AI 在信息完整的大規(guī)模游戲上達到了人類水準,但要在信息不完整的大規(guī)模游戲(即戰(zhàn)爭游戲、足球教練或商業(yè)策略游戲)上實現(xiàn)最優(yōu)結果(即近似納什均衡)仍是一大挑戰(zhàn)。神經虛擬自我對弈(NFSP)算法可以通過自我對弈,在沒有先驗領域知識的情況下有效學習信息不完整游戲的近似納什均衡。但是,它依賴于深度 Q 網絡,但這種網絡是離線的而且很難融入對手策略不斷變化的在線游戲,因此深度 Q 網絡無法在游戲中用大規(guī)模搜索和深度搜索來達到近似納什均衡。本文中,我們提出了蒙特卡洛神經虛擬自我對弈(MC-NFSP)算法,該方法結合了蒙特卡洛樹搜索和 NFSP,大大提高了模型在信息不完整的大規(guī)模零和游戲中的表現(xiàn)。實驗證明,該算法可以利用大規(guī)模深度搜索達到 NFSP 無法實現(xiàn)的近似納什均衡。此外,我們開發(fā)了異步神經虛擬自我對弈(ANFSP)算法,該算法使用異步架構和并行架構來收集游戲經驗。在實驗中,我們發(fā)現(xiàn)并行 actor-learner 能夠進一步加速和穩(wěn)定訓練。
總結
以上是生活随笔為你收集整理的浙大提出会打德扑的「自我博弈」AI,还会玩射击游戏的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 包邮送 36 本书,已全部打包好!
- 下一篇: 爬取某东600多本书籍,用数据帮你分析哪