腾讯AI×王者荣耀「绝悟」项目首亮相:KPL秋季决赛击败顶尖战队
機器之心報道
機器之心編輯部
人工智能下圍棋很在行,但在更為復雜的多人游戲上水平如何?前一陣,OpenAI 就瞄準了著名 MOBA 游戲 Dota 2,結果在 TI8 上輸得毫無還手之力。那么在手機游戲方面呢?在騰訊 AI Lab 的最新研究中,AI 在《王者榮耀》中與前 1% 玩家的對戰中達到 48% 勝率。
據機器之心了解,這是騰訊 AI Lab 與王者榮耀共同探索的研究項目——策略協作型 AI「絕悟」首次露面,并于昨天在KPL秋季決賽接受前職業 KPL 選手辰鬼、零度和職業解說白樂、九天和立人組成的人類戰隊(平均水平超過 99% 玩家)的水平測試。最終 AI 戰隊獲得勝利。這是繼圍棋 AI「絕藝」后,騰訊 AI 在深度學習與強化學習領域的又一項前沿研究。
其實,騰訊 AI Lab 一直以來都在研究如何使用人工智能來打王者榮耀,我們可以從一些論文和演講中略知一二。今年五月,他們和匹茨堡大學的研究人員曾經向 AI 頂級會議 ICML 2018 提交了一篇論文,其中人們嘗試了 AlphaGo Zero 中出現的蒙特卡洛樹搜索(MCTS)等技術,并取得了不錯的效果。
那時,人工智能還只能玩狄仁杰一個英雄。幾個月后,它們已經可以「五人」組隊,在王者段位和人類玩家打得有來有回了。
那么問題來了:王者榮耀的「前 1%」玩家是有多強?作為流行手機游戲,王者榮耀自上線到現在已經有三年了,有的高手早早就上了王者,但大部分都還卡在鉆石和鉑金段位上。今年 10 月,騰訊官方統計了王者榮耀玩家的段位分布圖:
看起來,能和 AI 打的至少需要是「最強王者」級別水平的玩家。
以下是騰訊 AI Lab 在 arXiv 上傳的最新一篇論文《Hierarchical Macro Strategy Model for MOBA Game AI》的相關內容:
AlphaGo 打敗世界冠軍李世乭讓我們看到了通用人工智能的曙光(Silver et al. 2016)。從那時起,游戲 AI 不僅引起了研究者的注意,還吸引了大量來自公眾的目光。游戲 AI 的目標遠不止玩游戲的機器人那么簡單。游戲為模擬真實世界提供了理想的環境。AI 研究人員可以在游戲中開展實驗,并將卓越的 AI 能力應用到現實世界。
盡管 AlphaGo 是通往通用人工智能的里程碑,但與現實世界相比,它所解決的問題仍然非常簡單。因此,研究者們近來更加關注即時戰略游戲(RTS),如 Dota(OpenAI 2018a)、星際爭霸(Vinyals et al. 2017; Tian et al. 2017),這些游戲涉及的問題更加復雜。Dota 是一款著名的奇幻 5v5 多人在線戰術競技游戲(MOBA)。每個玩家控制一個英雄,與其他四個隊友一起保護防御塔,攻擊敵人的防御塔并通過殺死小兵收集資源。他們的目標是摧毀敵人的基地。
作為 MOBA 游戲,王者榮耀內含防御塔、野區、裝備等機制。
與圍棋相比,RTS 游戲的難度主要體現在四個方面:1)計算復雜度。RTS 游戲動作空間和狀態空間的計算復雜度可能達到 10^20,000,但圍棋的復雜度只有 10^250 左右(OpenAI 2018b)。2)多智能體。RTS 游戲通常包含多個智能體。多個智能體協調、合作非常關鍵。3)信息不完整。與圍棋不同,許多 RTS 游戲利用戰爭迷霧(Vinyals et al. 2017))來增加游戲難度。4)獎勵稀疏、延遲。在圍棋中,基于游戲獎勵進行學習的挑戰性在于稀疏和延遲。RTS 游戲長度通常大于 20,000 幀,而每局圍棋通常不超過 361 步。
圍棋和 MOBA 的計算復雜度對比。
為了掌握 RTS 游戲,玩家在宏觀戰略操作和微觀執行方面都要有很強的技巧。在最近的研究中,大多數注意力和研究都集中在微觀執行方面 (Vinyals et al. 2017; Tian et al. 2017; Synnaeve and Bessiere 2011; Wender and Watson 2012)。到目前為止,由 OpenAI 開發的 Dota2 AI 使用的是強化學習,OpenAI Five 已經取得了最先進的成果 (OpenAI 2018a)。OpenAI Five 是通過最近的策略優化算法和團隊獎勵直接在微觀動作空間上訓練的 (Schulman et al. 2017)。在 2018 年的國際比賽(DOTA2 2018)中,相比頂尖的職業 Dota2 隊伍,OpenAI 展示出了強大的團隊戰斗技能與合作意識。OpenAI 的方法沒有明確地模擬宏觀戰略,而是使用微觀操作來學習整個游戲。然而,由于宏觀戰略管理薄弱,OpenAI Five 無法擊敗職業隊伍 (Vincent 2018; Simonite 2018)。
關于明確的宏觀戰略操作的研究已經做了不少,大部分都集中在導航上。導航旨在為智能體提供合理的目的地和有效的路徑。大部分關于導航的研究都使用勢力圖(influence map)或勢場法(potential field)(DeLoura 2001; Hagelb?ck and Johansson 2008; do Nascimento Silva and Chaimowicz 2015)。勢力圖使用手工制作的方程式量化單元。然后,使用規則將多個勢力圖融合,以提供單值輸出來為智能體導航。
就宏觀戰略操作而言,為智能體提供目的地是最重要的導航目的。在正確的時間到達正確的地點至關重要,這也是高級玩家和其他玩家之間的區別。在宏觀戰略操作中還使用了規劃。Ontanon 等人提出用對抗分層任務網絡(AHTN)規劃(Ontanón and Buro 2015)來搜索 RTS 游戲中的分層任務。雖然 AHTN 在 mini-RTS 游戲中展示出了一定的前景,但它存在效率問題,這也導致很難將其直接應用于完整的 MOBA 游戲中。
雖然文獻很多,但以前關于宏觀戰略的研究終究沒能提供完整的解決方案:
首先,通過在微觀動作空間層面學習來隱式地推理宏觀戰略可能會很困難。OpenAI Five 在微觀執行和宏觀戰略操作方面的能力差距很明顯。如果想讓模型通過簡單地觀察微觀動作和獎勵后想出高級戰略,這顯然是過于樂觀的。作者認為明確的宏觀戰略建模十分必要。
其次,先前關于明確的宏觀戰略的研究過于依賴于手工繪制的方程式來計算和融合勢力圖/勢場法。在實際操作中,通常有成千上萬的參數需要手動決定,因此幾乎不可能實現良好的性能。而另一方面,規劃方法無法滿足完整 MOBA 游戲的效率要求。
第三,RTS 游戲宏觀戰略操作中最具挑戰性的問題之一是多個智能體之間的協調。然而,據作者所知,先前的研究并沒有明確地考慮這一點。OpenAI Five 雖然在微觀建模中使用了團隊獎勵來考慮多智能體協調問題,但每個智能體在獨立做決定時并沒有考慮隊友的宏觀戰略決策,因此它很難在宏觀戰略級別發揮出最好的協調能力。
最后,作者發現建模戰略階段對 MOBA 游戲中 AI 的表現至關重要。然而,據其所知,先前的研究同樣沒有考慮到這一點。
然而,教智能體學習宏觀戰略操作頗具挑戰性。首先,從數學上定義宏觀戰略,如圍攻和分線推進就很困難。此外,在 OpenAI Five 的強化學習框架(OpenAI 2018a)上加入宏觀戰略需要相應的執行才能獲得獎勵,但學習宏觀戰略操作本身就是很復雜的過程。因此,作者認為監督學習是更好的方案,因為可以充分利用高質量游戲的回放來學習宏觀戰略以及相應的執行示例。需要注意的是,通過監督學習學到的宏觀戰略和執行可以進一步作為強化學習的初始策略。
圖 1: (a) 王者榮耀游戲界面。玩家使用左下角的虛擬鍵控制移動,用右下角的鍵控制技能。玩家可以通過屏幕和左上角的小地圖來觀察環境。(b) MOBA 示例地圖。雙方隊伍分別用藍色和紅色表示,每隊擁有 9 個防御塔和 1 個基地。四個野區分別標為 1、2、3、4。
MOBA AI 宏觀戰略架構
MOBA AI 宏觀戰略模型的設計靈感來自人類玩家的戰略決策方式。在 MOBA 游戲中,經驗豐富的人類玩家完全了解游戲的每個階段,如開啟期、對線期、游戲中期和游戲后期(Silva and Chaimowicz 2017)。在每個階段,玩家都要關注游戲地圖并根據情況決定將英雄派往何處。例如,在對線期,玩家會將更多的注意力放在自己的線路上,而不是支持隊友。但在游戲中期和后期,玩家會更加關注團戰地點,向敵方的基地推進。
宏觀戰略操作過程可以總結為「階段識別-> 注意力預測-> 執行」。為了建模這一過程,作者提出了一個雙層宏觀戰略架構,如階段層和注意力層:
階段層旨在識別當前游戲階段,這樣注意力層就能更清楚地知道應該將注意力放在哪里。
注意力層旨在預測地圖上適合派遣英雄的最佳地點。
階段層和注意力層為宏觀執行提供高級指導。下文將詳細說明建模細節。宏觀模型的網絡架構幾乎與 OpenAI Five1(OpenAI 2018a)中用到的結構一樣,只不過前者是以監督學習的方式。經過一些小幅修改,作者將其應用到《王者榮耀》中,例如刪除 Teleport。
圖 2:分層宏觀戰略模型的網絡架構
圖 4:(a)在階段層中建模的主要資源(即圖中圈出的防御塔、基地、龍和暴君)。(b)舉例說明階段層中的標簽提取。
圖 5:為不同英雄角色學習的開放戰略之一。紅圈內區域為最熱門區域。
圖 7:相層輸出上的 t-分布隨機近鄰嵌入。嵌入數據樣本按照不同的時間階段進行著色。
論文:Hierarchical Macro Strategy Model for MOBA Game AI
論文鏈接:https://arxiv.org/abs/1812.07887
摘要:游戲 AI 的下一個挑戰是即時戰略游戲(RTS)。即時戰略游戲提供了部分可觀察的游戲環境,其中智能體之間交互的動作空間要比圍棋游戲大得多。掌握即時戰略游戲既需要強大的宏觀戰略,又需要微妙的微觀執行操作。最近,微觀執行層面已經取得了很大進展,但仍然缺乏針對宏觀戰略的完整解決方案。在本文中,作者提出了一種基于學習的新型分層宏觀戰略(Hierarchical Macro Strategy)模型,用于掌握 RTS 游戲的子類型——MOBA(多人在線戰術競技)游戲。通過用分層宏觀戰略模型訓練,智能體可以明確做出宏觀戰略決策,并進一步指導其微觀執行。此外,雖然會利用一種新型的模擬跨智能體通信機制同時和隊友溝通,但每個智能體會做出獨立的戰略決策。作者在流行的 5V5 MOBA 游戲中對模型進行全面評估。在與人類玩家隊伍(這些隊伍在玩家排行榜系統中排名前 1%)的競技中,由 5 個 AI 智能體組成的隊伍達到了 48% 的勝率。
機器之心CES 2019專題報道即將到來,歡迎大家積極關注。
點擊「閱讀原文」查看機器之心專題頁。
總結
以上是生活随笔為你收集整理的腾讯AI×王者荣耀「绝悟」项目首亮相:KPL秋季决赛击败顶尖战队的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: dubbo自定义异常传递信息丢失问题解决
- 下一篇: 继BERT之后,这个新模型再一次在11项