被AI人机疯狂单杀?王者荣耀AI“绝悟”亲测体验
文章目錄
- (一) 如何評測“絕悟”的智能程度?
- (二)“絕悟”個體操作能力分析
- 2.1 草叢埋伏
- 2.2 越塔強殺
- 2.3 技能避傷
- 2.4 技能combo
- (三)“絕悟”團隊意識能力分析
- 3.1 團隊支援
- 3.2 團隊控龍
- 3.3 反野意識
- (四)“絕悟”的一些“愚蠢行為”
- 4.1 戀泉行為
- 4.2 莽夫行為
- 4.3 滯留行為
- 4.4 自信回頭
2019年12月20號,騰訊AI Lab發布了一篇paper,稱他們利用深度強化學習技術訓練了出了一個超強AI“絕悟”,該AI能輕松擊敗頂尖水平的職業選手。在論文發出不久后,我寫了一篇我個人對論文思想的理解:利用Deep Reinforcement Learning訓練王者榮耀超強AI,雖然論文中貼出了該 AI 與職業選手們的交戰數據,但無一敗場的戰績實在是令我激動的同時也產生了一些疑惑,到底“絕悟”能進行哪些操作能夠把職業玩家打的毫無脾氣。時隔半年,王者團隊終于開放了絕悟的接口,在2020年5月1日-2020年5月2日讓所有玩家在線上都能和“絕悟”過過招,于是我集結了我的小伙伴,在5月1日00:00的時候開始了自虐性的挑戰,下面我根據保存的回放來帶大家看看“絕悟”的實力吧。
“絕悟”一共有5個關卡,其難度從低到高,一晚上我們玩了3把,還剩下2關未挑戰,不過看名字也大概知道難度不小了。我們小隊的實力并不算強,平均只有鉆石星耀的水平,所以在接下來我貼出的對戰視頻中我會重點分析敵方AI的玩法策略,請大家不要在意我們蹩腳的操作,畢竟珍貴的數據是AI算法模型,而不是我們的平民操作…。以下是我們未挑戰的兩個關卡,分別是 KPL 春季冠軍陣容和秋季冠軍陣容,昨晚打完第 3 關已經是深夜了所以我們沒有繼續玩下去,所以在這篇博客中貼的對戰數據均是來自前 3 關,“絕悟” 會有一些看起來很 “愚蠢” 的行為,我在之后會詳細分析,但我不確定這些 “愚蠢” 的行為是否在后 2 個關卡仍然存在,等我們挑戰完了最后 2 關后我會更新這個博客中的內容。
(一) 如何評測“絕悟”的智能程度?
游戲 AI 這個概念其實并不新鮮,但在早年間人們增加 AI 強度都是通過一些 “作弊” 的手法,例如讓 AI 有著更快的經濟發育速度,或是觀測視野比人類玩家更寬廣,甚至縮減 AI 單位的技能CD,這些不公平的設定讓那些輸給 AI 的玩家都十分的不服氣,這根本不能叫做 “智能”。所謂智能,AI 應該擁有和人類完全等同的信息輸入,即利用人類能獲得信息進行行為決策,這才叫智能。“絕悟AI” 在設計之初就被定義為一個 “智能AI”,AI 模型所能看到信息的和人類一樣,包括當前游戲畫面和一些敵我雙方人頭數等游戲狀態信息(具體參見我在引言中貼出的博客鏈接),這樣,“公平智能”的問題就得以解決。
那么,我們如何來評價“絕悟”的“智能程度”呢?玩 MOBA 游戲的人都知道,玩好這類游戲都需要以下 2 個必備素質:個體操作 + 團隊意識。個體操作是指對英雄的行為控制,包括技能combo、走位、技能避傷、草叢埋伏等;團隊意識是指在如何和隊友進行配合,共同取得有利于己方隊伍的戰場條件,包括反野、偷野、支援、團戰等。接下來我會對 “絕悟” 挨個進行上述能力的分析,其中每一小節貼出的視頻均來自我們小隊的戰斗回放。
(二)“絕悟”個體操作能力分析
對于個體操作來說上“絕悟”算是比較強的了,我在之前的論文分析那篇博客中有提到過,AI Lab 在進行模型訓練的時候是為每一個英雄訓練了一個獨立的模型,連職業選手也難以獲勝,下面我們就結合實際視頻來看看 “絕悟” 都有哪些令人驚嘆的個體操作吧。
2.1 草叢埋伏
說到“蹲草叢”想必大家并不陌生,作為一個控制類的英雄一定要學會埋伏,等到敵人進入到攻擊范圍內后一套帶走。但是想總結出一套“埋伏”的規則其實是很難的,人類很難寫出一個完整的“蹲草叢”規則告訴 AI 應該在什么情況下在草叢里等待,等待多久,到什么時候放棄等待,什么時候發起進攻等等。因此,選擇在何時進行埋伏,埋伏多久全都是由 “絕悟” 自己通過思考得出的,極大程度的還原了人類玩家在玩王者時的思路。下圖是敵方虞姬埋伏我方伽羅的畫面,在兵線交鋒的邊路敵方虞姬并沒有著急清線而是躲在一旁的草從中,等到我方伽羅走到其技能范圍內后開出1 技能并隨即接大,這樣一套下來差點帶走我方伽羅,可以說在這種“埋伏意識”上,“絕悟”已經符合了一個基本人類玩家的水平了。
除了邊路埋伏,“絕悟”還會在野區偷偷藏起來等待獵物上鉤。比如下圖這個敵方孫策在敵方紅區埋伏狩獵的畫面,當時我方在上路處于很大優勢,邊路兵線也已經帶到了敵方高地了。在通常情況下,處于優勢的一方在途經敵方紅區時會順手拿掉敵方的紅 buff,“絕悟” 恰好對我們的心里做好了預判,提前埋伏在草叢中等待鎧來偷紅。但這一次我們的鎧并沒有選擇優先拿紅,而是想優先推掉高地,計謀未能得逞的孫策立馬改變策略,從草叢中現身和隊友鬼谷子一起進行兵線攔截。
在草叢埋伏行為里,選擇突進的時機是十分重要的,即操控者需要知道什么時候應該在草叢中發動突進攻擊。在下圖中,敵方后裔一個人在邊路對線,此時我方大小姐和瑤都在線上,如果貿然發起進攻,后裔很難1v2還能全身而退。因此后裔選擇等待從野區趕來的李白,等到李白入場眩暈大小姐后才選擇從草叢現身配合其一起進行圍剿。“絕悟”的這次等待隊友支援的行為是不是特別像我們人類玩家在玩游戲時候的行為呢?
2.2 越塔強殺
越塔強殺是指在無視敵方防御塔直接選擇擊殺敵方殘血的目標單位,這個舉動是一個極具風險的行為,也被人們稱為一種很“秀”的操作。越塔強殺需要操作者有十足的把握,對自己英雄的技能combo和場上的局勢分析十分準確。在我們和“絕悟”的交戰中,“絕悟” 操控敵方婉兒對我方云中君發起過一次越塔進攻,下圖畫面中婉兒在判斷此時自身血量充足且大招已就緒后選擇強飛收掉我方殘血云中君,最后利用大招再從野區撤退。萬幸的是我方云中君即時開大剁掉了傷害,緊接著我方妲己及時趕到控住并帶走了敵人。雖然這是一次失敗的收割,但“絕悟”能在如此短時間內果斷做出一次大膽的“越塔”決策實屬不易,如果不是妲己及時趕到,上官還是有很大可能性是活著走掉的。
2.3 技能避傷
技能避傷是指利用自身技能效果來規避敵方傷害,靈活使用技能避傷屬于比較高端的一個操作了,這需要玩家熟知自身技能效果,留好技能cd,在適當的時機釋放技能以規避傷害。下面是敵方李白在受到我方米萊迪大的鎖定后,利用自身 2 技能避傷的畫面片段,這也是我個人非常驚訝的一點,因為 AI 不僅要學會自身技能是可以規避傷害的,同時還要能夠記住敵方英雄技能造成傷害的時間。舉例來講,下圖米萊迪的大招并非瞬間造成高額傷害,而是在一段時間后延時爆炸,“絕悟” 不僅需要提前計算好米萊迪大招爆炸的時間還要在一瞬間內釋放2 技能實現傷害躲避,由于不同技能的延時時間不同,這就要求 “絕悟” 需要具備很高程度的學習能力。
2.4 技能combo
技能 combo 是指技能釋放連招,選擇適合的技能釋放順序能夠讓英雄打出高額的瞬發傷害。“絕悟” 的技能釋放順序是通過不斷的“自我學習” 學習出來的,這在 AI Lab 的論文中也有提到。其實在整局比賽中技能 combo 表現的非常頻繁,combo 也是個體操控中最基本的操控技術,這里貼一個敵方孫策利用自身技能 combo 一套帶走我方伽羅的片段:
(三)“絕悟”團隊意識能力分析
在我們看完了“絕悟”的個體操控技術后,我們再來看看“絕悟”的團隊意識怎么樣吧。其實說實話,我對 “絕悟” 的個體操作能力并不感到意外,畢竟強化學習在單體操控上取得不小的成就已經不是頭一次了,但對于團隊配合的任務,“絕悟”的表現還是令我眼前一亮。對于多單位之間的協同配合問題一直以來在強化學習領域都是備受人們關注,各個單位之間應該采取什么樣的個體決策,最終使得整個團隊的收益最大化,這是一個非常復雜的問題。但 “絕悟” 能夠很好的進行團隊行為分析,包括支援邊路隊友,分工清龍,共同反野等在內的多個行為都令我感到十分驚嘆,這證明強化學習在“多單位合作”任務上又取得了一次進步,下面就讓我們來看看這些行為的案例。
3.1 團隊支援
團隊支援是指英雄對其他路的英雄給予適當的幫助,輔助完成擊殺或是解救瀕死隊友。下圖是敵方中路和輔助在完成中路清線后選擇到下路幫忙擊殺我方伽羅和夏侯惇的片段:
除了“輔助擊殺”,“絕悟”還會在隊友處于危險的時候選擇“營救”。下圖是我方追擊敵方殘血耀時,婉兒進行解救的畫面片段。可以看出,敵方上官并沒有開團的意向,只是在意識到了殘血隊友的危險處境后,選擇在側面釋放技能進行封路和干擾來營救隊友,也算的上是一次相當不錯的“營救”決策了。
3.2 團隊控龍
暴君和龍王是王者里比較強力的野怪了,在適當時機拿龍可以幫助團隊快速獲取場面優勢,我一直以為王者的 AI 在控龍的方面能力應該不強,甚至一場下來控龍次數為 0 也不足為奇,畢竟要想做出控龍的決策需要整個團隊的極好配合才能完成。令我沒想到的是,“絕悟” 在控龍決策上竟然有不小的主動性,這里節選了 2 段敵方主動開龍的場面,注意觀看第一個畫面中上官婉兒的行為,她一直在充當一個“偵察哨兵”的角色,并不參與打龍,而是好像任務很明確般的在側面守住入口,當我方伽羅靠近龍坑時立馬沖向了伽羅想要將其擊退,此時龍坑中的耀也發現了入侵伽羅,果斷選擇暫時放棄打野,留鬼谷子在原地拖住小龍,釋放 2 技能越墻逼退伽羅,在成功逼退后才回到龍坑繼續輸出。這一次的控龍,整個團隊可以說是配合的非常好了,尤其是在“及時任務分配”上,誰放哨,誰擊退敵人,誰留在原地控龍,這些都是在一瞬間做出的任務分配,這一次的配合真的是令我非常意外。
除了控龍時各英雄之間的“任務分配”外,“絕悟” 還知道在什么時候應該“開龍”,這是敵方李白在清完中路超級兵線后直接選擇開風暴龍王的畫面,當時我方處于劣勢,線也被壓得很緊,“絕悟” 預測我方此時需要花大量時間清線,此時是他們最好的開龍機會,于是立即召集隊友進攻風暴龍王,這個決策展露了“絕悟”擁有著相當了不起的局勢評估能力。
3.3 反野意識
反野是指我方英雄入侵對方野區進行經濟發育的行為,通常我們會選擇在己方野區發育,在一些順風局勢的時候,我們也會入侵敵方野區,趁敵方英雄不注意的時候收掉敵方野區的野怪來增加己方的團隊優勢。“絕悟” 似乎也能明白這個道理,在我方處于劣勢時選擇入侵我們的野區,例如下圖中敵方虞姬正在清掉我方野區的野怪,整個片段看下來好像一個目的明確的人類玩家做出的行為決策一樣——先收掉中路的豬,再收掉邊路的鳥,最后清掉線上的龍。
(四)“絕悟”的一些“愚蠢行為”
我在最開始也說了,盡管“絕悟”在很多方面都已經貼近人類玩家的操作甚至要優于人類玩家,但還是會存在一些看起來比較“呆萌”的行為,讓人們一看就知道不是真實的人類在玩游戲,我也不確定是不是因為我們小隊玩的不是最高難度的關卡才會出現這些行為,如果我們小隊能夠順利挑戰玩剩下的 2 個關卡我會回來更新這篇文章的,下面我們就來列舉一些我發現的呆萌行為吧。
4.1 戀泉行為
“絕悟”會偶爾讓某些英雄在家里呆著不出泉水一段時間,這個現象不是一次兩次,在我看視頻回放的時候發現了好幾次,比如下面這種單人戀泉行為:
或是這種多人戀泉行為:
這個現象非常的有趣,我猜想大概是因為 “絕悟” 是一個全局決策模型,當前線英雄行為決策非常忙碌的時候,這些呆在“安全區域”的英雄就會暫時“失寵”吧。
4.2 莽夫行為
在和“覺悟”的對決中,有一段著實是令我感到非常歡樂,就是下面這個敵方牛頭企圖單殺打龍最終被打龍反殺的片段,一個輔助在輸出不在的情況下竟然敢獨自開龍,并且在血限極低的情況下也不選擇撤離,就是要和打龍硬剛。這個應該是我所有回放里最愚蠢的一次行為了,但通過仔細觀察可以發現,當時敵方后裔本來是朝著牛頭的位置奔去了,哪知走到一半扭頭刷紅去了,完全無視了自己的輔助在龍坑持續被拍,這應該算的上是“絕悟”的一次決策失誤吧。有趣的是,在牛頭被打死之前,我們小隊有人在全體聊天頻道打出了 “你們這樣很影響我充錢的心情啊”,隨機牛頭就被龍拍死了,也不知道 “絕悟” 是不聰明呢還是太聰明了。
4.3 滯留行為
作為一個成熟的 AI 系統,“絕悟”還是會和大多 AI 一樣偶爾迷茫一下,比如下面這個鬼谷子就卡在墻邊不知何去何從,在那一瞬間,“絕悟” 不知道該為這個英雄選擇怎么樣的行為,于是只能讓它在原地不斷徘徊,直到我方伽羅對他發起攻擊后才開始慌忙撤退,我之所以把這個行為歸類為一次失誤,是因為他身邊草叢里并沒有任何隊友,如果有隊友在的話可以理解為鬼谷子是想進行一次“勾引”,但事實并非如此,應該就是一次單純的迷惘決策吧。
4.4 自信回頭
相信自信回頭在人類操作中是非常常見的一個迷惑行為了,在血量極低的情況下認為我能行我能秀,結果被反殺的毫無還手之力。“絕悟” 在進行自我學習的時候也非常完美的繼承了人類玩家的這一特點,下面就是一個最好的例子,敵方絲血耀在逃亡過程中經過一番深思熟慮后決定要回頭反殺這兩個滿血的弟弟,一波果斷的開大回閃之后被我方夏侯拿掉了人頭。
總體來說,這次和“絕悟”的交手確實令我大開眼界,機器在玩游戲的時候不會帶有任何的感情因素,該開團就開團,不像我們在玩的時候會上頭,不分三七二十一沖上去就是開團,“冷靜” 和 “理智” 是人類永遠無法戰勝機器的兩點。另外,“絕悟” 在對戰過程中還加入了一些人類互動的因素,例如在我方被團滅的時候絕悟會在公屏上說 “好安靜啊” 來嘲諷我們,這也算是天美團隊一個比較俏皮的設計元素。也不知道隨著 AI 技術的發展,以后的 AI 系統是否能夠賦予計算機人類一樣的思維。其實 “絕悟” 通過自我學習后,在王者上的好多行為決策已經和人類非常相似了,如果一旦讓機器完全繼承了人類玩家的思維,那么憑借著超快的計算能力,未來 AI 想要擊敗人類玩家或許就輕而易舉了吧。距離 “挑戰絕悟” 活動還有3天,今晚我們小隊會繼續嘗試挑戰剩下的兩個超難關卡,祝我們好運!
(文中視頻高清地址:https://v.youku.com/v_show/id_XNDY1NjY2NTc4NA==.html,因csdn上傳gif大小限制,文中所有畫面都比較模糊,如對完整視頻內容比較感興趣的可以點擊鏈接觀看)
總結
以上是生活随笔為你收集整理的被AI人机疯狂单杀?王者荣耀AI“绝悟”亲测体验的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 基于文本知识库的强化学习技术——Lear
- 下一篇: 【GIS风暴】什么是地理空间智能(Geo