日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 综合教程 >内容正文

综合教程

腾讯AI击败王者荣耀职业队,全靠自学,一天训练量为人类440年

發(fā)布時(shí)間:2023/11/21 综合教程 48 生活家
生活随笔 收集整理的這篇文章主要介紹了 腾讯AI击败王者荣耀职业队,全靠自学,一天训练量为人类440年 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

  問耕發(fā)自麥蒿寺
  量子位出品公眾號(hào) QbitAI

  王者峽谷,風(fēng)云突變。

  一場(chǎng)激烈的對(duì)戰(zhàn)正在進(jìn)行,左側(cè)是五位人類職業(yè)電競(jìng)高手組成的賽區(qū)聯(lián)隊(duì),另一方是……嗯?他們的對(duì)手沒有出場(chǎng)?五個(gè)座椅空空蕩蕩?

  不。他們的對(duì)手都在。

  這是昨晚的吉隆坡,王者榮耀最高規(guī)格電競(jìng)賽事——世界冠軍杯半決賽正在進(jìn)行,期間有一場(chǎng)特殊的對(duì)決上演:五位電競(jìng)職業(yè)選手組成的賽區(qū)聯(lián)隊(duì),對(duì)陣騰訊王者榮耀 AI 絕悟。

  最終這場(chǎng) 5v5 的大戰(zhàn)中,思路與人類迥異的 AI 戰(zhàn)隊(duì)耗時(shí) 16 分 15 秒,團(tuán)滅電競(jìng)職業(yè)高手戰(zhàn)隊(duì),推掉全部 9 塔和高地水晶。

  這意味著,騰訊 AI 絕悟的能力,已經(jīng)精進(jìn)到王者榮耀電競(jìng)職業(yè)水平。

  當(dāng)然,對(duì)非職業(yè)玩家更是砍瓜切菜。

  同日上海的 ChinaJoy,絕悟向頂級(jí)業(yè)余玩家開放為期四天的 1v1 體驗(yàn)測(cè)試。首日的 504 場(chǎng)測(cè)試中,絕悟測(cè)試勝率為 99.8%,僅輸 1 場(chǎng)(對(duì)方為王者榮耀國服第一后裔)。

  首次擊敗電競(jìng)職業(yè)隊(duì)

  這場(chǎng)比賽,五位電競(jìng)職業(yè)高手組成賽區(qū)聯(lián)隊(duì)。他們選擇的陣容是:曹操(ESTARPRO.XIXI)、娜可露露(EMC.SUN)、武則天(NOVA.SEEK)、狄仁杰(KZ.NIGHT)、張飛(M8HEXA.MIKE)。

  騰訊 AI 絕悟(Wukong)選擇的陣容是:達(dá)摩(AI_001)、雅典娜(AI_011)、王昭君(AI_100)、虞姬(AI_000)、牛魔(AI_010)。

  比賽開始,人類戰(zhàn)隊(duì)的水晶在左下角。

  開局時(shí),絕悟沒選擇傳統(tǒng)人類對(duì)線走位策略,而是先放掉上路,由雙C位英雄虞姬和王昭君先一起清理中路第一波兵線,壓制敵方中輔。之后又轉(zhuǎn)上路壓制曹操血線。

  這種分配,沒有經(jīng)濟(jì)傾斜。兩人吃線,經(jīng)濟(jì)收益最大化,每個(gè)人都能獲得 80%?,F(xiàn)場(chǎng)解說表示,AI 對(duì)中路搶線權(quán)理解的很透徹。

  開局 2 分鐘,絕悟率先推掉了賽區(qū)聯(lián)隊(duì)的上路 1 塔,擴(kuò)大經(jīng)濟(jì)優(yōu)勢(shì)到 5.1k:4.3k。開局 2 分半,賽區(qū)聯(lián)隊(duì)曹操擊殺絕悟 AI 虞姬拿下一血,雙方經(jīng)濟(jì)打平同為 6.4k。

  4 分 24 秒,絕悟四人追擊娜可露露,達(dá)摩一腳將娜可露露反踢入 AI 中群毆,最終達(dá)摩拿下 AI 首個(gè)人頭。

  這段時(shí)間,絕悟的雅典娜單帶,而另外四個(gè) AI 一直抱團(tuán)。7 分 20 秒,雅典娜反藍(lán)成功,此時(shí)絕悟拿下 3 塔 4 人頭 20.9k 經(jīng)濟(jì),賽區(qū)聯(lián)隊(duì)拿下 2 塔 3 人頭 19.7k 經(jīng)濟(jì)。

  現(xiàn)場(chǎng)解說認(rèn)為絕悟的效率和團(tuán)隊(duì)協(xié)作方面,都表現(xiàn)出色。“在4-1 轉(zhuǎn)線方面,幾乎是做得完美。”

  雙方隨即進(jìn)入一段激烈交鋒的階段。

  8 分 48 秒,絕悟一波團(tuán)戰(zhàn) 0 換2,并在全員殘血的情況下,主動(dòng)追殺賽區(qū)聯(lián)隊(duì)血量健康的曹操。不過絕悟也損失了血量最少的達(dá)摩,1 換1。接著絕悟順勢(shì)開主宰。隨后復(fù)活的賽區(qū)聯(lián)隊(duì)玩家趕來,團(tuán)滅了絕悟戰(zhàn)隊(duì),并拔掉中路 2 塔、反藍(lán)成功。

  現(xiàn)場(chǎng)解說指出,AI 的策略是“不想回家,打到彈盡糧絕。”這種方法,讓帶線效率更高。

  9 分 48 秒,絕悟拿下 5 塔 8 人頭 28.2k 經(jīng)濟(jì),賽區(qū)聯(lián)隊(duì)拿下 4 塔 8 人頭 28.9k 經(jīng)濟(jì)。

  又一分鐘之后,絕悟連續(xù)拿下 4 個(gè)人頭。其中包括 10 分 25 秒,賽區(qū)聯(lián)隊(duì)曹操在上路被殘血的 AI 虞姬反殺。展現(xiàn)出絕悟 1v1 時(shí)良好的即時(shí)策略能力。

  又一分鐘,絕悟推掉賽區(qū)聯(lián)隊(duì)中路高地塔。然而,賽區(qū)聯(lián)隊(duì)曹操繞后,緊接著來了一撥反打,收掉絕悟四個(gè)人頭,AI 戰(zhàn)隊(duì)僅剩雅典娜脫逃。

  但,賽區(qū)聯(lián)隊(duì)這一時(shí)間沒能繼續(xù)推塔,也沒有拿下主宰。

  14 分鐘,反讓絕悟擊殺主宰。此時(shí),絕悟拿下 7 塔 13 人頭 45.1k 經(jīng)濟(jì),賽區(qū)聯(lián)隊(duì)拿下 6 塔 12 人頭 43.3k 經(jīng)濟(jì)。接著,絕悟開始不斷的清理各路兵線,

  15 分 20 秒,絕悟四人上路抱團(tuán),在主宰先鋒的支持下,強(qiáng)開高地塔。雙方爆發(fā)激烈團(tuán)戰(zhàn),在 AI 王昭君和牛魔大招的加持下,絕悟最終打出一波 1 換5,賽區(qū)聯(lián)隊(duì)團(tuán)滅。

  然而~對(duì)手團(tuán)滅+兩條主宰先鋒上高地的情況下,絕悟卻沒有選擇直接推水晶,而是秀了一波操作……

  絕悟四人,以輪流抗塔的方式,無兵線支持,推掉了還有三分之二血量的最后一座高地塔。現(xiàn)場(chǎng)解說高聲喊:“太絕了。”

  16 分 15 秒,絕悟推掉水晶,戰(zhàn)勝賽區(qū)聯(lián)隊(duì)。

  最終,絕悟拿下 9 塔 18 人頭 56.2k 經(jīng)濟(jì),賽區(qū)聯(lián)隊(duì) 6 塔 13 人頭 48.0k 經(jīng)濟(jì)。

  雙方的出裝和數(shù)據(jù)如下:

  問答絕悟團(tuán)隊(duì)

  在這次歷史性的對(duì)抗之后,量子位與絕悟團(tuán)隊(duì)進(jìn)行了更進(jìn)一步的交流。

  量子位:這次絕悟的對(duì)手情況如何?

  騰訊絕悟:5v5 對(duì)戰(zhàn)時(shí)最高規(guī)格電競(jìng)賽事——世界冠軍杯半決賽的特設(shè)環(huán)節(jié),是中國大陸/中國香港/韓國/馬來西亞地區(qū)選手組成的賽區(qū)聯(lián)隊(duì)。世冠杯特別環(huán)節(jié)的水平測(cè)試,是 5v5 版本首次達(dá)到職業(yè)水平。

  1v1 版本的研發(fā)難度顯著低于 5v5 版本。ChinaJoy 上測(cè)試的是 1v1 版本,為首次公開對(duì)外測(cè)試,面向的是頂級(jí)業(yè)余玩家,AI 總體實(shí)力十分強(qiáng)勁。

  量子位:絕悟現(xiàn)在掌握多少英雄?BP 也是自己完成么?

  騰訊絕悟:5v5 版本是此次固定的十個(gè)英雄,職業(yè)選手可以自由出裝。未來希望能不斷擴(kuò)大英雄池規(guī)模。

  量子位:絕悟的操作手速被限制在什么水平上?

  騰訊絕悟:設(shè)定為跟人類極限手速類似,因?yàn)橛螒虮旧砥展ズ图寄芏加泄ニ傧拗?,因此總體是一個(gè)相對(duì)公平的測(cè)試。

  量子位:絕悟此次訓(xùn)練了多久?投入了怎樣的計(jì)算資源?

  騰訊絕悟:訓(xùn)練使用 384 塊 GPU,8.5w 核 CPU,平均每天自對(duì)戰(zhàn)局?jǐn)?shù)相當(dāng)于人類訓(xùn)練 440 年的量,訓(xùn)練周期持續(xù)訓(xùn)練半個(gè)月以上。

  量子位:比賽過程中,絕悟需要怎樣的網(wǎng)絡(luò)和計(jì)算資源支持?

  騰訊絕悟:網(wǎng)絡(luò)解碼不需要太大資源,正常服務(wù)器即可。1v1 版本已經(jīng)有手機(jī)版本,目前在 ChinaJoy 對(duì)頂尖選手開放測(cè)試。

  量子位:絕悟有什么弱點(diǎn)?有什么還沒玩家被解決的問題?

  騰訊絕悟:有些我們不會(huì)稱為弱點(diǎn),但很有意思的行為。

  比如在此次測(cè)試中,最后不推水晶,要獎(jiǎng)勵(lì)最大化?賽事尾聲,人類賽區(qū)聯(lián)隊(duì)團(tuán)滅后,絕悟并未直接推水晶,而是在計(jì)算整體收益后,選擇先推完最后一個(gè)高地塔,再推水晶直至勝利。這是人類一般不會(huì)做的事情,但這符合 AI 的價(jià)值觀設(shè)定,就是最大化經(jīng)濟(jì)效益。

  量子位:人類對(duì)手,尤其是職業(yè)玩家怎么評(píng)價(jià)絕悟?

  騰訊絕悟:前期策略上,很早就多個(gè) AI 抱團(tuán),甚至愿意犧牲兵線,換取血量?jī)?yōu)勢(shì);中期超強(qiáng)的兵線運(yùn)營策略;長(zhǎng)期策略是一直保持游戲主動(dòng)權(quán);團(tuán)戰(zhàn)的目標(biāo)選擇和控制銜接也很完美,體現(xiàn)了很強(qiáng)的團(tuán)隊(duì)協(xié)作能力。

  量子位:團(tuán)隊(duì)介紹一下吧。

  騰訊絕悟:是長(zhǎng)期致力于游戲 AI 和多智能體研究的團(tuán)隊(duì),部分成員來自圍棋 AI 絕藝的團(tuán)隊(duì)。

  絕悟的研發(fā)是算法+算力高度結(jié)合,需要極致優(yōu)化的算力平臺(tái)和持續(xù)改進(jìn)的優(yōu)化算法,團(tuán)隊(duì)綜合了 AI Lab 的科研與工程人才資源,還聯(lián)合了我們所在的騰訊技術(shù)與工程事業(yè)部(TEG)旗下基礎(chǔ)架構(gòu)平臺(tái)部人才。主要工作包括模型、特征、算力、數(shù)據(jù)的優(yōu)化,機(jī)器虛擬化、搭建和優(yōu)化數(shù)據(jù)處理、并行計(jì)算和機(jī)器學(xué)習(xí)訓(xùn)練的平臺(tái)。

  騰訊 AI Lab 一直是此類智能體研究的先行者。2016 年起,研發(fā)的圍棋 AI 絕藝(Fine Art),現(xiàn)擔(dān)任中國國家圍棋隊(duì)訓(xùn)練專用 AI;2017 年,啟動(dòng)絕悟研發(fā);2018 年,絕悟達(dá)到業(yè)余頂尖水平,騰訊還在射擊類頂級(jí) AI 競(jìng)賽 VizDoom 奪冠,并在《星際爭(zhēng)霸2》首先研發(fā)出擊敗內(nèi)置 AI 的智能體。

  量子位:普通人怎么能和絕悟交手?

  騰訊絕悟:目前絕悟只是實(shí)驗(yàn)階段,沒有在游戲內(nèi)開放。

  1v1 版本在特定場(chǎng)合會(huì)做非常短期的測(cè)試,比如 8 月 2 日起在上海舉辦的國際數(shù)碼互動(dòng)娛樂展覽會(huì) ChinaJoy,1v1 版本會(huì)向頂級(jí)業(yè)余玩家開放為期四天的體驗(yàn)測(cè)試。

  絕悟之路

  絕悟,是騰訊 AI Lab 和與王者榮耀共同探索的前沿研究項(xiàng)目:策略協(xié)作型 AI。

  絕悟這個(gè)名字,寓意“絕佳領(lǐng)悟力”。這個(gè) AI 的研發(fā)始于 2017 年 12 月。2018 年 12 月,絕悟 5v5 對(duì)陣《王者榮耀》王者段位人類玩家,大戰(zhàn) 250 局,拿下 48% 的勝率?,F(xiàn)在,絕悟已經(jīng)超越王者段位水準(zhǔn),達(dá)到職業(yè)電競(jìng)選手的層次。

  這次在吉隆坡和上海發(fā)威的絕悟版本,建立了基于“觀察-行動(dòng)-獎(jiǎng)勵(lì)”的深度強(qiáng)化學(xué)習(xí)模型,無需人類數(shù)據(jù),從白板學(xué)習(xí)(Tabula Rasa)開始,讓 AI 自己與自己對(duì)戰(zhàn)。

  AI 一天的訓(xùn)練強(qiáng)度高達(dá)人類440 年

  據(jù)騰訊介紹,AI 從 0 到 1 摸索成功經(jīng)驗(yàn),勤學(xué)苦練,既學(xué)會(huì)了如何站位、打野、輔助保護(hù)和躲避傷害等游戲常識(shí)。而且,AI 還探索出了不同于人類常規(guī)做法的全新策略。在上面的對(duì)戰(zhàn)實(shí)況中,我們已經(jīng)可以感受到絕悟的不同之處。

  絕悟的研發(fā)團(tuán)隊(duì)還創(chuàng)建 One Model 模型提升訓(xùn)練效率,優(yōu)化通信效率提升 AI 的團(tuán)隊(duì)協(xié)作能力,使用零和獎(jiǎng)懲機(jī)制讓 AI 能最大化團(tuán)隊(duì)利益,使其打法果斷,有舍有得。

  游戲中測(cè)試的難點(diǎn),是 AI 要在不完全信息、高度復(fù)雜度的情況作出復(fù)雜快速的決策。

  在龐大且信息不完備的地圖上,10 位參與者要在策略規(guī)劃、英雄選擇、技能應(yīng)用、路徑探索及團(tuán)隊(duì)協(xié)作上面臨大量、不間斷、即時(shí)的選擇,這帶來了極為復(fù)雜的局面,預(yù)計(jì)有高達(dá) 1020000種操作可能性,而整個(gè)宇宙原子總數(shù)也只是 1080。

  如果 AI 能在如此復(fù)雜的環(huán)境中,學(xué)會(huì)人一樣實(shí)時(shí)感知、分析、理解、推理、決策到行動(dòng),就可能在多變、復(fù)雜的真實(shí)環(huán)境中發(fā)揮更大作用。

  騰訊副總裁姚星表示,“電子競(jìng)技”將成為策略協(xié)作型 AI“絕悟”未來短期內(nèi)的主要應(yīng)用場(chǎng)景。而長(zhǎng)期應(yīng)用上,絕悟?qū)⑹球v訊攻克通用人工智能(AGI)的關(guān)鍵一步。

  此前,騰訊另一個(gè) AI 絕藝,在圍棋賽場(chǎng)上大殺四方。當(dāng)然對(duì)人工智能來說,王者榮耀是一個(gè)比圍棋復(fù)雜太多的難題。

  絕悟背后的技術(shù)

  對(duì)于這次的絕悟,騰訊 AI Lab 表示將通過論文等形式進(jìn)一步分享技術(shù)細(xì)節(jié),通過開放研究,幫助和啟發(fā)更多研究者。

  在這我們回顧一下騰訊此前發(fā)布了一篇關(guān)于王者榮耀的論文。在這篇論文中,騰訊表示絕悟是一個(gè)基于學(xué)習(xí)的分層宏觀策略(Hierarchical Macro Strategy)模型。經(jīng)過這個(gè)模型的熏陶,控制每個(gè)英雄的智能體就既能獨(dú)立做出決策又不忘與隊(duì)友溝通,成為頂尖選手。

  名字里的“分層”,指的是這個(gè)模型分為注意力層(Attention Layer)和時(shí)期層(Phase layer),前者用來預(yù)測(cè)英雄該去哪兒,后者負(fù)責(zé)識(shí)別游戲進(jìn)行到了什么階段,是前期、對(duì)線還是后期。

  我們先看注意力層,也就是 AI 怎樣判斷它的英雄該去哪兒。

  培養(yǎng)這項(xiàng)能力,首先要有合適的訓(xùn)練數(shù)據(jù),而在王者榮耀里,想判斷英雄“到了這兒”,最合適的標(biāo)準(zhǔn)莫過于“在這兒打起來了”。

  于是,騰訊在標(biāo)注訓(xùn)練數(shù)據(jù)時(shí),把下一次攻擊發(fā)生的地點(diǎn),定為英雄現(xiàn)在該去的地點(diǎn)。

  比如說上圖就以韓信為例,展示了游戲開局時(shí)英雄該往哪走。其中左側(cè)顯示的是游戲在初始階段s-1 時(shí)的狀態(tài),中間和右側(cè)紅框標(biāo)出的ys、ys+1顯示的是韓信進(jìn)行第一、二次攻擊的位置,也就是他在s-1、s兩個(gè)階段該去的位置。

  AI 的目標(biāo),就是學(xué)會(huì)在s-1 階段該準(zhǔn)備去y位置,在s階段該去ys+1位置。

  用這樣的數(shù)據(jù)訓(xùn)練注意力層,就能讓 AI 掌握英雄移動(dòng)的奧義。

  知道了該去哪還不夠,要想上王者,還得會(huì)判斷局勢(shì),調(diào)整策略。這就是時(shí)期層的工作了。

  想知道游戲進(jìn)行到了前期、對(duì)線期還是后期,只靠時(shí)間當(dāng)然不夠。好在游戲里主要資源的狀況和階段密不可分。比如說,如果英雄還在以推外塔打暴君(小龍)為目標(biāo),那游戲一定剛剛開局;如果打到了敵方家里,那當(dāng)然是后期了。

  所以,教 AI 判斷局勢(shì),根據(jù)的也是對(duì)敵方主要資源的打擊狀況,包括塔、暴君、主宰(大龍)和水晶(base)。

  上圖顯示的就是時(shí)期層關(guān)注的敵方主要資源,模型要從中學(xué)會(huì)的,是根據(jù)資源狀況來判斷現(xiàn)在該打擊什么主要資源了,并進(jìn)一步判斷要完成哪些小目標(biāo)。

  比如下圖顯示的偷藍(lán) buff(野怪)、清下路兵線,就都是推一塔這個(gè)時(shí)期的小目標(biāo)。

  能分析局勢(shì)、確定目標(biāo),還知道該往哪兒走,剩下的就是隊(duì)友之間的溝通配合問題了。

  不過要學(xué)溝通,真的沒什么人類對(duì)戰(zhàn)的數(shù)據(jù)能拿來訓(xùn)練。畢竟人類隊(duì)友的溝通充滿怨念

  于是,騰訊設(shè)計(jì)了一種全新的跨智能體溝通機(jī)制,用隊(duì)友的注意力標(biāo)簽來訓(xùn)練 AI,讓它學(xué)會(huì)預(yù)測(cè)隊(duì)友要往哪走,并據(jù)此做出決策。

  就這樣,一支隊(duì)伍中的 5 個(gè)智能體就可以協(xié)作了,也算是一種“溝通”機(jī)制吧。騰訊稱之為模仿跨智能體溝通(Imitated Crossagents Communication)。

  One More Thing

  最后,視頻對(duì)戰(zhàn)請(qǐng)到原文中觀看。

總結(jié)

以上是生活随笔為你收集整理的腾讯AI击败王者荣耀职业队,全靠自学,一天训练量为人类440年的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。