日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 人工智能 > ChatGpt >内容正文

ChatGpt

AI 组队在 Dota 2 五对五团战中首次战胜人类,协作型人工智能的里程碑式突破...

發(fā)布時(shí)間:2024/3/24 ChatGpt 61 豆豆
生活随笔 收集整理的這篇文章主要介紹了 AI 组队在 Dota 2 五对五团战中首次战胜人类,协作型人工智能的里程碑式突破... 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

(點(diǎn)擊上方公眾號,可快速關(guān)注)

綜合自:深科技、機(jī)器之心

2018 年 6 月 26 日,由馬斯克和 Sam Altman 創(chuàng)立的著名人工智能非營利組織??OpenAI 宣布這一重大里程碑:他們開發(fā)的 AI 已經(jīng)能夠組隊(duì)在 5V5 對戰(zhàn)中戰(zhàn)勝 Dota 2 頂尖業(yè)余玩家,平均天梯分?jǐn)?shù)超過4200分。

雖然這次與 AI 對戰(zhàn)的是來自 OpenAI 的員工,并非頂尖職業(yè)玩家,而且 AI 也只會使用游戲所提供的 115 位可選英雄中的5位,并且人類玩家不能使用真假眼,魔瓶等道具,但我們有理由相信這僅僅是個(gè)開始。此次開發(fā)的 AI 也將在今年秋季參加頂級 Dota 2 賽事 The International,到時(shí)候會與 5 名專業(yè)選手組成的戰(zhàn)隊(duì)一決高下。

圖丨OpenAI 的 AI 團(tuán)隊(duì)擊敗了OpenAI的員工團(tuán)隊(duì),但前方還有更大的挑戰(zhàn)

?OpenAI 開發(fā)了一套名為“?OpenAI Five”的算法,如果獨(dú)立的看這種算法,其實(shí)并沒有什么特別的,就是一種學(xué)會了如何玩 Dota 2 的神經(jīng)網(wǎng)絡(luò),而且此前也有AI算法在一對一 Dota 2 比賽中勝過人類玩家的先例。但 AI 的這次勝利卻有著完全不同的意義,因?yàn)?套算法間已經(jīng)學(xué)會了如何與“隊(duì)友”協(xié)作。?

OpenAI 創(chuàng)建人工智能時(shí)使用的是機(jī)器學(xué)習(xí)的一種,強(qiáng)化學(xué)習(xí)。這種技術(shù)看似簡單,但是能讓 AI 習(xí)得非常復(fù)雜的行為。讓 AI 學(xué)習(xí)的過程是,把 AI 放到虛擬環(huán)境中,并通過自我嘗試學(xué)會實(shí)現(xiàn)目標(biāo)。具體來說,程序員設(shè)定獎勵機(jī)制(比方說在AI 殺掉敵人后獎勵機(jī)器系統(tǒng)),然后讓 AI 一遍遍進(jìn)行游戲。

這些 Dota 機(jī)器人的自我訓(xùn)練量驚人,每一天機(jī)器人用相當(dāng)于180年游戲的量進(jìn)行訓(xùn)練,連續(xù)訓(xùn)練時(shí)間達(dá)幾個(gè)月。研究人員說:“它開始時(shí)在地圖上亂走,但是,幾個(gè)小時(shí)后,它開始具備基本技能。如果一個(gè)人需要花1.2萬到2萬小時(shí)才能成為專業(yè)游戲玩家,那AI的速度要快得多,因?yàn)槊刻旆e累的游戲經(jīng)驗(yàn)是一個(gè)人一生積累經(jīng)驗(yàn)的100倍。”

與技術(shù)戰(zhàn)略類游戲不同,Dota 這種 MOBA(多人聯(lián)機(jī)在線競技游戲)類游戲有著更為復(fù)雜的游戲機(jī)制,還需要隊(duì)友間完美的配合才能取得最終的勝利。而這次的 5 位AI“玩家”完美的證明了人工智能也懂得相互配合。

這無疑是 AI 技術(shù)的又一里程碑,因?yàn)槿藗冋J(rèn)知中的AI通常獨(dú)立運(yùn)行的,多AI間的相互配合,除了在游戲中擊敗人類,我們很容易聯(lián)想到這種“協(xié)作型” AI 技術(shù)更多的商業(yè)應(yīng)用場景,比如多種 AI 算法可以在在線交易或廣告競價(jià)排名中相互配合拿下訂單,或者在生產(chǎn)線上“組隊(duì)”完成多樣化的制造任務(wù)。當(dāng)然,合作型算法將導(dǎo)致AI技術(shù)與人類更“親密無間”的協(xié)作。

其實(shí)即便是科技高度發(fā)展的今天,AI 和機(jī)器人技術(shù)還是兩個(gè)相對獨(dú)立的領(lǐng)域,人類也一直在嘗試將 AI 技術(shù)與機(jī)器人相結(jié)合,來顛覆現(xiàn)有的生產(chǎn)及倉儲模式,這無疑會將 AI 帶入全新的時(shí)代。

此前,OpenAI 已經(jīng)開發(fā)出了一種算法,能在一對一的 Dota 2 比賽中戰(zhàn)勝人類頂級玩家,基于這套算法,OpenAI 進(jìn)一步開發(fā)出了能評估自身表現(xiàn)與隊(duì)伍獲勝間的微妙關(guān)系。OpenAI Five 作為相互獨(dú)立的5種算法,它們之間并不存在主動交流機(jī)制,除非它們處于同一局游戲中,所以大可不必?fù)?dān)心出現(xiàn)電影《終結(jié)者》中的“天網(wǎng)”。

?“我們從比賽中能感受到,AI算法間的協(xié)作意圖似乎是一種非常自然的本能表現(xiàn)。” OpenAI 創(chuàng)始人之一的 Greg Brockman 表示。在 Dota 2 的 5V5 團(tuán)隊(duì)賽中,他們甚至嘗試了用一位人類玩家頂替 5 位“ AI 玩家”中的一個(gè),而這位替補(bǔ)上場的人類玩家的感覺是:“我能體會到AI隊(duì)友對我的支援!”

?圖丨Greg Brockman?

Dota2 是一個(gè)復(fù)雜的戰(zhàn)略游戲,游戲中各自由五名玩家組成的隊(duì)伍之間開展對戰(zhàn),在廣袤的地圖上推倒對方的防御塔和遺跡,才能獲得最終的勝利。玩家們使用的英雄有各自的強(qiáng)項(xiàng)、弱項(xiàng)、技能和屬性。在游戲里,玩家需要獲得金錢,購買和升級裝備,思考戰(zhàn)略,還要和對手廝殺。

?

用 AI 程序來玩電腦游戲逐漸成為衡量 AI 能力的常用手段。圍棋是著名的高難度游戲,Alphabet 的子公司 DeepMind 曾因?yàn)殚_發(fā)出能學(xué)習(xí)下圍棋的軟件而聲名大噪。另一個(gè)相關(guān)的成績則是 AI 通過與自己對戰(zhàn)從零開始直到掌握了下圍棋和國際象棋的能力。

?

雖然玩 Dota 2 所需的戰(zhàn)略不像國際象棋和圍棋那樣有更多自由發(fā)揮的空間,但是要掌握這款游戲仍然相當(dāng)困難。對于機(jī)器來說更是巨大的挑戰(zhàn),因?yàn)闄C(jī)器不能隨時(shí)能看到對手的舉動,而且這款游戲需要團(tuán)隊(duì)合作。

?

目前 OpenAI Five 還只能在有限條件下打 Dota 2。 OpenAI Five 不隨機(jī)從115個(gè)可用英雄中選擇,而是限定了5個(gè)英雄,因?yàn)槊總€(gè)英雄都有自己的特點(diǎn)。 他們的選擇是:Necrophos、Sniper、Viper、Crystal Maiden、Lich。

一些決策過程是硬編碼的,比如在商店買哪些物品,以及選擇用游戲積累的經(jīng)驗(yàn)值提高哪些技能。此外,游戲中一些決策棘手的操作也被禁用,比如隱形和召喚。這些技能可以讓玩家擁有觀察遠(yuǎn)方的功能,就像有一個(gè)遠(yuǎn)程相機(jī),幾乎是高級游戲玩家必備。

盡管如此,OpenAI Five 繼承了計(jì)算機(jī)的優(yōu)勢,反應(yīng)時(shí)間比人類短,不會錯(cuò)過點(diǎn)擊,可以即時(shí)和精確地獲取數(shù)據(jù),如物品清單、英雄的健康狀況以及地圖上物體之間的距離。而人類玩家必須手動檢查或者憑本能判斷。

OpenAI Five 通過與自己的不同版本對戰(zhàn)來學(xué)習(xí)游戲戰(zhàn)略。隨著時(shí)間推進(jìn),程序習(xí)得的戰(zhàn)略與人類玩家所使用的戰(zhàn)略很類似,比如通過 “打錢” 找到獲取金錢的方法,以及采用游戲中特定的戰(zhàn)略角色,并學(xué)習(xí)如何分路,Gank 和支援隊(duì)友等策略。

人工智能專家表示,這一成就意義重大。匹茲堡卡內(nèi)基梅隆大學(xué)的研究員 Noam Brown 說:“?Dota2 是一個(gè)極其復(fù)雜的游戲,能打敗強(qiáng)大的業(yè)余玩家就已經(jīng)很不容易了,而且, 處理 Dota2 這種大型游戲中的隱藏信息是一個(gè)很大的挑戰(zhàn)。”

此前人工智能學(xué)習(xí)Dota2的畫面

Brown 之前研究過一種玩撲克的算法,撲克是另一種非完整信息博弈游戲,玩家需要有高超的技巧。Brown 說,如果 OpenAI 五人組能夠一直打敗人類,那將是人工智能的一個(gè)重大成就。然而,他也指出,只要有足夠的時(shí)間,人類可能就會找出人工智能團(tuán)隊(duì)的游戲風(fēng)格弱點(diǎn)。

Brown 說,其他游戲也可以進(jìn)一步推動人工智能。“下一個(gè)重大挑戰(zhàn)將是涉及到交流的游戲,例如《強(qiáng)權(quán)外交》和《卡坦島》,在這些游戲里,玩家需要平衡合作與競爭才能勝利。”

技術(shù)細(xì)節(jié)

我們的系統(tǒng)使用一個(gè)高度擴(kuò)展版本的近端策略優(yōu)化(Proximal Policy Optimization)算法進(jìn)行學(xué)習(xí)。OpenAI Five 和之前的 1v1 機(jī)器人都是通過自我對抗進(jìn)行學(xué)習(xí)的。他們從隨機(jī)參數(shù)開始,并不從人類玩家的方法中進(jìn)行搜索或者自舉。

強(qiáng)化學(xué)習(xí)研究人員(包括我們自己)過去普遍認(rèn)為,進(jìn)行長時(shí)間范圍的學(xué)習(xí)需要根本性的算法突破,例如層級強(qiáng)化學(xué)習(xí)(hierarchical reinforcement learning)。而我們的結(jié)果顯示,我們并沒有充分信任現(xiàn)有的模型——至少當(dāng)他們以足夠的規(guī)模和合理的探索方式運(yùn)行的時(shí)候。

我們的智能體被訓(xùn)練以最大化未來獎勵的指數(shù)衰減和,其中指數(shù)衰減因子被稱為 γ。在 OpenAIFive 最新一輪的訓(xùn)練中,我們將 γ 從 0.998(以 46 秒為半衰期)調(diào)整到了 0.997(以 5 分鐘為半衰期)。相比之下,OpenAI 的近端策略優(yōu)化(PPO)論文中最長的時(shí)間跨度為半衰期 0.5 秒,DeepMind 的 Rainbow 論文中最長的時(shí)間跨度為半衰期 4.4 秒,Google Brain 的 Observe and Look Further 論文中則使用了 46 秒的半衰期。

雖然當(dāng)前 OpenAI Five 的補(bǔ)兵能力略差(看我們的測試賽,專業(yè) Dota 解說員 Blitz 估計(jì)它的補(bǔ)兵能力只有職業(yè)玩家的中值水平),但它在選擇優(yōu)先攻擊目標(biāo)上能達(dá)到專業(yè)水平。獲取長期獎勵(例如插眼控圖)通常需要犧牲短期獎勵(例如發(fā)育后的金錢),因?yàn)閳F(tuán)推時(shí)要也要耗費(fèi)時(shí)間。這一觀察加強(qiáng)了我們的信念:系統(tǒng)會隨長時(shí)間而有優(yōu)化。

模型架構(gòu)

每個(gè) Open AI Five 網(wǎng)絡(luò)包含一個(gè)單層、1024 個(gè)單元的 LSTM 網(wǎng)絡(luò),它能觀察當(dāng)前的游戲狀態(tài)(從 Valve 的 Bot API 中抽取)并通過一些可能的行動 Head 發(fā)出下一步采取的行動。每一個(gè) Head 都包含語義信息,例如延遲該行動的時(shí)間值、選擇哪一個(gè)行動和其 X 與 Y 的坐標(biāo)軸。

OpenAI Five 使用了觀察空間和行動空間的交互性演示。它將世界表征為一個(gè)由 2 萬個(gè)數(shù)值組成的列表,并通過發(fā)出一個(gè)包含 8 個(gè)枚舉值的列表而采取行動。我們可以在 OpenAI 網(wǎng)站上選擇不同的行動和目標(biāo)以理解 OpenAI Five 是如何編碼每一個(gè)行動,以及如何觀察世界的。下圖展示了人們可能會觀察到的場景:

Necrophos

OpenAI Five 可以對其丟失的狀態(tài)片段作出反應(yīng),這些狀態(tài)片段可能與它所看到的相關(guān)。例如,直到最近 OpenAI Five 的觀察還沒有包含彈片落下的區(qū)域,而人類可以在屏幕上輕松觀察到這些落彈區(qū)域。然而,我們觀察到 OpenAI Five 可以學(xué)習(xí)走出活躍的落彈區(qū)域,因?yàn)樵谶@樣的區(qū)域中智能體會發(fā)現(xiàn)它們的生命值在下降。

探索

盡管構(gòu)建的學(xué)習(xí)算法能處理較長的視野,但我們?nèi)匀恍枰剿鳝h(huán)境。即使我們已經(jīng)限制了復(fù)雜度,但游戲仍然有數(shù)百種物品、幾十種建筑、法術(shù)、單位類型以及需要長時(shí)間慢慢學(xué)習(xí)的游戲機(jī)制,這些變量將組合成極其巨量的情況。因此,有效地探索這一巨大的組合空間是非常困難的。

OpenAI Five 通過自我對抗(self-play)從隨機(jī)權(quán)重開始學(xué)習(xí),這為探索環(huán)境提供了一個(gè)自然的 curriculum。為了避免「策略崩壞」,智能體在 80% 的游戲中通過自我對抗進(jìn)行訓(xùn)練,而在 20% 的游戲中與過去的智能體進(jìn)行對戰(zhàn)。在第一場游戲中,英雄漫無目的地在地圖上探索,而在幾個(gè)小時(shí)的訓(xùn)練后,出現(xiàn)了規(guī)劃、發(fā)育或中期戰(zhàn)斗等概念。幾天后,智能體能一致地采用基本的人類策略:試圖從對手偷財(cái)富、推塔發(fā)育、在地圖旋轉(zhuǎn)控制英雄以獲得線路優(yōu)勢。通過進(jìn)一步的訓(xùn)練,它們變得精通 5 個(gè)英雄一起推塔這樣的高級策略了。

在 2017 年,我們第一個(gè)智能體擊敗了機(jī)器人,但仍然不能戰(zhàn)勝人類。為了強(qiáng)制在策略空間中進(jìn)行探索,我們有且僅在訓(xùn)練期間對這些單位的屬性(生命、速度和初始等級等)進(jìn)行了隨機(jī)化,然后它開始與人類對戰(zhàn)。隨后,當(dāng)一名測試玩家不停地?fù)魯∥覀兊?1V1 機(jī)器人時(shí),我們增加了訓(xùn)練的隨機(jī)性,然后測試玩家就開始輸?shù)舯荣惲恕4送?#xff0c;我們的機(jī)器人團(tuán)隊(duì)同時(shí)將類似的隨機(jī)技術(shù)應(yīng)用到物理機(jī)器人中,以便從模仿學(xué)習(xí)遷移知識到現(xiàn)實(shí)世界中。

OpenAI Five 使用我們?yōu)?1V1 機(jī)器人編寫的隨機(jī)化,它還使用一個(gè)新的「lane assignment」。在每次訓(xùn)練游戲開始時(shí),我們隨機(jī)「分配」每一個(gè)英雄到線路的一些子集,并在智能體發(fā)生偏離時(shí)對其進(jìn)行懲罰,直到游戲中的隨機(jī)選擇時(shí)間才結(jié)束懲罰。

這樣的探索得到了很好的獎勵。我們的獎勵主要由衡量人類如何在游戲中做決策的指標(biāo)組成:凈價(jià)值、殺敵數(shù)、死亡數(shù)、助攻數(shù)、最后人頭等。我們通過減去每一個(gè)團(tuán)隊(duì)的平均獎勵以后處理每一個(gè)智能體的獎勵,因此這能防止智能體找到正項(xiàng)和(positive-sum)的情況。

合作

OpenAI Five 沒有在各個(gè)英雄的神經(jīng)網(wǎng)絡(luò)之間搭建顯式的溝通渠道。團(tuán)隊(duì)合作由一個(gè)我們稱之為「團(tuán)隊(duì)精神」的超參數(shù)控制。團(tuán)隊(duì)精神的取值范圍為從 0 到 1,代表了 OpenAI Five 的每個(gè)英雄在多大程度上關(guān)注自己的個(gè)人獎勵函數(shù)以及在多大程度上關(guān)注團(tuán)隊(duì)平均獎勵函數(shù)。在訓(xùn)練中,我們將其值從 0 逐漸調(diào)整到 1。

Rapid

我們的系統(tǒng)是用通用的強(qiáng)化學(xué)習(xí)訓(xùn)練系統(tǒng) Rapid 來實(shí)現(xiàn)的。Rapid 可以被應(yīng)用到任何一個(gè) Gym 環(huán)境。在 OpenAI,我們也用 Rapid 來解決其他問題,包括競爭性自我對抗訓(xùn)練(Competitive Self-Play)。

訓(xùn)練系統(tǒng)示意圖

我們已經(jīng)在 IBM Kubernetes,微軟 Azure,谷歌 GCP 后端上實(shí)現(xiàn)了 Rapid。

游戲

到目前為止,我們與這些隊(duì)伍進(jìn)行了對戰(zhàn):

  • 最強(qiáng)的 OpenAI 職員團(tuán)隊(duì): 匹配分 2500?

  • 觀看 OpenAI 職員比賽的觀眾玩家 (包括 Blitz 等):匹配分 4000-6000,他們此前從沒有組隊(duì)參賽過。

  • Valve 公司團(tuán)隊(duì): 匹配分 2500-4000?

  • 業(yè)余團(tuán)隊(duì): 天梯 4200, 作為一支隊(duì)伍來進(jìn)行訓(xùn)練。

  • 半職業(yè)團(tuán)隊(duì): 天梯 5500, 作為一支隊(duì)伍來進(jìn)行訓(xùn)練。

  • 在與前面三支隊(duì)伍的比賽中,OpenAI 取得了勝利,輸給了后面的兩只隊(duì)伍(只贏了開場前三局)。

    我們觀察到 OpenAI Five 具有以下幾個(gè)特點(diǎn):

    經(jīng)常來犧牲自己的優(yōu)勢路(夜魘軍團(tuán)的上路,天輝軍團(tuán)的下路),以壓制敵人的優(yōu)勢路,迫使戰(zhàn)斗轉(zhuǎn)移到對手更難防御的一邊。該策略在過去幾年的專業(yè)領(lǐng)域出現(xiàn)過,現(xiàn)在已經(jīng)成為了流行戰(zhàn)術(shù)。Blitz 說他在打 DOTA 8 年后才學(xué)到了這個(gè)戰(zhàn)術(shù),當(dāng)時(shí)是 Liquid(一支職業(yè)隊(duì)伍)告訴了他。

    比賽初期到中期的轉(zhuǎn)換比對手更快。它是這樣做到的:1)在人類玩家走位出問題時(shí),進(jìn)行多次成功 gank,2)在對方組織起反抗前,去組隊(duì)推塔。

    在一些領(lǐng)域機(jī)器有時(shí)也會偏離主流打法,例如在前期將錢和經(jīng)驗(yàn)讓給輔助英雄(這些英雄一般不優(yōu)先獲取資源)。OpenAI Five 的優(yōu)先級使它獲得的傷害更快達(dá)到頂峰,從而建立起更大的優(yōu)勢,贏得團(tuán)戰(zhàn)以及利用對方的錯(cuò)誤來確保快速取勝。

    和人類的差異

    OpenAI Five 獲得的信息和人類是一樣的,但前者可以實(shí)時(shí)看到位置、生命值和裝備清單等,而這些信息都需要人類選手去手動查看。我們的方法從根本上就沒有依賴于(實(shí)時(shí))觀察狀態(tài),但從游戲中渲染像素就需要成千上萬塊 GPU。

    OpenAI Five 平均每分鐘可進(jìn)行 150-170 次操作(APM=150-170,因?yàn)槊克膸^察一次,所以理論峰值為 450)。熟練的玩家有可能掌握完美捕捉畫面的時(shí)機(jī),但這對機(jī)器來說輕而易舉。OpenAI Five 的平均反應(yīng)時(shí)間為 80 毫秒,比人類更快。

    這些差異在 1V1 中影響最大(當(dāng)時(shí)我們機(jī)器人的反應(yīng)時(shí)間為 67 毫秒),但競技是相對公平的,因?yàn)槲覀円呀?jīng)看到人類在學(xué)習(xí)和適應(yīng)機(jī)器人的打法。在去年 TI 之后,很多專業(yè)選手使用我們的 1V1 機(jī)器人進(jìn)行了為期數(shù)月的訓(xùn)練。William *"Blitz"* Lee(前 DOTA2 專業(yè)選手和教練)表示,1V1 機(jī)器人已經(jīng)改變了我們對單挑的傳統(tǒng)看法(機(jī)器人采取了快節(jié)奏的打法,現(xiàn)在每個(gè)人都已經(jīng)試著去跟著這個(gè)節(jié)奏)。

    令人驚訝的發(fā)現(xiàn)

    二元獎勵可以給予良好的表現(xiàn)。我們的 1v1 模型具有形狀獎勵,包括上次命中獎勵,殺戮等。我們進(jìn)行了一個(gè)實(shí)驗(yàn),只獎勵代理的獲勝或失敗,并且讓它在中間訓(xùn)練了一個(gè)數(shù)量級較慢并且稍微平穩(wěn)的階段,與我們平常看到的平滑學(xué)習(xí)曲線形成對比。該實(shí)驗(yàn)在 4500 個(gè)核心和 16 個(gè) k80 GPU 上進(jìn)行訓(xùn)練,訓(xùn)練至半專業(yè)級(70 TrueSkill,而非我們最好的 1v1 機(jī)器人的 90 TrueSkill)。

    我們可以從頭開始學(xué)習(xí)卡兵。對 1v1 來說,我們使用傳統(tǒng)的強(qiáng)化學(xué)習(xí)和一個(gè)卡兵獎勵(a creep block award)來學(xué)習(xí)卡兵。我們的一個(gè)同事在去度假前(去和未婚妻求婚!)留下了 2v2 模型,打算看看需要多久的訓(xùn)練能才提高表現(xiàn)。令他驚訝的是,這個(gè)模型在沒有任何指導(dǎo)或獎勵的情況下學(xué)會了卡兵。

    我們?nèi)栽谛迯?fù)系統(tǒng)漏洞。下圖顯示了擊敗業(yè)余玩家的訓(xùn)練代碼,相比之下,我們只是修復(fù)了一些漏洞,比如訓(xùn)練期間的罕見崩潰,或者導(dǎo)致達(dá)到 25 級的巨大負(fù)面獎勵的錯(cuò)誤。事實(shí)證明我們可以在隱藏嚴(yán)重漏洞的情況下,依然擊敗優(yōu)秀的人類玩家!

    Open AI Dota 的一個(gè)子團(tuán)隊(duì)手托去年在 Dota 2 國際邀請賽 1v1 上擊敗世界頂級專業(yè)玩家的筆記本電腦。

    下一步計(jì)劃

    Open AI 的團(tuán)隊(duì)專注于達(dá)成八月份制定的目標(biāo)。我們不知道它是否可以實(shí)現(xiàn),但是我們相信通過自身的努力(和運(yùn)氣),機(jī)會還是很大的。

    覺得這條資訊有幫助?請轉(zhuǎn)發(fā)給更多人

    關(guān)注?技術(shù)最前線?看 IT 要聞

    總結(jié)

    以上是生活随笔為你收集整理的AI 组队在 Dota 2 五对五团战中首次战胜人类,协作型人工智能的里程碑式突破...的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。