當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

180年魔鬼训练！人工智能打Dota 2 轻松打倒人类

發(fā)布時間：2024/3/24 编程问答 65 豆豆

生活随笔收集整理的這篇文章主要介紹了 180年魔鬼训练！人工智能打Dota 2 轻松打倒人类小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

近日，伊隆·馬斯克（Elon Musk）成立的人工智能公司 OpenAI 宣布最新的里程碑。人工智能在熱門電玩游戲 Dota 2 的 5 對 5 團(tuán)體戰(zhàn)中，擊敗排名前 1% 的頂尖業(yè)余玩家。

用 AI 解決復(fù)雜的現(xiàn)實(shí)問題

OpenAI 去年 8 月首度將 AI 投入 Dota 2 競賽，并在 1 對 1 對戰(zhàn)中擊敗專業(yè)玩家。不過 1 對 1 的游戲類型技術(shù)難度較低，并未考驗到 AI 之間的協(xié)調(diào)及計劃能力，所以 OpenAI 一直以來的目標(biāo)都是在 5 對 5 團(tuán)體戰(zhàn)中戰(zhàn)勝人類玩家。而最近，經(jīng)過將近一年的研究及測試后，人工智能成功在 5 對 5 團(tuán)體戰(zhàn)中戰(zhàn)勝排名前 1% 的頂尖業(yè)余玩家。雖然 OpenAI 尚未挑戰(zhàn)該游戲的專業(yè)玩家，但 OpenAI 宣布將會于今年 8 月舉行的 Dota 2 國際邀請賽（The International）中挑戰(zhàn)專業(yè)玩家。

用電玩游戲訓(xùn)練 AI 的動機(jī)很簡單，如果能訓(xùn)練 AI 學(xué)習(xí)電玩游戲中所需的技能，就能利用 AI 來解決更復(fù)雜的現(xiàn)實(shí)問題，例如管理城市的交通基礎(chǔ)建設(shè)。電玩游戲與西洋棋或圍棋這類棋類游戲的不同，在于 AI 無法全盤分析整個游戲，并計算出下一步最佳行動，必須習(xí)慣游戲的不確定性。而且，電玩游戲與棋類游戲相比，有更多訊息需要處理，以及有大量可能的動作。進(jìn)行游戲時，AI 必須在 1 千個不同的操作之間做選擇，同時處理代表游戲過程的 2 萬個數(shù)據(jù)點(diǎn)。

一天訓(xùn)練 180 年的游戲量

OpenAI 使用一種稱為強(qiáng)化學(xué)習(xí)（reinforcement learning）的方法來訓(xùn)練 AI，這種技術(shù)看似簡單，卻能讓 AI 學(xué)習(xí)復(fù)雜的行為。工程師在游戲中設(shè)置獎勵功能（AI 在殺死敵人等事件之后，能獲得獎勵點(diǎn)數(shù)），然后讓 AI 不斷在游戲中用試誤法自我學(xué)習(xí)。AI 以加速度的方式一天訓(xùn)練 180 年的游戲量，并訓(xùn)練幾個月的時間，自我學(xué)習(xí)的效率非常驚人。洛克曼表示：「剛開始是完全隨機(jī)的，在地圖上游蕩。然后，經(jīng)過幾個小時，AI 開始掌握基本技能。」洛克曼還表示，如果需要 12,000 到 20,000 小時的時間學(xué)習(xí)才能成為專家，那么 OpenAI 的 AI 每天累積的游戲經(jīng)驗是人類一生經(jīng)驗的 100 倍。這種 AI 的訓(xùn)練方式，證明了當(dāng)代機(jī)器學(xué)習(xí)方法，以及最新計算機(jī)芯片能處理大量數(shù)據(jù)的強(qiáng)大功能。另一方面，這提醒人們 AI 并不夠聰明。這種訓(xùn)練方式，等于 AI 需要花費(fèi)數(shù)千年的時間才能學(xué)會玩電玩游戲。

AI 玩家的優(yōu)勢

雖然 OpenAI 的 AI 已進(jìn)行 5 對 5 團(tuán)體戰(zhàn)，卻仍未觸及 Dota 2 真正的復(fù)雜度。AI 只使用 5 位英雄，而 Dota 2 共有 115 位英雄，每位英雄都有獨(dú)特的屬性和技能。AI 在游戲過程中的某些決策甚至是程序?qū)懰赖?#xff0c;例如從商店購買的物品，以及在游戲中使用經(jīng)驗值升級的技能。此外，游戲的某些特殊功能被完全禁用，包括隱身、召喚單位和守衛(wèi)放置，這些功能對進(jìn)階玩家非常重要。不過，OpenAI 的 AI 擁有計算機(jī)的所有優(yōu)勢，不但反應(yīng)時間比人類快，不會失誤，還可以實(shí)時又準(zhǔn)確的查詢物品庫存、英雄健康狀況，以及地圖上物體之間的距離等數(shù)據(jù)，這對正確使用某項技能來說非常重要。而人類玩家必須手動查詢，或者憑本能判斷。

用規(guī)模克服挑戰(zhàn)

OpenAI 共同創(chuàng)辦人兼技術(shù)長格雷戈·洛克曼（Greg Brockman）表示：「如果你對一個問題進(jìn)行模擬，而且能運(yùn)行足夠大的規(guī)模，那么執(zhí)行上就不會有任何障礙。」洛克曼表示，AI 玩家平均能持續(xù)進(jìn)行游戲 45 分鐘，這種長時間計劃對 AI 是一種挑戰(zhàn)，甚至很難經(jīng)由強(qiáng)化學(xué)習(xí)來訓(xùn)練，但 OpenAI 卻做到了。洛克曼表示 OpenAI 成功的主要因素，只是因為他們有更多運(yùn)算能力來解決這個問題，而這確實(shí)與規(guī)模有關(guān)。

注重團(tuán)隊目標(biāo)

巴斯大學(xué)（University of Bath）人工智能研究員特奧多羅（Andreas Theodorou）表示，5 對 5 游戲的最新研究有了一大進(jìn)展，最重要的成就就是 OpenAI 使用交互式可視化接口為 AI 除錯。特奧多羅補(bǔ)充：「這項技術(shù)顯示，即使是強(qiáng)化學(xué)習(xí)和機(jī)器學(xué)習(xí)系統(tǒng)也能可視化操作。這些附加組件增加了系統(tǒng)的價值，特別是教育目的。」特奧多羅還表示，研究人員使用單獨(dú)獎勵功能來鼓勵 AI 玩家一起工作，也是值得注意的。這些獎勵功能被視為團(tuán)隊精神，并在每場比賽的過程中都會增加。雖然比賽開始時，每個 AI 玩家都追求拼命殺敵等個人目標(biāo)，但隨著時間進(jìn)展，AI 玩家更關(guān)注于團(tuán)隊共同的目標(biāo)。

洛克曼表示，與人類玩家不同，這些 AI 玩家絕對是無私的。他表示：「AI 玩家完全愿意為了更大的利益，而犧牲一條路或舍棄一位英雄。為了滿足好奇心測試，我們找了一個人替補(bǔ)其中一個 AI 玩家，而他說自己感受到充分的支持，他想要的任何物品，AI 玩家都會提供給他。」OpenAI的 AI 團(tuán)隊目前已經(jīng)與業(yè)余和半職業(yè)團(tuán)隊進(jìn)行了五場多人比賽，成績?yōu)樗膭僖缓汀５麄冏畲蟮奶魬?zhàn)將是今年的 Dota 2 國際邀請賽。計算機(jī)在比賽中能完勝人類頂級玩家嗎？請拭目以待。

總結(jié)

以上是生活随笔為你收集整理的180年魔鬼训练！人工智能打Dota 2 轻松打倒人类的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇： jquery设置滚动条样式
下一篇：【无标题】【程序员的数学基础-黄申】读书