OpenAI智能体上演捉迷藏攻防大战,自创套路与反套路
機器之心報道
機器之心編輯部
經歷了圍棋、星際爭霸、Dota、撲克、麻將……強化學習似乎正在挑戰難度越來越高的人類游戲。但 OpenAI 近日的一份研究似乎打破了這種刻板印象,讓 AI 玩起了捉迷藏。在訓練了 3.8 億輪之后,AI 學會了各種圍追堵截和反圍追堵截的套路,而且有些套路還是研究者始料未及的操作。
為了進行這個捉迷藏游戲,OpenAI 首先構建了一個包含墻、盒子和斜坡的 3D 環境。在這個環境中,智能體以團隊為單位進行捉迷藏游戲。
隱藏方(藍色小人)的任務是躲避搜索方(紅色小人)的視線,而搜索方的任務是緊緊追逐隱藏方。
環境中不僅散布著隱藏方和搜索方可以適時抓取和鎖定的目標,而且還有智能體必須學習操控的隨機生成的固定房間和墻壁。
在捉迷藏游戲開始前,隱藏方(藍)會進入準備階段,這時搜索方(紅)固定不動,給隱藏方逃跑或改變環境的機會。
在隱藏方藏好之前,搜索方處于鎖定狀態。
在這個游戲中,贏得游戲的隱藏方和搜索方都會獲得獎勵,因此他們要不斷更新自己的策略。
當然,這種獎勵是以團隊為單位的。如果所有隱藏方成功隱藏,則獎勵+1;相反,如果任何隱藏方被搜索方發現,則獎勵-1。搜索方的獎勵方式恰恰相反,即如果所有隱藏方成功隱藏,則獎勵-1;如果任何隱藏方被發現,則獎勵+1。
游戲中智能體的行為需要控制在合理的空間,如果超出游戲區域,則會受到懲罰。在準備階段,所有智能體的獎勵為零。
在經過了多輪訓練之后,智能體學會了 6 種策略:1)奔跑和追逐;2)隱藏方學會移動磚塊構建堡壘;3)搜索方學會移動斜坡以跳進隱藏方的堡壘;4)隱藏方學會將所有的斜坡搬進自己的堡壘;5)搜索方學會跳到盒子上滑行,進而跳到隱藏方的堡壘;6)隱藏方學會將所有的盒子鎖定在適當的位置,以防被搜索方利用。
其中,后兩種策略是研究者始料未及的操作。
搜索方學會移動斜坡以跳進隱藏方的堡壘。
隱藏方學會將所有的斜坡搬進自己的堡壘。
搜索方學會跳到盒子上滑行,進而跳進隱藏方的堡壘。
隱藏方學會將所有的盒子鎖定在適當的位置,以防被搜索方利用。
雖然游戲環境非常簡單,但這一過程中智能體以自監督方式學到的策略復雜度逐漸升高,表明多智能體互適應有朝一日可能會產生極其復雜和智能的行為。
為什么要用捉迷藏游戲訓練智能體
為了進一步了解 OpenAI 這一研究背后的意義及動機,機器之心對研究者進行了采訪。在談到為何選擇捉迷藏游戲訓練智能體時,OpenAI 的研究者表示,因為這個游戲規則比較簡單。
從生物進化的角度來看,人類是一個可以不斷適應新環境的物種,但人工智能卻沒有這種特性。近年來機器學習在圍棋以及 Dota 2 等復雜的游戲中取得了顯著進步,但這些特定領域的技能并不一定適應現實場景中的實際應用。因此,越來越多的研究者希望構建在行為、學習和進化方面更類人的機器智能。
由于捉迷藏游戲中的目標相對簡單,多個智能體通過競爭性的自我博弈進行訓練,學習如何使用工具并使用類人技能取得勝利。研究者觀察到,智能體在簡單的捉迷藏游戲中能夠實現越來越復雜的工具使用。在這種簡單環境中以自監督方式學到的復雜策略進一步表明,多智能體協同適應將來有一天可能生成極度復雜和智能的行為。OpenAI 相信,這一研究會成為一個智能體開發和部署的非常有前景的方向。
文章的作者之一、OpenAI 研究員 Yi Wu 告訴機器之心,「社區的研究真的需要優質和有趣的環境,這一環境比 2D 粒子世界復雜一點,但又不至于像星際爭霸那么復雜。」
OpenAI 正在開源他們的代碼和環境,以鼓勵這一領域的進一步研究。
論文鏈接:https://d4mucfpksywv.cloudfront.net/emergent-tool-use/paper/Multi_Agent_Emergence_2019.pdf
環境:https://github.com/openai/multi-agent-emergence-environments
如何訓練捉迷藏智能體
在此研究中,研究者使用了和 OpenAI Five、Dactyl 相同的培訓基礎架構和算法。但是,在該環境中,每個智能體都使用自己觀察和隱藏的記憶狀態獨立行動。智能體使用以實體為中心的、基于狀態的世界表征,也就是對其他目標和智能體是排列不變的。
在該研究中,嵌入的每個目標被傳遞通過一個 mask 殘差自注意塊,這類似于 Transformer,其中的注意力集中在目標上而不是時間上。不在視線內以及在智能體前面的目標被 mask 掉,以使得智能體沒有它們的信息。
智能體策略架構
然后,通過自我博弈和臨近策略優化(Proximal Policy Optimization (https://openai.com/blog/openai-baselines-ppo/))訓練智能體策略。在優化期間,智能體可以在價值函數中使用有關被遮擋目標和其他智能體的特權信息。
研究者發現,大規模訓練對于各個階段的智能體學到何種策略來說至關重要。下圖展示了智能體在各種 batch 大小情況下,學會第 4 種策略(將斜坡搬進自己的堡壘)所需的 episode 和時間。他們發現,增加 batch 大小可以大大提升收斂速度,然而當 batch 大小為 32k 或更高時,采樣效率不會受到影響。但是,他們還發現,在指定的 episode 數量下,batch 大小為 8k 和 16k 時,智能體從未學會第 4 種策略。
增加 batch 大小加速收斂。注意:作者給出的是在反向傳播中使用轉換連續塊的數量的 batch 大小,每個包含 10 個轉換,也就是圖中 64k batch 實際上包含 640k 個轉換。
多智能體競爭 VS 內在動機(intrinsic innovation)
在此項研究中,研究者證明了智能體可以在捉迷藏游戲中通過自監督 autocurriculum 學習復雜的策略和反策略。另一種以無監督方式學習技能的方法是內在動機,它激勵智能體通過模型誤差或狀態計數等各種度量進行探索。研究者在構建的環境中進行了基于計數的探索,其中智能體對它們訪問的狀態進行明確計數,并在激勵下前往很少訪問的狀態。
在當前設置下進行調整的主要建模選擇是狀態表征,比如在首個基線中,狀態中只包含 2D 盒子位置,這樣智能體在激勵下與盒子進行交互并且將盒子推到新的位置。然后,研究者與基于計數的策略進行比較,這種基于計數的策略獲取捉迷藏游戲中智能體獲得的完整狀態。
可以看出,在捉迷藏游戲中進行訓練的智能體本質上是圍繞人類可解釋性更強的行為,如搭建堡壘等。但是,接受內在激勵訓練的智能體卻似乎以一種無明確方向的方式移動物體。此外,隨著狀態空間復雜度的增加,研究者發現內在獎勵方法與環境中物體的有意義交互越來越少。因此,研究者相信,隨著環境大小和復雜度的增加,多智能體競爭將會是一種更加可擴展的類人技能無監督生成方法。
在評估中加入遷移和微調
在上文中,研究者對捉迷藏游戲中學習的行為與利用內在動機學習的行為進行了定性對比。但是,隨著環境規模的擴大,對游戲進程展開定性衡量也變得越來越困難。在多智能體設置中追蹤獎勵作為評價指標是不夠的,因為這項指標無法確切地說明智能體在均衡改進還是陷入了停滯。
ELO 或 Tureskill 等度量指標能夠更可靠地衡量性能相較于之前的策略版本或其他策略是否實現了提升。但是,這些度量指標依然無法揭示性能的提升是得益于新的適應性還是之前學到的技能。最后,使用目標運動等特定環境下的統計數據也具有不確定性(比如,追蹤絕對運動并不能明確指出智能體的運動方向),并且設計充分的度量指標將隨著環境的擴大而變得更加困難,花費也更大。
研究者建議使用一套特定領域的智能測試,其目的在于衡量智能體最終可能獲得的能力。遷移性能在這些設置中充當質量或技能表征的定量度量,并且研究者將遷移性能與基于計數探索的預訓練和從頭訓練的基線進行比較。
盡管捉迷藏智能體在很多遷移任務上表現的更好,但性能或收斂時間并沒有顯著提升。通過觀察智能體在捉迷藏游戲中的表現,研究者知道它們具有準確移動物體和搭建堡壘的潛能。但在接受少樣本訓練時,智能體并不能在其他場景中利用這種能力。
研究者認為,混合遷移結果的原因在于智能體學習的技能表征是混亂且難以微調的。隨著未來環境變得更加多樣化以及智能體必須在更多場景下使用技能,他們相信將來會基于這種評價方法出現更泛化的技能表征和更有效的信號。此外,研究者還開源了評估任務,用來評估捉迷藏環境中的學習進程。
出乎意料的行為
研究者已經證明,智能體能夠在高保真物理模擬器中學習使用復雜工具,但在這一過程中,它們也吸取了一些教訓。構建環境非常不容易,而且智能體經常以一種人類始料未及的方式探索環境:
借助盒子滑行:由于智能體可以通過自己施力來移動,他們可以抓住一個盒子并站在盒子上滑行至隱藏者的位置;
不停地奔跑:在不給離開游戲區域的智能體添加任何額外獎勵的情況下,在極少數情況下,隱藏著會學習待著一個盒子不停地奔跑;
利用斜坡(隱藏方):強化學習非常擅長利用一些小的技巧。隱藏方發現,如果它們把坡道推到墻腳處,坡道會莫名穿過墻壁然后消失;
利用斜坡(搜索方):搜索方發現,如果它們在有斜坡的墻上以正確的角度奔跑,則能飛起來。
研究者表示,這些「作弊行為」揭示了算法安全性在機器學習中的重要作用。「在問題出現之前你是預料不到的。這類系統總是存在缺陷。」「我們能做的基本就是觀察,并將策略可視化,這樣我們就會看到奇怪的事情發生。然后我們再嘗試修復這些物理問題?!?/p>
當然,這些意料之外的策略也讓我們看到了解決問題的其他思路?!溉绻銓⑦@些智能體放進一個足夠豐富的環境中,而它們又表現出了人類未知的策略,也許它們能為我們提供新的解決方案,」論文作者說道。
微軟 AI 研究員 Katja Hofman 表示,「我發現游戲或類似游戲中的這種設置是探索一個安全環境中現有方法能力和局限性的一種極好方式。這些結果可以幫助我們更好地理解如何驗證和調試機器學習系統,這是通往現實世界應用的關鍵一步。」
參考鏈接:
https://openai.com/blog/emergent-tool-use/
https://spectrum.ieee.org/tech-talk/robotics/artificial-intelligence/ai-agents-startle-researchers-with-unexpected-strategies-in-hideandseek
https://syncedreview.com/2019/09/17/why-playing-hide-and-seek-could-lead-ai-to-humanlike-intelligence/
本文為機器之心報道,轉載請聯系本公眾號獲得授權。
總結
以上是生活随笔為你收集整理的OpenAI智能体上演捉迷藏攻防大战,自创套路与反套路的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 人工智能和神经科学之间有什么关系?诺奖得
- 下一篇: AI医疗领域人才需求与培养趋势分析