NeurIPS 2018 | 腾讯AI Lab:可自适应于不同环境和任务的强化学习方法
本文是由南加州大學和騰訊 AI Lab 合作發表于 NeurIPS 2018 的 Spotlight 論文之一,這項工作研究了同時在不同環境(Env)和不同任務(Task)之間遷移的問題,目的是利用稀疏的(Env, Task)組合就能學到在所有可能組合中遷移的能力。
本文提出了一種新穎的部件神經網絡,它描述了如何從環境和任務來組成強化學習策略的元規則。值得注意的是,這里的主要挑戰之一是環境和任務的特征描述必須與元規則一起學習。為此,研究者又進一步提出了新的訓練方法來解鎖這兩種學習任務,使得最終的特征描述不僅成為環境和任務的獨特簽名,更成為組建策略的有效模塊。
研究者在 GRIDWORLD 和 AI2-THOR 上進行了大量實驗,結果表明新提出的模型可以有效地在 400 個(Env, Task)組合之間成功遷移,而模型的訓練只需要這些組合的大概 40%。
方法簡介
傳統的強化學習在同一個環境下試圖解決同一個任務——比如 AlphaGo,我們希望把這種受限情況下的進展推廣到更一般的情況:多個環境(比如不同的迷宮),多個任務(比如逃離迷宮、找到寶藏、收集金幣等不同任務)。
如上圖所示,紅色代表訓練階段見到的環境與任務組合,灰色代表只在測試階段才會見到的組合:
(a)是最簡單的情況,盡管有一些組合在訓練階段沒見過,但是每個環境(同理,每個任務)都在訓練的時候出現過;
(b)相對復雜一些,在測試階段出現的新的組合里面,或者任務是新的——訓練時候沒有見過,或者環境是新的;
(c)是最復雜的情況,在測試階段出現的新組合里面,任務和環境都是以前沒有見過的。
我們提出一個統一的框架來解決上述三個問題,這個框架的關鍵在于同時學習環境和任務的描述子以及如何從這些描述子構建規則。
我們的基本假設是規則的構建方式對于不同的(環境、任務)組合是相通的:于是,當智能體在測試階段給定了新的(環境、任務)組合時,針對(a)它可以利用以前學習到的描述子構建相應的規則;針對(b)和(c),也就是存在新的以前沒見過的環境或/和任務,我們允許智能體做少量的交互來快速學習描述子——一旦環境和任務描述子學習完成,它就可以構建規則,不需要像傳統的強化學習那樣重新學習規則。
具體來說,我們提出的框架如下:
雖然上述框架具備了我們要求的同時學習規則以及環境與任務描述子的功能,但是在學習階段有一個陷阱:很可能,規則和描述子會耦合在一起,使得智能體在見到的(環境、任務)組合上表現很好,但是沒辦法在測試階段處理新的組合。
為了解決這個問題,就需要把規則構建方式和描述子解耦,使得描述子確實可以有效描述和區分不同的環境與任務,同時又能幫助構建有效的規則。相對應的,在訓練的時候,除去傳統的用于完成任務的獎勵函數,我們還加上針對描述子特有的用于分類的獎勵函數——基于描述子的狀態描述應該能成功區分不同環境和任務。
實驗設定
我們分別在走迷宮和室內導航上進行了實驗。以下主要描述走迷宮;關于室內導航的實驗請見論文。
上圖展示了 16 個不同的迷宮(環境),其中紅黃綠紫等顏色方塊代表不同寶藏——它們各自代表一個任務,同時收集它們的不同順序又能定義新的任務。
如下圖所示,我們假定智能體在迷宮中行走的時候,視野范圍只有 3 x 3。
實驗結果
如下圖所示,我們的方法(SynPo)成功的超過了最近提出的幾個方法,包括多任務神經網絡(MTL),模塊化神經網絡(ModuleNet),專門用于遷移學習的 SF,還有一個我們自己方法的簡化版(MLP)。
另外,我們也分別研究了智能體在見過和沒見過的(環境、任務)組合上的表現。如下圖所示,對于智能體在訓練階段見過的組合,它在測試階段始終表現不錯;對于沒見過的組合,它只需要在 40% 的組合上學習,就能達到很好的效果。
最后,我們給出在 10 個環境和 10 個任務組合上訓練,然后在 20 個環境和 20 個任務上做測試的結果。如下圖所示,每一行代表一個任務,每一列代表一個環境,其中左上角的 10 個環境和任務是用于訓練的。
測試階段,為了拓展到新的環境(右上角),我們允許智能體和環境做少量交互,用于得到環境的描述子,然后構建規則;為了拓展到新的任務(左下角),我們如法炮制,得到任務的描述子。
得到所有描述子以后,我們就可以構建針對任意組合的規則了。在相應規則指導下,智能體完成任務的表現如上圖,深色代表高成功率,淺色代表低成功率。我們可以看到向新的任務遷移比向新的環境遷移容易一些,而兩者都是以前未見的時候,遷移是最難的。
點擊以下標題查看更多論文解讀:?
自動機器學習(AutoML)最新綜述
自然語言處理中的語言模型預訓練方法
從傅里葉分析角度解讀深度學習的泛化能力
深度解讀DeepMind新作:史上最強GAN圖像生成器
兩行代碼玩轉Google BERT句向量詞向量
本周有哪些值得讀的AI論文?進來告訴你答案
TensorSpace:超酷炫3D神經網絡可視化框架
NIPS 2018:基于條件對抗網絡的領域自適應方法
#投 稿 通 道#
?讓你的論文被更多人看到?
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢? 答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學習心得或技術干貨。我們的目的只有一個,讓知識真正流動起來。
??來稿標準:
? 稿件確系個人原創作品,來稿需注明作者個人信息(姓名+學校/工作單位+學歷/職位+研究方向)?
? 如果文章并非首發,請在投稿時提醒并附上所有已發布鏈接?
? PaperWeekly 默認每篇文章都是首發,均會添加“原創”標志
? 投稿郵箱:
? 投稿郵箱:hr@paperweekly.site?
? 所有文章配圖,請單獨在附件中發送?
? 請留下即時聯系方式(微信或手機),以便我們在編輯發布時和作者溝通
?
現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
關于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
▽ 點擊 |?閱讀原文?| 下載論文
總結
以上是生活随笔為你收集整理的NeurIPS 2018 | 腾讯AI Lab:可自适应于不同环境和任务的强化学习方法的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 实录分享 | 计算未来轻沙龙:计算机视觉
- 下一篇: 与AI大牛面对面:人工智能机器人,助手还