日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 人工智能 > ChatGpt >内容正文

ChatGpt

ICML 2021 | Option-GAI: 机器人任务太长太复杂?不妨试试层次化模仿学习

發(fā)布時(shí)間:2024/10/8 ChatGpt 112 豆豆
生活随笔 收集整理的這篇文章主要介紹了 ICML 2021 | Option-GAI: 机器人任务太长太复杂?不妨试试层次化模仿学习 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

簡(jiǎn)介

俗話說,三人行必有我?guī)煛榱丝焖偃谌胫苓叺纳瞽h(huán)境或?qū)W習(xí)任務(wù)技能,如手工藝、體育鍛煉和廚藝,人們總會(huì)傾向于觀察身邊人的舉動(dòng),并進(jìn)行模仿與學(xué)習(xí)。古有拜師求藝,現(xiàn)有各種視頻教學(xué),人們可以通過對(duì)專業(yè)人士的觀察與模仿學(xué)習(xí)對(duì)方的行為與技能,實(shí)現(xiàn)自己的想法目標(biāo)。

同樣,對(duì)于機(jī)器人智能體,我們希望它也能通過模仿專家的行為,實(shí)現(xiàn)對(duì)任務(wù)技能的理解與學(xué)習(xí)。為此,本工作提出機(jī)器人智能體行為模仿學(xué)習(xí)算法“Option-GAIL”,通過分析、利用專家給定的行為示教信息,學(xué)習(xí)其背后的行為邏輯,最終希望機(jī)器人在相似環(huán)境和任務(wù)下能完整重現(xiàn)與專家一致的行為結(jié)果。

論文標(biāo)題:

Adversarial Option-Aware Hierarchical Imitation Learning

論文鏈接:

https://arxiv.org/abs/2106.05530

研究背景

在上面這種機(jī)器人模仿學(xué)習(xí)問題設(shè)定下,為了實(shí)現(xiàn)對(duì)專家行為技能的模仿,最簡(jiǎn)單直觀的辦法是,既然我們有專家提供的行為數(shù)據(jù),不妨直接使用樣本數(shù)據(jù)對(duì)機(jī)器人行為策略進(jìn)行監(jiān)督式訓(xùn)練,得到?jīng)Q策網(wǎng)絡(luò)。我們稱這類直接監(jiān)督的模仿學(xué)習(xí)方法為行為克隆(BC: Behavioral Clone)方法。

然而,所謂師傅領(lǐng)進(jìn)門,修行在個(gè)人。監(jiān)督式學(xué)習(xí)這類直接拿專家數(shù)據(jù)生搬硬套的方法在遇到執(zhí)行器噪聲或稍有變化的環(huán)境時(shí),往往會(huì)犯紙上談兵的問題,在遇到專家示教中沒有包含的情形時(shí),機(jī)器人很容易會(huì)放飛自我,產(chǎn)生不可預(yù)測(cè)的行為,導(dǎo)致后續(xù)模仿失敗。我們稱這種現(xiàn)象為累計(jì)誤差(compounding error)。

為了實(shí)現(xiàn)對(duì)累計(jì)誤差的規(guī)避,目前較新的模仿學(xué)習(xí)方法將強(qiáng)化學(xué)習(xí)環(huán)境探索引入了模仿過程中,以最大化自身完整行為專家的整體相似度為優(yōu)化指標(biāo),通過不斷探索環(huán)境試錯(cuò),最終得到對(duì)環(huán)境變化不敏感的行為策略,即逆強(qiáng)化學(xué)習(xí)(IRL: Inverse Reinforcement Learning)方法。

由于自探索的引入,賦予了機(jī)器人策略應(yīng)對(duì)超出示教數(shù)據(jù)集之外情況的可能性,因此可以部分避免行為克隆方法遇到的累計(jì)誤差問題。目前較常用的機(jī)器人行為逆強(qiáng)化模仿學(xué)習(xí)方法,當(dāng)行為的整體相似度由對(duì)抗生成網(wǎng)絡(luò)來(lái)近似得到時(shí),又被稱為對(duì)抗生成模仿學(xué)習(xí)(Generative Adversarial Imitation Learning,GAIL [2])類方法。

長(zhǎng)序列操作任務(wù)的模仿學(xué)習(xí)

上面簡(jiǎn)單介紹了模仿學(xué)習(xí)的基本概念,不難發(fā)現(xiàn),由于模仿學(xué)習(xí)需要專家提供包含任務(wù)全過程信息的示教,對(duì)專家示教樣本的數(shù)量質(zhì)量要求都會(huì)隨著機(jī)器人任務(wù)復(fù)雜度的提升和決策序列長(zhǎng)度的增加而增加,即任務(wù)每一環(huán)節(jié)的依賴條件數(shù)和操作的先后順序組合數(shù)會(huì)隨任務(wù)長(zhǎng)度和復(fù)雜度的上升而飛速增長(zhǎng)。以一個(gè)基本的懸掛衣?lián)稳蝿?wù)為例,機(jī)器人需要先后執(zhí)行接近衣?lián)巍⒆テ鹨聯(lián)巍⒁聯(lián)文玫揭聮旄浇詈髮⒁聯(lián)螔焐弦录苓@一系列操作,其中每一步都是互相依賴的。

對(duì)于人而言,在給定一個(gè)懸掛衣架的連貫示例并要求我們模仿一遍時(shí),我們會(huì)很自然的將上述過程分開考慮:首先盡量模仿到達(dá)衣?lián)蔚穆窂?#xff0c;直到成功拿到衣?lián)?#xff0c;其后模仿移動(dòng)衣?lián)蔚穆窂?#xff0c;直到成功將衣?lián)螔煸谝录苌稀F陂g,人能夠很自然的對(duì)任務(wù)進(jìn)行階段劃分,并意識(shí)到在一個(gè)階段沒有完成的情況下不能進(jìn)行下一個(gè)階段的操作。通過對(duì)任務(wù)的劃分和拆解,人們可以很大程度地簡(jiǎn)化每個(gè)子任務(wù)的復(fù)雜度,也可以通過對(duì)已有的子任務(wù)進(jìn)行重新組合實(shí)現(xiàn)新的更復(fù)雜的任務(wù)需求,而對(duì)于機(jī)器人來(lái)說,目前這種能力卻十分欠缺。

3.1 問題建模與分析:

在這個(gè)層次化逆模仿學(xué)習(xí)工作中,我們希望賦予機(jī)器人與人相似的任務(wù)劃分與拆解能力,使得機(jī)器人在模仿專家行為之外,同時(shí)具備自動(dòng)地拆解劃分任務(wù)的能力。為此,我們首先對(duì)人的任務(wù)拆解方式進(jìn)行形式化的描述與建模。

將時(shí)刻的狀態(tài)信息輸入記為 s ,同一時(shí)刻的機(jī)器人行為輸出記為動(dòng)作 a ,回想我們小時(shí)候?qū)W習(xí)的事件三要素:起因、經(jīng)過、結(jié)果。操作任務(wù)作為一個(gè)事件,也滿足這樣的分割方式:我們用數(shù)學(xué)記號(hào) O 代表一個(gè)事件,任務(wù)的起因稱為起始狀態(tài)集合,為一個(gè)事件可以發(fā)生的條件,如剛剛懸掛衣架任務(wù)中,移動(dòng)衣架的起因可認(rèn)為是爪中有衣架這個(gè)狀態(tài);任務(wù)的經(jīng)過為一個(gè)事件的內(nèi)在執(zhí)行邏輯,我們用任務(wù)策略表示,如根據(jù)傳感器輸入信息產(chǎn)生的機(jī)器人手臂的動(dòng)作行為輸出;任務(wù)的結(jié)果可以認(rèn)定是一個(gè)狀態(tài)的函數(shù),被稱之為終止函數(shù),當(dāng)事件在時(shí)刻結(jié)束時(shí)取值為 1,否則為 0。

以上三個(gè)元素共同構(gòu)成了對(duì)任務(wù)的描述。這種對(duì)任務(wù)的建模方式構(gòu)成了 option 模型,按這種方式得到的一個(gè)任務(wù)被稱為一個(gè) option 。顯然地,為了實(shí)現(xiàn)一個(gè)復(fù)雜的長(zhǎng)序列任務(wù),不同階段的子任務(wù)需要被整合組織起來(lái)。Option 模型也定義了一個(gè)頂層調(diào)度策略,當(dāng)一個(gè)任務(wù)結(jié)束后,調(diào)度策略用來(lái)選出一個(gè)合適的新任務(wù),實(shí)現(xiàn)接下來(lái)的操作。

用數(shù)學(xué)語(yǔ)言來(lái)描述,我們完成整個(gè)長(zhǎng)周期任務(wù)的策略可以表示成頂層調(diào)度策略和子任務(wù)策略。

特別地,我們采用了單步(one-step)option 模型,也就是在每一步,都要決定下一步應(yīng)該做什么子任務(wù)。注意高層策略決定的下一步子任務(wù)可以和當(dāng)前所在的子任務(wù)相同,這樣一個(gè)子任務(wù)就可以持續(xù)或長(zhǎng)或短的一段時(shí)間了。? 根據(jù)當(dāng)前所處的子任務(wù)和觀測(cè)到的狀態(tài)決定采取什么動(dòng)作。畫成概率圖模型可以更直觀地看出整體的流程:藍(lán)色箭頭所指是的決策過程,紅色箭頭是? 的決策,黑色箭頭是環(huán)境的狀態(tài)轉(zhuǎn)移。

▲ 圖1:單步option模型

3.2 如何學(xué)習(xí)層次化模型

現(xiàn)在我們有了能把長(zhǎng)周期任務(wù)表示成多個(gè)子任務(wù)分階段執(zhí)行的 option 模型,下一步就要解決如何訓(xùn)練這個(gè)模型,使得學(xué)到的策略能復(fù)刻演示數(shù)據(jù)。事實(shí)上我們要優(yōu)化的目標(biāo)是拉近和。

▲ 式1

可以注意到這個(gè)目標(biāo)其實(shí)和 GAIL 所解決的占用率度量(occupancy measurement)匹配問題很像。那么是不是直接套用 GAIL 的算法就結(jié)束了呢?這是不行的,因?yàn)槲覀兊哪P屠锒喑鰜?lái)的 option 在演示數(shù)據(jù)里是觀測(cè)不到的 (unobservable)。為此我們提出了 Option-GAIL 算法來(lái)解決這個(gè)問題,算法的設(shè)計(jì)思路和 Expectation-Maximization 算法非常類似,分為 Expectation(E)和 Maximization(M)兩個(gè)步驟。

M 步驟:

假設(shè)專家數(shù)據(jù)中的 option 已知,即 o, o' 已知,我們通過優(yōu)化和來(lái)優(yōu)化式 1。把 f 散度寫成 Jensen-Shannon 散度以后,上述優(yōu)化目標(biāo)可以表示成下面這個(gè) min-max 問題:

內(nèi)層的 max 算子利用演示數(shù)據(jù)和策略自己和環(huán)境交互出來(lái)的數(shù)據(jù)來(lái)優(yōu)化判別器,外層的 min 算子通過學(xué)習(xí)策略來(lái)使得判別器無(wú)法區(qū)分專家和自己,優(yōu)化目標(biāo)寫成

在實(shí)際操作中,外層算子的優(yōu)化問題可以由經(jīng)典的強(qiáng)化學(xué)習(xí)算法來(lái)解:只要把強(qiáng)化學(xué)習(xí)的單步獎(jiǎng)勵(lì)函數(shù)設(shè)定為 reward = -c(s, a, o, o') 即可。

交替優(yōu)化內(nèi)層和外層算子,我們就可以得到給定專家 option 時(shí)最優(yōu)的策略。

E 步驟:根據(jù)已有的,計(jì)算可能性最大的 option

到目前為止,我們都假設(shè)專家數(shù)據(jù)的 option 已知,但在實(shí)際中這個(gè)假設(shè)不成立。因此,我們需要想辦法從已知的狀態(tài) s 和動(dòng)作 a 中推斷出 option。給定一個(gè)策略時(shí),我們假設(shè) option 的取值要使得觀測(cè)到的 s 和a 的可能性最大。于是我們可以用 Viterbi 算法 [3] 來(lái)解出所有時(shí)刻的 option:

算法流程

Option-GAIL 算法的執(zhí)行流程如下:給定演示數(shù)據(jù)和隨機(jī)初始化的策略,我們交替進(jìn)行 E-step 和 M-step ,也就是不斷從當(dāng)前策略去更新此時(shí)演示數(shù)據(jù)最可能的? option 情況,再根據(jù)推斷出的 option 來(lái)優(yōu)化策略,如此迭代。我們還理論證明了該算法收斂的條件,感興趣的讀者可以查閱原文的附錄。

實(shí)驗(yàn)

我們?cè)诔S玫臋C(jī)器人移動(dòng)和操作環(huán)境上測(cè)試我們的算法。測(cè)試任務(wù)包括:

1. 控制單足、雙足機(jī)器人運(yùn)動(dòng),機(jī)器人需要在邁腿、彈跳等不同行為模式之間切換才能穩(wěn)健行走;

2. 螞蟻機(jī)器人走出帶障礙物的迷宮,智能體要控制螞蟻機(jī)器人先推開迷宮里的障礙物才能走到終點(diǎn);

3. 控制機(jī)械臂關(guān)微波爐門,機(jī)械臂要靠近微波爐,準(zhǔn)確抓住爐門把手,最后繞門軸旋轉(zhuǎn)到關(guān)閉。環(huán)境截圖見圖 2。

為了驗(yàn)證 Option-GAIL 中引入的層次化結(jié)構(gòu)以及在演示數(shù)據(jù)以外和環(huán)境的交互是否能幫助我們的智能體更好地學(xué)習(xí)長(zhǎng)周期任務(wù),我們選擇了如下幾個(gè)基線方法和 Option-GAIL 對(duì)比:

1. 純動(dòng)作克隆 Supervised Behavior Cloning(BC):只在演示數(shù)據(jù)上做監(jiān)督學(xué)習(xí),不和環(huán)境交互,也沒有任何層次化的結(jié)構(gòu)信息;

2. GAIL:有在演示數(shù)據(jù)之外自己和環(huán)境交互,但沒有利用長(zhǎng)周期任務(wù)的結(jié)構(gòu)信息;

3. 層次化動(dòng)作克隆:hierarchical behavior cloning(H-BC):建模了層次化結(jié)構(gòu),但自己不和環(huán)境交互;

4. GAIL-HRL:我們的方法的簡(jiǎn)化版,在占用率測(cè)度匹配的過程中不考慮 option。

我們給所有方法都提供了同樣數(shù)量和表現(xiàn)水平的演示數(shù)據(jù)。從下面的圖表可以看出,在四個(gè)任務(wù)中,Option-GAIL 相比非層次化的方法收斂速度更快,相比不和環(huán)境交互的純模仿學(xué)習(xí)算法最終的表現(xiàn)更貼近演示數(shù)據(jù),取得了最優(yōu)異的效果。

▲ 圖2:測(cè)試環(huán)境及各種算法的性能曲線

▲ 表:不同算法的表現(xiàn)對(duì)比,評(píng)價(jià)的指標(biāo)是訓(xùn)練中最好的累積獎(jiǎng)勵(lì)

為了驗(yàn)證 Option-GAIL 是否成功讓策略的子任務(wù)劃分與演示數(shù)據(jù)一致,我們對(duì)比了 Option-GAIL 和 GAIL-HRL 在演示數(shù)據(jù)和在自主探索中的 option 切換情況(圖3)。明顯可以看出,我們的方法保證了子任務(wù)的切分在專家數(shù)據(jù)(demo)和自己的策略執(zhí)行過程(sample)中表現(xiàn)一致,而用 GAIL-HRL 觸發(fā)子任務(wù)的情況就和專家數(shù)據(jù)有明顯的差別。

▲ 圖3:子任務(wù)觸發(fā)情況對(duì)比

總結(jié)

本文提出了 Option-GAIL ,一種結(jié)合了層次化任務(wù)建模和 occupancy measurement 匹配的模仿學(xué)習(xí)框架。我們?cè)O(shè)計(jì)了一種 EM 算法來(lái)有效地訓(xùn)練該框架。相比其他模仿學(xué)習(xí)算法,Option-GAIL 能兼顧頂層和底層策略的模仿學(xué)習(xí),能更好地學(xué)習(xí)演示數(shù)據(jù)中任務(wù)的層次化結(jié)構(gòu),特別對(duì)于存在清晰子任務(wù)的任務(wù)表現(xiàn)優(yōu)秀。

參考文獻(xiàn)

[1] Ho, J. and Ermon, S. Generative adversarial imitation learning. In Proc. Advances in Neural Inf. Process. Syst., 2016.

[2]Sutton, R. S., Precup, D., and Singh, S. Between mdps and semi-mdps: A framework for temporal abstraction in reinforcement learning. Artificial intelligence, 112(1-2): 181–211, 1999.

[3] Viterbi, A. Error bounds for convolutional codes and an asymptotically optimum decoding algorithm. IEEE trans- actions on Information Theory, 13(2):260–269, 1967.

更多閱讀

#投 稿?通 道#

?讓你的文字被更多人看到?

如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達(dá)讀者群體,縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢?答案就是:你不認(rèn)識(shí)的人。

總有一些你不認(rèn)識(shí)的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學(xué)者和學(xué)術(shù)靈感相互碰撞,迸發(fā)出更多的可能性。?

PaperWeekly 鼓勵(lì)高校實(shí)驗(yàn)室或個(gè)人,在我們的平臺(tái)上分享各類優(yōu)質(zhì)內(nèi)容,可以是最新論文解讀,也可以是學(xué)術(shù)熱點(diǎn)剖析科研心得競(jìng)賽經(jīng)驗(yàn)講解等。我們的目的只有一個(gè),讓知識(shí)真正流動(dòng)起來(lái)。

📝?稿件基本要求:

? 文章確系個(gè)人原創(chuàng)作品,未曾在公開渠道發(fā)表,如為其他平臺(tái)已發(fā)表或待發(fā)表的文章,請(qǐng)明確標(biāo)注?

? 稿件建議以?markdown?格式撰寫,文中配圖以附件形式發(fā)送,要求圖片清晰,無(wú)版權(quán)問題

? PaperWeekly 尊重原作者署名權(quán),并將為每篇被采納的原創(chuàng)首發(fā)稿件,提供業(yè)內(nèi)具有競(jìng)爭(zhēng)力稿酬,具體依據(jù)文章閱讀量和文章質(zhì)量階梯制結(jié)算

📬?投稿通道:

? 投稿郵箱:hr@paperweekly.site?

? 來(lái)稿請(qǐng)備注即時(shí)聯(lián)系方式(微信),以便我們?cè)诟寮x用的第一時(shí)間聯(lián)系作者

? 您也可以直接添加小編微信(pwbot02)快速投稿,備注:姓名-投稿

△長(zhǎng)按添加PaperWeekly小編

🔍

現(xiàn)在,在「知乎」也能找到我們了

進(jìn)入知乎首頁(yè)搜索「PaperWeekly」

點(diǎn)擊「關(guān)注」訂閱我們的專欄吧

·

總結(jié)

以上是生活随笔為你收集整理的ICML 2021 | Option-GAI: 机器人任务太长太复杂?不妨试试层次化模仿学习的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。