日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

【四足机器人】强化学习实现minitaur运动控制(介绍篇)

發(fā)布時(shí)間:2024/3/24 编程问答 44 豆豆
生活随笔 收集整理的這篇文章主要介紹了 【四足机器人】强化学习实现minitaur运动控制(介绍篇) 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

一、minitaur 簡(jiǎn)介

這是來自賓夕法尼亞大學(xué)的一款機(jī)器人,叫 Minitaur,看圖你就明白了。

四足機(jī)器人的運(yùn)動(dòng)控制通常需要大量的專業(yè)知識(shí),以及突如其來的靈感(調(diào)參)。在之前的文章中,我們就用了很大的一個(gè)篇幅來講控制信號(hào)的生成以及調(diào)節(jié)(詳情請(qǐng)參考開頭給出的兩篇文章),然而這只是產(chǎn)生四足機(jī)器人能夠完成周期性運(yùn)動(dòng)的控制信號(hào)而已,還有轉(zhuǎn)向控制,各種信號(hào)反饋調(diào)節(jié),例如各種環(huán)境的適應(yīng)性調(diào)節(jié),或者是最基本的機(jī)體的平衡調(diào)節(jié),等等……所以想要靠傳統(tǒng)的數(shù)學(xué)建模的方法來設(shè)計(jì)一個(gè)完整的足式機(jī)器人運(yùn)動(dòng)控制系統(tǒng)是一個(gè)非常龐大的工程。

ps:當(dāng)然不排除會(huì)有非常簡(jiǎn)潔的數(shù)學(xué)模型,畢竟小編也只接觸過幾個(gè)方案,也沒有進(jìn)行過橫向?qū)Ρ?#xff08;因?yàn)閼?#xff09;。

Anyway,我們接下來要用強(qiáng)化學(xué)習(xí)來實(shí)現(xiàn)四足機(jī)器人的基本運(yùn)動(dòng)(僅僅只是開始)。利用簡(jiǎn)單的獎(jiǎng)勵(lì)信號(hào)讓機(jī)器人從零開始學(xué)習(xí)四足動(dòng)物的運(yùn)動(dòng),這是一件多么美妙的事情。

這個(gè)系列的內(nèi)容基本上會(huì)根據(jù)這篇 - 論文 - 來展開敘述,有英文基礎(chǔ)的可以去看一下原文,我的文章會(huì)在原理的基礎(chǔ)上加上pybullet仿真的實(shí)戰(zhàn)代碼,大家也可以自己裝一下嘗試一下。

二、論文概要

1、摘要


在論文中,研究人員提出了一個(gè)利用深度強(qiáng)化學(xué)習(xí)技術(shù)來自動(dòng)化建立一個(gè)機(jī)器人控制策略。利用簡(jiǎn)單的獎(jiǎng)勵(lì)信號(hào)讓仿真環(huán)境中的minitaur學(xué)習(xí)如何行走以及保持行走過程中的平衡。

論文當(dāng)中還提到,當(dāng)用戶需要對(duì)步態(tài)進(jìn)行更多的控制時(shí),可以提供一個(gè)額外的開環(huán)控制信號(hào)來指導(dǎo)學(xué)習(xí)過程。控制策略在仿真環(huán)境(bullet)中學(xué)習(xí),然后部署到真實(shí)的機(jī)器人上。然而在機(jī)器人技術(shù)中,經(jīng)過模擬訓(xùn)練的策略通常不能直接轉(zhuǎn)移到現(xiàn)實(shí)世界中執(zhí)行。研究人員通過改進(jìn)物理模擬器和學(xué)習(xí)魯棒策略來縮小這一現(xiàn)實(shí)差距。利用系統(tǒng)辨識(shí)技術(shù),建立了精確的執(zhí)行器模型,設(shè)定仿真的時(shí)延。隨機(jī)化物理環(huán)境、添加擾動(dòng)和設(shè)計(jì)一個(gè)緊湊的觀測(cè)空間來學(xué)習(xí)魯棒控制器。最后研究人員用數(shù)據(jù)評(píng)估該模型在兩個(gè)敏捷運(yùn)動(dòng)步態(tài)(小跑和疾馳)的表型。通過仿真學(xué)習(xí),四足機(jī)器人可以在真實(shí)世界中成功地完成這兩種步態(tài)。

總結(jié):

  • 一個(gè)可以直接從仿真環(huán)境移植到現(xiàn)實(shí)中的策略模型
  • 策略模型能夠接受用戶提供的控制信號(hào)
  • 該策略模型通過在特定的仿真模型訓(xùn)練可以實(shí)現(xiàn)

pybullet給出的案例效果:

2、硬件結(jié)構(gòu)


機(jī)器人平臺(tái)是來自Ghost Robotics的Minitaur,這是一個(gè)四足機(jī)器人,帶有八個(gè)直接驅(qū)動(dòng)執(zhí)行器。每條腿由兩個(gè)執(zhí)行器控制,使其在矢狀面上移動(dòng)。電動(dòng)機(jī)可以通過位置控制或脈沖寬度來驅(qū)動(dòng)

Minitaur裝備有測(cè)量電機(jī)角度的電機(jī)編碼器和測(cè)量基座方向和角速度的IMU。STM32 ARM微控制器向執(zhí)行器發(fā)送命令,接收傳感器讀數(shù),并可以執(zhí)行簡(jiǎn)單的計(jì)算。然而,該微控制器不足以執(zhí)行從深度RL中學(xué)習(xí)到的神經(jīng)網(wǎng)絡(luò)策略。因此,我們安裝了Nvidia Jetson TX2來執(zhí)行神經(jīng)網(wǎng)絡(luò)推斷。TX2通過UART通信與單片機(jī)接口。在每一個(gè)控制步驟中,傳感器的測(cè)量數(shù)據(jù)被收集到微控制器中,并被發(fā)送回TX2,在那里它們被輸入到一個(gè)神經(jīng)網(wǎng)絡(luò)策略中,以決定要采取的行動(dòng)。這些動(dòng)作隨后被傳輸?shù)轿⒖刂破鞑⒂蓤?zhí)行器執(zhí)行。由于TX2不運(yùn)行實(shí)時(shí)操作系統(tǒng),因此控制回路以大約150-200Hz的可變控制頻率運(yùn)行。

總結(jié)

以上是生活随笔為你收集整理的【四足机器人】强化学习实现minitaur运动控制(介绍篇)的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。