當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

【四足机器人】强化学习实现minitaur运动控制（介绍篇）

發布時間：2024/3/24 编程问答 54 豆豆

生活随笔收集整理的這篇文章主要介紹了【四足机器人】强化学习实现minitaur运动控制（介绍篇）小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

一、minitaur 簡介

這是來自賓夕法尼亞大學的一款機器人，叫 Minitaur，看圖你就明白了。

四足機器人的運動控制通常需要大量的專業知識，以及突如其來的靈感（調參）。在之前的文章中，我們就用了很大的一個篇幅來講控制信號的生成以及調節（詳情請參考開頭給出的兩篇文章），然而這只是產生四足機器人能夠完成周期性運動的控制信號而已，還有轉向控制，各種信號反饋調節，例如各種環境的適應性調節，或者是最基本的機體的平衡調節，等等……所以想要靠傳統的數學建模的方法來設計一個完整的足式機器人運動控制系統是一個非常龐大的工程。

ps：當然不排除會有非常簡潔的數學模型，畢竟小編也只接觸過幾個方案，也沒有進行過橫向對比（因為懶）。

Anyway，我們接下來要用強化學習來實現四足機器人的基本運動（僅僅只是開始）。利用簡單的獎勵信號讓機器人從零開始學習四足動物的運動，這是一件多么美妙的事情。

這個系列的內容基本上會根據這篇 - 論文 - 來展開敘述，有英文基礎的可以去看一下原文，我的文章會在原理的基礎上加上pybullet仿真的實戰代碼，大家也可以自己裝一下嘗試一下。

二、論文概要

1、摘要

在論文中，研究人員提出了一個利用深度強化學習技術來自動化建立一個機器人控制策略。利用簡單的獎勵信號讓仿真環境中的minitaur學習如何行走以及保持行走過程中的平衡。

論文當中還提到，當用戶需要對步態進行更多的控制時，可以提供一個額外的開環控制信號來指導學習過程。控制策略在仿真環境（bullet）中學習，然后部署到真實的機器人上。然而在機器人技術中，經過模擬訓練的策略通常不能直接轉移到現實世界中執行。研究人員通過改進物理模擬器和學習魯棒策略來縮小這一現實差距。利用系統辨識技術，建立了精確的執行器模型，設定仿真的時延。隨機化物理環境、添加擾動和設計一個緊湊的觀測空間來學習魯棒控制器。最后研究人員用數據評估該模型在兩個敏捷運動步態（小跑和疾馳）的表型。通過仿真學習，四足機器人可以在真實世界中成功地完成這兩種步態。

總結：

一個可以直接從仿真環境移植到現實中的策略模型
策略模型能夠接受用戶提供的控制信號
該策略模型通過在特定的仿真模型訓練可以實現

pybullet給出的案例效果：

2、硬件結構

機器人平臺是來自Ghost Robotics的Minitaur，這是一個四足機器人，帶有八個直接驅動執行器。每條腿由兩個執行器控制，使其在矢狀面上移動。電動機可以通過位置控制或脈沖寬度來驅動

Minitaur裝備有測量電機角度的電機編碼器和測量基座方向和角速度的IMU。STM32 ARM微控制器向執行器發送命令，接收傳感器讀數，并可以執行簡單的計算。然而，該微控制器不足以執行從深度RL中學習到的神經網絡策略。因此，我們安裝了Nvidia Jetson TX2來執行神經網絡推斷。TX2通過UART通信與單片機接口。在每一個控制步驟中，傳感器的測量數據被收集到微控制器中，并被發送回TX2，在那里它們被輸入到一個神經網絡策略中，以決定要采取的行動。這些動作隨后被傳輸到微控制器并由執行器執行。由于TX2不運行實時操作系統，因此控制回路以大約150-200Hz的可變控制頻率運行。

總結

以上是生活随笔為你收集整理的【四足机器人】强化学习实现minitaur运动控制（介绍篇）的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： PWA 简单实现
下一篇： Speedoffice（word）查找替