通用人形機器人旨在快速適應現有的以人類為中心的城市和工業工作空間,處理繁瑣、重復或體力要求高的任務。這些移動機器人經過設計,能在以人類為中心的環境中有出色的表現,從工廠車間到醫療保健機構,它們的價值日益凸顯。
模仿學習是機器人學習的一個子集,它能讓人形機器人通過觀察和模仿人類專家的示范來獲取新技能。在真實世界中收集這些廣泛、高質量的數據集既繁瑣又耗時,而且成本往往高得令人卻步。從物理精確的仿真環境中生成的合成數據有助于加快這一收集過程。
NVIDIA Isaac GR00T為人形機器人開發者提供機器人基礎模型、數據管線和仿真框架,有助于應對人形機器人開發中所面對的這些挑戰。用于合成運動生成的NVIDIA Isaac GR00T Blueprint是一個用于模仿學習的仿真工作流程,使開發者能夠從少量人類示范中生成數量呈指數級擴增的數據集。
在本文中,我們將介紹如何通過 Apple Vision Pro 捕捉遠程操作數據,使用 NVIDIA Isaac GR00T 從少數人類示范中生成大量合成軌跡數據集,然后在Isaac Lab中訓練機器人運動策略模型。
合成運動生成
該工作流的包括以下關鍵組成部分:
GR00T-Teleop:
NVIDIA CloudXR:連接到 Apple Vision Pro 頭戴設備,使用專門為人形機器人遠程操作設計的定制 CloudXR 運行時 ,實現動作的流暢傳輸 。
Isaac XR Teleop:將遠程操作數據流式傳輸到NVIDIA Isaac Sim或 Isaac Lab,作為 Apple Vision Pro 的參考應用程序。
Isaac Lab:基于 Isaac Sim 的 Isaac Lab 是一個用于機器人學習的開源模塊化框架,使用這一框架,可以實現訓練機器人策略。
GR00T-Mimic:通過少量人類示范生成大量合成運動軌跡數據。
GR00T-Gen:通過隨機化場景中的背景、光照和其他變量來增加多樣性,并通過NVIDIA Cosmos對生成的圖像進行放大處理。(在本文中,我們不會詳細介紹 GR00T-Gen。)
圖 1.遠程操作架構
合成運動生成管線是一個復雜的過程,旨在創建一個龐大且多樣化的數據集來訓練機器人。
它從數據收集開始,在這個過程中,將使用像 Apple Vision Pro 這樣的高保真設備,在仿真環境中捕捉人類的動作和行為。Apple Vision Pro 將手部追蹤數據傳輸到如 Isaac Lab 的仿真平臺,同時仿真平臺將機器人環境的沉浸式視圖傳輸回該設備。這種設置使得機器人操作更加直觀和互動,有助于收集高質量的遠程操作數據。
圖 2.準備好通過 Apple Vision Pro 進行遠程操作的機器人
Isaac Lab 中的機器人仿真畫面被傳輸到 Apple Vision Pro,讓您能夠可視化機器人的環境。通過移動手部,您可以直觀地控制機器人執行各種任務。這種設置提供了沉浸式且互動的遠程操作體驗。
圖 3.Isaac Lab 中的遠程操作
使用 GR00T-Mimic 生成合成軌跡
數據收集后,下一步是合成軌跡生成。使用 Isaac GR00T-Mimic 從少量人類示范中推算出大量合成運動軌跡。
這個過程包括在示范中標記關鍵點,并使用插值法確保合成軌跡平滑且符合情境。然后對生成的數據進行評估和優化,以滿足訓練所需的標準。
在這個示例中,我們成功生成了 1000 條合成軌跡。
a.機器人
拿起輪子
b.機器人將輪子
移到托盤
c.機器人將輪子
放到托盤上
圖 4.在 Isaac Lab 中生成的一組合成軌跡
在 Isaac Lab 中使用模仿學習進行訓練
最后,使用模仿學習技術,利用合成數據集對機器人進行訓練。在這個階段,會訓練一個策略,比如 Robomimic 套件的循環高斯混合模型(GMM),以模仿合成數據中的動作。
訓練在比如 Isaac Lab 這樣的仿真環境中進行,并且通過多次試驗來評估訓練后的策略的性能。這個管線顯著減少了開發和部署機器人系統所需的時間和資源,使其成為機器人領域的一個有價值的工具。
為了展示如何使用這些數據,我們訓練了一臺帶有夾爪的 Franka 機器人,在 Isaac Lab 中執行堆疊任務。這個夾爪類似于人形機器人的“手”。
我們使用了來自 Robomimic 套件的帶有循環 GMM 策略的行為克隆方法。該策略使用了兩個隱藏維度為 400 的長短期記憶(LSTM)層。
網絡的輸入包括機器人末端執行器的位姿、夾爪狀態以及相對物體的位姿,而輸出是一個用于在 Isaac Lab 中驅動機器人的增量位姿動作。
使用由 1000 次成功示范組成的數據集,并經過 2000 次迭代,我們實現了大約 50 次迭代 / 秒的訓練速度(相當于在 NVIDIA RTX GPU 上大約 0.5 小時的訓練時間)。在 50 次實驗的平均結果中,訓練策略在堆疊任務中的成功率為 84%。
圖 5.在 Isaac Lab 中訓練的夾爪
開始使用
在本文中,我們討論了通過 NVIDIA Isaac GR00T 生成合成軌跡數據,加速推進人形機器人運動策略學習。
GR00T-Teleop 堆棧目前還處于僅限受邀用戶訪問的階段。加入人形機器人開發者計劃,以便在該堆棧進入測試版時獲取使用權限。
-
機器人
+關注
關注
211文章
28632瀏覽量
208267 -
NVIDIA
+關注
關注
14文章
5075瀏覽量
103649 -
人形機器人
+關注
關注
3文章
495瀏覽量
16779
原文標題:構建人形機器人學習的合成運動生成管線
文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達企業解決方案】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論