項(xiàng)目思路

現(xiàn)有跨形態(tài)機(jī)器人控制需為不同硬件單獨(dú)設(shè)計(jì)策略,開發(fā)成本高且泛化性差。本課題嘗試使用語言指令統(tǒng)一接口,用戶用自然語言指揮不同形態(tài)機(jī)器人完成同一任務(wù),通過分層強(qiáng)化學(xué)習(xí)框架,高層視覺語言模型(VLM)解析任務(wù)生成中間指令,再通過低層強(qiáng)化學(xué)習(xí)策略適配不同形態(tài)的底層動(dòng)作,通過仿真器快速訓(xùn)練跨形態(tài)通用策略,最后部署到真機(jī)運(yùn)行———田和坤 、馮紫嫣 、殷孟浩
現(xiàn)有跨形態(tài)機(jī)器人(如四足、輪式、人形)控制通常需為不同硬件單獨(dú)設(shè)計(jì)策略,開發(fā)成本高且泛化性差。本課題提出一種基于語言-視覺分層強(qiáng)化學(xué)習(xí)的跨形態(tài)機(jī)器人通用控制架構(gòu),旨在通過自然語言指令統(tǒng)一接口,實(shí)現(xiàn)多形態(tài)機(jī)器人的任務(wù)適配與高效控制。具體而言,高層視覺語言模型(VLM)解析用戶指令并生成標(biāo)準(zhǔn)化中間指令(如“左轉(zhuǎn)30度”),低層強(qiáng)化學(xué)習(xí)策略則根據(jù)機(jī)器人形態(tài)參數(shù)化編碼,將中間指令映射為具體形態(tài)的底層動(dòng)作(如四足步態(tài)或輪式轉(zhuǎn)向)。通過NVIDIA Isaac Sim仿真器快速訓(xùn)練跨形態(tài)通用策略,并結(jié)合X5 RDK人形機(jī)器人及四足機(jī)器人進(jìn)行真機(jī)驗(yàn)證,本課題展示了同一語言指令在不同形態(tài)機(jī)器人上的高效執(zhí)行能力。實(shí)驗(yàn)結(jié)果表明,該框架在動(dòng)態(tài)避障、復(fù)雜地形適應(yīng)及任務(wù)重規(guī)劃等方面具有顯著優(yōu)勢,為跨形態(tài)機(jī)器人控制提供了一種低成本、高泛化的解決方案。
擬采用技術(shù)方案
擬采用分層強(qiáng)化學(xué)習(xí)架構(gòu),使用高層VLM完成從圖像與自然語言輸入到標(biāo)準(zhǔn)化中間指令的輸出的轉(zhuǎn)換,再使用底層RL策略完成最終動(dòng)作序列的生成。采用mujoco+多形態(tài)機(jī)器人模型進(jìn)行仿真驗(yàn)證,最終嘗試跨機(jī)器人平臺的真機(jī)部署。
預(yù)期展示效果
仿真環(huán)境下完成同一指令“繞過障礙物進(jìn)入右側(cè)房間”驅(qū)動(dòng)四足/輪式機(jī)器人進(jìn)行不同路徑規(guī)劃與動(dòng)作執(zhí)行,真機(jī)使用自己搭建輪式小車+Petoi Bittle進(jìn)行展示。后續(xù)增加更多語言交互。
X5 RDK用法
整合X5的RGB攝像頭、IMU數(shù)據(jù),輸入高層VLM和低層策略,通過ROS2橋接,接收低層策略輸出的關(guān)節(jié)目標(biāo)角度,轉(zhuǎn)換為電機(jī)控制指令。
仿真器驗(yàn)證內(nèi)容
訓(xùn)練四足策略后,凍結(jié)高層VLM,僅微調(diào)低層進(jìn)行人形機(jī)器人與輪式機(jī)器人的適配。仿真環(huán)境中隨機(jī)生成障礙物、地形起伏、光照變化,驗(yàn)證策略魯棒性,同時(shí)對比端到端的RL策略的效率與所需算力差異。
真機(jī)演示內(nèi)容
輪式機(jī)器人執(zhí)行“沿走廊前進(jìn),在第二個(gè)門口右轉(zhuǎn)”,足式機(jī)器人完成“避開地面雜物,將指定物品放置到指定位置”。
項(xiàng)目預(yù)算
一臺用于強(qiáng)化訓(xùn)練的工程機(jī)(或云服務(wù)器算力支持),3D打印,舵機(jī)升級電機(jī)(待定)
項(xiàng)目進(jìn)度與計(jì)劃
仿真方面目前已完成仿真環(huán)境的搭建與模型構(gòu)建,后續(xù)會(huì)注重?cái)?shù)據(jù)獲取、強(qiáng)化訓(xùn)練與真機(jī)部署。
方案驗(yàn)證
高層VLM
目標(biāo):完成自然語言到中間動(dòng)作指令的轉(zhuǎn)化,在簡單任務(wù)(如移動(dòng))上不依賴機(jī)器人特定形態(tài)。
使用VLM完成Navigation任務(wù),實(shí)則更接近VLA而不是VLN,前者更關(guān)注場景內(nèi)容理解與交互,后者則專注于路徑規(guī)劃。
采用開源VLM模型微調(diào)。
- openVLA:直接輸出端到端數(shù)據(jù),依賴特定形態(tài),不適用
- LLaVA:本地部署7B模型,對空間感知太差,且運(yùn)行速度達(dá)不到要求(約1item/min)

- Qwen-72B:直接暴力增加參數(shù)數(shù)量,缺點(diǎn)是無法本地部署,優(yōu)點(diǎn)是在特定場景效果較好,不需要微調(diào)即可進(jìn)行一定程度的空間感知:

對Qwen-72B進(jìn)行數(shù)據(jù)采集并微調(diào):前后手動(dòng)拍攝了80+場景照片與對應(yīng)描述prompt,使用官方api進(jìn)行微調(diào),可惜微調(diào)后的模型部署太貴(160r/h),最終放棄。
轉(zhuǎn)變方案:不要求VLM實(shí)現(xiàn)精確的位置估計(jì)(尤其是不使用深度相機(jī)的情況下),而是粗略判斷距離,輸出下一步的任務(wù)指令。這樣原生的Qwen-72B就可以實(shí)現(xiàn)了。
低層PPO
目標(biāo):完成中間動(dòng)作指令到機(jī)器人關(guān)節(jié)角度與力矩的轉(zhuǎn)化,可能的情況下實(shí)現(xiàn)這部分的跨形態(tài)(未驗(yàn)證,需要解決變長輸出的問題)。
RL主要針對四足機(jī)器人,實(shí)現(xiàn)一個(gè)基于Stable-Baselines3的mujoco仿真環(huán)境進(jìn)行訓(xùn)練。基本要求是保持平穩(wěn)的情況下直走、轉(zhuǎn)彎,考慮到VLM頻率很低(1item/s),后續(xù)需要加一個(gè)速度的跟蹤用來實(shí)時(shí)避障,這部分也由RL實(shí)現(xiàn)。
項(xiàng)目進(jìn)度
- week1:仿真場景搭建,足式、輪式機(jī)器人建模與控制測試

- week2:搭建高層VLM,完成多模態(tài)控制目標(biāo)輸入,實(shí)現(xiàn)生成中間指令正確率>80%,X5RDK完成輪式sim2real優(yōu)化與演示

- week3:部署低層四足PPO策略訓(xùn)練仿真,初步完成跨形態(tài)任務(wù)測試
2.20仿真:

2.21實(shí)機(jī):

- week4:嘗試3dgs場景下的高精度仿真

-
機(jī)器人
+關(guān)注
關(guān)注
212文章
29069瀏覽量
210331 -
人工智能
+關(guān)注
關(guān)注
1801文章
48259瀏覽量
243473 -
機(jī)器狗
+關(guān)注
關(guān)注
3文章
175瀏覽量
10349
發(fā)布評論請先 登錄
相關(guān)推薦
【KittenBot機(jī)器人試用申請】KittenBot繪圖避障機(jī)器人學(xué)習(xí)課程
解讀機(jī)器人的幾大避障技術(shù)
基于人工神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)智能機(jī)器人的避障軌跡控制
如何進(jìn)行簡易避障機(jī)器人的設(shè)計(jì)

arduino nano避障機(jī)器人

避障不“智障”?為掃地機(jī)器人打造智能“閃避”系統(tǒng)

使用Arduino的寵物狗機(jī)器人TOMY避障

基于Arduino的避障機(jī)器人汽車

藍(lán)牙控制的避障機(jī)器人

評論