導 讀
本文是國際機器人和自動化頂級會議 ICRA 2023入選論文 RLAfford:End-to-end Affordance Learning for Robotic Manipulation 的解讀。這項研究通過使用強化學習訓練過程中產生的接觸信息來預測物體可操作性信息,更好地實現機器人***任務,并對各種算法以及環境具有即插即用的能力。
01
研究背景
隨著生活逐漸智能化,通過機器人與物體交互變得越來越重要。如何讓機器人學會***不同形狀的物體并且學會穩定有效的交互策略成為了當前的研究熱點。近年來,強化學習(RL)為這一問題提供了解決方案。然而,在互動環境中學習***不同形狀、不同結構、不同功能的三維物體一直是強化學習的挑戰。特別是,我們往往很難訓練出一個能夠處理不同語義類別、不同幾何形狀和多樣功能的物體的策略。
最近,視覺可操作性(Visual Affordance)學習技術在提供以物體為中心的信息先驗和有效的可操作語義方面展現出巨大的潛力。例如,一個理想的策略可以通過了解到把手的可操作性來打開一扇門。然而,學習視覺可操作性往往需要人類定義的原子動作(抓、握、推、拉等動作),這限制了適用任務的范圍。
在本文中,我們提出了 RLAfford。在研究中,我們抓住了智能體與世界交互的最本質信息:接觸點信息,來預測 RL 系統感興趣的物體上的接觸位置(也即物體的可操作性),預測的信息又反過來指導 RL 進一步訓練。這樣的接觸預測系統實現了端到端(End-to-end)的 Visual Affordance 學習框架,它可以廣泛地適用于不同類型的***任務中。
令人興奮的是,我們的框架甚至在多階段(Multi-stage)和多智能體(Multi-agent)的任務中也能保持有效性。我們在八種類型的***任務上測試了我們的方法。結果顯示,我們的方法在成功率上遠遠超過了基線(Baseline)算法,同時,我們的方法成功地在現實世界中成功完成了這八種***任務。部分VisualAffordance 學習結果如圖1所示。
圖1. 輸入一個物體的點云信息,我們利用 RL 交互過程中的接觸信息來預測以物體為中心的可操作性信息。圖中顏色越深意味著可操作性越強。可以看出,這樣的信息對于完成物體操作非常有意義。
02
方 法
圖2. 框架結構。
如圖2所示,我們的方案包含兩個主要模塊。其中 1)操作模塊(Manipulation Module)生成交互軌跡,2)視覺可操作性模塊(Visual Affordance Module)用來學習生成基于實時點云的可操作性信息(Affordance)。接觸預測器(Contact Predictor)在兩個模塊***享,作為它們之間的橋梁。
操作模塊使用接觸預測器的預測結果作為輸入觀察的一部分,同時預測的最大值點參與操作模塊的獎勵函數計算(MPR),以激勵 RL 算法去探索最感興趣的點附近的區域;
操作模塊通過收集交互中的碰撞信息實時生成動態的 Visual Affordance 學習目標(Dynamic Ground Truth)來訓練視覺可操作性模塊。
具體算法結構如圖3所示。
圖3. 算法結構。
03
實 驗
圖4. 頂部:模擬器中的任務設置。中間:在端到端訓練期間,Visual Affordance Map 的變化以及部分 Visual Affordance 學習結果。底部:真實世界實驗示意圖。
如圖4所示,我們設計了三種類型的***任務:單階段、多階段和多智能體。在所有的任務中,都要求一個或兩個機械臂來完成對不同物體的特定***任務。我們使用了 Isaac Gym 物理模擬器、PartNet-Mobility 數據集和 VAPO 數據集來完成虛擬環境的實驗。我們也利用了數字孿生方法在真實世界中完成了我們設計的任務。最終,我們進行了一些消融實驗,實驗結果表明我們的方法在成功率上遠遠超過了基線算法,包括基于 Visual Affordance 的方法和 RL 方法。
04
總 結
據我們所知,這是第一項將 Visual Affordance 與 RL 完成端到端的結合的工作。在 RL 訓練中,VisualAffordance可以通過提供額外的觀測和獎勵信號來提高策略學習的效果。我們的框架通過 RL 訓練自動學習VisualAffordance語義,而不需要額外的演示或人工標注。我們方法的簡單性、比所有基線更出色的性能以及廣泛靈活的適用場景,證明了我們的方案的有效性以及對各種算法、環境具有即插即用的能力,同時也為解決更多復雜任務打開了一種新的思路。
審核編輯:劉清
-
機器人
+關注
關注
211文章
28618瀏覽量
207915 -
模擬器
+關注
關注
2文章
881瀏覽量
43334 -
MPR
+關注
關注
0文章
6瀏覽量
8735
原文標題:ICRA 2023 | RLAfford:基于端到端可操作性學習的機器人操縱框架
文章出處:【微信號:CVer,微信公眾號:CVer】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論