讓智能體自己學(xué)會穿衣服一直是個難題,除了對衣服的布料的材質(zhì)模擬存在困難之外,穿衣過程中目標(biāo)與衣服之間的頻繁復(fù)雜的交互也會導(dǎo)致計算成本過高。在Siggraph 2018上,研究人員試圖通過深度強化學(xué)習(xí),將布料模擬融入學(xué)習(xí)框架,教機器人學(xué)會自己穿衣服!
隨著AI技術(shù)進(jìn)步的日新月異,現(xiàn)在的機器人越來越智能,但不管是機器人還是虛擬模型,基本都處于“赤身裸體”的狀態(tài),即便是穿了衣服,也是靠著外部的力量或幫助穿上的。
如何讓這些智能體學(xué)會自己穿衣服一直是個難題,因為衣服的布料多種多樣,材質(zhì)性質(zhì)各不相同,而且在穿衣過程中,衣服和身體會發(fā)生頻繁而復(fù)雜的相互作用。這兩點是解決“機器人學(xué)穿衣”過程中面臨的最大挑戰(zhàn)。
現(xiàn)在,研究人員正試圖攻克這個難題。在Siggraph 2018上的一篇論文《Learning to Dress: Synthesizing Human Dressing Motion via Deep Reinforcement Learning》中,來自佐治亞理工學(xué)院和谷歌大腦的研究團(tuán)隊描述了他們?nèi)绾卫?a href="http://m.1cnz.cn/v/tag/150/" target="_blank">人工智能,來教虛擬人如何自己穿衣服。
本文表明,AI能夠利用機器學(xué)習(xí)工具“自動發(fā)現(xiàn)強大的穿衣技能”,并設(shè)法訓(xùn)練出強大的穿衣模型,盡管對衣服布料的模擬計算成本很高。
本文作者表示,讓AI 學(xué)會穿衣服的秘訣就是觸覺,可以用于動態(tài)調(diào)整AI的協(xié)調(diào)性,以適應(yīng)褶皺、光滑、或材質(zhì)詭異的布料。
研究概覽:將布料模擬融入深度強化學(xué)習(xí)框架
由于人和穿的衣服之間存在著復(fù)雜的相互作用,所以創(chuàng)建人物穿衣服的逼真動畫是很具有挑戰(zhàn)性的任務(wù)。我們采用無模型深度強化學(xué)習(xí)(deepRL)方法,實現(xiàn)自動發(fā)現(xiàn)由神經(jīng)網(wǎng)絡(luò)表示的、高魯棒性的控制策略。
雖然深度強化學(xué)習(xí)方案在復(fù)雜運動技能的學(xué)習(xí)方面取得了一些成功,但學(xué)習(xí)算法的數(shù)據(jù)特征與實際任務(wù)所需的、計算成本高昂的衣服和布料模擬任務(wù)并不一致。
下面是研究人員制作的機器人穿衣視頻演示,一起來看看,一共有3種衣服喲!
本文首次證明,通過設(shè)計合適的輸入狀態(tài)空間和獎勵函數(shù),可以把對布料的模擬結(jié)合到深度強化學(xué)習(xí)框架中,以便學(xué)習(xí)強大的穿衣控制策略。
我們利用觸覺信息的顯著表示,來指導(dǎo)虛擬人物穿衣的過程,并將其用于獎勵函數(shù)中,在訓(xùn)練期間提供明確的學(xué)習(xí)信號。我們發(fā)現(xiàn),為了學(xué)習(xí)涉及各種穿衣操作技能的長時間運動序列,比如“抓住T恤衫的邊緣”或者“拉袖子”,有必要將整個穿衣任務(wù)分成幾個子任務(wù),并分別學(xué)習(xí)控制策略。
為此,本文引入了策略排序算法,該算法匹配從一個任務(wù)到輸出分布的輸出狀態(tài)的分布,用于序列中的下一個任務(wù)。我們已經(jīng)使用這種方法為幾種穿衣任務(wù)生成角色控制器:即穿T恤,穿外套,以及在機器人輔助下穿袖子。
虛擬人在穿T恤衫、外套和醫(yī)院的防護(hù)服
將穿衣任務(wù)分割為多個子任務(wù)
我們提出了一個強化學(xué)習(xí)框架,來訓(xùn)練虛擬角色在模擬環(huán)境中穿上衣服。我們的方法將穿衣任務(wù)分成一系列子任務(wù),這些任務(wù)之間的轉(zhuǎn)換由一個狀態(tài)機實現(xiàn)指導(dǎo)。比如,穿上外套這個任務(wù)包括以下四個子任務(wù):將袖子套在第一條手臂上,把第二條手臂向后伸,將第二只袖子套在手臂上,最后將身體重新轉(zhuǎn)到原來的靜止位置。
子任務(wù)控制器的獎勵權(quán)重
對于每個子任務(wù),我們制定一個單獨的強化學(xué)習(xí)問題來學(xué)習(xí)控制策略。為了確保這些單獨的控制策略在按順序執(zhí)行時能夠組成成功的穿衣序列,我們引入了一個策略排序算法,該算法將每個子任務(wù)的初始狀態(tài)分布與前一個子任務(wù)的最終狀態(tài)分布相匹配。
這樣得到的控制策略可以按照虛擬人與衣服的交互率實現(xiàn)按順序應(yīng)用。在通過子任務(wù)完成標(biāo)準(zhǔn)的狀態(tài)機的轉(zhuǎn)換下,產(chǎn)生多種成功的穿衣動作。
排序控制策略
由于每個子任務(wù)都是作為一個單獨的穿衣過程而制定的,因此在轉(zhuǎn)換點上直接執(zhí)行策略往往會失敗。 我們引入了一種策略排序算法,可確保不同策略之間的成功轉(zhuǎn)換,從而實現(xiàn)按需要延長序列的任務(wù)。該算法主要由兩個通道組成,在算法1偽代碼中表示。
策略排序算法示意
部分插入衣服(藍(lán)色圓柱體)的手臂相關(guān)計算的可視化呈現(xiàn)
虛擬人分別穿T恤、外套和醫(yī)院防護(hù)服的動作示意圖
最終研究政策的效果評估,x軸表示時間步長
在馬爾可夫決策過程(MDP)中的手臂伸進(jìn)和靜止姿態(tài)的誤差量度的比較
研究結(jié)論和未來前景
我們提出了一個系統(tǒng),通過使用強化學(xué)習(xí)和物理模擬,學(xué)習(xí)如何建立虛擬人物穿衣的動畫。在將整個穿衣任務(wù)劃分為可管理控制的多個子任務(wù)后,系統(tǒng)會單獨學(xué)習(xí)每個子任務(wù),將這些任務(wù)與狀態(tài)機連接,并將每個子任務(wù)的輸入狀態(tài)分布與先前子任務(wù)的輸出分布相匹配。
我們發(fā)現(xiàn),仔細(xì)選擇對布料觀察結(jié)果和獎勵函數(shù),對于這種策略的成功非常重要。我們的方法的結(jié)果不僅僅是穿衣序列,而是一個可以在各種初始條件下實現(xiàn)成功穿衣的控制器。
盡管該系統(tǒng)在幾個穿衣任務(wù)上取得了成功,但仍有改進(jìn)的余地。我們的系統(tǒng)目前執(zhí)行的上半身的穿衣任務(wù),要想將穿衣任務(wù)擴展至下半身,需要將平衡機制納入控制器。
雖然我們建立的衣服觀察空間足以完成所展示的任務(wù),但是看看是否可以訓(xùn)練端對端控制器,利用模擬視覺來確定衣服的狀態(tài)也是很有趣的事情。
我們的基于觸覺的觀察有助于跨越模擬效率和表示能力之間的鴻溝,但更完整的人體觸覺感知模型可能用于各種應(yīng)用。
最后,使用具有存儲器的控制策略體系結(jié)構(gòu),可以減少必要子任務(wù)的數(shù)量,并將已學(xué)會的技能實現(xiàn)更大程度的推廣。
-
機器人
+關(guān)注
關(guān)注
211文章
28445瀏覽量
207204 -
強化學(xué)習(xí)
+關(guān)注
關(guān)注
4文章
266瀏覽量
11261 -
ai技術(shù)
+關(guān)注
關(guān)注
1文章
1279瀏覽量
24330
原文標(biāo)題:SIGGRAPH2018論文:深度強化學(xué)習(xí)教機器人自己穿衣服!(附視頻)
文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論