前 言
一年前我們?cè)接戇^(guò)Robot Learning的發(fā)展>>梳理 | 機(jī)器人學(xué)習(xí)(Robot Learning)的發(fā)展,那么經(jīng)過(guò)近一年的發(fā)展,Robot Learning也有了很多新的進(jìn)展,特別在Meta Learning上。不過(guò)今天我們先來(lái)專門探討Robot Learning中的一個(gè)具體應(yīng)用,也就是機(jī)器人抓取Robotic Manipulation/Grasping。為什么專門考慮這個(gè)問(wèn)題?因?yàn)檫@個(gè)是體現(xiàn)機(jī)器人智能目前最亟待解決的問(wèn)題之一。
我們可以考慮一下家用機(jī)器人需要具備什么樣的智能?可以說(shuō)最主要就是要具備兩方面的能力,一個(gè)是移動(dòng)導(dǎo)航能力,另一個(gè)就是機(jī)械臂的抓取能力。所以像下圖這個(gè)Fetch機(jī)器人其實(shí)就滿足了家用機(jī)器人所需的硬件了。我們今天不談移動(dòng)導(dǎo)航的問(wèn)題,只來(lái)談?wù)剻C(jī)器人抓取這個(gè)問(wèn)題的研究前沿。
對(duì)于機(jī)器人抓取,其實(shí)本身有很多研究的具體問(wèn)題和方式,比如目前抓取No.1的系統(tǒng)是伯克利的Dex-Net 4.0,有興趣的朋友可以看看這篇報(bào)道:Exclusive: This is the most dexterous robot ever created,但是Dex-Net 并不是一個(gè)端到端的深度學(xué)習(xí)系統(tǒng),它只是用神經(jīng)網(wǎng)絡(luò)來(lái)對(duì)抓取的位置進(jìn)行估計(jì), 然后通過(guò)planning的方式來(lái)抓取,本質(zhì)上是一個(gè)開環(huán)控制系統(tǒng)。這樣的系統(tǒng)對(duì)于完全靜態(tài)簡(jiǎn)單的物體是沒問(wèn)題,但是如果物體有阻擋,有改變,那這個(gè)系統(tǒng)就比較難處理了。所以,鑒于本專欄的偏好是通用人工智能AGI,我們?cè)谶@里只想關(guān)注一種解決機(jī)器人抓取的方式,那就是:
End-to-End Vision-Based Robotic Manipulation 端到端基于視覺的機(jī)器人抓取
我們希望整個(gè)機(jī)器人抓取過(guò)程都是機(jī)器人自己學(xué)到的!這就非常近似于人類的行為!
那么有了這個(gè)主題,我們就來(lái)看看這方面的研究都有誰(shuí),基本上可以說(shuō)就集中在兩個(gè)團(tuán)隊(duì):
1)Google Brain Robotics團(tuán)隊(duì)
2) 伯克利Sergey Levine團(tuán)隊(duì)
除此之外,Deepmind,OpenAI,Stanford的Li Fei-Fei團(tuán)隊(duì)還有CMU的Abhinav Gupta團(tuán)隊(duì)有一些亮眼的研究,但并沒有特別專注在Robotic Manipulation這個(gè)問(wèn)題上。然后實(shí)際上Google Brain團(tuán)隊(duì)Sergey Levine也在其中,所以接下來(lái)我們看到的paper基本上都出自Sergey Levine之手!
Paper List
[1] Sadeghi, Fereshteh, et al."Sim2real view invariant visual servoing by recurrent control."arXiv preprint arXiv:1712.07642(2017).
[2] Riedmiller, Martin, et al."Learning by Playing-Solving Sparse Reward Tasks from Scratch."arXiv preprint arXiv:1802.10567(2018).
[3] Quillen, Deirdre, et al."Deep Reinforcement Learning for Vision-Based Robotic Grasping: A Simulated Comparative Evaluation of Off-Policy Methods."arXiv preprint arXiv:1802.10264(2018).
[4] Haarnoja, Tuomas, et al."Composable Deep Reinforcement Learning for Robotic Manipulation."arXiv preprint arXiv:1803.06773(2018).
[5] Fang, Kuan, et al."Learning Task-Oriented Grasping for Tool Manipulation from Simulated Self-Supervision."arXiv preprint arXiv:1806.09266(2018).
[6] Kalashnikov, Dmitry, et al."QT-Opt: Scalable Deep Reinforcement Learning for Vision-Based Robotic Manipulation."arXiv preprint arXiv:1806.10293(2018).
[7] Matas, Jan, Stephen James, and Andrew J. Davison."Sim-to-Real Reinforcement Learning for Deformable Object Manipulation."arXiv preprint arXiv:1806.07851(2018).
[8] OpenAI"Learning Dexterous In-Hand Manipulation"(2018).
上面這些paper大致是近一年來(lái)比較重要的和robotic manipulation直接相關(guān)的paper了,由于本人主要關(guān)注Sergey Levine團(tuán)隊(duì)的成果,可能會(huì)疏忽掉其他工作,如果有知友有好的相關(guān)paper推薦,歡迎在本文下留言,謝謝!
本文不打算具體的分析每一篇paper,而是從整體上對(duì)于目前機(jī)器人抓取的研究進(jìn)展做一個(gè)整體的分析。
機(jī)器人抓取的研究進(jìn)展整體分析
目前機(jī)器人抓取或者整個(gè)機(jī)器人學(xué)習(xí)的研究其實(shí)核心在于三個(gè)方面:
1)算法層面
2)sim-to-real 從仿真到真實(shí)環(huán)境的遷移
3)應(yīng)用層面
首先是算法層面,我們希望DRL算法在機(jī)器人抓取上能夠有更高的效率,更快的學(xué)習(xí)速度,以及處理更困難的學(xué)習(xí)任務(wù)。因此在上面的paper list中,[3] 對(duì)多種DRL off-policy的算法進(jìn)行評(píng)估,[6] 則使用其中一個(gè)算法在真實(shí)場(chǎng)景中做大規(guī)模的實(shí)驗(yàn) [4] 則基于soft q-learning使得機(jī)器人具備更強(qiáng)的exploration能力 [2] 則研究通過(guò)auxiliary rewards 來(lái)處理復(fù)雜機(jī)器人學(xué)習(xí)任務(wù)中reward過(guò)于稀疏的問(wèn)題。
接下來(lái)是仿真環(huán)境到真實(shí)環(huán)境的遷移問(wèn)題。由于真實(shí)機(jī)器人實(shí)驗(yàn)不方便并且實(shí)驗(yàn)成本很高,使得從仿真遷移到真實(shí)成為一種幾乎必然的選擇 (Google那種機(jī)器人農(nóng)場(chǎng)的方法畢竟不是每個(gè)人都能干的),因此很多研究的重點(diǎn)都在于仿真到真實(shí)的遷移,比如[1] 通過(guò)多視角來(lái)研究sim2real [7] 則在仿真環(huán)境中研究非剛體的物體操作 [3] 提出來(lái)一個(gè)面向機(jī)器人抓取的仿真benchmark,對(duì)于機(jī)器人抓取的研究能夠起到很大的促進(jìn)作用。
最后是應(yīng)用層面,大家不僅僅關(guān)注簡(jiǎn)單的普通的機(jī)器人抓取問(wèn)題,也考慮更復(fù)雜的manipulation問(wèn)題,也因此,有了[8] OpenAI 剛剛出爐的機(jī)器手玩方塊的成果, [5][7]研究更復(fù)雜機(jī)器人抓取問(wèn)題。
那么對(duì)于這三方面,到底有什么重要的研究進(jìn)展呢?我們先來(lái)單獨(dú)分析一下OpenAI這個(gè)最新成果.
3 Learning Dexterous In-Hand Manipulation
這兩天OpenAI剛出來(lái)的成果,使用DRL實(shí)現(xiàn)機(jī)械手靈巧操作方塊,雖然這個(gè)工作面向的不是抓取,但是方法論上是完全相同的,這篇文章對(duì)于機(jī)器人抓取問(wèn)題具有很強(qiáng)的借鑒意義。
1)這篇文章的成果:通過(guò)DRL算法PPO完全在仿真環(huán)境中訓(xùn)練機(jī)械手玩方塊,將訓(xùn)練好的模型直接遷移到真實(shí)場(chǎng)景中取得成功,并且整個(gè)訓(xùn)練不帶人類的演示demo,完全根據(jù)reward自學(xué)完成,而最后的實(shí)現(xiàn)效果竟然和人類的行為非常接近,很像人的操作。
2)取得如此成功的原因:(1)高度仿真的系統(tǒng),和真實(shí)環(huán)境非常接近,reality gap比較小 (2)使用仿真環(huán)境隨機(jī)化這個(gè)技巧來(lái)大幅度拓展仿真環(huán)境的范圍,使得神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)后能夠適應(yīng)各種場(chǎng)景,當(dāng)然就包括真實(shí)場(chǎng)景了。這種隨機(jī)化包含比如不同的摩擦力,不同的演示,不同的攝像頭角度等等 (3)大規(guī)模分布式并行訓(xùn)練,使用了幾百臺(tái)機(jī)器6144個(gè)cpu來(lái)運(yùn)行分布式仿真環(huán)境收集數(shù)據(jù),然后用一臺(tái)8GPU的V100來(lái)訓(xùn)練模型,就像標(biāo)題說(shuō)的,等價(jià)于訓(xùn)練了100年.
3)啟發(fā):(1)DRL能夠通過(guò)學(xué)習(xí)學(xué)到傳統(tǒng)非學(xué)習(xí)算法根本做不到的效果,端到端神經(jīng)網(wǎng)絡(luò)化必須是機(jī)器人的未來(lái)!(2)仿真環(huán)境超級(jí)重要,隨著技術(shù)的發(fā)展,仿真肯定可以做的越來(lái)越好,這就意味的未來(lái)的機(jī)器人必然會(huì)是在仿真中進(jìn)行訓(xùn)練的,成本低,速度快,何樂(lè)而不為。(3)大規(guī)模的計(jì)算能夠直接彌補(bǔ)DRL sample inefficiency的問(wèn)題,反正只要有足夠的設(shè)備,一天訓(xùn)他原來(lái)要1年的東西,數(shù)據(jù)堆上去,就能做出來(lái)。
進(jìn)一步分析
上一小節(jié)我們簡(jiǎn)單的分析了一下OpenAI這個(gè)很酷的工作,但是我們能得到的結(jié)論就是:這更多的是工程上的勝利,而非算法上的勝利。算法依然是PPO,并沒有實(shí)質(zhì)性的變化。
同樣的,之前Google在機(jī)器人抓取的重要進(jìn)展[6]QT-Opt 將端到端機(jī)器人抓取的效果提升了一大截,但是我們具體分析它里面的算法就會(huì)發(fā)現(xiàn)算法上只是Q-Learning的一個(gè)變種,相比于DDPG,不使用Actor Network,而通過(guò)進(jìn)化算法CEM來(lái)獲取actor,能夠使訓(xùn)練更穩(wěn)定,并且方便于做大規(guī)模分布式訓(xùn)練。
對(duì)于[6]和[8],其實(shí)我們都發(fā)現(xiàn)大規(guī)模分布式學(xué)習(xí)對(duì)于性能提升的重要性,這當(dāng)然也完全符合深度學(xué)習(xí)的情況,只要有數(shù)據(jù)和高性能計(jì)算,就能把性能堆出來(lái)。由于深度增強(qiáng)學(xué)習(xí)存在比監(jiān)督學(xué)習(xí)大的多的sample inefficiency問(wèn)題,所以實(shí)際上深度增強(qiáng)學(xué)習(xí)要能work,需要的數(shù)據(jù)量會(huì)比監(jiān)督學(xué)習(xí)如imagenet還要大的多。也因此,我們看到AlphaGo,OpenAI的機(jī)器手,OpenAI的Dota,都動(dòng)用了巨量的計(jì)算資源。一個(gè)小小的機(jī)器手,卻使用了6144個(gè)CPU和8個(gè)V100 GPU來(lái)訓(xùn)練,這也是非常空前的事情。
下一步呢?
有兩點(diǎn)是非常容易預(yù)測(cè)的:
1)未來(lái)必然會(huì)出來(lái)更多更好的仿真環(huán)境。這一年來(lái)的研究可以說(shuō)就是比較明確的肯定仿真直接遷移到真實(shí)環(huán)境的可行性,那么就沒有理由更進(jìn)一步的去開發(fā)更真實(shí)的仿真環(huán)境。
2)更快更強(qiáng)的分布式學(xué)習(xí)系統(tǒng)。這個(gè)就更不必說(shuō)了,這是推動(dòng)機(jī)器人學(xué)習(xí)進(jìn)展的燃料。
有了上面這兩點(diǎn),即使保持現(xiàn)有的算法不變,我相信都可以訓(xùn)練出比現(xiàn)在更強(qiáng)或者更復(fù)雜的機(jī)器人學(xué)習(xí)成果,端到端基于視覺的機(jī)器人抓取直接推到99%以上的準(zhǔn)確率是完全可能的,這就趨于商用了。
那么算法層面又該如何發(fā)展呢?
我們需要更復(fù)雜任務(wù)Task的牽引。比如我們需要雙機(jī)械臂的協(xié)作抓取,這就涉及到multi-agent robot learning。比如我們需要機(jī)器人能夠完成一個(gè)更長(zhǎng)的任務(wù)系列,這需要Hierarchical Reinforcement Learning的研究。比如我們需要機(jī)器人能夠同時(shí)完成多個(gè)任務(wù),那這就需要multi task learning。比如我們希望機(jī)器人的generalization能夠更強(qiáng),能夠處理沒看過(guò)的物體,那么這就需要Meta Learning的研究,那么這塊現(xiàn)在特別火了。比如我們需要機(jī)器人能夠快速的學(xué)習(xí)新任務(wù),這就需要Continual Learning,Meta Learning,如果是要求通過(guò)模仿學(xué)習(xí)來(lái)實(shí)現(xiàn),那就需要imitation learning。
這里我推薦大家可以閱讀第一屆CoRL整理出來(lái)的問(wèn)題,從這里我們反而會(huì)覺得現(xiàn)在的Robot Learning真的是剛剛開始,現(xiàn)在研究的問(wèn)題也太過(guò)于簡(jiǎn)單了。
https://docs.google.com/document/d/1biE0Jmh_5nq-6Giyf2sWZAAQz23uyxhTob2Uz4BjR_w/edit
現(xiàn)在到了2018年才有了一個(gè)機(jī)器人抓取的benchmark,未來(lái)相信會(huì)有更多的benchmark出現(xiàn)來(lái)推動(dòng)這個(gè)領(lǐng)域的發(fā)展。
最后小結(jié)
本文沒有詳細(xì)的分析每一篇paper的具體idea,而是比較寬泛的分析機(jī)器人抓取及機(jī)器人學(xué)習(xí)的整體研究進(jìn)展。總的來(lái)說(shuō),對(duì)于機(jī)器人抓取這個(gè)具體問(wèn)題,從工業(yè)應(yīng)用上看將可以很快看到落地,要在仿真系統(tǒng)研發(fā)上推,在大規(guī)模分布式學(xué)習(xí)上推,核心確實(shí)在于工程實(shí)現(xiàn)上。而對(duì)于學(xué)術(shù)研究,最關(guān)鍵的是去定義新的task,新的benchmark,從而在新task的基礎(chǔ)上去推動(dòng)算法層面和應(yīng)用層面的發(fā)展。
-
機(jī)器人
+關(guān)注
關(guān)注
211文章
28512瀏覽量
207497 -
人工智能
+關(guān)注
關(guān)注
1792文章
47425瀏覽量
238948 -
Robot
+關(guān)注
關(guān)注
0文章
34瀏覽量
11039
原文標(biāo)題:機(jī)器人抓取的前沿到哪了?
文章出處:【微信號(hào):thejiangmen,微信公眾號(hào):將門創(chuàng)投】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論