在加拿大作家瑪格麗特?阿特伍德的著作《盲人殺手》中有這樣一段描述:“觸覺,先于視覺也先于語言,既是第一語言也是最后的語言,并總是訴說真相。”
被編寫為視覺或者觸覺的機器人一般不能實現此兩種感官信息的交互。為打破這種隔絕,來自MIT(麻省理工學院)CSAIL(計算機科學與人工智能實驗室)的研究團隊提出了一種可預測AI,它可以通過觸覺信息的訓練學習到視覺特征,反之亦然,也能通過視覺信息的訓練學習到物體的觸覺特征。
該團隊所提出的模型可以從視覺信號中“創造”出逼真的觸覺信號,并直接利用觸覺信息預測所檢測目標及觸摸部位。他們使用的庫卡機械臂上裝有一個特殊的觸覺傳感器GelSight,這是由MIT的另一研究團隊設計的。
該團隊利用一個簡單的網絡攝像頭采集了近200種物體圖像,包括工具、家庭用品、紡織物等,這些物體被“觸摸”超過12000次。通過將這12000個小視頻分解為靜態幀從而生成了名為“VisGel”的數據集,該數據集包含300多萬個視覺-觸覺對應的圖像。
CSALL博士生Yunzhu Li在其一篇相關論文中談到:“通過觀察觸摸情景,我們的模型可以“想象”出觸摸平坦表面或者尖銳邊緣的感覺”,“當機器人只有觸覺感官的時候,此模型可以僅憑觸覺信號來完成和周圍環境的交互。將觸覺和視覺這兩種感官結合在一起無疑是錦上添花。它還可能減少機器人為完成抓取任務所需的數據集”。
目前使能機器人具備更多感官能力的研究,比如MIT在2016年的項目:利用深度學習實現聲音可視化、預測物體對外力反應,都使用了大量的訓練數據,但不能實現視覺和觸覺的交互。該團隊使用VisGel數據集和生成式對抗網絡(GANs)實現上述功能。
此GANs算法利用視覺或觸覺的圖像生成其他形式的圖像。其原理簡而言之,就是GANs利用生成器(generator)捏造假的圖像試圖騙過判別器(discriminator),判別器將辨別結果反饋給生成器以調參,以使得生成器生成更高質量的預期圖像,如此相得益彰。
所見即所觸
人可以通過觀察物體來判斷其手感,欲將這種能力賦予機器人,首先要標定目標位置,其次要推斷目標區域的形狀和手感。
為此,需要一張參考圖像,它記錄了機器人沒有與外界交互時的所處的環境信息。模型在識別過程中會對比當前捕捉到的幀圖像和參考圖像以輕松判斷所觸物體的位置和大小。
好比給模型“看”了一張鼠標的圖像,模型將預測可能觸碰到鼠標的區域,并告訴機器人從而使其實現安全高效的抓取任務。
所觸即所見
利用觸覺數據產生視覺圖像即所謂“所觸即所見”。模型通過觀察觸覺圖像推斷所接觸位置的物體形狀和材質,并和參考圖像對比進而“想象”出交互過程。
舉個例子,將一只鞋的觸覺數據傳給模型,其輸出將是一張圖像,這張圖像則顯示了最有可能觸摸到這只鞋的區域位置。
當燈被關掉,或者盲人進入未知區域的時候,這種技能就可以發揮其作用了。
展望
目前的訓練數據只能實現特定環境下的交互。該團隊希望收集更復雜環境下的訓練數據以提升模型的泛化性能。MIT的新設計——tactile glove或許可以幫助他們獲取更多更密集的訓練數據。
翹首以盼,此類模型將協助機器人和其視覺緊密合作以實現無縫的人機交互。這些合作包括對象識別、抓取、場景理解等。
加州大學伯克利分校的博士后Andrew Owens說:“這是首次提出的視覺和觸覺信號可靠的轉換方法,此類方法于機器人而言將大有裨益,彼時,它們就可以回答諸如‘這東西的硬度如何?’,‘如果我用手柄握住馬克杯,我會握得多好?’的問題,這是一個十分有挑戰性的項目,因為問題的信號是如此的不同,其優越性也可見一斑”。
李和MIT的教授Russ Tedrake 、 Antonio Torralba,博士后Jun-Yan Zhu共同完成這篇論文。它將于下周在加利福尼亞長沙灘上舉辦的計算機視覺及模式識別大會上發布。
-
人工智能
+關注
關注
1794文章
47642瀏覽量
239674 -
MIT
+關注
關注
3文章
253瀏覽量
23444
原文標題:所見即所觸,教AI實現觸覺和視覺的信息交互
文章出處:【微信號:BigDataDigest,微信公眾號:大數據文摘】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論