一级毛片免费完整视频,天天做人人爱夜夜爽2020,性奶乳妇

編者按：通常我們看到的深度強化學習的實現都是在模擬環境中，例如OpenAI的Gym。但這次，迪士尼研究院的科學家們將DL應用到了模塊化機器人上，并創建了一個自動學習環境，可以直接將控制策略應用到實體機器人上。論智將原論文編譯如下。

在這篇論文中，迪士尼研究院的研究者們提出了一種自動學習環境，直接在硬件（模塊化有腿機器人）上建立控制策略。這一環境通過計算獎勵促進了強化學習過程，計算過程是利用基于視覺的追蹤系統和將機器人從新放回原位的重置系統進行的。我們應用了兩種先進的深度學習算法——Trust Region Policy Optimization（TRPO）和Deep Deterministic Policy Gradient（DDPG），這兩種算法可以訓練神經網絡做簡單的前進或者爬行動作。利用搭建好的環境，我們展示了上述兩種算法都能在高度隨機的硬件和環境條件下有效學習簡單的運動策略。之后我們將這種學習遷移到了多腿機器人上。

問題概述

自然界中，很多生物都能根據環境做出適應性動作。在最近一項對盲蜘蛛（也稱長腳蜘蛛）的研究發現，當它們遇到敵人時，會自動伸出腳，過一段時間后又會恢復行走速度和轉向控制。即使不會自動變化，很多生物也會在改變身體結構之后調整動作姿態，這都是長期學習適應的結果。那么我們能否從借鑒生物將這種學習運動的技巧應用到機器人身上呢？

之前有科學家依賴先驗知識手動為機器人設計合適的步態，雖然經驗豐富的工程師能讓機器人隨意移動，但在可以組裝的機器人身上這種方法就不切實際了。

最近，研究者又表示可以用深度強化學習技術提高采樣策略，從而在虛擬環境中完成很多任務，例如游泳、跳躍、行走或跑步。但是對于真實的有腿機器人來說，深度強化學習技術卻很少應用，因為在我們的經驗中，即使一個簡單的爬行動作對真實硬件來說也是很困難的，因為涉及到多變的未經模式化的動作。

在這篇論文中，迪士尼研究院的科學家們提出了一種針對深度強化學習運動任務的自動環境，其中包括一個視覺追蹤器和一個重置機制。在這一環境之上，科學家們在可組裝的有腿機器人上應用了兩種學習算法——TRPO和DDPG。之后訓練神經網絡策略在單腿機器人和多腿機器人上的運動，結果證明算法能在硬件上有效地學習控制策略。

實驗裝置說明

實驗所用機器人如圖所示：

這類似蜘蛛的機器人是可以靈活拆卸的，中間的本體是一個六邊形的形狀，每一面都可以利用磁鐵吸附上一條“機械腿”，不過在實驗中研究人員最多只用了三條腿。除此之外，這三條腿也各不相同，分別可以實現不同的前進方向。

實驗的環境布局如下圖所示：

環境主要由兩部分組成：視覺追蹤系統和讓機器人復位的重置裝置。視覺系統是用消費級攝像頭實現的，距離平面約90cm，它追蹤的是機器人身上的綠色和紅色兩個點，從而重現全局的位置并為機器人導航。

重置裝置是全自動學習環境中的重要組成部分。我們用只有一個自由度的杠桿結構即可將機器人拉回到初始位置。該裝置距離機器人25cm，兩個1.5m長的線分別連接機器人本體上的兩點。

設置完畢后，研究人員將控制問題用部分可觀察馬爾科夫決策過程（POMDP）表示，它可以用無法觀察到的狀態變量來解釋決策問題。具體的數學公式可參考原論文。

學習算法

模型的策略用一個神經網絡表示，該網絡由兩個完全連接的隱藏層組成，每層有16個tanh活動神經元。當在單腿機器人上訓練好策略，我們也許能將所學到的知識轉移到多腿機器人上。假設所有的腿都有同樣的接頭形狀，我們可以通過復制輸出神經元和對應的鏈接進行多腿運動。

實驗結果

在實驗中，研究人員主要研究了兩個問題：

目前最先進的深度強化學習算法能否直接在硬件上訓練策略？

我們能否通過遷移策略將學習轉化到復雜場景中？

科學家們首先訓練了一條腿的機器人，最終動作類似于爬行。A、B、C三種腿型的結果如圖：

可以看到，TRPO和DDPG兩種算法都能成功地在硬件上進行訓練，同時表現得要比其他手動設計的步態優秀。

接下來科學家測試了學習框架在多腿運動上的表現。首先是用兩個Type B的腿進行爬行動作。下圖是兩種算法在遷移學習和無遷移下的表現：

結果符合預期，遷移學習能作為一個很好地初始解決政策。接著研究人員又測試了三條腿前進的表現，結果顯示中間的那條腿作用并不大。

結語

由于傳感器能力有限，研究者在這項實驗中僅對簡單的開環爬行運動進行了實驗。如果有更復雜的控制器和獎勵的話，也許會得到更復雜的行為。例如，可以用基于IMU的反饋控制器訓練機器人走路或跑步。或者可以使用深度相機收集機器人的高度，當它們從爬行轉變成走路時給予獎勵。

除此之外，雖然研究者展示了遷移學習在初始策略上的重要作用，但都是應用在相同種類的腿上，動作也都類似。未來，他們計劃將動作分解成不同難度水平的，應用于不同任務上。

自動學習過程有時會生成意想不到的行為。例如，在做空翻動作時，追蹤系統會出現bug，因為機器人會擋住標記從而對其位置進行誤判。雖然這不會對這次實驗中的機器人造成損壞，但是對于體型龐大的機器人卻是致命的。所以，想在硬件系統上進行直接學習可能也需要傳統算法的幫助，保證機器人的安全，而不是一位追求采樣的高效。

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

機器人

機器人

+關注

關注
212

文章
29161

瀏覽量
210596
神經網絡

神經網絡

+關注

關注
42

文章
4793

瀏覽量
102043
深度學習

深度學習

+關注

關注
73

文章
5540

瀏覽量
122207

原文標題：迪士尼創建新框架，將深度學習直接應用到實體機器人上

文章出處：【微信號：jqr_AI，微信公眾號：論智】歡迎添加關注！文章轉載請注明出處。

什么是深度強化學習?深度強化學習算法應用分析

什么是深度強化學習? 眾所周知，人類擅長解決各種挑戰性的問題，從低級的運動控制(如：步行、跑步、打網球)到高級的認知任務。

發表于 07-01 10:29 ?1739次閱讀

什么是<b class='flag-5'>深度</b><b class='flag-5'>強化學習</b>?<b class='flag-5'>深度</b><b class='flag-5'>強化學習</b>算法應用分析

反向強化學習的思路

強化學習的另一種策略（二）

發表于 04-03 12:10

深度學習DeepLearning實戰

一：深度學習DeepLearning實戰時間地點：1 月 15日— 1 月18 日二：深度強化學習核心技術實戰時間地點： 1 月 27 日—

發表于 01-09 17:01

深度強化學習實戰

一：深度學習DeepLearning實戰時間地點：1 月 15日— 1 月18 日二：深度強化學習核心技術實戰時間地點： 1 月 27 日—

發表于 01-10 13:42

將深度學習和強化學習相結合的深度強化學習DRL

深度強化學習DRL自提出以來，已在理論和應用方面均取得了顯著的成果。尤其是谷歌DeepMind團隊基于深度強化學習DRL研發的AlphaGo，將深

發表于 06-29 18:36 ?2.8w次閱讀

強化學習環境研究，智能體玩游戲為什么厲害

強化學習作為一種常用的訓練智能體的方法，能夠完成很多復雜的任務。在強化學習中，智能體的策略是通過將獎勵函數最大化訓練的。獎勵在智能體之外，各個環境

發表于 08-18 11:38 ?3736次閱讀

如何使用深度強化學習進行機械臂視覺抓取控制的優化方法概述

針對提高視覺圖像特征與優化控制之間契合度的問題，本文提出一種基于深度強化學習的機械臂視覺抓取控制優化方法，可以自主地從與環境交互產生的視覺圖

發表于 12-19 15:23 ?22次下載

深度強化學習的概念和工作原理的詳細資料說明

深度學習DL是機器學習中一種基于對數據進行表征學習的方法。深度

發表于 05-16 09:20 ?3629次閱讀

深度強化學習到底是什么？它的工作原理是怎么樣的

深度學習DL是機器學習中一種基于對數據進行表征學習的方法。深度

發表于 06-13 11:39 ?6398次閱讀

強化學習在智能對話上的應用介紹

本文主要介紹深度強化學習在任務型對話上的應用，兩者的結合點主要是將深度強化學習應用于任務型對話的

發表于 12-10 19:02 ?1165次閱讀

一種基于多智能體協同強化學習的多目標追蹤方法

針對現有多目標追蹤方法通常存在學習速度慢、追蹤效率低及協同追蹤策略設計困難等問題，提岀一種改進的多目標追蹤方法。基于追蹤智能體和目標智能體數量及其環境信息建立

發表于 03-17 11:08 ?20次下載

基于深度強化學習仿真集成的壓邊力控制模型

壓邊為改善板料拉深制造的成品質量，釆用深度強化學習的方法進行拉深過程旳壓邊力優化控制。提岀一種基于深度強化學習與有限元仿真集成的壓邊力控制模

發表于 05-27 10:32 ?0次下載

一種新型的多智能體深度強化學習算法

一種新型的多智能體深度強化學習算法

發表于 06-23 10:42 ?36次下載

《自動化學報》—多Agent深度強化學習綜述

多Agent 深度強化學習綜述來源：《自動化學報》，作者梁星星等摘要?近年來,深度強化學習(Deep reinforcement le

發表于 01-18 10:08 ?1790次閱讀

如何使用 PyTorch 進行強化學習

強化學習（Reinforcement Learning, RL）是一種機器學習方法，它通過與環境的交互來學習如何做出決策，以最大化累積獎勵。

發表于 11-05 17:34 ?714次閱讀

色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

搜索歷史

一種針對深度強化學習運動任務的自動環境

評論

什么是深度強化學習?深度強化學習算法應用分析

反向強化學習的思路

深度學習DeepLearning實戰

深度強化學習實戰

將深度學習和強化學習相結合的深度強化學習DRL

強化學習環境研究，智能體玩游戲為什么厲害

如何使用深度強化學習進行機械臂視覺抓取控制的優化方法概述

深度強化學習的概念和工作原理的詳細資料說明

深度強化學習到底是什么？它的工作原理是怎么樣的

強化學習在智能對話上的應用介紹

一種基于多智能體協同強化學習的多目標追蹤方法

基于深度強化學習仿真集成的壓邊力控制模型

一種新型的多智能體深度強化學習算法

《自動化學報》—多Agent深度強化學習綜述

如何使用 PyTorch 進行強化學習