色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

深度強化學習將如何控制機械臂的靈活動作

zhKF_jqr_AI ? 來源:未知 ? 作者:李倩 ? 2018-09-05 08:54 ? 次閱讀

在這篇博文中,伯克利人工智能實驗室的科學家們將展示深度強化學習將如何控制機械臂的靈活動作。另外還會討論如何用低成本的硬件,高效地使用強化學習,以及如何能加速學習速度。以下是論智帶來的編譯。

為什么用機械抓手?

目前市面上大部分機器人都是用簡單的抓手進行控制,對工廠來說已經足夠了。但是,對于非結構化的、以人為中心的環境(例如家庭),能進行多任務的操控器是非常重要的。多手指的機械手是最常見的操控器之一,它能完成多種日常生活中的動作,例如移動物體、開門、打字、繪畫等。

但是,控制靈活的機械手非常困難。其中精密的傳感器驅動器使得高級機械手價格很高。深度強化學習的出現能在便宜的硬件上實現復雜任務的自動控制,但是很多深度強化學習應用都需要大量模擬數據,這讓他們在成本和安裝上都很復雜。人類可以快速學習各種動作,無需大量的動作示例。 我們首先會展示深度強化學習是如果通過在現實世界中的訓練而用于學習復雜操控行為的,無需任何模型或模擬器,使用低廉的機器人硬件。之后,我們會展示加入額外的監督機制,包括示范和模擬,從而能加速學習的時間。我們在兩個硬件平臺上進行學習:一個是有三根手指的簡易機械手,價格不到2500美元。另一個是高級的Allegro機械手,價格為15000美元。

現實中的無模型強化學習

深度強化學習算法通過試錯法進行學習,從經驗中將獎勵函數最大化。我們將用一個氣門轉動任務當做示范,閥門或者水龍頭必須旋轉180°才能開啟。

獎勵函數僅僅是目前閥門的方向和目標位置之間的負面距離,機器人手臂必須自己思考如何移動旋轉。深度強化學習的中心問題是如何利用微弱的獎勵信號找到能讓該任務成功的復雜且協調的行為策略。該策略由一個多層神經網絡表示,通常這需要大量實驗,由于數量太多,領域內專業人士都在討論深度強化學習方法能否用于模擬之外的訓練。然而,這樣會對模型的可用性施加很多限制:在現實環境中直接學習可以從經驗中學到任意一種任務,然而用使用模擬器則需要設計合適的示例,對任務和機器人進行建模,并仔細調整它們的參數,以實現良好結果。首先,我們將證明現有的強化學習算法是可以直接在真是硬件上直接學習這一任務的。

我們用Truncated Natural Policy Gradient來學習這一任務,在真實硬件上需要大約9個小時。

直接的強化學習方法很有吸引力,它無需過多假設,而且能自動掌握很多技能。由于這種方法除了建立函數無需其他信息,所以很容易在改進后的環境中重新學習技能,例如更換了目標物體或機械手。

下圖用了不同的材料(海綿),也能使用一樣的方法讓機械手學習旋轉閥門。如果用模擬法,很難精確學習,而直接在現實中訓練可以不需要精確的示范。

另一個任務是在水平平面上翻轉180°的板子,在沒有模擬案例的情況下,用了8小時解決了這一問題。

這些行為都是在不到2500美元的設備上實現的,另外還有一臺定制的臺式機。

用人類示范加速學習

無需模型的強化學習可以很通用,但是假如人類專家在其中加入監督,將更有助于學習速度的加快。具體方法可以參考我們的論文Demonstration Augmented Policy Gradient(DAPG)。DAPG背后的思想是,人類示范可以從兩方面加速強化學習:

通過行為克隆對策略提供好的初始狀態

在學習過程中添加輔助學習信號,用輔助獎勵引導研究探索

強化學習中的輔助目標能阻止策略在強化學習過程中偏離示范。用有限的數據克隆的純粹行為通常無法訓練成功的策略,因為分布偏差和有限的數據支持。強化學習對魯棒性和泛化很重要,利用示范的確可以加速學習過程。下圖是我們在不同任務上做出的驗證:

在現實世界,我們能用帶有多功能傳感器的抓手和算法顯著加快學習速度。下面的示例中,是人類老師直接移動機器人的手指,結果將訓練時間減少到了4個小時以下。

示范將人類的先驗知識用一種自然的方式結合到了算法中,并且加速學習過程。然而,并不是所有任務都能用示范加速,我們還需要尋找其他替代的加速方法。

通過模仿加速學習

某種任務的模擬模型能通過大量的模擬數據對顯示數據進行增強。對于要表示現實世界復雜性的莫數據,通常需要對多種模擬參數進行隨機選擇。此前的研究證明這樣的隨機結果有助于產生穩定的策略,可以用于人臉的遷移。我們的實驗也證明了用隨機數據從模擬到現實的遷移很有效。

雖然對脆弱的機器人來說,通過隨機化進行遷移是很不錯的選擇,但這種方法會有幾點弊端。首先,由于是隨機的,最終策略會過于保守。另外,參數的選擇也是產生好結果的重要一點,某一領域中好的結果也許不能遷移到其他領域中,第三,在復雜模型中增加了大量隨機的結果,會使得訓練時間大大增加,也需要更多計算量。最后,可能也是最重要的一點,一個精準的模擬器必須手動搭建,進行每項新任務時都要手動調整,需要很多時間。

用學習過的模型加速學習

此前,我們同樣研究了經過學習的動態模型是如何加速現實中強化學習的,同時無需手動調整模擬器。用這種方法,動態模型中的局部導數能近似計算出來,可以對局部進行迭代優化策略。這種方法能從現實中獲得多種隨時可用的操控策略。另外,我們可以看到算法還能在軟體機器人抓手上學會控制動作。

然而,這種方法的表現也受到模型質量的影響,未來會朝著基于模型的強化學習的方向研究。

結語

雖然現實環境中的訓練很普遍,但它仍有幾處挑戰:

由于需要進行大量探索行為,我們發現機械抓手很快就會發熱,所以需要時間暫停,以免造成損壞。

由于抓手要處理多種任務,我們需要搭建一個自動重啟裝置。未來如果想取消這一裝置,就需要自動學習如何重啟了。

強化學習方法需要提供獎勵,而這一獎勵需要手動設計。最近我們正在研究自動獎勵機制。

但是,讓機器人直接從真實世界學習復雜技巧是創建完全通用的機器人的必經之路。和人類學習一樣,機器人也可以通過簡單的試錯獲取技巧。同時加上示范、模擬器和先驗知識,可以大大減少訓練時間。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 神經網絡
    +關注

    關注

    42

    文章

    4771

    瀏覽量

    100713
  • 機械臂
    +關注

    關注

    12

    文章

    513

    瀏覽量

    24554
  • 強化學習
    +關注

    關注

    4

    文章

    266

    瀏覽量

    11246

原文標題:強化學習應用實例:讓機械手靈活多變的高效通用法

文章出處:【微信號:jqr_AI,微信公眾號:論智】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    什么是深度強化學習?深度強化學習算法應用分析

    什么是深度強化學習? 眾所周知,人類擅長解決各種挑戰性的問題,從低級的運動控制(如:步行、跑步、打網球)到高級的認知任務。
    發表于 07-01 10:29 ?1436次閱讀
    什么是<b class='flag-5'>深度</b><b class='flag-5'>強化學習</b>?<b class='flag-5'>深度</b><b class='flag-5'>強化學習</b>算法應用分析

    深度強化學習實戰

    一:深度學習DeepLearning實戰時間地點:1 月 15日— 1 月18 日二:深度強化學習核心技術實戰時間地點: 1 月 27 日— 1 月30 日(第一天報到 授課三天;提前
    發表于 01-10 13:42

    深度學習強化學習相結合的深度強化學習DRL

    深度強化學習DRL自提出以來, 已在理論和應用方面均取得了顯著的成果。尤其是谷歌DeepMind團隊基于深度強化學習DRL研發的AlphaGo,將
    發表于 06-29 18:36 ?2.8w次閱讀

    薩頓科普了強化學習深度強化學習,并談到了這項技術的潛力和發展方向

    薩頓在專訪中(再次)科普了強化學習深度強化學習,并談到了這項技術的潛力,以及接下來的發展方向:預測學習
    的頭像 發表于 12-27 09:07 ?1.1w次閱讀

    人工智能機器學習強化學習

    強化學習是智能系統從環境到行為映射的學習,以使獎勵信號(強化信號)函數值最大,強化學習不同于連接主義學習中的監督
    發表于 05-30 06:53 ?1409次閱讀

    如何使用深度強化學習進行機械視覺抓取控制的優化方法概述

    針對提高視覺圖像特征與優化控制之間契合度的問題,本文提出一種基于深度強化學習機械視覺抓取控制
    發表于 12-19 15:23 ?22次下載
    如何使用<b class='flag-5'>深度</b><b class='flag-5'>強化學習</b>進行<b class='flag-5'>機械</b><b class='flag-5'>臂</b>視覺抓取<b class='flag-5'>控制</b>的優化方法概述

    深度強化學習的筆記資料免費下載

    本文檔的主要內容詳細介紹的是深度強化學習的筆記資料免費下載。
    發表于 03-10 08:00 ?0次下載
    <b class='flag-5'>深度</b><b class='flag-5'>強化學習</b>的筆記資料免費下載

    基于深度強化學習的路口單交叉信號控制

    利用深度強化學習技術實現路口信號控制是智能交通領域的硏究熱點。現有硏究大多利用強化學習來全面刻畫交通狀態以及設計有效強化學習算法以解決信號配
    發表于 04-23 15:30 ?21次下載
    基于<b class='flag-5'>深度</b><b class='flag-5'>強化學習</b>的路口單交叉信號<b class='flag-5'>控制</b>

    基于深度強化學習仿真集成的壓邊力控制模型

    壓邊為改善板料拉深制造的成品質量,釆用深度強化學習的方法進行拉深過程旳壓邊力優化控制。提岀一種基于深度強化學習與有限元仿真集成的壓邊力
    發表于 05-27 10:32 ?0次下載

    基于深度強化學習的無人機控制律設計方法

    基于深度強化學習的無人機控制律設計方法
    發表于 06-23 14:59 ?46次下載

    《自動化學報》—多Agent深度強化學習綜述

    多Agent 深度強化學習綜述 來源:《自動化學報》,作者梁星星等 摘 要?近年來,深度強化學習(Deep reinforcement le
    發表于 01-18 10:08 ?1617次閱讀
    《自動<b class='flag-5'>化學</b>報》—多Agent<b class='flag-5'>深度</b><b class='flag-5'>強化學習</b>綜述

    ESP32上的深度強化學習

    電子發燒友網站提供《ESP32上的深度強化學習.zip》資料免費下載
    發表于 12-27 10:31 ?0次下載
    ESP32上的<b class='flag-5'>深度</b><b class='flag-5'>強化學習</b>

    基于深度強化學習的視覺反饋機械抓取系統

    機械抓取擺放及堆疊物體是智能工廠流水線上常見的工序,可以有效的提升生產效率,本文針對機械的抓取擺放、抓取堆疊等常見任務,結合深度
    的頭像 發表于 06-12 11:25 ?2310次閱讀
    基于<b class='flag-5'>深度</b><b class='flag-5'>強化學習</b>的視覺反饋<b class='flag-5'>機械</b><b class='flag-5'>臂</b>抓取系統

    模擬矩陣在深度強化學習智能控制系統中的應用

    訊維模擬矩陣在深度強化學習智能控制系統中的應用主要是通過構建一個包含多種環境信息和動作空間的模擬矩陣,來模擬和預測深度
    的頭像 發表于 09-04 14:26 ?563次閱讀
    模擬矩陣在<b class='flag-5'>深度</b><b class='flag-5'>強化學習</b>智能<b class='flag-5'>控制</b>系統中的應用

    如何使用 PyTorch 進行強化學習

    強化學習(Reinforcement Learning, RL)是一種機器學習方法,它通過與環境的交互來學習如何做出決策,以最大化累積獎勵。PyTorch 是一個流行的開源機器學習庫,
    的頭像 發表于 11-05 17:34 ?280次閱讀
    主站蜘蛛池模板: 亚洲欧美自拍清纯中文字幕| 色噜噜狠狠色综合欧洲| 蜜桃臀无码内射一区二区三区| 午夜剧场1000| 丰满人妻熟女色情A片| 女教师公车痴汉在线播放| 正在播放一区二区| 久久精品国产清白在天天线| 亚洲中文在线偷拍| 久久99热只有频精品| 伊人久久大线蕉香港三级| 久久99AV无色码人妻蜜柚| 亚洲一区二区三区乱码在线欧洲| 国产欧美国日产在线播放| 小莹的性荡生活45章| 国产亚洲精品久久77777| 亚洲qingse中文字幕久久| 国产永久免费观看视频软件| 亚洲精品久久7777777| 精品伊人久久久| 中国女人内谢69XXXXXA片| 老女老肥熟国产在线视频| 2021年国产精品久久| 欧美特级特黄a大片免费| 办公室中文BD| 四虎影视国产精品亚洲精品| 国产亚洲日韩另类在线播放| 亚洲深夜在线| 免费在线观看黄色网址| 纯肉宠文高h一对一| 性欧美xxxxporn| 久久电影精品久久99久久| 97免费在线视频| 日本高清天码一区在线播放| 国产精品成人啪精品视频免费观看| 校草让我脱了内裤给全班看| 精品久久中文字幕有码| 99久久精品久久久久久清纯| 色橹| 好爽胸大好深好多水| 4455永久在线毛片观看|