色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

DeepMind提出強化學習新算法,教智能體從零學控制

mK5P_AItists ? 來源:未知 ? 作者:李建兵 ? 2018-03-17 09:12 ? 次閱讀

這在真實環境中成功讓機械臂從頭開始學習拾放物體。SAC-X 是基于從頭開始學習復雜的任務這種想法,即一個智能體首先應該學習并掌握一套基本技能。就像嬰兒在爬行或走路前必須具有協調能力和平衡能力,為智能體提供與簡單技能相對應的內在目標(具有輔助作用),這會增加它理解和執行更復雜任務的可能性。

研究者認為,SAC-X是一種通用的強化學習方法,未來可以應用于機器人以外的更廣泛領域。

不管你讓小孩還是大人整理物品,他們很大可能都不會乖乖聽你的話,如果想要讓 AI 智能體進行整理收拾,那就更難了。如果想成功,需要掌握如下幾個核心視覺運動技能:接近物體,抓住并舉起它,打開盒子,把物體放進去。而更復雜的是,執行這些技能時,必須按照正確的順序。

對于一些控制類的任務,比如整理桌面或堆疊物體,智能體需要在協調它的模擬手臂和手指的九個關節時,做到三個 W,即如何(how),何時(when)以及在哪里(where),以便正確地移動,最終完成任務。

在任何給定的時間內,需要明確各種可能的運動組合的數量,以及執行一長串正確動作,這些需求引申出一個嚴肅的問題,這成為強化學習中一個特別有趣的研究領域。

諸如獎賞塑形(reward shaping)、學徒學習(Apprenticeship learning)或從演示中學習(Learning from Demonstration)等技術可以幫助解決這個問題。然而,這些方法依賴于大量與任務相關的知識,而從零開始,通過最少的預先知識學習復雜的控制問題仍然是一個眾所周知的挑戰。

我們最近的論文提出了一種新的學習范式,叫做「調度輔助控制」(Scheduled Auxiliary Control (SAC-X)),我們試圖通過這種學習范式來克服這個問題。

SAC-X 是基于從頭開始學習復雜的任務這種想法,即一個智能體首先應該學習并掌握一套基本技能。就像嬰兒在爬行或走路前必須具有協調能力和平衡能力,為智能體提供與簡單技能相對應的內在目標(具有輔助作用),這會增加它理解和執行更復雜任務的可能性。

我們在幾個模擬和真實的機器人任務中演示了 SAC-X 法,包括不同物體的堆疊,將物體放到盒子里。我們定義的輔助任務遵循一般原則:鼓勵智能體探索其感應空間。

例如,激活手指上的觸覺傳感器,感知手腕的力度,利用本體感應器將關節角度調到最大,在視覺傳感器范圍內強制性移動物體。對于每個任務,如果實現目標,會提供相應的簡單獎勵。沒實現目標的話,獎勵為零。

智能體首先學習激活手指上的觸覺傳感器,然后移動物體

模擬智能體最終掌握復雜的堆疊任務

智能體接下來可以自行決定其當前的「意圖」,例如下一步做什么。可能會是一個輔助任務或者是外部定義的目標任務。至關重要的是,對于目前還沒有使用基于回放的離策略學習方法的任務,該代理可以從獎勵信號中發現和學習。例如,當拾取或移動一個物體時,智能體可能會偶然地將物體堆疊起來,觀察到「堆疊獎勵」。一系列簡單的任務會讓智能體觀察到罕見的外部獎勵,所以讓智能體具有安排意圖的能力至關重要。

基于收集到的所有的間接知識,智能體會建立一個個性化的學習課程。在如此大的領域中,通過這種方法來利用知識非常高效,在只有很少的外部獎勵信號的情況下尤其有用。

通過調度模塊,智能體會決定接下來的意圖。利用元學習算法,調度器會在訓練過程中得到改進,該算法試圖最大限度地提高主任務的進程,進而顯著提高數據效率。

在探索完許多內部輔助任務之后,智能體學會了如何堆疊和整理物品

評估表明,SAC-X 能夠從零開始完成我們設置的所有任務,這些任務都是在相同的輔助任務集下完成的。令人興奮的是,利用 SAC-X,我們實驗室的機器人手臂能夠成功地從零開始學習拾取和擺放。在過去這極具挑戰性,因為在現實世界中讓機器人學習需要高效的數據,所以流行的方法是預訓練模擬智能體,然后再將這種能力轉移到真正的機器人手臂中。

針對真實的機器人手臂, SAC-X 能學習如何舉起和移動綠色的立方體,在此之前它從來沒有接觸過這類任務

我們認為 SAC-X 是通向從零學習控制任務的重要一步,只需定義好整體目標。SAC-X 允許任意定義輔助任務,這些任務可以基于一般的看法(如有意激活傳感器),最終會涵蓋研究人員認為重要的任務。從這方面來說,SAC-X 是一種通用的強化學習方法,可以廣泛應用于控制和機器人領域之外的一般稀疏強化學習環境。

未來智能實驗室是人工智能學家與科學院相關機構聯合成立的人工智能,互聯網和腦科學交叉研究機構。

未來智能實驗室的主要工作包括:建立AI智能系統智商評測體系,開展世界人工智能智商評測;開展互聯網(城市)云腦研究計劃,構建互聯網(城市)云腦技術和企業圖譜,為提升企業,行業與城市的智能水平服務。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 算法
    +關注

    關注

    23

    文章

    4622

    瀏覽量

    93075
  • 人工智能
    +關注

    關注

    1792

    文章

    47445

    瀏覽量

    239053

原文標題:DeepMind提出強化學習新算法,教智能體從零學控制

文章出處:【微信號:AItists,微信公眾號:人工智能學家】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    什么是深度強化學習?深度強化學習算法應用分析

    什么是深度強化學習? 眾所周知,人類擅長解決各種挑戰性的問題,從低級的運動控制(如:步行、跑步、打網球)到高級的認知任務。
    發表于 07-01 10:29 ?1491次閱讀
    什么是深度<b class='flag-5'>強化學習</b>?深度<b class='flag-5'>強化學習</b><b class='flag-5'>算法</b>應用分析

    未來的AI 深挖谷歌 DeepMind 和它背后的技術

    的游戲可以提高戰略思維能力。通過學習如何玩這些復雜的游戲,機器將獲得思考和采取戰略行動的能力。DeepMind的通用學習算法讓機器可以通過游戲化學習
    發表于 08-26 12:04

    深度強化學習實戰

    測試)三、主講內容1:課程一、強化學習簡介課程二、強化學習基礎課程三、深度強化學習基礎課程四、多智能深度
    發表于 01-10 13:42

    將深度學習強化學習相結合的深度強化學習DRL

    深度強化學習DRL自提出以來, 已在理論和應用方面均取得了顯著的成果。尤其是谷歌DeepMind團隊基于深度強化學習DRL研發的AlphaGo,將深度
    發表于 06-29 18:36 ?2.8w次閱讀

    強化學習新方法,機器人究竟是怎么學習新動作的呢?

    強化學習方法機器人(模擬器里的智能),能學會的動作花樣繁多,細致到拿東西、豪放到奔跑都能搞定,還可以給機器人設置一個明確的目的。但是,總難免上演一些羞恥或驚喜play。
    的頭像 發表于 04-13 11:00 ?9797次閱讀

    人工智能機器學習強化學習

    強化學習智能系統環境到行為映射的學習,以使獎勵信號(強化信號)函數值最大,強化學習不同于連接
    發表于 05-30 06:53 ?1425次閱讀

    什么是強化學習?純強化學習有意義嗎?強化學習有什么的致命缺陷?

    強化學習是人工智能基本的子領域之一,在強化學習的框架中,智能通過與環境互動,來學習采取何種動作
    的頭像 發表于 07-15 10:56 ?1.8w次閱讀
    什么是<b class='flag-5'>強化學習</b>?純<b class='flag-5'>強化學習</b>有意義嗎?<b class='flag-5'>強化學習</b>有什么的致命缺陷?

    基于強化學習的MADDPG算法原理及實現

    之前接觸的強化學習算法都是單個智能強化學習算法,但是也有很多重要的應用場景牽涉到多個
    的頭像 發表于 11-02 16:18 ?2.2w次閱讀

    如何測試強化學習智能適應性

    強化學習(RL)能通過獎勵或懲罰使智能實現目標,并將它們學習到的經驗轉移到新環境中。
    的頭像 發表于 12-24 09:29 ?3252次閱讀

    谷歌、DeepMind重磅推出PlaNet 強化學習新突破

    Google AI 與 DeepMind 合作推出深度規劃網絡 (PlaNet),這是一個純粹基于模型的智能,能從圖像輸入中學習世界模型,完成多項規劃任務,數據效率平均提升50倍,
    的頭像 發表于 02-17 09:30 ?3354次閱讀
    谷歌、<b class='flag-5'>DeepMind</b>重磅推出PlaNet <b class='flag-5'>強化學習新</b>突破

    DeepMind發布強化學習庫RLax

    RLax(發音為“ relax”)是建立在JAX之上的庫,它公開了用于實施強化學習智能的有用構建塊。。報道:深度強化學習實驗室作者:DeepRL ...
    的頭像 發表于 12-10 18:43 ?745次閱讀

    基于深度強化學習的路口單交叉信號控制

    利用深度強化學習技術實現路口信號控制智能交通領域的硏究熱點。現有硏究大多利用強化學習來全面刻畫交通狀態以及設計有效強化學習
    發表于 04-23 15:30 ?21次下載
    基于深度<b class='flag-5'>強化學習</b>的路口單交叉信號<b class='flag-5'>控制</b>

    一種新型的多智能深度強化學習算法

    一種新型的多智能深度強化學習算法
    發表于 06-23 10:42 ?36次下載

    基于強化學習的目標檢測算法案例

    摘要:基于強化學習的目標檢測算法在檢測過程中通常采用預定義搜索行為,其產生的候選區域形狀和尺寸變化單一,導致目標檢測精確度較低。為此,在基于深度強化學習的視覺目標檢測算法基礎上,
    發表于 07-19 14:35 ?0次下載

    語言模型做先驗,統一強化學習智能DeepMind選擇走這條通用AI之路

    的發展,最早的 AlphaGo、AlphaZero 到后來的多模態、多任務、多具身 AI 智能 Gato,智能的訓練方法和能力都在不斷
    的頭像 發表于 07-24 16:55 ?543次閱讀
    語言模型做先驗,統一<b class='flag-5'>強化學習</b><b class='flag-5'>智能</b><b class='flag-5'>體</b>,<b class='flag-5'>DeepMind</b>選擇走這條通用AI之路
    主站蜘蛛池模板: 欧洲亚洲精品A片久久99果冻| 国产成人综合网在线观看| 91av影院| 国产国语在线播放视频| 久久国产精品永久免费网站| 日日日夜夜在线视频| 2019欧洲hd| 果冻传媒2021精品影视| 日本免费一区二区三区最新vr| 亚洲男人的天堂久久精品麻豆| silk118中文字幕无删减| 花蝴蝶在线观看免费中文版高清| 日本湿姝在线观看| 87.6在线收听| 精品手机在线视频| 无码爽死成人777在线观看网站 | 午夜福利体验免费体验区| AV多人爱爱XXx| 久久综合视频网站| 亚洲人成无码久久久AAA片| 国产69TV精品久久久久99| 蜜桃成熟时2在线观看完整版hd| 亚洲精品国产精品麻豆99| 国产极品美女视频福利| 全彩acg无翼乌火影忍者| 9420高清免费观看在线大全| 久久精品美女| 夜夜穞狠狠穞| 精品亚洲AV无码蜜芽麻豆| 香蕉59tv视频| 国产精品午夜福利在线观看| 色欲国产麻豆精品AV免费| 波多野结衣的AV一区二区三区| 欧美九十老太另类| brazzers情欲狂欢| 泡妞高手在都市免费观看| av免费网站不卡观看| 欧美性喷潮xxxx| 成人短片迅雷下载| 日本高清二区| 高h gl肉文|