色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

最新加速深度強化學習:谷歌創造

nlfO_thejiangme ? 來源:聶磊 ? 作者:電子發燒友 ? 2019-03-29 08:57 ? 次閱讀

深度強化學習技術可以通過視覺輸入來為復雜任務學習有效策略,這種方法在最近的研究中已經被成功應用經典的雅達利2600系列游戲。最新的研究表明,即使在像Montezuma’s Revenge這樣復雜的游戲中基于深度強化學習依然可以達到超越人類的表現。然而深度強化學習最大的限制在于要達到高水平的效果,需要與環境進行非常多次的交互,遠遠超過了人類學習游戲時與環境交互的次數。這也許是由于人類在游戲時可以有效預測其行為可以長生的結果,有效提升了學習的效率。可以通過行為序列和對應的結果來進行游戲建模。通過為游戲建模并學習選擇行為的策略,是基于模型強化學習(model-based reinforcement learning (MBRL))的主要假設。在先前研究的基礎上,谷歌研究人員在新論文中提出了模擬策略學習算法(Simulated Policy Learning (SimPLe) algorithm),這是一套大幅度提高雅達利游戲主體訓練效率的MBRL框架,在僅僅100k次的交互訓練后就可以達到較好的效果。100k次交互大概等效于人類兩個小時的游戲時間。這一算法通過觀測、建模、模擬學習的方式很好的處理了深度強化學習過程中的效率問題。

學習SimPle環境模型

從宏觀上來看,SimPle主要分為兩個交替進行的學習過程,一個是學習游戲行為并建立環境模型的過程,另一個是在模擬游戲環境中利用這一模型優化策略的過程。學習的流程如下圖所示循環進行。

SimPle的主要流程,主體與環境交互并收集數據更新環境模型,隨后基于環境模型更新策略。

為了訓練一個有效的雅達利游戲模型,后向需要在像素空間生成對未來的預測,換句話說我們需要根據先前的觀察和動作行為預測游戲的下一幀。選擇像素空間來預測的主要原因在于圖像觀測中包含了豐富且稠密的監督信號。一旦完成未來幀預測模型的訓練,算法就可以利用這一信息為游戲主體生成軌跡來訓練好的策略,例如可以基于最大化長期回報來選擇行為。這意味著我們可以替代耗時和 消耗資源的真實游戲序列來訓練策略,直接使用基于環境模型生成的圖像序列來進行策略訓練。

幀預測模型的架構圖

基于前饋卷積網絡研究人員利用4幀輸入預測出下一幀的輸出以及對應的反饋。輸入的像素和動作通過全連接層編碼,輸出則由逐像素的256色softmax構成。模型有兩個主要的部分,下半部分是基于編碼器的卷積,解碼器的每一層與輸入動作都進行了連接。另一部分是推理網絡,在訓練的時候從近似后驗中約化采樣的隱空間編碼被離散成比特,為了保持模型可差分bp繞過了離散部分。在推理時利用網絡自回歸預測隱空間比特。

kufu在功夫大師游戲中,系統錯誤預測了對手的數量。其中左側是預測輸出、中間是基準右邊是逐像素的差別。

這一模型雖然表現良好,但在某些特殊情況下依然會輸出錯誤的結果。例如在Pong游戲中,但球落到幀以外的時候系統就不能有效預測后續幀的結果。在先前工作的啟發下,研究人員利用新的視頻模型架構來解決這類隨機問題。在模型訓練后的每一個迭代中,研究人員利用Monique生成一系列包含動作、觀測和結果的序列,并利用PPO來改進策略。其關鍵在于每一個生成序列都是從真實數據集開始的。考慮到長程序列的時間復雜度和誤差,SimPLe僅僅使用中程序列來進行改進。但PPO算法可以從內部價值函數中學習到行為和結果間的長程作用,使得有限長度的序列在較為稀疏獎勵的游戲中也是足夠的。

高效的SimPLe

為了評測算法的效率,研究人員測評了主體在100k次環境交互后的輸出。研究人員在26個不同游戲中比較了Rainbow和PPO兩種流行的強化學習方法,在大多數情況下SimPLe算法都比其他算法塊兩倍以上。

20中不同游戲的測評,左側是Rainbow算法,右邊是PPO算法,展示了達到SimPLe100k訓練分數所需的交互次數。其中紅線是SimPLe的結果。

效果

SimPLe算法在Pong和Freeway中表現最精彩,在模擬環境中訓練的主體可以達到最高分。同時在Pong,Freeway和Breakout中幾乎可以無誤差預測未來50步的像素幀。

兩種游戲中完美的像素預測結果,最又側是預測的誤差圖,可以看到幾乎與真實情況相同。

但這一算法也在某些情況下無法正確預測,它難以捕捉畫面中很多微小但十分重要的物體,例如游戲中的子彈。同時也無法使用迅速變化的游戲畫面,比如gameover時候的閃爍畫面。

但總的來說,新方法有助于學習模擬器更好的理解周遭的環境并提供了更新更好更快的訓練方法來適應多任務強化學習。雖然目前與最優秀的無模型方法還有差距,但SimPLe具有很大的效率潛力,研究人員將在未來不斷深入改進。

如果你想詳細了解其中的算法流程,可以參看下面的鏈接:

Paper:https://arxiv.org/pdf/1903.00374.pdf

這一部分代碼已經集成到了tensor2tensor的強化學習代碼中:

Code:https://github.com/tensorflow/tensor2tensor/blob/master/tensor2tensor/rl/README.md

研究人員還準備了代碼和Colab幫助好學的你復現實驗:

Colab:https://colab.research.google.com/github/tensorflow/tensor2tensor/blob/master/tensor2tensor/notebooks/hello_t2t-rl.ipynb

ref:https://arxiv.org/abs/1509.06113http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.329.6065&rep=rep1&type=pdf

logo pic from:https://dribbble.com/shots/4166879-Controllers

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 谷歌
    +關注

    關注

    27

    文章

    6172

    瀏覽量

    105631

原文標題:谷歌新方法加速深度強化學習的訓練過程

文章出處:【微信號:thejiangmen,微信公眾號:將門創投】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    什么是深度強化學習?深度強化學習算法應用分析

    什么是深度強化學習? 眾所周知,人類擅長解決各種挑戰性的問題,從低級的運動控制(如:步行、跑步、打網球)到高級的認知任務。
    發表于 07-01 10:29 ?1489次閱讀
    什么是<b class='flag-5'>深度</b><b class='flag-5'>強化學習</b>?<b class='flag-5'>深度</b><b class='flag-5'>強化學習</b>算法應用分析

    反向強化學習的思路

    強化學習的另一種策略(二)
    發表于 04-03 12:10

    深度強化學習實戰

    一:深度學習DeepLearning實戰時間地點:1 月 15日— 1 月18 日二:深度強化學習核心技術實戰時間地點: 1 月 27 日— 1 月30 日(第一天報到 授課三天;提前
    發表于 01-10 13:42

    深度學習強化學習相結合的深度強化學習DRL

    深度強化學習DRL自提出以來, 已在理論和應用方面均取得了顯著的成果。尤其是谷歌DeepMind團隊基于深度強化學習DRL研發的AlphaG
    發表于 06-29 18:36 ?2.8w次閱讀

    薩頓科普了強化學習深度強化學習,并談到了這項技術的潛力和發展方向

    薩頓在專訪中(再次)科普了強化學習深度強化學習,并談到了這項技術的潛力,以及接下來的發展方向:預測學習
    的頭像 發表于 12-27 09:07 ?1.1w次閱讀

    如何深度強化學習 人工智能和深度學習的進階

    傳統上,強化學習在人工智能領域占據著一個合適的地位。但強化學習在過去幾年已開始在很多人工智能計劃中發揮更大的作用。
    的頭像 發表于 03-03 14:16 ?4226次閱讀

    深度強化學習是否已經到達盡頭?

    近日,Reddit一位網友根據近期OpenAI Five、AlphaStar的表現,提出“深度強化學習是否已經到達盡頭”的問題。
    的頭像 發表于 05-10 16:34 ?2541次閱讀

    深度強化學習的筆記資料免費下載

    本文檔的主要內容詳細介紹的是深度強化學習的筆記資料免費下載。
    發表于 03-10 08:00 ?0次下載
    <b class='flag-5'>深度</b><b class='flag-5'>強化學習</b>的筆記資料免費下載

    深度強化學習到底是什么?它的工作原理是怎么樣的

    深度學習DL是機器學習中一種基于對數據進行表征學習的方法。深度學習DL有監督和非監督之分,都已經
    的頭像 發表于 06-13 11:39 ?6090次閱讀

    DeepMind發布強化學習庫RLax

    RLax(發音為“ relax”)是建立在JAX之上的庫,它公開了用于實施強化學習智能體的有用構建塊。。報道:深度強化學習實驗室作者:DeepRL ...
    的頭像 發表于 12-10 18:43 ?745次閱讀

    模型化深度強化學習應用研究綜述

    深度強化學習(DRL)作為機器學習的重要分攴,在 Alphago擊敗人類后受到了廣泛關注。DRL以種試錯機制與環境進行交互,并通過最大化累積獎賞最終得到最優策略。強化學習可分為無模型
    發表于 04-12 11:01 ?9次下載
    模型化<b class='flag-5'>深度</b><b class='flag-5'>強化學習</b>應用研究綜述

    基于深度強化學習仿真集成的壓邊力控制模型

    壓邊為改善板料拉深制造的成品質量,釆用深度強化學習的方法進行拉深過程旳壓邊力優化控制。提岀一種基于深度強化學習與有限元仿真集成的壓邊力控制模型,結合
    發表于 05-27 10:32 ?0次下載

    基于深度強化學習的無人機控制律設計方法

    基于深度強化學習的無人機控制律設計方法
    發表于 06-23 14:59 ?46次下載

    《自動化學報》—多Agent深度強化學習綜述

    多Agent 深度強化學習綜述 來源:《自動化學報》,作者梁星星等 摘 要?近年來,深度強化學習(Deep reinforcement le
    發表于 01-18 10:08 ?1638次閱讀
    《自動<b class='flag-5'>化學</b>報》—多Agent<b class='flag-5'>深度</b><b class='flag-5'>強化學習</b>綜述

    ESP32上的深度強化學習

    電子發燒友網站提供《ESP32上的深度強化學習.zip》資料免費下載
    發表于 12-27 10:31 ?0次下載
    ESP32上的<b class='flag-5'>深度</b><b class='flag-5'>強化學習</b>
    主站蜘蛛池模板: asian极品呦女xx农村| 美女张开腿让男人桶爽无弹窗| 午夜性色一区二区三区不卡视频| 交video| 97视频在线观看免费播放| 午夜一区欧美二区高清三区| 门鱼电影完整版免费版| 国产呦精品一区二区三区下载 | 亚洲高清有码中文字| 琪琪电影午夜理论片77网| 久久激情影院| 国产午夜一级鲁丝片| 单亲妈妈3韩国电影免费观看| 69人体阴展网| 在线观看国产区| 亚洲精品美女久久久久99| 天天爽夜夜爽| 日本美女抠逼| 欧美人xxxxx| 男人插曲女人身体视频| 久久久久亚洲日日精品| 黄色三级三级免费看| 国产免费毛片在线观看| 国产AV精品无码免费看| xx69美国| xxx88中国| 99热这里只有精品| 91九色网址| 2022久久精品国产色蜜蜜麻豆 | 国产精品视频人人做人人爽| 大睾丸内射老师| 阿娇和冠希13分钟在线观看| 99福利影院| 99久久精品久久久| 99爱在线精品视频免费观看9| 2021精品乱码多人收藏| 中国人泡妞www免费| 影888午夜理论不卡| 在线免费观看国产精品| 在线中文字幕亚洲日韩| 中文字幕乱码亚洲无线三区|