色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

我們的「世界模型」可實現(xiàn)在其夢境中對智能體進行快速訓練

mK5P_AItists ? 2018-04-02 09:58 ? 次閱讀

我們探索構(gòu)建通用強化學習環(huán)境中的生成式神經(jīng)網(wǎng)絡模型。我們的世界模型(world model)可以以一種無監(jiān)督的方式進行快速訓練,以學習環(huán)境的壓縮時空表征。通過使用從世界模型中提取的特征作為智能體的輸入,我們可以對一個非常簡潔且簡單的策略進行訓練,以解決所需的任務。我們甚至可以在一個完全由智能體本身的世界模型所生成的夢幻夢境中對智能體進行訓練,并將此策略遷移回實際環(huán)境中。

人類根據(jù)他們使用有限的感官對世界的感知,開發(fā)出一個有關世界的心智模型。而我們所做的決策和行動都是基于這種內(nèi)部模型的。系統(tǒng)動力學之父——Jay Wright Forrester將心智模型定義為:

我們腦海中所承載的有關周圍世界的圖像,只是一個模型。世界上沒有一個人能夠在其腦海中對全部的世界、政府或國家進行透徹的想象。他只是選擇了概念,以及它們之間的關系,并用它們來表示真實的系統(tǒng)。(Forrester于1971年提出)

為了處理流經(jīng)我們?nèi)粘I钪械拇罅?a target="_blank">信息,我們的大腦學習對這些信息進行時空方面的抽象表征。我們能夠觀察一個場景,并記住有關它的一個抽象描述(Cheang和Tsao于2017年、Quiroga等人于2005年提出)。還有證據(jù)表明,我們在任何特定時刻所感知的事物,都是由我們的大腦基于內(nèi)部模型對未來做出的預測所掌控的(Nortmann等人于2015年、Gerrit等人于2013年提出)。

理解我們大腦中的預測模型的一種方法是,它可能不是僅僅預測未來的一般情況,而是根據(jù)當前的運動動作預測未來的感官數(shù)據(jù)(Keller等人于2012年、Leinweber等人于2017年提出)。當我們面臨危險時,我們能夠本能地依據(jù)這個預測模型采取相應的行動,并執(zhí)行快速的反射行為(Mobbs等人于2015年提出),而無需有意識地規(guī)劃出行動計劃。

我們所看到的事物是基于我們大腦對未來進行的預測(Kitaoka于2002年、Watanabe等人于2018年提出)

以棒球為例。一個擊球手只有幾毫秒的時間來決定該如何揮棒擊球,讓這要比視覺信號到達我們的大腦所需的時間短得多。他們之所以能夠打出每小時115英里的快速球,是因為我們有能力本能地預測出球?qū)⒑螘r何地走向何方。對于職業(yè)球員來說,這一切都是在潛意識中發(fā)生的。他們的肌肉在適當?shù)臅r間和地點按照他們的內(nèi)部模型的預測反射性地揮棒擊球(Gerrit 等人于2013年提出)。他們可以迅速根據(jù)自身對未來的預測采取行動,而無需有意識地將可能的未來場景鋪展開以進行規(guī)劃(Hirshon于2013年提出)。

在許多強化學習(RL)(Kaelbling等人于1996年、Sutton和Barto于1998年、Wiering和van Otterlo于2012年提出)問題中,人工智能體也受益于具有良好的對過去和現(xiàn)在狀態(tài)的表征,以及良好的對未來的預測模型(Werbos等人于1987年、Silver于2017年提出),最好是在通用計算機上實現(xiàn)的強大的預測模型,如循環(huán)神經(jīng)網(wǎng)絡(RNN)(Schmidhuber于1990、 1991年提出)。

大型RNN是具有高度表達性的模型,可以學習數(shù)據(jù)的豐富的時空表征。然而,在以往的研究中,許多無模型強化學習方法通常只使用參數(shù)很少的小型神經(jīng)網(wǎng)絡。強化學習算法常常具有信用分配問題(credit assignment problem)的局限性,這使得傳統(tǒng)的強化學習算法難以學習大型模型的數(shù)百萬個權重,因此,在實踐中往往使用較小的網(wǎng)絡,因為它們在訓練期間能夠更快地迭代形成一個良好的策略。

在這項研究中,我們構(gòu)建了OpenAI Gym環(huán)境的概率生成模型。使用從實際游戲環(huán)境中收集的記錄觀測值對基于RNN的世界模型進行訓練。對世界模型進行訓練之后,我們可以使用它們來模擬完整的環(huán)境并訓練對智能體進行訓練

理想情況下,我們希望能夠有效地對基于RNN的大型智能體進行訓練。反向傳播算法(Linnainmaa于1970年、Kelley于1960年、Werbos于1982年提出)可以用來對大型神經(jīng)網(wǎng)絡進行有效的訓練。在這項研究中,我們通過將智能體分為一個大的世界模型和一個小的控制器模型,從而對大型神經(jīng)網(wǎng)絡進行訓練以解決強化學習任務。首先,我們對大型神經(jīng)網(wǎng)絡進行訓練,以無監(jiān)督的方式學習智能體的世界模型,然后訓練較小的控制器模型,學習使用這個世界模型執(zhí)行任務。一個小型控制器讓訓練算法專注于小型搜索空間上的信用分配問題,同時不會以大的世界模型的容量和表現(xiàn)力為代價。通過智能體世界模型的視角對智能體進行訓練,我們表明,它可以學習一個高度緊湊的策略以執(zhí)行其任務。

雖然有大量關于基于模型的強化學習的研究,但本文并不是對該領域當前狀態(tài)的評述(Arulkumaran等人于2017年、Schmidhuber于2015年提出)。相反,本文的目標是從1990—2015年關于基于RNN的世界模型和控制器組合的一系列論文中提煉若干個關鍵概念(Schmidhuber于1990年、1991年、1990年、2015年提出)。

我們證明了在模擬潛在空間夢境中訓練智能體執(zhí)行任務的可能性。這一方法擁有許多切實優(yōu)點。例如,在運行計算密集型游戲引擎時,需要使用大量的計算資源來將游戲狀態(tài)渲染到圖像幀中,或計算與游戲不直接相關的物理量。相信我們都不情愿在現(xiàn)實環(huán)境中浪費訓練智能體的周期,而是更樂意在模擬環(huán)境中盡可能多地訓練智能體。此外,在現(xiàn)實世界中訓練智能體的代價甚至更大,因此,漸進式地進行訓練以模擬現(xiàn)實的世界模型可以更容易地嘗試使用不同方法來訓練我們的智能體。

此外,我們可以利用深度學習框架,在分布式環(huán)境中使用GPU,從而加速世界模型的模擬。將世界模型作為一個完全可微的循環(huán)計算圖的好處在于,我們可以直接在夢境中使用反向傳播算法對其策略進行微調(diào),從而實現(xiàn)目標函數(shù)最大化(Schmidhuber于上世紀90年代提出)。

對視覺模型V使用VAE并將其作為獨立模型進行訓練也存在局限性,因為它可能會對與任務無關的部分觀測進行編碼。畢竟,根據(jù)定義來看,無監(jiān)督學習不知道哪些是對當前任務有用的。例如,在Doom環(huán)境中,它在側(cè)墻上復制了不重要的詳細磚瓦圖案,但在賽車環(huán)境中,它沒有在道路上復制與任務相關的磚瓦圖案。通過與預測獎勵的M模型一起訓練,VAE可以學習專注于圖像中與任務相關的領域,但這里需要權衡的一點是,如果不進行重復訓練,那么我們或許就不能有效地利用VAE再次執(zhí)行新任務。

學習任務的相關特性也與神經(jīng)科學有所關聯(lián)。當受到獎勵時,基本感覺神經(jīng)元便會從抑制中釋放出來,這意味著它們通常僅學習與任務相關的特征,而非任何特征,至少自在成年期是這樣的(Pi等人于2013年提出)。

今后的工作可能會探討如何使用無監(jiān)督分割層(Byravan等人于2017年提出)來提取更好的特征表征,這與所學習的VAE表征相比具有更好的實用性和可解釋性。

另一個令人關切的問題是,我們世界模型的容量有限。盡管現(xiàn)代存儲設備可以存儲使用迭代訓練過程生成的大量歷史數(shù)據(jù),但我們基于長短期記憶網(wǎng)絡(LSTM)(Hochreiter和Schmidhuber于1997年提出;Gers等人于2000年提出)的世界模型可能無法在其權重連接中存儲所有記錄的信息。雖然人類的大腦可以保存幾十年甚至幾個世紀的記憶(Bartol等人于2015年提出),但我們通過反向傳播訓練的神經(jīng)網(wǎng)絡容量有限,并受災難性遺忘等問題的影響(Ratcliver 于1990年,F(xiàn)rench于1994年,Kirkpatrick等人于2016年提出)。如果我們希望智能體學會探索更復雜的世界,那么今后可以探索用更高容量的模型取代小型MDNRNN網(wǎng)絡(Shazeer等人于2017年,Ha等人于2016年,Suarez等人于2017年,van den Oord等人于2016年,Vaswani等人于2017年提出),或加入外部記憶模塊(Gemici等人于2017年提出)。

基于RNN的控制器與環(huán)境交互的古代繪圖(Schmidhuber于1990年提出)

就像早期基于RNN的C-M系統(tǒng)一樣(Schmidhuber等人于上世紀90年代提出),我們模擬了可能的未來時間步長,而沒有從人類的層次化規(guī)劃或抽象推理中獲益,這往往忽略了不相關的時空細節(jié)。然而,更常見的“學會思考”(Schidhuber于2015年提出)方法并不局限于這種相當幼稚的方法。相反,它允許循環(huán)C學習循環(huán)M的子例程,并重用它們以任意的計算方式解決問題,例如,通過層次化規(guī)劃或利用類似M的程序權重矩陣的其他部分。近期,One Big Net(Schmidhuber,2018年)擴展了C-M方法,它將C和M合并成一個網(wǎng)絡,并使用類似Power Play的行為回放(Schmidhuber于2013,Srivastava等人于2012年提出)(其中教師網(wǎng)絡(teacher net)的行為被壓縮成學生網(wǎng)絡(student net)(Schmidhuber于1992年提出)),以避免在學習新網(wǎng)絡時忘記舊的預測和控制技能。這些具有更通用方法的實驗在未來有待進一步研究。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 算法
    +關注

    關注

    23

    文章

    4629

    瀏覽量

    93198
  • 計算機
    +關注

    關注

    19

    文章

    7534

    瀏覽量

    88467
  • 強化學習
    +關注

    關注

    4

    文章

    268

    瀏覽量

    11283
收藏 人收藏

    評論

    相關推薦

    【大語言模型:原理與工程實踐】大語言模型的預訓練

    訓練數(shù)據(jù)時,數(shù)量、質(zhì)量和多樣性三者缺一不可。 數(shù)據(jù)的多樣性對于大語言模型至關重要,這主要體現(xiàn)在數(shù)據(jù)的類別和來源兩個方面。豐富的數(shù)據(jù)類別能夠提供多樣的語言表達特征,如官方知識型數(shù)據(jù)、口語化表達的論壇
    發(fā)表于 05-07 17:10

    【「大模型啟示錄」閱讀體驗】+開啟智能時代的新鑰匙

    閱讀之旅。在翻開這本書之前,我對大模型的認知僅僅停留在它是一種強大的人工智能技術,可以進行自然語言處理、圖像識別等任務。我知道像 ChatGPT 這樣的應用是基于大模型開發(fā)的,能夠與人
    發(fā)表于 12-24 13:10

    《具身智能機器人系統(tǒng)》第7-9章閱讀心得之具身智能機器人與大模型

    的應用。MAML算法通過二階優(yōu)化找到對任務變化敏感的模型參數(shù),實現(xiàn)快速適應。上下文學習則引入了注意力機制,使模型能夠根據(jù)當前場景動態(tài)調(diào)整行為策略。在預
    發(fā)表于 12-24 15:03

    Pytorch模型訓練實用PDF教程【中文】

    本教程以實際應用、工程開發(fā)為目的,著重介紹模型訓練過程中遇到的實際問題和方法。在機器學習模型開發(fā),主要涉及三大部分,分別是數(shù)據(jù)、模型和損失
    發(fā)表于 12-21 09:18

    基于Keras利用訓練好的hdf5模型進行目標檢測實現(xiàn)輸出模型的表情或性別gradcam

    CV:基于Keras利用訓練好的hdf5模型進行目標檢測實現(xiàn)輸出模型的臉部表情或性別的grad
    發(fā)表于 12-27 16:48

    模型是數(shù)字世界與物理世界連接的橋梁

    、開環(huán)、有跳舞輥、伺服電機調(diào)節(jié)等)的模型及其參數(shù)驗證,然后封裝為復用的共性組件,在應用開發(fā),直接配置其模式、參數(shù)等,加速機器的配置,響應快速的市場變化需求。圖4-建模仿帶來的好處因
    發(fā)表于 05-01 08:44

    基于HarmonyOS開發(fā)的運動員智能訓練系統(tǒng)

    ,展示在手機界面智能運動APP 使用了HUAWEI DevEco Studio 開發(fā)的,選擇了JS語言進行編寫,通過fetch方法請求華為云服務器中使用Spring Boot編寫的數(shù)據(jù)接口,
    發(fā)表于 06-29 09:39

    智能維修訓練系統(tǒng)模型的設計與實現(xiàn)

             介紹了基于事例的智能維修訓練系統(tǒng)中學生模型的結(jié)構(gòu)組成和實現(xiàn)方法。該
    發(fā)表于 09-15 10:11 ?14次下載

    如何使用NVIDIA TAO快速準確地訓練AI模型

    利用 NVIDIA TLT 快速準確地訓練人工智能模型的探索表明,人工智能在工業(yè)過程具有巨大的
    的頭像 發(fā)表于 04-20 17:45 ?2871次閱讀
    如何使用NVIDIA TAO<b class='flag-5'>快速</b>準確地<b class='flag-5'>訓練</b>AI<b class='flag-5'>模型</b>

    什么是預訓練 AI 模型

    訓練 AI 模型是為了完成特定任務而在大型數(shù)據(jù)集上訓練的深度學習模型。這些模型既可以直接使用,也可以根據(jù)不同行業(yè)的應用需求
    的頭像 發(fā)表于 04-04 01:45 ?1515次閱讀

    NLP的遷移學習:利用預訓練模型進行文本分類

    遷移學習徹底改變了自然語言處理(NLP)領域,允許從業(yè)者利用預先訓練模型來完成自己的任務,從而大大減少了訓練時間和計算資源。在本文中,我們將討論遷移學習的概念,探索一些流行的預
    發(fā)表于 06-14 09:30 ?467次閱讀

    使用OpenVINO優(yōu)化并部署訓練好的YOLOv7模型

    在《英特爾銳炫 顯卡+ oneAPI 和 OpenVINO 實現(xiàn)英特爾 視頻 AI 計算盒訓推一-上篇》一文我們詳細介紹基于英特爾 獨立顯卡搭建 YOLOv7
    的頭像 發(fā)表于 08-25 11:08 ?1578次閱讀
    使用OpenVINO優(yōu)化并部署<b class='flag-5'>訓練</b>好的YOLOv7<b class='flag-5'>模型</b>

    python訓練出的模型怎么調(diào)用

    在Python訓練出的模型可以通過多種方式進行調(diào)用。 1. 模型保存與加載 在Python
    的頭像 發(fā)表于 07-11 10:15 ?2219次閱讀

    什么是大模型、大模型是怎么訓練出來的及大模型作用

    ,基礎模型。 ? 大模型是一個簡稱,完整的叫法,應該是“人工智能訓練模型”。預訓練,是一項技
    的頭像 發(fā)表于 11-25 09:29 ?2336次閱讀
    什么是大<b class='flag-5'>模型</b>、大<b class='flag-5'>模型</b>是怎么<b class='flag-5'>訓練</b>出來的及大<b class='flag-5'>模型</b>作用

    英偉達推出基石世界模型Cosmos,解決智駕與機器人具身智能訓練數(shù)據(jù)問題

    。Cosmos 世界基礎模型(WFM)使開發(fā)者能夠輕松生成大量基于物理學的逼真合成數(shù)據(jù),以用于訓練和評估其現(xiàn)有的模型。開發(fā)者還可以通過微調(diào) Cosmos WFM 構(gòu)建自定義
    的頭像 發(fā)表于 01-14 11:04 ?234次閱讀
    英偉達推出基石<b class='flag-5'>世界</b><b class='flag-5'>模型</b>Cosmos,解決智駕與機器人具身<b class='flag-5'>智能</b><b class='flag-5'>訓練</b>數(shù)據(jù)問題
    主站蜘蛛池模板: 亚洲黄色三级视频 | 国产高清视频青青青在线 | 御姐被吸奶 | 一二三四在线高清中文版免费观看电影 | java农村野外妇女hd | 熟妇久久无码人妻AV蜜桃 | 老司机深夜福利ae 入口网站 | 国产精品亚洲第一区二区三区 | 久久99国产精品二区不卡 | 午夜电影三级还珠格格 | 一区二区三区无码被窝影院 | 国产成人免费高清激情视频 | 亚洲精品永久免费 | 91青青草原 | 草莓视频免费在线观看 | 污污内射在线观看一区二区少妇 | 国产精品免费视频能看 | 亚洲高清无码在线 视频 | 被黑人掹躁10次高潮 | 野草视频在线观看 | 给个男人都懂的网址2019 | 入禽太深免费观看 | 国产亚洲精品久久久久久一区二区 | 国产精品无码AV天天爽色欲 | 国产成人综合95精品视频免费 | 野花韩国在线观看 | 性色AV一区二区三区V视界影院 | 国产精品亚洲国产三区 | 日韩欧美群交P内射捆绑 | 在线视频 日韩视频二区 | 伊人狠狠丁香婷婷综合尤物 | 精品无码国产污污污免费网站2 | 日韩人妻无码精品久久中文字幕 | 男女后进式猛烈xx00动态图片 | 蜜芽tv在线www | 亚洲黄色在线播放 | 沟沟人体一区二区 | 亚洲精品自在在线观看 | 亚洲免费综合色视频 | 超碰公开在线caopon | 男同志video最新猛男 |