色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

PWIL:不依賴對(duì)抗性的新型模擬學(xué)習(xí)

Tensorflowers ? 來(lái)源:TensorFlow ? 作者:TensorFlow ? 2020-10-13 10:01 ? 次閱讀

強(qiáng)化學(xué)習(xí) (Reinforcement Learning,RL) 是一種通過(guò)反復(fù)試驗(yàn)訓(xùn)練智能體 (Agent) 在復(fù)雜環(huán)境中有序決策的范式,在游戲、機(jī)器人操作和芯片設(shè)計(jì)等眾多領(lǐng)域都取得了巨大成功。智能體的目標(biāo)通常是最大化在環(huán)境中收集的總獎(jiǎng)勵(lì) (Reward),這可以基于速度、好奇心、美學(xué)等各種參數(shù)。然而,由于 RL 獎(jiǎng)勵(lì)函數(shù)難以指定或過(guò)于稀疏,想要設(shè)計(jì)具體的 RL 獎(jiǎng)勵(lì)函數(shù)并非易事。

游戲
https://ai.googleblog.com/2019/06/introducing-google-research-football.html

這種情況下,模仿學(xué)習(xí)(Imitation Learning,IL) 方法便派上了用場(chǎng),因?yàn)檫@種方法通過(guò)專家演示而不是精心設(shè)計(jì)的獎(jiǎng)勵(lì)函數(shù)來(lái)學(xué)習(xí)如何完成任務(wù)。然而,最前沿 (SOTA) 的 IL 方法均依賴于對(duì)抗訓(xùn)練,這種訓(xùn)練使用最小化/最大化優(yōu)化過(guò)程,但在算法上不穩(wěn)定并且難以部署。

在“原始 Wasserstein 模仿學(xué)習(xí)”(Primal Wasserstein Imitation Learning,PWIL) 中,我們基于 Wasserstein 距離(也稱為推土機(jī)距離)的原始形式引入了一種新的 IL 方法,這種方法不依賴對(duì)抗訓(xùn)練。借助 MuJoCo 任務(wù)套件,我們通過(guò)有限數(shù)量的演示(甚至是單個(gè)示例)以及與環(huán)境的有限交互來(lái)模仿模擬專家,以此證明 PWIL 方法的有效性。

原始 Wasserstein 模仿學(xué)習(xí)
https://arxiv.org/pdf/2006.04678.pdf

MuJoCo 任務(wù)套件
https://gym.openai.com/envs/#mujoco

左圖:使用任務(wù)的真實(shí)獎(jiǎng)勵(lì)(與速度有關(guān))訓(xùn)練的算法類人機(jī)器人“專家”;右圖:使用 PWIL 基于專家演示訓(xùn)練的智能體

對(duì)抗模仿學(xué)習(xí)

最前沿的對(duì)抗 IL 方法的運(yùn)作方式與生成對(duì)抗網(wǎng)絡(luò) (GAN) 類似:訓(xùn)練生成器(策略)以最大化判別器(獎(jiǎng)勵(lì))的混淆度,以便判別器本身被訓(xùn)練來(lái)區(qū)分智能體的狀態(tài)-動(dòng)作對(duì)和專家的狀態(tài)-動(dòng)作對(duì)。對(duì)抗 IL 方法可以歸結(jié)為分布匹配問(wèn)題,即最小化度量空間中概率分布之間距離的問(wèn)題。不過(guò),就像 GAN 一樣,對(duì)抗 IL 方法也依賴于最小化/最大化優(yōu)化問(wèn)題,因此在訓(xùn)練穩(wěn)定性方面面臨諸多挑戰(zhàn)。

訓(xùn)練穩(wěn)定性方面面臨諸多挑戰(zhàn)
https://developers.google.com/machine-learning/gan/problems

模仿學(xué)習(xí)歸結(jié)為分步匹配

PWIL 方法的原理是將 IL 表示為分布匹配問(wèn)題(在本例中為 Wasserstein 距離)。第一步為從演示中推斷出專家的狀態(tài)-動(dòng)作分布:即專家采取的動(dòng)作與相應(yīng)環(huán)境狀態(tài)之間的關(guān)系的集合。接下來(lái)的目標(biāo)是通過(guò)與環(huán)境的交互來(lái)最大程度地減少智能體的狀態(tài)-動(dòng)作分布與專家的狀態(tài)-動(dòng)作分布之間的距離。相比之下,PWIL 是一種非對(duì)抗方法,因此可繞過(guò)最小化/最大化優(yōu)化問(wèn)題,直接最小化智能體的狀態(tài)-動(dòng)作對(duì)分布與專家的狀態(tài)-動(dòng)作對(duì)分布之間的 Wasserstein 距離。

PWIL 方法

計(jì)算精確的 Wasserstein 距離會(huì)受到限制(智能體軌跡結(jié)束時(shí)才能計(jì)算出),這意味著只有在智能體與環(huán)境交互完成后才能計(jì)算獎(jiǎng)勵(lì)。為了規(guī)避這種限制,我們?yōu)榫嚯x設(shè)置了上限,可以據(jù)此定義使用 RL 優(yōu)化的獎(jiǎng)勵(lì)。

結(jié)果表明,通過(guò)這種方式,我們確實(shí)可以還原專家的行為,并在 MuJoCo 模擬器的許多運(yùn)動(dòng)任務(wù)中最小化智能體與專家之間的 Wasserstein 距離。對(duì)抗 IL 方法使用來(lái)自神經(jīng)網(wǎng)絡(luò)的獎(jiǎng)勵(lì)函數(shù),因此,當(dāng)智能體與環(huán)境交互時(shí),必須不斷對(duì)函數(shù)進(jìn)行優(yōu)化和重新估計(jì),而 PWIL 根據(jù)專家演示離線定義一個(gè)不變的獎(jiǎng)勵(lì)函數(shù),并且它所需的超參數(shù)量遠(yuǎn)遠(yuǎn)低于基于對(duì)抗的 IL 方法。

PWIL 在類人機(jī)器人上的訓(xùn)練曲線:綠色表示與專家狀態(tài)-動(dòng)作分布的 Wasserstein 距離;藍(lán)色表示智能體的回報(bào)(所收集獎(jiǎng)勵(lì)的總和)

類人機(jī)器人
https://gym.openai.com/envs/Humanoid-v2/

衡量真實(shí)模仿學(xué)習(xí)環(huán)境的相似度

與 ML 領(lǐng)域的眾多挑戰(zhàn)類似,許多 IL 方法都在合成任務(wù)上進(jìn)行評(píng)估,其中通常有一種方法可以使用任務(wù)的底層獎(jiǎng)勵(lì)函數(shù),并且可以根據(jù)性能(即預(yù)期的獎(jiǎng)勵(lì)總和)來(lái)衡量專家行為與智能體行為之間的相似度。

PWIL 過(guò)程中會(huì)創(chuàng)建一個(gè)指標(biāo),該指標(biāo)可以針對(duì)任何 IL 方法。這種方法能將專家行為與智能體行為進(jìn)行比較,而無(wú)需獲得真正的任務(wù)獎(jiǎng)勵(lì)。從這個(gè)意義上講,我們可以在真正的 IL 環(huán)境中使用 Wasserstein 距離,而不僅限于合成任務(wù)。

結(jié)論

在交互成本較高的環(huán)境(例如,真實(shí)的機(jī)器人或復(fù)雜的模擬器)中,PWIL 可以作為首選方案,不僅因?yàn)樗梢赃€原專家的行為,還因?yàn)樗x的獎(jiǎng)勵(lì)函數(shù)易于調(diào)整,且無(wú)需與環(huán)境交互即可定義。

這為未來(lái)的探索提供了許多機(jī)會(huì),包括部署到實(shí)際系統(tǒng)、將 PWIL 擴(kuò)展到只能使用演示狀態(tài)(而不是狀態(tài)和動(dòng)作)的設(shè)置,以及最終將 PWIL 應(yīng)用于基于視覺(jué)的觀察。

責(zé)任編輯:lq

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 模擬器
    +關(guān)注

    關(guān)注

    2

    文章

    881

    瀏覽量

    43363
  • 智能體
    +關(guān)注

    關(guān)注

    1

    文章

    164

    瀏覽量

    10608
  • 強(qiáng)化學(xué)習(xí)

    關(guān)注

    4

    文章

    268

    瀏覽量

    11284

原文標(biāo)題:PWIL:不依賴對(duì)抗性的新型模擬學(xué)習(xí)

文章出處:【微信號(hào):tensorflowers,微信公眾號(hào):Tensorflowers】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    魯棒性在機(jī)器學(xué)習(xí)中的重要性

    在機(jī)器學(xué)習(xí)領(lǐng)域,模型的魯棒性是指模型在面對(duì)輸入數(shù)據(jù)的擾動(dòng)、異常值、噪聲或對(duì)抗性攻擊時(shí),仍能保持性能的能力。隨著人工智能技術(shù)的快速發(fā)展,機(jī)器學(xué)習(xí)模型被廣泛應(yīng)用于各個(gè)領(lǐng)域,從自動(dòng)駕駛汽車到醫(yī)療診斷,再到
    的頭像 發(fā)表于 11-11 10:19 ?533次閱讀

    鑒源實(shí)驗(yàn)室·如何通過(guò)雷達(dá)攻擊自動(dòng)駕駛汽車-針對(duì)點(diǎn)云識(shí)別模型的對(duì)抗性攻擊的科普

    非常精確,它們也面臨一種新興的威脅——對(duì)抗性攻擊。 對(duì)抗性攻擊是一種通過(guò)微小但精心設(shè)計(jì)的擾動(dòng),旨在欺騙機(jī)器學(xué)習(xí)模型的攻擊方式。對(duì)于自動(dòng)駕駛系統(tǒng)而言,這意味著通過(guò)對(duì)傳感器輸入的數(shù)據(jù)進(jìn)行極小的修改,攻擊者可以導(dǎo)致自動(dòng)駕
    的頭像 發(fā)表于 11-05 15:44 ?345次閱讀
    鑒源實(shí)驗(yàn)室·如何通過(guò)雷達(dá)攻擊自動(dòng)駕駛汽車-針對(duì)點(diǎn)云識(shí)別模型的<b class='flag-5'>對(duì)抗性</b>攻擊的科普

    分享一個(gè)跨平臺(tái)通用型GUI框架

    AAGUI是一個(gè)不依賴特定硬件、操作系統(tǒng)的跨平臺(tái)通用型GUI。
    的頭像 發(fā)表于 10-28 09:21 ?492次閱讀
    分享一個(gè)跨平臺(tái)通用型GUI框架

    原生鴻蒙系統(tǒng)正式發(fā)布,余承東宣布不依賴國(guó)外核心技術(shù)

    ’,標(biāo)志著華為在移動(dòng)操作系統(tǒng)領(lǐng)域邁出了堅(jiān)實(shí)的一步。” 這款原生鴻蒙系統(tǒng)作為中國(guó)自主研發(fā)的移動(dòng)操作系統(tǒng),其最大的亮點(diǎn)在于不依賴于國(guó)外的編程語(yǔ)言和操作系統(tǒng)內(nèi)核等核心技術(shù),實(shí)現(xiàn)了真正的自主可控。這一突破對(duì)于提升我國(guó)在全球科技領(lǐng)域的競(jìng)爭(zhēng)力具有重要意義。 然而,對(duì)于
    的頭像 發(fā)表于 10-23 10:08 ?422次閱讀

    N型插頭具備溫度抗性

    德索工程師說(shuō)道溫度抗性是N型插頭設(shè)計(jì)中不可忽視的一個(gè)方面。N型插頭在使用過(guò)程中,可能會(huì)遇到各種溫度變化,包括高溫和低溫環(huán)境。如果連接器不具備足夠的溫度抗性,就可能在極端溫度下出現(xiàn)性能下降、材料老化、甚至損壞的情況,從而影響整個(gè)電氣系統(tǒng)的穩(wěn)定性和安全性。
    的頭像 發(fā)表于 09-24 14:50 ?218次閱讀
    N型插頭具備溫度<b class='flag-5'>抗性</b>嗎

    FORT單元-不依賴GPS的步跟蹤定位穿戴設(shè)備@PNI

    歷史上,大多數(shù)基于傳感器的定位跟蹤系統(tǒng)一直受到從傳感器漂移到磁干擾和可靠性的問(wèn)題的困擾,為了提供精確的位置數(shù)據(jù),現(xiàn)代基于傳感器的跟蹤系統(tǒng)必須克服這些問(wèn)題,同時(shí)提供一個(gè)高精度、低功耗的傳感器模塊,隨時(shí)隨地提供精確的精度。新的FORT現(xiàn)場(chǎng)行動(dòng)遠(yuǎn)程跟蹤正是做到這一點(diǎn)。FORT應(yīng)用最先進(jìn)的技術(shù)來(lái)確定某點(diǎn)精確位置——即使GPS被破壞或拒絕。FORT由PNISensor
    的頭像 發(fā)表于 09-12 08:11 ?270次閱讀
    FORT單元-<b class='flag-5'>不依賴</b>GPS的步跟蹤定位穿戴設(shè)備@PNI

    HDS-6智能型模擬斷路器使用說(shuō)明

    HDS-6智能型模擬斷路器的原理HDS-6智能型模擬斷路器采用全數(shù)字電路,時(shí)間為數(shù)字撥碼設(shè)置,可實(shí)現(xiàn)模擬斷路器跳合閘時(shí)間設(shè)置、三相/分相操作選擇、輸入信號(hào)邏輯控制等功能,從而模擬斷路器
    的頭像 發(fā)表于 08-02 16:15 ?743次閱讀
    HDS-6智能<b class='flag-5'>型模擬</b>斷路器使用說(shuō)明

    深度學(xué)習(xí)的典型模型和訓(xùn)練過(guò)程

    深度學(xué)習(xí)作為人工智能領(lǐng)域的一個(gè)重要分支,近年來(lái)在圖像識(shí)別、語(yǔ)音識(shí)別、自然語(yǔ)言處理等多個(gè)領(lǐng)域取得了顯著進(jìn)展。其核心在于通過(guò)構(gòu)建復(fù)雜的神經(jīng)網(wǎng)絡(luò)模型,從大規(guī)模數(shù)據(jù)中自動(dòng)學(xué)習(xí)并提取特征,進(jìn)而實(shí)現(xiàn)高效準(zhǔn)確的預(yù)測(cè)和分類。本文將深入解讀深度學(xué)習(xí)
    的頭像 發(fā)表于 07-03 16:06 ?1644次閱讀

    VBS雷達(dá)智能對(duì)抗仿真控制系統(tǒng)

    智慧華盛恒輝VBS雷達(dá)智能對(duì)抗仿真控制系統(tǒng) 智慧華盛恒輝系統(tǒng)概述 智慧華盛恒輝VBS雷達(dá)智能對(duì)抗仿真控制系統(tǒng)是一種先進(jìn)的電子戰(zhàn)仿真系統(tǒng),旨在模擬雷達(dá)對(duì)抗環(huán)境,進(jìn)行雷達(dá)信號(hào)/回波的
    的頭像 發(fā)表于 06-26 14:56 ?429次閱讀

    智能型模擬斷路器如何使用?——每日了解電力知識(shí)

    今天武漢摩恩智能電氣有限公司帶大家了解一下 ME-MT 智能型模擬斷路器 。 ME-MT 智能型模擬斷路器使用說(shuō)明: 1、裝置通電 —— ? ? ?接入220V交流工作電源,合電源開(kāi)關(guān),幾秒鐘后
    的頭像 發(fā)表于 05-27 10:01 ?1329次閱讀
    智能<b class='flag-5'>型模擬</b>斷路器如何使用?——每日了解電力知識(shí)

    模擬電子電路學(xué)習(xí)教程

    電子發(fā)燒友網(wǎng)站提供《模擬電子電路學(xué)習(xí)教程.pdf》資料免費(fèi)下載
    發(fā)表于 04-14 09:40 ?47次下載

    深度學(xué)習(xí)生成對(duì)抗網(wǎng)絡(luò)(GAN)全解析

    GANs真正的能力來(lái)源于它們遵循的對(duì)抗訓(xùn)練模式。生成器的權(quán)重是基于判別器的損失所學(xué)習(xí)到的。因此,生成器被它生成的圖像所推動(dòng)著進(jìn)行訓(xùn)練,很難知道生成的圖像是真的還是假的。
    發(fā)表于 03-29 14:42 ?4727次閱讀
    深度<b class='flag-5'>學(xué)習(xí)</b>生成<b class='flag-5'>對(duì)抗</b>網(wǎng)絡(luò)(GAN)全解析

    5V 4:1 通用型模擬多路復(fù)用器TMUX1204數(shù)據(jù)表

    電子發(fā)燒友網(wǎng)站提供《5V 4:1 通用型模擬多路復(fù)用器TMUX1204數(shù)據(jù)表.pdf》資料免費(fèi)下載
    發(fā)表于 03-20 14:19 ?0次下載
    5V 4:1 通用<b class='flag-5'>型模擬</b>多路復(fù)用器TMUX1204數(shù)據(jù)表

    百度CEO李彥宏:不會(huì)受制于美國(guó)限制,中國(guó)AI發(fā)展仍有強(qiáng)大動(dòng)力

    李彥宏指出,對(duì)于文心大模型這類情境,他并不依賴英偉達(dá)的尖端芯片,百度現(xiàn)有芯片儲(chǔ)備以及可采購(gòu)的替代產(chǎn)品已能滿足大眾AI需求。
    的頭像 發(fā)表于 03-08 15:17 ?644次閱讀

    隨機(jī)通信下多智能體系統(tǒng)的干擾攻擊影響研究

    網(wǎng)絡(luò)控制系統(tǒng)可能會(huì)受到不同類型的網(wǎng)絡(luò)攻擊威脅[10-12],主要包括拒絕服務(wù)(denial of service, DoS)攻擊[7]、欺騙攻擊[8]、干擾攻擊[9]等。文獻(xiàn)[10]研究了一類對(duì)抗性攻擊下網(wǎng)絡(luò)物理系統(tǒng)的安全評(píng)估與控制問(wèn)題,且控制信號(hào)在被發(fā)送到執(zhí)行器的過(guò)程中可被攻擊者惡意篡改。
    發(fā)表于 03-01 11:00 ?642次閱讀
    隨機(jī)通信下多智能體系統(tǒng)的干擾攻擊影響研究
    主站蜘蛛池模板: 亚洲日韩在线天堂一 | AV72啪啪网站| 久久视频这有精品63在线国产 | 日本精品在线观看视频 | 99在线在线视频观看 | 中文在线日韩亚洲制服 | 天天看片视频免费观看 | 亚洲熟少妇在线播放999 | 九九热精品视频在线观看 | 日本免费一区二区三区四区五六区 | 女生扒开下面 | 亚洲国产成人在线 | 少妇久久久久久被弄高潮 | 亚洲国产中文在线视频免费 | 免费精品美女久久久久久久久久 | 日韩精品亚洲专区在线电影不卡 | 91精品国产入口 | 伊人久久中文字幕久久cm | 亚洲免费成人 | 久久aa毛片免费播放嗯啊 | 后入到高潮免费观看 | 伊人不卡久久大香线蕉综合影院 | 美女一级毛片免费不卡视频 | 老司机福利视频一区在线播放 | 少妇高潮惨叫久久久久久电影 | 在线观看中文字幕国产 | 337p啪啪人体大胆 | 麻豆国产精品va在线观看约 | 琪琪热热色原日韩在线 | 欧美精品99久久久啪啪 | 亚洲手机在线人成视频 | 青柠电影在线看 | 久久草香蕉频线观 | 色综合久久久久久 | 福利免费观看体检区 | 菲律宾毛片 | 亚洲国产精品无码中文字幕 | 国产小视频免费在线观看 | 欧美v1deossexo高清 | 九九热这里有精品 | 在线成年av动漫电影 |