一区二区三区不卡视频,我的妹妹最近有点怪在线观看,婷婷伊人综合亚洲综合网

【導讀】MetaAI這次發布的MoDem解決了視覺強化學習領域的三個挑戰，無需解碼器，效率最高提升250%，一起看看它有多牛。

12月27日，MetaAI 負責視覺和強化學習領域的A

截止27日晚間，這篇推文的閱讀量已經達到73.9k。

他表示，僅給出5個演示，MoDem就能在100K交互步驟中解決具有稀疏獎勵和高維動作空間的具有挑戰性的視覺運動控制任務，大大優于現有的最先進方法。

有多優秀呢？

他們發現MoDem在完成稀疏獎勵任務方面的成功率比低數據機制中的先前方法高出150%-250%。

Lecun也轉發了這一研究，表示MoDem的模型架構類似于JEPA，可在表征空間做出預測且無需解碼器。

鏈接小編就放在下面啦，有興趣的小伙伴可以看看~

論文鏈接：https://arxiv.org/abs/2212.05698

Github鏈接：https://github.com/facebookresearch/modem

研究創新和模型架構

樣本效率低下是實際應用部署深度強化學習 (RL) 算法的主要挑戰，尤其是視覺運動控制。

基于模型的RL有可能通過同時學習世界模型并使用合成部署來進行規劃和政策改進，從而實現高樣本效率。

然而在實踐中，基于模型的RL的樣本高效學習受到探索挑戰的瓶頸，這次研究恰恰解決了這些主要挑戰。

首先，MoDem分別通過使用世界模型、模仿+RL和自監督視覺預訓練，解決了視覺強化學習/控制領域的三個主要挑戰：

大樣本復雜性（Large sample complexity）

高維狀態和動作空間探索（Exploration in high-dimensional state and action space）

同步視覺表征和行為學習（Simultaneous learning of visual representations and behaviors）

這次的模型架構類似于Yann LeCun的JEPA，并且無需解碼器。

作者Aravind Rajeswaran表示，相比Dreamer需要像素級預測的解碼器，架構繁重，無解碼器架構可支持直接插入使用SSL預訓練的視覺表示。

此外基于IL+RL，他們提出了一個三階段算法：

BC預訓練策略

使用包含演示和探索的種子數據集預訓練世界模型，此階段對于整體穩定性和效率很重要

通過在線互動微調世界模型

結果顯示，生成的算法在21個硬視覺運動控制任務中取得了SOTA結果（State-Of-The-Art result），包括Adroit靈巧操作、MetaWorld和DeepMind控制套件。

從數據上來看，MoDem在各項任務中的表現遠遠優于其他模型，結果比之前的SOTA方法提升了150%到250%。

紅色線條為MoDem在各項任務中的表現

在此過程中，他們還闡明了MoDem中不同階段的重要性、數據增強對視覺MBRL的重要性以及預訓練視覺表示的實用性。

最后，使用凍結的 R3M 功能遠遠優于直接的 E2E 方法。這很令人興奮，表明視頻中的視覺預訓練可以支持世界模型。

但8月數據強勁的E2E與凍結的R3M競爭，我們可以通過預訓練做得更好。

審核編輯：李倩

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

解碼器

解碼器

+關注

關注
9

文章
1144

瀏覽量
40803
Meta

Meta

+關注

關注
0

文章
272

瀏覽量
11408
強化學習

強化學習

+關注

關注
4

文章
268

瀏覽量
11270

原文標題：Meta推出MoDem世界模型：解決視覺領域三大挑戰，LeCun轉發

文章出處：【微信號：CVSCHOOL，微信公眾號：OpenCV學堂】歡迎添加關注！文章轉載請注明出處。

Kimi發布視覺思考模型k1，展現卓越基礎科學能力

近日，Kimi公司正式發布了其最新的視覺思考模型——k1。這款模型基于先進的強化學習技術構建，原生支持端到端的圖像理解和思維鏈技術，為用戶提供了全新的

發表于 12-17 09:59 ?304次閱讀

如何在化學和材料科學領域開展有影響力的人工智能研究？（三）

第三部分編譯后的內容：4.如何解決科學問題？在掌握了上述的工具和視角后，我們將提出一些建議，幫助您在化學領域選擇具有影響力的研究課題，并介紹機器學習

發表于 12-03 01:02 ?228次閱讀

螞蟻集團收購邊塞科技，吳翼出任強化學習實驗室首席科學家

領域的研究與發展。令人矚目的是，邊塞科技的創始人吳翼已正式加入該實驗室，并擔任首席科學家一職。吳翼在其個人社交平臺上對這一變動進行了回應。他表示，自己最近接受了螞蟻集團的邀請，負責大模型強化學習領域的研究工

發表于 11-22 11:14 ?636次閱讀

如何使用 PyTorch 進行強化學習

強化學習（Reinforcement Learning, RL）是一種機器學習方法，它通過與環境的交互來學習如何做出決策，以最大化累積獎勵。PyTorch 是一個流行的開源機器

發表于 11-05 17:34 ?330次閱讀

谷歌AlphaChip強化學習工具發布，聯發科天璣芯片率先采用

近日，谷歌在芯片設計領域取得了重要突破，詳細介紹了其用于芯片設計布局的強化學習方法，并將該模型命名為“AlphaChip”。據悉，AlphaChip有望顯著加速芯片布局規劃的設計流程，并幫助芯片在性能、功耗和面積方面實現更優表現

發表于 09-30 16:16 ?437次閱讀

基本理想電路元件的三個特征是什么

基本理想電路元件是構成電路的基本單元，它們具有三個基本特征：電壓-電流關系、能量轉換和電路參數。以下是對這三個特征的分析：電壓-電流關系理想電路元件的電壓-電流關系是其最基本的特征之一。這種關系

發表于 08-25 09:38 ?1251次閱讀

簡述三極管的三個工作區域

三極管的三個區域，通常指的是其在不同工作條件下的狀態區域，即截止區、放大區和飽和區。這三個區域定義了三極管在不同電壓和電流條件下的行為特性，

發表于 07-29 10:50 ?3870次閱讀

可調變阻器三個引腳怎么區分

可調變阻器，也稱為電位器或可變電阻器，是一種可以調節電阻值的電子元件。它廣泛應用于各種電子設備中，如音頻設備、電源管理、電機控制等?？烧{變阻器有三個引腳，分別是固定端、滑動端和可調端。這三個引腳

發表于 07-24 11:12 ?1361次閱讀

如何判斷ebc三個電極電壓

在電化學領域，電化學電池（Electrochemical Battery Cell，簡稱EBC）是一種將化學能轉化為電能的裝置。EBC由三個

發表于 07-18 15:41 ?896次閱讀

機器人視覺可以分為哪三個部分?

機器人視覺是機器人技術中的一個重要分支，它涉及到圖像處理、計算機視覺、機器學習等多個領域。機器人視覺

發表于 07-04 11:17 ?678次閱讀

深度學習在計算機視覺領域的應用

隨著人工智能技術的飛速發展，深度學習作為其中的核心技術之一，已經在計算機視覺領域取得了顯著的成果。計算機視覺，作為計算機科學的一個重要分支，

發表于 07-01 11:38 ?851次閱讀

通過強化學習策略進行特征選擇

更快更好地學習。我們的想法是找到最優數量的特征和最有意義的特征。在本文中，我們將介紹并實現一種新的通過強化學習策略的特征選擇。我們先討論強化學習，尤其是馬爾可夫決策

發表于 06-05 08:27 ?375次閱讀

微波測量的三個基本參量是什么

微波測量是電子工程領域中的一個重要分支，它涉及到對微波信號的頻率、幅度、相位等參數的測量。在微波測量中，有三個基本參量：頻率、幅度和相位。這三個參量是微波信號的基本特征，對于微波系統的

發表于 05-28 14:46 ?1441次閱讀

如何判斷三極管的三個極性

三極管是電子電路中的基本元件之一，其性能的好壞直接影響到整個電路的性能。而判斷三極管的三個極性（基極b、發射極e、集電極c）是電路分析和設計中不可或缺的一步。下面將詳細介紹判斷三極管

發表于 05-21 15:26 ?6846次閱讀

一個籬笆三個樁——記晶體三極管的發明

一個籬笆三個樁——記晶體三極管的發明

發表于 05-12 08:14 ?795次閱讀

色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

搜索歷史

MoDem解決了視覺強化學習領域的三個挑戰

評論

Kimi發布視覺思考模型k1，展現卓越基礎科學能力

如何在化學和材料科學領域開展有影響力的人工智能研究？（三）

螞蟻集團收購邊塞科技，吳翼出任強化學習實驗室首席科學家

如何使用 PyTorch 進行強化學習

谷歌AlphaChip強化學習工具發布，聯發科天璣芯片率先采用

基本理想電路元件的三個特征是什么

簡述三極管的三個工作區域

可調變阻器三個引腳怎么區分

如何判斷ebc三個電極電壓

機器人視覺可以分為哪三個部分?

深度學習在計算機視覺領域的應用

通過強化學習策略進行特征選擇

微波測量的三個基本參量是什么

如何判斷三極管的三個極性

一個籬笆三個樁——記晶體三極管的發明