亚洲精品日韩中文字幕久久久,亚洲美女色成人综合,羞羞污视频

OpenAI舉辦的首屆遷移學習競賽Retro Contest結束，在全部229支隊伍里，來自中國的團隊獲得了冠亞軍。冠軍是一個6人團隊，其中有南京大學和阿里巴巴搜索事業部的研究人員；亞軍是中科院的兩名研究生。

這個競賽的目標，是評估強化學習算法從以往的經驗中泛化的能力。具體說，就是讓AI玩視頻游戲《刺猬索尼克》，這是世嘉公司開發的一款競速式2D動作游戲，其基本上模擬馬里奧的游戲方式，玩家在盡可能短的時間內到達目的地，索尼克可以通過不停加速來快速完成關卡。最后可能需要對抗BOSS。

冠軍方案展示：由南大和阿里研究人員組成的Dharmaraja隊的agent，學習穿越游戲中海洋廢墟區域（Aquatic Ruin Zone）。Agent已經在游戲的其他關進行過預訓練，但這是第一次遇到這一關。

OpenAI的這個競賽Retro Contest從2018年4月5日發布，持續時間為2個月。開始有923支隊伍報名，但最終只有229個提交了解決方案。OpenAI的自動評估系統對這些結果進行了評估。為了避免參賽者擬合數據集，評審時使用了完全不同的數據集。此外，OpenAI還將前十名的最終提交結果進行了再測試，讓這些agents在11個由游戲設計師特別設計的關卡中，分別進行了3次測試，每次都從環境中隨機生成初始狀態。最終得到的排名如下：

前五名排名

其中，冠軍Dharmaraja在測試和評審中始終排名第一，mistake以微弱的優勢戰勝aborg取得第二。這張圖顯示了排名前三的三個方案的agent在同一個關卡學習的情況。紅點代表初期，藍點代表后期。從上到下分別是Dharmaraja、aborg和mistake。

所有關卡平均下來，這幾支隊伍的學習曲線是這樣的：

值得注意的是，Dharmaraja和aborg在開始階段分數相近，而mistake的則要低很多。這是因為前兩支隊伍的方法，是對預訓練網絡進行微調（使用PPO），而mistake則是從零開始訓練（使用Rainbow DQN）。mistake的學習曲線提前結束，是因為他們在12小時的時候時間用完了。

OpenAI對這次的競賽的評價是，從整體看，雖然參賽隊伍嘗試了很多方法，但主要的結果都來自對現有算法（如PPO和Rainbow）的微調或擴展。同時，結果也顯示了我們還有很長的路要走：訓練后AI玩的最高成績是4,692分，而理論最好成績是10,000分。

但是，獲勝的解決方案是一般的機器學習方法，而不是針對這次競賽進行的hacking，表明作弊是不可能的，也就證實了OpenAI的Sonic基準是機器學習研究界一個值得去關注的問題。

獲獎團隊及方案：PPO和Rainbow優化

Dharmaraja（法王）是一個6人組成的團隊：Qing Da、Jing-Cheng Shi、Anxiang Zeng、Guangda Huzhang、Run-Ze Li 和 Yang Yu。其中，Qing Da和Anxiang Zeng來自阿里巴巴搜索事業部AI團隊，他們最近與南京大學副教授Yang Yu合作，研究如何將強化學習用于現實世界問題，尤其是電子商務場景。

Dharmaraja的解決方案是聯合PPO的變體。PPO（proximal policy optimization，近端策略優化算法），是此前OpenAI為強化學習提出的一類新的策略梯度法，可以通過與環境的交互在樣本數據中進行轉換，使用隨機梯度下降優化替代目標函數（surrogate objective function）。標準的策略梯度法是在每一個數據樣本上執行一次梯度更新，而PPO的新目標函數可以在多個訓練步驟（epoch）中實現小批量（minibatch）的更新。PPO 擁有置信域策略優化（TRPO）的一些好處，但更加容易實現，也更通用，并且有更好的樣本復雜度。OpenAI研究人員認為，考慮到總體的復雜度、操作簡便性和 wall-time，PPO 是比在線策略梯度法更好的選擇。

在PPO的基礎上，Dharmaraja的解決方案做了一些改進。首先，使用RGB圖像而不是灰度圖做輸入。其次，使用了稍微擴大的動作空間，并使用更常見的按鈕組合。第三，使用了增強獎勵功能，獎勵agent訪問新的狀態（根據屏幕的感知散列來判斷）。

除了這些改進外，團隊還嘗試了許多東西，比如DeepMimic，使用YOLO進行對象檢測，以及一些針對索尼克游戲的特定想法。不過這些方法并沒有特別起效。

代碼：https://github.com/eyounx/RetroCodes

Mistake

Mistake隊有兩名成員，Peng Xu和Qiaoling Zhong。他們都是研二的學生，來自中國科學院網絡數據科學與技術重點實驗室。

他們的解決方案是基于Rainbow基準。Rainbow是DeepMind對DQN算法進行的組合改良。DeepMind的實驗表明，從數據效率和最終性能方面來說，Rainbow能夠在Atari 2600基準上提供最為先進的性能。

Mistake團隊進行了一些有助于提升性能的修改：n對n步Q-learning的更好的值；額外添加了一層CNN層到模型，這使得訓練速度更慢但更好；DQN目標更新間隔更短。此外，團隊還嘗試與Rainbow進行聯合訓練，但發現這樣做實際上降低了性能。

代碼：https://github.com/xupe/mistake-in-retro-contest-of-OpenAI

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

阿里巴巴

阿里巴巴

+關注

關注
7

文章
1619

瀏覽量
47490
機器學習

機器學習

+關注

關注
66

文章
8438

瀏覽量
133024
強化學習

強化學習

+關注

關注
4

文章
268

瀏覽量
11291

原文標題：OpenAI首屆遷移學習競賽，南大阿里團隊奪冠，中科院第二

文章出處：【微信號：AI_era，微信公眾號：新智元】歡迎添加關注！文章轉載請注明出處。

遷移學習的原理，基于Keras實現遷移學習

我面對的大多數計算機視覺問題沒有非常大的數據集（5000-40000圖像）。即使使用極端的數據增強策略，也很難達到像樣的精確度。而在少量數據集上訓練數百萬參數的網絡通常會導致過擬合。所以遷移學習是我的救星。

發表于 05-09 03:44 ?1.5w次閱讀

<b class='flag-5'>遷移</b><b class='flag-5'>學習</b>的原理，基于Keras實現<b class='flag-5'>遷移</b><b class='flag-5'>學習</b>

學校舉辦嵌入式物聯網競賽，需要確定一個課題，求大神們給點兒建議！

學校舉辦嵌入式物聯網競賽，需要確定一個課題，一點思路都沒有，求大神們給點兒建議！

發表于 11-20 21:15

遷移學習訓練網絡

keras 之遷移學習,改變VGG16輸出層,用imagenet權重retrain

發表于 09-09 11:02

遷移學習

經典機器學習算法介紹章節目標：機器學習是人工智能的重要技術之一，詳細了解機器學習的原理、機制和方法，為學習深度學習與

發表于 04-21 15:15

我國首屆人工智能·多媒體信息識別技術競賽啟動儀式在京召開

中國青年網北京3月21日電（記者郭凱薇）3月20日，首屆中國人工智能·多媒體信息識別技術競賽啟動儀式暨新聞發布會在北京召開。據悉，競賽旨在打造國內具有權威性和國際水準的人工智能領域競賽

發表于 03-22 08:34 ?1396次閱讀

首屆國網北京電力人工智能數據競賽正式啟動

為深入貫徹黨中央國務院關于加快發展數字經濟的戰略部署，全面落實習近平總書記提出的科技創新具有引領國家發展的重要戰略意義，要大力推動科技創新在實際生產中的落地應用的要求，國網北京市電力公司舉辦了首屆國

發表于 12-02 15:57 ?1770次閱讀

騰訊宣布其人工智能球隊獲首屆谷歌足球Kaggle競賽冠軍

12月30日，騰訊宣布其人工智能球隊摘得了首屆谷歌足球Kaggle競賽冠軍。這是一場由Google Research與英超曼城俱樂部在Kaggle平臺上聯合舉辦的足球AI比賽，經過多輪角逐，騰訊AI Lab研發的絕悟WeKick

發表于 12-30 15:58 ?1931次閱讀

ESPlay Retro Emulation復古模擬游戲機

./oschina_soft/esplay-retro-emulation.zip

發表于 06-21 11:32 ?1次下載

一文詳解遷移學習

遷移學習需要將預訓練好的模型適應新的下游任務。然而，作者觀察到，當前的遷移學習方法通常無法關注與任務相關的特征。在這項工作中，作者探索了重新聚焦模型注意力以進行

發表于 08-11 16:56 ?6436次閱讀

商密大會傳捷報｜海泰方圓喜獲首屆“熵密杯”密碼應用安全競賽優勝獎

8月10日，國內首屆“熵密杯”密碼應用安全競賽在“2023商用密碼大會”期間隆重舉辦。本次競賽是貫徹落實《中華人民共和國密碼法》和新修訂的《商用密碼管理條例》的具體舉措和創新實踐，旨在

發表于 08-15 16:37 ?934次閱讀

視覺深度學習遷移學習訓練框架Torchvision介紹

Torchvision是基于Pytorch的視覺深度學習遷移學習訓練框架，當前支持的圖像分類、對象檢測、實例分割、語義分割、姿態評估模型的遷移學習

發表于 09-22 09:49 ?950次閱讀

OpenAI首屆開發者日舉辦，新模型實現六大升級

　openai最初提供32k的上下文長度，而gpt-4 turbo則提供128k，相當于300頁文檔。openai還為開發者提供了更好的api、函數調用、一次調用多個函數并將響應整合到消息輸出中的控制功能。

發表于 11-08 09:59 ?627次閱讀

高能回顧 | 首屆OpenHarmony競賽訓練營精彩瞬間

點擊藍字 ╳ 關注我們開源項目 OpenHarmony 是每個人的 OpenHarmony 首屆OpenAtom OpenHarmony（以下簡稱“OpenHarmony”）競賽訓練營線下決賽成功

發表于 11-11 21:10 ?512次閱讀

深圳舉辦首屆網絡創新發展峰會，OpenAI市值突破1000億美元

大家好，歡迎收看河套 IT WALK 第 132 期。今天，首屆網絡創新發展峰會在深圳舉辦；AI領域的翹楚——OpenAI市值在資本市場上突破了重要里程碑，超過1000億美元。首屆

發表于 12-25 19:50 ?1075次閱讀

預訓練和遷移學習的區別和聯系

預訓練和遷移學習是深度學習和機器學習領域中的兩個重要概念，它們在提高模型性能、減少訓練時間和降低對數據量的需求方面發揮著關鍵作用。本文將從定義、原理、應用、區別和聯系等方面詳細探討預訓

發表于 07-11 10:12 ?1198次閱讀