亚洲精品国产第1页,紫黑色的巨大又粗又硬视频,亚洲综合网站

近日，谷歌DeepMind強化學習研究團隊負責人、AlphaGo項目首席研究員Dave Silver在Deep Learning Indaba活動的主題演講中歸納出了強化學習中要注意的10大要點。一起來看看，也許能少走點彎路。

近日，在南非斯泰倫博斯舉行的Deep Learning Indaba活動上，谷歌DeepMind強化學習研究團隊負責人、AlphaGo項目首席研究員Dave Silver在主題演講中歸納出強化學習中要注意的10大要點。

活動主辦方將Dave Silver演講的PPT截圖和文字要點發在了推特上，引發了廣泛討論。

Silver的演講中提出的強化學習10大要點涵蓋涉及算法評估、狀態控制、建模函數等方面的心得和建議，非常值得開發者和機器學習愛好者參考學習。一起看看他是怎么說的吧！

1、在評估中產生進步

客觀、量化的估計會產生進步，對評估尺度的選擇會決定進步的方向。這可能是項目推進過程中做出的最重要的決定。

目標驅動型研究：確認評估標準與最終目標密切相關。避免主觀評估

假設驅動型研究：提出假設，在寬泛的條件下驗證假設，與相似結果對比，而不是與最先進的結果對比。重要的是對結果的理解，而不是追求排名。

2、算法的可擴展性決定是否成功

算法的可擴展性是指其性能隨資源的梯度變化。這里的資源可能是計算、存儲和數據。算法的可擴展性決定了能否項目能否成功，它幾乎永遠比算法的起點重要。最終，好的算法總是無限資源條件下的最優解決方案。

3、穩定算法的通用性

算法通用性是指算法在不同深度學習環境下的表現。應避免對當前任務的過擬合。積極尋求可以適用于未來未知環境下的算法。

結論：要廣泛驗證，建立現實的機器學習環境。

4、信任智能體的經驗

經驗（包括觀察、動作、獎勵）是指深度學習的數據。信任這些經驗，將其作為唯一知識來源。盡管這些經驗看上去不可學習，但最終長期來看，經驗終將取得成功。

5、狀態是主觀的

智能體應該基于經驗建立自身的狀態，智能體的狀態是關于其先前狀態和新觀察數據的函數。任何時候不要定義某一環境下的“真實”狀態。

6、控制數據流

智能體處于大量數據流傳感器環境中，智能體的行為會對數據流造成影響。

控制特征——控制數據流——控制未來——實現任何回報的最大化。

7、價值函數可以對世界建模

價值函數是對未來的高效歸納和緩存。多關注固定時間段的查找，而非指數級的前瞻。可以獨立計算和學習。利用多價值函數可以在不同時間范圍內，對世界各個方面進行高效建模。

應避免使用原始的時間步長對世界進行建模。

8、從想象的經驗中進行學習

想象接下來會發生什么，從想象的經驗中進行學習，同時關注在當前時刻的值函數估計。

9、加強函數逼近器

差異化網絡架構是一種有力工具，可以用來:以豐富的方式表示狀態，實現差異化存儲、差異化規劃、層級控制。

將算法的復雜性融入網絡架構，可以降低算法的復雜度，增加網絡架構的可表達性。

10、要學習“如何學習”

人工智能的發展史呈現出一條清晰的發展脈絡。

第一代：“美好的”老式人工智能。手動控制預測，不學習任何內容。

第二代：淺度學習。手動控制特征，學習預測。

第三代：深度學習。手動控制算法（優化器、目標、架構），學習特征和端對端預測。

第四代：Meta學習。無手動環節，學習算法、特征和端對端預測。

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

谷歌

谷歌

+關注

關注
27

文章
6182

瀏覽量
105784
強化學習

強化學習

+關注

關注
4

文章
268

瀏覽量
11278
DeepMind

DeepMind

+關注

關注
0

文章
131

瀏覽量
10908

原文標題：AlphaGo首席研究員親授！十張PPT，十大強化學習黃金法則！

文章出處：【微信號：AI_era，微信公眾號：新智元】歡迎添加關注！文章轉載請注明出處。

華為發布2025智能光伏十大趨勢

華為數字能源以“融合創新，智構未來，加速光伏成為主力能源”為主題，舉辦2025智能光伏十大趨勢發布會。華為數字能源智能光伏產品線總裁周濤發布了智能光伏十大趨勢和重磅白皮書，為光儲產業的高質量發展提供前瞻性支持。

發表于 01-06 17:12 ?386次閱讀

如何在化學和材料科學領域開展有影響力的人工智能研究？（三）

第三部分編譯后的內容：4.如何解決科學問題？在掌握了上述的工具和視角后，我們將提出一些建議，幫助您在化學領域選擇具有影響力的研究課題，并介紹機器學習問題的高層次結構。最后，我們將概述機器學習

發表于 12-03 01:02 ?250次閱讀

螞蟻集團收購邊塞科技，吳翼出任強化學習實驗室首席科學家

領域的研究與發展。令人矚目的是，邊塞科技的創始人吳翼已正式加入該實驗室，并擔任首席科學家一職。吳翼在其個人社交平臺上對這一變動進行了回應。他表示，自己最近接受了螞蟻集團的邀請，負責大模型強化學習領域的

發表于 11-22 11:14 ?680次閱讀

全國5G新基建智慧燈桿建設十大代表性案例

全國5G新基建智慧燈桿建設十大代表性案例

發表于 11-07 12:50 ?703次閱讀

選擇精科睿進行 PCBA 代工代料有以下十大理由

選擇精科睿進行 PCBA 代工代料有以下十大理由：

發表于 11-06 10:21 ?213次閱讀

如何使用 PyTorch 進行強化學習

強化學習（Reinforcement Learning, RL）是一種機器學習方法，它通過與環境的交互來學習如何做出決策，以最大化累積獎勵。PyTorch 是一個流行的開源機器學習庫，

發表于 11-05 17:34 ?354次閱讀

谷歌AlphaChip強化學習工具發布，聯發科天璣芯片率先采用

近日，谷歌在芯片設計領域取得了重要突破，詳細介紹了其用于芯片設計布局的強化學習方法，并將該模型命名為“AlphaChip”。據悉，AlphaChip有望顯著加速芯片布局規劃的設計流程，并幫助芯片在性能、功耗和面積方面實現更優表現。

發表于 09-30 16:16 ?452次閱讀

十年預言：Chiplet的使命

來源：晶上世界無論是人工智能深度學習、大數據實時分析，還是超算中心的復雜模擬，都對芯片算力提出了前所未有的需求。大算力時代，如何駕馭數據洪流？中國科學院計算技術研究所韓銀和研究員為我們揭示了

發表于 08-27 11:09 ?511次閱讀

中國信通院發布“2024云計算十大關鍵詞”

7月23日，由中國通信標準化協會主辦，中國信息通信研究院（簡稱“中國信通院”）承辦的“2024可信云大會”在京召開。大會上，中國信通院正式發布“2024云計算十大關鍵詞”，中國信通院云計算與大數

發表于 08-02 08:28 ?672次閱讀

開關電源PCB布局優化，人人都該懂的“黃金法則”是什么？

問：開關電源板布局的黃金法則優化電路板布局是開關電源設計中的一個關鍵。良好的布局可確保開關穩壓器的穩定運行，并將輻射干擾和傳導電磁干擾（EMI）降至。雖然這是電子開發人員所熟知的常識，但很多人還是

發表于 07-01 17:11

通過強化學習策略進行特征選擇

更快更好地學習。我們的想法是找到最優數量的特征和最有意義的特征。在本文中，我們將介紹并實現一種新的通過強化學習策略的特征選擇。我們先討論強化學習，尤其是馬爾可夫決策

發表于 06-05 08:27 ?393次閱讀

蘇州納米城助力園區再登“MEMS傳感器十大園區名單”榜首！

近日，在第六屆中國（蚌埠）MEMS智能傳感器產業發展大會上，國家工信部所屬單位中國電子信息產業發展研究院發布《2024中國MEMS產業發展與十大高質量傳感器園區報告》，蘇州工業園區連續4年蟬聯“MEMS傳感器十大園區名單”榜首。

發表于 05-31 14:16 ?822次閱讀

DC3漏洞披露計劃已接獲5635份研究員報告，總數逾5萬

據報道，為應對日益嚴峻的網絡安全威脅，美國五角大樓于2016年正式設立了網絡犯罪中心（DC3）。近日，該機構公布數據，自創立至今累計收到5635位研究員遞交的5萬余份漏洞報告。

發表于 03-20 13:55 ?716次閱讀

上海微技術研究院標準180nm硅光工藝在八英寸SOI上制備了硅光芯片

近日，中國科學院上海微系統與信息技術研究所硅基材料與集成器件實驗室蔡艷研究員、歐欣研究員聯合團隊，在通訊波段硅基鈮酸鋰異質集成電光調制器方面取得了重要進展。

發表于 03-18 14:30 ?1126次閱讀

谷歌DeepMind資深AI研究員創辦AI Agent創企

近日，剛從谷歌DeepMind離職的資深AI研究員Ioannis Antonoglou宣布創辦了一家名為“AI Agent”的創企。Ioannis Antonoglou常駐倫敦，此前曾擔任谷歌DeepMind的首席開發人員，自去年9月份以來，他是第4位離開谷歌Gemini

發表于 02-04 10:02 ?826次閱讀