色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
电子发烧友
开通电子发烧友VIP会员 尊享10大特权
海量资料免费下载
精品直播免费看
优质内容免费畅学
课程9折专享价
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

如何讓AI符合人類的意圖?如何創(chuàng)建符合用戶意圖的智能體?

DPVg_AI_era ? 來源:未知 ? 作者:李倩 ? 2018-11-24 10:24 ? 次閱讀

如何讓AI依照人類的意圖行事?這是將AI應用于現(xiàn)實世界復雜問題的最大障礙之一。DeepMind將這個問題定義為“智能體對齊問題”,并提出了新的解決方案。

如何讓AI符合人類的意圖?

這個問題是將AI系統(tǒng)部署到真實世界、幫助人類解決復雜問題的最大障礙之一。

DeepMind將這個問題定義為“智能體對齊問題”(agent alignment problem),并提出依賴于獎勵建模,正面解決agent alignment問題的研究方向。

這篇文章基于DeepMind的新論文Scalable agent alignment via reward modeling: a research direction,概述了解決agent alignment問題的研究方向。所提出的方法依賴于獎勵建模的遞歸應用,以符合用戶意圖的方式解決復雜的現(xiàn)實世界問題。

近年來,強化學習在許多復雜游戲環(huán)境中取得了令人矚目的成績,從Atari游戲、圍棋、象棋到Dota 2和星際爭霸II,AI智能體在越來越復雜的領域迅速超越了人類水平。游戲是開發(fā)和測試機器學習算法的理想平臺。它們提出了需要多種認知能力才能完成的具有挑戰(zhàn)性的任務,反映出解決現(xiàn)實世界問題所需的技能。機器學習研究人員可以在云上并行運行數(shù)千個模擬實驗,生成系統(tǒng)學習所需的訓練數(shù)據(jù)。

至關重要的是,游戲通常都有一個明確的目標,以及一個近似于實現(xiàn)該目標的進展的分數(shù)。這個分數(shù)為強化學習智能體提供了有用的獎勵信號,使我們能夠得到關于哪些算法和架構(gòu)選擇最有效的快速反饋。

智能體對齊問題

AI發(fā)展的終極目標是讓人類受益,讓我們能夠應對現(xiàn)實世界中日益復雜的挑戰(zhàn)。但現(xiàn)實世界并沒有內(nèi)置的獎勵機制。這就帶來了挑戰(zhàn),因為現(xiàn)實世界任務的表現(xiàn)不容易定義。我們需要一種好的方式來提供反饋,并使AI能夠可靠地理解我們想要什么,以幫助我們實現(xiàn)目的。

換句話說,我們想用人類反饋的方式訓練AI系統(tǒng),使AI的行為與我們的意圖一致。為了達到這個目的,我們將智能體對齊問題(agent alignment problem)定義如下:

如何創(chuàng)建符合用戶意圖的智能體?

對齊問題可以在強化學習框架中構(gòu)建,不同之處是,智能體可以通過交互協(xié)議與用戶交互,而不是接收數(shù)字獎勵信號。這個交互協(xié)議允許用戶向智能體傳達他們的意圖。協(xié)議可以采用多種形式:例如,用戶可以提供演示、偏好、最佳操作或傳達獎勵函數(shù)。Agent alignment問題的解決方案之一是根據(jù)用戶的意圖行事的策略。

DeepMind的新論文概述了正面解決agent alignment問題的研究方向。基于我們之前對AI安全問題分類的研究,以及對眾多AI安全問題的論述,我們描繪了這些領域的進展如何能夠產(chǎn)生一個解決agent alignment問題的方案。這將為構(gòu)建能夠更好地理解如何與用戶交互、如何從用戶的反饋中學習、以及如何預測用戶偏好的系統(tǒng)打開大門。

通過獎勵模型進行對齊

我們研究方向的要點是基于獎勵建模(reward modeling):訓練一個獎勵模型,其中包含來自用戶的反饋,從而捕捉他們的意圖。與此同時,我們通過強化學習訓練一個策略,使獎勵模型的獎勵最大化。換句話說,我們把學習做什么(獎勵模型)和學習怎么做(策略)區(qū)分開來。

獎勵建模的示意圖:根據(jù)用戶的反饋訓練獎勵模型,以獲取用戶的意圖;這個獎勵模型為經(jīng)過強化學習訓練的智能體提供獎勵。

例如,在以前的工作中,我們教智能體根據(jù)用戶偏好做一個后空翻,根據(jù)目標狀態(tài)示例將對象排列成特定形狀,以及根據(jù)用戶偏好和專家演示玩Atari游戲。未來,我們希望設計能夠?qū)W習適應用戶提供反饋的方式(例如使用自然語言)的算法。

擴大獎勵模型的規(guī)模

從長遠來看,我們希望將獎勵模型的規(guī)模擴大到人類無法直接評估的過于復雜的領域。要做到這一點,我們需要提高用戶評估結(jié)果的能力。我們將討論如何遞歸地應用獎勵建模:可以使用獎勵建建模來訓練agent,讓agent幫助用戶進行評估過程。如果評估比行為更容易,就可以從簡單的任務過渡到更加普遍、更加復雜的任務。這可以看作是一個迭代擴增(iterated amplification)的實例。

遞歸獎勵建模的示意圖:使用遞歸獎勵建模訓練的agent(右邊的小圓圈)幫助用戶評估當前正在訓練的agent(大圓圈)產(chǎn)生的結(jié)果。

例如,假設我們想訓練一個agent來設計計算機芯片。為了評估某個提議的芯片設計,我們使用獎勵建模訓練其他的“helper”智能體,以對芯片的模擬性能進行基準測試、計算散熱、估計芯片的壽命、查找安全漏洞,等等。總的來說,這些helper agents的輸出使用戶能夠通過協(xié)助評估所提議的芯片設計來訓練芯片設計agent。雖然helper agent必須解決一系列非常困難的任務,但這些任務總比直接設計一個芯片更容易執(zhí)行:要設計一個計算機芯片,你必須理解每一項評估任務,但反過來則不然。從這個意義上說,遞歸獎勵建模可以讓我們“支持”agent來解決越來越難的任務,同時保持與用戶意圖一致。

研究挑戰(zhàn)

為了對這些復雜的問題進行獎勵建模,需要解決幾個挑戰(zhàn)性問題。下面列出了其中的五項挑戰(zhàn),論文中對這些挑戰(zhàn)及其解決辦法進行了更深入的描述。

我們希望擴大獎勵建模時遇到的挑戰(zhàn)(左)和有前景的解決方法(右)。

那么就來到了agent alignment的最后一個重要組成部分:在現(xiàn)實世界中部署AI智能體時,我們需要向用戶提供證據(jù),證明我們的智能體確實已經(jīng)充分對齊了。

本文討論了五種不同的研究途徑,可以幫助增加對agent的信任:設計選擇、測試、可解釋性、形式驗證和理論保證。

我們的一個雄心勃勃的目標是制作安全證書(safety certificates):可以用來證明負責任的技術開發(fā)工作,并讓用戶對依賴訓練好的智能體有信心。

未來研究方向

雖然我們相信遞歸獎勵建模是訓練對齊智能體的一個非常有前景的方向,但目前還不知道它可以如何擴展(需要更多的研究)。幸運的是,追求agent alignment還有其他一些研究方向:

模仿學習

短視強化學習(Myopic reinforcement learning)

逆強化學習(Inverse reinforcement learning)

合作逆強化學習

迭代擴增

Debate

Agent foundations

本文進一步探討它們的異同。

正如對計算機視覺系統(tǒng)相對對抗性輸入的魯棒性的積極研究對于當今的ML應用程序是至關重要的一樣,對齊研究對于在復雜的現(xiàn)實世界中部署ML系統(tǒng)也是至關重要的。我們有理由保持樂觀:雖然我們希望在擴大獎勵模型時面對挑戰(zhàn),但這些挑戰(zhàn)是我們可以取得進展的具體技術研究問題。從這個意義上說,我們的研究方向已經(jīng)準備就緒,可以對深度強化學習智能體進行實證研究。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • AI
    AI
    +關注

    關注

    87

    文章

    32370

    瀏覽量

    271481
  • 機器學習
    +關注

    關注

    66

    文章

    8460

    瀏覽量

    133391
  • 智能體
    +關注

    關注

    1

    文章

    192

    瀏覽量

    10710

原文標題:DeepMind重磅論文:通過獎勵模型,讓AI按照人類意圖行事

文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關注!文章轉(zhuǎn)載請注明出處。

收藏 0人收藏

    評論

    相關推薦

    鴻蒙原生應用/元服務開發(fā)-通知添加行為意圖

    方觸發(fā)WantAgent中指定的意圖。例如,在通知消息的發(fā)布者發(fā)布通知時,通常期望用戶可以通過通知欄點擊拉起目標應用組件。為了達成這一目標,開發(fā)者可以將WantAgent封裝至通知消息中,當系統(tǒng)接收
    發(fā)表于 01-05 15:07

    HarmonyOS NEXT應用元服務開發(fā)Intents Kit(意圖框架服務)技能調(diào)用方案概述

    一、概述 技能調(diào)用是意圖框架依托系統(tǒng)AI多模態(tài)大模型能力做深度用戶輸入理解,并通過解析的用戶意圖對接應用或元服務內(nèi)的功能和內(nèi)容。 二、場景體
    發(fā)表于 11-08 15:38

    HarmonyOS NEXT應用元服務開發(fā)Intents Kit(意圖框架服務)綜述

    一、綜述 Intents Kit(意圖框架服務)是HarmonyOS級的意圖標準體系 ,意圖連接了應用/元服務內(nèi)的業(yè)務功能。 意圖框架能幫開發(fā)者將應用/元服務內(nèi)的業(yè)務功能,
    發(fā)表于 11-28 10:43

    氯離子結(jié)構(gòu)示意圖和鈉離子結(jié)構(gòu)示意圖

    氯離子結(jié)構(gòu)示意圖和鈉離子結(jié)構(gòu)示意圖
    發(fā)表于 05-28 22:34 ?5.6w次閱讀
    氯離子結(jié)構(gòu)示<b class='flag-5'>意圖</b>和鈉離子結(jié)構(gòu)示<b class='flag-5'>意圖</b>

    電腦鍵盤示意圖,計算機鍵盤示意圖

    電腦鍵盤示意圖,計算機鍵盤示意圖
    發(fā)表于 03-10 10:51 ?12.7w次閱讀

    飛機示意圖

    飛機示意圖
    發(fā)表于 05-26 15:47 ?2352次閱讀

    基于用戶的隱私消費意圖識別

    不同于已有的顯式消費意圖識別的研究,提出了社會媒體中用戶的隱式消費意圖自動識別方法.該方法將隱式消費意圖識別視作多標記分類問題,并綜合使用了基于用戶
    發(fā)表于 01-08 10:58 ?0次下載
    基于<b class='flag-5'>用戶</b>的隱私消費<b class='flag-5'>意圖</b>識別

    智能的連接問題,如何創(chuàng)建符合人類目標的智能

    長期來看,我們會擴大獎勵建模的規(guī)模,將其應用于人類難以評估的領域。為了做到這一點,我們需要增強用戶衡量輸出的能力。我們討論了如何循環(huán)應用獎勵建模:我們可以用獎勵建模訓練智能,幫助
    的頭像 發(fā)表于 11-24 09:31 ?3435次閱讀

    邏輯示意圖創(chuàng)建技巧

    本文是關于創(chuàng)建邏輯示意圖的特殊主題的集合。這些主題是我多年來一直在腦子里傳播的主題。我希望你發(fā)現(xiàn)它們很有用。
    的頭像 發(fā)表于 09-14 17:46 ?4826次閱讀
    邏輯示<b class='flag-5'>意圖</b>的<b class='flag-5'>創(chuàng)建</b>技巧

    三星電視的智能應答系統(tǒng)

    該項專利技術將語音識別技術和用戶身份特征識別模塊融入到電視機中,將用戶特征和語音命令進行融合,電視機更加智能的理解用戶
    的頭像 發(fā)表于 01-13 16:33 ?2520次閱讀
    三星電視的<b class='flag-5'>智能</b>應答系統(tǒng)

    亞馬遜升級Alexa語音,更好的通過問題預測用戶意圖

    為了 Alexa 語音助理能夠更好地了解用戶的真實意圖,科技巨頭亞馬遜已于近日升級了它的 AI 智能。比如當
    的頭像 發(fā)表于 11-12 14:52 ?1455次閱讀

    華為在HDC 2022發(fā)布全屏意圖搜索 構(gòu)建無界搜索服務體驗

    探索與實踐成果。 意圖搜索:基于意圖理解的服務直達 鴻蒙生態(tài)下,萬物皆服務。華為在HDC上展示的意圖搜索,通過AI將機器視覺能力與用戶
    的頭像 發(fā)表于 11-06 20:09 ?809次閱讀
    華為在HDC 2022發(fā)布全屏<b class='flag-5'>意圖</b>搜索 構(gòu)建無界搜索服務體驗

    人體分割識別圖像:AI智能的認識人類

    人體分割識別圖像是一項關鍵的技術,可以計算機更智能地認識人類。這項技術正在日益成熟,越來越多的應用正在涌現(xiàn)。例如,在醫(yī)療領域中,人體分割技術可以輔助醫(yī)生進行體檢和治療。在人機交互中,人體分割技術
    的頭像 發(fā)表于 04-19 18:02 ?1827次閱讀

    淺析自主、意圖與感性

    意圖和動機是人類行為的兩個重要方面,它們之間有著密切的聯(lián)系。意圖是指一個人有意識地去做一件事情的計劃或行動,而動機則是指一個人內(nèi)心的驅(qū)動力,促使他去做某件事情。
    的頭像 發(fā)表于 07-12 11:32 ?584次閱讀

    愛立信發(fā)布基于AI意圖驅(qū)動運營方案

    日前,愛立信宣布:在其托管服務交付平臺——愛立信運營引擎(Ericsson Operations Engine)中,嵌入了基于AI賦能的意圖驅(qū)動運營方案,為消費者和企業(yè)用戶提供差異化優(yōu)質(zhì)5G服務。
    的頭像 發(fā)表于 02-21 09:15 ?4973次閱讀
    主站蜘蛛池模板: 免费国产成人高清在线观看视频 | 千禧金瓶梅 快播 | 伊人亚洲综合青草青草久热 | 美女也烦恼主题曲 | 最近中文字幕mv手机免费高清 | 中文字幕偷乱免费视频在线 | 久久99精品视频 | 国产精品99久久久久久AV下载 | 日本亚欧热亚洲乱色视频 | 国产传媒18精品A片在线观看 | 久久精品国产福利电影网 | 国产又色又爽又刺激在线播放 | 含羞草免费完整视频在线观看 | 精品日韩视频 | 男女牲交大战免费播放 | 男人J桶女人P视频无遮挡网站 | 免费99精品国产自在现线 | 色久天 | 国产亚洲tv在线观看 | 久久精品电影院 | 色欲AV无码乱码精品国产 | 国产午夜亚洲精品一区 | 国产a在线不卡 | 国产中的精品AV一区二区 | 色精品极品国产在线视频 | 国产亚洲精品视频在线网 | 国产精品99re6热在线播放 | 伊人国产在线播放 | 无码日韩人妻精品久久蜜桃免费 | 1V1各种PLAY女主被肉 | 中文字AV字幕在线观看 | 99热.com| 久久只精品99品免费久 | 亚洲免费无码中文在线亚洲在 | 国产免费阿v精品视频网址 国产免费69成人精品视频 | 久久99精品国产自在自线 | 日韩中文网 | 国产一区二区三区乱码在线观看 | 亚洲高清国产品国语在线观看 | 波多久久亚洲精品AV无码 | 一区二区视频在线观看高清视频在线 |

    電子發(fā)燒友

    中國電子工程師最喜歡的網(wǎng)站

    • 2931785位工程師會員交流學習
    • 獲取您個性化的科技前沿技術信息
    • 參加活動獲取豐厚的禮品