OpenAI的研究人員開發(fā)了一套基于能量的神經(jīng)網(wǎng)絡(luò)模型,可以快速學(xué)會(huì)識(shí)別并生成關(guān)于概念的實(shí)例,比如附近、上方、之間、最近、最遠(yuǎn)等,并將這些概念用2D點(diǎn)集來表示。模型可以僅在5次演示之后就學(xué)會(huì)這類概念,并實(shí)現(xiàn)了跨領(lǐng)域的概念遷移。
衡量是否達(dá)到人類智能,涉及由有限的經(jīng)驗(yàn),通過抽象推理和規(guī)劃、類比推理、創(chuàng)造性問題解決和語言能力的概括,從而將經(jīng)驗(yàn)整合到概念中,將概念作為理解和推理的基本架構(gòu)。
這款基于能量的新模型,讓智能體能夠從任務(wù)中學(xué)習(xí)和提取概念,并使用這些概念來解決多個(gè)領(lǐng)域中的其他任務(wù)。比如可以在2D粒子環(huán)境中應(yīng)用的學(xué)習(xí)概念,然后在基于3D的機(jī)器人環(huán)境中執(zhí)行相同的任務(wù),無需在新環(huán)境中重新訓(xùn)練。
通過基于能量的模型訓(xùn)練的模擬機(jī)器人,利用不同2D域中學(xué)習(xí)到的概念,將手臂導(dǎo)航至兩點(diǎn)之間
本研究利用能量函數(shù),讓智能體學(xué)習(xí)分類和生成簡(jiǎn)單的概念,來解決在不同環(huán)境中的兩點(diǎn)之間導(dǎo)航等任務(wù)。這些概念包括視覺概念(“紅色”、“正方形”)、空間概念(“內(nèi)部”、“在...之上”)、時(shí)間概念(“慢”、“之后”),社會(huì)概念(“積極”、“有用”)等等。
一旦智能體學(xué)會(huì)了這些概念,就會(huì)成為其理解和推理的基本模塊,最近DeepMind和 Vicarious的一些其他研究也表明了這一點(diǎn)。
能量函數(shù)讓系統(tǒng)可以生成(左)并識(shí)別(右)基本概念,比如“正方形”的概念。
構(gòu)建能量函數(shù):基于關(guān)系網(wǎng)絡(luò)體系結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)
為了創(chuàng)建能量函數(shù),需要在數(shù)學(xué)上將概念表示為能量模型。
我們根據(jù)以下要素來定義每個(gè)概念的能量函數(shù) E(x,a,w):
模型觀察到的世界狀態(tài)(x)
該狀態(tài)下該實(shí)體的注意力掩膜(a)。
作為條件的連續(xù)值向量(w),用于指定計(jì)算能量的概念
世界上的眾多狀態(tài)由多組實(shí)體及其屬性和位置組成(比如下面的點(diǎn),就具有位置和顏色屬性)。用于“識(shí)別”的注意力掩膜表示模型對(duì)某些實(shí)體集的關(guān)注。
能量模型輸出單個(gè)正數(shù),表示滿足相應(yīng)概念(零能量)或不滿足概念(高能量)。當(dāng)注意力掩模集中在表示概念的一組實(shí)體上時(shí),該概念即被滿足,這需要實(shí)體處于正確的位置(修改x、生成概念),而且注意力掩膜關(guān)注的是正確的實(shí)體(修改a、識(shí)別概念)。
我們將能量函數(shù)構(gòu)建為基于關(guān)系網(wǎng)絡(luò)體系結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò),允許其將任意數(shù)量的實(shí)體作為輸入。這個(gè)能量函數(shù)的參數(shù)是由我們的訓(xùn)練程序進(jìn)行優(yōu)化的,其他函數(shù)是從能量函數(shù)中隱式導(dǎo)出的。
這樣,我們能夠使用能量函數(shù)來學(xué)習(xí)可以執(zhí)行生成和識(shí)別的單個(gè)網(wǎng)絡(luò),并可以交叉使用從生成到識(shí)別的學(xué)習(xí)概念,反之亦然。(目前已經(jīng)通過鏡像神經(jīng)元在動(dòng)物身上觀察到了這種效應(yīng)。)
單一網(wǎng)絡(luò)的訓(xùn)練
訓(xùn)練數(shù)據(jù)由(注意掩膜、狀態(tài))的軌跡組成,提前生成的軌跡用于確認(rèn)我們希望模型學(xué)習(xí)的特定概念。我們?yōu)榻o定概念集提供一組演示(通常為5次)來訓(xùn)練模型,然后將模型置于一個(gè)新的環(huán)境(X0),并要求其預(yù)測(cè)下一個(gè)狀態(tài)(X1)和下一個(gè)注意力掩膜(a)。
優(yōu)化能量函數(shù),向訓(xùn)練數(shù)據(jù)中找到的下一個(gè)狀態(tài)和下一個(gè)注意力掩模分配低能量值。與變分自動(dòng)編碼器等生成模型類似,激勵(lì)模型去學(xué)習(xí)那些對(duì)于壓縮任務(wù)方面的有用值。我們使用各種概念來訓(xùn)練模型,包括視覺,空間,遠(yuǎn)近和時(shí)間關(guān)系,以及二維粒子環(huán)境中的量化。
空間區(qū)域概念:給出2D示例點(diǎn)(左),推斷該點(diǎn)上的能量函數(shù)(中間),然后使用能量上的隨機(jī)梯度下降來生成新的點(diǎn)(右)
模型在概念生成和識(shí)別訓(xùn)練中分享經(jīng)驗(yàn),實(shí)現(xiàn)遷移學(xué)習(xí)
我們?cè)谝幌盗腥蝿?wù)中對(duì)模型進(jìn)行了評(píng)估,旨在測(cè)試單一系統(tǒng)識(shí)別和生成相同概念下的目標(biāo)的能力,我們的系統(tǒng)可以學(xué)習(xí)分類,可以生成特定的空間關(guān)系集,還可以以特定方式通過場(chǎng)景對(duì)實(shí)體進(jìn)行導(dǎo)航,或者可以對(duì)數(shù)量(比如一個(gè)、兩個(gè)、三個(gè)或三個(gè)以上)或接近度等概念進(jìn)行比較準(zhǔn)確的判斷。
數(shù)量概念:示例注意力掩膜在一個(gè)、兩個(gè)、三個(gè)或三個(gè)以上的目標(biāo)上的表現(xiàn),可推斷用于生成類似數(shù)量概念的注意力掩模
模型在學(xué)習(xí)概念的生成(通過在狀態(tài)向量x中移動(dòng)目標(biāo)實(shí)現(xiàn))和識(shí)別(通過在固定狀態(tài)向量上更改注意力掩膜實(shí)現(xiàn))之間分享經(jīng)驗(yàn)時(shí)的表現(xiàn)更好:在我們對(duì)共同執(zhí)行這兩類任務(wù)的模型進(jìn)行評(píng)估時(shí)發(fā)現(xiàn),它們的表現(xiàn)都比僅在各自執(zhí)行單一任務(wù)訓(xùn)練的模型更好。
此外,我們還發(fā)現(xiàn)了遷移學(xué)習(xí)的跡象。只在概念識(shí)別環(huán)境中訓(xùn)練過的能量函數(shù),也能很好地執(zhí)行概念生成任務(wù),即使其沒有經(jīng)過明確的訓(xùn)練。
未來方向:進(jìn)一步探索概念和語言理解的關(guān)系
我們很高興能夠在更豐富的三維環(huán)境中學(xué)到的更廣泛的概念,將概念與智能體決策策略相結(jié)合(因?yàn)榈侥壳盀橹梗覀冎皇菍⒏拍钜暈閺谋粍?dòng)體驗(yàn)中學(xué)到的東西),并探索概念和語言理解之間的聯(lián)系。
-
機(jī)器人
+關(guān)注
關(guān)注
211文章
28627瀏覽量
207954 -
神經(jīng)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
42文章
4779瀏覽量
101032 -
智能體
+關(guān)注
關(guān)注
1文章
163瀏覽量
10604
原文標(biāo)題:OpenAI概念學(xué)習(xí)新模型:學(xué)會(huì)概念僅需5次示范,實(shí)現(xiàn)跨領(lǐng)域概念遷移
文章出處:【微信號(hào):AI_era,微信公眾號(hào):新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論