人工智能的學習總是需要大量數據的“喂養”。可是這數據要喂多少才是個頭呢?有沒有什么辦法能在少喂數據的同時,不影響AI的學習能力呢?或者直接把一些學習法則交給AI,讓它們舉一反三?谷歌和亞馬遜的研究人員近來就在琢磨這件事。
谷歌AI:背著有限的數據去探索新環境
來自卡耐基梅隆大學、谷歌和斯坦福大學的研究人員近日在一篇論文中寫道,他們開發出了一種“弱監督”的人工智能訓練框架。該模型會給機器人大量有限的、不精確的、或者是有噪聲的數據,讓它們通過數據學習,更好地探索一些極具挑戰性的環境。值得一提的是,研究人員“喂”給機器人的數據其實并不“完整”,機器人所得到的只是與它們所處的周圍環境直接相關的數據。然而出人意料的是,這套相對較少的數據反而提升了機器人操作任務的訓練效率。
這個名叫“弱監督控制”(Weakly-Supervised Control,后文簡稱為WSC)的框架可以對語料庫進行學習;在學習過程中,智能代理(intelligent agents)可以生成自己的目標并執行探索任務。
從形式上看,該框架整合了“強化學習機制”(一種通過獎勵來激勵完成目標的訓練形式)。但不同的是,傳統的強化學習需要研究人員手動設計獎勵,智能代理獲取獎勵的計算成本很高;與之相比,WSC構建的這種弱監督學習機制是一種能隨著智能代理數據收集的進度而自行伸縮擴展的監督方式。換句話說,該模型給代理們提出的獎勵目標是基于它們的學習能力和進度的。這樣不僅有利于智能代理的學習,對于研究人員來說,他們也不必在智能代理的強化學習循環中不斷增加新標簽了。
譯者注:在人工智能領域,智能代理/智能主體指的是一個能夠觀察周遭環境并為實現具體目標而付出一系列行動的自主實體。它通常是以軟件程序的形式出現的。
在實驗中,研究人員試圖確定弱監督機制對學習一個解纏表現(disentangled state representation)是否足夠必要。他們給幾個模型布置了不同復雜度、基于視覺、以目標為條件的模擬操作任務。在一個環境中,智能代理的任務是將特定的對象移動到目標位置;而在另一個環境中,代理必須打開一扇門,并讓門開的角度符合任務要求。
論文作者表示,WSC比此前最先進的目標導向式強化學習機制的學習速度還要快。特別是當研究人員不斷提升智能代理所處環境復雜性的時候,這種學習速度上的優勢表現的格外明顯。另外,研究人員還指出,對比智能代理的預設目標和其達成目標后的最終形態,WSC的智能代理呈現出了更高的一致性。這表明,代理們通過該機制學到的是可釋性更強的目標達成策略。
不過研究人員也承認,WSC并非沒有局限性。它需要使用者給智能代理們標出各種與下游任務直接相關的各種要素,這就對使用者的專業知識提出了較高要求。此外,專家們還指出,他們目前的實驗都是在預訓練階段完成的,這個階段生成的內容其實并不一定來自代理們與機制中的新要素所產生的互動結果。基于此,他們下一步的工作就是要細致研究弱監督機制的其他形式,看看它們能否給智能代理們提供新的有益信息。
“目前在實驗中的復雜環境里,WSC已經呈現出了令人欣喜的成果。我們有理由相信,未來若能給真實環境下的機器人也應用這種機制,效果會更為喜人。”論文的合著者們寫道,“簡言之,我們相信,這個新框架提供了一個監督通用目標學習機制在復雜環境下進行應用實踐的新視角。”
亞馬遜AI:用元學習機制來學會“舉一反三”
從上面的技術原理來看,谷歌的專家們有點像商人,他們的經營思路是要在降低成本的同時,不影響產品(也就是AI的學習能力)的質量和性能。與之相比,亞馬遜的研究人員更像是個老師,他們致力于“授人以漁”,讓AI學會舉一反三的能力。
在即將到來的ICLR上,亞馬遜的研究人員將提交一份關于元學習任務(meta-learning tasks)如何大幅提升AI學習能力的論文。
所謂元學習任務,即是一種能讓AI在完成相關目標的同時,還能引導其學會如何更好的進行學習的任務模式。亞馬遜的研究者聲稱,他們研發的這種任務模式資源消耗很小:只需少數幾個標簽訓練模板就能讓AI“舉一反三”,完成好一個個新任務。
在傳統的機器學習過程中,模型先是吸納一系列標記數據(支持集,support set),學習如何把標記數據與特征標簽(labels)關聯起來;而后,研究人員再喂給模型一些測試數據(測試集,query set),看看它能否根據此前學到的特征標簽來厘清這些新數據。
與此種方式相反,在元學習機制下,AI模型要同時運用自身訓練數據和研究人員給出的測試數據集來完成任務。在此過程中,模型還可以對兩套數據進行比對。這樣一來,AI在完成任務的同時,也能看得到自身對訓練數據的反應是如何影響其在測試數據上的表現的。
而在第二階段,也就是所謂的元測試階段(meta testing),模型要完成的測試任務與自己此前做的元學習任務有明顯的關聯,卻又并不完全相同。和之前的方法相似,在執行每個新任務的過程中,模型還是能同時看到訓練數據與測試數據,但這一次,特征標簽都是未知的,AI必須通過此前的學習與自己得到的數據來進行判斷,正確找出數據與標簽的關聯性。
在元訓練過程中,研究人員所采用的技術并不需要學習一個完整的全局模型。他們的做法是訓練一個輔助模型,再通過它為每一個任務生成本地模型,并同時確定其所對應的支持集。
在完成上述工作后,他們又準備了一個輔助網絡,目的是充分利用測試集里的未標記數據。這樣到了元測試階段,研究人員就可以用測試集來對前文提到的本地模型進行微調了。
按照該團隊的說法,他們的系統通過一次任務學習就達到了16基線(baselines)。更具體的說,其所應用的新機制提高了AI從一個標記的示例出發,去學習一個新對象分類任務的性能。根據底層AI模型體系結構的不同,這種提升幅度在11%和16%之間。
關于這項技術,Alexa Shopping 應用科學家巴勃羅·加西亞(Pablo Garcia)還在一篇博客中進行了介紹:
“過去10年,深度學習系統已經在很多人工智能任務中取得了非同凡響的巨大成功。但在具體應用層面,其發揮空間一直比較有限。元學習機制有望讓機器學習系統訓練成‘多面手’……該機制的主體思路是讓系統能通過少量標簽訓練示例就能完成一個個新任務。很明顯,如果進展順利,元學習將大幅縮減勞動密集型數據注釋工作的需求。”
-
谷歌
+關注
關注
27文章
6192瀏覽量
105814 -
AI
+關注
關注
87文章
31490瀏覽量
269905 -
亞馬遜
+關注
關注
8文章
2680瀏覽量
83514
發布評論請先 登錄
相關推薦
評論