傳統(tǒng)機(jī)器學(xué)習(xí)正在凸顯它的不足。為了解決此問(wèn)題,伯克利大學(xué)人工智能實(shí)驗(yàn)室教授繼2017年提出元學(xué)習(xí)后,又提出在線元學(xué)習(xí)。不僅可以解決傳統(tǒng)學(xué)習(xí)的不足,同時(shí)也彌補(bǔ)了元學(xué)習(xí)缺乏持續(xù)學(xué)習(xí)的缺陷。
傳統(tǒng)的機(jī)器學(xué)習(xí)研究模式需要獲取特定任務(wù)的大型數(shù)據(jù)集,然后利用這個(gè)數(shù)據(jù)集從頭開(kāi)始訓(xùn)練模型。面對(duì)數(shù)據(jù)量不足的新任務(wù)時(shí),這種方式顯然無(wú)法勝任。
如何使神經(jīng)網(wǎng)絡(luò)不僅能夠從一個(gè)學(xué)習(xí)任務(wù),概括到另一個(gè)學(xué)習(xí)任務(wù)?而且隨著時(shí)間的推移,不斷提高通用新任務(wù)的概括能力?
解決上述問(wèn)題的新理論:在線元學(xué)習(xí)
最近,伯克利大學(xué)人工智能實(shí)驗(yàn)室,Sergey Levine教授和同事切爾西·芬恩博士、領(lǐng)先的機(jī)器學(xué)習(xí)理論專家Sham Kakade及其學(xué)生、華盛頓大學(xué)的Aravind Rajeswaran,進(jìn)行了一些非常有趣的工作。
Levine教授多年來(lái)一直致力于將機(jī)器人技術(shù),更多地轉(zhuǎn)向一種綜合“學(xué)習(xí)”方法:即讓機(jī)器人或智能體,學(xué)會(huì)“學(xué)習(xí)”(Learning to learn),即“元學(xué)習(xí)”。
元學(xué)習(xí)中,神經(jīng)網(wǎng)絡(luò)在某種意義上是對(duì)某些任務(wù)進(jìn)行預(yù)先訓(xùn)練的,然后允許它實(shí)現(xiàn)一種技能轉(zhuǎn)移,使用新的、不同于訓(xùn)練好的數(shù)據(jù)進(jìn)行測(cè)試。此舉的目標(biāo),是訓(xùn)練計(jì)算機(jī)能夠處理前所未有的新任務(wù)。
要完成我們開(kāi)頭描述的新挑戰(zhàn),需要將所需的數(shù)據(jù)量盡可能的減少,以應(yīng)對(duì)神經(jīng)網(wǎng)絡(luò)面臨的一些新任務(wù),例如可能沒(méi)有大量可用的訓(xùn)練數(shù)據(jù),或者沒(méi)有大量已標(biāo)記的訓(xùn)練數(shù)據(jù)。
在arXiv的一篇“在線元學(xué)習(xí)”論文中,作者描述了實(shí)現(xiàn)的可能性。(鏈接地址在文末)。與在線元學(xué)習(xí)并行的是,計(jì)算機(jī)正在學(xué)習(xí)如何及時(shí)擴(kuò)展其對(duì)實(shí)例的理解,從某種意義上提高其理解能力。
此項(xiàng)研究已經(jīng)與Levine的其他工作相呼應(yīng),例如哪些更接近機(jī)器人技術(shù)本身的成果。
了解在線元學(xué)習(xí)
在線元學(xué)習(xí)的誕生之前,Levine和他的團(tuán)隊(duì)在2017年開(kāi)發(fā)了一個(gè)廣泛的系統(tǒng),稱為“模型無(wú)關(guān)的元學(xué)習(xí)(MAML)”。
這種方法可以匹配任何使用梯度下降算法訓(xùn)練的模型,并能應(yīng)用于各種不同的學(xué)習(xí)問(wèn)題,如分類、回歸和強(qiáng)化學(xué)習(xí)等。
但MAML有一個(gè)弱點(diǎn):它的概括能力在初始預(yù)訓(xùn)練后基本停止,隨著時(shí)間的推移,失去了適應(yīng)能力。
為了解決這個(gè)問(wèn)題,作者借鑒了另一條長(zhǎng)長(zhǎng)的研究線索:在線學(xué)習(xí)。
在線學(xué)習(xí)中,神經(jīng)網(wǎng)絡(luò)通過(guò)比較每個(gè)新任務(wù)的參數(shù)中,不同的可能設(shè)置之間的差別,來(lái)進(jìn)行不斷優(yōu)化。
該神經(jīng)網(wǎng)絡(luò)尋求以這種方式找到其參數(shù)的解決方案,將任務(wù)的實(shí)際性能與最佳性能之間的差異,即最小化“regret”。
作者提出了“follow the meta-leader”算法,這是一個(gè)將“元學(xué)習(xí)”這個(gè)術(shù)語(yǔ)與最成功的“在線學(xué)習(xí)”算法相結(jié)合的詞匯。
值得一提的是,“follow the leader”的,最早是在20世紀(jì)50年代,Jim Hannan為博弈論領(lǐng)域。
智能體被賦予一系列任務(wù),這些任務(wù)在一輪又一輪不斷的進(jìn)行。例如經(jīng)典MNIST數(shù)據(jù)集中的數(shù)字圖像,或者對(duì)場(chǎng)景中的對(duì)象執(zhí)行“姿勢(shì)預(yù)測(cè)”,或?qū)ξ矬w進(jìn)行分類。
每輪結(jié)束之后,智能體試圖通過(guò)fine-tune,使得其隨時(shí)間發(fā)展的權(quán)重或參數(shù),達(dá)成regret最小化的目的。
而所有這一切都通過(guò)經(jīng)典的神經(jīng)網(wǎng)絡(luò)優(yōu)化方法,隨機(jī)梯度下降來(lái)實(shí)現(xiàn)。作者將這些任務(wù)與先前的方法相比后,展示了了一些令人印象深刻的基準(zhǔn)測(cè)試結(jié)果。
在線元學(xué)習(xí)的缺陷
論文最后得出的觀點(diǎn)是:這種方法在某種意義上說(shuō),是站在一種更偏自然過(guò)程的角度,來(lái)實(shí)現(xiàn)理想的現(xiàn)實(shí)世界學(xué)習(xí)過(guò)程,因?yàn)樗芭c不斷變化的環(huán)境相互作用的智能體”。
正如作者提到,這個(gè)事實(shí)“應(yīng)該利用流算法的經(jīng)驗(yàn)來(lái)掌握手頭的任務(wù),并且在未來(lái)學(xué)習(xí)新任務(wù)時(shí)變得更加熟練。”
但是,萬(wàn)事都不是完美的。在線元學(xué)習(xí)也有一些弱項(xiàng),算力就是一個(gè)非常典型的例子。
將來(lái)需要進(jìn)行一些改進(jìn)以維護(hù)過(guò)去任務(wù)的數(shù)據(jù),從而得出一些使用“更便宜算力”的算法。
可擴(kuò)展性也是一個(gè)非常大的問(wèn)題。作者說(shuō)雖然這種方法可以有效地按順序,學(xué)習(xí)近100項(xiàng)任務(wù)而不會(huì)對(duì)計(jì)算或內(nèi)存造成重大負(fù)擔(dān),但可擴(kuò)展性仍然是一個(gè)問(wèn)題。
-
神經(jīng)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
42文章
4775瀏覽量
100918 -
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8428瀏覽量
132807
原文標(biāo)題:在線元學(xué)習(xí):通過(guò)持續(xù)元學(xué)習(xí)解決傳統(tǒng)機(jī)器學(xué)習(xí)方式的致命不足
文章出處:【微信號(hào):AI_era,微信公眾號(hào):新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論