一個(gè)關(guān)于計(jì)算機(jī)如何學(xué)習(xí)的新理論的藍(lán)圖正在形成,其影響甚至比登月更大!研究人員正試圖解釋神經(jīng)網(wǎng)絡(luò)工作原理,并保證如果以規(guī)定的方式構(gòu)建一個(gè)神經(jīng)網(wǎng)絡(luò),它就能夠執(zhí)行特定的任務(wù)。
深度學(xué)習(xí)需要更多的理論!
這是學(xué)術(shù)界的一個(gè)共識(shí)。神經(jīng)網(wǎng)絡(luò)十分強(qiáng)大,但往往不可預(yù)測(cè)。
現(xiàn)在,谷歌大腦、FAIR、德州農(nóng)工大學(xué)等的數(shù)學(xué)家們?cè)噲D深究神經(jīng)網(wǎng)絡(luò)的理論基礎(chǔ),開始揭示神經(jīng)網(wǎng)絡(luò)的形式如何影響其功能。
我們對(duì)神經(jīng)網(wǎng)絡(luò)幾乎一無(wú)所知
設(shè)計(jì)一座摩天大樓時(shí),我們會(huì)要求它符合規(guī)范:塔臺(tái)要能支撐一定程度的重量,并且要能承受一定強(qiáng)度的地震。
但是,對(duì)于現(xiàn)代世界最重要的技術(shù)之一,我們實(shí)際上是在盲目地建造。我們使用各種不同的設(shè)計(jì),使用不同的設(shè)置進(jìn)行修補(bǔ),但在將它拿出來(lái)進(jìn)行測(cè)試運(yùn)行之前,我們并不真正知道它能做什么,也不知道它會(huì)在哪個(gè)地方失敗。
這項(xiàng)技術(shù)就是神經(jīng)網(wǎng)絡(luò),它是當(dāng)今最先進(jìn)的人工智能系統(tǒng)的基礎(chǔ)。神經(jīng)網(wǎng)絡(luò)正越來(lái)越多地進(jìn)入社會(huì)的核心領(lǐng)域:它們通過(guò)社交媒體的信息流決定了我們對(duì)世界的了解,它們幫助醫(yī)生診斷疾病,它們甚至影響一個(gè)被判犯罪的人是否要被收監(jiān)。
然而,“最接近事實(shí)的情況是,我們對(duì)神經(jīng)網(wǎng)絡(luò)的實(shí)際運(yùn)作方式幾乎一無(wú)所知,也不知道什么才是真正有洞察力的理論,”德州農(nóng)工大學(xué)數(shù)學(xué)家、FAIR的訪問(wèn)科學(xué)家Boris Hanin說(shuō)。
他將這種情況與另一種革命性技術(shù)的發(fā)展進(jìn)行類比:蒸汽機(jī)。最初,蒸汽機(jī)除了抽水之外沒(méi)有別的用處。后來(lái),蒸汽機(jī)開始為火車提供動(dòng)力,這可能是現(xiàn)在復(fù)雜的神經(jīng)網(wǎng)絡(luò)已經(jīng)達(dá)到的水平。再后來(lái),科學(xué)家和數(shù)學(xué)家們發(fā)展了熱力學(xué)理論,得以準(zhǔn)確地理解任何類型的發(fā)動(dòng)機(jī)內(nèi)部的運(yùn)作方式。最終,這些知識(shí)將人類帶到了月球。
“首先,你要有很棒的工程,你要有一些很棒的火車,然后你需要一些理論上的理解才能造出火箭和飛船,”Hanin說(shuō)。
在龐大的神經(jīng)網(wǎng)絡(luò)研究社區(qū)中,有一小群具有數(shù)學(xué)意識(shí)的研究人員正試圖構(gòu)建神經(jīng)網(wǎng)絡(luò)理論——一個(gè)可以解釋神經(jīng)網(wǎng)絡(luò)是如何工作,并保證如果你以規(guī)定的方式構(gòu)建一個(gè)神經(jīng)網(wǎng)絡(luò),它就能夠執(zhí)行特定的任務(wù)的理論。
這項(xiàng)工作仍處于早期階段,但在去年,研究人員已經(jīng)發(fā)表了幾篇論文,詳細(xì)闡述了神經(jīng)網(wǎng)絡(luò)中形式和功能之間的關(guān)系。這項(xiàng)工作一直深究神經(jīng)網(wǎng)絡(luò)的基礎(chǔ),表明在你能證明神經(jīng)網(wǎng)絡(luò)可以駕駛汽車之前,你需要證明它們能夠做乘法運(yùn)算。
如何設(shè)計(jì)一個(gè)神經(jīng)網(wǎng)絡(luò)
神經(jīng)網(wǎng)絡(luò)的目標(biāo)是模仿人類的大腦——思考大腦的一種方式是將較小的抽象概念加積到更大的抽象概念。在這個(gè)觀點(diǎn)中,思維的復(fù)雜性是由你可以利用的更小抽象的范圍,以及你可以將低級(jí)抽象組合成高級(jí)抽象的次數(shù)來(lái)衡量的——就像我們學(xué)習(xí)區(qū)分狗和鳥的方式一樣。
“對(duì)于人類來(lái)說(shuō),如果你正在學(xué)習(xí)如何識(shí)別一只狗,你就要學(xué)會(huì)識(shí)別四條腿,它們是毛茸茸的,”康奈爾大學(xué)計(jì)算機(jī)科學(xué)博士生、谷歌大腦研究員Maithra Raghu說(shuō):“理想情況下,我們希望我們的神經(jīng)網(wǎng)絡(luò)同樣能夠這樣做。”
Maithra Raghu,谷歌大腦成員,致力于尋找解釋神經(jīng)網(wǎng)絡(luò)如何運(yùn)作的原理(photo: Arun Chaganty)
抽象對(duì)于人類大腦來(lái)說(shuō)是天性。神經(jīng)網(wǎng)絡(luò)必須學(xué)會(huì)抽象。就像大腦一樣,神經(jīng)網(wǎng)絡(luò)是由被稱為“神經(jīng)元”的構(gòu)建塊組成的,這些構(gòu)建塊以不同的方式連接在一起。(神經(jīng)網(wǎng)絡(luò)中的神經(jīng)元受到大腦神經(jīng)元的啟發(fā),但并不直接模仿大腦神經(jīng)元。)每個(gè)神經(jīng)元可能代表網(wǎng)絡(luò)在每個(gè)抽象層次上考慮的一個(gè)屬性,或多個(gè)屬性的組合。
在將這些神經(jīng)元連接在一起時(shí),工程師們有很多選擇。他們必須決定這個(gè)網(wǎng)絡(luò)應(yīng)該有多少層神經(jīng)元(或者它應(yīng)該有多“深”)。例如,假設(shè)有一個(gè)神經(jīng)網(wǎng)絡(luò),它的任務(wù)是識(shí)別圖像中的物體。圖像在第一層被輸入系統(tǒng)。在下一層,網(wǎng)絡(luò)中可能有只是簡(jiǎn)單地檢測(cè)圖像中的邊緣的神經(jīng)元。再下一層結(jié)合線條來(lái)識(shí)別圖像中的曲線。然后再下一層,將曲線組合成形狀和紋理。最后一層處理形狀和紋理,得出它看到圖像中有什么的結(jié)論:長(zhǎng)毛猛犸象!
“這里的想法是,每一層都結(jié)合了前一層的幾個(gè)方面。一個(gè)圓在許多不同的地方是曲線,一條曲線在許多不同的地方是直線,”賓夕法尼亞大學(xué)的數(shù)學(xué)家David Rolnick說(shuō)。
工程師還必須決定每一層的“寬度”,它對(duì)應(yīng)于網(wǎng)絡(luò)在每個(gè)抽象級(jí)別上考慮的不同特性的數(shù)量。在圖像識(shí)別的情況下,層的寬度是它在每個(gè)層上考慮的線、曲線或形狀的類型的數(shù)量。
除了網(wǎng)絡(luò)的深度和寬度之外,還可以選擇如何在層內(nèi)和層間連接神經(jīng)元,以及為每個(gè)連接賦予多少權(quán)重。
因此,如果你有一個(gè)特定的任務(wù),你怎么知道哪個(gè)神經(jīng)網(wǎng)絡(luò)架構(gòu)能最好地完成這個(gè)任務(wù)呢?
有一些寬泛的經(jīng)驗(yàn)法則。比如說(shuō),對(duì)于圖像相關(guān)的任務(wù),工程師通常使用“卷積”神經(jīng)網(wǎng)絡(luò),這種網(wǎng)絡(luò)的特點(diǎn)是層與層之間相同的連接模式不斷重復(fù)。對(duì)于自然語(yǔ)言處理任務(wù) ——比如語(yǔ)音識(shí)別或語(yǔ)言生成——工程師們發(fā)現(xiàn)“循環(huán)”神經(jīng)網(wǎng)絡(luò)似乎性能最好。在這些網(wǎng)絡(luò)中,神經(jīng)元可以連接到非相鄰的層。
如何設(shè)計(jì)一個(gè)神經(jīng)網(wǎng)絡(luò)
Lucy Reading-Ikkanda/Quanta Magazine
然而,除了這些一般指導(dǎo)原則之外,工程師們很大程度上還必須在依賴實(shí)驗(yàn)證據(jù):他們要運(yùn)行1000個(gè)不同的神經(jīng)網(wǎng)絡(luò),然后觀察哪一個(gè)能夠完成任務(wù)。
“這些選擇往往是在實(shí)踐中反復(fù)試驗(yàn)后做出的,” Hanin說(shuō):“這是一種很艱難的方法,因?yàn)橛袩o(wú)限多的選擇,一個(gè)人真的不知道那個(gè)選擇是最好的。”
一種更好的方法是減少反復(fù)試驗(yàn),多預(yù)先了解給定的神經(jīng)網(wǎng)絡(luò)架構(gòu)會(huì)帶來(lái)什么。最近發(fā)表的幾篇論文將這個(gè)領(lǐng)域推向了這個(gè)方向。
“可以這么說(shuō),這項(xiàng)工作試圖開發(fā)一本設(shè)計(jì)正確神經(jīng)網(wǎng)絡(luò)的食譜。如果你知道你想從網(wǎng)絡(luò)中獲得什么,那么這就是這個(gè)網(wǎng)絡(luò)的配方,”Rolnick說(shuō)。
讓神經(jīng)網(wǎng)絡(luò)無(wú)限窄、無(wú)限深
神經(jīng)網(wǎng)絡(luò)架構(gòu)最早的一個(gè)重要理論保證出現(xiàn)在30年前。1989年,計(jì)算機(jī)科學(xué)家證明,如果一個(gè)神經(jīng)網(wǎng)絡(luò)只有一個(gè)計(jì)算層,但這一層有無(wú)限數(shù)量的神經(jīng)元,它們之間有無(wú)限的連接,那么這個(gè)網(wǎng)絡(luò)將能夠執(zhí)行你要求它做的任何任務(wù)。
這是一個(gè)籠統(tǒng)的陳述,結(jié)果相當(dāng)直觀,但不怎么有用。這就好比說(shuō),如果你能在一張圖像中識(shí)別出無(wú)限多的線條,你就可以只用一個(gè)層來(lái)區(qū)分所有的對(duì)象。這在原則上可能是正確的,但在實(shí)踐中,祝您好運(yùn)。
今天的研究人員將這種寬而平的網(wǎng)絡(luò)描述為“富有表現(xiàn)力的”(expressive),這意味著它們理論上能夠在可能的輸入(例如圖像)和輸出(例如圖像描述)之間捕獲更豐富的一組連接。然而,這些網(wǎng)絡(luò)是極其難以訓(xùn)練的,這意味著幾乎不可能教他們?nèi)绾螌?shí)際產(chǎn)生這些輸出。它們的計(jì)算量也超過(guò)了任何計(jì)算機(jī)可以處理的程度。
德州農(nóng)工大學(xué)的數(shù)學(xué)家Boris Hanin研究了神經(jīng)網(wǎng)絡(luò)中深度和寬度之間的權(quán)衡(Intel AI One Tree Studio)
最近,研究人員一直試圖弄清楚他們能在多大程度上將神經(jīng)網(wǎng)絡(luò)推向另一個(gè)方向——通過(guò)使神經(jīng)網(wǎng)絡(luò)更窄(每層的神經(jīng)元更少)和更深(整體的層數(shù)更多)。這樣,也許你只需要挑選100條不同的線,但可以利用連接把這100條線變成50條曲線,然后把它們組合成10種不同的形狀,這些形狀可以為你提供識(shí)別大多數(shù)物體所需的所有構(gòu)建塊。
麻省理工學(xué)院的Rolnick和Max Tegmark去年發(fā)表了一篇題為The power of deeper networks for expressing natural functions的論文,證明通過(guò)增加深度和減少寬度,可以用指數(shù)級(jí)更少的神經(jīng)元來(lái)執(zhí)行同樣的功能。他們表明,如果你正在建模的情況有100個(gè)輸入變量,你可以使用一層中2 的100次方個(gè)神經(jīng)元,或兩層中2的10次方個(gè)神經(jīng)元獲得同樣的可靠性。
“神經(jīng)網(wǎng)絡(luò)中depth這個(gè)概念與這樣一種想法有關(guān),即你可以通過(guò)按順序做許多簡(jiǎn)單的事情來(lái)表達(dá)一些復(fù)雜的事情,”Rolnick說(shuō):“這就像一條裝配線。”
Rolnick和Tegmark通過(guò)讓神經(jīng)網(wǎng)絡(luò)執(zhí)行一個(gè)簡(jiǎn)單的任務(wù)來(lái)證明深度的效用:乘法多項(xiàng)式函數(shù)。(這些方程的特征是變量取自然數(shù)的指數(shù),比如y = x3 + 1)他們通過(guò)向網(wǎng)絡(luò)展示方程及其乘積的例子來(lái)訓(xùn)練網(wǎng)絡(luò)。然后,他們要求這些網(wǎng)絡(luò)計(jì)算他們之前沒(méi)有見過(guò)的方程式的乘積。結(jié)果顯示,相比更淺的網(wǎng)絡(luò),更深的神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)這個(gè)任務(wù)使用的神經(jīng)元要少得多。
雖然乘法并不是一項(xiàng)轟動(dòng)世界的任務(wù),但Rolnick表示,這篇論文提出了一個(gè)重要的觀點(diǎn):“如果一個(gè)淺層的網(wǎng)絡(luò)連乘法都不會(huì)做,那么我們就不應(yīng)該在任何事情上相信它。”
賓夕法尼亞大學(xué)數(shù)學(xué)家David Rolnick證明,增加網(wǎng)絡(luò)的深度可以讓網(wǎng)絡(luò)以更少的神經(jīng)元完成任務(wù)。(Stephanie Ku)
其他研究人員一直在探索神經(jīng)網(wǎng)絡(luò)所需的最小寬度。9月底,曾任俄克拉荷馬州立大學(xué)數(shù)學(xué)家、現(xiàn)為賽諾菲制藥公司研究員的Jesse Johnson證明,在某個(gè)特定點(diǎn)上,再大的深度也無(wú)法彌補(bǔ)寬度的不足。
為了理解他的結(jié)論,讓我們想象一下牧場(chǎng)里的綿羊,但這些是朋克搖滾羊:他們的羊毛被染成了各種各樣的顏色。你的神經(jīng)網(wǎng)絡(luò)的任務(wù)是在所有相同顏色的羊周圍畫一個(gè)框。這個(gè)任務(wù)類似于圖像分類:網(wǎng)絡(luò)有一個(gè)圖像集(表示為高維空間中的點(diǎn)),它需要將相似的圖像分組在一起。
Johnson證明,當(dāng)層的寬度小于或等于輸入的數(shù)量時(shí),神經(jīng)網(wǎng)絡(luò)就會(huì)在這個(gè)任務(wù)中失敗。因此,對(duì)于朋克搖滾羊這個(gè)任務(wù)來(lái)說(shuō),每只羊都可以用兩個(gè)輸入來(lái)描述:一個(gè)x坐標(biāo)和一個(gè)y坐標(biāo),用來(lái)指定它在牧場(chǎng)的位置。然后,神經(jīng)網(wǎng)絡(luò)給每只羊標(biāo)上顏色標(biāo)簽,并在相同顏色的羊周圍畫上邊框。在這種情況下,每層需要三個(gè)或更多的神經(jīng)元才能解決這個(gè)問(wèn)題。
更具體地說(shuō),Johnson證明如果寬度與變量之間的比率沒(méi)有了,神經(jīng)網(wǎng)絡(luò)將無(wú)法實(shí)現(xiàn)一個(gè)閉環(huán)——比如說(shuō),如果所有紅色的羊聚集在牧場(chǎng)中央,神經(jīng)網(wǎng)絡(luò)將需要繪制出這樣的循環(huán)。Johnson說(shuō):“如果所有層中沒(méi)有任何一層的神經(jīng)元數(shù)量比輸入維數(shù)更大,那么無(wú)論添加多少層,函數(shù)都無(wú)法創(chuàng)建某些形狀。”
Johnson他們的論文、以及更多這樣的論文正開始構(gòu)建神經(jīng)網(wǎng)絡(luò)理論的雛形。目前,研究人員只能對(duì)架構(gòu)和函數(shù)之間的關(guān)系做出非常基本的斷言,而這些斷言與神經(jīng)網(wǎng)絡(luò)所承擔(dān)的任務(wù)的數(shù)量相比只占很小的比例。
因此,盡管神經(jīng)網(wǎng)絡(luò)理論不會(huì)很快改變系統(tǒng)構(gòu)建的方式,但一個(gè)關(guān)于計(jì)算機(jī)如何學(xué)習(xí)的新理論的藍(lán)圖正在形成——一個(gè)將人類帶上更偉大旅程的藍(lán)圖,其影響甚至比將人類帶上月球更大。
-
神經(jīng)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
42文章
4779瀏覽量
101059 -
人工智能
+關(guān)注
關(guān)注
1795文章
47642瀏覽量
239768 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5512瀏覽量
121430
原文標(biāo)題:影響堪比登月!谷歌等探索深度學(xué)習(xí)新理論藍(lán)圖,讓神經(jīng)網(wǎng)絡(luò)更深更窄
文章出處:【微信號(hào):AI_era,微信公眾號(hào):新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論