在深度學習剛剛進入視線時,大多數(shù)AI研究人員嗤之以鼻,但短短幾年后,它的觸角已經(jīng)橫跨醫(yī)療、教育、汽車等眾多領域。
AI 在深度學習的加持下,近幾年在人臉識別、圍棋、Dota等任務上屢屢擊敗人類,這種趨勢似乎也在暗示:深度學習就是打開人工智能寶藏的鑰匙。
但也有觀點認為當前深度學習已經(jīng)走到了死胡同,例如全球人工智能計算機視覺領域奠基人之一、約翰霍普金斯大學教授艾倫·尤爾就曾拋出“深度學習在計算機視覺領域的瓶頸已至”的觀點。
本文作者 Randy Laybourne 比較支持尤爾教授觀點,并盤點了20條理由逐一論述深度學習的研究當前已經(jīng)走到了死胡同。AI科技評論作了有刪改的編輯,請欣賞~
1、反向傳播技術只適合狹義AI
反向傳播是深度學習的基本技術,它能夠讓神經(jīng)網(wǎng)絡在訓練過程找到“最優(yōu)解”。但是如果讓訓練好的神經(jīng)網(wǎng)絡執(zhí)行另一項任務或者使用新數(shù)據(jù)時就會發(fā)生災難性遺忘,從而無法完成持續(xù)學習的目標。
當然,你可以減少之前學習任務以及調整網(wǎng)絡結構來解決災難性遺忘,但是如果有新數(shù)據(jù)涌入,則必須增加神經(jīng)元的數(shù)量。
大腦與我們手工設計的神經(jīng)網(wǎng)絡相比有著更多的神經(jīng)元,所以你會認為增加人工神經(jīng)網(wǎng)絡的神經(jīng)元完全沒有問題對吧?
但是你也要明白,大腦具有功能模塊化的特點,它在執(zhí)行任務的時候,每次只調用一小部分神經(jīng)元。而反向傳播在迭代的時候調用的是全部的神經(jīng)元。
另外,大腦模塊化的特點能讓我們人類學習到不同的東西,而且不同模塊之間信息是可以相互交流的。
那么構造多個深度神經(jīng)網(wǎng)絡并讓它們之間互相連接能夠解決問題么?
顯然高級智能的功能遠不止這些。
2、無監(jiān)督學習
大腦在進行學習的時候,并不需要大量的示例,也不需要一個監(jiān)督者在旁邊“叮囑”。大腦的學習方法更加復雜,例如,即使一些“數(shù)據(jù)”沒有打標簽,大腦也能從其中學到一些東西。
當然,我們也不是在模仿翅膀的動作來制造飛行器,但是鳥類卻證明了當克服重力時,比空氣重的物體也能夠飛行,這意味著即使通用人工智能沒有大腦一樣的思考方式,也能夠通過無監(jiān)督的學習方式實現(xiàn)智能。
3、認知圖與路線
當前,深度學習想要掌握更多的是一種認知路線,即從輸入數(shù)據(jù)到輸出的認知途徑,也就是說,深度學習是輸入和輸出之間關聯(lián)記憶的一種形式。
考慮下面一種認知路線的情況:
“徑直穿過森林,看到一條河,然后穿過小河,左轉,在一棵奇怪的樹附近停下來,然后能到山頂上有三塊大石頭的山,最后沿著路上去”
現(xiàn)在的問題是,如果有人砍掉了樹或不知何故搬開了石頭呢?
這就是深度學習的缺點:知識的應用范圍非常狹窄,只適用于一項任務。解決方法是創(chuàng)建一個動態(tài)的地圖,即找到從不同起點到無限終點的多條路線。
這就是狹義AI和通用AI的區(qū)別,這種區(qū)別也深深影響著神經(jīng)網(wǎng)絡的結構。
4、預測過程
我們的大腦總是嘗試主動預測接下來幾秒所發(fā)生的事情,并根據(jù)實際情況調整預測細節(jié)。這也是人類具有強烈好奇心的原因。
除此之前我們人類還有另一個驅動因素,即當我們有著很好的基礎時,我們總想要改善我們關于心理模型的認知地圖-。
人類在面臨未知的時候總是想要找到一個令人滿意的解釋,否則不會停下來。所以說這種預測過程可以節(jié)省我們的精力,也可以激勵我們變得越來越好,能夠擴大我們的知識面和技能,完善我們的知識和技能認知圖。
這也就是說預測性處理是我們直覺的來源。顯然,深度學習缺乏這種預測。
5、高效利用資源
谷歌的TPU
能源的缺乏性沒有人可以否認,我們大腦在處理問題的時候,也會對盡可能多的事情說“不”。具體而言,當大腦處理一個連續(xù)的數(shù)據(jù)流的時候,會經(jīng)過一層過濾裝置,過濾掉無用信息,將重要的信息發(fā)送到大腦皮層。
當在無意識狀態(tài)下處理事情的結果足夠好的時候,大腦就不會切換這種狀態(tài)。當有重要任務要做的時候,大腦會關閉一些默認狀態(tài)下的大型網(wǎng)絡神經(jīng)元,然后開啟中央執(zhí)行網(wǎng)絡。
根據(jù)研究,大腦大概有86~1000億個神經(jīng)元,大多數(shù)被密集的分布在小腦部分,主要負責人體的各項活動。前面也提到,大腦會有選擇的關閉或開啟某些神經(jīng)元,而深度學習則在每一次迭代中都會利用所有的神經(jīng)元,這也是為什么我們至今沒有設計出如此規(guī)模的神經(jīng)元的原因。
另外,深度學習的能源效率很低,以至于在即使最強大的處理器加持下,也無法與運行頻率只有10–40Hz的大腦相提并論。
6、多感官數(shù)據(jù)表示
目前,語音是人工智能最難啃的硬骨頭。雖然我們可以利用AI設計出色的文本生成系統(tǒng),也能夠為人類編撰優(yōu)秀的文本。但這種文本生成系統(tǒng)背后存在“理解”么?還是說只是單詞之間的統(tǒng)計關系。
在小孩子學習語言之前,其實就已經(jīng)受到了許多感官刺激,小孩所接觸的每種含義特征不是某些數(shù)據(jù)集中的相鄰單詞,而是豐富的體驗集,包括視覺,聲音,氣味,味道,觸覺,情感等等。
然后,在這些特征的基礎上,我們貼上正確的標簽,教導孩子進餐,去洗手間或其他任何東西。
另外,即使我們不知道某些“東西”確切的名字,也可以根據(jù)未知對象的屬性與已知類的相似性對其進行分類。例如聲音很容易引起情緒反應,氣味會帶回記憶。
顯然,當前的深度學習的神經(jīng)網(wǎng)絡只是具有強大的單獨處理功能,無法匹配類似的連接。
7、經(jīng)驗豐富
如何向AI解釋這個世界,僅僅讓AI通過靜止圖像或文本數(shù)據(jù)集了解所處的世界,不考慮上下文、背景啥的么?
假設不曾得知“引力”為何物,那么我們該如何教導AI?
如果我們想要具有類人能力的機器,我們必須認識到至少我們的身體和大腦是生物機器。
人類的大腦將無色,無聲和無味的原子渲染成世界,并“解釋編碼”傳入信號,同時創(chuàng)建一個可以讓我們理解的現(xiàn)實模型。
只有這樣我們才會知道在地球上扔東西時,它就會掉落。但是數(shù)字地圖上向下移動的點不受重力影響。顯然數(shù)字世界和物理世界的規(guī)則非常不同。
深度學習能夠教導AI理解這一點么
8、連續(xù)立體聲數(shù)據(jù)流
我們的身體大致具有對稱性,我么擁有雙眼、雙耳、雙手、雙腿,還有兩個大腦半球。這幫助我們以一種新的方式感知世界并與之互動。
立體視覺可以幫助我們測量視覺場景的深度,聲音可以幫助我們定位視覺的來源,大腦的二元性可以幫助我們應對不同心理能力。。。。。。
同時,大腦的連續(xù)性功能使我們確信,前一秒還是你的朋友的那個人仍然是原來的那個人,你不需要通過視覺或聲音屬性再次確認。
大腦會主動預測正在發(fā)生的事情,從而節(jié)省精力,增強信心,并實時學習。
深度學習在目前顯然無法達到。
9、非隨機初始化
人腦的語義空間
人工神經(jīng)網(wǎng)絡的初始化是隨機的,我們使用基于梯度的方法來訓練網(wǎng)絡,并使其在所有值都相同時對網(wǎng)絡進行分解。
可以對神經(jīng)網(wǎng)絡進行優(yōu)化,并強制指定其初始化的方法。但要注意的是,這在有監(jiān)督的環(huán)境中是可以實現(xiàn)的,要想在現(xiàn)實世界中大規(guī)模部署自主AI,顯然隨機初始化可能是最好的選擇。在此類情況下,不管時間和位置如何,我們最好的想法是讓AI以類似方式完成適應過程。
10、將情緒狀態(tài)作為一個通用評價系統(tǒng)
我們或許認為情緒是人類所獨有的,甚至不及硬邏輯。
但是它作為人體中的一個通用評價系統(tǒng),我們能夠很快地通過情緒快速評估自身的狀態(tài):是充滿活力還是歡欣鼓舞,亦或是無比沮喪的低沉狀態(tài)。
無論我們何時要做決定,都要基于我們自身的感受。即便我們要考慮斟酌很久來評估不同的選擇,然而最后,我們還是會選擇我們“感覺起來”最好的那個。
我們已經(jīng)嘗試用強化學習來模擬人類的情緒,然而僅僅也才走出了一小步。
情緒能夠被量化,這是因為他們都是由不同層面的神經(jīng)化學物質所組成的,例如血清素、多巴胺、腎上腺素等等。
我們做出想要戰(zhàn)斗或航行的反應,是因為多巴胺很高,它能夠刺激我們快速執(zhí)行一系列動作。而當去甲腎上腺素低時,我們會感受到害怕的情緒從而試圖逃跑;當去甲腎上腺素高時,我們會找到勇氣去戰(zhàn)斗,或者在極端高時,我們會感受到憤怒或強烈的瘋狂的情緒。
11、數(shù)字化神經(jīng)調質
數(shù)字化神經(jīng)調質可以讓自主的 AI 以跟神經(jīng)調質同樣的方式,打開和關閉大規(guī)模的神經(jīng)子網(wǎng)絡。
在人腦中,高水平的神經(jīng)調質乙酰膽堿會增加與記憶、內部定向認知、思考和推理相關的神經(jīng)元活動。
而多巴胺則會增加外部認知的重要性,并更快地選擇足夠好的動作。
食欲素調節(jié)能量,當我們處于清晰狀態(tài)時,會增加;當我們入睡或產(chǎn)生免疫反應時,則會降低。在自主機器人等設備一直無法連接到電源時,數(shù)字化食欲素有助于實現(xiàn)優(yōu)秀的能量消耗。
人體使用化學物質自動進行自我調節(jié),我認為在這方面,人工智能也存在巨大的可能性。
12、人工直覺
深度學習自身其實僅是處理數(shù)據(jù)的一種方法,從輸入到輸出的一種非常被動的方法。而人類也賦予深度學習一種非常強大的能力,那就是直覺。
在深度學習中當所有條件都匹配時,網(wǎng)絡中神經(jīng)單元會被預先激活,但是最終是否會對現(xiàn)實造成一些影響,我們尚未可知,我們只是感覺到,將會產(chǎn)生一些影響。
人類的意識中也盡是與此相同的機制:腦海中蹦出來的想法不知從何而來,但是大腦會認為這些想法將來是有用的。
直覺能夠幫助我們未雨綢繆,也能夠讓數(shù)據(jù)處理變得更加簡單。例如在深度學習中,如果上下文都是正確的,則可以降低針對目標或聲音識別的閾值,來簡化處理流程。
有時直覺也可能讓我們犯錯,例如我們可能會錯認朋友,或者聽到別人實際上并沒有說過的話。
但是大多數(shù)時候,我們利用直覺節(jié)省了大量的能源,甚至由于直覺發(fā)出了對潛在危險的預警而挽救了數(shù)不盡數(shù)的生命。
13、隱藏的大腦:神經(jīng)膠質細胞
多年來,神經(jīng)膠質細胞一直僅僅被視作大腦的填充物,然而它實際上對大腦的運行有很大的影響作用。人類擁有的神經(jīng)膠質細胞比神經(jīng)元還多,它們支持神經(jīng)元部分、提供營養(yǎng)并通過觸發(fā)免疫反應來處理如有毒的代謝衍生物等垃圾和外部危險。
然而當前的人工神經(jīng)網(wǎng)絡完全不把神經(jīng)膠質細胞當回事。但是,它們可是實實在在控制著神經(jīng)元的啊。
它們除了對神經(jīng)元起到維持作用外,還影響著神經(jīng)元的尖峰,如果應用到深度學習中,有可能還能夠計算數(shù)據(jù)預測的誤差。
星型膠質細胞不受短時期內的電刺激,而是受長時期的化學刺激。它們可以在全局范圍內彼此進行交互,并不僅僅為需要更多資源的地方提供資源,還能改進整個系統(tǒng)的運行。
14、皮層下成分
目前的人工神經(jīng)網(wǎng)絡不僅忽略了星型膠質細胞,而且忽略了皮層下成分。
在處理數(shù)據(jù)時,人腦除了新皮層,還有大量其他的模塊來對其進行支持,如丘腦、海馬體、紋狀體以及杏仁核等等。
它們都在大腦中扮演中非常重要的角色。
沒有海馬體和內嗅皮質,我們就無法記憶,也很難在物理空間進行定位。丘腦過濾數(shù)據(jù),并將數(shù)據(jù)傳輸?shù)酱竽X的正確部位。紋狀體和杏仁核則能夠調節(jié)對輸入數(shù)據(jù)做出的反應。
屏狀體也是大腦中一個非常有意思的部分。科學家們發(fā)現(xiàn),當受到電刺激時,它會充當意識的“開關”。
相關閱讀:
https://www.newscientist.com/article/mg22329762-700-consciousness-on-off-switch-discovered-deep-in-brain/
15、因果推理
人類擁有的強大能力之一,便是因果推理。
我們可以通過做心理模擬——想象或回想整個過程的步驟,在大腦中找到導致某個結果可能存在的原因。
而關聯(lián)性并不就是指因果關系,正如一句名言所說的:僅僅使用統(tǒng)計學是遠不夠的,我們還需要用到關系、豐富的語境信息和多感官體驗。
16、心理模擬器
如文章開頭所提到的,人腦實際上是從無色、無味、無聲音的原子來呈現(xiàn)現(xiàn)實世界的。
這是因為它如此擅長這種呈現(xiàn)方式,并且還能夠模擬未曾發(fā)生過的事情。而這也是我們的想象力之所以存在,并且還會做夢的原因。
它讓我們在現(xiàn)實世界中不受任何損失地體驗和學習。這種心理模擬器也是意識型體驗的基礎。
人類創(chuàng)造了很多抽象的事物,這些都僅存在于我們的腦海中。我們在真正動手發(fā)明某些東西前,會先在腦海中進行想象。這也是人類進化擁有比其他生物更好的優(yōu)勢的源泉所在
在未來的通用人工智能框架中,我們需要用到心理模擬器!
17、增量學習
增量學習的方法,與用固定的數(shù)據(jù)集來訓練神經(jīng)網(wǎng)絡的方法完全相反。
這種方法可以讓機器一直學習到新的東西,并且不斷更新現(xiàn)有的知識來進行自我提高。
當然,我們可以總是用新的數(shù)據(jù)來重新訓練模型,但是這種做法會讓資源利用效率低下,而采用更大的神經(jīng)架構來訓練模型,則一直以來都存在問題。
直觀上,雖然增量學習會導致所謂的過擬合,但是現(xiàn)在已經(jīng)有很多技術能夠解決這一問題。并且,將足夠多的數(shù)據(jù)增量添加到記憶中的增量學習方法,要更簡單得多。
人類并非天地萬物的主宰,我們擅長處理自身已有足夠多經(jīng)驗的事情,并且還可以隨時更新心理模型來選擇更好的解決方案。
18、終極算法
我認為,我們能夠找到最終算法,開啟推動人工智能發(fā)展的鑰匙。
到那時,數(shù)據(jù)處理將會變得不同,所謂的超參數(shù)在不同情況下也會各不相同,然而,整個人工皮層中的算法可能卻是一樣的,它們決定哪些是高度相關、哪些的相關性較低,哪些需要記住、哪些舍棄。以及,哪些要被記成反面案例。
19、硬件:專用處理單元
一般用途的處理單元如CPU,不如專用處理單元的效率高。為了達到復雜的認知結構所需要的效率,處理單元需要足夠的并行性。
由于抽象層諸多,當計算機運行某些任務時,比如圖形用戶界面、框架和開發(fā)庫、操作系統(tǒng)以及給機器代碼編程語言等,處理單元會在這些抽象層之間轉換。并且,這樣做非常費時間。
讓它乘以每秒數(shù)十億次運行,你就能夠對處理單元的運行情況有一個較為全面的了解。
編程語言有助于原型設計和實驗,能夠讓解決方法適應我們的需求。但是編程語言的重要部分需要在處理單元執(zhí)行,就像每個CPU內部都有算術邏輯單元一樣。
我們需要在硬件中實現(xiàn)關鍵的算法,現(xiàn)在許多公司都已經(jīng)開始在嘗試實現(xiàn)這一點,但是他們嘗試的方向是否正確呢?
20、自組裝還是人為構建?
大腦復雜非常,人類至今也尚未能完全理解人腦。不僅如此,現(xiàn)在關于大腦架構的很多研究結果還存在矛盾。我們不能僅僅依靠神經(jīng)科學來開發(fā)通用人工智能。
但是我們可以理解大腦的高級功能,例如這些功能能做什么以及或多或少能怎么做。
由于大腦就是一個自組裝的處理單元,根據(jù)自身的生理和心理需求和局限性來做各種事情。許多觀察到的行為或屬性都與該結構運行和生存所需的實際情況,息息相關,而不是因為它需要實現(xiàn)更高水平的智能。
讓神經(jīng)科學、計算機科學和數(shù)學之間達成正確的平衡,有助于我們最終開發(fā)出擁有與人類一樣的能力的機器。
總結
尤其是近幾年來,所有這些技術都取得了巨大的進展。我們很容易忽略,與我們未來人類將取得的成就相比,現(xiàn)在 AI 領域還尚處于“石器時代”。
計算時代才剛剛開始,換個看待當下 AI 發(fā)展的視角,將為我們帶來更加廣闊的視野。能將我們帶向未來某處的事物,往往與將再度推動我們向前邁進一大步的不同。
當某個人做了一些與其他人稍有不同的事情而擴展了人類的視野時,人類進化往往會實現(xiàn)一次巨大的飛躍。
同樣地,我認為,我們通過盡可能尋找不同的方法來做人工智能研究時,最終能夠讓人工智能領域取得巨大的進展。
責任編輯:ct
評論
查看更多