深度網絡,顧名思義,就是有“很多”層的網絡。
那么到底多少層算深度呢?這個問題可能沒有一個明確的答案。某種意義上,這個問題類似“有多少粒沙子才能算沙丘”。但是,一般而言,我們把有兩層或兩層以上隱藏層的網絡叫做深度網絡。相反,只有一個隱藏層的網絡通常被認為是“淺度網絡”。當然,我懷疑我們也許會經歷網絡層數的通貨膨脹。十年之后,人們也許會認為10層隱藏層的網絡都是“淺度網絡”,只適合幼兒園小孩做練習用。非正式的說法,“深度”暗示應對這樣的網絡比較困難。
但是,你真正想問的問題,其實是為什么更多的隱藏層有用?
多少讓人吃驚的是,其實沒人知道真正的原因。下面我將簡要地介紹一些常見的解釋,但是這些解釋的真實性還不能令人信服。我們甚至都不能確信更多的層真的起到了作用。
我說這讓人吃驚,是因為深度學習在業界非常流行,年年在圖像辨識、圍棋、自動翻譯等很多領域突破記錄。然而我們卻始終不清楚深度學習的效果為什么這么好。
通用逼近理論(universal approximation theorem)表明,一個“淺度”神經網絡(有一個隱藏層的神經網絡)可以逼近任何函數,也就是說,淺度神經網絡原則上可以學習任何東西。因此可以逼近許多非線性激活函數,包括現在深度網絡廣泛使用的ReLu函數。
既然如此,為什么大家還要用深度網絡?
好吧,一個樸素的回答是因為它們效果更好。下圖是Goodfellow等著《深度學習》中的一張圖片,表明對某個特定問題而言,隱藏層越多,精確度越高。在其他許多任務和領域中同樣可以觀察到這個現象。
我們知道一個淺度網絡本可以做得和深度網絡一樣好,但是事實往往并非如此。問題來了——為什么?可能的答案包括:
也許一個淺度網絡需要比深度網絡更多的神經元?
也許我們目前的算法不適合訓練淺度網絡?
也許我們通常試圖解決的問題不適合淺度網絡?
其他原因?
Goodfellow等著《深度學習》為上面的第一個和第三個答案提供了一些理由。淺度網絡的神經元數量將隨著任務復雜度的提升進行幾何級數的增長,因此淺度網絡要發揮作用,會變得很大,很可能比深度網絡更大。這個理由的依據是很多論文都證明了在某些案例中,淺度網絡的神經元數量將隨著任務復雜度的提升進行幾何級數的增長,但是我們并不清楚這一結論是否適用于諸如MNIST分類和圍棋這樣的任務。
關于第三個答案,《深度學習》一書是這么說的:
選擇深度模型編碼了一個非常通用的信念,我們想要學習的函數應該涉及若干較簡單的函數的組合。從表征學習的視角來說,我們相信正學習的問題包括發現一組差異的底層因素,這些因素可以進一步用其他更簡單的差異的底層因素來描述。
我認為目前的“共識”是上述第一個和第三個答案的組合是深度網絡有效的原因。
但是這離證明還很遠。2015年提出的150+層的殘差網絡贏得了多項圖像辨識競賽的冠軍。這是一個巨大的成功,看起來是一個令人難以抗拒的越深越好的論據。
然而,2016年提出的廣殘差網絡(Wide Residual Networks)以16層的網絡超越了150+層的殘差網絡。
Ba和Caruana在2014年發表的論文《Do Deep Nets Really Need to be Deep?》(深度網絡真的需要那么深嗎?)通過模型壓縮方案,用淺度網絡模擬一個訓練好的深度網絡,對某些深度網絡而言,模擬它們的淺度網絡能表現得一樣好,盡管直接在相應數據集上訓練淺度網絡無法達到這樣的表現。
所以,也許真正的答案是上文提到的第二個答案。
正如我一開始說的那樣,現在還沒人確定自己知道真正的答案。
過去10年來,深度學習方面的進展令人驚嘆!然而,大多數進展是通過試錯法得到的,我們仍然缺乏對到底是什么讓深度網絡起效的基本理解。甚至,對到底什么是配置高效的深度網絡的關鍵這個問題,人們的答案也經常變來變去。
Geoffrey Hinton在神經網絡方面工作了20+年,卻長期沒有得到多少關注。直到2006年發表了一系列突破性的論文,介紹了訓練深度網絡的有效技巧——在梯度下降前先進行無監督預訓練。之后很久的一段時間人們都認為無監督預訓練是關鍵。
接著,在2010年Martens表明Hessian-free優化的效果更好。在2013年,Sutskever等人表明隨機梯度下降加上一些非常聰明的技巧能表現得更好。同時,在2010年大家意識到用ReLu代替Sigmoid能顯著改善梯度下降的表現。2014年提出了dropout。2015年提出了殘差網絡。人們提出了越來越多有效的訓練網絡的方法,10年前至關重要的洞見在今天常常被人厭煩。這些大部分都是由試錯法驅動的,我們對為什么某種技巧效果這么好,另一種技巧效果不那么好知之甚少。
我們甚至不知道為什么深度網絡達到表現高原;10年前人們歸咎于極小值,但現在人們不這么看了(達到表現高原時梯度趨向于保持一個較大值)。這是一個非?;镜挠嘘P深度網絡的問題,而我們甚至連這也不知道。
-
神經網絡
+關注
關注
42文章
4779瀏覽量
101059 -
深度神經網絡
+關注
關注
0文章
61瀏覽量
4547
原文標題:CrossValidated問答:神經網絡和深度神經網絡有什么不一樣?
文章出處:【微信號:jqr_AI,微信公眾號:論智】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論