深度誘導(dǎo)的神經(jīng)網(wǎng)絡(luò)高斯過程
To explore Gaussian Processes??
目前,核方法和深度神經(jīng)網(wǎng)絡(luò)是兩種引人注目的機(jī)器學(xué)習(xí)方法。近年來,許多理論闡明了他們的聯(lián)系。
筆者曾經(jīng)總結(jié)了目前理解神經(jīng)網(wǎng)絡(luò)的四個(gè)perspectives:決策邊界,特征表示,把神經(jīng)網(wǎng)絡(luò)看成一個(gè)核,以及微分方程。從核的一個(gè)視角看,神經(jīng)網(wǎng)絡(luò)的一個(gè)理論進(jìn)展是,“證明了在網(wǎng)絡(luò)參數(shù)服從相同的隨機(jī)初始化時(shí),無限寬網(wǎng)絡(luò)等價(jià)于一個(gè)高斯過程”。盡管這個(gè)理論有效而且優(yōu)雅,我們注意到所有神經(jīng)網(wǎng)絡(luò)導(dǎo)出的高斯過程本質(zhì)上都是運(yùn)用了無限寬度這一假設(shè)。然而,身處深度學(xué)習(xí)時(shí)代的我們更加關(guān)心的是神經(jīng)網(wǎng)絡(luò)的深度問題,比如,增加深度如何影響網(wǎng)絡(luò)的行為?具體地說,寬度有限無限地增加深度可以誘導(dǎo)出來高斯過程嗎?這里筆者的一篇論文給出了肯定的答案 [1]。
——[1] Zhang, S. Q., Wang, F., & Fan, F. L. (2022). Neural network gaussian processes by increasing depth.?IEEE Transactions on Neural Networks and Learning Systems
一、高斯過程
首先,我們來說明什么是高斯過程。我們對多元高斯分布很熟悉。多元高斯分布是針對一個(gè)向量,由一個(gè)平均值向量+一個(gè)協(xié)方差矩陣來定義。還記得本公眾號之前的推送里面有一個(gè)高觀點(diǎn):“函數(shù)是無限維的向量”(高觀點(diǎn))。高斯過程也是高斯分布的這樣一個(gè)拓展,也就是說,無限維向量的高斯分布就是一個(gè)高斯過程,高斯過程由一個(gè)平均值函數(shù)+一個(gè)協(xié)方差函數(shù)來決定。
?
?
二、神經(jīng)網(wǎng)絡(luò)高斯過程
神經(jīng)網(wǎng)絡(luò)是怎么和高斯過程聯(lián)系在一起的呢?Lee et al. [1] and Neal [2] 指出,隨機(jī)初始化無限寬網(wǎng)絡(luò)的參數(shù)會(huì)產(chǎn)生一個(gè)高斯過程,稱作神經(jīng)網(wǎng)絡(luò)高斯過程(neural network Gaussian process, NNGP)。Intuitively,我們可以這么來理解這件事:給定一個(gè)參數(shù)為 i.i.d 的全連接多層網(wǎng)絡(luò)。由于網(wǎng)絡(luò)隨機(jī)初始化,每個(gè)神經(jīng)元的輸出也是獨(dú)立同分布。因?yàn)楹竺嬉粚拥拿總€(gè)神經(jīng)元的輸出是前一層所有神經(jīng)元的聚合,當(dāng)網(wǎng)絡(luò)寬度無限大時(shí),根據(jù)中心極限定理,無限多個(gè)獨(dú)立同分布的變量的平均服從高斯分布。這樣,網(wǎng)絡(luò)表示的輸出函數(shù)本質(zhì)上是一個(gè)高斯過程,如下動(dòng)態(tài)圖可以很好展示這一觀點(diǎn)。
[1] Lee, J., Bahri, Y., Novak, R., Schoenholz, S. S., Pennington, J., & Sohl-Dickstein, J. (2017). Deep neural networks as gaussian processes.?ICLR.
[2] Neal, R. M. (1996). Priors for infinite networks. In?Bayesian Learning for Neural Networks?(pp. 29-53). Springer, New York, NY.
?
?
三、 深度誘導(dǎo)的神經(jīng)網(wǎng)絡(luò)高斯過程
盡管前面的NNGP理論非常優(yōu)雅和有效,但它有一個(gè)重要的限制:不管網(wǎng)絡(luò)中堆疊了多少層,NNGP之所以成功是因?yàn)榫W(wǎng)絡(luò)無限寬。但是在深度學(xué)習(xí)時(shí)代,因?yàn)樯疃仁菦Q定深度學(xué)習(xí)力量的主要因素,我們更關(guān)心的是深度網(wǎng)絡(luò)的深度以及深度如何影響網(wǎng)絡(luò)的行為。因此,我們非常有必要擴(kuò)大現(xiàn)有NNGP理論的范圍,將深度納入其中。具體來說,我們的好奇心是能否通過增加深度而不是寬度來推導(dǎo)出 NNGP?如果這個(gè)問題得到了肯定的回答,它將是現(xiàn)有理論的一個(gè)有價(jià)值的補(bǔ)充。由于在某種程度上存在寬度和深度之間的對稱性 [1],我們認(rèn)為在某些條件下加深神經(jīng)網(wǎng)絡(luò)也可能導(dǎo)致 NNGP。
我們研究了如下圖所示的網(wǎng)絡(luò)架構(gòu)。這種拓?fù)浣Y(jié)構(gòu)的特點(diǎn)是間隔hbar中間層的輸出在最后一層聚合,產(chǎn)生網(wǎng)絡(luò)輸出。這樣的網(wǎng)絡(luò)輸出會(huì)是一個(gè)高斯過程嗎?雖然當(dāng)網(wǎng)絡(luò)無限深的時(shí)候,這個(gè)網(wǎng)絡(luò)的輸出也是可以無限多個(gè)變量聚合在一起,但是這些變量并不是獨(dú)立的。它們是隱含層的輸出,隱含層之間是有依賴關(guān)系的,因此我們不能簡單的用中心極限定理。可是我們發(fā)現(xiàn),當(dāng)hbar很大的時(shí)候,被聚合的隱含層距離越來越遠(yuǎn),以致于它們之間的依賴會(huì)越來越小,最后這些變量可以滿足弱依賴的中心極限定理 [2]。結(jié)果也是一樣的,深度誘導(dǎo)的高斯過程存在!
[1] Fan, F. L., Lai, R., & Wang, G. (2020). Quasi-equivalence of width and depth of neural networks.?arXiv preprint arXiv:2002.02515.
[2] https://en.wikipedia.org/wiki/Central_limit_theorem
?
?
簡要說下證明的思路,弱依賴?yán)锩嬗幸环N情形叫做beta-mixing,它的含義是說:一個(gè)變量的獨(dú)立分布的概率和這個(gè)變量相對于另外一個(gè)變量的概率的差是很小很小(指數(shù)級別)。我們的證明就是創(chuàng)造條件讓beta-mixing成立。為此我們初始化權(quán)重和bias使其norm都不太大,然后我們增大hbar至無窮,由于復(fù)合作用,被聚合的隱含層的輸出之間影響將很小,滿足beta-mixing。證明摘要如下:
編輯:黃飛
評論
查看更多