作者:Preetum Nakkiran,Gal Kaplun,Yamini Bansal,Tristan Yang,Boaz Barak,Ilya Sutskever
編譯:ronghuaiyang
導(dǎo)讀
深度學(xué)習(xí)中的雙下降現(xiàn)象,可能大家也遇到過,但是沒有深究,OpenAI這里給出了他們的解答。
我們展示了 CNN,ResNet 以及 transformers 中的雙下降現(xiàn)象,隨著模型的尺寸,數(shù)據(jù)集的大小以及訓(xùn)練時(shí)間的增加,performance 先提升,然后變差,然后再次提升。這種效果通??梢酝ㄟ^仔細(xì)的正則化來避免。雖然這種行為似乎是相當(dāng)普遍的,但我們還沒有完全理解它為什么會(huì)發(fā)生,并把對(duì)這種現(xiàn)象的進(jìn)一步研究作為一個(gè)重要的研究方向。
論文:https://arxiv.org/abs/1912.02292
包括 CNNs、ResNets、transformer 在內(nèi)的許多現(xiàn)代深度學(xué)習(xí)模型,在不使用 early stopping 或正則化時(shí),都表現(xiàn)出之前觀察到的雙下降現(xiàn)象。峰值發(fā)生在一個(gè)可以預(yù)見的“特殊的時(shí)刻”,此時(shí)模型剛好可以去擬合訓(xùn)練集。當(dāng)我們?cè)黾?a href="http://m.1cnz.cn/tags/神經(jīng)網(wǎng)絡(luò)/" target="_blank">神經(jīng)網(wǎng)絡(luò)參數(shù)的數(shù)量,剛開始的時(shí)候,測(cè)試誤差減少,然后會(huì)增加,而且,模型開始能夠擬合訓(xùn)練集,進(jìn)行了第二次下降。
傳統(tǒng)統(tǒng)計(jì)學(xué)家認(rèn)為“模型越大越糟”的傳統(tǒng)觀點(diǎn),以及“模型越大越好”的現(xiàn)代機(jī)器學(xué)習(xí)范式,都沒有得到支持。我們發(fā)現(xiàn)雙下降也發(fā)生在訓(xùn)練過程中。令人驚訝的是,我們發(fā)現(xiàn)這些現(xiàn)象會(huì)導(dǎo)致數(shù)據(jù)越多效果越差,此時(shí)在更大的訓(xùn)練集上訓(xùn)練一個(gè)深層網(wǎng)絡(luò)的效果實(shí)際上更差。
模型的雙下降
1. 在一段時(shí)間內(nèi),模型越大效果越差。
模型的雙下降現(xiàn)象會(huì)導(dǎo)致對(duì)更多數(shù)據(jù)的訓(xùn)練效果越差。在上面的圖中,測(cè)試誤差的峰值出現(xiàn)在插值閾值附近,此時(shí)模型剛好足夠大到能擬合訓(xùn)練集。
在我們觀察到的所有情況下,影響插值閾值的變化(如改變優(yōu)化算法、訓(xùn)練樣本數(shù)量或標(biāo)簽噪聲量)也會(huì)相應(yīng)地影響測(cè)試誤差峰值的位置。在添加標(biāo)簽噪聲的情況下,雙下降現(xiàn)象最為突出,如果沒有它,峰值會(huì)更小,很容易被忽略。添加標(biāo)簽噪聲會(huì)放大這種普遍的行為,讓我們可以很容易地進(jìn)行研究。
樣本的非單調(diào)性
2. 在一段時(shí)間內(nèi),樣本越多效果越差。
上面的圖顯示了在沒有添加標(biāo)簽噪聲的情況下,在語言翻譯任務(wù)訓(xùn)練的 transformers。正如預(yù)期的那樣,增加樣本數(shù)量會(huì)使曲線向下移動(dòng),從而降低測(cè)試誤差。然而,由于更多的樣本需要更大的模型來擬合,增加樣本的數(shù)量也會(huì)使插值閾值(以及測(cè)試誤差的峰值)向右移動(dòng)。對(duì)于中等大小的模型(紅色箭頭),這兩個(gè)效果結(jié)合在一起,我們可以看到在 4.5 倍的樣本上進(jìn)行訓(xùn)練實(shí)際上會(huì)影響測(cè)試性能。
訓(xùn)練 epoch 的雙下降
3. 在一段時(shí)間內(nèi),訓(xùn)練時(shí)間越長(zhǎng),過擬合情況就越嚴(yán)重。
上面的圖顯示了測(cè)試和訓(xùn)練誤差與模型大小和優(yōu)化步驟數(shù)量的關(guān)系。對(duì)于給定數(shù)量的優(yōu)化步驟(固定 y 坐標(biāo)),測(cè)試和訓(xùn)練誤差表現(xiàn)為隨著模型的大小出現(xiàn)了雙下降。對(duì)于給定的模型尺寸(固定的 x 坐標(biāo)),隨著訓(xùn)練的進(jìn)行,測(cè)試和訓(xùn)練誤差不斷地減小、增大、再減小,我們把這種現(xiàn)象稱為 epoch-wise 的雙下降。
一般情況下,當(dāng)模型剛好能夠擬合訓(xùn)練集時(shí),會(huì)出現(xiàn)測(cè)試誤差的峰值
我們的直覺是,對(duì)于插值閾值處的模型,實(shí)際上只有一個(gè)模型正好擬合了數(shù)據(jù)集,而強(qiáng)迫它擬合即使是稍微有一點(diǎn)噪聲或錯(cuò)誤的標(biāo)簽也會(huì)破壞它的全局結(jié)構(gòu)。也就是說,沒有既能在插值閾值處擬合訓(xùn)練集又能在測(cè)試集上表現(xiàn)良好的“好模型”。然而,在參數(shù)化的情況下,有許多模型可以擬合訓(xùn)練集,并且存在這樣的好模型。此外,隨機(jī)梯度下降法(SGD)的隱式偏差導(dǎo)致了這樣好模型出現(xiàn),其原因我們還不清楚。
我們把對(duì)深層神經(jīng)網(wǎng)絡(luò)的雙下降機(jī)制仍的充分認(rèn)識(shí)作為一個(gè)重要的開放性問題。
-
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5507瀏覽量
121298 -
cnn
+關(guān)注
關(guān)注
3文章
353瀏覽量
22252
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論