另外,對(duì)于非凸函數(shù),還要避免陷于局部極小值處,或者鞍點(diǎn)處,因?yàn)榘包c(diǎn)周圍的error 是一樣的,所有維度的梯度都接近于0,SGD 很容易被困在這里。
鞍點(diǎn)就是:一個(gè)光滑函數(shù)的鞍點(diǎn)鄰域的曲線,曲面,或超曲面,都位于這點(diǎn)的切線的不同邊。
例如這個(gè)二維圖形,像個(gè)馬鞍:在x-軸方向往上曲,在y-軸方向往下曲,鞍點(diǎn)就是(0,0)
為了應(yīng)對(duì)上面的三點(diǎn)挑戰(zhàn)就有了下面這些算法。
[應(yīng)對(duì)挑戰(zhàn) 1]
4. Momentum
SGD 在 ravines 的情況下容易被困住, ravines 就是曲面的一個(gè)方向比另一個(gè)方向更陡,這時(shí) SGD 會(huì)發(fā)生震蕩而遲遲不能接近極小值:
梯度更新規(guī)則:
Momentum 通過加入 γv_t?1 ,可以加速 SGD, 并且抑制震蕩
當(dāng)我們將一個(gè)小球從山上滾下來時(shí),沒有阻力的話,它的動(dòng)量會(huì)越來越大,但是如果遇到了阻力,速度就會(huì)變小。
加入的這一項(xiàng),可以使得梯度方向不變的維度上速度變快,梯度方向有所改變的維度上的更新速度變慢,這樣就可以加快收斂并減小震蕩。
超參數(shù)設(shè)定值:
一般 γ 取值 0.9 左右。
缺點(diǎn):
這種情況相當(dāng)于小球從山上滾下來時(shí)是在盲目地沿著坡滾,如果它能具備一些先知,例如快要上坡時(shí),就知道需要減速了的話,適應(yīng)性會(huì)更好。
5. Nesterov accelerated gradient
梯度更新規(guī)則:
用 θ?γv_t?1 來近似當(dāng)做參數(shù)下一步會(huì)變成的值,則在計(jì)算梯度時(shí),不是在當(dāng)前位置,而是未來的位置上
超參數(shù)設(shè)定值:
γ 仍然取值 0.9 左右。
效果比較:
藍(lán)色是 Momentum 的過程,會(huì)先計(jì)算當(dāng)前的梯度,然后在更新后的累積梯度后會(huì)有一個(gè)大的跳躍。
而 NAG 會(huì)先在前一步的累積梯度上(brown vector)有一個(gè)大的跳躍,然后衡量一下梯度做一下修正(red vector),這種預(yù)期的更新可以避免我們走的太快。
NAG 可以使 RNN 在很多任務(wù)上有更好的表現(xiàn)。
目前為止,我們可以做到,在更新梯度時(shí)順應(yīng) loss function 的梯度來調(diào)整速度,并且對(duì) SGD 進(jìn)行加速。
我們還希望可以根據(jù)參數(shù)的重要性而對(duì)不同的參數(shù)進(jìn)行不同程度的更新。
[應(yīng)對(duì)挑戰(zhàn) 2]
6. Adagrad
這個(gè)算法就可以對(duì)低頻的參數(shù)做較大的更新,對(duì)高頻的做較小的更新,也因此,對(duì)于稀疏的數(shù)據(jù)它的表現(xiàn)很好,很好地提高了 SGD 的魯棒性,例如識(shí)別 Youtube 視頻里面的貓,訓(xùn)練 GloVe word embeddings,因?yàn)樗鼈兌际切枰诘皖l的特征上有更大的更新。
梯度更新規(guī)則:
其中 g 為:t 時(shí)刻參數(shù) θ_i 的梯度
如果是普通的 SGD, 那么 θ_i 在每一時(shí)刻的梯度更新公式為:
但這里的 learning rate η 也隨 t 和 i 而變:
其中 G_t 是個(gè)對(duì)角矩陣, (i,i) 元素就是 t 時(shí)刻參數(shù) θ_i 的梯度平方和。
Adagrad 的優(yōu)點(diǎn)是減少了學(xué)習(xí)率的手動(dòng)調(diào)節(jié)
超參數(shù)設(shè)定值:
一般 η 就取 0.01。
缺點(diǎn):
它的缺點(diǎn)是分母會(huì)不斷積累,這樣學(xué)習(xí)率就會(huì)收縮并最終會(huì)變得非常小。
7. Adadelta
這個(gè)算法是對(duì) Adagrad 的改進(jìn),
和 Adagrad 相比,就是分母的 G 換成了過去的梯度平方的衰減平均值,
這個(gè)分母相當(dāng)于梯度的均方根 root mean squared (RMS) ,所以可以用 RMS 簡寫:
評(píng)論
查看更多