色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

梯度下降兩大痛點:陷入局部極小值和過擬合

zhKF_jqr_AI ? 來源:未知 ? 作者:胡薇 ? 2018-04-27 17:01 ? 次閱讀

介紹

基于梯度下降訓練神經網絡時,我們將冒網絡落入局部極小值的風險,網絡在誤差平面上停止的位置并非整個平面的最低點。這是因為誤差平面不是內凸的,平面可能包含眾多不同于全局最小值的局部極小值。此外,盡管在訓練數據上,網絡可能到達全局最小值,并收斂于所需點,我們無法保證網絡所學的概括性有多好。這意味著它們傾向于過擬合訓練數據。

有一些手段有助于緩解這些問題,不過并沒有絕對地預防這些問題產生的方法。這是因為網絡的誤差平面一般很難穿越,而神經網絡整體而言很難解釋。

隨機梯度下降與mini-batch隨機梯度下降

這些算法改編了標準梯度下降算法,在算法的每次迭代中使用訓練數據的一個子集。SGD在每權重更新上使用一個樣本,mini-batch SGD使用預定義數目的樣本(通常遠小于訓練樣本的總數)。這大大加速了訓練,因為我們在每次迭代中沒有使用整個數據集,它需要的計算量少得多。同時,它也有望導向更好的表現,因為網絡在訓練中斷斷續續的移動應該能讓它更好地避開局部極小值,而使用一小部分數據集當有助于預防過擬合。

正則化

正則化基本上是一個懲罰模型復雜度的機制,它是通過在損失函數中加入一個表示模型復雜度的項做到這一點的。在神經網絡的例子中,它懲罰較大的權重,較大的權重可能意味著神經網絡過擬合了訓練數據。

最左:欠擬合;最右:過擬合

若網絡的原損失函數記為L(y, t),正則化常數記為λ,則應用了L2正則化后,損失函數改寫為如下形式:

正則化在損失函數中加入了網絡的每個權重的平方和,以懲罰給任何一個連接分配了過多權重的模型,希望能降低過擬合程度。

動量

簡單來說,動量在當前權重更新上加上一小部分前次權重更新。這有助于預防模型陷入局部極小值,因為即使當前梯度為0,之前梯度絕大多數情況下不為0,這樣模型就不那么容易陷入極小值。另外,使用動量也使誤差平面上的移動總體上更為平滑,而且移動得更快。

基于這一簡單的動量概念,我們可以重寫權重更新等式至如下形式(α為動量因子):

還有其他一些更高級的動量形式,比如Nesterov方法。

學習率退火

我們可以不在整個訓練過程中使用同一學習率,而是隨著時間的進展降低學習率,也就是退火。

最常見的退火規劃基于1/t關系,如下圖所示,其中T和μ0為給定的超參數,μ為當前學習率:

這經常被稱為“搜索并收斂”(search-then-converge)退火規劃,因為直到t達到T之前,網絡都處于“搜索”階段,學習率沒有下降很多,在此之后,學習率減慢,網絡進入“收斂”階段。這和探索(exploitation)與利用(exploration)間的平衡多多少少有些關系。剛開始我們優先探索搜索空間,擴展我們關于空間的整體知識,隨著時間的推進,我們過渡到利用搜索空間中我們已經找到的良好區域,收縮至特定的極小值。

結語

這些改進標準梯度下降算法的方法都需要在模型中加入超參數,因而會增加調整網絡所需的時間。最近提出的一些新算法,比如Adam、Adagrad、Adadelta,傾向于在每個參數的基礎上進行優化,而不是基于全局優化,因此它們可以基于單獨情況精細地調整學習率。在實踐中,它們往往更快、更好。下圖同時演示了之前提到的梯度下降變體的工作過程。注意看,和簡單的動量或SGD相比,更復雜的變體收斂得更快。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 神經網絡
    +關注

    關注

    42

    文章

    4774

    瀏覽量

    100898
  • 動量
    +關注

    關注

    0

    文章

    6

    瀏覽量

    7934
  • 正則化
    +關注

    關注

    0

    文章

    17

    瀏覽量

    8141

原文標題:如何改進梯度下降算法

文章出處:【微信號:jqr_AI,微信公眾號:論智】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    SGD的隨機項在其選擇最終的全局極小值的關鍵性作用

    在這篇題為《將擬勢函數視為隨機梯度下降損失函數中的隱式正則項》的論文中,作者提出了一種統一的方法,將擬勢作為一種量化關系的橋梁,在SGD隱式正則化與SGD的隨機項的協方差結構之間建立了聯系。
    的頭像 發表于 03-06 09:15 ?5410次閱讀

    如何對一波形所有極大(小)用三次樣條插函數擬...

    哪位大神能幫我一下,本人在做小電流接地系統選線,在matlab中搭建了系統模型后進行了單相接地故障仿真,對于仿出來的波形要進行HHT變換,其中第一步就是要對仿真圖形所有極大極小值用三次樣條插
    發表于 08-09 19:10

    關于檢測的離散信號求極值問題

    我現在收集到一些離散信號,一維數組,想找到極大極小值,然后連線用三次樣條擬合,1、請問有沒有什么好用的控件或者算法找到這些極大極小值2
    發表于 01-03 10:55

    分享一個自己寫的機器學習線性回歸梯度下降算法

    單變量線性回歸算法,利用Batch梯度梯度下降算法迭代計算得到誤差最小的代價函數theta0,theta1。調節學習率a可以觀察擬合得到的函數和代價函數誤差收斂情況。
    發表于 10-02 21:48

    機器學習新手必學的三種優化算法(牛頓法、梯度下降法、最速下降法)

    法的問題在于,每一步都需要對 aplha_k 進行優化,這樣做的成本相對高昂。例如,對于二次函數,每次迭代都需要計算多次矩陣乘法以及向量乘。但對于梯度下降,每一步只需要計算導數并更新
    發表于 05-07 08:30

    如何更新權重實現梯度下降

    實現梯度下降
    發表于 07-15 10:09

    改進的BP網絡算法在圖像識別中的應用

    利用改進的BP網絡算法,可以有效地抑制網絡陷入局部極小值,提高網絡訓練速度。實驗驗證表明,改進的算法對圖像識別的準確率較高。
    發表于 02-07 11:40 ?40次下載
    改進的BP網絡算法在圖像識別中的應用

    機器學習:隨機梯度下降和批量梯度下降算法介紹

    梯度下降和批量梯度下降種迭代求解思路,下面從公式和實現的角度對者進行分析。下面的h(x)是
    發表于 11-28 04:00 ?8979次閱讀
    機器學習:隨機<b class='flag-5'>梯度</b><b class='flag-5'>下降</b>和批量<b class='flag-5'>梯度</b><b class='flag-5'>下降</b>算法介紹

    梯度下降算法及其變種:批量梯度下降,小批量梯度下降和隨機梯度下降

    現在我們來討論梯度下降算法的三個變種,它們之間的主要區別在于每個學習步驟中計算梯度時使用的數據量,是對每個參數更新(學習步驟)時的梯度準確性與時間復雜度的折衷考慮。
    的頭像 發表于 05-03 15:55 ?2.2w次閱讀

    講解隨機梯度下降、類別數據編碼、Vowpal Wabbit機器學習庫

    在數據量不大的情況下,上面的數學效果不錯(我們這里不討論局部極小值、鞍點、學習率選擇、動量等問題,請參考《深度學習》一書的數值計算那一章)。批量梯度下降有一個問題——
    的頭像 發表于 07-17 09:11 ?6294次閱讀

    簡單的梯度下降算法,你真的懂了嗎?

    梯度下降算法的公式非常簡單,”沿著梯度的反方向(坡度最陡)“是我們日常經驗得到的,其本質的原因到底是什么呢?為什么局部下降最快的方向就是梯度
    發表于 09-19 00:17 ?845次閱讀

    如何使用區域相似度實現局部擬合活動輪廓模型

    針對局部擬合(LBF)模型不能分割紋理圖像和收斂速度慢等問題,提出一種結合局部擬合與區域間相似度的活動輪廓模型。該模型在LBF模型中引
    發表于 03-12 14:27 ?2次下載

    基于雙曲網絡空間嵌入與極小值聚類的社區劃分算法

    真實復雜網絡節點度分布服從冪律分布,而雙曲空間能夠完整表現這一特性。為此,提出一種基于雙曲空間嵌入與極小值聚類的社區劃分算法MHE。將建模后的復雜網絡嵌入龐加萊圓盤模型,保留復雜網絡的全局拓撲信息
    發表于 04-01 15:18 ?11次下載
    基于雙曲網絡空間嵌入與<b class='flag-5'>極小值</b>聚類的社區劃分算法

    基于局部擬合與全局信息的改進活動輪廓模型

    的中心,改變輪廓半徑的大小以確定初始輪廓的位置。使用局部熵項來増強圖像邊緣處的響應,將局部熵圖像擬合能量項與RSF模型共同構成局部能量項,
    發表于 05-26 15:31 ?5次下載

    JPEG LS算法局部梯度計算原理

    如果同一個上下文中對少量元素進行編碼,通常無法獲得足夠的上下文編碼信息。但是如果對大量元素進行編碼又會帶來存儲空間變大的問題。因此要對局部梯度進行量化處理。
    的頭像 發表于 04-25 10:46 ?500次閱讀
    JPEG LS算法<b class='flag-5'>局部</b><b class='flag-5'>梯度</b><b class='flag-5'>值</b>計算原理
    主站蜘蛛池模板: 污漫日本E同人| 成人国产在线观看| 精品国产90后在线观看| 夜蒲团之5阳性之教| 久久亚洲高清观看| yellow免费观看在线| 午夜福利免费体检区| 久久高清免费视频| WWW婷婷AV久久久影片| 午夜在线视频国产极品片| 久久婷婷五月综合色丁香| GOGOGO高清在线播放韩国| 我年轻漂亮的继坶2中字在线播放 我们中文在线观看免费完整版 | 欧美性喷潮xxxx| 国产亚洲精品久久久久久白晶晶 | 欧美精品九九99久久在免费线| 岛国片免费看| 一道本在线伊人蕉无码| 青年医生插曲| 精品亚洲永久免费精品| 爱情岛论坛免费在线观看| 亚洲色tu| 日韩精品 中文字幕 有码| 交换年轻夫妇HD中文字幕| RUN AWAY无删减全集动漫| 亚洲精品自在在线观看| 欧美激情视频在线观看一区二区三区| 国产交换丝雨巅峰| 97亚洲狠狠色综合久久位| 亚洲 日韩 自拍 视频一区| 男女午夜性爽快免费视频不卡| 2021国产精品| 熟妇的味道HD中文字幕| 蜜桃传媒在线播放| 精品国产原创在线观看视频| 俄罗斯1819y0u| 99C视频色欲在线| 亚洲熟妇无码乱子AV电影| 乌克兰女人与动ZOZO| 人妻 中文无码 中出| 美女扣逼软件|