晚上禁用的十大黄台视频,亚洲va欧美va国产综合久久 ,深夜释放自己黄瓜视频

神經網絡的優化本質上是一個非凸問題，而簡單的基于梯度的算法在實踐中似乎總是能夠解決這類問題。這種現象是深度學習的核心支柱之一，而目前有許多理論科學家家正試圖解開這個謎：為什么基于梯度的方法能夠在深度學習的優化中行之有效。

一篇來自 offconvex.org博客的文章對最近一些試圖解決這個問題的工作進行了綜述，并且在最后討論了作者本人與 Sanjeev Arora，Noah Golowich 以及 Wei Hu 等人一起撰寫的新論文（https://arxiv.org/pdf/1810.02281.pdf）。在這篇論文中，他們針對深度線性神經網絡中的梯度下降問題，提出了一種能夠保證以線性速率收斂到全局最小值的方法。關于深度學習應用的論文多如牛毛，而關于基礎工作原理的文章彌足珍貴。雷鋒網 AI 科技評論全文編譯如下。

函數圖像曲面方法及其局限性

許多關于深度學習優化的論文都隱含著這樣一種假設，即通過建立損失函數圖像的曲面（landscape）的幾何特性（特別是在臨界點，也就是梯度開始消失的點），可以嚴謹地理解這種優化方法。例如，通過與凝聚態物理中的球形自旋玻璃模型進行類比，Choromanska等人在2015年提出了一個現已在深度學習領域廣為人知的觀點：

函數曲面猜想（Landscape Conjecture）：

在神經網絡優化問題中，次優臨界點的 Hessian（二階導矩陣）的特征值很可能存在負數。換而言之，幾乎沒有糟糕的局部最小值（讓梯度下降算法誤認為局部最小值是全局最小值的點），而且幾乎所有的鞍點都是嚴格的。

該猜想的對于各種包括淺層（2 層）模型在內的簡單問題的損失函數圖像的曲面的強形式已經得到了證明，這樣的問題包括矩陣感知（https://papers.nips.cc/paper/6271-global-optimality-of-local-search-for-low-rank-matrix-recovery.pdf ）、矩陣補全（https://papers.nips.cc/paper/6048-matrix-completion-has-no-spurious-local-minimum.pdf ）、正交張量分解（http://proceedings.mlr.press/v40/Ge15.pdf ）、相位反演（https://arxiv.org/pdf/1602.06664.pdf ）以及帶二次激活的神經網絡（http://proceedings.mlr.press/v80/du18a/du18a.pdf ）等。目前已經有一些工作針對當函數曲面猜想成立時如何實現梯度下降收斂到全局最小值進行了一些研究。例如，Rong Ge（http://www.offconvex.org/2016/03/22/saddlepoints/ ）、Ben Recht（http://www.offconvex.org/2016/03/24/saddles-again/ ）、Chi Jin 和 Michael Jordan（http://www.offconvex.org/2017/07/19/saddle-efficiency/ ）等人的博客中有一些在這類工作方面非常棒的介紹文章。他們介紹了梯度下降可以如何通過逃離所有嚴格的鞍點來達到二階局部最小值（Hessian 為正半定的臨界點），以及當將我們對算法添加擾動時這個過程將如何起作用。請注意，在函數曲面猜想下，即當沒有糟糕的局部最小值、也沒有非嚴格鞍點時，二階局部最小值也就是全局最小值。

然而，出于很多原因，函數曲面方法（和函數曲面猜想）顯然不能像這樣被應用到深度（三層或更多層）的網絡上。首先，深度網絡通常會引入非嚴格鞍點（例如，在所有權重都為零的點，詳情請參閱 Kawaguchi 等人在2016發表的論文「Deep Learning without Poor Local Minima」：https://papers.nips.cc/paper/6112-deep-learning-without-poor-local-minima.pdf ）。其次，函數曲面方法的觀點很大程度上忽視了算法層面上的因素，而在實踐中算法層面的因素對深度網絡的收斂有很大的影響——比如初始化方法的類型（http://proceedings.mlr.press/v28/sutskever13.html ）或批量歸一化（http://proceedings.mlr.press/v37/ioffe15.pdf ）。最后，正如我在之前的文章（http://www.offconvex.org/2018/03/02/acceleration-overparameterization/ ）中談到的，基于 SanjeevArora和 Elad Hazan（http://proceedings.mlr.press/v80/arora18a/arora18a.pdf ）的工作，為經典線性模型添加（冗余）線性層有時可以加速基于梯度的優化過程，這樣做盡管會為之前的凸優化問題引入一定的非凸性，但是不會增強模型的表現能力。任何只依賴于臨界點屬性的函數曲面分析都難以解釋這樣的現象，因為通過這樣的方法，沒有什么比優化一個具有全局最小值的臨界點的凸目標函數更簡單的了。

另一種可能的解決方案？

函數曲面方法在分析深度學習中的優化問題時的局限性說明它可能忽略了太多重要的細節。也許，與其思考「函數曲面方法是否是一種優雅的方法？」不如把問題轉向「由特定的初始化方法得到的特定優化器的軌跡有怎樣的行為？」

盡管基于軌跡的方法似乎比函數曲面分析更加復雜，但是這種方法已經取得了顯著的進展。最近的一些論文（如 Brutzkus and Globerson 2017（http://proceedings.mlr.press/v70/brutzkus17a/brutzkus17a.pdf ）；Li and Yuan 2017（https://papers.nips.cc/paper/6662-convergence-analysis-of-two-layer-neural-networks-with-relu-activation.pdf ）、Zhong et al. 2017（http://proceedings.mlr.press/v70/zhong17a/zhong17a.pdf ）；Tian 2017（http://proceedings.mlr.press/v70/tian17a/tian17a.pdf ）；Brutzkus et al. 2018（https://openreview.net/pdf?id=rJ33wwxRb ）；Li et al. 2018（http://proceedings.mlr.press/v75/li18a/li18a.pdf ）；Du et al. 2018（https://arxiv.org/pdf/1806.00900.pdf ）；Liao et al. 2018（http://romaincouillet.hebfree.org/docs/conf/nips_GDD.pdf ））已經采用了這種策略，成功地分析了不同類型的淺層模型。此外，基于軌跡的分析也正開始涉足函數曲面方法之外的領域，他們已經針對線性神經網絡的情況，成功地實現了在任意深度下使用梯度下降方法收斂到全局最小值。

針對深度線性神經網絡的基于軌跡的分析

線性神經網絡是帶有（或不帶有）線性激活函數的全連接神經網絡。具體而言，一個輸入維度為d0、輸出維度為dN、隱層維度為 d1,d2,...,dN-1，深度為 N 的線性網絡是一個從 Rd_0到 Rd_N的線性映射，它被參數化為

其中

可以被看作第j層的權值矩陣。盡管這樣的表示方法看起來沒有什么特別，但線性神經網絡優化過程的復雜度卻讓人有些驚訝，它們會導致具有多個最小值和鞍點的非凸訓練問題。用于線性神經網絡的基于梯度的算法被人們認為是一種深度學習中的優化問題理論上的替代品，近一段時間，它們在線性神經網絡上的應用受到了極大的關注。

據我所知，Saxe et al.2014（https://arxiv.org/pdf/1312.6120.pdf ）的工作首次對深度（三層或更多層）的線性網絡進行了基于軌跡的分析，在白化后的數據上處理最小化 L2 損失的梯度流（學習率極小的梯度下降）。盡管這個分析有很重要的貢獻，但卻并未正式實現收斂到全局最小值，也沒有考慮計算復雜度方面的因素（收斂所需的迭代次數）。近期研究 Bartlett et al. 2018（http://proceedings.mlr.press/v80/bartlett18a.html ）的研究在解決這些問題的工作上取得了進展，通過將基于軌跡的分析用于線性殘差網絡的特定環境的梯度下降，即在所有層中統一寬度（d0=d1=d2=...=dN）及初始化方式（對于任意的 j，有 Wj=I）的線性網絡。考慮到不同的數據-標簽分布（他們將其歸納為「targets」），Bartlett 等人展示了可證明的梯度下降以線性速率收斂到全局最小值的情況——損失函數值在經過O(log1/ε)次迭代后與最優值的差小于ε（大于 0）。

在本文作者與 Sanjeev Arora、Noah Golowich 以及 Wei Hu 合作撰寫的一篇新論文（https://arxiv.org/pdf/1810.02281.pdf ）中，我們在發揮基于軌跡的方法的功效方面又向前邁進了一步。具體而言，我們分析了任意不包含「瓶頸層」的線性神經網絡梯度下降的軌跡，瓶頸層的隱藏維度不小于輸入和輸出維度之間的最小值（對于任意的 j，有 dj≥min{d0,dN}）；我們還證明了以線性速率到全局最小值的收斂性。我們指出了初始化方法需要滿足下面兩個條件：（1）近似平衡度：對于任意的 j，有 WTj+1Wj+1≈WjWjT；（2）缺失邊界：初始損失小于任意秩缺虧缺解的損失。我們證明這兩個條件都是必要條件，不滿足其中任意一個都可能導致軌跡不收斂。在線性殘差網絡的特例中，初始化時的近似平衡度很容易滿足，而且對于通過以零為中心的微小隨機擾動進行初始化的常見設定也同樣成立。后者也會導致出現具有正概率的缺失邊界。對于 dN=1 的情況（即標量回歸），我們提供了一個能同時滿足這兩個條件的隨機初始化方案，因此能在恒定概率下以線性速率收斂到全局最小值。

我們的分析的關鍵在于觀察「如果權重被初始化到了近似平衡的狀態，它們是否會在梯度下降的整個迭代中一直這樣保持」。換句話說，優化方法所采取的軌跡遵循下面的特性：

也就是說，在整個時間軸上，所有的層（近似地）都有相同的奇異值集合，每一層的左奇異向量（近似地）與下一層的右奇異向量相同。我們說明了這種規律性意味著梯度下降的穩定地運行下去，從而證明，即使在損失函數圖像整體上來說十分復雜時（包括許多非嚴格鞍點），它可能在優化器所采取的特定軌跡周圍表現得尤為良好。

結語

通過函數圖像方法解決深度學習中優化問題，即分析與訓練使用的算法無關的目標函數的幾何性質，從概念上來說十分吸引人。但是這一策略存在固有的局限性，主要是因為它要求整個目標函數都要很優雅，這似乎是一個過于嚴格的要求。替代函數圖像的一種方法是考慮優化器及其初始化方法，并且僅僅沿著所得到的軌跡關注其函數圖像。這種替代方法正得到越來越多的關注。函數圖像分析目前僅限于淺層（兩層）模型，而基于軌跡的方法最近已經可以處理任意深度的模型，證明了梯度下降能以線性速率收斂到全局最小值。但是，由于基于軌跡的分析方法僅僅在線性神經網絡上取得了成功，仍有還有很多工作有待完成。在我看來，基于軌跡的方法也將成為我們正式理解深度非線性網絡的基于梯度的優化方法的關鍵。

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

神經網絡

神經網絡

+關注

關注
42

文章
4779

瀏覽量
101052
深度學習

深度學習

+關注

關注
73

文章
5512

瀏覽量
121415

原文標題：分析梯度下降的軌跡，更好地理解深度學習中的優化問題

文章出處：【微信號：worldofai，微信公眾號：worldofai】歡迎添加關注！文章轉載請注明出處。

28035的解密廣告已經遍布大街小巷，請問有沒有什么當前能夠行之有效的反解密方法？

本帖最后由一只耳朵怪于 2018-6-12 11:27 編輯眼下28035的解密廣告已經遍布大街小巷了，TI給的硬件加密形同虛設。。。請問有沒有什么當前能夠行之有效的反解密方法？想寫個軟件加密算法來的，但28035又

發表于 06-11 00:46

AI工程師 10 個深度學習方法

），那么算法總是能夠找到最優點。在進行最優化時，遇到這些特殊的地形（凸函數）自然是最好的。另外，山頂初始位置（即函數的初始值）不同，最終到達山底的路徑也完全不同。同樣，不同的流速（即梯度

發表于 03-07 20:17

幾種常用的、行之有效的抗干擾技術是什么

幾種常用的、行之有效的抗干擾技術是什么

發表于 06-08 06:20

基于深度學習的異常檢測的研究方法

的研究方法進行了系統而全面的綜述。此外，我們回顧了這些方法在不同應用領域中的應用，并評估了它們的有效性。我們根據所采用的基本假設和方法，將最

發表于 07-12 07:10

低功耗深度休眠后無法喚醒燒錄程序的解決辦法是什么？

使用復位按鍵喚醒，碰運氣燒錄程序，未果，查找資料、聯系華大代理，尋得以下行之有效的方法。解決方法：華大半導體單片機資料包：仿真及編程工具中：CCID在線離線編程器、Cortex-M離線編程器和...

發表于 12-06 07:06

深度學習技術的開發與應用

時間安排大綱具體內容實操案例三天關鍵點1.強化學習的發展歷程2.馬爾可夫決策過程3.動態規劃4.無模型預測學習5.無模型控制學習6.價值函數逼近7.策略梯度

發表于 04-21 14:57

什么是深度學習？使用FPGA進行深度學習的好處？

FPGA實現。易于適應新的神經網絡結構深度學習是一個非常活躍的研究領域，每天都在設計新的 DNN。其中許多結合了現有的標準計算，但有些需要全新的計算方法。特別是在具有特殊結構的網絡難以

發表于 02-17 16:56

ATX電源電路的分析

檢修atx開關電源，從+5vsb、ps-on和pw-ok信號入手來定位故障區域，是快速檢修中行之有效的方法。

發表于 06-28 17:33 ?856次下載

如何提高消費者對物聯網服務的信心和使用意愿方面行之有效的見解

，該報告基于對3000名消費者的調查，旨在為企業提供關于如何提高消費者對物聯網服務的信心和使用意愿方面行之有效的見解。

發表于 01-08 09:36 ?2901次閱讀

深度學習優化器方法及學習率衰減方式的詳細資料概述

深度學習作為現今機器學習領域中的重要的技術手段，在圖像識別、機器翻譯、自然語言處理等領域都已經很成熟，并獲得了很好的成果。文中針對深度

發表于 12-18 16:47 ?9次下載

深度學習中多種優化算法

在深度學習中，有很多種優化算法，這些算法需要在極高維度（通常參數有數百萬個以上）也即數百萬維的空間進行梯度下降，從最開始的初始點開始，尋找最

發表于 08-28 09:52 ?2626次閱讀

基于深度學習的自適應梯度閥值判別方法

深度學習的自適應梯度閾值判別方法。對海溫梯度圖進行標注，通過 Mask r-CNN訓練得到海洋鋒像素級識別模型，統計每一類鋒特有的

發表于 03-19 16:18 ?17次下載

幾種行之有效的集成電路拆卸方法資料下載

電子發燒友網為你提供幾種行之有效的集成電路拆卸方法資料下載的電子資料下載，更有其他相關的電路圖、源代碼、課件教程、中文資料、英文資料、參考設計、用戶指南、解決方案等資料，希望可以幫助到廣大的電子工程師們。

發表于 04-11 08:52 ?10次下載

人工智能領域的梯度學習研究

前向梯度學習通常用于計算含有噪聲的方向梯度，是一種符合生物學機制、可替代反向傳播的深度神經網絡學習方法。然而，當要

發表于 05-30 10:34 ?400次閱讀

深度學習的模型優化與調試方法

深度學習模型在訓練過程中，往往會遇到各種問題和挑戰，如過擬合、欠擬合、梯度消失或爆炸等。因此，對深度學習

發表于 07-01 11:41 ?937次閱讀

色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

搜索歷史

為什么基于梯度的方法能夠在深度學習的優化中行之有效

評論

28035的解密廣告已經遍布大街小巷，請問有沒有什么當前能夠行之有效的反解密方法？

AI工程師 10 個深度學習方法

幾種常用的、行之有效的抗干擾技術是什么

基于深度學習的異常檢測的研究方法

低功耗深度休眠后無法喚醒燒錄程序的解決辦法是什么？

深度學習技術的開發與應用

什么是深度學習？使用FPGA進行深度學習的好處？

ATX電源電路的分析

如何提高消費者對物聯網服務的信心和使用意愿方面行之有效的見解

深度學習優化器方法及學習率衰減方式的詳細資料概述

深度學習中多種優化算法

基于深度學習的自適應梯度閥值判別方法

幾種行之有效的集成電路拆卸方法資料下載

人工智能領域的梯度學習研究

深度學習的模型優化與調試方法