色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

PyTorch教程-12.1. 優化和深度學習

jf_pJlTbmA9 ? 來源:2098332 ? 作者:2098332 ? 2023-06-05 15:44 ? 次閱讀

在本節中,我們將討論優化與深度學習之間的關系以及在深度學習中使用優化的挑戰。對于一個深度學習問題,我們通常會先定義一個 損失函數。一旦我們有了損失函數,我們就可以使用優化算法來嘗試最小化損失。在優化中,損失函數通常被稱為優化問題的目標函數。按照傳統和約定,大多數優化算法都與最小化有關。如果我們需要最大化目標,有一個簡單的解決方案:只需翻轉目標上的標志。

12.1.1。優化目標

盡管優化為深度學習提供了一種最小化損失函數的方法,但從本質上講,優化和深度學習的目標是根本不同的。前者主要關注最小化目標,而后者關注在給定有限數據量的情況下找到合適的模型。在 第 3.6 節中,我們詳細討論了這兩個目標之間的區別。例如,訓練誤差和泛化誤差通常不同:由于優化算法的目標函數通常是基于訓練數據集的損失函數,因此優化的目標是減少訓練誤差。然而,深度學習(或更廣泛地說,統計推斷)的目標是減少泛化誤差。為了完成后者,除了使用優化算法來減少訓練誤差外,我們還需要注意過度擬合。

%matplotlib inline
import numpy as np
import torch
from mpl_toolkits import mplot3d
from d2l import torch as d2l

%matplotlib inline
from mpl_toolkits import mplot3d
from mxnet import np, npx
from d2l import mxnet as d2l

npx.set_np()

%matplotlib inline
import numpy as np
import tensorflow as tf
from mpl_toolkits import mplot3d
from d2l import tensorflow as d2l

為了說明上述不同的目標,讓我們考慮經驗風險和風險。如第 4.7.3.1 節所述 ,經驗風險是訓練數據集的平均損失,而風險是整個數據群的預期損失。下面我們定義兩個函數:風險函數f和經驗風險函數g。假設我們只有有限數量的訓練數據。結果,這里g 不如 平滑f。

def f(x):
  return x * torch.cos(np.pi * x)

def g(x):
  return f(x) + 0.2 * torch.cos(5 * np.pi * x)

def f(x):
  return x * np.cos(np.pi * x)

def g(x):
  return f(x) + 0.2 * np.cos(5 * np.pi * x)

def f(x):
  return x * tf.cos(np.pi * x)

def g(x):
  return f(x) + 0.2 * tf.cos(5 * np.pi * x)

下圖說明了訓練數據集上經驗風險的最小值可能與風險的最小值(泛化誤差)位于不同的位置。

def annotate(text, xy, xytext): #@save
  d2l.plt.gca().annotate(text, xy=xy, xytext=xytext,
              arrowprops=dict(arrowstyle='->'))

x = torch.arange(0.5, 1.5, 0.01)
d2l.set_figsize((4.5, 2.5))
d2l.plot(x, [f(x), g(x)], 'x', 'risk')
annotate('min ofnempirical risk', (1.0, -1.2), (0.5, -1.1))
annotate('min of risk', (1.1, -1.05), (0.95, -0.5))

pYYBAGR9OLCARSaKAAEhrWBFT9M534.svg

def annotate(text, xy, xytext): #@save
  d2l.plt.gca().annotate(text, xy=xy, xytext=xytext,
              arrowprops=dict(arrowstyle='->'))

x = np.arange(0.5, 1.5, 0.01)
d2l.set_figsize((4.5, 2.5))
d2l.plot(x, [f(x), g(x)], 'x', 'risk')
annotate('min ofnempirical risk', (1.0, -1.2), (0.5, -1.1))
annotate('min of risk', (1.1, -1.05), (0.95, -0.5))

pYYBAGR9OLCARSaKAAEhrWBFT9M534.svg

def annotate(text, xy, xytext): #@save
  d2l.plt.gca().annotate(text, xy=xy, xytext=xytext,
              arrowprops=dict(arrowstyle='->'))

x = tf.range(0.5, 1.5, 0.01)
d2l.set_figsize((4.5, 2.5))
d2l.plot(x, [f(x), g(x)], 'x', 'risk')
annotate('min ofnempirical risk', (1.0, -1.2), (0.5, -1.1))
annotate('min of risk', (1.1, -1.05), (0.95, -0.5))

poYBAGR9OLWAAe0DAAEhtoAyqDg129.svg

12.1.2。深度學習中的優化挑戰

在本章中,我們將特別關注優化算法在最小化目標函數方面的性能,而不是模型的泛化誤差。在 3.1 節中,我們區分了優化問題中的解析解和數值解。在深度學習中,大多數目標函數都很復雜,沒有解析解。相反,我們必須使用數值優化算法。本章的優化算法都屬于這一類。

深度學習優化有很多挑戰。一些最令人煩惱的是局部最小值、鞍點和梯度消失。讓我們來看看它們。

12.1.2.1。局部最小值

對于任何目標函數f(x), 如果值f(x)在 x小于的值f(x)在附近的任何其他點x, 然后f(x)可能是局部最小值。如果值f(x)在x是整個域內目標函數的最小值,則f(x)是全局最小值。

例如,給定函數

(12.1.1)f(x)=x?cos(πx)for?1.0≤x≤2.0,

我們可以逼近這個函數的局部最小值和全局最小值。

x = torch.arange(-1.0, 2.0, 0.01)
d2l.plot(x, [f(x), ], 'x', 'f(x)')
annotate('local minimum', (-0.3, -0.25), (-0.77, -1.0))
annotate('global minimum', (1.1, -0.95), (0.6, 0.8))

pYYBAGR9OLeAVduAAACoUAH2ZEc074.svg

x = np.arange(-1.0, 2.0, 0.01)
d2l.plot(x, [f(x), ], 'x', 'f(x)')
annotate('local minimum', (-0.3, -0.25), (-0.77, -1.0))
annotate('global minimum', (1.1, -0.95), (0.6, 0.8))

poYBAGR9OLqAEVjhAACoUe_or70496.svg

x = tf.range(-1.0, 2.0, 0.01)
d2l.plot(x, [f(x), ], 'x', 'f(x)')
annotate('local minimum', (-0.3, -0.25), (-0.77, -1.0))
annotate('global minimum', (1.1, -0.95), (0.6, 0.8))

poYBAGR9OLyANIdoAACoRjNm0Lo702.svg

深度學習模型的目標函數通常有很多局部最優值。當優化問題的數值解接近局部最優時,隨著目標函數解的梯度趨近或變為零,最終迭代得到的數值解可能只會局部最小化目標函數,而不是全局最小化。只有某種程度的噪聲可能會使參數超出局部最小值。事實上,這是小批量隨機梯度下降的有益特性之一,其中小批量梯度的自然變化能夠將參數從局部最小值中移除。

12.1.2.2。鞍點

除了局部最小值,鞍點是梯度消失的另一個原因。鞍點是函數的所有梯度都消失但既不是全局最小值也不是局部最小值的任何位置。考慮函數f(x)=x3. 它的一階和二階導數消失為x=0. 優化可能會在此時停止,即使它不是最小值。

x = torch.arange(-2.0, 2.0, 0.01)
d2l.plot(x, [x**3], 'x', 'f(x)')
annotate('saddle point', (0, -0.2), (-0.52, -5.0))

pYYBAGR9OL6AVkH4AAB9txeE7BM015.svg

x = np.arange(-2.0, 2.0, 0.01)
d2l.plot(x, [x**3], 'x', 'f(x)')
annotate('saddle point', (0, -0.2), (-0.52, -5.0))

pYYBAGR9OL6AVkH4AAB9txeE7BM015.svg

x = tf.range(-2.0, 2.0, 0.01)
d2l.plot(x, [x**3], 'x', 'f(x)')
annotate('saddle point', (0, -0.2), (-0.52, -5.0))

pYYBAGR9OMKAQRt6AAB9u1lYUbg210.svg

更高維度的鞍點更加隱蔽,如下例所示。考慮函數f(x,y)=x2?y2. 它的鞍點位于(0,0). 這是相對于y和最低限度x. 此外,它看起來像一個馬鞍,這就是這個數學性質得名的地方。

x, y = torch.meshgrid(
  torch.linspace(-1.0, 1.0, 101), torch.linspace(-1.0, 1.0, 101))
z = x**2 - y**2

ax = d2l.plt.figure().add_subplot(111, projection='3d')
ax.plot_wireframe(x, y, z, **{'rstride': 10, 'cstride': 10})
ax.plot([0], [0], [0], 'rx')
ticks = [-1, 0, 1]
d2l.plt.xticks(ticks)
d2l.plt.yticks(ticks)
ax.set_zticks(ticks)
d2l.plt.xlabel('x')
d2l.plt.ylabel('y');

poYBAGR9OMSAJE-HAAEDzmdOJZE022.svg

x, y = np.meshgrid(
  np.linspace(-1.0, 1.0, 101), np.linspace(-1.0, 1.0, 101))
z = x**2 - y**2

ax = d2l.plt.figure().add_subplot(111, projection='3d')
ax.plot_wireframe(x.asnumpy(), y.asnumpy(), z.asnumpy(),
         **{'rstride': 10, 'cstride': 10})
ax.plot([0], [0], [0], 'rx')
ticks = [-1, 0, 1]
d2l.plt.xticks(ticks)
d2l.plt.yticks(ticks)
ax.set_zticks(ticks)
d2l.plt.xlabel('x')
d2l.plt.ylabel('y');

poYBAGR9OMaAeNWkAAEDzhXHnnk558.svg

x, y = tf.meshgrid(
  tf.linspace(-1.0, 1.0, 101), tf.linspace(-1.0, 1.0, 101))
z = x**2 - y**2

ax = d2l.plt.figure().add_subplot(111, projection='3d')
ax.plot_wireframe(x, y, z, **{'rstride': 10, 'cstride': 10})
ax.plot([0], [0], [0], 'rx')
ticks = [-1, 0, 1]
d2l.plt.xticks(ticks)
d2l.plt.yticks(ticks)
ax.set_zticks(ticks)
d2l.plt.xlabel('x')
d2l.plt.ylabel('y');

poYBAGR9OMyAPBHMAAED0pssMW0836.svg

我們假設函數的輸入是k維向量,它的輸出是一個標量,所以它的 Hessian 矩陣有k 特征值。函數的解可以是局部最小值、局部最大值或函數梯度為零的位置處的鞍點:

當函數的 Hessian 矩陣在零梯度位置的特征值都為正時,函數有一個局部最小值。

當函數的 Hessian 矩陣在零梯度位置的特征值全部為負時,我們有函數的局部最大值。

當函數的 Hessian 矩陣在零梯度位置的特征值分別為負和正時,我們就有了函數的鞍點。

對于高維問題,至少某些特征值為負的可能性非常高。這使得鞍點比局部最小值更有可能。我們將在下一節介紹凸性時討論這種情況的一些例外情況。簡而言之,凸函數是那些 Hessian 矩陣的特征值從不為負的函數。但遺憾的是,大多數深度學習問題并不屬于這一類。盡管如此,它還是研究優化算法的好工具。

12.1.2.3。消失的漸變

可能遇到的最隱蔽的問題是梯度消失。回憶一下我們在5.1.2 節中常用的激活函數及其派生函數。例如,假設我們要最小化函數f(x)=tanh?(x)我們碰巧開始于x=4. 正如我們所見,梯度f接近于零。進一步來說, f′(x)=1?tanh2?(x)因此f′(4)=0.0013. 因此,在我們取得進展之前,優化將停滯很長時間。事實證明,這是在引入 ReLU 激活函數之前訓練深度學習模型非常棘手的原因之一。

x = torch.arange(-2.0, 5.0, 0.01)
d2l.plot(x, [torch.tanh(x)], 'x', 'f(x)')
annotate('vanishing gradient', (4, 1), (2, 0.0))

pYYBAGR9OM6AU799AACtyyM6dcY975.svg

x = np.arange(-2.0, 5.0, 0.01)
d2l.plot(x, [np.tanh(x)], 'x', 'f(x)')
annotate('vanishing gradient', (4, 1), (2, 0.0))

pYYBAGR9OM6AU799AACtyyM6dcY975.svg

x = tf.range(-2.0, 5.0, 0.01)
d2l.plot(x, [tf.tanh(x)], 'x', 'f(x)')
annotate('vanishing gradient', (4, 1), (2, 0.0))

poYBAGR9ONKAMIrMAACtur1e8Hc499.svg

正如我們所見,深度學習的優化充滿挑戰。幸運的是,存在一系列強大的算法,它們性能良好并且即使對于初學者也易于使用。此外,并不是真的有必要找到最佳解決方案。其局部最優甚至近似解仍然非常有用。

12.1.3。概括

最小化訓練誤差并不能保證我們找到最佳參數集來最小化泛化誤差。

優化問題可能有很多局部極小值。

該問題可能有更多的鞍點,因為通常問題不是凸的。

消失的梯度會導致優化停止。問題的重新參數化通常會有所幫助。參數的良好初始化也可能是有益的。

12.1.4。練習

考慮一個簡單的 MLP,它有一個隱藏層,比方說,d 隱藏層中的維度和單個輸出。表明對于任何局部最小值,至少有d!行為相同的等效解決方案。

假設我們有一個對稱隨機矩陣M 條目在哪里Mij=Mji每個都是從一些概率分布中得出的pij. 此外假設 pij(x)=pij(?x),即分布是對稱的(有關詳細信息,請參見例如Wigner ( 1958 ))。

證明特征值的分布也是對稱的。也就是說,對于任何特征向量v相關特征值的概率λ滿足 P(λ>0)=P(λ<0).

為什么上面沒有暗示P(λ>0)=0.5?

您還能想到深度學習優化中涉及的其他哪些挑戰?

假設您想要在(真實的)鞍座上平衡一個(真實的)球。

為什么這很難?

您能否將這種效應也用于優化算法?

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 深度學習
    +關注

    關注

    73

    文章

    5511

    瀏覽量

    121392
  • pytorch
    +關注

    關注

    2

    文章

    808

    瀏覽量

    13320
收藏 人收藏

    評論

    相關推薦

    Facebook宣布發布深度學習框架 PyTorch 1.0開發者預覽版

    用戶共同制作張量處理單元(TPU)。用于預配置 AI 的 Google Cloud Platform 深度學習 VM,還將包含 PyTorch 1.0 的 VM 映像。亞馬遜的 SageMaker 將為
    的頭像 發表于 10-08 14:36 ?3230次閱讀

    PyTorch官網教程PyTorch深度學習:60分鐘快速入門中文翻譯版

    PyTorch 深度學習:60分鐘快速入門”為 PyTorch 官網教程,網上已經有部分翻譯作品,隨著PyTorch1.0 版本的公布,這
    的頭像 發表于 01-13 11:53 ?1w次閱讀

    蘋果向開發者用戶推送了iOS 12.1. 3 開發者預覽版beta4

    今天凌晨,蘋果向開發者用戶推送了iOS 12.1. 3 開發者預覽版beta4,距離上個版本更新僅 3 天時間,更新后的版本號為16D5039a。和以往一樣,蘋果給出的更新說明依舊是修復bug、提升系統流暢度。
    的頭像 發表于 01-14 10:01 ?4014次閱讀
    蘋果向開發者用戶推送了iOS <b class='flag-5'>12.1.</b> 3 開發者預覽版beta4

    為什么學習深度學習需要使用PyTorch和TensorFlow框架

    如果你需要深度學習模型,那么 PyTorch 和 TensorFlow 都是不錯的選擇。 并非每個回歸或分類問題都需要通過深度學習來解決。
    的頭像 發表于 09-14 10:57 ?3477次閱讀

    基于PyTorch深度學習入門教程之PyTorch的安裝和配置

    神經網絡結構,并且運用各種深度學習算法訓練網絡參數,進而解決各種任務。 本文從PyTorch環境配置開始。PyTorch是一種Python接口的深度
    的頭像 發表于 02-16 15:15 ?2625次閱讀

    基于PyTorch深度學習入門教程之PyTorch簡單知識

    基于Python的科學計算框架,用于進行深度學習相關研究。對于Python語言的入門,可以參考之前的兩篇介紹PythonNumpy的博客。分別是Python Numpy 教程(
    的頭像 發表于 02-16 15:20 ?2289次閱讀

    PyTorch開源深度學習框架簡介

    PyTorch 是一種開源深度學習框架,以出色的靈活性和易用性著稱。這在一定程度上是因為與機器學習開發者和數據科學家所青睞的熱門 Python 高級編程語言兼容。
    的頭像 發表于 07-29 10:26 ?4516次閱讀

    深度學習框架PyTorch和TensorFlow如何選擇

    在 AI 技術興起后,深度學習框架 PyTorch 和 TensorFlow 兩大陣營似乎也爆發了類似的「戰爭」。這兩個陣營背后都有大量的支持者,并且他們都有充足的理由來說明為什么他們所喜歡的框架是最好的。
    發表于 02-02 10:28 ?1052次閱讀

    PyTorch教程5.5之深度學習中的泛化

    電子發燒友網站提供《PyTorch教程5.5之深度學習中的泛化.pdf》資料免費下載
    發表于 06-05 15:31 ?1次下載
    <b class='flag-5'>PyTorch</b>教程5.5之<b class='flag-5'>深度</b><b class='flag-5'>學習</b>中的泛化

    PyTorch教程12.1優化深度學習

    電子發燒友網站提供《PyTorch教程12.1優化深度學習.pdf》資料免費下載
    發表于 06-05 15:08 ?0次下載
    <b class='flag-5'>PyTorch</b>教程<b class='flag-5'>12.1</b>之<b class='flag-5'>優化</b>和<b class='flag-5'>深度</b><b class='flag-5'>學習</b>

    深度學習框架pytorch入門與實踐

    深度學習框架pytorch入門與實踐 深度學習是機器學習中的一個分支,它使用多層神經網絡對大量數
    的頭像 發表于 08-17 16:03 ?1638次閱讀

    深度學習框架pytorch介紹

    深度學習框架pytorch介紹 PyTorch是由Facebook創建的開源機器學習框架,其中TensorFlow是完全基于數據流圖的。它是
    的頭像 發表于 08-17 16:10 ?1861次閱讀

    TensorFlow與PyTorch深度學習框架的比較與選擇

    深度學習作為人工智能領域的一個重要分支,在過去十年中取得了顯著的進展。在構建和訓練深度學習模型的過程中,深度
    的頭像 發表于 07-02 14:04 ?1030次閱讀

    PyTorch深度學習開發環境搭建指南

    PyTorch作為一種流行的深度學習框架,其開發環境的搭建對于深度學習研究者和開發者來說至關重要。在Windows操作系統上搭建
    的頭像 發表于 07-16 18:29 ?1195次閱讀

    Pytorch深度學習訓練的方法

    掌握這 17 種方法,用最省力的方式,加速你的 Pytorch 深度學習訓練。
    的頭像 發表于 10-28 14:05 ?244次閱讀
    <b class='flag-5'>Pytorch</b><b class='flag-5'>深度</b><b class='flag-5'>學習</b>訓練的方法
    主站蜘蛛池模板: 色小姐.com| 99久久久免费精品免费| 国产精品一久久香蕉国产线看| 偷偷要色偷偷| 韩国hd高清xxx| 最近免费中文MV在线字幕| 欧美Av无码高清在线| 国产成人精品综合久久久| 亚洲精品理论电影在线观看| 久久有码中文字幕| 99E久热只有精品8在线直播| 三级网址在线播放| 国产强奷糟蹋漂亮邻居在线观看| 成人网站国产在线视频内射视频 | 亚洲性爱城| 国产偷国产偷亚洲高清app| 亚洲欧美日韩精品久久奇米色影视 | 肉动漫无码无删减在线观看| 含羞草免费完整视频在线观看| 最美白虎逼| 天天噜日日噜夜夜噜| 久久婷婷五月综合色丁香| 纯肉宠文高h一对一| 野花日本完整版在线观看免费高清| 欧美6O老妪与小伙交| 国产三级电影网| JEALOUSVUE成熟老师APP| 亚洲一区国产| 日本xxxxxxxxx老师59| 簧片高清在线观看| 动漫美女被到爽了流漫画| 在线观看免费av网站| 无码爽死成人777在线观看网站| 麻豆文化传媒一区二区| 国产精品人妻99一区二| 97在线观看成人免费视频| 亚洲精品久久久无码AV片软件| 青青视频国产依人在线| 久久久久久人精品免费费看| 国产人妖一区二区| yellow免费影视大全|