色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

關于LSTM和GRU的詳細圖解指南

電子工程師 ? 來源:未知 ? 作者:李倩 ? 2018-10-08 14:52 ? 次閱讀

機器學習工程師 Michael Nguyen 在其博文中發布了關于 LSTM 和 GRU 的詳細圖解指南。博文中,他先介紹了 LSTM 和 GRU 的本質,然后解釋了讓 LSTM 和 GRU 有良好表現的內部機制。 當然,如果你還想了解這兩種網絡背后發生了什么,那么這篇文章就是為你準備的。

▌短時記憶

RNN 會受到短時記憶的影響。如果一條序列足夠長,那它們將很難將信息從較早的時間步傳送到后面的時間步。 因此,如果你正在嘗試處理一段文本進行預測,RNN 可能從一開始就會遺漏重要信息。

在反向傳播期間,RNN 會面臨梯度消失的問題。 梯度是用于更新神經網絡的權重值,消失的梯度問題是當梯度隨著時間的推移傳播時梯度下降,如果梯度值變得非常小,就不會繼續學習。

梯度更新規則

因此,在遞歸神經網絡中,獲得小梯度更新的層會停止學習—— 那些通常是較早的層。 由于這些層不學習,RNN 可以忘記它在較長序列中看到的內容,因此具有短時記憶。

▌作為解決方案的 LSTM 和 GRU

LSTM 和 GRU 是解決短時記憶問題的解決方案,它們具有稱為“門”的內部機制,可以調節信息流。

這些“門”可以知道序列中哪些重要的數據是需要保留,而哪些是要刪除的。 隨后,它可以沿著長鏈序列傳遞相關信息以進行預測,幾乎所有基于遞歸神經網絡的技術成果都是通過這兩個網絡實現的。

LSTM 和 GRU 可以在語音識別、語音合成和文本生成中找到,你甚至可以用它們為視頻生成字幕。對 LSTM 和 GRU 擅長處理長序列的原因,到這篇文章結束時你應該會有充分了解。

下面我將通過直觀解釋和插圖進行闡述,并避免盡可能多的數學運算。

本質

讓我們從一個有趣的小實驗開始吧。當你想在網上購買生活用品時,一般都會查看一下此前已購買該商品用戶的評價。

當你瀏覽評論時,你的大腦下意識地只會記住重要的關鍵詞,比如“amazing”和“awsome”這樣的詞匯,而不太會關心“this”、“give”、“all”、“should”等字樣。如果朋友第二天問你用戶評價都說了什么,那你可能不會一字不漏地記住它,而是會說出但大腦里記得的主要觀點,比如“下次肯定還會來買”,那其他一些無關緊要的內容自然會從記憶中逐漸消失。

而這基本上就像是 LSTM 或 GRU 所做的那樣,它們可以學習只保留相關信息來進行預測,并忘記不相關的數據。

▌RNN 述評

為了了解 LSTM 或 GRU 如何實現這一點,讓我們回顧一下遞歸神經網絡。 RNN 的工作原理如下;第一個詞被轉換成了機器可讀的向量,然后 RNN 逐個處理向量序列。

逐一處理矢量序列

處理時,RNN 將先前隱藏狀態傳遞給序列的下一步。 而隱藏狀態充當了神經網絡記憶,它包含相關網絡之前所見過的數據的信息。

將隱藏狀態傳遞給下一個時間步

讓我們看看 RNN 的一個細胞,了解一下它如何計算隱藏狀態。 首先,將輸入和先前隱藏狀態組合成向量, 該向量包含當前輸入和先前輸入的信息。 向量經過激活函數 tanh之后,輸出的是新的隱藏狀態或網絡記憶。

RNN 細胞

激活函數 Tanh

激活函數 Tanh 用于幫助調節流經網絡的值。 tanh 函數將數值始終限制在 -1 和 1 之間。

當向量流經神經網絡時,由于有各種數學運算的緣故,它經歷了許多變換。 因此想象讓一個值繼續乘以 3,你可以想到一些值是如何變成天文數字的,這讓其他值看起來微不足道。

沒有 tanh 函數的向量轉換

tanh 函數確保值保持在 -1~1 之間,從而調節了神經網絡的輸出。 你可以看到上面的相同值是如何保持在 tanh 函數所允許的邊界之間的。

有 tanh 函數的向量轉換

這是一個 RNN。 它內部的操作很少,但在適當的情形下(如短序列)運作的很好。 RNN 使用的計算資源比它的演化變體 LSTM 和 GRU 要少得多。

▌LSTM

LSTM 的控制流程與 RNN 相似,它們都是在前向傳播的過程中處理流經細胞的數據,不同之處在于 LSTM 中細胞的結構和運算有所變化。

LSTM 的細胞結構和運算

這一系列運算操作使得 LSTM具有能選擇保存信息或遺忘信息的功能。咋一看這些運算操作時可能有點復雜,但沒關系下面將帶你一步步了解這些運算操作。

核心概念

LSTM 的核心概念在于細胞狀態以及“門”結構。細胞狀態相當于信息傳輸的路徑,讓信息能在序列連中傳遞下去。你可以將其看作網絡的“記憶”。理論上講,細胞狀態能夠將序列處理過程中的相關信息一直傳遞下去。

因此,即使是較早時間步長的信息也能攜帶到較后時間步長的細胞中來,這克服了短時記憶的影響。信息的添加和移除我們通過“門”結構來實現,“門”結構在訓練過程中會去學習該保存或遺忘哪些信息。

Sigmoid

門結構中包含著 sigmoid 激活函數。Sigmoid 激活函數與 tanh 函數類似,不同之處在于 sigmoid 是把值壓縮到 0~1 之間而不是 -1~1 之間。這樣的設置有助于更新或忘記信息,因為任何數乘以 0 都得 0,這部分信息就會剔除掉。同樣的,任何數乘以 1 都得到它本身,這部分信息就會完美地保存下來。這樣網絡就能了解哪些數據是需要遺忘,哪些數據是需要保存。

Sigmoid 將值壓縮到 0~1 之間

接下來了解一下門結構的功能。LSTM 有三種類型的門結構:遺忘門、輸入門和輸出門。

遺忘門

遺忘門的功能是決定應丟棄或保留哪些信息。來自前一個隱藏狀態的信息和當前輸入的信息同時傳遞到 sigmoid 函數中去,輸出值介于 0 和 1 之間,越接近 0 意味著越應該丟棄,越接近 1 意味著越應該保留。

遺忘門的運算過程

輸入門

輸入門用于更新細胞狀態。首先將前一層隱藏狀態的信息和當前輸入的信息傳遞到 sigmoid 函數中去。將值調整到 0~1 之間來決定要更新哪些信息。0 表示不重要,1 表示重要。

其次還要將前一層隱藏狀態的信息和當前輸入的信息傳遞到 tanh 函數中去,創造一個新的侯選值向量。最后將 sigmoid 的輸出值與 tanh 的輸出值相乘,sigmoid 的輸出值將決定 tanh 的輸出值中哪些信息是重要且需要保留下來的。

輸入門的運算過程

細胞狀態

下一步,就是計算細胞狀態。首先前一層的細胞狀態與遺忘向量逐點相乘。如果它乘以接近 0 的值,意味著在新的細胞狀態中,這些信息是需要丟棄掉的。然后再將該值與輸入門的輸出值逐點相加,將神經網絡發現的新信息更新到細胞狀態中去。至此,就得到了更新后的細胞狀態。

細胞狀態的計算

輸出門

輸出門用來確定下一個隱藏狀態的值,隱藏狀態包含了先前輸入的信息。首先,我們將前一個隱藏狀態和當前輸入傳遞到 sigmoid 函數中,然后將新得到的細胞狀態傳遞給 tanh 函數。

最后將 tanh 的輸出與 sigmoid 的輸出相乘,以確定隱藏狀態應攜帶的信息。再將隱藏狀態作為當前細胞的輸出,把新的細胞狀態和新的隱藏狀態傳遞到下一個時間步長中去。

輸出門的運算過程

讓我們再梳理一下。遺忘門確定前一個步長中哪些相關的信息需要被保留;輸入門確定當前輸入中哪些信息是重要的,需要被添加的;輸出門確定下一個隱藏狀態應該是什么。

代碼示例

對于那些懶得看文字的人來說,代碼也許更好理解,下面給出一個用 python 寫的示例。

python 寫的偽代碼

1.首先,我們將先前的隱藏狀態和當前的輸入連接起來,這里將它稱為 combine;

2.其次將 combine 丟到遺忘層中,用于刪除不相關的數據;

3.再用 combine 創建一個候選層,候選層中包含著可能要添加到細胞狀態中的值;

4.combine 同樣要丟到輸入層中,該層決定了候選層中哪些數據需要添加到新的細胞狀態中;

5.接下來細胞狀態再根據遺忘層、候選層、輸入層以及先前細胞狀態的向量來計算;

6.再計算當前細胞的輸出;

7.最后將輸出與新的細胞狀態逐點相乘以得到新的隱藏狀態。

是的,LSTM 網絡的控制流程就是幾個張量和一個 for 循環。你還可以使用隱藏狀態進行預測。結合這些機制,LSTM 能夠在序列處理中確定哪些信息需要記憶,哪些信息需要遺忘。

▌GRU

知道了 LSTM 的工作原理之后,來了解一下 GRU。GRU 是新一代的循環神經網絡,與 LSTM 非常相似。與 LSTM 相比,GRU 去除掉了細胞狀態,使用隱藏狀態來進行信息的傳遞。它只包含兩個門:更新門和重置門。

GRU 的細胞結構和門結構

更新門

更新門的作用類似于 LSTM 中的遺忘門和輸入門。它決定了要忘記哪些信息以及哪些新信息需要被添加。

重置門

重置門用于決定遺忘先前信息的程度。

這就是 GRU。GRU 的張量運算較少,因此它比 LSTM 的訓練更快一下。很難去判定這兩者到底誰更好,研究人員通常會兩者都試一下,然后選擇最合適的。

▌結語

總而言之,RNN 適用于處理序列數據用于預測,但卻受到短時記憶的制約。LSTM 和 GRU 采用門結構來克服短時記憶的影響。門結構可以調節流經序列鏈的信息流。LSTM 和 GRU 被廣泛地應用到語音識別、語音合成和自然語言處理等。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 神經網絡
    +關注

    關注

    42

    文章

    4779

    瀏覽量

    101049
  • 機器學習
    +關注

    關注

    66

    文章

    8438

    瀏覽量

    132928

原文標題:難以置信!LSTM和GRU的解析從未如此清晰(動圖+視頻)

文章出處:【微信號:rgznai100,微信公眾號:rgznai100】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    GRU是什么?GRU模型如何讓你的神經網絡更聰明 掌握時間 掌握未來

    大家平時經常聽到的GRU是什么呢? 首先來認識下CNN,CNN指代卷積神經網絡(Convolutional Neural Network),這是一種在人工智能和機器學習領域中常用的神經網絡架構,特別
    發表于 06-13 11:42 ?2015次閱讀
    <b class='flag-5'>GRU</b>是什么?<b class='flag-5'>GRU</b>模型如何讓你的神經網絡更聰明 掌握時間 掌握未來

    [分享]詳細的protel與power PADS 文件互相轉換圖解教程

    詳細的protel與power PADS 文件互相轉換圖解教程[此貼子已經被admin于2009-4-8 12:59:00編輯過]
    發表于 11-14 18:34

    arm_mmu詳細圖解

    arm_mmu詳細圖解arm_mmu詳細圖解arm_mmu詳細圖解arm_mmu
    發表于 11-21 23:58

    MHDD的使用圖解詳細技術教程

    MHDD的使用圖解詳細技術教程
    發表于 07-29 11:30

    LabVIEW2011注冊機及詳細使用圖解

    LabVIEW2011注冊機及詳細使用圖解,歡迎下載!
    發表于 05-04 14:57

    數字萬用表的使用方法詳細圖解

    數字萬用表的使用方法詳細圖解PCB打樣找華強 http://www.hqpcb.com 樣板2天出貨
    發表于 09-13 17:51

    傳感器的分類詳細圖解

    傳感器的分類詳細圖解
    發表于 12-02 09:55 ?4950次閱讀

    Android 開發環境搭建步驟詳細圖解

    Android 開發環境搭建步驟詳細圖解
    發表于 10-24 08:49 ?11次下載
    Android 開發環境搭建步驟<b class='flag-5'>詳細</b><b class='flag-5'>圖解</b>

    RNN及其變體LSTMGRU

    下圖為一個雙層LSTM對三個不同的單詞的反應分布。該LSTM每層有600個細胞狀態單元,基于Penn Tree Bank(PTB)數據集訓練。我們可以看到,模型對介詞(“for”)和代詞(“he”、“she”)的反應模式大不相同。
    的頭像 發表于 06-30 11:11 ?1.7w次閱讀
    RNN及其變體<b class='flag-5'>LSTM</b>和<b class='flag-5'>GRU</b>

    LSTM隱層神經元結構分析,及應用的程序詳細概述

    LSTM隱層神經元結構: LSTM隱層神經元詳細結構: //讓程序自己學會是否需要進位,從而學會加法#in
    的頭像 發表于 07-29 10:06 ?9387次閱讀

    商務車控制盒的詳細資料圖解資料免費下載

    本文檔的主要內容詳細介紹的是商務車控制盒的詳細資料圖解資料免費下載內容包括了:ABA-V0.518.1控制器圖解,ABA觸摸屏圖解及觸屏系統
    發表于 10-24 08:00 ?4次下載
    商務車控制盒的<b class='flag-5'>詳細</b>資料<b class='flag-5'>圖解</b>資料免費下載

    LSTMGRU的動態圖解

    根據上圖公式:新權重=權重-學習率×梯度。已知學習率是個超參數,當梯度非常小時,權重和新權重幾乎相等,這個層就停止學習了。由于這些層都不再學習,RNN就會忘記在較長序列中看到的內容,只能傳遞短期記憶。
    的頭像 發表于 10-27 09:08 ?1.4w次閱讀
    <b class='flag-5'>LSTM</b>和<b class='flag-5'>GRU</b>的動態<b class='flag-5'>圖解</b>

    循環神經網絡(RNN)和(LSTM)初學者指南

    最近,有一篇入門文章引發了不少關注。文章中詳細介紹了循環神經網絡(RNN),及其變體長短期記憶(LSTM)背后的原理。
    發表于 02-05 13:43 ?970次閱讀

    詳細圖解比例閥工作原理

    詳細圖解比例閥工作原理。
    的頭像 發表于 04-27 13:19 ?10w次閱讀
    <b class='flag-5'>詳細</b><b class='flag-5'>圖解</b>比例閥工作原理

    超生動圖解LSTM和GPU,讀懂循環神經網絡!

    這些門結構可以學習序列中哪些數據是要保留的重要信息,哪些是要刪除的。通過這樣做,它可以沿著長鏈序列傳遞相關信息來執行預測。幾乎所有基于RNN的先進結果都是通過這兩個網絡實現的。LSTMGRU經常用在語音識別、語音合成和文本生成等領域,還可用來為視頻生成字幕。
    的頭像 發表于 01-20 15:20 ?2255次閱讀
    超生動<b class='flag-5'>圖解</b><b class='flag-5'>LSTM</b>和GPU,讀懂循環神經網絡!
    主站蜘蛛池模板: 亚洲在线v观看免费国 | 第一福利视频网站在线 | 叔叔 电影完整版免费观看韩国 | 成人国产精品玖玖热色欲 | 欧美日韩国产在线一区二区 | 国内精品久久久久影院男同志 | 一个人HD高清在线观看免费视频 | 约艺术院校96年清纯白嫩 | 黑人 尺寸 强行害怕 痛哭 | 美女议员被泄裸照 | 123超碰在线视频 | 高中生高潮抽搐喷出白浆视频 | 亚洲三级在线看 | 中文字幕成人免费高清在线 | 亚洲人成在线播放无码 | 秋霞特色大片18岁入口 | 国产精品XXXXX免费A片 | 伊人国产在线播放 | 亚洲AV无码一区二区三区乱子伦 | 欧美性色生活片天天看99顶级 | 男人J桶女人P视频无遮挡网站 | 扒开老师粉嫩的泬10P | 欧美末成年videos在线 | 欧洲最强rapper潮水喷视频 | 国产成人国产在线观看入口 | 娇喘嗯嗯 轻点啊视频福利 娇喘高潮教室h | 亚洲精品国偷拍自产在线观看蜜臀 | 亚洲 欧美 国产 综合久久 | 美女医生深夜在家裸睡惨死 | 欧美日韩亚洲综合2019 | 一个人的免费完整在线观看HD | 伊人久久大香线蕉无码麻豆 | 久久国产加勒比精品无码 | FREEHDXXXX学生妹| 啦啦啦WWW在线观看免费高清版 | 国产乱码一区二区三区 | 69亞洲亂人倫AV精品發布 | 久久青草影院 | 青草久久伊人 | 日韩精品一区VR观看 | WWW国产无套内射久久 |