性xx色动画xx无尽老师视频,无删减影视免费观看,午夜国产精品

機器學習工程師 Michael Nguyen 在其博文中發布了關于 LSTM 和 GRU 的詳細圖解指南。博文中，他先介紹了 LSTM 和 GRU 的本質，然后解釋了讓 LSTM 和 GRU 有良好表現的內部機制。當然，如果你還想了解這兩種網絡背后發生了什么，那么這篇文章就是為你準備的。

▌短時記憶

RNN 會受到短時記憶的影響。如果一條序列足夠長，那它們將很難將信息從較早的時間步傳送到后面的時間步。因此，如果你正在嘗試處理一段文本進行預測，RNN 可能從一開始就會遺漏重要信息。

在反向傳播期間，RNN 會面臨梯度消失的問題。梯度是用于更新神經網絡的權重值，消失的梯度問題是當梯度隨著時間的推移傳播時梯度下降，如果梯度值變得非常小，就不會繼續學習。

梯度更新規則

因此，在遞歸神經網絡中，獲得小梯度更新的層會停止學習—— 那些通常是較早的層。由于這些層不學習，RNN 可以忘記它在較長序列中看到的內容，因此具有短時記憶。

▌作為解決方案的 LSTM 和 GRU

LSTM 和 GRU 是解決短時記憶問題的解決方案，它們具有稱為“門”的內部機制，可以調節信息流。

這些“門”可以知道序列中哪些重要的數據是需要保留，而哪些是要刪除的。隨后，它可以沿著長鏈序列傳遞相關信息以進行預測，幾乎所有基于遞歸神經網絡的技術成果都是通過這兩個網絡實現的。

LSTM 和 GRU 可以在語音識別、語音合成和文本生成中找到，你甚至可以用它們為視頻生成字幕。對 LSTM 和 GRU 擅長處理長序列的原因，到這篇文章結束時你應該會有充分了解。

下面我將通過直觀解釋和插圖進行闡述，并避免盡可能多的數學運算。

本質

讓我們從一個有趣的小實驗開始吧。當你想在網上購買生活用品時，一般都會查看一下此前已購買該商品用戶的評價。

當你瀏覽評論時，你的大腦下意識地只會記住重要的關鍵詞，比如“amazing”和“awsome”這樣的詞匯，而不太會關心“this”、“give”、“all”、“should”等字樣。如果朋友第二天問你用戶評價都說了什么，那你可能不會一字不漏地記住它，而是會說出但大腦里記得的主要觀點，比如“下次肯定還會來買”，那其他一些無關緊要的內容自然會從記憶中逐漸消失。

而這基本上就像是 LSTM 或 GRU 所做的那樣，它們可以學習只保留相關信息來進行預測，并忘記不相關的數據。

▌RNN 述評

為了了解 LSTM 或 GRU 如何實現這一點，讓我們回顧一下遞歸神經網絡。 RNN 的工作原理如下；第一個詞被轉換成了機器可讀的向量，然后 RNN 逐個處理向量序列。

逐一處理矢量序列

處理時，RNN 將先前隱藏狀態傳遞給序列的下一步。而隱藏狀態充當了神經網絡記憶，它包含相關網絡之前所見過的數據的信息。

將隱藏狀態傳遞給下一個時間步

讓我們看看 RNN 的一個細胞，了解一下它如何計算隱藏狀態。首先，將輸入和先前隱藏狀態組合成向量，該向量包含當前輸入和先前輸入的信息。向量經過激活函數 tanh之后，輸出的是新的隱藏狀態或網絡記憶。

RNN 細胞

激活函數 Tanh

激活函數 Tanh 用于幫助調節流經網絡的值。 tanh 函數將數值始終限制在 -1 和 1 之間。

當向量流經神經網絡時，由于有各種數學運算的緣故，它經歷了許多變換。因此想象讓一個值繼續乘以 3，你可以想到一些值是如何變成天文數字的，這讓其他值看起來微不足道。

沒有 tanh 函數的向量轉換

tanh 函數確保值保持在 -1~1 之間，從而調節了神經網絡的輸出。你可以看到上面的相同值是如何保持在 tanh 函數所允許的邊界之間的。

有 tanh 函數的向量轉換

這是一個 RNN。它內部的操作很少，但在適當的情形下（如短序列）運作的很好。 RNN 使用的計算資源比它的演化變體 LSTM 和 GRU 要少得多。

▌LSTM

LSTM 的控制流程與 RNN 相似，它們都是在前向傳播的過程中處理流經細胞的數據，不同之處在于 LSTM 中細胞的結構和運算有所變化。

LSTM 的細胞結構和運算

這一系列運算操作使得 LSTM具有能選擇保存信息或遺忘信息的功能。咋一看這些運算操作時可能有點復雜，但沒關系下面將帶你一步步了解這些運算操作。

核心概念

LSTM 的核心概念在于細胞狀態以及“門”結構。細胞狀態相當于信息傳輸的路徑，讓信息能在序列連中傳遞下去。你可以將其看作網絡的“記憶”。理論上講，細胞狀態能夠將序列處理過程中的相關信息一直傳遞下去。

因此，即使是較早時間步長的信息也能攜帶到較后時間步長的細胞中來，這克服了短時記憶的影響。信息的添加和移除我們通過“門”結構來實現，“門”結構在訓練過程中會去學習該保存或遺忘哪些信息。

Sigmoid

門結構中包含著 sigmoid 激活函數。Sigmoid 激活函數與 tanh 函數類似，不同之處在于 sigmoid 是把值壓縮到 0~1 之間而不是 -1~1 之間。這樣的設置有助于更新或忘記信息，因為任何數乘以 0 都得 0，這部分信息就會剔除掉。同樣的，任何數乘以 1 都得到它本身，這部分信息就會完美地保存下來。這樣網絡就能了解哪些數據是需要遺忘，哪些數據是需要保存。

Sigmoid 將值壓縮到 0~1 之間

接下來了解一下門結構的功能。LSTM 有三種類型的門結構：遺忘門、輸入門和輸出門。

遺忘門

遺忘門的功能是決定應丟棄或保留哪些信息。來自前一個隱藏狀態的信息和當前輸入的信息同時傳遞到 sigmoid 函數中去，輸出值介于 0 和 1 之間，越接近 0 意味著越應該丟棄，越接近 1 意味著越應該保留。