色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

搜索歷史

清空

搜索熱詞

0

聊天消息
系統消息
評論與回復

查看更多

查看更多

查看更多

VIP于到期續費

登錄后你可以

下載海量資料
學習在線課程
觀看技術視頻
寫文章/發帖/加入社區

會員中心

創作中心

發布

創作活動

完善資料讓更多小伙伴認識你，還能領取20積分哦，立即完善>

3天內不再提示

transformer原理解析

transformer架構可能看起來很恐怖，您也可能在YouTube或博客中看到了各種解釋。但是，在我的博客中，我將通過提供一個全面的數學示例闡明它的原理。通過這樣做，我希望簡化對transformer架構的理解。 那就開始吧！

Inputs and Positional Encoding

讓我們解決最初的部分，在那里我們將確定我們的輸入并計算它們的位置編碼。

Step 1 (Defining the data)

第一步是定義我們的數據集(語料庫)。

在我們的數據集中，有3個句子(對話) 取自《權力的游戲》電視劇。盡管這個數據集看起來很小，但它已經足以幫助我們理解之后的數學公式。

Step 2 (Finding the Vocab Size)

為了確定詞匯量，我們需要確定數據集中的唯一單詞總數。這對于編碼(即將數據轉換為數字) 至關重要。 ? 其中N是所有單詞的列表，并且每個單詞都是單個token，我們將把我們的數據集分解為一個token列表，表示為N。

獲得token列表(表示為N) 后，我們可以應用公式來計算詞匯量。具體公式原理如下：

使用set操作有助于刪除重復項，然后我們可以計算唯一的單詞以確定詞匯量。因此，詞匯量為23，因為給定列表中有23個獨特的單詞。

Step 3 (Encoding and Embedding)

接下來為數據集的每個唯一單詞分配一個整數作為編號。

在對我們的整個數據集進行編碼之后，是時候選擇我們的輸入了。我們將從語料庫中選擇一個句子以開始: ? “When you play game of thrones”

作為輸入傳遞的每個字將被表示為一個編碼，并且每個對應的整數值將有一個關聯的embedding聯系到它。

這些embedding可以使用谷歌Word2vec (單詞的矢量表示) 找到。在我們的數值示例中，我們將假設每個單詞的embedding向量填充有(0和1) 之間的隨機值。

此外，原始論文使用embedding向量的512維度，我們將考慮一個非常小的維度，即5作為數值示例。

現在，每個單詞embedding都由5維的embedding向量表示，并使用Excel函數RAND() 用隨機數填充值。

Step 4 (Positional Embedding)

讓我們考慮第一個單詞，即“when”，并為其計算位置embedding向量。位置embedding有兩個公式:

第一個單詞“when”的POS值將為零，因為它對應于序列的起始索引。此外，i的值(取決于是偶數還是奇數) 決定了用于計算PE值的公式。維度值表示embedding向量的維度，在我們的情形下，它是5。

繼續計算位置embedding，我們將為下一個單詞“you” 分配pos值1，并繼續為序列中的每個后續單詞遞增pos值。

找到位置embedding后，我們可以將其與原始單詞embedding聯系起來。

我們得到的結果向量是e1+p1，e2+p2，e3+p3等諸如此類的embedding和。 ?

Transformer架構的初始部分的輸出將在之后用作編碼器的輸入。 ?

在編碼器中，我們執行復雜的操作，涉及查詢（query），鍵（key）和值（value）的矩陣。這些操作對于轉換輸入數據和提取有意義的表示形式至關重要。

在多頭注意力（multi-head attention）機制內部，單個注意層由幾個關鍵組件組成。這些組件包括:

請注意，黃色框代表單頭注意力機制。讓它成為多頭注意力機制的是多個黃色盒子的疊加。出于示例的考慮，我們將僅考慮一個單頭注意力機制，如上圖所示。

Step 1 (Performing Single Head Attention)

注意力層有三個輸入

Query

Key

Value

在上面提供的圖中，三個輸入矩陣(粉紅色矩陣) 表示從將位置embedding添加到單詞embedding矩陣的上一步獲得的轉置輸出。另一方面，線性權重矩陣(黃色，藍色和紅色) 表示注意力機制中使用的權重。這些矩陣的列可以具有任意數量的維數，但是行數必須與用于乘法的輸入矩陣中的列數相同。在我們的例子中，我們將假設線性矩陣(黃色，藍色和紅色) 包含隨機權重。這些權重通常是隨機初始化的，然后在訓練過程中通過反向傳播和梯度下降等技術進行調整。所以讓我們計算(Query, Key and Value metrices):

一旦我們在注意力機制中有了query, key, 和value矩陣，我們就繼續進行額外的矩陣乘法。

現在，我們將結果矩陣與我們之前計算的值矩陣相乘:

如果我們有多個頭部注意力，每個注意力都會產生一個維度為(6x3) 的矩陣，那么下一步就是將這些矩陣級聯在一起。

在下一步中，我們將再次執行類似于用于獲取query, key, 和value矩陣的過程的線性轉換。此線性變換應用于從多個頭部注意獲得的級聯矩陣。

編輯：黃飛

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

函數

函數

+關注

關注
3

文章
4345

瀏覽量
62937
Transformer

Transformer

+關注

關注
0

文章
145

瀏覽量
6043

原文標題：圖解！逐步理解Transformers的數學原理

文章出處：【微信號：vision263com，微信公眾號：新機器視覺】歡迎添加關注！文章轉載請注明出處。

評論

相關推薦

手機通信原理解析

`手機通信原理解析：第 1 章　　無線通信原理第2 章　　移動通信系統第3 章　　移動通信系統的多址接入技術第4 章　　移動通信系統的語音編碼第5 章 GSM移動通信系統的數字

發表于 12-14 14:31

如何更改ABBYY PDF Transformer+界面語言

在安裝ABBYY PDF Transformer+時會讓您選擇界面語言。此語言將用于所有消息、對話框、按鈕和菜單項。在特殊情況下，您可能需要在安裝完成后更改界面語言以適應需求，方法其實很簡單，本文

發表于 10-11 16:13

定位技術原理解析

【追蹤嫌犯的利器】定位技術原理解析（4）

發表于 05-04 12:20

鋰電池基本原理解析

【鋰知道】鋰電池基本原理解析：充電及放電機制電池充電最重要的就是這三步：第一步：判斷電壓

發表于 09-15 06:47

虛擬存儲器部件原理解析

虛擬存儲器部件原理解析

發表于 04-15 14:25 ?3147次閱讀

觸摸屏的應用與工作原理解析

觸摸屏的應用與工作原理解析

發表于 02-08 02:13 ?38次下載

解析Transformer中的位置編碼 -- ICLR 2021

引言 Transformer是近年來非常流行的處理序列到序列問題的架構，其self-attention機制允許了長距離的詞直接聯系，可以使模型更容易學習序列的長距離依賴。由于其優良的可并行性以及可觀

的頭像

發表于 04-01 16:07 ?1.3w次閱讀

<b class='flag-5'>解析</b><b class='flag-5'>Transformer</b>中的位置編碼 -- ICLR 2021

史密斯圓圖和阻抗匹配原理解析

史密斯圓圖和阻抗匹配原理解析

的頭像

發表于 11-02 20:16 ?2047次閱讀

什么是晶振晶振工作原理解析

什么是晶振晶振工作原理解析

的頭像

發表于 12-30 17:13 ?4404次閱讀

什么是晶振晶振工作原<b class='flag-5'>理解析</b>

基于Transformer的目標檢測算法

掌握基于Transformer的目標檢測算法的思路和創新點，一些Transformer論文涉及的新概念比較多，話術沒有那么通俗易懂，讀完論文仍然不理解算法的細節部分。

發表于 08-16 10:51 ?679次閱讀

基于<b class='flag-5'>Transformer</b>的目標檢測算法

BEV人工智能transformer

BEV人工智能transformer? 人工智能Transformer技術是一種自然語言處理領域的重要技術，廣泛應用于自然語言理解、機器翻譯、文本分類等任務中。它通過深度學習算法從大規模語料庫中自動

的頭像

發表于 08-22 15:59 ?890次閱讀

基于Transformer的目標檢測算法難點

理解Transformer背后的理論基礎，比如自注意力機制（self-attention）, 位置編碼（positional embedding），目標查詢（object query）等等，網上的資料比較雜亂，不夠系統，難以通過自學做到深入

發表于 08-24 11:19 ?348次閱讀

基于<b class='flag-5'>Transformer</b>的目標檢測算法難點

大模型基礎Transformer結構的原理解析

該研究的結果適用于一般數據集，可以擴展到交叉注意力層，并且研究結論的實際有效性已經通過徹底的數值實驗得到了驗證。該研究建立一種新的研究視角，將多層 transformer 看作分離和選擇最佳 token 的 SVM 層次結構。

發表于 09-07 10:50 ?1241次閱讀

大模型基礎<b class='flag-5'>Transformer</b>結構的原<b class='flag-5'>理解析</b>

更深層的理解視覺Transformer，對視覺Transformer的剖析

最后是在ADE20K val上的LeaderBoard，通過榜單也可以看出，在榜單的前幾名中，Transformer結構依舊占據是當前的主力軍。

的頭像

發表于 12-07 09:39 ?802次閱讀

更深層的<b class='flag-5'>理解</b>視覺<b class='flag-5'>Transformer</b>，對視覺<b class='flag-5'>Transformer</b>的剖析

Transformer語言模型簡介與實現過程

任務，隨后迅速擴展到其他NLP任務中，如文本生成、語言理解、問答系統等。本文將詳細介紹Transformer語言模型的原理、特點、優勢以及實現過程。

的頭像

發表于 07-10 11:48 ?2052次閱讀

主站蜘蛛池模板：欧美成人一区二免费视频 | 日本一区二区三区在线观看网站 | 亚洲精品久久久午夜麻豆 | 男人一进一出桶女人视频 | 香港成人社区 | 国产电影一区二区三区 | 国产日韩精品SUV | 国产超碰人人爱被IOS解锁 | 亚洲精品高清AV在线播放 | 国产成人精品免费视频软件 | 妖精视频一区二区免费 | 亚洲欧美成人在线 | 99无人区码一码二码三 | 中文字幕国产视频 | 亚洲国产成人精品无码区APP | 岛国片免费看 | 恋夜秀场支持安卓版全部视频国产 | 久久精品国产欧美日韩99热 | 日本亚洲电影 | 99久久精品国产免费 | 久久精品国产亚洲AV热无遮挡 | 日韩hd高清xxxⅹ | 超碰97 总站中文字幕 | 风流少妇BBWBBW69视频 | 乳女教师欲乱动漫无修版动画 | 日韩人妻精品久久日 | 国产色婷婷精品人妻蜜桃成熟 | 香蕉59tv视频 | 婷婷综合久久狠狠色 | 国产MD视频一区二区三区 | 免费毛片在线播放 | 魔乳堕乳漫画acg产卵 | 久久视频这里只精品99热在线观看 | 国产精品亚洲电影久久成人影院 | 果冻传媒在线完整免费播放 | 亚洲精品福利一区二区在线观看 | 国内外成人免费在线视频 | 拔萝卜电视剧高清免费 | 欧美互交人妖247 | 免费观看成人www精品视频在线 | 日本激情网址 |