四虎影视在线看免费 720p,亚洲欧洲国产成人综合一本,一1黄绝一级绿象

導讀：Transformer在自然語言處理、計算機視覺和音頻處理方面取得了巨大成功。作為其核心組成部分之一，Softmax Attention模塊能夠捕捉長距離的依賴關系，但由于Softmax算子關于序列長度的二次空間和時間復雜性，使其很難擴展。

針對這點，研究者提出利用核方法以及稀疏注意力機制的方法來近似Softmax算子，從而降低時間空間復雜度。但是，由于誤差的存在，效果往往不盡如人意。

商湯多模態(tài)研究組認為，近似操作本身存在的誤差使得其效果很難超越Softmax Attention。我們的觀點是，與其近似Softmax，不如設計一種方式代替Softmax，并且同時降低時間空間復雜度。

因此，本文提出了名為cosFormer的方法，在時間空間復雜度關于序列長度為線性復雜度的同時，其性能接近或者超越Softmax Attention，并在LRA benchmark上取得SOTA結果。我們的設計核心理念基于兩點，首先是注意力矩陣的非負性，其次是對局部注意力的放大（非極大值抑制）。

本文主要介紹已收錄于ICLR 2022的一篇文章 cosFormer : Rethinking Softmax in Attention。

Part 1

背景

1. Softmax Attention

為了引出我們的方法，對Softmax Attention的計算方式進行一定的推廣：

其中表示相似度計算函數，如果，上式即變?yōu)镾oftmax Attention（不考慮除以的縮放操作）。注意到計算的時間復雜度為，的時間復雜度為，所以總時間復雜度為，即關于序列長度是二次的。

2. 線性 Attention

通過分析我們發(fā)現，性能瓶頸的主要原因是操作，如果相似度函數可以表示為：

那么：

根據矩陣運算的結合律：

上式可以變換為（編者修正：下方公式未變換，請參照論文）：

經過計算后可以得到該方法的時間復雜度為，即關于序列長度是一次的。

Softmax Attention和線性Attention的計算方式可以用下圖概括：

所以接下來將介紹的選擇，以及核心的reweighting操作。

3. Softmax 的兩大性質

我們經過分析以及實驗，歸納出Softmax Attention中比較重要的性質，這兩個性質可以指導我們的模型設計：

1. 注意力矩陣的非負性

2. 局部注意力的放大（非極大值抑制）

對于第一點，我們有如下實驗進行驗證（模型結構為RoBERTa）：

這里Loss表示驗證集損失（越低越好），其余指標均為準確率（越高越好）。可以看到，當保證了注意力矩陣的非負性之后，可以達到較好的效果?；谠搶嶒灒覀冞x擇為ReLU函數。

對于第二點，我們的方式是在注意力矩陣中引入先驗locality信息，觀察Softmax注意力矩陣，如下圖所示，我們發(fā)現其注意力矩陣的權重在對角線附近很集中：

所以我們的方法需要在加了reweighting操作后也更加集中在對角線附近。注意并非所有的有類似權重的函數均適用，這個reweighting的函數需要跟前面的QK一樣可以拆分成兩個矩陣的乘法的形式。

至此，就可以引入我們的cosFormer了。

Part 2

cosFormer

1. 方法

我們的方法基于線性Attention，首先給出符號定義：

根據之前的分析，我們選擇了：

可得：

為了進行reweighting操作，并且同時保證線性Attention的計算方式依然成立，我們選擇了cos函數：

展開可得：

為了便于展示，我們把它記作：

最終得到：

上式和線性Attention的計算方式一致，經過分析不難得出時間復雜度依然是。

2. 實驗結果

我們在單向模型、雙向模型以及LRA benchmark上測試了我們的方法，均取得了非常不錯的效果。

單向語言模型，指標表示困惑度（越低越好）：

雙向語言模型，指標表示準確率（越高越好）：

LRA benchmark：

1）性能實驗，指標表示準確率（越高越好）：

2）內存速度實驗，指標表示速度（越高越好，如果內存溢出，則標記為叉）：

審核編輯：李倩

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

函數

函數

+關注

關注
3

文章
4345

瀏覽量
62877
計算機視覺

計算機視覺

+關注

關注
8

文章
1700

瀏覽量
46076
Softmax

Softmax

+關注

關注
0

文章
9

瀏覽量
2532

原文標題：ICLR'22 | cosFormer：重新思考注意力機制中的Softmax

文章出處：【微信號：zenRRan，微信公眾號：深度學習自然語言處理】歡迎添加關注！文章轉載請注明出處。

ADS1299S是否推薦有與DEMO匹配的傳感器頭？

我們目前有個項目主要用于檢測幼兒的注意力，請問一下，TI ADS1299S是否推薦有與DEMO匹配的傳感器頭？如果有，請推薦。

發(fā)表于 11-26 08:30

什么是LLM？LLM在自然語言處理中的應用

所未有的精度和效率處理和生成自然語言。 LLM的基本原理 LLM基于深度學習技術，尤其是變換器（Transformer）架構。變換器模型因其自注意力（Self-Attention）機制而聞名，這種機制使得模型能夠捕捉文本

發(fā)表于 11-19 15:32 ?821次閱讀

一種基于因果路徑的層次圖卷積注意力網絡

機電系統(tǒng)中數據驅動故障檢測模型的性能和可解釋性。引入了一種混合因果發(fā)現算法來發(fā)現監(jiān)測變量之間的繼承因果關系。順序連接因果變量的因果路徑用作接收場，使用多尺度卷積來提取特征。基于分層注意力機制來聚合

發(fā)表于 11-12 09:52 ?357次閱讀

一種基于因果路徑的層次圖卷積<b class='flag-5'>注意力</b>網絡

一種創(chuàng)新的動態(tài)軌跡預測方法

本文提出了一種動態(tài)軌跡預測方法，通過結合歷史幀和歷史預測結果來提高預測的穩(wěn)定性和準確性。它引入了歷史預測注意力模塊，以編碼連續(xù)預測之間的動態(tài)關系，并通過三重因子注意力模塊實現了最先進的性能。本方法能夠生成準確且穩(wěn)定的未來軌跡，這對于自動駕駛系統(tǒng)落地至關重要。

發(fā)表于 10-28 14:34 ?494次閱讀

Llama 3 模型與其他AI工具對比

、技術架構 Llama 3模型采用了最新的Transformer架構，并結合了自注意力機制和分組查詢關注（GQA）機制。引入了高效的tokenizer和RoPE位置編碼，提高了語言編碼和長文

發(fā)表于 10-27 14:37 ?470次閱讀

N型接口在維修過程中需要注意哪些問題

德索工程師說道在組裝N型接口時，應按照拆解時的相反順序進行。注意各部件的裝配順序和位置，確保每個部件都安裝到位且緊固牢固。特別是防水膠圈和橡膠環(huán)等密封部件，必須正確安裝以確保接口的密封性。使用扳手或螺絲刀等工具時，要注意力度適中，避免過緊或過松導致接口損壞或松動。

發(fā)表于 09-28 15:22 ?236次閱讀

N型接口在維修過程<b class='flag-5'>中</b>需要<b class='flag-5'>注意</b>哪些問題

LDO穩(wěn)壓器的過流保護機制

LDO穩(wěn)壓器（Low-Dropout Regulator）在實現過流保護方面，采用了多種機制來確保在負載電流超過其額定值時能夠保護電路不受損壞。以下是對LDO穩(wěn)壓器如何實現過流保護的詳細分析，包括其工作原理、過流保護機制、設計要點以及實際應用

發(fā)表于 09-11 14:14 ?1619次閱讀

2024 年 19 種最佳大型語言模型

，當時一篇題為“通過聯(lián)合學習對齊和翻譯的神經機器翻譯”的研究論文中引入了注意力機制（一種旨在模仿人類認知注意力的機器學習技術）。2017年，另一篇論文“注意力就是你

發(fā)表于 08-30 12:56 ?588次閱讀

【《大語言模型應用指南》閱讀體驗】+ 基礎知識學習

并捕捉長距離依賴關系的神經網絡結構。Transformer通過編碼器（Encoder）和解碼器（Decoder）兩部分實現語言的編碼和解碼。 注意力機制：Transformer中的注意力

發(fā)表于 08-02 11:03

Transformer模型在語音識別和語音生成中的應用優(yōu)勢

隨著人工智能技術的飛速發(fā)展，語音識別和語音生成作為人機交互的重要組成部分，正逐漸滲透到我們生活的各個方面。而Transformer模型，自其誕生以來，憑借其獨特的自注意力機制和并行計算能力，在

發(fā)表于 07-03 18:24 ?1267次閱讀

【大規(guī)模語言模型：從理論到實踐】- 閱讀體驗

再次感謝電子發(fā)燒友提供的書籍試讀機會。今天來分享下我在學習大模型訓練中 注意力機制的心得體會。雖然注意力機制可以顯著提高模型處理長序列數

發(fā)表于 06-07 14:44

浪潮信息發(fā)布源2.0-M32開源大模型，模算效率大幅提升

5月28日，浪潮信息發(fā)布“源2.0-M32”開源大模型?！霸?.0-M32”在基于”源2.0”系列大模型已有工作基礎上，創(chuàng)新性地提出和采用了“基于注意力機制的門控網絡”技術

發(fā)表于 05-29 09:34 ?477次閱讀

浪潮信息發(fā)布“源2.0-M32”開源大模型

浪潮信息近日推出了革命性的“源2.0-M32”開源大模型。該模型在源2.0系列基礎上，引入了“基于注意力機制的門控網絡”技術，構建了一個包含32個專家的混合專家模型（MoE），有效提升了模型算力效率。

發(fā)表于 05-29 09:08 ?701次閱讀

采用單片超構表面與元注意力網絡實現快照式近紅外光譜成像

日前，北京理工大學王涌天教授、黃玲玲教授團隊聯(lián)合張軍院士、邊麗蘅教授團隊，采用單片超構表面與元注意力網絡實現快照式近紅外光譜成像。

發(fā)表于 04-25 09:08 ?1204次閱讀

阿里巴巴發(fā)布AtomoVideo，兼容多款文生圖模型的高保真圖像視頻框架

AtomoVideo運用預設的 T2I 模型，在每個空間卷積層和注意力層后新增一維時空卷積和注意力模塊?，F有的 T2I 模型參數固定不變，它們只會訓練新增的時空層，而輸入的串聯(lián)圖像信息由 VAE 編碼解析

發(fā)表于 03-07 11:22 ?847次閱讀

色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

搜索歷史

cosFormer：重新思考注意力機制中的Softmax

評論

ADS1299S是否推薦有與DEMO匹配的傳感器頭？

什么是LLM？LLM在自然語言處理中的應用

一種基于因果路徑的層次圖卷積注意力網絡

一種創(chuàng)新的動態(tài)軌跡預測方法

Llama 3 模型與其他AI工具對比

N型接口在維修過程中需要注意哪些問題

LDO穩(wěn)壓器的過流保護機制

2024 年 19 種最佳大型語言模型

【《大語言模型應用指南》閱讀體驗】+ 基礎知識學習

Transformer模型在語音識別和語音生成中的應用優(yōu)勢

【大規(guī)模語言模型：從理論到實踐】- 閱讀體驗

浪潮信息發(fā)布源2.0-M32開源大模型，模算效率大幅提升

浪潮信息發(fā)布“源2.0-M32”開源大模型

采用單片超構表面與元注意力網絡實現快照式近紅外光譜成像

阿里巴巴發(fā)布AtomoVideo，兼容多款文生圖模型的高保真圖像視頻框架