色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

全新近似注意力機制HyperAttention:對長上下文友好、LLM推理提速50%

智能感知與物聯網技術研究所 ? 來源:未知 ? 2023-11-20 09:15 ? 次閱讀

本文介紹了一項近似注意力機制新研究,耶魯大學、谷歌研究院等機構提出了 HyperAttention,使 ChatGLM2 在 32k 上下文長度上的推理時間快了 50%。

Transformer 已經成功應用于自然語言處理、計算機視覺和時間序列預測等領域的各種學習任務。雖然取得了成功,但這些模型仍面臨著嚴重的可擴展性限制,原因是對其注意力層的精確計算導致了二次(在序列長度上)運行時和內存復雜性。這對將 Transformer 模型擴展到更長的上下文長度帶來了根本性的挑戰。

業界已經探索了各種方法來解決二次時間注意力層的問題,其中一個值得注意的方向是近似注意力層中的中間矩陣。實現這一點的方法包括通過稀疏矩陣、低秩矩陣進行近似,或兩者的結合。

然而,這些方法并不能為注意力輸出矩陣的近似提供端到端的保證。這些方法旨在更快地逼近注意力的各個組成部分,但沒有一種方法能提供完整點積注意力的端到端逼近。這些方法還不支持使用因果掩碼,而因果掩碼是現代 Transformer 架構的重要組成部分。最近的理論邊界表明,在一般情況下,不可能在次二次時間內對注意力矩陣進行分項近似。

不過,最近一項名為 KDEFormer 的研究表明,在注意力矩陣項有界的假設條件下,它能在次二次時間內提供可證明的近似值。從理論上講,KDEFormer 的運行時大約為wKgaomVatXSAd4KEAAAj-BkCQpQ266.png;它采用核密度估計 (kernel density estimation,KDE) 來近似列范數,允許計算對注意力矩陣的列進行采樣的概率。然而,目前的 KDE 算法缺乏實際效率,即使在理論上,KDEFormer 的運行時與理論上可行的 O (n) 時間算法之間也有差距。

在文中,作者證明了在同樣的有界條目假設下,近線性時間的wKgaomVatXSAIZhXAAAmcIOjzdA190.png算法是可能的。不過,他們的算法還涉及使用多項式方法來逼近 softmax,很可能不切實際。

而在本文中,來自耶魯大學、谷歌研究院等機構的研究者提供了一種兩全其美的算法,既實用高效,又是能實現最佳近線性時間保證。此外,該方法還支持因果掩碼,這在以前的工作中是不可能實現的。

wKgaomVatXSAWIf-AADhEm94wEc442.png論文標題:HyperAttention: Long-context Attention in Near-Linear Time

論文鏈接:

https://arxiv.org/abs/2310.05869 本文提出一種名為「HyperAttention」近似注意力機制,以解決大型語言模型中使用的長上下文日益復雜帶來的計算挑戰。最近的工作表明,在最壞情況下,除非注意力矩陣的條目有界或矩陣的穩定秩較低,否則二次時間是必要的。 研究者引入了兩個參數來衡量:(1)歸一化注意力矩陣中的最大列范數,(2)檢測和刪除大條目后,非歸一化注意力矩陣中的行范數的比例。他們使用這些細粒度參數來反映問題的難易程度。只要上述參數很小,即使矩陣具有無界條目或較大的穩定秩,也能夠實現線性時間采樣算法。 HyperAttention 的特點是模塊化設計,可以輕松集成其他快速底層實現,特別是 FlashAttention。根據經驗,使用 LSH 算法來識別大型條目,HyperAttention 優于現有方法,與 FlashAttention 等 SOTA 解決方案相比,速度有了顯著提高。研究者在各種不同的長上下文長度數據集上驗證了 HyperAttention 的性能。 例如,HyperAttention 使 ChatGLM2 在 32k 上下文長度上的推理時間快了 50%,而困惑度從 5.6 增加到 6.3。更大的上下文長度(例如 131k)和因果掩碼情況下,HyperAttention 在單個注意力層上速度提升了 5 倍。

wKgaomVatXWAQcFpAAAl6LOgh3c754.png

方法概覽

點積注意涉及處理三個輸入矩陣: Q (queries) 、K (key)、V (value),大小均為 nxd,其中 n 是輸入序列中的 token 數,d 是潛在表征的維度。這一過程的輸出結果如下: wKgaomVatXWAZgkOAAAfVdxX5gM607.png這里,矩陣 A := exp (QK^T) 被定義為 QK^T 的元素指數。D 是一個 n×n 對角矩陣,由 A 各行之和導出, 這里wKgaomVatXWAAz0GAAAiBuZVYJA727.png。在這種情況下,矩陣 A 被稱為「注意力矩陣」,(D^-1 ) A 被稱為「softmax 矩陣」。值得注意的是,直接計算注意力矩陣 A 需要 Θ(n2d)運算,而存儲它需要消耗 Θ(n2)內存。因此,直接計算 Att 需要 Ω(n2d)的運行時和 Ω(n2)的內存。 研究者目標是高效地近似輸出矩陣 Att,同時保留其頻譜特性。他們的策略包括為對角縮放矩陣 D 設計一個近線性時間的高效估計器。此外,他們通過子采樣快速逼近 softmax 矩陣 D^-1A 的矩陣乘積。更具體地說,他們的目標是找到一個具有有限行數wKgaomVatXWATa9JAAAZsK-6bzI984.png的采樣矩陣wKgaomVatXWAMUfyAAAbYq24jSg489.png以及一個對角矩陣wKgaomVatXWAAUZFAAAhra7jlpc932.png,從而滿足誤差的算子規范的以下約束:

wKgaomVatXWAIYg2AAAr2SbbyCk382.png

研究者表明,通過基于 V 的行規范定義采樣矩陣 S,可以高效解決公式 (1) 中注意力近似問題的矩陣乘法部分。更具挑戰性的問題是:如何獲得對角矩陣 D 的可靠近似值。在最近的成果中,Zandieh 有效地利用了快速 KDE 求解器來獲得 D 的高質量近似值。研究者簡化了 KDEformer 程序,并證明均勻采樣足以實現所需的頻譜保證,而無需基于內核密度的重要性采樣。這一重大簡化使他們開發出了一種實用的、可證明的線性時間算法。 與之前的研究不同,本文方法并不需要有界條目或有界穩定秩。此外,即使注意力矩陣中的條目或穩定秩很大,為分析時間復雜性而引入的細粒度參數仍可能很小。 因此,HyperAttention 的速度有了顯著提高,在序列長度為 n= 131k 時,前向和后向傳播速度提高了 50 倍以上。在處理因果掩碼時,該方法仍能大幅提高 5 倍的速度。此外,當該方法應用于預訓練的 LLM (如 chatqlm2-6b-32k )并在長語境基準數據集 LongBench 上進行評估時,即使不需要微調,也能保持與原始模型接近的性能水平。研究者還對特定任務進行了評估,他們發現總結和代碼完成任務比問題解答任務對近似注意力層的影響更大。 wKgaomVatXaAGSd-AAAuhh9-KLM284.png

算法

為了在近似 Att 時獲得頻譜保證,本文第一步是對矩陣 D 的對角線項進行 1 ± ε 近似。隨后,根據 V 的平方行??-norms,通過采樣逼近 (D^-1)A 和 V 之間的矩陣乘積。 近似 D 的過程包括兩個步驟。首先,使用植根于 Hamming 排序 LSH 的算法來識別注意力矩陣中的主要條目,如定義 1 所示。第二步是隨機選擇一小部分 K。本文將證明,在矩陣 A 和 D 的某些溫和假設條件下,這種簡單的方法可以建立估計矩陣的頻譜邊界。研究者的目標是找到一個足夠精確的近似矩陣 D,滿足:

wKgaomVatXaAOQYPAAAdq4JZBAs529.png

本文的假設是,softmax 矩陣的列范數呈現出相對均勻的分布。更準確地說,研究者假設對于任意 i ∈ [n] t 存在某個wKgaomVatXaADb12AAAZzft9E2E471.png,使得wKgaomVatXaAAVDlAAAaZqcXsoc020.png 算法的第一步是使用 Hamming 排序 LSH (sortLSH) 將鍵和查詢散列到大小均勻的桶中,從而識別注意力矩陣 A 中的大型條目。算法 1 詳細介紹了這一過程,圖 1 直觀地說明了這一過程。

wKgaomVatXaAIx7sAAVnRLhrYDE491.png

算法 1 返回一個稀疏掩碼,旨在隔離注意力矩陣的主要條目。給定該掩碼后,研究員在算法 2 中計算矩陣 D 的近似值,該近似值滿足公式 (2) 中的頻譜保證。該算法通過將掩碼對應的注意力值與注意力矩陣中隨機選擇的列子集相結合來實現。本文算法用途廣泛,可以有效地使用預定義的掩碼,該掩碼指定了注意力矩陣中主要條目的位置。本算法提供的主要保證在定理 1 中給出。 wKgaomVatXaANqE-AAL0Div2PSc920.pngwKgaomVatXeAcOJZAAIvObxKUuU576.png ?整合近似對角線wKgaomVatXeAFn02AAAGu12uRTk816.png和近似wKgaomVatXeALKjAAAARiiku4gQ762.png與值矩陣 V 之間矩陣乘積的子程序。因此,研究者引入了 HyperAttention,這是一種高效算法,可以在近似線性時間內近似公式(1)中具有頻譜保證的注意力機制。算法 3 將定義注意力矩陣中主導條目的位置的掩碼 MH 作為輸入。這個掩碼可以使用 sortLSH 算法(算法 1)生成,也可以是一個預定義的掩碼,類似于 [7] 中的方法。研究者假定大條目掩碼 M^H 在設計上是稀疏的,而且其非零條目數是有界的wKgaomVatXeAH1nUAAA8SfTlCHg138.png 如圖 2 所示,本文方法基于一個重要的觀察結果。屏蔽注意力 M^C⊙A 可以分解成三個非零矩陣,每個矩陣的大小是原始注意力矩陣的一半。完全位于對角線下方的 A_21 塊是未屏蔽注意力。因此,我們可以使用算法 2 近似計算其行和。 圖 2 中顯示的兩個對角線區塊wKgaomVatXeAYCE-AAAjeEVNmD4502.pngwKgaomVatXeADgI7AAAqTyRgP58902.png是因果注意力,其大小只有原來的一半。為了處理這些因果關系,研究者采用遞歸方法,將它們進一步分割成更小的區塊,并重復這一過程。算法 4 中給出了這一過程的偽代碼。

wKgaomVatXiAfw5iAAPeIK7oQjE541.png

wKgaomVatXiAI0lIAAAtJ0fTuoM112.png

實驗及結果

研究者通過擴展現有大語言模型來處理 long range 序列,進而對算法進行基準測試。所有實驗都在單個 40GB 的 A100 GPU 上運行,并用 FlashAttention 2 來進行精確的注意力計算。 Monkey Patching自注意力 研究者首先在兩個預訓練 LLM 上評估 HyperAttention,選擇了實際應用中廣泛使用的具有不同架構的兩個模型:chatglm2-6b-32k 和 phi-1.5。 在操作中,他們通過替換為 HyperAttention 來 patch 最終的?注意力層,其中?的數量可以從 0 到每個 LLM 中所有注意力層的總數不等。請注意,兩個模型中的注意力都需要因果掩碼,并且遞歸地應用算法 4 直到輸入序列長度 n 小于 4,096。對于所有序列長度,研究者將 bucket 大小 b 和采樣列數 m 均設置為 256。他們從困惑度和加速度兩個方面評估了這類 monkey patched 模型的性能。 同時研究者使用了一個長上下文基準數據集的集合 LongBench,它包含了 6 個不同的任務,即單 / 多文檔問答、摘要、小樣本學習、合成任務和代碼補全。他們選擇了編碼序列長度大于 32,768 的數據集的子集,并且如果長度超過 32,768,則進行剪枝。接著計算每個模型的困惑度,即下一個 token 預測的損失。為了突出長序列的可擴展性,研究者還計算所有注意力層的總加速,無論是由 HyperAttention 還是 FlashAttention 執行。 結果如下圖 3 所示,即使經過 HyperAttention 的 monkey patch,chatglm2-6b-32k 仍顯示出合理的困惑度。例如替換 20 層后,困惑度大約增加了 1,并在達到 24 層之前繼續緩慢增加。注意力層的運行時提升了大約 50%。如果所有層都被替換,則困惑度上升到 12,運行速度提升 2.3。phi-1.5 模型也表現出了類似的情況,但隨著 HyperAttention 數量的增加,困惑度會線性增長。

wKgaomVatXiAKM9NAAOgYOcDAXI305.png此外,研究者評估了 LongBench 數據集上 monkey patched chatglm2-6b-32k 的性能,并計算單 / 多文檔問答、摘要、小樣本學習、合成任務和代碼補全等各自任務上的評估分數。結果如下表 1 所示。 雖然替換 HyperAttention 通常會導致性能下降,但他們觀察到它的影響會基于手頭任務發生變化。例如,摘要和代碼補全相對于其他任務具有最強的穩健性。

wKgaomVatXiABr5RAALiMWqbnBo186.png

顯著的一點是,當半數注意力層(即 14 層)被 patch 之后,研究者證實了大多數任務的性能下降幅度不會超過 13%。尤其是摘要任務,其性能幾乎保持不變,表明該任務對注意力機制中的部分修改具有最強的穩健性。當 n=32k 時,注意力層的計算速度提升了 1.5 倍。 單個自注意力層 研究者進一步探索了序列長度從 4,096 到 131,072 不等時,HyperAttention 的加速度。他們測量了當使用 FlashAttention 計算或通過 HyperAttention 加速時,前向和前向 + 后向操作的掛鐘時間。此外還測量了有或沒有因果掩碼時的掛鐘時間。所有輸入 Q、K 和 V 的長度相同,維數固定為 d = 64,注意力頭數量為 12。 他們在 HyperAttention 中選擇與前文相同的參數。如下圖 4 所示,HyperAttention 在沒有應用因果掩碼時速度提升 54 倍,用了之后速度提升 5.4。盡管因果掩碼和非掩碼的時間困惑度相同,但因果掩碼的實際算法(算法 1)需要額外的操作,例如分區 Q、K 和 V、合并注意力輸出,從而導致實際運行時增加。當序列長度 n 增加時,加速度會更高。 研究者認為,不僅對于推理,而且對于訓練或微調 LLM 以適應更長的序列,這些結果為擴展自注意力打開了大門。

wKgaomVatXiAM6AuAANtlfnnBVY941.png ?


原文標題:全新近似注意力機制HyperAttention:對長上下文友好、LLM推理提速50%

文章出處:【微信公眾號:智能感知與物聯網技術研究所】歡迎添加關注!文章轉載請注明出處。


聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 物聯網
    +關注

    關注

    2909

    文章

    44578

    瀏覽量

    372880

原文標題:全新近似注意力機制HyperAttention:對長上下文友好、LLM推理提速50%

文章出處:【微信號:tyutcsplab,微信公眾號:智能感知與物聯網技術研究所】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    什么是LLMLLM在自然語言處理中的應用

    所未有的精度和效率處理和生成自然語言。 LLM的基本原理 LLM基于深度學習技術,尤其是變換器(Transformer)架構。變換器模型因其自注意力(Self-Attention)機制
    的頭像 發表于 11-19 15:32 ?538次閱讀

    一種基于因果路徑的層次圖卷積注意力網絡

    機電系統中數據驅動故障檢測模型的性能和可解釋性。引入了一種混合因果發現算法來發現監測變量之間的繼承因果關系。順序連接因果變量的因果路徑用作接收場,使用多尺度卷積來提取特征。基于分層注意力機制來聚合
    的頭像 發表于 11-12 09:52 ?262次閱讀
    一種基于因果路徑的層次圖卷積<b class='flag-5'>注意力</b>網絡

    Llama 3 在自然語言處理中的優勢

    領域的最新進展。 1. 高度的上下文理解能力 Llama 3的一個顯著優勢是其對上下文的深刻理解。傳統的NLP模型往往在處理復雜的語言結構和上下文依賴性時遇到困難。Llama 3通過使用先進的
    的頭像 發表于 10-27 14:22 ?271次閱讀

    魔搭社區借助NVIDIA TensorRT-LLM提升LLM推理效率

    “魔搭社區是中國最具影響的模型開源社區,致力給開發者提供模型即服務的體驗。魔搭社區利用NVIDIA TensorRT-LLM,大大提高了大語言模型的推理性能,方便了模型應用部署,提高了大模型產業應用效率,更大規模地釋放大模型的
    的頭像 發表于 08-23 15:48 ?439次閱讀

    SystemView上下文統計窗口識別阻塞原因

    SystemView工具可以記錄嵌入式系統的運行時行為,實現可視化的深入分析。在新發布的v3.54版本中,增加了一項新功能:上下文統計窗口,提供了對任務運行時統計信息的深入分析,使用戶能夠徹底檢查每個任務,幫助開發人員識別阻塞原因。
    的頭像 發表于 08-20 11:31 ?431次閱讀

    【《大語言模型應用指南》閱讀體驗】+ 基礎知識學習

    并捕捉長距離依賴關系的神經網絡結構。Transformer通過編碼器(Encoder)和解碼器(Decoder)兩部分實現語言的編碼和解碼。 注意力機制:Transformer中的注意力機制
    發表于 08-02 11:03

    LLM大模型推理加速的關鍵技術

    LLM(大型語言模型)大模型推理加速是當前人工智能領域的一個研究熱點,旨在提高模型在處理復雜任務時的效率和響應速度。以下是對LLM大模型推理加速關鍵技術的詳細探討,內容將涵蓋模型壓縮、
    的頭像 發表于 07-24 11:38 ?867次閱讀

    llm模型有哪些格式

    : 基于Transformer的模型 Transformer是一種基于自注意力機制的模型,廣泛應用于NLP領域。基于Transformer的LLM模型包括: a. BERT(Bidirectional Encoder
    的頭像 發表于 07-09 09:59 ?599次閱讀

    【大規模語言模型:從理論到實踐】- 閱讀體驗

    注意力機制的計算復雜度隨著序列長度的增加而迅速增長,這可能會成為模型訓練和推理時的瓶頸。 與計算效率類似,注意力機制在處理長序列時也會消耗
    發表于 06-07 14:44

    鴻蒙Ability Kit(程序框架服務)【應用上下文Context】

    [Context]是應用中對象的上下文,其提供了應用的一些基礎信息,例如resourceManager(資源管理)、applicationInfo(當前應用信息)、dir(應用文件路徑)、area
    的頭像 發表于 06-06 09:22 ?492次閱讀
    鴻蒙Ability Kit(程序框架服務)【應用<b class='flag-5'>上下文</b>Context】

    編寫一個任務調度程序,在上下文切換后遇到了一些問題求解

    大家好, 我正在編寫一個任務調度程序,在上下文切換后遇到了一些問題。 為下一個任務恢復上下文后: __builtin_tricore_mtcr_by_name(\"pcxi\"
    發表于 05-22 07:50

    【大語言模型:原理與工程實踐】揭開大語言模型的面紗

    用于文本生成,根據提示或上下文生成連貫、富有創造性的文本,為故事創作等提供無限可能。大語言模型也面臨挑戰。一方面,其計算資源需求巨大,訓練和推理耗時;另一方面,模型高度依賴數據,需要大規模訓練數據才能
    發表于 05-04 23:55

    TC397收到EVAL_6EDL7141_TRAP_1SH 3上下文管理EVAL_6EDL7141_TRAP_1SH錯誤怎么解決?

    我收到EVAL_6EDL7141_TRAP_1SH 3 類(TIN4-Free 上下文列表下溢)上下文管理EVAL_6EDL7141_TRAP_1SH錯誤。 請告訴我解決這個問題的辦法。
    發表于 03-06 08:00

    請問risc-v中斷還需要軟件保存上下文和恢復嗎?

    risc-v中斷還需要軟件保存上下文和恢復嗎?
    發表于 02-26 07:40

    ISR的上下文保存和恢復是如何完成的?

    函數:ifxCPU_enableInterrupts ();如果我讓更高優先級的 ISR 中斷優先級較低的 ISR,那么 ISR 的上下文保存和恢復是如何完成的?
    發表于 01-22 06:28
    主站蜘蛛池模板: 女人精69xxxxx| 另类专区hy777| 久久久国产精品免费A片蜜芽广| 琪琪热热色原日韩在线| 艳照门在线观看| 国产女人喷潮视频免费| 日韩一区二区三区精品| 被男按摩师添的好爽在线直播| 免费看毛片的网址| 99精品久久精品一区二区| 免费国产成人| 99久久精品免费看国产一区二区三区| 久久亚洲这里只有精品18 | 好吊妞国产欧美日韩视频| 婷婷五月久久丁香国产综合| 国产跪地吃黄金喝圣水合集| 少男同志freedeos| 国产精品亚洲专区在线播放| 性色AV一区二区三区咪爱四虎| 国产精品婷婷久青青原| 亚洲精品乱码8久久久久久日本 | 学生妹被爆插到高潮无遮挡| 国产精品人妻无码久久久2022| 亚洲AV精品无码国产一区| 吉吉影音先锋av资源| 中文亚洲大香伊蕉不卡一区| 秘密教学93话恩爱久等了免费| 91久久偷偷做嫩草影院免| 秋霞伦理电影在2017韩国在线伦| 俄罗斯12一15处交| 午夜DY888国产精品影院| 国产亚洲精品在线视频| 一区二区不卡在线视频| 免费无码一区二区三区蜜桃大| xxx性欧美在线| 午夜神器18以下不能进免费| 久久超碰国产精品最新| a三级黄色片| 香蕉人人超人人超碰超国产| 久久久久久九九| yellow日本高清在线|